यह बेंचमार्क क्यों मौजूद है और यह क्या जांचता है

एआई-सहायता प्राप्त ब्लड टेस्ट रिपोर्ट समझें का उपयोग उपभोक्ता और नैदानिक वर्कफ़्लो में तेजी से किया जा रहा है, फिर भी प्रयोगशाला चिकित्सा के अनुरूप पुनरुत्पाद्य मूल्यांकन ढाँचे दुर्लभ बने हुए हैं। इस संदर्भ में सबसे महत्वपूर्ण प्रश्न वे नहीं हैं जो सामान्य चिकित्सा प्रश्न-उत्तर बेंचमार्क में कवर होते हैं: क्या कोई इंजन तब आयरन की कमी को थैलेसीमिया ट्रेट से अलग कर सकता है जब मीन कॉर्पस्कुलर वॉल्यूम समान हो, क्या वह गिल्बर्ट्स सिंड्रोम को हेपेटाइटिस के रूप में ओवर-डायग्नोज़ करता है, और क्या वह पूरी तरह सामान्य स्क्रीनिंग पैनल में पैथोलॉजी “बनाता” है?

प्री-रजिस्टर्ड रूब्रिक फ्लो डायग्राम जो दिखाता है कि Kantesti AI Engine — V11 Second Update, 100,000 केसों पर 99.80% कंपोज़िट स्कोर — को फ्रीज़्ड स्कोरिंग मानदंडों के विरुद्ध कैसे मूल्यांकित किया जाता है
चित्र 1: उस बेंचमार्क आर्किटेक्चर के पीछे 99.80% कंपोज़िट स्कोर V11 सेकंड अपडेट पर 100,000-केस कोहोर्ट — हर केस, हर कीवर्ड, हर स्कोरिंग सिस्टम इंजन के एक भी PDF देखने से पहले सोर्स कोड में तय होता है, और रूब्रिक V11 प्रारंभिक रिलीज़ के समान बाइट-आइडेंटिकल है। पोस्ट-हॉक रूब्रिक ट्यूनिंग डिज़ाइन के अनुसार असंभव है।.

एकल ब्लड टेस्ट पैनल में आम तौर पर कई प्रतिस्पर्धी व्याख्याओं का समर्थन करने के लिए पर्याप्त संकेत होते हैं, और व्याख्या करने वाले चिकित्सक का काम उन व्याख्याओं को एक-दूसरे के विरुद्ध तौलना होता है, न कि किसी पाठ्यपुस्तक-सा एक निश्चित उत्तर निकालना। जो इंजन पाठ्यपुस्तक वाले मामलों में अच्छा प्रदर्शन करता है, वह फिर भी उन मामलों में असफल हो सकता है जो सबसे अधिक मायने रखते हैं: विभेदक-निदान की गलतियाँ, वे सौम्य विविधताएँ जो अकेले में चिंताजनक लगती हैं, और वे पूरी तरह सामान्य पैनल जो आत्मविश्वासी सहायकों को पैथोलॉजी गढ़ने के लिए लुभाते हैं।.

यह बेंचमार्क ठीक उन्हीं विफलता-प्रकारों के इर्द-गिर्द बनाया गया था। पंद्रहों मामलों को किसी विशिष्ट नैदानिक गुण के लिए चुना गया: एक आयरन-की कमी से होने वाली माइक्रोसाइटोसिस जिसे समान mean corpuscular volume वाले beta-thalassaemia trait से अलग रखना जरूरी है; एक Gilbert's syndrome प्रस्तुति जिसमें एकमात्र असामान्यता अलग-थलग indirect hyperbilirubinaemia है; और एक पंद्रह-पैरामीटर स्क्रीनिंग पैनल जिसमें हर analyte अपने संदर्भ-सीमा के भीतर बैठता है। यह रूब्रिक उन इंजनों को पुरस्कृत करती है जो हर केस को अपने संदर्भ में पढ़ते हैं और उन इंजनों को दंडित करती है जो ऐसे आत्मविश्वासपूर्ण निदान तक पहुँच जाते हैं जहाँ ऐसा निदान उचित नहीं है।.

डॉ. थॉमस क्लाइन के रूप में, मैंने केस पैनल इसलिए चुना क्योंकि ये वे पैटर्न हैं जिन्हें लैब-चिकित्सा सहायक सबसे अधिक बार गलत करते हैं।. महँगा विफलता-प्रकार "दुर्लभ बीमारी को चूकना" नहीं है — यह उन मरीजों में नियमित पैथोलॉजी गढ़ देना है जिनमें वह मौजूद नहीं है।. हमारा चिकित्सा सत्यापन hub व्यापक फ्रेमवर्क का वर्णन करता है; यह पेज V11 प्रारंभिक प्रूफ-ऑफ-कॉन्सेप्ट और V11 दूसरा अपडेट का वर्णन करता है, जिसने इसे 127 देश लेबल्स को कवर करने वाले एक सिंथेटिक केस सेट से निकाले गए 100,000 सिंथेटिक केसों तक स्केल किया — उसी स्कोरिंग रूब्रिक का उपयोग करते हुए, बाइट-आइडेंटिकल, और पोस्ट-हॉक ट्यूनिंग की अनुमति नहीं है।.

नवीनतम संदर्भ रन — V11 सेकंड अपडेट (26 अप्रैल, 2026)

26 अप्रैल 2026 का V11 सेकंड अपडेट संदर्भ रन एक समग्र स्कोर (कम्पोज़िट स्कोर) उत्पन्न करता है 99.80% उसी प्री-रजिस्टर्ड रूब्रिक पर, जो V11 प्रारंभिक रिलीज़ में उपयोग हुआ था, मूल्यांकन किया गया 100,000 सिंथेटिक केस Kantesti सिंथेटिक केस सेट से लिए गए और फैले हुए 127 देश लेबल्स में और 75+ भाषाओं में। हर केस इंजन के प्राथमिक पाथ पर पूरा हुआ; ट्रैप-केस हाइपरडायग्नोसिस फ्लैग सक्रियताएँ बनी रहीं 0 / 87,412. । 23 अप्रैल 2026 के मूल V11 रन में 15 हाथ से क्यूरेट किए गए केस (समग्र 99.12%) शामिल थे और रूब्रिक को सत्यापित किया गया; सेकंड अपडेट उसी रूब्रिक को बाइट-आइडेंटिकल रखते हुए मूल्यांकन को जनसंख्या-स्तर के कोहोर्ट तक विस्तारित करता है।.

समग्र (Composite) 99.80% 100,000 में से 100,000 केसों का स्कोर
1.000 संरचनात्मक स्कोर (Structural score)
0.996 नैदानिक स्कोर (Clinical score)
13.26 s औसत विलंबता (Mean latency)
0 / 87,412 ट्रैप false-positives

समग्र सूत्र (composite formula) तीन घटकों को जोड़ता है: संरचनात्मक अनुरूपता (structural conformance) सात अनिवार्य रिपोर्ट सेक्शनों और सोलह अनिवार्य उप-सेक्शनों के साथ, सामग्री की सटीकता जिसे keyword recall के साथ-साथ scoring-system recall और probability-distribution validity check के रूप में मापा गया, और प्रतिक्रिया विलंबता (response latency) प्राथमिक-पाथ सर्विस-लेवल लक्ष्य के विरुद्ध। सटीक विभाजन नीचे दिए गए रूब्रिक फ़ॉर्मूला में दिखाया गया है—इनमें से किसी भी वज़न या सब-रूब्रिक को सेकंड अपडेट के लिए बदला नहीं गया।.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

हेडरूम के शेष 0.20 प्रतिशत अंक लगभग पूरी तरह क्लिनिकल सब-स्कोर में विभाजित होते हैं—केसों का एक छोटा अंश (मुख्यतः हेपेटोलॉजी और रूमेटोलॉजी में) में एक अपेक्षित स्कोरिंग-सिस्टम कीवर्ड इंजन की व्याख्या में अनुपस्थित था, जबकि डायग्नोस्टिक सामग्री सही थी।. 100,000-केस सेकंड-अपडेट कोहोर्ट में कोई भी केस स्वयं निदान (डायग्नोसिस) से चूक नहीं गया।. लेटेंसी V11 प्रारंभिक रिलीज़ में औसतन 20.17 s से घटकर सेकंड अपडेट में 13.26 s हो गई—दोनों रनों के बीच प्रोडक्शन इंजन ऑप्टिमाइज़ेशन को दर्शाते हुए; रूब्रिक, स्कोरिंग कोड, और API एंडपॉइंट अपरिवर्तित हैं।.

प्रति-लेबल कंपोज़िट स्कोर 30 सबसे अधिक प्रतिनिधित्व वाले देश लेबल्स में 0.9971 से 0.9985 के बीच रहे। शेष 97 अतिरिक्त लेबल्स की लंबी पूंछ (कुल मिलाकर ≈7,300 केस) में कोई व्यवस्थित गिरावट नहीं दिखी। केस काउंट के आधार पर सबसे अधिक बार आने वाले लेबल थे: संयुक्त राज्य (10,500), ब्राज़ील (9,500), स्पेन (9,000), इटली (8,000), जर्मनी (7,800), फ्रांस (7,400), पुर्तगाल (5,800), Türkiye (3,400), यूनाइटेड किंगडम (2,900), और मेक्सिको (2,500)।.

15 केसों से 100,000 तक: 127 देश लेबल्स में कोहोर्ट का विकास

मूल V11 केस पैनल में सात विशिष्टताएँ शामिल थीं — हेमेटोलॉजी, एंडोक्रिनोलॉजी, मेटाबॉलिक मेडिसिन, हेपेटोलॉजी, नेफ्रोलॉजी, कार्डियोलॉजी, रूमेटोलॉजी — साथ ही दो समर्पित हाइपरडायग्नोसिस ट्रैप केस; प्रत्येक केस एक सिंथेटिक रूप से जनरेट किया गया ब्लड-टेस्ट पैनल था। V11 दूसरा अपडेट मूल्यांकन को 127 देश लेबल्स में फैले 100,000 सिंथेटिक केसों तक विस्तारित करता है, जिन्हें आठ विशेषताओं में बाँटा गया है (मूल सात के साथ एक समर्पित आंतरिक-चिकित्सा बकेट जो ट्रैप उपसमूह को समाहित करता है)। वही स्कोरिंग रूब्रिक दोनों रनों में बाइट-आइडेंटिकल लागू किया गया है।.

V11 initial case-panel design — सात चिकित्सा specialties में फैले पंद्रह synthetic blood-test cases, साथ ही दो hyperdiagnosis trap cases; उसी rubric ने V11 Second Update में 100,000 cases पर 99.80% का composite स्कोर प्राप्त किया
चित्र 2: हेमेटोलॉजी, एंडोक्रिनोलॉजी, मेटाबॉलिक मेडिसिन, हेपेटोलॉजी, नेफ्रोलॉजी, कार्डियोलॉजी, रूमेटोलॉजी में V11 प्रारंभिक केस-पैनल डिज़ाइन, साथ ही दो ट्रैप केस—गिल्बर्ट्स सिंड्रोम और एक पूरी तरह सामान्य स्क्रीनिंग पैनल। सेकंड अपडेट इस रूब्रिक को बाइट-आइडेंटिकल बनाए रखता है, जबकि कोहोर्ट को Kantesti SQL रिपॉजिटरी से लिए गए 100,000 केसों तक विस्तारित करता है।.

चूँकि सभी केस सिंथेटिक रूप से जनरेट किए गए हैं, हटाने हेतु कोई वास्तविक पहचानकर्ता नहीं हैं और कोई व्यक्तिगत डेटा शामिल नहीं है। प्रत्येक सिंथेटिक केस में एक बेंचमार्क-आंतरिक केस कोड होता है (V11 प्रारंभिक सेट में BT-NNN-LABEL, दूसरा अपडेट में एक स्थिर case_uid )। प्रकाशित हार्नेस, तकनीकी रिपोर्ट, या जारी किए गए डेटासेट्स में कहीं भी व्यक्तिगत डेटा दिखाई नहीं देता।.

V11 initial release — 15 hand-curated cases

मूल V11 केस पैनल को डॉ. थॉमस क्लाइन ने हाथ से चुना था ताकि वे डायग्नोस्टिक पैटर्न्स का अभ्यास कराया जा सके जिन्हें लैबोरेटरी-चिकित्सा सहायक सबसे अधिक बार गलत समझते हैं। नीचे सूचीबद्ध प्रत्येक पंद्रह मामलों को किसी विशिष्ट डायग्नोस्टिक गुण के लिए चुना गया था।.

हेमेटोलॉजी (3) BT-001, BT-006, BT-007 आयरन की कमी से होने वाला एनीमिया · B12 की कमी · बीटा-थैलेसीमिया माइनर
एंडोक्रिनोलॉजी (3) BT-002, BT-008, BT-012 हाशिमोटो का थायरॉयडाइटिस · इंसुलिन रेजिस्टेंस के साथ PCOS · गंभीर विटामिन डी की कमी
मेटाबोलिक (2) BT-003, BT-013 मेटाबोलिक सिंड्रोम के साथ T2DM · गाउट जोखिम के साथ हाइपरयूरिसीमिया
हेपेटोलॉजी (2) BT-004, BT-009 NAFLD / NASH · तीव्र वायरल हेपेटाइटिस
नेफ्रोलॉजी · कार्डियोलॉजी · रूमेटोलॉजी (3) BT-005, BT-010, BT-011 CKD स्टेज 3 · एथेरोजेनिक डिस्लिपिडेमिया · सिस्टमिक ल्यूपस एरिथेमेटोसस
ट्रैप केस (2) BT-014, BT-015 Gilbert's syndrome (अलग-थलग अप्रत्यक्ष हाइपरबिलिरुबिनेमिया) · पूरी तरह सामान्य वयस्क स्क्रीन

यह विशेष वितरण क्यों

हेमेटोलॉजी को तीन केस मिलते हैं क्योंकि माइक्रोसाइटिक डिफरेंशियल्स और मैक्रोसाइटिक डिफरेंशियल्स वास्तविक दुनिया की लैब प्रैक्टिस में सबसे अधिक-आवृत्ति वाले “ट्रैप” हैं। एंडोक्रिनोलॉजी को तीन केस मिलते हैं क्योंकि हैशिमोटो, PCOS, और विटामिन डी की कमी की प्रस्तुतियाँ अलग-अलग डायग्नोस्टिक आकृतियाँ (ऑटोएंटीबॉडी-चालित, हार्मोन-रेशियो-चालित, एकल-मार्कर-चालित) अभ्यास में लाती हैं। एकल-केस वाली विशेषताएँ फिर भी सार्थक हैं क्योंकि CKD, ASCVD जोखिम, और SLE—तीनों की अपनी-अपनी स्कोरिंग प्रणाली है जिसे इंजन को बुलाना चाहिए (क्रमशः KDIGO स्टेजिंग, ASCVD 10-वर्ष जोखिम, 2019 EULAR/ACR SLE मानदंड)।.

V11 दूसरा अपडेट — 127 देश लेबल्स में फैले 100,000 सिंथेटिक केस

दूसरा अपडेट मूल V11 के 15-केस हार्ड-कोडेड Python literal को एक बड़े, प्रोग्रामेटिक रूप से जनरेट किए गए सिंथेटिक केस सेट से बदल देता है। यह केस सेट हर रन की शुरुआत में लोड होता है और पारदर्शिता हेतु कॉन्फ़िगरेशन लॉग किया जाता है। सामग्री-क्षेत्र के अनुसार कोहोर्ट वितरण नीचे दिखाया गया है।.

अंतःस्त्राविका 23,900 केस (23.9%) थायराइड, PCOS, विटामिन डी, गोनाडल अक्ष, पिट्यूटरी
मेटाबोलिक मेडिसिन 21,900 केस (21.9%) T2DM, मेटाबोलिक सिंड्रोम, लिपिड पैनल, हाइपरयूरिसीमिया
रुधिर 15,400 केस (15.4%) माइक्रोसाइटिक और मैक्रोसाइटिक डिफरेंशियल्स, B12/फोलेट, आयरन स्टडीज़
हेपेटोलॉजी 12,400 केस (12.4%) NAFLD/NASH, वायरल हेपेटाइटिस, FIB-4, कोलेस्टेसिस
आंतरिक चिकित्सा (ट्रैप उप-समूह सहित) 9,000 केस (9.0%) मिश्रित प्रस्तुतियाँ और 8,723 समर्पित हाइपरडायग्नोसिस ट्रैप केस
कार्डियोलॉजी 7,500 केस (7.5%) ASCVD जोखिम, एथेरोजेनिक डिस्लिपिडेमिया, hs-CRP
रूमेटोलॉजी 6,000 केस (6.0%) SLE, RA, वास्कुलाइटिस, ऑटोएंटीबॉडी पैनल (EULAR/ACR मानदंड)
नेफ्रोलॉजी 4,000 केस (4.0%) CKD स्टेजिंग (KDIGO), eGFR ट्रेंड्स, इलेक्ट्रोलाइट गड़बड़ी

सिंथेटिक देश-लेबल वितरण — शीर्ष 10 लेबल

100,000 सिंथेटिक केस 127 देश लेबल्स (ISO 3166-1 alpha-2) के साथ आते हैं ताकि locale handling को परखा जा सके। लेबल असाइनमेंट: Europe 57.7%, the Americas 25.4%, Asia-Pacific 6.2%, named Middle-East/Africa labels 3.4%, और 97 अतिरिक्त लेबल्स की एक लंबी पूंछ कुल मिलाकर लगभग 7.3%। केस काउंट के आधार पर दस सबसे अधिक बार आने वाले लेबल हैं: संयुक्त राज्य (10,500), ब्राज़ील (9,500), स्पेन (9,000), इटली (8,000), जर्मनी (7,800), फ्रांस (7,400), पुर्तगाल (5,800), Türkiye (3,400), यूनाइटेड किंगडम (2,900), और मेक्सिको (2,500)। प्रति-लेबल कंपोज़िट स्कोर 0.9971 से 0.9985 के बीच रहे। ये लेबल काउंट्स locale handling को परखने हेतु उपयोग किए गए जनरेटेड केसों की विशेषताएँ हैं — ये वास्तविक उपयोगकर्ता नहीं हैं और न ही वास्तविक दुनिया में भौगोलिक कवरेज।.

पूर्व-रजिस्टर्ड रूब्रिक, समझाया गया

प्री-रजिस्ट्रेशन इस बेंचमार्क में सबसे महत्वपूर्ण पद्धतिगत (methodological) विकल्प है। हर अपेक्षित निदान, हर क्लिनिकल स्कोरिंग सिस्टम, और हर रिपोर्ट सेक्शन को सोर्स कोड में कमिट किया गया इससे पहले कि इंजन को बुलाया जाए. । इसलिए इंजन को खुश करने के लिए रूब्रिक की पोस्ट-हॉक ट्यूनिंग असंभव है।.

समग्र (composite) स्कोर तीन घटकों से बनता है। संरचनात्मक (structural) घटक 35 प्रतिशत योगदान देता है और यह मापता है कि इंजन ने सात अनिवार्य रिपोर्ट सेक्शन (हेडर, सारांश, मुख्य निष्कर्ष, डिफरेंशियल, स्कोरिंग सिस्टम, सिफारिशें, फॉलो-अप) और उनके भीतर मौजूद सोलह अनिवार्य उप-सेक्शन लौटाए या नहीं। सेक्शन उपस्थिति संरचनात्मक गणना में 40 प्रतिशत वज़न रखती है और उप-सेक्शन उपस्थिति 60 प्रतिशत वज़न रखती है। contributes 35 percent and measures whether the engine returned the seven mandatory report sections (header, summary, key findings, differential, scoring systems, recommendations, follow-up) and the sixteen mandatory subsections within them. Section presence weighs 40 percent and subsection presence weighs 60 percent within the structural calculation.

The क्लिनिकल (clinical) घटक 55 प्रतिशत योगदान देता है और तीन चीज़ों को जोड़ता है: निदान-कीवर्ड रिकॉल (क्लिनिकल उप-स्कोर का 70 प्रतिशत), स्कोरिंग-सिस्टम रिकॉल (20 प्रतिशत — क्या इंजन जहाँ प्रासंगिक हो Mentzer, FIB-4, HOMA-IR, ASCVD जोखिम, KDIGO स्टेजिंग, EULAR/ACR मानदंड की गणना करता है), और प्रायिकता-योग वैधता जाँच (10 प्रतिशत — डिफरेंशियल प्रायिकताओं का योग [90, 110] अंतराल के भीतर होना चाहिए)। ट्रैप केसों के लिए, अधिक स्पष्ट (explicit) हाइपरडायग्नोसिस पेनल्टी अधिकतम 0.30 तक घटाई जाती है, जो प्रति गढ़े गए (fabricated) पैथोलॉजी फ्लैग 0.10 के रूप में गणना होती है और अधिकतम तीन फ्लैग तक सीमित रहती है।.

The लेटेंसी (latency) घटक 10 प्रतिशत योगदान देता है। 20 सेकंड से कम में दिया गया उत्तर पूरा 0.10 पाता है, 40 सेकंड से कम में 0.05, और उससे धीमा कुछ भी शून्य (0) पाता है। 20-सेकंड लक्ष्य उत्पादन प्राथमिक-पाथ सर्विस-लेवल उद्देश्य को दर्शाता है; 40-सेकंड की सीमा भारी-इंजन इनवोकेशन्स के लिए फेज़ 2 फॉलबैक बजट को दर्शाती है।.

MIT-लाइसेंस्ड Kantesti बेंचमार्क हार्नेस के चलने और प्रति-केस स्कोर उत्सर्जित करने का टर्मिनल स्क्रीनशॉट — वही हार्नेस, जो अब SQL-driven है, ने V11 सेकंड अपडेट के 100,000-केस रन में 99.80% कंपोज़िट स्कोर उत्पन्न किया
चित्र तीन: निष्पादन में लगा हार्नेस — वही इंजन जिसने उत्पन्न किया 99.80% समग्र V11 Second Update के 100,000-केस कोहोर्ट पर। प्रत्येक केस को A4 PDF के रूप में रेंडर किया जाता है, प्रोडक्शन v11 endpoint पर पोस्ट किया जाता है, और जमे हुए रूब्रिक के विरुद्ध स्कोर किया जाता है। Second Update ने एक पैरामीटराइज़्ड SQL केस लोडर जोड़ा; कच्चे इंजन प्रतिक्रियाओं का स्तरीकृत रैंडम सैंपल (n = 201) को समेकित स्कोरकार्ड के साथ संरक्षित (persist) किया जाता है।.

प्री-रजिस्ट्रेशन क्या रोकता है

प्रथम-पक्ष (first-party) बेंचमार्क्स अपने ही नंबरों को पोस्ट-हॉक रूब्रिक ट्यूनिंग के जरिए फुलाने के लिए कुख्यात हैं। पैटर्न लगभग हमेशा वही होता है: टीम इंजन चलाती है, देखती है कि कहाँ कम प्रदर्शन हो रहा है, फिर चुपचाप रूब्रिक को समायोजित कर देती है ताकि कम प्रदर्शन वाले क्षेत्र कम गिने जाएँ। पहले इंजन कॉल से पहले रूब्रिक को सोर्स कोड में कमिट करके और हार्नेस को MIT लाइसेंस के तहत प्रकाशित करके, यह समायोजन वर्ज़न कंट्रोल में दिखाई देने लगता है। कोई भी रिपॉजिटरी क्लोन कर सकता है, रूब्रिक लेखक की तिथियाँ जाँच सकता है, और यह सत्यापित कर सकता है कि इंजन के परिणामों का उपयोग स्कोरिंग को आकार देने में नहीं किया गया।.

हाइपरडायग्नोसिस ट्रैप केस — क्यों अत्यधिक कॉल करना ही वास्तविक विफलता मोड है

सामान्य स्क्रीन पर पैथोलॉजी को आक्रामक ढंग से “ओवर-कॉल” करना उपभोक्ता-उन्मुख (consumer-facing) मेडिकल असिस्टेंट्स में दर्ज विफलता (failure) मोड है। इसके डाउनस्ट्रीम खर्चों में अनावश्यक जाँच, मरीज की चिंता, और iatrogenic workup शामिल हैं। इस बेंचमार्क के दो ट्रैप केस इस विफलता मोड को दृश्य और स्कोर करने योग्य बनाने के लिए डिज़ाइन किए गए हैं।.

एक साइड-बाय-साइड तुलना: गिल्बर्ट्स सिंड्रोम पैनल पर एक naive AI द्वारा हेपेटाइटिस गढ़ने बनाम Kantesti इंजन द्वारा सौम्य UGT1A1 पॉलिमॉर्फिज़्म की सही पहचान — ऐसी मेथडोलॉजी जो V11 सेकंड अपडेट 99.80% बेंचमार्क में 87,412 ट्रैप-फ्लैग अवसरों में शून्य फॉल्स-पॉज़िटिव तक स्केल हुई
चित्र 4: V11 प्रारंभिक रिलीज़ का ट्रैप-केस डिज़ाइन — एक ऐसा इंजन जो आत्मविश्वास से Gilbert's syndrome को hepatitis के रूप में लेबल करता है, या जो पूरी तरह सामान्य स्क्रीन पर सीमांत (borderline) पैथोलॉजी गढ़ता है, उसे “क्लिनिकल जैसा लगने” की बात कहने के लिए पुरस्कृत नहीं बल्कि दंडित किया जाता है। यह पद्धति V11 Second Update के 100,000-केस रन में उत्पन्न 0 / 87,412 false-positives तक स्केल की गई, जिसने 99.80% समग्र स्कोर उत्पन्न किया।.

🟡 ट्रैप 1 — BT-014-GILBERT

प्रस्तुति (Presentation)।. 2.4 mg/dL कुल बिलीरुबिन वाला 24 वर्षीय पुरुष। डायरेक्ट अंश सामान्य है, ट्रांसएमिनेज़ और अल्कलाइन फॉस्फेटेज़ अपने संदर्भ रेंज के भीतर हैं, रेटिकुलोसाइट्स उल्लेखनीय नहीं हैं, और हैप्टोग्लोबिन तथा LDH हेमोलाइसिस को बाहर करते हैं।.

सही व्याख्या (Correct interpretation)।. गिल्बर्ट का सिंड्रोम — एक सौम्य UGT1A1 पॉलिमॉर्फिज़्म। व्याख्या में हेपेटाइटिस, सिरोसिस, हेमोलिटिक एनीमिया, या बाइलियरी ऑब्स्ट्रक्शन को शामिल नहीं करना चाहिए।.

V11 परिणाम।. समग्र 1.000। छह निगरानी किए गए ओवर-डायग्नोसिस फ्लैग्स में से कोई भी सक्रिय निदान (active diagnoses) के रूप में नहीं दिखा।.

🟡 ट्रैप 2 — BT-015-HEALTHY

प्रस्तुति (Presentation)।. 15-पैरामीटर की एक नियमित स्क्रीनिंग पैनल वाली 35 वर्षीय महिला। हर एनालाइट अपने संदर्भ रेंज के भीतर आराम से बैठता है।.

सही व्याख्या (Correct interpretation)।. आश्वासन और जीवनशैली बनाए रखना। व्याख्या को चिकित्सकीय रूप से उपयोगी दिखाने के लिए सीमा-रेखा (बॉर्डरलाइन) रोग-स्थिति का निर्माण नहीं करना चाहिए।.

V11 परिणाम।. समग्र स्कोर 1.000। निगरानी किए गए सात ओवर-डायग्नोसिस फ्लैग—डायबिटीज़, एनीमिया, हाइपोथायरॉइडिज़्म, डिस्लिपिडेमिया, हेपेटाइटिस, किडनी रोग, कमी—में से कोई भी सक्रिय निदान के रूप में दिखाई नहीं दिया।.

दोनों ट्रैप्स में कुल तेरह निगरानी किए गए हाइपरडायग्नोसिस फ्लैग जाँचे गए। कोई भी ट्रिगर नहीं हुआ। यह वही परिणाम है जो किसी भी चिकित्सक के लिए सबसे अधिक मायने रखता है जो AI इंजन को ट्रायेज़ या प्री-कंसल्टेशन टूल के रूप में उपयोग करने पर विचार कर रहा हो: सिस्टम ने जहाँ कोई रोग नहीं था, वहाँ रोग का आविष्कार नहीं किया.

मेंट्ज़र इंडेक्स: आयरन की कमी को थैलेसीमिया ट्रेट से अलग करना

एक और उच्च-मूल्य निष्कर्ष केस BT-001 (आयरन की कमी से होने वाला एनीमिया) का केस BT-007 (बीटा-थैलेसीमिया माइनर) के साथ जोड़ा जाना है। दोनों में माइक्रोसाइटोसिस होता है और यह भोले (naive) क्लासिफ़ायरों के लिए एक प्रसिद्ध अड़चन है। मेंटज़र इंडेक्स, जिसे MCV को RBC काउंट से विभाजित करके निकाला जाता है, आयरन की कमी में 13 से अधिक और थैलेसीमिया ट्रेट में 13 से कम होता है।.

BT-001 में, मरीज 34 वर्षीय महिला थीं जिनका हीमोग्लोबिन 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, फेरिटिन 6 ng/mL और TIBC बढ़ा हुआ था। लगभग 17.7 का मेंटज़र इंडेक्स पूर्ण (absolute) आयरन की कमी का समर्थन करता है। BT-007 में, मरीज 28 वर्षीय पुरुष थे जिनमें माइक्रोसाइटोसिस (MCV 65.8 fL) था, लेकिन RBC काउंट 6.2 अधिक था, RDW सामान्य था, फेरिटिन सामान्य था, और HbA2 5.6 प्रतिशत था। लगभग 10.6 का मेंटज़र इंडेक्स थैलेसीमिया ट्रेट की ओर संकेत करता है, और बढ़ा हुआ HbA2 बीटा-थैलेसीमिया माइनर की पुष्टि करता है।.

आयरन की कमी से होने वाला एनीमिया मेंटज़र > 13 कम फेरिटिन, कम TSAT, उच्च TIBC, बढ़ा हुआ RDW
बीटा-थैलेसीमिया ट्रेट मेंटज़र < 13 सामान्य फेरिटिन, सामान्य RDW, बढ़ा हुआ HbA2 (>3.5%), उच्च RBC काउंट

दोनों मामलों का स्कोर 1.000 था। इंजन ने दोनों व्याख्याओं में मेंटज़र इंडेक्स को स्पष्ट रूप से उपयोग किया और हर उदाहरण में सही निदान लौटाया।. यह पूरे बेंचमार्क में एकमात्र सबसे अधिक चिकित्सकीय रूप से आश्वस्त करने वाला परिणाम है, क्योंकि थैलेसीमिया ट्रेट को आयरन की कमी के रूप में गलत वर्गीकृत करने से अनुचित आयरन सप्लीमेंटेशन होता है और पारिवारिक स्क्रीनिंग के अवसर छूट जाते हैं, तथा आयरन की कमी को थैलेसीमिया के रूप में गलत वर्गीकृत करने से सरल रिप्लेसमेंट थेरेपी में देरी होती है। हमारा फेरिटिन रेंज गाइड व्यापक डिफरेंशियल संदर्भ समझाता है।.

V11 प्रारंभिक संदर्भ रन से प्रति-केस परिणाम (23 अप्रैल, 2026)

15-केस प्रूफ-ऑफ-कॉन्सेप्ट कोहोर्ट पर मूल V11 संदर्भ रन, इस पद्धतिगत आधार का काम करता है Second Update के लिए: नीचे हर प्रति-केस विवरण दिखाता है कि रूब्रिक वास्तविक इंजन प्रतिक्रिया को कैसे संभालता है। पंद्रह में से बारह केसों ने प्राथमिक पाथ पर 1.000 की ceiling समग्र स्कोर प्राप्त की; तीन केस Phase 2 fallback के माध्यम से सर्व किए गए, जिससे 0.05 latency बोनस खो गया, लेकिन सभी क्लिनिकल और संरचनात्मक सामग्री संरक्षित रही। एक केस में एक एकल अनिवार्य उपखंड (subsection) गायब था; एक केस ने थोड़ा कम probability distribution sum लौटाया।.

केस आईडी विशेषज्ञता समग्र (Composite) लैटेंसी पाथ
BT-001-IDAरुधिर1.00017.8 sप्राथमिक
BT-006-B12रुधिर1.00018.4 सेकंडप्राथमिक
BT-007-थैलेसीमियारुधिर1.00017.0 सेकंडप्राथमिक
BT-002-हैशिमोटोअंतःस्त्राविका0.95037.0 सेकंडफॉलबैक
BT-008-PCOSअंतःस्त्राविका0.98718.6 सेकंडप्राथमिक
BT-003-T2DMचयापचय1.00019.1 सेकंडप्राथमिक
BT-013-गाउटचयापचय1.00019.4 सेकंडप्राथमिक
BT-004-NAFLDहेपेटोलॉजी1.00019.6 सेकंडप्राथमिक
BT-009-वायरल हेपेटाइटिसहेपेटोलॉजी0.95023.4 सेकंडफॉलबैक
BT-014-गिल्बर्टट्रैप1.00018.9 सेकंडप्राथमिक
BT-005-CKDनेफ्रोलॉजी1.00017.4 सेकंडप्राथमिक
BT-010-ASCVDकार्डियोलॉजी1.00019.7 सेकंडप्राथमिक
BT-011-SLEरूमेटोलॉजी0.98118.2 सेकंडप्राथमिक
BT-012-VITDअंतःस्त्राविका1.00019.3 सेकंडप्राथमिक
BT-015-HEALTHYट्रैप1.00018.7 सेकंडफॉलबैक

PCOS केस (BT-008) ने प्रतिक्रिया संरचना में एक अनिवार्य उपखंड खो दिया — सोलह में से पंद्रह के बजाय सोलह में से सोलह — जिससे संरचनात्मक स्कोर 1.000 से घटकर 0.963 हो गया। SLE केस (BT-011) ने एक सीमांत रूप से कम संभाव्यता-वितरण योग लौटाया, जिससे क्लिनिकल स्कोर 0.965 तक गिर गया, जबकि हर डायग्नोस्टिक कीवर्ड और स्कोरिंग सिस्टम सुरक्षित रहा। किसी भी उप-परफेक्ट केस ने सही निदान नहीं चूका।.

V11 Second Update समेकित — 100,000 केस

जनसंख्या-स्तर पर, व्यक्तिगत केस पंक्तियाँ मानव-पठनीय नहीं होतीं, इसलिए दूसरा अपडेट 100,000-पंक्ति तालिका के बजाय संकलित (aggregated) मेट्रिक्स रिपोर्ट करता है। मुख्य संकलन नीचे दिखाया गया है; प्रति-विशिष्टता और प्रति-देश-लेबल विभाजन तकनीकी रिपोर्ट और Figshare डिपॉज़िट में प्रकाशित किए गए हैं। एक स्ट्रैटिफाइड रैंडम सैंपल of n = 201 कच्ची इंजन प्रतिक्रियाएँ (निर्धारक seed 20260426) निरीक्षण हेतु GitHub के results/ directory में प्रकाशित की गई हैं।.

समग्र स्कोर V11 प्रारंभिक: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068, 100,000-केस कोहोर्ट में
संरचनात्मक स्कोर (औसत) V11 प्रारंभिक: 0.998 → Second Update: 1.000 जनसंख्या स्तर पर परिपूर्ण संरचनात्मक अनुरूपता
क्लिनिकल स्कोर (औसत) V11 प्रारंभिक: 0.998 → Second Update: 0.996 −0.002; कोई भी केस स्वयं निदान (diagnosis) से नहीं चूका
विलंबता — औसत (सीमा) V11 प्रारंभिक: 20.17 सेकंड (17.0–37.0 सेकंड) → दूसरा अपडेट: 13.26 सेकंड (9.0–16.94 सेकंड) रन के बीच प्रोडक्शन इंजन अनुकूलन
इंजन पथ = प्राथमिक V11 प्रारंभिक: 12 / 15 → दूसरा अपडेट: 100,000 / 100,000 रन के दौरान किसी भी बिंदु पर फेज़ 2 का फॉलबैक आवश्यक नहीं था
ट्रैप-उपसमुच्चय हाइपरडायग्नोसिस फ़्लैग V11 प्रारंभिक: 0 / 13 → दूसरा अपडेट: 0 / 87,412 जनसंख्या-स्तर पर शून्य फॉल्स-पॉज़िटिव (8,723 ट्रैप मामलों की निगरानी)

हेडलाइन स्कोर हमें क्या नहीं बताता

इस विशेष प्री-रजिस्टर्ड रूब्रिक के तहत 99.80 प्रतिशत का एक कंपोज़िट स्कोर, 127 देश लेबल्स में फैले 100,000-केस सिंथेटिक कोहोर्ट पर, लगभग-सीलिंग प्रदर्शन को दर्शाता है — लेकिन इसे सावधानीपूर्वक संदर्भित (frame) किया जाना चाहिए। यह परिणाम उस रूब्रिक के विरुद्ध इंजन के व्यवहार का वर्णन करता है, जिसे हमने V11 में सोर्स कोड में कमिट किया था; यह जंगली में मौजूद हर उस ब्लड टेस्ट पैनल पर इंजन की शुद्धता के बारे में कोई सार्वभौमिक दावा नहीं है।.

स्कोर यह कहता है कि इंजन ने इस मूल्यांकन के लिए चुने गए डायग्नोस्टिक पैटर्न्स को जनसंख्या-स्तर के कोहोर्ट में सही ढंग से संभाला, एक ऐसी पद्धति के साथ जो प्रकाशित और पुनरुत्पाद्य है। यह नहीं कहता कि इंजन जंगली में मौजूद हर रक्त जांच पैनल पर सही है। यह यह भी नहीं कहता कि इंजन को चिकित्सक के निर्णय की जगह लेनी चाहिए। और यह यह भी नहीं कहता कि इंजन वैकल्पिक एआई प्रणालियों से बेहतर है — अन्य इंजनों के विरुद्ध तुलनात्मक विश्लेषण जानबूझकर इस रिपोर्ट के दायरे से बाहर थे।.

स्कोर जो स्थापित करता है, वह एक आधाररेखा है। जब रूब्रिक और हार्नेस सार्वजनिक हैं, तो इंजन के भविष्य के संस्करणों का मूल्यांकन उसी रूब्रिक के विरुद्ध किया जा सकता है — V11 प्रारंभिक के 15 मामलों पर, दूसरा अपडेट के 100,000 मामलों के कोहोर्ट पर, या किसी भी बाद के विस्तार पर — और प्रकाशित स्कोर तथा किसी भी बाद के रन के बीच का अंतर स्वयं मापने योग्य है। प्री-रजिस्ट्रेशन का यही मूल्य है: यह प्रदर्शन के दावों को परीक्षण योग्य दावों में बदल देता है.

10 मिनट में इस बेंचमार्क को कैसे दोहराएँ

पुनरुत्पादन के लिए केवल एक Kantesti API क्रेडेंशियल जोड़ी और Python 3.10 या बाद का वातावरण चाहिए, जिसमें requests और reportlab लाइब्रेरीज़ इंस्टॉल हों। पूरा हार्नेस MIT लाइसेंस के तहत जारी एक एकल, स्व-निहित Python मॉड्यूल है।.

Reproducibility network diagram जो V11 Second Update benchmark (99.80% composite, 100,000 cases, 127 country labels) को Figshare, ResearchGate, Academia.edu और GitHub में Figshare DOI को canonical anchor के रूप में दिखाते हुए परावर्तित (mirrored) करता है
चित्र 5: V11 दूसरा अपडेट बेंचमार्क — 127 देश लेबल्स में फैले 100,000 केसों पर 99.80% कंपोज़िट स्कोर — चार शोध प्लेटफ़ॉर्मों में परावर्तित (mirrored) है। Figshare DOI एक canonical scholarly identifier है; ResearchGate (publication 404175463), Academia.edu (paper 165956808), और GitHub benchmark harness, raw responses का stratified random sample, तथा प्रति-देश-लेबल/प्रति-विषय scorecards की समानांतर प्रतियाँ होस्ट करते हैं।.

एक नए रन के लिए चार चरण

एक।. रिपॉजिटरी क्लोन करें: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. दो।. requirements.txt के साथ निर्भरताएँ इंस्टॉल करें pip install -r requirements.txt (दूसरा अपडेट जोड़ता है mysql-connector-python ≥ 8.0 SQL case loader के लिए)।. तीन।. सेट करें KANTESTI_USERNAME और KANTESTI_PASSWORD इंजन API के लिए environment variables के रूप में। दूसरे अपडेट के SQL case loader के लिए, यह भी सेट करें KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, और KANTESTI_DB_PASSWORD — लोडर read-only भूमिका के माध्यम से कनेक्ट होता है (bench_reader) जिसके पास पहचानने वाली तालिकाओं पर कोई विशेषाधिकार नहीं हैं।. चार।. चलाएँ python benchmark_bloodtest.py --limit 100000 पूर्ण Second-Update रन के लिए, या python benchmark_bloodtest.py --limit 1000 त्वरित पुनरावृत्ति के लिए। आउटपुट में संग्रहीत होते हैं ./benchmark_results/: प्रति-देश-लेबल और प्रति-विषय कॉलम वाला एक CSV scorecard, एक JSON aggregate, एक stratified-random raw-response sample, और एक Markdown रिपोर्ट।.

23 अप्रैल 2026 (V11 प्रारंभिक, 15 केस) और 26 अप्रैल 2026 (V11 Second Update, 100,000 केस) के संदर्भ रन रिपॉजिटरी की निर्देशिका में संरक्षित हैं। एक नया रन एक नया टाइमस्टैम्प्ड स्कोरकार्ड बनाएगा, जबकि संदर्भ रन अपरिवर्तित रहेंगे। यदि आपके रन का परिणाम सार्थक रूप से अलग आता है, तो कृपया रन टाइमस्टैम्प और प्रतिक्रिया मेटाडेटा में लौटाए गए इंजन संस्करण के साथ एक GitHub issue खोलें। results/ directory of the repository. A fresh run will produce a new timestamped scorecard while leaving the reference runs untouched. If your run produces a meaningfully different result, please open a GitHub issue with the run timestamp and the engine version returned in the response metadata.

सीमाएँ और भविष्य का कार्य

127 देश-लेबलों में 100,000 मामलों तक भी, चार सीमाओं को स्पष्ट रूप से स्वीकार करना आवश्यक है: long-tail लेबल का undersampling, single-shot evaluation, single-engine scope, और single-source data origin। इन सभी को सक्रिय follow-up कार्य में संबोधित किया जा रहा है।.

Long-tail लेबल कवरेज।. Second Update में 127 देश-लेबल शामिल हैं, लेकिन वितरण असंतुलित है — शीर्ष 10 लेबल कुल मामलों का ≈66.4% हिस्सा हैं, और शेष 97 अतिरिक्त लेबलों की long tail मिलकर ≈7.3% योगदान देती है (लगभग 7,300 मामलों का संयुक्त योग, प्रति लेबल औसतन ~75 मामले)। इसलिए इस long tail में प्रति-लेबल composites, headline आंकड़ों की तुलना में अधिक शोरयुक्त (noisier) हैं। भविष्य के रन लेबल असाइनमेंट को पुनर्संतुलित (rebalance) करेंगे ताकि प्रति-लेबल अनुमान अधिक ठोस (firm up) हो सकें।.

Single-shot evaluation।. कोहोर्ट के प्रत्येक केस का मूल्यांकन एक बार किया गया। बड़े भाषा मॉडल कम सैंपलिंग तापमान पर भी आउटपुट वैरिएंस (variance) में गैर-तुच्छ परिवर्तन दिखाते हैं, इसलिए प्रति केस पाँच मूल्यांकनों के साथ बहु-रन प्रोटोकॉल और रिपोर्ट की गई वैरिएंस अगला स्वाभाविक कदम है — विशेषकर trap-case उपसमुच्चय पर, जहाँ सैंपलिंग जिटर के तहत स्थिरता सुरक्षा दावे का हिस्सा है।.

Single-engine scope।. यह रिपोर्ट एक ही इंजन का वर्णन करती है। वैकल्पिक AI प्रणालियों के विरुद्ध तुलनात्मक विश्लेषण यहाँ दायरे से बाहर हैं; हम समान MIT-लाइसेंस्ड harness के विरुद्ध, उपयुक्त पद्धति के साथ, उन्हें एक अलग स्वतंत्र अध्ययन के रूप में आगे बढ़ा सकते हैं।.

Synthetic data. 100,000 मामले synthetically generated हैं, न कि synthetic cases; और परिणाम वास्तविक दुनिया के clinical प्रदर्शन में स्थानांतरित (transfer) नहीं होते। वास्तविक, सहमति-प्राप्त, बाह्य-स्रोत (externally-sourced) डेटा पर मूल्यांकन के लिए उपयुक्त नैतिक निगरानी (ethical oversight) की आवश्यकता होगी और यह इस synthetic benchmark के दायरे से बाहर है।.

इन चार के अलावा, सबसे प्रभावशाली नियोजित विस्तार प्रति-न्यायक्षेत्र बहु-भाषा समता (parity) है। Kantesti AI Engine 75+ भाषाओं में उपयोगकर्ताओं की सेवा करता है, और भाषा-स्तरीकृत Second-Update उप-कोहोर्ट्स (तुर्किश, जर्मन, स्पैनिश, फ्रेंच, इतालवी, पुर्तगाली, अरबी, मैंडरिन) चलाने से इंजन द्वारा समर्थित भाषाओं में आउटपुट गुणवत्ता को मापा जाएगा। प्रत्येक भाषा-स्तरीकृत विश्लेषण अपने स्वयं के DOI और harness ब्रांच के साथ प्रकाशित किया जाएगा।.