यह बेंचमार्क क्यों मौजूद है और यह क्या जांचता है

एआई-सहायता प्राप्त ब्लड टेस्ट रिपोर्ट समझें का उपयोग उपभोक्ता और नैदानिक वर्कफ़्लो में तेजी से किया जा रहा है, फिर भी प्रयोगशाला चिकित्सा के अनुरूप पुनरुत्पाद्य मूल्यांकन ढाँचे दुर्लभ बने हुए हैं। इस संदर्भ में सबसे महत्वपूर्ण प्रश्न वे नहीं हैं जो सामान्य चिकित्सा प्रश्न-उत्तर बेंचमार्क में कवर होते हैं: क्या कोई इंजन तब आयरन की कमी को थैलेसीमिया ट्रेट से अलग कर सकता है जब मीन कॉर्पस्कुलर वॉल्यूम समान हो, क्या वह गिल्बर्ट्स सिंड्रोम को हेपेटाइटिस के रूप में ओवर-डायग्नोज़ करता है, और क्या वह पूरी तरह सामान्य स्क्रीनिंग पैनल में पैथोलॉजी “बनाता” है?

प्री-रजिस्टर्ड रूब्रिक फ्लो डायग्राम जो दिखाता है कि Kantesti AI Engine — V11 Second Update, 100,000 केसों पर 99.80% कंपोज़िट स्कोर — को फ्रीज़्ड स्कोरिंग मानदंडों के विरुद्ध कैसे मूल्यांकित किया जाता है
चित्र 1: उस बेंचमार्क आर्किटेक्चर के पीछे 99.80% कंपोज़िट स्कोर V11 सेकंड अपडेट पर 100,000-केस कोहोर्ट — हर केस, हर कीवर्ड, हर स्कोरिंग सिस्टम इंजन के एक भी PDF देखने से पहले सोर्स कोड में तय होता है, और रूब्रिक V11 प्रारंभिक रिलीज़ के समान बाइट-आइडेंटिकल है। पोस्ट-हॉक रूब्रिक ट्यूनिंग डिज़ाइन के अनुसार असंभव है।.

एकल ब्लड टेस्ट पैनल में आम तौर पर कई प्रतिस्पर्धी व्याख्याओं का समर्थन करने के लिए पर्याप्त संकेत होते हैं, और व्याख्या करने वाले चिकित्सक का काम उन व्याख्याओं को एक-दूसरे के विरुद्ध तौलना होता है, न कि किसी पाठ्यपुस्तक-सा एक निश्चित उत्तर निकालना। जो इंजन पाठ्यपुस्तक वाले मामलों में अच्छा प्रदर्शन करता है, वह फिर भी उन मामलों में असफल हो सकता है जो सबसे अधिक मायने रखते हैं: विभेदक-निदान की गलतियाँ, वे सौम्य विविधताएँ जो अकेले में चिंताजनक लगती हैं, और वे पूरी तरह सामान्य पैनल जो आत्मविश्वासी सहायकों को पैथोलॉजी गढ़ने के लिए लुभाते हैं।.

यह बेंचमार्क ठीक उन्हीं विफलता-प्रकारों के इर्द-गिर्द बनाया गया था। पंद्रहों मामलों को किसी विशिष्ट नैदानिक गुण के लिए चुना गया: एक आयरन-की कमी से होने वाली माइक्रोसाइटोसिस जिसे समान mean corpuscular volume वाले beta-thalassaemia trait से अलग रखना जरूरी है; एक Gilbert's syndrome प्रस्तुति जिसमें एकमात्र असामान्यता अलग-थलग indirect hyperbilirubinaemia है; और एक पंद्रह-पैरामीटर स्क्रीनिंग पैनल जिसमें हर analyte अपने संदर्भ-सीमा के भीतर बैठता है। यह रूब्रिक उन इंजनों को पुरस्कृत करती है जो हर केस को अपने संदर्भ में पढ़ते हैं और उन इंजनों को दंडित करती है जो ऐसे आत्मविश्वासपूर्ण निदान तक पहुँच जाते हैं जहाँ ऐसा निदान उचित नहीं है।.

डॉ. थॉमस क्लाइन के रूप में, मैंने केस पैनल इसलिए चुना क्योंकि ये वे पैटर्न हैं जिन्हें लैब-चिकित्सा सहायक सबसे अधिक बार गलत करते हैं।. महँगा विफलता-प्रकार "दुर्लभ बीमारी को चूकना" नहीं है — यह उन मरीजों में नियमित पैथोलॉजी गढ़ देना है जिनमें वह मौजूद नहीं है।. हमारा चिकित्सा सत्यापन हब व्यापक ढांचे का वर्णन करता है; यह पेज V11 प्रारंभिक प्रूफ-ऑफ-कॉन्सेप्ट और V11 सेकंड अपडेट का वर्णन करता है, जिसने इसे 100,000 अनाम मामलों तक स्केल किया—127 देशों में फैले SQL-समर्थित क्लिनिकल रिपॉजिटरी से लिए गए मामलों पर—उसी स्कोरिंग रूब्रिक के साथ, बाइट-आइडेंटिकल, और पोस्ट-हॉक ट्यूनिंग की अनुमति नहीं।.

नवीनतम संदर्भ रन — V11 सेकंड अपडेट (26 अप्रैल, 2026)

26 अप्रैल 2026 का V11 सेकंड अपडेट संदर्भ रन एक समग्र स्कोर (कम्पोज़िट स्कोर) उत्पन्न करता है 99.80% उसी प्री-रजिस्टर्ड रूब्रिक पर, जो V11 प्रारंभिक रिलीज़ में उपयोग हुआ था, मूल्यांकन किया गया 100,000 अनाम केसों पर Kantesti SQL-समर्थित क्लिनिकल रिपॉजिटरी से लिए गए और फैले हुए 127 देशों और 75+ भाषाओं में। हर केस इंजन के प्राथमिक पाथ पर पूरा हुआ; ट्रैप-केस हाइपरडायग्नोसिस फ्लैग सक्रियताएँ बनी रहीं 0 / 87,412. । 23 अप्रैल 2026 के मूल V11 रन में 15 हाथ से क्यूरेट किए गए केस (समग्र 99.12%) शामिल थे और रूब्रिक को सत्यापित किया गया; सेकंड अपडेट उसी रूब्रिक को बाइट-आइडेंटिकल रखते हुए मूल्यांकन को जनसंख्या-स्तर के कोहोर्ट तक विस्तारित करता है।.

समग्र (Composite) 99.80% 100,000 में से 100,000 केसों का स्कोर
1.000 संरचनात्मक स्कोर (Structural score)
0.996 नैदानिक स्कोर (Clinical score)
13.26 s औसत विलंबता (Mean latency)
0 / 87,412 ट्रैप false-positives

समग्र सूत्र (composite formula) तीन घटकों को जोड़ता है: संरचनात्मक अनुरूपता (structural conformance) सात अनिवार्य रिपोर्ट सेक्शनों और सोलह अनिवार्य उप-सेक्शनों के साथ, नैदानिक सटीकता (clinical accuracy) जिसे keyword recall के साथ-साथ scoring-system recall और probability-distribution validity check के रूप में मापा गया, और प्रतिक्रिया विलंबता (response latency) प्राथमिक-पाथ सर्विस-लेवल लक्ष्य के विरुद्ध। सटीक विभाजन नीचे दिए गए रूब्रिक फ़ॉर्मूला में दिखाया गया है—इनमें से किसी भी वज़न या सब-रूब्रिक को सेकंड अपडेट के लिए बदला नहीं गया।.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

हेडरूम के शेष 0.20 प्रतिशत अंक लगभग पूरी तरह क्लिनिकल सब-स्कोर में विभाजित होते हैं—केसों का एक छोटा अंश (मुख्यतः हेपेटोलॉजी और रूमेटोलॉजी में) में एक अपेक्षित स्कोरिंग-सिस्टम कीवर्ड इंजन की व्याख्या में अनुपस्थित था, जबकि डायग्नोस्टिक सामग्री सही थी।. 100,000-केस सेकंड-अपडेट कोहोर्ट में कोई भी केस स्वयं निदान (डायग्नोसिस) से चूक नहीं गया।. लेटेंसी V11 प्रारंभिक रिलीज़ में औसतन 20.17 s से घटकर सेकंड अपडेट में 13.26 s हो गई—दोनों रनों के बीच प्रोडक्शन इंजन ऑप्टिमाइज़ेशन को दर्शाते हुए; रूब्रिक, स्कोरिंग कोड, और API एंडपॉइंट अपरिवर्तित हैं।.

प्रति-देश समग्र स्कोर 0.9971 (भारत) से 0.9985 (स्विट्ज़रलैंड) के बीच रहे, 30 सबसे अधिक प्रतिनिधित्व वाले देशों में। शेष 97 अतिरिक्त देशों की लंबी पूंछ (≈7,300 केस संयुक्त) में कोई व्यवस्थित गिरावट नहीं दिखी। केस-गणना के आधार पर शीर्ष योगदानकर्ता थे: संयुक्त राज्य अमेरिका (10,500), ब्राज़ील (9,500), स्पेन (9,000), इटली (8,000), जर्मनी (7,800), फ्रांस (7,400), पुर्तगाल (5,800), Türkiye (3,400), यूनाइटेड किंगडम (2,900), और मेक्सिको (2,500)।.

15 केस से 100,000 तक: 127 देशों में कोहोर्ट का विकास

मूल V11 केस पैनल में सात विशेषताएँ शामिल थीं—हेमेटोलॉजी, एंडोक्रिनोलॉजी, मेटाबॉलिक मेडिसिन, हेपेटोलॉजी, नेफ्रोलॉजी, कार्डियोलॉजी, रूमेटोलॉजी—साथ ही दो समर्पित हाइपरडायग्नोसिस ट्रैप केस; प्रत्येक केस Kantesti क्लिनिकल डेटा रिपॉजिटरी से लिखित सूचित सहमति के अंतर्गत लिया गया एक वास्तविक रोगी रिकॉर्ड था, जिसे अनाम किया गया था। V11 सेकंड अपडेट मूल्यांकन को 127 देशों में फैले 100,000 अनाम केसों तक विस्तारित करता है, जिन्हें आठ विशेषताओं में बाँटा गया है (मूल सात के साथ एक समर्पित आंतरिक-चिकित्सा बकेट जो ट्रैप उपसमूह को समाहित करता है)। वही स्कोरिंग रूब्रिक दोनों रनों में बाइट-आइडेंटिकल लागू किया गया है।.

V11 प्रारंभिक केस-पैनल डिज़ाइन — सात मेडिकल स्पेशल्टीज़ में फैले पंद्रह अनामित रक्त जांच केस, साथ ही दो हाइपरडायग्नोसिस ट्रैप केस; वही रूब्रिक V11 सेकंड अपडेट में 100,000 केसों पर 99.80% कंपोज़िट स्कोर तक पहुँचा
चित्र 2: हेमेटोलॉजी, एंडोक्रिनोलॉजी, मेटाबॉलिक मेडिसिन, हेपेटोलॉजी, नेफ्रोलॉजी, कार्डियोलॉजी, रूमेटोलॉजी में V11 प्रारंभिक केस-पैनल डिज़ाइन, साथ ही दो ट्रैप केस—गिल्बर्ट्स सिंड्रोम और एक पूरी तरह सामान्य स्क्रीनिंग पैनल। सेकंड अपडेट इस रूब्रिक को बाइट-आइडेंटिकल बनाए रखता है, जबकि कोहोर्ट को Kantesti SQL रिपॉजिटरी से लिए गए 100,000 केसों तक विस्तारित करता है।.

डी-आइडेंटिफिकेशन Safe Harbor दृष्टिकोण के तहत किया गया: सभी प्रत्यक्ष पहचानकर्ताओं को हटाया या प्रतिस्थापित किया गया, और प्रत्येक रिकॉर्ड को BT-NNN-LABEL प्रारूप में एक बेंचमार्क-आंतरिक केस कोड दिया गया (V11 प्रारंभिक) या सेकंड अपडेट के लिए एक स्थिर अनाम case_uid । प्रोसेसिंग V11 प्रारंभिक रिलीज़ के अनुसार की गई — 15 हाथ से क्यूरेट किए गए केस GDPR अनुच्छेद 9(2)(j) उपयुक्त सुरक्षा उपायों के साथ वैज्ञानिक अनुसंधान हेतु, और समकक्ष UK GDPR प्रावधानों के अनुसार। प्रकाशित हार्नेस, तकनीकी रिपोर्ट, या जारी किए गए डेटासेट में कहीं भी कोई व्यक्तिगत रूप से पहचान योग्य जानकारी दिखाई नहीं देती।.

V11 initial release — 15 hand-curated cases

मूल V11 केस पैनल को डॉ. थॉमस क्लाइन ने हाथ से चुना था ताकि वे डायग्नोस्टिक पैटर्न्स का अभ्यास कराया जा सके जिन्हें लैबोरेटरी-चिकित्सा सहायक सबसे अधिक बार गलत समझते हैं। नीचे सूचीबद्ध प्रत्येक पंद्रह मामलों को किसी विशिष्ट डायग्नोस्टिक गुण के लिए चुना गया था।.

हेमेटोलॉजी (3) BT-001, BT-006, BT-007 आयरन की कमी से होने वाला एनीमिया · B12 की कमी · बीटा-थैलेसीमिया माइनर
एंडोक्रिनोलॉजी (3) BT-002, BT-008, BT-012 हाशिमोटो का थायरॉयडाइटिस · इंसुलिन रेजिस्टेंस के साथ PCOS · गंभीर विटामिन डी की कमी
मेटाबोलिक (2) BT-003, BT-013 मेटाबोलिक सिंड्रोम के साथ T2DM · गाउट जोखिम के साथ हाइपरयूरिसीमिया
हेपेटोलॉजी (2) BT-004, BT-009 NAFLD / NASH · तीव्र वायरल हेपेटाइटिस
नेफ्रोलॉजी · कार्डियोलॉजी · रूमेटोलॉजी (3) BT-005, BT-010, BT-011 CKD स्टेज 3 · एथेरोजेनिक डिस्लिपिडेमिया · सिस्टमिक ल्यूपस एरिथेमेटोसस
ट्रैप केस (2) BT-014, BT-015 Gilbert's syndrome (अलग-थलग अप्रत्यक्ष हाइपरबिलिरुबिनेमिया) · पूरी तरह सामान्य वयस्क स्क्रीन

यह विशेष वितरण क्यों

हेमेटोलॉजी को तीन केस मिलते हैं क्योंकि माइक्रोसाइटिक डिफरेंशियल्स और मैक्रोसाइटिक डिफरेंशियल्स वास्तविक दुनिया की लैब प्रैक्टिस में सबसे अधिक-आवृत्ति वाले “ट्रैप” हैं। एंडोक्रिनोलॉजी को तीन केस मिलते हैं क्योंकि हैशिमोटो, PCOS, और विटामिन डी की कमी की प्रस्तुतियाँ अलग-अलग डायग्नोस्टिक आकृतियाँ (ऑटोएंटीबॉडी-चालित, हार्मोन-रेशियो-चालित, एकल-मार्कर-चालित) अभ्यास में लाती हैं। एकल-केस वाली विशेषताएँ फिर भी सार्थक हैं क्योंकि CKD, ASCVD जोखिम, और SLE—तीनों की अपनी-अपनी स्कोरिंग प्रणाली है जिसे इंजन को बुलाना चाहिए (क्रमशः KDIGO स्टेजिंग, ASCVD 10-वर्ष जोखिम, 2019 EULAR/ACR SLE मानदंड)।.

V11 दूसरा अपडेट — 127 देशों में 100,000 अनामित केस

दूसरा अपडेट मूल V11 के हार्ड-कोडेड 15-केस Python literal को Kantesti क्लिनिकल रिपॉजिटरी के विरुद्ध एक पैरामीटरयुक्त, केवल-पढ़ने योग्य SQL क्वेरी से बदलता है (anonymised_blood_panels). क्वेरी इस पर फ़िल्टर करती है consent_research = 1 AND released_for_benchmark = 1 और पारदर्शिता के लिए हर बेंचमार्क रन के शीर्ष पर प्रिंट की जाती है। विशेषज्ञता के अनुसार कोहोर्ट वितरण नीचे दिखाया गया है।.

अंतःस्त्राविका 23,900 केस (23.9%) थायराइड, PCOS, विटामिन डी, गोनाडल अक्ष, पिट्यूटरी
मेटाबोलिक मेडिसिन 21,900 केस (21.9%) T2DM, मेटाबोलिक सिंड्रोम, लिपिड पैनल, हाइपरयूरिसीमिया
रुधिर 15,400 केस (15.4%) माइक्रोसाइटिक और मैक्रोसाइटिक डिफरेंशियल्स, B12/फोलेट, आयरन स्टडीज़
हेपेटोलॉजी 12,400 केस (12.4%) NAFLD/NASH, वायरल हेपेटाइटिस, FIB-4, कोलेस्टेसिस
आंतरिक चिकित्सा (ट्रैप उप-समूह सहित) 9,000 केस (9.0%) मिश्रित प्रस्तुतियाँ और 8,723 समर्पित हाइपरडायग्नोसिस ट्रैप केस
कार्डियोलॉजी 7,500 केस (7.5%) ASCVD जोखिम, एथेरोजेनिक डिस्लिपिडेमिया, hs-CRP
रूमेटोलॉजी 6,000 केस (6.0%) SLE, RA, वास्कुलाइटिस, ऑटोएंटीबॉडी पैनल (EULAR/ACR मानदंड)
नेफ्रोलॉजी 4,000 केस (4.0%) CKD स्टेजिंग (KDIGO), eGFR ट्रेंड्स, इलेक्ट्रोलाइट गड़बड़ी

भौगोलिक वितरण — शीर्ष 10 देश

यह कोहोर्ट 127 देशों (ISO 3166-1 alpha-2) को कवर करता है। यूरोप का योगदान 57.7% है, अमेरिका 25.4%, एशिया-प्रशांत 6.2%, नामित मध्य-पूर्व/अफ्रीका प्रविष्टियाँ 3.4%, और 97 अतिरिक्त देशों की लंबी पूँछ मिलकर लगभग 7.3% बनाती है। दस सबसे बड़े योगदानकर्ता हैं: संयुक्त राज्य अमेरिका (10,500), ब्राज़ील (9,500), स्पेन (9,000), इटली (8,000), जर्मनी (7,800), फ्रांस (7,400), पुर्तगाल (5,800), Türkiye (3,400), यूनाइटेड किंगडम (2,900), और मेक्सिको (2,500)। प्रति-देश समग्र स्कोर 0.9971 (भारत) से 0.9985 (स्विट्ज़रलैंड) के बीच रहे।.

पूर्व-रजिस्टर्ड रूब्रिक, समझाया गया

प्री-रजिस्ट्रेशन इस बेंचमार्क में सबसे महत्वपूर्ण पद्धतिगत (methodological) विकल्प है। हर अपेक्षित निदान, हर क्लिनिकल स्कोरिंग सिस्टम, और हर रिपोर्ट सेक्शन को सोर्स कोड में कमिट किया गया इससे पहले कि इंजन को बुलाया जाए. । इसलिए इंजन को खुश करने के लिए रूब्रिक की पोस्ट-हॉक ट्यूनिंग असंभव है।.

समग्र (composite) स्कोर तीन घटकों से बनता है। संरचनात्मक (structural) घटक 35 प्रतिशत योगदान देता है और यह मापता है कि इंजन ने सात अनिवार्य रिपोर्ट सेक्शन (हेडर, सारांश, मुख्य निष्कर्ष, डिफरेंशियल, स्कोरिंग सिस्टम, सिफारिशें, फॉलो-अप) और उनके भीतर मौजूद सोलह अनिवार्य उप-सेक्शन लौटाए या नहीं। सेक्शन उपस्थिति संरचनात्मक गणना में 40 प्रतिशत वज़न रखती है और उप-सेक्शन उपस्थिति 60 प्रतिशत वज़न रखती है। contributes 35 percent and measures whether the engine returned the seven mandatory report sections (header, summary, key findings, differential, scoring systems, recommendations, follow-up) and the sixteen mandatory subsections within them. Section presence weighs 40 percent and subsection presence weighs 60 percent within the structural calculation.

The क्लिनिकल (clinical) घटक 55 प्रतिशत योगदान देता है और तीन चीज़ों को जोड़ता है: निदान-कीवर्ड रिकॉल (क्लिनिकल उप-स्कोर का 70 प्रतिशत), स्कोरिंग-सिस्टम रिकॉल (20 प्रतिशत — क्या इंजन जहाँ प्रासंगिक हो Mentzer, FIB-4, HOMA-IR, ASCVD जोखिम, KDIGO स्टेजिंग, EULAR/ACR मानदंड की गणना करता है), और प्रायिकता-योग वैधता जाँच (10 प्रतिशत — डिफरेंशियल प्रायिकताओं का योग [90, 110] अंतराल के भीतर होना चाहिए)। ट्रैप केसों के लिए, अधिक स्पष्ट (explicit) हाइपरडायग्नोसिस पेनल्टी अधिकतम 0.30 तक घटाई जाती है, जो प्रति गढ़े गए (fabricated) पैथोलॉजी फ्लैग 0.10 के रूप में गणना होती है और अधिकतम तीन फ्लैग तक सीमित रहती है।.

The लेटेंसी (latency) घटक 10 प्रतिशत योगदान देता है। 20 सेकंड से कम में दिया गया उत्तर पूरा 0.10 पाता है, 40 सेकंड से कम में 0.05, और उससे धीमा कुछ भी शून्य (0) पाता है। 20-सेकंड लक्ष्य उत्पादन प्राथमिक-पाथ सर्विस-लेवल उद्देश्य को दर्शाता है; 40-सेकंड की सीमा भारी-इंजन इनवोकेशन्स के लिए फेज़ 2 फॉलबैक बजट को दर्शाती है।.

MIT-लाइसेंस्ड Kantesti बेंचमार्क हार्नेस के चलने और प्रति-केस स्कोर उत्सर्जित करने का टर्मिनल स्क्रीनशॉट — वही हार्नेस, जो अब SQL-driven है, ने V11 सेकंड अपडेट के 100,000-केस रन में 99.80% कंपोज़िट स्कोर उत्पन्न किया
चित्र तीन: निष्पादन में लगा हार्नेस — वही इंजन जिसने उत्पन्न किया 99.80% समग्र V11 Second Update के 100,000-केस कोहोर्ट पर। प्रत्येक केस को A4 PDF के रूप में रेंडर किया जाता है, प्रोडक्शन v11 endpoint पर पोस्ट किया जाता है, और जमे हुए रूब्रिक के विरुद्ध स्कोर किया जाता है। Second Update ने एक पैरामीटराइज़्ड SQL केस लोडर जोड़ा; कच्चे इंजन प्रतिक्रियाओं का स्तरीकृत रैंडम सैंपल (n = 201) को समेकित स्कोरकार्ड के साथ संरक्षित (persist) किया जाता है।.

प्री-रजिस्ट्रेशन क्या रोकता है

प्रथम-पक्ष (first-party) बेंचमार्क्स अपने ही नंबरों को पोस्ट-हॉक रूब्रिक ट्यूनिंग के जरिए फुलाने के लिए कुख्यात हैं। पैटर्न लगभग हमेशा वही होता है: टीम इंजन चलाती है, देखती है कि कहाँ कम प्रदर्शन हो रहा है, फिर चुपचाप रूब्रिक को समायोजित कर देती है ताकि कम प्रदर्शन वाले क्षेत्र कम गिने जाएँ। पहले इंजन कॉल से पहले रूब्रिक को सोर्स कोड में कमिट करके और हार्नेस को MIT लाइसेंस के तहत प्रकाशित करके, यह समायोजन वर्ज़न कंट्रोल में दिखाई देने लगता है। कोई भी रिपॉजिटरी क्लोन कर सकता है, रूब्रिक लेखक की तिथियाँ जाँच सकता है, और यह सत्यापित कर सकता है कि इंजन के परिणामों का उपयोग स्कोरिंग को आकार देने में नहीं किया गया।.

हाइपरडायग्नोसिस ट्रैप केस — क्यों अत्यधिक कॉल करना ही वास्तविक विफलता मोड है

सामान्य स्क्रीन पर पैथोलॉजी को आक्रामक ढंग से “ओवर-कॉल” करना उपभोक्ता-उन्मुख (consumer-facing) मेडिकल असिस्टेंट्स में दर्ज विफलता (failure) मोड है। इसके डाउनस्ट्रीम खर्चों में अनावश्यक जाँच, मरीज की चिंता, और iatrogenic workup शामिल हैं। इस बेंचमार्क के दो ट्रैप केस इस विफलता मोड को दृश्य और स्कोर करने योग्य बनाने के लिए डिज़ाइन किए गए हैं।.

एक साइड-बाय-साइड तुलना: गिल्बर्ट्स सिंड्रोम पैनल पर एक naive AI द्वारा हेपेटाइटिस गढ़ने बनाम Kantesti इंजन द्वारा सौम्य UGT1A1 पॉलिमॉर्फिज़्म की सही पहचान — ऐसी मेथडोलॉजी जो V11 सेकंड अपडेट 99.80% बेंचमार्क में 87,412 ट्रैप-फ्लैग अवसरों में शून्य फॉल्स-पॉज़िटिव तक स्केल हुई
चित्र 4: V11 प्रारंभिक रिलीज़ का ट्रैप-केस डिज़ाइन — एक ऐसा इंजन जो आत्मविश्वास से Gilbert's syndrome को hepatitis के रूप में लेबल करता है, या जो पूरी तरह सामान्य स्क्रीन पर सीमांत (borderline) पैथोलॉजी गढ़ता है, उसे “क्लिनिकल जैसा लगने” की बात कहने के लिए पुरस्कृत नहीं बल्कि दंडित किया जाता है। यह पद्धति V11 Second Update के 100,000-केस रन में उत्पन्न 0 / 87,412 false-positives तक स्केल की गई, जिसने 99.80% समग्र स्कोर उत्पन्न किया।.

🟡 ट्रैप 1 — BT-014-GILBERT

प्रस्तुति (Presentation)।. 2.4 mg/dL कुल बिलीरुबिन वाला 24 वर्षीय पुरुष। डायरेक्ट अंश सामान्य है, ट्रांसएमिनेज़ और अल्कलाइन फॉस्फेटेज़ अपने संदर्भ रेंज के भीतर हैं, रेटिकुलोसाइट्स उल्लेखनीय नहीं हैं, और हैप्टोग्लोबिन तथा LDH हेमोलाइसिस को बाहर करते हैं।.

सही व्याख्या (Correct interpretation)।. गिल्बर्ट का सिंड्रोम — एक सौम्य UGT1A1 पॉलिमॉर्फिज़्म। व्याख्या में हेपेटाइटिस, सिरोसिस, हेमोलिटिक एनीमिया, या बाइलियरी ऑब्स्ट्रक्शन को शामिल नहीं करना चाहिए।.

V11 परिणाम।. समग्र 1.000। छह निगरानी किए गए ओवर-डायग्नोसिस फ्लैग्स में से कोई भी सक्रिय निदान (active diagnoses) के रूप में नहीं दिखा।.

🟡 ट्रैप 2 — BT-015-HEALTHY

प्रस्तुति (Presentation)।. 15-पैरामीटर की एक नियमित स्क्रीनिंग पैनल वाली 35 वर्षीय महिला। हर एनालाइट अपने संदर्भ रेंज के भीतर आराम से बैठता है।.

सही व्याख्या (Correct interpretation)।. आश्वासन और जीवनशैली बनाए रखना। व्याख्या को चिकित्सकीय रूप से उपयोगी दिखाने के लिए सीमा-रेखा (बॉर्डरलाइन) रोग-स्थिति का निर्माण नहीं करना चाहिए।.

V11 परिणाम।. समग्र स्कोर 1.000। निगरानी किए गए सात ओवर-डायग्नोसिस फ्लैग—डायबिटीज़, एनीमिया, हाइपोथायरॉइडिज़्म, डिस्लिपिडेमिया, हेपेटाइटिस, किडनी रोग, कमी—में से कोई भी सक्रिय निदान के रूप में दिखाई नहीं दिया।.

दोनों ट्रैप्स में कुल तेरह निगरानी किए गए हाइपरडायग्नोसिस फ्लैग जाँचे गए। कोई भी ट्रिगर नहीं हुआ। यह वही परिणाम है जो किसी भी चिकित्सक के लिए सबसे अधिक मायने रखता है जो AI इंजन को ट्रायेज़ या प्री-कंसल्टेशन टूल के रूप में उपयोग करने पर विचार कर रहा हो: सिस्टम ने जहाँ कोई रोग नहीं था, वहाँ रोग का आविष्कार नहीं किया.

मेंट्ज़र इंडेक्स: आयरन की कमी को थैलेसीमिया ट्रेट से अलग करना

एक और उच्च-मूल्य निष्कर्ष केस BT-001 (आयरन की कमी से होने वाला एनीमिया) का केस BT-007 (बीटा-थैलेसीमिया माइनर) के साथ जोड़ा जाना है। दोनों में माइक्रोसाइटोसिस होता है और यह भोले (naive) क्लासिफ़ायरों के लिए एक प्रसिद्ध अड़चन है। मेंटज़र इंडेक्स, जिसे MCV को RBC काउंट से विभाजित करके निकाला जाता है, आयरन की कमी में 13 से अधिक और थैलेसीमिया ट्रेट में 13 से कम होता है।.

BT-001 में, मरीज 34 वर्षीय महिला थीं जिनका हीमोग्लोबिन 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, फेरिटिन 6 ng/mL और TIBC बढ़ा हुआ था। लगभग 17.7 का मेंटज़र इंडेक्स पूर्ण (absolute) आयरन की कमी का समर्थन करता है। BT-007 में, मरीज 28 वर्षीय पुरुष थे जिनमें माइक्रोसाइटोसिस (MCV 65.8 fL) था, लेकिन RBC काउंट 6.2 अधिक था, RDW सामान्य था, फेरिटिन सामान्य था, और HbA2 5.6 प्रतिशत था। लगभग 10.6 का मेंटज़र इंडेक्स थैलेसीमिया ट्रेट की ओर संकेत करता है, और बढ़ा हुआ HbA2 बीटा-थैलेसीमिया माइनर की पुष्टि करता है।.

आयरन की कमी से होने वाला एनीमिया मेंटज़र > 13 कम फेरिटिन, कम TSAT, उच्च TIBC, बढ़ा हुआ RDW
बीटा-थैलेसीमिया ट्रेट मेंटज़र < 13 सामान्य फेरिटिन, सामान्य RDW, बढ़ा हुआ HbA2 (>3.5%), उच्च RBC काउंट

दोनों मामलों का स्कोर 1.000 था। इंजन ने दोनों व्याख्याओं में मेंटज़र इंडेक्स को स्पष्ट रूप से उपयोग किया और हर उदाहरण में सही निदान लौटाया।. यह पूरे बेंचमार्क में एकमात्र सबसे अधिक चिकित्सकीय रूप से आश्वस्त करने वाला परिणाम है, क्योंकि थैलेसीमिया ट्रेट को आयरन की कमी के रूप में गलत वर्गीकृत करने से अनुचित आयरन सप्लीमेंटेशन होता है और पारिवारिक स्क्रीनिंग के अवसर छूट जाते हैं, तथा आयरन की कमी को थैलेसीमिया के रूप में गलत वर्गीकृत करने से सरल रिप्लेसमेंट थेरेपी में देरी होती है। हमारा फेरिटिन रेंज गाइड व्यापक डिफरेंशियल संदर्भ समझाता है।.

V11 प्रारंभिक संदर्भ रन से प्रति-केस परिणाम (23 अप्रैल, 2026)

15-केस प्रूफ-ऑफ-कॉन्सेप्ट कोहोर्ट पर मूल V11 संदर्भ रन, इस पद्धतिगत आधार का काम करता है Second Update के लिए: नीचे हर प्रति-केस विवरण दिखाता है कि रूब्रिक वास्तविक इंजन प्रतिक्रिया को कैसे संभालता है। पंद्रह में से बारह केसों ने प्राथमिक पाथ पर 1.000 की ceiling समग्र स्कोर प्राप्त की; तीन केस Phase 2 fallback के माध्यम से सर्व किए गए, जिससे 0.05 latency बोनस खो गया, लेकिन सभी क्लिनिकल और संरचनात्मक सामग्री संरक्षित रही। एक केस में एक एकल अनिवार्य उपखंड (subsection) गायब था; एक केस ने थोड़ा कम probability distribution sum लौटाया।.

केस आईडी विशेषज्ञता समग्र (Composite) लैटेंसी पाथ
BT-001-IDAरुधिर1.00017.8 sप्राथमिक
BT-006-B12रुधिर1.00018.4 सेकंडप्राथमिक
BT-007-थैलेसीमियारुधिर1.00017.0 सेकंडप्राथमिक
BT-002-हैशिमोटोअंतःस्त्राविका0.95037.0 सेकंडफॉलबैक
BT-008-PCOSअंतःस्त्राविका0.98718.6 सेकंडप्राथमिक
BT-003-T2DMचयापचय1.00019.1 सेकंडप्राथमिक
BT-013-गाउटचयापचय1.00019.4 सेकंडप्राथमिक
BT-004-NAFLDहेपेटोलॉजी1.00019.6 सेकंडप्राथमिक
BT-009-वायरल हेपेटाइटिसहेपेटोलॉजी0.95023.4 सेकंडफॉलबैक
BT-014-गिल्बर्टट्रैप1.00018.9 सेकंडप्राथमिक
BT-005-CKDनेफ्रोलॉजी1.00017.4 सेकंडप्राथमिक
BT-010-ASCVDकार्डियोलॉजी1.00019.7 सेकंडप्राथमिक
BT-011-SLEरूमेटोलॉजी0.98118.2 सेकंडप्राथमिक
BT-012-VITDअंतःस्त्राविका1.00019.3 सेकंडप्राथमिक
BT-015-HEALTHYट्रैप1.00018.7 सेकंडफॉलबैक

PCOS केस (BT-008) ने प्रतिक्रिया संरचना में एक अनिवार्य उपखंड खो दिया — सोलह में से पंद्रह के बजाय सोलह में से सोलह — जिससे संरचनात्मक स्कोर 1.000 से घटकर 0.963 हो गया। SLE केस (BT-011) ने एक सीमांत रूप से कम संभाव्यता-वितरण योग लौटाया, जिससे क्लिनिकल स्कोर 0.965 तक गिर गया, जबकि हर डायग्नोस्टिक कीवर्ड और स्कोरिंग सिस्टम सुरक्षित रहा। किसी भी उप-परफेक्ट केस ने सही निदान नहीं चूका।.

V11 Second Update समेकित — 100,000 केस

जनसंख्या स्तर पर, व्यक्तिगत केस पंक्तियाँ मानव-पठनीय नहीं होतीं, इसलिए Second Update 100,000-पंक्ति तालिका के बजाय समेकित मेट्रिक्स रिपोर्ट करता है। मुख्य समेकन (headline aggregate) नीचे दिखाया गया है; प्रति-विषय (per-specialty) और प्रति-देश (per-country) विभाजन तकनीकी रिपोर्ट और Figshare डिपॉज़िट में प्रकाशित किए जाते हैं। n = 201 कच्ची इंजन प्रतिक्रियाएँ (निर्धारक seed 20260426) निरीक्षण हेतु GitHub के results/ directory में प्रकाशित की गई हैं।.

समग्र स्कोर V11 प्रारंभिक: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068, 100,000-केस कोहोर्ट में
संरचनात्मक स्कोर (औसत) V11 प्रारंभिक: 0.998 → Second Update: 1.000 जनसंख्या स्तर पर परिपूर्ण संरचनात्मक अनुरूपता
क्लिनिकल स्कोर (औसत) V11 प्रारंभिक: 0.998 → Second Update: 0.996 −0.002; कोई भी केस स्वयं निदान (diagnosis) से नहीं चूका
विलंबता — औसत (सीमा) V11 प्रारंभिक: 20.17 सेकंड (17.0–37.0 सेकंड) → दूसरा अपडेट: 13.26 सेकंड (9.0–16.94 सेकंड) रन के बीच प्रोडक्शन इंजन अनुकूलन
इंजन पथ = प्राथमिक V11 प्रारंभिक: 12 / 15 → दूसरा अपडेट: 100,000 / 100,000 रन के दौरान किसी भी बिंदु पर फेज़ 2 का फॉलबैक आवश्यक नहीं था
ट्रैप-उपसमुच्चय हाइपरडायग्नोसिस फ़्लैग V11 प्रारंभिक: 0 / 13 → दूसरा अपडेट: 0 / 87,412 जनसंख्या-स्तर पर शून्य फॉल्स-पॉज़िटिव (8,723 ट्रैप मामलों की निगरानी)

हेडलाइन स्कोर हमें क्या नहीं बताता

इस विशेष प्री-रजिस्टर्ड रूब्रिक के तहत 99.80 प्रतिशत का एक समग्र स्कोर, 127 देशों में फैले 100,000 मामलों के एक अनामित कोहोर्ट पर, लगभग-सीलिंग प्रदर्शन दर्शाता है — लेकिन इसे सावधानीपूर्वक संदर्भित करना चाहिए। यह परिणाम V11 में हमने जिस सोर्स कोड को रूब्रिक के विरुद्ध प्रतिबद्ध किया था, उसके मुकाबले इंजन के व्यवहार का वर्णन करता है; यह जंगली में मौजूद हर रक्त जांच पैनल पर इंजन की शुद्धता के बारे में सार्वभौमिक दावा नहीं है।.

स्कोर यह कहता है कि इंजन ने इस मूल्यांकन के लिए चुने गए डायग्नोस्टिक पैटर्न्स को जनसंख्या-स्तर के कोहोर्ट में सही ढंग से संभाला, एक ऐसी पद्धति के साथ जो प्रकाशित और पुनरुत्पाद्य है। यह नहीं कहता कि इंजन जंगली में मौजूद हर रक्त जांच पैनल पर सही है। यह यह भी नहीं कहता कि इंजन को चिकित्सक के निर्णय की जगह लेनी चाहिए। और यह यह भी नहीं कहता कि इंजन वैकल्पिक एआई प्रणालियों से बेहतर है — अन्य इंजनों के विरुद्ध तुलनात्मक विश्लेषण जानबूझकर इस रिपोर्ट के दायरे से बाहर थे।.

स्कोर जो स्थापित करता है, वह एक आधाररेखा है। जब रूब्रिक और हार्नेस सार्वजनिक हैं, तो इंजन के भविष्य के संस्करणों का मूल्यांकन उसी रूब्रिक के विरुद्ध किया जा सकता है — V11 प्रारंभिक के 15 मामलों पर, दूसरा अपडेट के 100,000 मामलों के कोहोर्ट पर, या किसी भी बाद के विस्तार पर — और प्रकाशित स्कोर तथा किसी भी बाद के रन के बीच का अंतर स्वयं मापने योग्य है। प्री-रजिस्ट्रेशन का यही मूल्य है: यह प्रदर्शन के दावों को परीक्षण योग्य दावों में बदल देता है.

10 मिनट में इस बेंचमार्क को कैसे दोहराएँ

पुनरुत्पादन के लिए केवल एक Kantesti API क्रेडेंशियल जोड़ी और Python 3.10 या बाद का वातावरण चाहिए, जिसमें requests और reportlab लाइब्रेरीज़ इंस्टॉल हों। पूरा हार्नेस MIT लाइसेंस के तहत जारी एक एकल, स्व-निहित Python मॉड्यूल है।.

पुनरुत्पादकता नेटवर्क डायग्राम जो V11 सेकंड अपडेट बेंचमार्क (99.80% कंपोज़िट, 100,000 केस, 127 देश) को Figshare, ResearchGate, Academia.edu और GitHub पर Figshare DOI को canonical anchor के रूप में रखते हुए मिरर दिखाता है
चित्र 5: V11 दूसरा अपडेट बेंचमार्क — 127 देशों में 100,000 मामलों पर 99.80% समग्र स्कोर — चार शोध प्लेटफॉर्म्स में समान रूप से परिलक्षित है। Figshare DOI canonical scholarly identifier है; ResearchGate (publication 404175463), Academia.edu (paper 165956808), और GitHub समानांतर प्रतियां होस्ट करते हैं, जिनमें SQL-backed हार्नेस, कच्चे प्रतिक्रियाओं का stratified random sample, और प्रति-देश/प्रति-विषय scorecards शामिल हैं।.

एक नए रन के लिए चार चरण

एक।. रिपॉजिटरी क्लोन करें: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. दो।. requirements.txt के साथ निर्भरताएँ इंस्टॉल करें pip install -r requirements.txt (दूसरा अपडेट जोड़ता है mysql-connector-python ≥ 8.0 SQL case loader के लिए)।. तीन।. सेट करें KANTESTI_USERNAME और KANTESTI_PASSWORD इंजन API के लिए environment variables के रूप में। दूसरे अपडेट के SQL case loader के लिए, यह भी सेट करें KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, और KANTESTI_DB_PASSWORD — लोडर read-only भूमिका के माध्यम से कनेक्ट होता है (bench_reader) जिसके पास पहचानने वाली तालिकाओं पर कोई विशेषाधिकार नहीं हैं।. चार।. चलाएँ python benchmark_bloodtest.py --limit 100000 पूर्ण Second-Update रन के लिए, या python benchmark_bloodtest.py --limit 1000 त्वरित पुनरावृत्ति के लिए। आउटपुट में संग्रहीत होते हैं ./benchmark_results/: एक CSV स्कोरकार्ड जिसमें प्रति-देश और प्रति-विषय कॉलम, एक JSON समेकन, एक स्तरीकृत-यादृच्छिक कच्चा-प्रतिक्रिया नमूना, और एक Markdown रिपोर्ट शामिल है।.

23 अप्रैल 2026 (V11 प्रारंभिक, 15 केस) और 26 अप्रैल 2026 (V11 Second Update, 100,000 केस) के संदर्भ रन रिपॉजिटरी की निर्देशिका में संरक्षित हैं। एक नया रन एक नया टाइमस्टैम्प्ड स्कोरकार्ड बनाएगा, जबकि संदर्भ रन अपरिवर्तित रहेंगे। यदि आपके रन का परिणाम सार्थक रूप से अलग आता है, तो कृपया रन टाइमस्टैम्प और प्रतिक्रिया मेटाडेटा में लौटाए गए इंजन संस्करण के साथ एक GitHub issue खोलें। results/ directory of the repository. A fresh run will produce a new timestamped scorecard while leaving the reference runs untouched. If your run produces a meaningfully different result, please open a GitHub issue with the run timestamp and the engine version returned in the response metadata.

सीमाएँ और भविष्य का कार्य

127 देशों में 100,000 केसों तक भी, चार सीमाओं को स्पष्ट रूप से स्वीकार करना आवश्यक है: लंबी-पूंछ वाले देशों का कम नमूना लेना, एकल-शॉट मूल्यांकन, एकल-इंजन दायरा, और एकल-स्रोत डेटा उत्पत्ति। इन प्रत्येक को सक्रिय अनुवर्ती कार्य में संबोधित किया जा रहा है।.

लंबी-पूंछ वाले देशों का कवरेज।. Second Update में 127 देश शामिल हैं, लेकिन वितरण असंतुलित है — शीर्ष 10 योगदानकर्ता कुल केसों का ≈66.4% हिस्सा रखते हैं, और शेष 97 अतिरिक्त देशों की लंबी पूंछ मिलकर ≈7.3% योगदान देती है (लगभग 7,300 केस संयुक्त, प्रति देश औसतन ~75 केस)। इसलिए इस लंबी पूंछ में प्रति-देश समेकन (composites) उतने शोरयुक्त (noisier) हैं जितना कि मुख्य/हेडलाइन आंकड़े संकेत देते हैं। भविष्य के रन कम नमूना वाले देशों से प्राथमिकता के साथ भर्ती करेंगे ताकि प्रति-न्यायक्षेत्र (jurisdiction) के अनुमान मजबूत हो सकें।.

Single-shot evaluation।. कोहोर्ट के प्रत्येक केस का मूल्यांकन एक बार किया गया। बड़े भाषा मॉडल कम सैंपलिंग तापमान पर भी आउटपुट वैरिएंस (variance) में गैर-तुच्छ परिवर्तन दिखाते हैं, इसलिए प्रति केस पाँच मूल्यांकनों के साथ बहु-रन प्रोटोकॉल और रिपोर्ट की गई वैरिएंस अगला स्वाभाविक कदम है — विशेषकर trap-case उपसमुच्चय पर, जहाँ सैंपलिंग जिटर के तहत स्थिरता सुरक्षा दावे का हिस्सा है।.

Single-engine scope।. यह रिपोर्ट एक ही इंजन का वर्णन करती है। वैकल्पिक AI प्रणालियों के विरुद्ध तुलनात्मक विश्लेषण यहाँ दायरे से बाहर हैं; हम समान MIT-लाइसेंस्ड harness के विरुद्ध, उपयुक्त पद्धति के साथ, उन्हें एक अलग स्वतंत्र अध्ययन के रूप में आगे बढ़ा सकते हैं।.

Single-source data origin।. 100,000 केस एकल क्लिनिकल रिपॉजिटरी से लिए गए अनाम वास्तविक रोगी रिकॉर्ड हैं (Kantesti SQL-संचालित क्लिनिकल डेटा वेयरहाउस)। ये एक क्यूरेटेड प्रोडक्शन स्ट्रीम का प्रतिनिधित्व करते हैं और वैश्विक स्तर पर जनसंख्या-प्रतिनिधि यादृच्छिक नमूना नहीं हैं। मूल्यांकन को बाहरी स्रोतों से प्राप्त बहु-केंद्र (multi-centre) डेटा तक विस्तारित करना रोडमैप पर है।.

इन चार के अलावा, सबसे प्रभावशाली नियोजित विस्तार प्रति-न्यायक्षेत्र बहु-भाषा समता (parity) है। Kantesti AI Engine 75+ भाषाओं में उपयोगकर्ताओं की सेवा करता है, और भाषा-स्तरीकृत Second-Update उप-कोहोर्ट्स (तुर्किश, जर्मन, स्पैनिश, फ्रेंच, इतालवी, पुर्तगाली, अरबी, मैंडरिन) चलाने से इंजन द्वारा समर्थित भाषाओं में आउटपुट गुणवत्ता को मापा जाएगा। प्रत्येक भाषा-स्तरीकृत विश्लेषण अपने स्वयं के DOI और harness ब्रांच के साथ प्रकाशित किया जाएगा।.