यह बेंचमार्क क्यों मौजूद है और यह क्या जांचता है
एआई-सहायता प्राप्त ब्लड टेस्ट रिपोर्ट समझें का उपयोग उपभोक्ता और नैदानिक वर्कफ़्लो में तेजी से किया जा रहा है, फिर भी प्रयोगशाला चिकित्सा के अनुरूप पुनरुत्पाद्य मूल्यांकन ढाँचे दुर्लभ बने हुए हैं। इस संदर्भ में सबसे महत्वपूर्ण प्रश्न वे नहीं हैं जो सामान्य चिकित्सा प्रश्न-उत्तर बेंचमार्क में कवर होते हैं: क्या कोई इंजन तब आयरन की कमी को थैलेसीमिया ट्रेट से अलग कर सकता है जब मीन कॉर्पस्कुलर वॉल्यूम समान हो, क्या वह गिल्बर्ट्स सिंड्रोम को हेपेटाइटिस के रूप में ओवर-डायग्नोज़ करता है, और क्या वह पूरी तरह सामान्य स्क्रीनिंग पैनल में पैथोलॉजी “बनाता” है?
एकल ब्लड टेस्ट पैनल में आम तौर पर कई प्रतिस्पर्धी व्याख्याओं का समर्थन करने के लिए पर्याप्त संकेत होते हैं, और व्याख्या करने वाले चिकित्सक का काम उन व्याख्याओं को एक-दूसरे के विरुद्ध तौलना होता है, न कि किसी पाठ्यपुस्तक-सा एक निश्चित उत्तर निकालना। जो इंजन पाठ्यपुस्तक वाले मामलों में अच्छा प्रदर्शन करता है, वह फिर भी उन मामलों में असफल हो सकता है जो सबसे अधिक मायने रखते हैं: विभेदक-निदान की गलतियाँ, वे सौम्य विविधताएँ जो अकेले में चिंताजनक लगती हैं, और वे पूरी तरह सामान्य पैनल जो आत्मविश्वासी सहायकों को पैथोलॉजी गढ़ने के लिए लुभाते हैं।.
यह बेंचमार्क ठीक उन्हीं विफलता-प्रकारों के इर्द-गिर्द बनाया गया था। पंद्रहों मामलों को किसी विशिष्ट नैदानिक गुण के लिए चुना गया: एक आयरन-की कमी से होने वाली माइक्रोसाइटोसिस जिसे समान mean corpuscular volume वाले beta-thalassaemia trait से अलग रखना जरूरी है; एक Gilbert's syndrome प्रस्तुति जिसमें एकमात्र असामान्यता अलग-थलग indirect hyperbilirubinaemia है; और एक पंद्रह-पैरामीटर स्क्रीनिंग पैनल जिसमें हर analyte अपने संदर्भ-सीमा के भीतर बैठता है। यह रूब्रिक उन इंजनों को पुरस्कृत करती है जो हर केस को अपने संदर्भ में पढ़ते हैं और उन इंजनों को दंडित करती है जो ऐसे आत्मविश्वासपूर्ण निदान तक पहुँच जाते हैं जहाँ ऐसा निदान उचित नहीं है।.
डॉ. थॉमस क्लाइन के रूप में, मैंने केस पैनल इसलिए चुना क्योंकि ये वे पैटर्न हैं जिन्हें लैब-चिकित्सा सहायक सबसे अधिक बार गलत करते हैं।. महँगा विफलता-प्रकार "दुर्लभ बीमारी को चूकना" नहीं है — यह उन मरीजों में नियमित पैथोलॉजी गढ़ देना है जिनमें वह मौजूद नहीं है।. हमारा चिकित्सा सत्यापन हब व्यापक ढांचे का वर्णन करता है; यह पेज V11 प्रारंभिक प्रूफ-ऑफ-कॉन्सेप्ट और V11 सेकंड अपडेट का वर्णन करता है, जिसने इसे 100,000 अनाम मामलों तक स्केल किया—127 देशों में फैले SQL-समर्थित क्लिनिकल रिपॉजिटरी से लिए गए मामलों पर—उसी स्कोरिंग रूब्रिक के साथ, बाइट-आइडेंटिकल, और पोस्ट-हॉक ट्यूनिंग की अनुमति नहीं।.
नवीनतम संदर्भ रन — V11 सेकंड अपडेट (26 अप्रैल, 2026)
26 अप्रैल 2026 का V11 सेकंड अपडेट संदर्भ रन एक समग्र स्कोर (कम्पोज़िट स्कोर) उत्पन्न करता है 99.80% उसी प्री-रजिस्टर्ड रूब्रिक पर, जो V11 प्रारंभिक रिलीज़ में उपयोग हुआ था, मूल्यांकन किया गया 100,000 अनाम केसों पर Kantesti SQL-समर्थित क्लिनिकल रिपॉजिटरी से लिए गए और फैले हुए 127 देशों और 75+ भाषाओं में। हर केस इंजन के प्राथमिक पाथ पर पूरा हुआ; ट्रैप-केस हाइपरडायग्नोसिस फ्लैग सक्रियताएँ बनी रहीं 0 / 87,412. । 23 अप्रैल 2026 के मूल V11 रन में 15 हाथ से क्यूरेट किए गए केस (समग्र 99.12%) शामिल थे और रूब्रिक को सत्यापित किया गया; सेकंड अपडेट उसी रूब्रिक को बाइट-आइडेंटिकल रखते हुए मूल्यांकन को जनसंख्या-स्तर के कोहोर्ट तक विस्तारित करता है।.
समग्र सूत्र (composite formula) तीन घटकों को जोड़ता है: संरचनात्मक अनुरूपता (structural conformance) सात अनिवार्य रिपोर्ट सेक्शनों और सोलह अनिवार्य उप-सेक्शनों के साथ, नैदानिक सटीकता (clinical accuracy) जिसे keyword recall के साथ-साथ scoring-system recall और probability-distribution validity check के रूप में मापा गया, और प्रतिक्रिया विलंबता (response latency) प्राथमिक-पाथ सर्विस-लेवल लक्ष्य के विरुद्ध। सटीक विभाजन नीचे दिए गए रूब्रिक फ़ॉर्मूला में दिखाया गया है—इनमें से किसी भी वज़न या सब-रूब्रिक को सेकंड अपडेट के लिए बदला नहीं गया।.
हेडरूम के शेष 0.20 प्रतिशत अंक लगभग पूरी तरह क्लिनिकल सब-स्कोर में विभाजित होते हैं—केसों का एक छोटा अंश (मुख्यतः हेपेटोलॉजी और रूमेटोलॉजी में) में एक अपेक्षित स्कोरिंग-सिस्टम कीवर्ड इंजन की व्याख्या में अनुपस्थित था, जबकि डायग्नोस्टिक सामग्री सही थी।. 100,000-केस सेकंड-अपडेट कोहोर्ट में कोई भी केस स्वयं निदान (डायग्नोसिस) से चूक नहीं गया।. लेटेंसी V11 प्रारंभिक रिलीज़ में औसतन 20.17 s से घटकर सेकंड अपडेट में 13.26 s हो गई—दोनों रनों के बीच प्रोडक्शन इंजन ऑप्टिमाइज़ेशन को दर्शाते हुए; रूब्रिक, स्कोरिंग कोड, और API एंडपॉइंट अपरिवर्तित हैं।.
प्रति-देश समग्र स्कोर 0.9971 (भारत) से 0.9985 (स्विट्ज़रलैंड) के बीच रहे, 30 सबसे अधिक प्रतिनिधित्व वाले देशों में। शेष 97 अतिरिक्त देशों की लंबी पूंछ (≈7,300 केस संयुक्त) में कोई व्यवस्थित गिरावट नहीं दिखी। केस-गणना के आधार पर शीर्ष योगदानकर्ता थे: संयुक्त राज्य अमेरिका (10,500), ब्राज़ील (9,500), स्पेन (9,000), इटली (8,000), जर्मनी (7,800), फ्रांस (7,400), पुर्तगाल (5,800), Türkiye (3,400), यूनाइटेड किंगडम (2,900), और मेक्सिको (2,500)।.
15 केस से 100,000 तक: 127 देशों में कोहोर्ट का विकास
मूल V11 केस पैनल में सात विशेषताएँ शामिल थीं—हेमेटोलॉजी, एंडोक्रिनोलॉजी, मेटाबॉलिक मेडिसिन, हेपेटोलॉजी, नेफ्रोलॉजी, कार्डियोलॉजी, रूमेटोलॉजी—साथ ही दो समर्पित हाइपरडायग्नोसिस ट्रैप केस; प्रत्येक केस Kantesti क्लिनिकल डेटा रिपॉजिटरी से लिखित सूचित सहमति के अंतर्गत लिया गया एक वास्तविक रोगी रिकॉर्ड था, जिसे अनाम किया गया था। V11 सेकंड अपडेट मूल्यांकन को 127 देशों में फैले 100,000 अनाम केसों तक विस्तारित करता है, जिन्हें आठ विशेषताओं में बाँटा गया है (मूल सात के साथ एक समर्पित आंतरिक-चिकित्सा बकेट जो ट्रैप उपसमूह को समाहित करता है)। वही स्कोरिंग रूब्रिक दोनों रनों में बाइट-आइडेंटिकल लागू किया गया है।.
डी-आइडेंटिफिकेशन Safe Harbor दृष्टिकोण के तहत किया गया: सभी प्रत्यक्ष पहचानकर्ताओं को हटाया या प्रतिस्थापित किया गया, और प्रत्येक रिकॉर्ड को BT-NNN-LABEL प्रारूप में एक बेंचमार्क-आंतरिक केस कोड दिया गया (V11 प्रारंभिक) या सेकंड अपडेट के लिए एक स्थिर अनाम case_uid । प्रोसेसिंग V11 प्रारंभिक रिलीज़ के अनुसार की गई — 15 हाथ से क्यूरेट किए गए केस GDPR अनुच्छेद 9(2)(j) उपयुक्त सुरक्षा उपायों के साथ वैज्ञानिक अनुसंधान हेतु, और समकक्ष UK GDPR प्रावधानों के अनुसार। प्रकाशित हार्नेस, तकनीकी रिपोर्ट, या जारी किए गए डेटासेट में कहीं भी कोई व्यक्तिगत रूप से पहचान योग्य जानकारी दिखाई नहीं देती।.
V11 initial release — 15 hand-curated cases
मूल V11 केस पैनल को डॉ. थॉमस क्लाइन ने हाथ से चुना था ताकि वे डायग्नोस्टिक पैटर्न्स का अभ्यास कराया जा सके जिन्हें लैबोरेटरी-चिकित्सा सहायक सबसे अधिक बार गलत समझते हैं। नीचे सूचीबद्ध प्रत्येक पंद्रह मामलों को किसी विशिष्ट डायग्नोस्टिक गुण के लिए चुना गया था।.
यह विशेष वितरण क्यों
हेमेटोलॉजी को तीन केस मिलते हैं क्योंकि माइक्रोसाइटिक डिफरेंशियल्स और मैक्रोसाइटिक डिफरेंशियल्स वास्तविक दुनिया की लैब प्रैक्टिस में सबसे अधिक-आवृत्ति वाले “ट्रैप” हैं। एंडोक्रिनोलॉजी को तीन केस मिलते हैं क्योंकि हैशिमोटो, PCOS, और विटामिन डी की कमी की प्रस्तुतियाँ अलग-अलग डायग्नोस्टिक आकृतियाँ (ऑटोएंटीबॉडी-चालित, हार्मोन-रेशियो-चालित, एकल-मार्कर-चालित) अभ्यास में लाती हैं। एकल-केस वाली विशेषताएँ फिर भी सार्थक हैं क्योंकि CKD, ASCVD जोखिम, और SLE—तीनों की अपनी-अपनी स्कोरिंग प्रणाली है जिसे इंजन को बुलाना चाहिए (क्रमशः KDIGO स्टेजिंग, ASCVD 10-वर्ष जोखिम, 2019 EULAR/ACR SLE मानदंड)।.
V11 दूसरा अपडेट — 127 देशों में 100,000 अनामित केस
दूसरा अपडेट मूल V11 के हार्ड-कोडेड 15-केस Python literal को Kantesti क्लिनिकल रिपॉजिटरी के विरुद्ध एक पैरामीटरयुक्त, केवल-पढ़ने योग्य SQL क्वेरी से बदलता है (anonymised_blood_panels). क्वेरी इस पर फ़िल्टर करती है consent_research = 1 AND released_for_benchmark = 1 और पारदर्शिता के लिए हर बेंचमार्क रन के शीर्ष पर प्रिंट की जाती है। विशेषज्ञता के अनुसार कोहोर्ट वितरण नीचे दिखाया गया है।.
भौगोलिक वितरण — शीर्ष 10 देश
यह कोहोर्ट 127 देशों (ISO 3166-1 alpha-2) को कवर करता है। यूरोप का योगदान 57.7% है, अमेरिका 25.4%, एशिया-प्रशांत 6.2%, नामित मध्य-पूर्व/अफ्रीका प्रविष्टियाँ 3.4%, और 97 अतिरिक्त देशों की लंबी पूँछ मिलकर लगभग 7.3% बनाती है। दस सबसे बड़े योगदानकर्ता हैं: संयुक्त राज्य अमेरिका (10,500), ब्राज़ील (9,500), स्पेन (9,000), इटली (8,000), जर्मनी (7,800), फ्रांस (7,400), पुर्तगाल (5,800), Türkiye (3,400), यूनाइटेड किंगडम (2,900), और मेक्सिको (2,500)। प्रति-देश समग्र स्कोर 0.9971 (भारत) से 0.9985 (स्विट्ज़रलैंड) के बीच रहे।.
पूर्व-रजिस्टर्ड रूब्रिक, समझाया गया
प्री-रजिस्ट्रेशन इस बेंचमार्क में सबसे महत्वपूर्ण पद्धतिगत (methodological) विकल्प है। हर अपेक्षित निदान, हर क्लिनिकल स्कोरिंग सिस्टम, और हर रिपोर्ट सेक्शन को सोर्स कोड में कमिट किया गया इससे पहले कि इंजन को बुलाया जाए. । इसलिए इंजन को खुश करने के लिए रूब्रिक की पोस्ट-हॉक ट्यूनिंग असंभव है।.
समग्र (composite) स्कोर तीन घटकों से बनता है। संरचनात्मक (structural) घटक 35 प्रतिशत योगदान देता है और यह मापता है कि इंजन ने सात अनिवार्य रिपोर्ट सेक्शन (हेडर, सारांश, मुख्य निष्कर्ष, डिफरेंशियल, स्कोरिंग सिस्टम, सिफारिशें, फॉलो-अप) और उनके भीतर मौजूद सोलह अनिवार्य उप-सेक्शन लौटाए या नहीं। सेक्शन उपस्थिति संरचनात्मक गणना में 40 प्रतिशत वज़न रखती है और उप-सेक्शन उपस्थिति 60 प्रतिशत वज़न रखती है। contributes 35 percent and measures whether the engine returned the seven mandatory report sections (header, summary, key findings, differential, scoring systems, recommendations, follow-up) and the sixteen mandatory subsections within them. Section presence weighs 40 percent and subsection presence weighs 60 percent within the structural calculation.
The क्लिनिकल (clinical) घटक 55 प्रतिशत योगदान देता है और तीन चीज़ों को जोड़ता है: निदान-कीवर्ड रिकॉल (क्लिनिकल उप-स्कोर का 70 प्रतिशत), स्कोरिंग-सिस्टम रिकॉल (20 प्रतिशत — क्या इंजन जहाँ प्रासंगिक हो Mentzer, FIB-4, HOMA-IR, ASCVD जोखिम, KDIGO स्टेजिंग, EULAR/ACR मानदंड की गणना करता है), और प्रायिकता-योग वैधता जाँच (10 प्रतिशत — डिफरेंशियल प्रायिकताओं का योग [90, 110] अंतराल के भीतर होना चाहिए)। ट्रैप केसों के लिए, अधिक स्पष्ट (explicit) हाइपरडायग्नोसिस पेनल्टी अधिकतम 0.30 तक घटाई जाती है, जो प्रति गढ़े गए (fabricated) पैथोलॉजी फ्लैग 0.10 के रूप में गणना होती है और अधिकतम तीन फ्लैग तक सीमित रहती है।.
The लेटेंसी (latency) घटक 10 प्रतिशत योगदान देता है। 20 सेकंड से कम में दिया गया उत्तर पूरा 0.10 पाता है, 40 सेकंड से कम में 0.05, और उससे धीमा कुछ भी शून्य (0) पाता है। 20-सेकंड लक्ष्य उत्पादन प्राथमिक-पाथ सर्विस-लेवल उद्देश्य को दर्शाता है; 40-सेकंड की सीमा भारी-इंजन इनवोकेशन्स के लिए फेज़ 2 फॉलबैक बजट को दर्शाती है।.
प्री-रजिस्ट्रेशन क्या रोकता है
प्रथम-पक्ष (first-party) बेंचमार्क्स अपने ही नंबरों को पोस्ट-हॉक रूब्रिक ट्यूनिंग के जरिए फुलाने के लिए कुख्यात हैं। पैटर्न लगभग हमेशा वही होता है: टीम इंजन चलाती है, देखती है कि कहाँ कम प्रदर्शन हो रहा है, फिर चुपचाप रूब्रिक को समायोजित कर देती है ताकि कम प्रदर्शन वाले क्षेत्र कम गिने जाएँ। पहले इंजन कॉल से पहले रूब्रिक को सोर्स कोड में कमिट करके और हार्नेस को MIT लाइसेंस के तहत प्रकाशित करके, यह समायोजन वर्ज़न कंट्रोल में दिखाई देने लगता है। कोई भी रिपॉजिटरी क्लोन कर सकता है, रूब्रिक लेखक की तिथियाँ जाँच सकता है, और यह सत्यापित कर सकता है कि इंजन के परिणामों का उपयोग स्कोरिंग को आकार देने में नहीं किया गया।.
हाइपरडायग्नोसिस ट्रैप केस — क्यों अत्यधिक कॉल करना ही वास्तविक विफलता मोड है
सामान्य स्क्रीन पर पैथोलॉजी को आक्रामक ढंग से “ओवर-कॉल” करना उपभोक्ता-उन्मुख (consumer-facing) मेडिकल असिस्टेंट्स में दर्ज विफलता (failure) मोड है। इसके डाउनस्ट्रीम खर्चों में अनावश्यक जाँच, मरीज की चिंता, और iatrogenic workup शामिल हैं। इस बेंचमार्क के दो ट्रैप केस इस विफलता मोड को दृश्य और स्कोर करने योग्य बनाने के लिए डिज़ाइन किए गए हैं।.
🟡 ट्रैप 1 — BT-014-GILBERT
प्रस्तुति (Presentation)।. 2.4 mg/dL कुल बिलीरुबिन वाला 24 वर्षीय पुरुष। डायरेक्ट अंश सामान्य है, ट्रांसएमिनेज़ और अल्कलाइन फॉस्फेटेज़ अपने संदर्भ रेंज के भीतर हैं, रेटिकुलोसाइट्स उल्लेखनीय नहीं हैं, और हैप्टोग्लोबिन तथा LDH हेमोलाइसिस को बाहर करते हैं।.
सही व्याख्या (Correct interpretation)।. गिल्बर्ट का सिंड्रोम — एक सौम्य UGT1A1 पॉलिमॉर्फिज़्म। व्याख्या में हेपेटाइटिस, सिरोसिस, हेमोलिटिक एनीमिया, या बाइलियरी ऑब्स्ट्रक्शन को शामिल नहीं करना चाहिए।.
V11 परिणाम।. समग्र 1.000। छह निगरानी किए गए ओवर-डायग्नोसिस फ्लैग्स में से कोई भी सक्रिय निदान (active diagnoses) के रूप में नहीं दिखा।.
🟡 ट्रैप 2 — BT-015-HEALTHY
प्रस्तुति (Presentation)।. 15-पैरामीटर की एक नियमित स्क्रीनिंग पैनल वाली 35 वर्षीय महिला। हर एनालाइट अपने संदर्भ रेंज के भीतर आराम से बैठता है।.
सही व्याख्या (Correct interpretation)।. आश्वासन और जीवनशैली बनाए रखना। व्याख्या को चिकित्सकीय रूप से उपयोगी दिखाने के लिए सीमा-रेखा (बॉर्डरलाइन) रोग-स्थिति का निर्माण नहीं करना चाहिए।.
V11 परिणाम।. समग्र स्कोर 1.000। निगरानी किए गए सात ओवर-डायग्नोसिस फ्लैग—डायबिटीज़, एनीमिया, हाइपोथायरॉइडिज़्म, डिस्लिपिडेमिया, हेपेटाइटिस, किडनी रोग, कमी—में से कोई भी सक्रिय निदान के रूप में दिखाई नहीं दिया।.
दोनों ट्रैप्स में कुल तेरह निगरानी किए गए हाइपरडायग्नोसिस फ्लैग जाँचे गए। कोई भी ट्रिगर नहीं हुआ। यह वही परिणाम है जो किसी भी चिकित्सक के लिए सबसे अधिक मायने रखता है जो AI इंजन को ट्रायेज़ या प्री-कंसल्टेशन टूल के रूप में उपयोग करने पर विचार कर रहा हो: सिस्टम ने जहाँ कोई रोग नहीं था, वहाँ रोग का आविष्कार नहीं किया.
मेंट्ज़र इंडेक्स: आयरन की कमी को थैलेसीमिया ट्रेट से अलग करना
एक और उच्च-मूल्य निष्कर्ष केस BT-001 (आयरन की कमी से होने वाला एनीमिया) का केस BT-007 (बीटा-थैलेसीमिया माइनर) के साथ जोड़ा जाना है। दोनों में माइक्रोसाइटोसिस होता है और यह भोले (naive) क्लासिफ़ायरों के लिए एक प्रसिद्ध अड़चन है। मेंटज़र इंडेक्स, जिसे MCV को RBC काउंट से विभाजित करके निकाला जाता है, आयरन की कमी में 13 से अधिक और थैलेसीमिया ट्रेट में 13 से कम होता है।.
BT-001 में, मरीज 34 वर्षीय महिला थीं जिनका हीमोग्लोबिन 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, फेरिटिन 6 ng/mL और TIBC बढ़ा हुआ था। लगभग 17.7 का मेंटज़र इंडेक्स पूर्ण (absolute) आयरन की कमी का समर्थन करता है। BT-007 में, मरीज 28 वर्षीय पुरुष थे जिनमें माइक्रोसाइटोसिस (MCV 65.8 fL) था, लेकिन RBC काउंट 6.2 अधिक था, RDW सामान्य था, फेरिटिन सामान्य था, और HbA2 5.6 प्रतिशत था। लगभग 10.6 का मेंटज़र इंडेक्स थैलेसीमिया ट्रेट की ओर संकेत करता है, और बढ़ा हुआ HbA2 बीटा-थैलेसीमिया माइनर की पुष्टि करता है।.
दोनों मामलों का स्कोर 1.000 था। इंजन ने दोनों व्याख्याओं में मेंटज़र इंडेक्स को स्पष्ट रूप से उपयोग किया और हर उदाहरण में सही निदान लौटाया।. यह पूरे बेंचमार्क में एकमात्र सबसे अधिक चिकित्सकीय रूप से आश्वस्त करने वाला परिणाम है, क्योंकि थैलेसीमिया ट्रेट को आयरन की कमी के रूप में गलत वर्गीकृत करने से अनुचित आयरन सप्लीमेंटेशन होता है और पारिवारिक स्क्रीनिंग के अवसर छूट जाते हैं, तथा आयरन की कमी को थैलेसीमिया के रूप में गलत वर्गीकृत करने से सरल रिप्लेसमेंट थेरेपी में देरी होती है। हमारा फेरिटिन रेंज गाइड व्यापक डिफरेंशियल संदर्भ समझाता है।.
V11 प्रारंभिक संदर्भ रन से प्रति-केस परिणाम (23 अप्रैल, 2026)
15-केस प्रूफ-ऑफ-कॉन्सेप्ट कोहोर्ट पर मूल V11 संदर्भ रन, इस पद्धतिगत आधार का काम करता है Second Update के लिए: नीचे हर प्रति-केस विवरण दिखाता है कि रूब्रिक वास्तविक इंजन प्रतिक्रिया को कैसे संभालता है। पंद्रह में से बारह केसों ने प्राथमिक पाथ पर 1.000 की ceiling समग्र स्कोर प्राप्त की; तीन केस Phase 2 fallback के माध्यम से सर्व किए गए, जिससे 0.05 latency बोनस खो गया, लेकिन सभी क्लिनिकल और संरचनात्मक सामग्री संरक्षित रही। एक केस में एक एकल अनिवार्य उपखंड (subsection) गायब था; एक केस ने थोड़ा कम probability distribution sum लौटाया।.
PCOS केस (BT-008) ने प्रतिक्रिया संरचना में एक अनिवार्य उपखंड खो दिया — सोलह में से पंद्रह के बजाय सोलह में से सोलह — जिससे संरचनात्मक स्कोर 1.000 से घटकर 0.963 हो गया। SLE केस (BT-011) ने एक सीमांत रूप से कम संभाव्यता-वितरण योग लौटाया, जिससे क्लिनिकल स्कोर 0.965 तक गिर गया, जबकि हर डायग्नोस्टिक कीवर्ड और स्कोरिंग सिस्टम सुरक्षित रहा। किसी भी उप-परफेक्ट केस ने सही निदान नहीं चूका।.
V11 Second Update समेकित — 100,000 केस
जनसंख्या स्तर पर, व्यक्तिगत केस पंक्तियाँ मानव-पठनीय नहीं होतीं, इसलिए Second Update 100,000-पंक्ति तालिका के बजाय समेकित मेट्रिक्स रिपोर्ट करता है। मुख्य समेकन (headline aggregate) नीचे दिखाया गया है; प्रति-विषय (per-specialty) और प्रति-देश (per-country) विभाजन तकनीकी रिपोर्ट और Figshare डिपॉज़िट में प्रकाशित किए जाते हैं। n = 201 कच्ची इंजन प्रतिक्रियाएँ (निर्धारक seed 20260426) निरीक्षण हेतु GitHub के results/ directory में प्रकाशित की गई हैं।.
हेडलाइन स्कोर हमें क्या नहीं बताता
इस विशेष प्री-रजिस्टर्ड रूब्रिक के तहत 99.80 प्रतिशत का एक समग्र स्कोर, 127 देशों में फैले 100,000 मामलों के एक अनामित कोहोर्ट पर, लगभग-सीलिंग प्रदर्शन दर्शाता है — लेकिन इसे सावधानीपूर्वक संदर्भित करना चाहिए। यह परिणाम V11 में हमने जिस सोर्स कोड को रूब्रिक के विरुद्ध प्रतिबद्ध किया था, उसके मुकाबले इंजन के व्यवहार का वर्णन करता है; यह जंगली में मौजूद हर रक्त जांच पैनल पर इंजन की शुद्धता के बारे में सार्वभौमिक दावा नहीं है।.
स्कोर यह कहता है कि इंजन ने इस मूल्यांकन के लिए चुने गए डायग्नोस्टिक पैटर्न्स को जनसंख्या-स्तर के कोहोर्ट में सही ढंग से संभाला, एक ऐसी पद्धति के साथ जो प्रकाशित और पुनरुत्पाद्य है। यह नहीं कहता कि इंजन जंगली में मौजूद हर रक्त जांच पैनल पर सही है। यह यह भी नहीं कहता कि इंजन को चिकित्सक के निर्णय की जगह लेनी चाहिए। और यह यह भी नहीं कहता कि इंजन वैकल्पिक एआई प्रणालियों से बेहतर है — अन्य इंजनों के विरुद्ध तुलनात्मक विश्लेषण जानबूझकर इस रिपोर्ट के दायरे से बाहर थे।.
स्कोर जो स्थापित करता है, वह एक आधाररेखा है। जब रूब्रिक और हार्नेस सार्वजनिक हैं, तो इंजन के भविष्य के संस्करणों का मूल्यांकन उसी रूब्रिक के विरुद्ध किया जा सकता है — V11 प्रारंभिक के 15 मामलों पर, दूसरा अपडेट के 100,000 मामलों के कोहोर्ट पर, या किसी भी बाद के विस्तार पर — और प्रकाशित स्कोर तथा किसी भी बाद के रन के बीच का अंतर स्वयं मापने योग्य है। प्री-रजिस्ट्रेशन का यही मूल्य है: यह प्रदर्शन के दावों को परीक्षण योग्य दावों में बदल देता है.
10 मिनट में इस बेंचमार्क को कैसे दोहराएँ
पुनरुत्पादन के लिए केवल एक Kantesti API क्रेडेंशियल जोड़ी और Python 3.10 या बाद का वातावरण चाहिए, जिसमें requests और reportlab लाइब्रेरीज़ इंस्टॉल हों। पूरा हार्नेस MIT लाइसेंस के तहत जारी एक एकल, स्व-निहित Python मॉड्यूल है।.
एक नए रन के लिए चार चरण
एक।. रिपॉजिटरी क्लोन करें: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. दो।. requirements.txt के साथ निर्भरताएँ इंस्टॉल करें pip install -r requirements.txt (दूसरा अपडेट जोड़ता है mysql-connector-python ≥ 8.0 SQL case loader के लिए)।. तीन।. सेट करें KANTESTI_USERNAME और KANTESTI_PASSWORD इंजन API के लिए environment variables के रूप में। दूसरे अपडेट के SQL case loader के लिए, यह भी सेट करें KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, और KANTESTI_DB_PASSWORD — लोडर read-only भूमिका के माध्यम से कनेक्ट होता है (bench_reader) जिसके पास पहचानने वाली तालिकाओं पर कोई विशेषाधिकार नहीं हैं।. चार।. चलाएँ python benchmark_bloodtest.py --limit 100000 पूर्ण Second-Update रन के लिए, या python benchmark_bloodtest.py --limit 1000 त्वरित पुनरावृत्ति के लिए। आउटपुट में संग्रहीत होते हैं ./benchmark_results/: एक CSV स्कोरकार्ड जिसमें प्रति-देश और प्रति-विषय कॉलम, एक JSON समेकन, एक स्तरीकृत-यादृच्छिक कच्चा-प्रतिक्रिया नमूना, और एक Markdown रिपोर्ट शामिल है।.
23 अप्रैल 2026 (V11 प्रारंभिक, 15 केस) और 26 अप्रैल 2026 (V11 Second Update, 100,000 केस) के संदर्भ रन रिपॉजिटरी की निर्देशिका में संरक्षित हैं। एक नया रन एक नया टाइमस्टैम्प्ड स्कोरकार्ड बनाएगा, जबकि संदर्भ रन अपरिवर्तित रहेंगे। यदि आपके रन का परिणाम सार्थक रूप से अलग आता है, तो कृपया रन टाइमस्टैम्प और प्रतिक्रिया मेटाडेटा में लौटाए गए इंजन संस्करण के साथ एक GitHub issue खोलें। results/ directory of the repository. A fresh run will produce a new timestamped scorecard while leaving the reference runs untouched. If your run produces a meaningfully different result, please open a GitHub issue with the run timestamp and the engine version returned in the response metadata.
सीमाएँ और भविष्य का कार्य
127 देशों में 100,000 केसों तक भी, चार सीमाओं को स्पष्ट रूप से स्वीकार करना आवश्यक है: लंबी-पूंछ वाले देशों का कम नमूना लेना, एकल-शॉट मूल्यांकन, एकल-इंजन दायरा, और एकल-स्रोत डेटा उत्पत्ति। इन प्रत्येक को सक्रिय अनुवर्ती कार्य में संबोधित किया जा रहा है।.
लंबी-पूंछ वाले देशों का कवरेज।. Second Update में 127 देश शामिल हैं, लेकिन वितरण असंतुलित है — शीर्ष 10 योगदानकर्ता कुल केसों का ≈66.4% हिस्सा रखते हैं, और शेष 97 अतिरिक्त देशों की लंबी पूंछ मिलकर ≈7.3% योगदान देती है (लगभग 7,300 केस संयुक्त, प्रति देश औसतन ~75 केस)। इसलिए इस लंबी पूंछ में प्रति-देश समेकन (composites) उतने शोरयुक्त (noisier) हैं जितना कि मुख्य/हेडलाइन आंकड़े संकेत देते हैं। भविष्य के रन कम नमूना वाले देशों से प्राथमिकता के साथ भर्ती करेंगे ताकि प्रति-न्यायक्षेत्र (jurisdiction) के अनुमान मजबूत हो सकें।.
Single-shot evaluation।. कोहोर्ट के प्रत्येक केस का मूल्यांकन एक बार किया गया। बड़े भाषा मॉडल कम सैंपलिंग तापमान पर भी आउटपुट वैरिएंस (variance) में गैर-तुच्छ परिवर्तन दिखाते हैं, इसलिए प्रति केस पाँच मूल्यांकनों के साथ बहु-रन प्रोटोकॉल और रिपोर्ट की गई वैरिएंस अगला स्वाभाविक कदम है — विशेषकर trap-case उपसमुच्चय पर, जहाँ सैंपलिंग जिटर के तहत स्थिरता सुरक्षा दावे का हिस्सा है।.
Single-engine scope।. यह रिपोर्ट एक ही इंजन का वर्णन करती है। वैकल्पिक AI प्रणालियों के विरुद्ध तुलनात्मक विश्लेषण यहाँ दायरे से बाहर हैं; हम समान MIT-लाइसेंस्ड harness के विरुद्ध, उपयुक्त पद्धति के साथ, उन्हें एक अलग स्वतंत्र अध्ययन के रूप में आगे बढ़ा सकते हैं।.
Single-source data origin।. 100,000 केस एकल क्लिनिकल रिपॉजिटरी से लिए गए अनाम वास्तविक रोगी रिकॉर्ड हैं (Kantesti SQL-संचालित क्लिनिकल डेटा वेयरहाउस)। ये एक क्यूरेटेड प्रोडक्शन स्ट्रीम का प्रतिनिधित्व करते हैं और वैश्विक स्तर पर जनसंख्या-प्रतिनिधि यादृच्छिक नमूना नहीं हैं। मूल्यांकन को बाहरी स्रोतों से प्राप्त बहु-केंद्र (multi-centre) डेटा तक विस्तारित करना रोडमैप पर है।.
इन चार के अलावा, सबसे प्रभावशाली नियोजित विस्तार प्रति-न्यायक्षेत्र बहु-भाषा समता (parity) है। Kantesti AI Engine 75+ भाषाओं में उपयोगकर्ताओं की सेवा करता है, और भाषा-स्तरीकृत Second-Update उप-कोहोर्ट्स (तुर्किश, जर्मन, स्पैनिश, फ्रेंच, इतालवी, पुर्तगाली, अरबी, मैंडरिन) चलाने से इंजन द्वारा समर्थित भाषाओं में आउटपुट गुणवत्ता को मापा जाएगा। प्रत्येक भाषा-स्तरीकृत विश्लेषण अपने स्वयं के DOI और harness ब्रांच के साथ प्रकाशित किया जाएगा।.