Kantesti एआई ब्लड टेस्ट बेंचमार्क

स्वचालित बेंचमार्क पूर्व-रजिस्टर्ड बेंचमार्क V11 दूसरा अपडेट — अप्रैल 2026 MIT-लाइसेंस्ड पुनरुत्पाद्य · ओपन डेटा 100K सिंथेटिक कोहोर्ट · 127 देश लेबल

99.80% प्री-रजिस्टर्ड रूब्रिक पर कंपोज़िट स्कोर — V11 दूसरा अपडेट, 127 देश लेबल्स में फैला 100,000-केस कोहोर्ट

127 देश लेबल्स के साथ टैग किए गए 100,000 सिंथेटिक रूप से जनरेट किए गए ब्लड-टेस्ट केसों पर Kantesti इंजन का एक प्री-रजिस्टर्ड, रूब्रिक-आधारित ऑटोमेटेड तकनीकी बेंचमार्क। यह आउटपुट कन्फॉर्मेंस को मापता है, न कि डायग्नोस्टिक एक्यूरेसी को। रूब्रिक V11 के प्रारंभिक रिलीज़ से पहले सोर्स कोड में फ्रीज़ किया गया था और इस दूसरे अपडेट के लिए बाइट-आइडेंटिकल रखा गया; इवैल्युएशन हार्नेस MIT-लाइसेंस्ड है; निरीक्षण हेतु रॉ इंजन प्रतिक्रियाओं का एक स्ट्रैटिफाइड रैंडम सैंपल प्रकाशित किया गया है। सभी केस सिंथेटिक हैं; कोई व्यक्तिगत डेटा उपयोग नहीं किया जाता।.

📖 ~14 मिनट 📅 प्रकाशित: 23 अप्रैल, 2026 · अपडेटेड: 26 अप्रैल, 2026 (V11 दूसरा अपडेट) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 प्रकाशित: 23 अप्रैल, 2026 🔄 V11 दूसरा अपडेट: 26 अप्रैल, 2026 🩺 चिकित्सकीय रूप से समीक्षा: 26 अप्रैल, 2026 ✅ प्री-रजिस्टर्ड रूब्रिक (बाइट-आइडेंटिकल) 🔓 ओपन कोड & डेटा

यह स्वचालित बेंचमार्क द्वारा डिज़ाइन और संचालित किया गया था जूलियन एमिरहान बुलुत, वरिष्ठ AI इंजीनियर और Kantesti Ltd के CEO। स्कोरिंग पूरी तरह से स्रोत कोड में स्वचालित है; स्कोरिंग रूब्रिक और केस पैनल को डॉ. थॉमस क्लेन, एमडी, Kantesti AI के मुख्य चिकित्सा अधिकारी, से नैदानिक इनपुट के साथ विकसित किया गया था, और कांटेस्टी एआई चिकित्सा सलाहकार बोर्ड. यह एक स्व-चालित आंतरिक बेंचमार्क है, न कि कोई स्वतंत्र या सहकर्मी-समीक्षित ऑटोमेटेड तकनीकी बेंचमार्क।.

मुख्य लेखक & नैदानिक पर्यवेक्षण

थॉमस क्लेन, एमडी

मुख्य चिकित्सा अधिकारी, कांटेस्टी एआई

डॉ. थॉमस क्लाइन एक बोर्ड-प्रमाणित क्लिनिकल हेमेटोलॉजिस्ट और इंटर्निस्ट हैं, जिनके पास लैबोरेटरी मेडिसिन में 15 से अधिक वर्षों का अनुभव है। Kantesti AI में चीफ मेडिकल ऑफिसर के रूप में, उन्होंने इस बेंचमार्क के लिए केस पैनल चुना, सिंथेटिक केसों की क्लिनिकल सामग्री और अपेक्षित उत्तरों की समीक्षा की, और पहली इंजन इनवोकेशन से पहले प्री-रजिस्टर्ड रूब्रिक को अनुमोदित किया।.

ORCID 0009-0009-1490-1321 रिसर्चगेट गूगल ज्ञानी

सह-लेखक & कार्यान्वयन

जूलियन एमिरहान बुलुत

वरिष्ठ AI इंजीनियर & CEO, Kantesti Ltd

जूलियन एमिरहान बुलुत Kantesti Ltd के संस्थापक और CEO हैं। उन्होंने मूल्यांकन हार्नेस डिज़ाइन और लागू किया — जिसमें V11 दूसरे अपडेट के लिए जोड़ा गया SQL केस लोडर भी शामिल है — API इंटीग्रेशन किया, V11 प्रारंभिक रेफरेंस रन और V11 दूसरा अपडेट 100,000-केस रन दोनों संचालित किए, और सांख्यिकीय एग्रीगेशन तैयार किया। 2019 से प्लेटफ़ॉर्म के संस्थापक।.

GitHub कांटेस्टी के बारे में

⚡ संक्षिप्त सारांश V11 दूसरा अपडेट — 26 अप्रैल, 2026

99.80% कंपोज़िट स्कोर आठ चिकित्सा विशिष्टताओं और 127 देश लेबल्स में फैले 100,000 सिंथेटिक ब्लड-टेस्ट केसों पर (V11 दूसरा अपडेट)।.
शून्य हाइपरडायग्नोसिस फॉल्स-पॉज़िटिव 87,412 मॉनिटर किए गए ट्रैप-केस फ़्लैग अवसरों के पार — V11 प्रारंभिक के समान ट्रैप-केस पद्धति, जनसंख्या स्तर तक स्केल की गई।.
पूर्व-रजिस्टर्ड रूब्रिक V11 प्रारंभिक रन से पहले सोर्स कोड में फ्रीज़ किया गया और रखा गया बाइट-आइडेंटिकल इस दूसरे अपडेट के लिए — कोई पोस्ट-हॉक ट्यूनिंग संभव नहीं थी।.
मेंट्ज़र इंडेक्स सही तरीके से लागू किया गया V11 प्रारंभिक रिलीज़ में आयरन डिफिशिएंसी एनीमिया को बीटा-थैलेसीमिया माइनर से अलग करने के लिए; जनसंख्या स्तर पर विभेदक व्यवहार संरक्षित रहा।.
केवल प्रोडक्शन एंडपॉइंट — कोई विशेषाधिकार प्राप्त रूटिंग नहीं; इसका मूल्यांकन बिल्कुल वैसा ही किया गया जैसा कोई भुगतान करने वाला ग्राहक इसे एक्सेस करता।.
13.26 सेकंड औसत लेटेंसी एंड-टू-एंड (रेंज 9.0–16.94 s), और सभी 100,000 केस इंजन के प्राथमिक पाथ पर पूरे हुए।.
सिंथेटिक कोहोर्ट।. रन-टाइम पर लोड किए गए 100,000 सिंथेटिक रूप से जनरेट किए गए टेस्ट केस। कोई सिंथेटिक डेटा और कोई व्यक्तिगत डेटा उपयोग नहीं किया जाता।.
MIT-लाइसेंस्ड हार्नेस GitHub पर निरीक्षण हेतु पूर्ण कच्ची इंजन प्रतिक्रियाओं का एक स्तरीकृत रैंडम सैंपल (n = 201) के साथ जारी किया गया।.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub पर मिरर किया गया।.

यह बेंचमार्क क्यों मौजूद है और यह क्या जांचता है

एआई-सहायता प्राप्त ब्लड टेस्ट रिपोर्ट समझें का उपयोग उपभोक्ता और नैदानिक वर्कफ़्लो में तेजी से किया जा रहा है, फिर भी प्रयोगशाला चिकित्सा के अनुरूप पुनरुत्पाद्य मूल्यांकन ढाँचे दुर्लभ बने हुए हैं। इस संदर्भ में सबसे महत्वपूर्ण प्रश्न वे नहीं हैं जो सामान्य चिकित्सा प्रश्न-उत्तर बेंचमार्क में कवर होते हैं: क्या कोई इंजन तब आयरन की कमी को थैलेसीमिया ट्रेट से अलग कर सकता है जब मीन कॉर्पस्कुलर वॉल्यूम समान हो, क्या वह गिल्बर्ट्स सिंड्रोम को हेपेटाइटिस के रूप में ओवर-डायग्नोज़ करता है, और क्या वह पूरी तरह सामान्य स्क्रीनिंग पैनल में पैथोलॉजी “बनाता” है?

एकल ब्लड टेस्ट पैनल में आम तौर पर कई प्रतिस्पर्धी व्याख्याओं का समर्थन करने के लिए पर्याप्त संकेत होते हैं, और व्याख्या करने वाले चिकित्सक का काम उन व्याख्याओं को एक-दूसरे के विरुद्ध तौलना होता है, न कि किसी पाठ्यपुस्तक-सा एक निश्चित उत्तर निकालना। जो इंजन पाठ्यपुस्तक वाले मामलों में अच्छा प्रदर्शन करता है, वह फिर भी उन मामलों में असफल हो सकता है जो सबसे अधिक मायने रखते हैं: विभेदक-निदान की गलतियाँ, वे सौम्य विविधताएँ जो अकेले में चिंताजनक लगती हैं, और वे पूरी तरह सामान्य पैनल जो आत्मविश्वासी सहायकों को पैथोलॉजी गढ़ने के लिए लुभाते हैं।.

यह बेंचमार्क ठीक उन्हीं विफलता-प्रकारों के इर्द-गिर्द बनाया गया था। पंद्रहों मामलों को किसी विशिष्ट नैदानिक गुण के लिए चुना गया: एक आयरन-की कमी से होने वाली माइक्रोसाइटोसिस जिसे समान mean corpuscular volume वाले beta-thalassaemia trait से अलग रखना जरूरी है; एक Gilbert's syndrome प्रस्तुति जिसमें एकमात्र असामान्यता अलग-थलग indirect hyperbilirubinaemia है; और एक पंद्रह-पैरामीटर स्क्रीनिंग पैनल जिसमें हर analyte अपने संदर्भ-सीमा के भीतर बैठता है। यह रूब्रिक उन इंजनों को पुरस्कृत करती है जो हर केस को अपने संदर्भ में पढ़ते हैं और उन इंजनों को दंडित करती है जो ऐसे आत्मविश्वासपूर्ण निदान तक पहुँच जाते हैं जहाँ ऐसा निदान उचित नहीं है।.

डॉ. थॉमस क्लाइन के रूप में, मैंने केस पैनल इसलिए चुना क्योंकि ये वे पैटर्न हैं जिन्हें लैब-चिकित्सा सहायक सबसे अधिक बार गलत करते हैं।. महँगा विफलता-प्रकार "दुर्लभ बीमारी को चूकना" नहीं है — यह उन मरीजों में नियमित पैथोलॉजी गढ़ देना है जिनमें वह मौजूद नहीं है।. हमारा चिकित्सा सत्यापन hub व्यापक फ्रेमवर्क का वर्णन करता है; यह पेज V11 प्रारंभिक प्रूफ-ऑफ-कॉन्सेप्ट और V11 दूसरा अपडेट का वर्णन करता है, जिसने इसे 127 देश लेबल्स को कवर करने वाले एक सिंथेटिक केस सेट से निकाले गए 100,000 सिंथेटिक केसों तक स्केल किया — उसी स्कोरिंग रूब्रिक का उपयोग करते हुए, बाइट-आइडेंटिकल, और पोस्ट-हॉक ट्यूनिंग की अनुमति नहीं है।.

नवीनतम संदर्भ रन — V11 सेकंड अपडेट (26 अप्रैल, 2026)

26 अप्रैल 2026 का V11 सेकंड अपडेट संदर्भ रन एक समग्र स्कोर (कम्पोज़िट स्कोर) उत्पन्न करता है 99.80% उसी प्री-रजिस्टर्ड रूब्रिक पर, जो V11 प्रारंभिक रिलीज़ में उपयोग हुआ था, मूल्यांकन किया गया 100,000 सिंथेटिक केस Kantesti सिंथेटिक केस सेट से लिए गए और फैले हुए 127 देश लेबल्स में और 75+ भाषाओं में। हर केस इंजन के प्राथमिक पाथ पर पूरा हुआ; ट्रैप-केस हाइपरडायग्नोसिस फ्लैग सक्रियताएँ बनी रहीं 0 / 87,412. । 23 अप्रैल 2026 के मूल V11 रन में 15 हाथ से क्यूरेट किए गए केस (समग्र 99.12%) शामिल थे और रूब्रिक को सत्यापित किया गया; सेकंड अपडेट उसी रूब्रिक को बाइट-आइडेंटिकल रखते हुए मूल्यांकन को जनसंख्या-स्तर के कोहोर्ट तक विस्तारित करता है।.

समग्र (Composite) 99.80% 100,000 में से 100,000 केसों का स्कोर

1.000 संरचनात्मक स्कोर (Structural score)

0.996 नैदानिक स्कोर (Clinical score)

13.26 s औसत विलंबता (Mean latency)

0 / 87,412 ट्रैप false-positives

समग्र सूत्र (composite formula) तीन घटकों को जोड़ता है: संरचनात्मक अनुरूपता (structural conformance) सात अनिवार्य रिपोर्ट सेक्शनों और सोलह अनिवार्य उप-सेक्शनों के साथ, सामग्री की सटीकता जिसे keyword recall के साथ-साथ scoring-system recall और probability-distribution validity check के रूप में मापा गया, और प्रतिक्रिया विलंबता (response latency) प्राथमिक-पाथ सर्विस-लेवल लक्ष्य के विरुद्ध। सटीक विभाजन नीचे दिए गए रूब्रिक फ़ॉर्मूला में दिखाया गया है—इनमें से किसी भी वज़न या सब-रूब्रिक को सेकंड अपडेट के लिए बदला नहीं गया।.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

हेडरूम के शेष 0.20 प्रतिशत अंक लगभग पूरी तरह क्लिनिकल सब-स्कोर में विभाजित होते हैं—केसों का एक छोटा अंश (मुख्यतः हेपेटोलॉजी और रूमेटोलॉजी में) में एक अपेक्षित स्कोरिंग-सिस्टम कीवर्ड इंजन की व्याख्या में अनुपस्थित था, जबकि डायग्नोस्टिक सामग्री सही थी।. 100,000-केस सेकंड-अपडेट कोहोर्ट में कोई भी केस स्वयं निदान (डायग्नोसिस) से चूक नहीं गया।. लेटेंसी V11 प्रारंभिक रिलीज़ में औसतन 20.17 s से घटकर सेकंड अपडेट में 13.26 s हो गई—दोनों रनों के बीच प्रोडक्शन इंजन ऑप्टिमाइज़ेशन को दर्शाते हुए; रूब्रिक, स्कोरिंग कोड, और API एंडपॉइंट अपरिवर्तित हैं।.

प्रति-लेबल कंपोज़िट स्कोर 30 सबसे अधिक प्रतिनिधित्व वाले देश लेबल्स में 0.9971 से 0.9985 के बीच रहे। शेष 97 अतिरिक्त लेबल्स की लंबी पूंछ (कुल मिलाकर ≈7,300 केस) में कोई व्यवस्थित गिरावट नहीं दिखी। केस काउंट के आधार पर सबसे अधिक बार आने वाले लेबल थे: संयुक्त राज्य (10,500), ब्राज़ील (9,500), स्पेन (9,000), इटली (8,000), जर्मनी (7,800), फ्रांस (7,400), पुर्तगाल (5,800), Türkiye (3,400), यूनाइटेड किंगडम (2,900), और मेक्सिको (2,500)।.

15 केसों से 100,000 तक: 127 देश लेबल्स में कोहोर्ट का विकास

मूल V11 केस पैनल में सात विशिष्टताएँ शामिल थीं — हेमेटोलॉजी, एंडोक्रिनोलॉजी, मेटाबॉलिक मेडिसिन, हेपेटोलॉजी, नेफ्रोलॉजी, कार्डियोलॉजी, रूमेटोलॉजी — साथ ही दो समर्पित हाइपरडायग्नोसिस ट्रैप केस; प्रत्येक केस एक सिंथेटिक रूप से जनरेट किया गया ब्लड-टेस्ट पैनल था। V11 दूसरा अपडेट मूल्यांकन को 127 देश लेबल्स में फैले 100,000 सिंथेटिक केसों तक विस्तारित करता है, जिन्हें आठ विशेषताओं में बाँटा गया है (मूल सात के साथ एक समर्पित आंतरिक-चिकित्सा बकेट जो ट्रैप उपसमूह को समाहित करता है)। वही स्कोरिंग रूब्रिक दोनों रनों में बाइट-आइडेंटिकल लागू किया गया है।.

चूँकि सभी केस सिंथेटिक रूप से जनरेट किए गए हैं, हटाने हेतु कोई वास्तविक पहचानकर्ता नहीं हैं और कोई व्यक्तिगत डेटा शामिल नहीं है। प्रत्येक सिंथेटिक केस में एक बेंचमार्क-आंतरिक केस कोड होता है (V11 प्रारंभिक सेट में BT-NNN-LABEL, दूसरा अपडेट में एक स्थिर case_uid )। प्रकाशित हार्नेस, तकनीकी रिपोर्ट, या जारी किए गए डेटासेट्स में कहीं भी व्यक्तिगत डेटा दिखाई नहीं देता।.

V11 initial release — 15 hand-curated cases

मूल V11 केस पैनल को डॉ. थॉमस क्लाइन ने हाथ से चुना था ताकि वे डायग्नोस्टिक पैटर्न्स का अभ्यास कराया जा सके जिन्हें लैबोरेटरी-चिकित्सा सहायक सबसे अधिक बार गलत समझते हैं। नीचे सूचीबद्ध प्रत्येक पंद्रह मामलों को किसी विशिष्ट डायग्नोस्टिक गुण के लिए चुना गया था।.

हेमेटोलॉजी (3) BT-001, BT-006, BT-007 आयरन की कमी से होने वाला एनीमिया · B12 की कमी · बीटा-थैलेसीमिया माइनर

एंडोक्रिनोलॉजी (3) BT-002, BT-008, BT-012 हाशिमोटो का थायरॉयडाइटिस · इंसुलिन रेजिस्टेंस के साथ PCOS · गंभीर विटामिन डी की कमी

मेटाबोलिक (2) BT-003, BT-013 मेटाबोलिक सिंड्रोम के साथ T2DM · गाउट जोखिम के साथ हाइपरयूरिसीमिया

हेपेटोलॉजी (2) BT-004, BT-009 NAFLD / NASH · तीव्र वायरल हेपेटाइटिस

नेफ्रोलॉजी · कार्डियोलॉजी · रूमेटोलॉजी (3) BT-005, BT-010, BT-011 CKD स्टेज 3 · एथेरोजेनिक डिस्लिपिडेमिया · सिस्टमिक ल्यूपस एरिथेमेटोसस

ट्रैप केस (2) BT-014, BT-015 Gilbert's syndrome (अलग-थलग अप्रत्यक्ष हाइपरबिलिरुबिनेमिया) · पूरी तरह सामान्य वयस्क स्क्रीन

यह विशेष वितरण क्यों

हेमेटोलॉजी को तीन केस मिलते हैं क्योंकि माइक्रोसाइटिक डिफरेंशियल्स और मैक्रोसाइटिक डिफरेंशियल्स वास्तविक दुनिया की लैब प्रैक्टिस में सबसे अधिक-आवृत्ति वाले “ट्रैप” हैं। एंडोक्रिनोलॉजी को तीन केस मिलते हैं क्योंकि हैशिमोटो, PCOS, और विटामिन डी की कमी की प्रस्तुतियाँ अलग-अलग डायग्नोस्टिक आकृतियाँ (ऑटोएंटीबॉडी-चालित, हार्मोन-रेशियो-चालित, एकल-मार्कर-चालित) अभ्यास में लाती हैं। एकल-केस वाली विशेषताएँ फिर भी सार्थक हैं क्योंकि CKD, ASCVD जोखिम, और SLE—तीनों की अपनी-अपनी स्कोरिंग प्रणाली है जिसे इंजन को बुलाना चाहिए (क्रमशः KDIGO स्टेजिंग, ASCVD 10-वर्ष जोखिम, 2019 EULAR/ACR SLE मानदंड)।.

V11 दूसरा अपडेट — 127 देश लेबल्स में फैले 100,000 सिंथेटिक केस

दूसरा अपडेट मूल V11 के 15-केस हार्ड-कोडेड Python literal को एक बड़े, प्रोग्रामेटिक रूप से जनरेट किए गए सिंथेटिक केस सेट से बदल देता है। यह केस सेट हर रन की शुरुआत में लोड होता है और पारदर्शिता हेतु कॉन्फ़िगरेशन लॉग किया जाता है। सामग्री-क्षेत्र के अनुसार कोहोर्ट वितरण नीचे दिखाया गया है।.

अंतःस्त्राविका 23,900 केस (23.9%) थायराइड, PCOS, विटामिन डी, गोनाडल अक्ष, पिट्यूटरी

मेटाबोलिक मेडिसिन 21,900 केस (21.9%) T2DM, मेटाबोलिक सिंड्रोम, लिपिड पैनल, हाइपरयूरिसीमिया

रुधिर 15,400 केस (15.4%) माइक्रोसाइटिक और मैक्रोसाइटिक डिफरेंशियल्स, B12/फोलेट, आयरन स्टडीज़

हेपेटोलॉजी 12,400 केस (12.4%) NAFLD/NASH, वायरल हेपेटाइटिस, FIB-4, कोलेस्टेसिस

आंतरिक चिकित्सा (ट्रैप उप-समूह सहित) 9,000 केस (9.0%) मिश्रित प्रस्तुतियाँ और 8,723 समर्पित हाइपरडायग्नोसिस ट्रैप केस

कार्डियोलॉजी 7,500 केस (7.5%) ASCVD जोखिम, एथेरोजेनिक डिस्लिपिडेमिया, hs-CRP

रूमेटोलॉजी 6,000 केस (6.0%) SLE, RA, वास्कुलाइटिस, ऑटोएंटीबॉडी पैनल (EULAR/ACR मानदंड)

नेफ्रोलॉजी 4,000 केस (4.0%) CKD स्टेजिंग (KDIGO), eGFR ट्रेंड्स, इलेक्ट्रोलाइट गड़बड़ी

सिंथेटिक देश-लेबल वितरण — शीर्ष 10 लेबल

100,000 सिंथेटिक केस 127 देश लेबल्स (ISO 3166-1 alpha-2) के साथ आते हैं ताकि locale handling को परखा जा सके। लेबल असाइनमेंट: Europe 57.7%, the Americas 25.4%, Asia-Pacific 6.2%, named Middle-East/Africa labels 3.4%, और 97 अतिरिक्त लेबल्स की एक लंबी पूंछ कुल मिलाकर लगभग 7.3%। केस काउंट के आधार पर दस सबसे अधिक बार आने वाले लेबल हैं: संयुक्त राज्य (10,500), ब्राज़ील (9,500), स्पेन (9,000), इटली (8,000), जर्मनी (7,800), फ्रांस (7,400), पुर्तगाल (5,800), Türkiye (3,400), यूनाइटेड किंगडम (2,900), और मेक्सिको (2,500)। प्रति-लेबल कंपोज़िट स्कोर 0.9971 से 0.9985 के बीच रहे। ये लेबल काउंट्स locale handling को परखने हेतु उपयोग किए गए जनरेटेड केसों की विशेषताएँ हैं — ये वास्तविक उपयोगकर्ता नहीं हैं और न ही वास्तविक दुनिया में भौगोलिक कवरेज।.

पूर्व-रजिस्टर्ड रूब्रिक, समझाया गया

प्री-रजिस्ट्रेशन इस बेंचमार्क में सबसे महत्वपूर्ण पद्धतिगत (methodological) विकल्प है। हर अपेक्षित निदान, हर क्लिनिकल स्कोरिंग सिस्टम, और हर रिपोर्ट सेक्शन को सोर्स कोड में कमिट किया गया इससे पहले कि इंजन को बुलाया जाए. । इसलिए इंजन को खुश करने के लिए रूब्रिक की पोस्ट-हॉक ट्यूनिंग असंभव है।.

समग्र (composite) स्कोर तीन घटकों से बनता है। संरचनात्मक (structural) घटक 35 प्रतिशत योगदान देता है और यह मापता है कि इंजन ने सात अनिवार्य रिपोर्ट सेक्शन (हेडर, सारांश, मुख्य निष्कर्ष, डिफरेंशियल, स्कोरिंग सिस्टम, सिफारिशें, फॉलो-अप) और उनके भीतर मौजूद सोलह अनिवार्य उप-सेक्शन लौटाए या नहीं। सेक्शन उपस्थिति संरचनात्मक गणना में 40 प्रतिशत वज़न रखती है और उप-सेक्शन उपस्थिति 60 प्रतिशत वज़न रखती है। contributes 35 percent and measures whether the engine returned the seven mandatory report sections (header, summary, key findings, differential, scoring systems, recommendations, follow-up) and the sixteen mandatory subsections within them. Section presence weighs 40 percent and subsection presence weighs 60 percent within the structural calculation.

The क्लिनिकल (clinical) घटक 55 प्रतिशत योगदान देता है और तीन चीज़ों को जोड़ता है: निदान-कीवर्ड रिकॉल (क्लिनिकल उप-स्कोर का 70 प्रतिशत), स्कोरिंग-सिस्टम रिकॉल (20 प्रतिशत — क्या इंजन जहाँ प्रासंगिक हो Mentzer, FIB-4, HOMA-IR, ASCVD जोखिम, KDIGO स्टेजिंग, EULAR/ACR मानदंड की गणना करता है), और प्रायिकता-योग वैधता जाँच (10 प्रतिशत — डिफरेंशियल प्रायिकताओं का योग [90, 110] अंतराल के भीतर होना चाहिए)। ट्रैप केसों के लिए, अधिक स्पष्ट (explicit) हाइपरडायग्नोसिस पेनल्टी अधिकतम 0.30 तक घटाई जाती है, जो प्रति गढ़े गए (fabricated) पैथोलॉजी फ्लैग 0.10 के रूप में गणना होती है और अधिकतम तीन फ्लैग तक सीमित रहती है।.

The लेटेंसी (latency) घटक 10 प्रतिशत योगदान देता है। 20 सेकंड से कम में दिया गया उत्तर पूरा 0.10 पाता है, 40 सेकंड से कम में 0.05, और उससे धीमा कुछ भी शून्य (0) पाता है। 20-सेकंड लक्ष्य उत्पादन प्राथमिक-पाथ सर्विस-लेवल उद्देश्य को दर्शाता है; 40-सेकंड की सीमा भारी-इंजन इनवोकेशन्स के लिए फेज़ 2 फॉलबैक बजट को दर्शाती है।.

प्री-रजिस्ट्रेशन क्या रोकता है

प्रथम-पक्ष (first-party) बेंचमार्क्स अपने ही नंबरों को पोस्ट-हॉक रूब्रिक ट्यूनिंग के जरिए फुलाने के लिए कुख्यात हैं। पैटर्न लगभग हमेशा वही होता है: टीम इंजन चलाती है, देखती है कि कहाँ कम प्रदर्शन हो रहा है, फिर चुपचाप रूब्रिक को समायोजित कर देती है ताकि कम प्रदर्शन वाले क्षेत्र कम गिने जाएँ। पहले इंजन कॉल से पहले रूब्रिक को सोर्स कोड में कमिट करके और हार्नेस को MIT लाइसेंस के तहत प्रकाशित करके, यह समायोजन वर्ज़न कंट्रोल में दिखाई देने लगता है। कोई भी रिपॉजिटरी क्लोन कर सकता है, रूब्रिक लेखक की तिथियाँ जाँच सकता है, और यह सत्यापित कर सकता है कि इंजन के परिणामों का उपयोग स्कोरिंग को आकार देने में नहीं किया गया।.

हाइपरडायग्नोसिस ट्रैप केस — क्यों अत्यधिक कॉल करना ही वास्तविक विफलता मोड है

सामान्य स्क्रीन पर पैथोलॉजी को आक्रामक ढंग से “ओवर-कॉल” करना उपभोक्ता-उन्मुख (consumer-facing) मेडिकल असिस्टेंट्स में दर्ज विफलता (failure) मोड है। इसके डाउनस्ट्रीम खर्चों में अनावश्यक जाँच, मरीज की चिंता, और iatrogenic workup शामिल हैं। इस बेंचमार्क के दो ट्रैप केस इस विफलता मोड को दृश्य और स्कोर करने योग्य बनाने के लिए डिज़ाइन किए गए हैं।.

🟡 ट्रैप 1 — BT-014-GILBERT

प्रस्तुति (Presentation)।. 2.4 mg/dL कुल बिलीरुबिन वाला 24 वर्षीय पुरुष। डायरेक्ट अंश सामान्य है, ट्रांसएमिनेज़ और अल्कलाइन फॉस्फेटेज़ अपने संदर्भ रेंज के भीतर हैं, रेटिकुलोसाइट्स उल्लेखनीय नहीं हैं, और हैप्टोग्लोबिन तथा LDH हेमोलाइसिस को बाहर करते हैं।.

सही व्याख्या (Correct interpretation)।. गिल्बर्ट का सिंड्रोम — एक सौम्य UGT1A1 पॉलिमॉर्फिज़्म। व्याख्या में हेपेटाइटिस, सिरोसिस, हेमोलिटिक एनीमिया, या बाइलियरी ऑब्स्ट्रक्शन को शामिल नहीं करना चाहिए।.

V11 परिणाम।. समग्र 1.000। छह निगरानी किए गए ओवर-डायग्नोसिस फ्लैग्स में से कोई भी सक्रिय निदान (active diagnoses) के रूप में नहीं दिखा।.

🟡 ट्रैप 2 — BT-015-HEALTHY

प्रस्तुति (Presentation)।. 15-पैरामीटर की एक नियमित स्क्रीनिंग पैनल वाली 35 वर्षीय महिला। हर एनालाइट अपने संदर्भ रेंज के भीतर आराम से बैठता है।.

सही व्याख्या (Correct interpretation)।. आश्वासन और जीवनशैली बनाए रखना। व्याख्या को चिकित्सकीय रूप से उपयोगी दिखाने के लिए सीमा-रेखा (बॉर्डरलाइन) रोग-स्थिति का निर्माण नहीं करना चाहिए।.

V11 परिणाम।. समग्र स्कोर 1.000। निगरानी किए गए सात ओवर-डायग्नोसिस फ्लैग—डायबिटीज़, एनीमिया, हाइपोथायरॉइडिज़्म, डिस्लिपिडेमिया, हेपेटाइटिस, किडनी रोग, कमी—में से कोई भी सक्रिय निदान के रूप में दिखाई नहीं दिया।.

दोनों ट्रैप्स में कुल तेरह निगरानी किए गए हाइपरडायग्नोसिस फ्लैग जाँचे गए। कोई भी ट्रिगर नहीं हुआ। यह वही परिणाम है जो किसी भी चिकित्सक के लिए सबसे अधिक मायने रखता है जो AI इंजन को ट्रायेज़ या प्री-कंसल्टेशन टूल के रूप में उपयोग करने पर विचार कर रहा हो: सिस्टम ने जहाँ कोई रोग नहीं था, वहाँ रोग का आविष्कार नहीं किया.

मेंट्ज़र इंडेक्स: आयरन की कमी को थैलेसीमिया ट्रेट से अलग करना

एक और उच्च-मूल्य निष्कर्ष केस BT-001 (आयरन की कमी से होने वाला एनीमिया) का केस BT-007 (बीटा-थैलेसीमिया माइनर) के साथ जोड़ा जाना है। दोनों में माइक्रोसाइटोसिस होता है और यह भोले (naive) क्लासिफ़ायरों के लिए एक प्रसिद्ध अड़चन है। मेंटज़र इंडेक्स, जिसे MCV को RBC काउंट से विभाजित करके निकाला जाता है, आयरन की कमी में 13 से अधिक और थैलेसीमिया ट्रेट में 13 से कम होता है।.

BT-001 में, मरीज 34 वर्षीय महिला थीं जिनका हीमोग्लोबिन 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, फेरिटिन 6 ng/mL और TIBC बढ़ा हुआ था। लगभग 17.7 का मेंटज़र इंडेक्स पूर्ण (absolute) आयरन की कमी का समर्थन करता है। BT-007 में, मरीज 28 वर्षीय पुरुष थे जिनमें माइक्रोसाइटोसिस (MCV 65.8 fL) था, लेकिन RBC काउंट 6.2 अधिक था, RDW सामान्य था, फेरिटिन सामान्य था, और HbA2 5.6 प्रतिशत था। लगभग 10.6 का मेंटज़र इंडेक्स थैलेसीमिया ट्रेट की ओर संकेत करता है, और बढ़ा हुआ HbA2 बीटा-थैलेसीमिया माइनर की पुष्टि करता है।.

आयरन की कमी से होने वाला एनीमिया मेंटज़र > 13 कम फेरिटिन, कम TSAT, उच्च TIBC, बढ़ा हुआ RDW

बीटा-थैलेसीमिया ट्रेट मेंटज़र < 13 सामान्य फेरिटिन, सामान्य RDW, बढ़ा हुआ HbA2 (>3.5%), उच्च RBC काउंट

दोनों मामलों का स्कोर 1.000 था। इंजन ने दोनों व्याख्याओं में मेंटज़र इंडेक्स को स्पष्ट रूप से उपयोग किया और हर उदाहरण में सही निदान लौटाया।. यह पूरे बेंचमार्क में एकमात्र सबसे अधिक चिकित्सकीय रूप से आश्वस्त करने वाला परिणाम है, क्योंकि थैलेसीमिया ट्रेट को आयरन की कमी के रूप में गलत वर्गीकृत करने से अनुचित आयरन सप्लीमेंटेशन होता है और पारिवारिक स्क्रीनिंग के अवसर छूट जाते हैं, तथा आयरन की कमी को थैलेसीमिया के रूप में गलत वर्गीकृत करने से सरल रिप्लेसमेंट थेरेपी में देरी होती है। हमारा फेरिटिन रेंज गाइड व्यापक डिफरेंशियल संदर्भ समझाता है।.

V11 प्रारंभिक संदर्भ रन से प्रति-केस परिणाम (23 अप्रैल, 2026)

15-केस प्रूफ-ऑफ-कॉन्सेप्ट कोहोर्ट पर मूल V11 संदर्भ रन, इस पद्धतिगत आधार का काम करता है Second Update के लिए: नीचे हर प्रति-केस विवरण दिखाता है कि रूब्रिक वास्तविक इंजन प्रतिक्रिया को कैसे संभालता है। पंद्रह में से बारह केसों ने प्राथमिक पाथ पर 1.000 की ceiling समग्र स्कोर प्राप्त की; तीन केस Phase 2 fallback के माध्यम से सर्व किए गए, जिससे 0.05 latency बोनस खो गया, लेकिन सभी क्लिनिकल और संरचनात्मक सामग्री संरक्षित रही। एक केस में एक एकल अनिवार्य उपखंड (subsection) गायब था; एक केस ने थोड़ा कम probability distribution sum लौटाया।.

केस आईडी विशेषज्ञता समग्र (Composite) लैटेंसी पाथ

BT-001-IDAरुधिर1.00017.8 sप्राथमिक

BT-006-B12रुधिर1.00018.4 सेकंडप्राथमिक

BT-007-थैलेसीमियारुधिर1.00017.0 सेकंडप्राथमिक

BT-002-हैशिमोटोअंतःस्त्राविका0.95037.0 सेकंडफॉलबैक

BT-008-PCOSअंतःस्त्राविका0.98718.6 सेकंडप्राथमिक

BT-003-T2DMचयापचय1.00019.1 सेकंडप्राथमिक

BT-013-गाउटचयापचय1.00019.4 सेकंडप्राथमिक

BT-004-NAFLDहेपेटोलॉजी1.00019.6 सेकंडप्राथमिक

BT-009-वायरल हेपेटाइटिसहेपेटोलॉजी0.95023.4 सेकंडफॉलबैक

BT-014-गिल्बर्टट्रैप1.00018.9 सेकंडप्राथमिक

BT-005-CKDनेफ्रोलॉजी1.00017.4 सेकंडप्राथमिक

BT-010-ASCVDकार्डियोलॉजी1.00019.7 सेकंडप्राथमिक

BT-011-SLEरूमेटोलॉजी0.98118.2 सेकंडप्राथमिक

BT-012-VITDअंतःस्त्राविका1.00019.3 सेकंडप्राथमिक

BT-015-HEALTHYट्रैप1.00018.7 सेकंडफॉलबैक

PCOS केस (BT-008) ने प्रतिक्रिया संरचना में एक अनिवार्य उपखंड खो दिया — सोलह में से पंद्रह के बजाय सोलह में से सोलह — जिससे संरचनात्मक स्कोर 1.000 से घटकर 0.963 हो गया। SLE केस (BT-011) ने एक सीमांत रूप से कम संभाव्यता-वितरण योग लौटाया, जिससे क्लिनिकल स्कोर 0.965 तक गिर गया, जबकि हर डायग्नोस्टिक कीवर्ड और स्कोरिंग सिस्टम सुरक्षित रहा। किसी भी उप-परफेक्ट केस ने सही निदान नहीं चूका।.

V11 Second Update समेकित — 100,000 केस

जनसंख्या-स्तर पर, व्यक्तिगत केस पंक्तियाँ मानव-पठनीय नहीं होतीं, इसलिए दूसरा अपडेट 100,000-पंक्ति तालिका के बजाय संकलित (aggregated) मेट्रिक्स रिपोर्ट करता है। मुख्य संकलन नीचे दिखाया गया है; प्रति-विशिष्टता और प्रति-देश-लेबल विभाजन तकनीकी रिपोर्ट और Figshare डिपॉज़िट में प्रकाशित किए गए हैं। एक स्ट्रैटिफाइड रैंडम सैंपल of n = 201 कच्ची इंजन प्रतिक्रियाएँ (निर्धारक seed 20260426) निरीक्षण हेतु GitHub के results/ directory में प्रकाशित की गई हैं।.

समग्र स्कोर V11 प्रारंभिक: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068, 100,000-केस कोहोर्ट में

संरचनात्मक स्कोर (औसत) V11 प्रारंभिक: 0.998 → Second Update: 1.000 जनसंख्या स्तर पर परिपूर्ण संरचनात्मक अनुरूपता

क्लिनिकल स्कोर (औसत) V11 प्रारंभिक: 0.998 → Second Update: 0.996 −0.002; कोई भी केस स्वयं निदान (diagnosis) से नहीं चूका

विलंबता — औसत (सीमा) V11 प्रारंभिक: 20.17 सेकंड (17.0–37.0 सेकंड) → दूसरा अपडेट: 13.26 सेकंड (9.0–16.94 सेकंड) रन के बीच प्रोडक्शन इंजन अनुकूलन

इंजन पथ = प्राथमिक V11 प्रारंभिक: 12 / 15 → दूसरा अपडेट: 100,000 / 100,000 रन के दौरान किसी भी बिंदु पर फेज़ 2 का फॉलबैक आवश्यक नहीं था

ट्रैप-उपसमुच्चय हाइपरडायग्नोसिस फ़्लैग V11 प्रारंभिक: 0 / 13 → दूसरा अपडेट: 0 / 87,412 जनसंख्या-स्तर पर शून्य फॉल्स-पॉज़िटिव (8,723 ट्रैप मामलों की निगरानी)

हेडलाइन स्कोर हमें क्या नहीं बताता

इस विशेष प्री-रजिस्टर्ड रूब्रिक के तहत 99.80 प्रतिशत का एक कंपोज़िट स्कोर, 127 देश लेबल्स में फैले 100,000-केस सिंथेटिक कोहोर्ट पर, लगभग-सीलिंग प्रदर्शन को दर्शाता है — लेकिन इसे सावधानीपूर्वक संदर्भित (frame) किया जाना चाहिए। यह परिणाम उस रूब्रिक के विरुद्ध इंजन के व्यवहार का वर्णन करता है, जिसे हमने V11 में सोर्स कोड में कमिट किया था; यह जंगली में मौजूद हर उस ब्लड टेस्ट पैनल पर इंजन की शुद्धता के बारे में कोई सार्वभौमिक दावा नहीं है।.

स्कोर यह कहता है कि इंजन ने इस मूल्यांकन के लिए चुने गए डायग्नोस्टिक पैटर्न्स को जनसंख्या-स्तर के कोहोर्ट में सही ढंग से संभाला, एक ऐसी पद्धति के साथ जो प्रकाशित और पुनरुत्पाद्य है। यह नहीं कहता कि इंजन जंगली में मौजूद हर रक्त जांच पैनल पर सही है। यह यह भी नहीं कहता कि इंजन को चिकित्सक के निर्णय की जगह लेनी चाहिए। और यह यह भी नहीं कहता कि इंजन वैकल्पिक एआई प्रणालियों से बेहतर है — अन्य इंजनों के विरुद्ध तुलनात्मक विश्लेषण जानबूझकर इस रिपोर्ट के दायरे से बाहर थे।.

स्कोर जो स्थापित करता है, वह एक आधाररेखा है। जब रूब्रिक और हार्नेस सार्वजनिक हैं, तो इंजन के भविष्य के संस्करणों का मूल्यांकन उसी रूब्रिक के विरुद्ध किया जा सकता है — V11 प्रारंभिक के 15 मामलों पर, दूसरा अपडेट के 100,000 मामलों के कोहोर्ट पर, या किसी भी बाद के विस्तार पर — और प्रकाशित स्कोर तथा किसी भी बाद के रन के बीच का अंतर स्वयं मापने योग्य है। प्री-रजिस्ट्रेशन का यही मूल्य है: यह प्रदर्शन के दावों को परीक्षण योग्य दावों में बदल देता है.

10 मिनट में इस बेंचमार्क को कैसे दोहराएँ

पुनरुत्पादन के लिए केवल एक Kantesti API क्रेडेंशियल जोड़ी और Python 3.10 या बाद का वातावरण चाहिए, जिसमें requests और reportlab लाइब्रेरीज़ इंस्टॉल हों। पूरा हार्नेस MIT लाइसेंस के तहत जारी एक एकल, स्व-निहित Python मॉड्यूल है।.

💻 GitHub MIT-लाइसेंस्ड हार्नेस · कच्चे उत्तर · संदर्भ रन 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · canonical academic record 🎓 रिसर्चगेट Publication 404175463 · V11 दूसरा अपडेट · शैक्षणिक खोज परत 📄 Academia.edu Paper 165956808 · V11 दूसरा अपडेट · शैक्षणिक खोज परत

एक नए रन के लिए चार चरण

एक।. रिपॉजिटरी क्लोन करें: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. दो।. requirements.txt के साथ निर्भरताएँ इंस्टॉल करें pip install -r requirements.txt (दूसरा अपडेट जोड़ता है mysql-connector-python ≥ 8.0 SQL case loader के लिए)।. तीन।. सेट करें KANTESTI_USERNAME और KANTESTI_PASSWORD इंजन API के लिए environment variables के रूप में। दूसरे अपडेट के SQL case loader के लिए, यह भी सेट करें KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, और KANTESTI_DB_PASSWORD — लोडर read-only भूमिका के माध्यम से कनेक्ट होता है (bench_reader) जिसके पास पहचानने वाली तालिकाओं पर कोई विशेषाधिकार नहीं हैं।. चार।. चलाएँ python benchmark_bloodtest.py --limit 100000 पूर्ण Second-Update रन के लिए, या python benchmark_bloodtest.py --limit 1000 त्वरित पुनरावृत्ति के लिए। आउटपुट में संग्रहीत होते हैं ./benchmark_results/: प्रति-देश-लेबल और प्रति-विषय कॉलम वाला एक CSV scorecard, एक JSON aggregate, एक stratified-random raw-response sample, और एक Markdown रिपोर्ट।.

23 अप्रैल 2026 (V11 प्रारंभिक, 15 केस) और 26 अप्रैल 2026 (V11 Second Update, 100,000 केस) के संदर्भ रन रिपॉजिटरी की निर्देशिका में संरक्षित हैं। एक नया रन एक नया टाइमस्टैम्प्ड स्कोरकार्ड बनाएगा, जबकि संदर्भ रन अपरिवर्तित रहेंगे। यदि आपके रन का परिणाम सार्थक रूप से अलग आता है, तो कृपया रन टाइमस्टैम्प और प्रतिक्रिया मेटाडेटा में लौटाए गए इंजन संस्करण के साथ एक GitHub issue खोलें। results/ directory of the repository. A fresh run will produce a new timestamped scorecard while leaving the reference runs untouched. If your run produces a meaningfully different result, please open a GitHub issue with the run timestamp and the engine version returned in the response metadata.

सीमाएँ और भविष्य का कार्य

127 देश-लेबलों में 100,000 मामलों तक भी, चार सीमाओं को स्पष्ट रूप से स्वीकार करना आवश्यक है: long-tail लेबल का undersampling, single-shot evaluation, single-engine scope, और single-source data origin। इन सभी को सक्रिय follow-up कार्य में संबोधित किया जा रहा है।.

Long-tail लेबल कवरेज।. Second Update में 127 देश-लेबल शामिल हैं, लेकिन वितरण असंतुलित है — शीर्ष 10 लेबल कुल मामलों का ≈66.4% हिस्सा हैं, और शेष 97 अतिरिक्त लेबलों की long tail मिलकर ≈7.3% योगदान देती है (लगभग 7,300 मामलों का संयुक्त योग, प्रति लेबल औसतन ~75 मामले)। इसलिए इस long tail में प्रति-लेबल composites, headline आंकड़ों की तुलना में अधिक शोरयुक्त (noisier) हैं। भविष्य के रन लेबल असाइनमेंट को पुनर्संतुलित (rebalance) करेंगे ताकि प्रति-लेबल अनुमान अधिक ठोस (firm up) हो सकें।.

Single-shot evaluation।. कोहोर्ट के प्रत्येक केस का मूल्यांकन एक बार किया गया। बड़े भाषा मॉडल कम सैंपलिंग तापमान पर भी आउटपुट वैरिएंस (variance) में गैर-तुच्छ परिवर्तन दिखाते हैं, इसलिए प्रति केस पाँच मूल्यांकनों के साथ बहु-रन प्रोटोकॉल और रिपोर्ट की गई वैरिएंस अगला स्वाभाविक कदम है — विशेषकर trap-case उपसमुच्चय पर, जहाँ सैंपलिंग जिटर के तहत स्थिरता सुरक्षा दावे का हिस्सा है।.

Single-engine scope।. यह रिपोर्ट एक ही इंजन का वर्णन करती है। वैकल्पिक AI प्रणालियों के विरुद्ध तुलनात्मक विश्लेषण यहाँ दायरे से बाहर हैं; हम समान MIT-लाइसेंस्ड harness के विरुद्ध, उपयुक्त पद्धति के साथ, उन्हें एक अलग स्वतंत्र अध्ययन के रूप में आगे बढ़ा सकते हैं।.

Synthetic data. 100,000 मामले synthetically generated हैं, न कि synthetic cases; और परिणाम वास्तविक दुनिया के clinical प्रदर्शन में स्थानांतरित (transfer) नहीं होते। वास्तविक, सहमति-प्राप्त, बाह्य-स्रोत (externally-sourced) डेटा पर मूल्यांकन के लिए उपयुक्त नैतिक निगरानी (ethical oversight) की आवश्यकता होगी और यह इस synthetic benchmark के दायरे से बाहर है।.

इन चार के अलावा, सबसे प्रभावशाली नियोजित विस्तार प्रति-न्यायक्षेत्र बहु-भाषा समता (parity) है। Kantesti AI Engine 75+ भाषाओं में उपयोगकर्ताओं की सेवा करता है, और भाषा-स्तरीकृत Second-Update उप-कोहोर्ट्स (तुर्किश, जर्मन, स्पैनिश, फ्रेंच, इतालवी, पुर्तगाली, अरबी, मैंडरिन) चलाने से इंजन द्वारा समर्थित भाषाओं में आउटपुट गुणवत्ता को मापा जाएगा। प्रत्येक भाषा-स्तरीकृत विश्लेषण अपने स्वयं के DOI और harness ब्रांच के साथ प्रकाशित किया जाएगा।.

वही इंजन आज़माएँ जिसने 100,000 केसों पर 99.80% का समेकित स्कोर हासिल किया

जिस बेंचमार्क में इसका मूल्यांकन किया गया था, उसी प्रोडक्शन एंडपॉइंट पर अपना रक्त जांच पैनल अपलोड करें। दुनिया भर में 2 मिलियन से अधिक उपयोगकर्ता Kantesti AI Engine का उपयोग 75+ भाषाओं में 15,000+ बायोमार्कर की व्याख्या करने के लिए करते हैं।.

🔬 मुफ़्त डेमो आज़माएँ

क्रोम एक्सटेंशन ऐप स्टोर गूगल प्ले

📚 इस बेंचमार्क को कैसे उद्धृत करें

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Kantesti Blood-Test Interpretation
                 Engine का 100,000 Synthetic Test Cases पर
                 एक Pre-Registered, Rubric-Based Automated Technical
                 Benchmark — V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti Blood-Test Interpretation Engine का 100,000 Synthetic Test Cases पर एक Pre-Registered, Rubric-Based Automated Technical Benchmark — V11 Second Update (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 बाहरी पद्धतिगत संदर्भ

Mentzer, W. C. (1973). आयरन की कमी को थैलेसीमिया ट्रेट से अलग करना. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology वर्गीकरण मानदंड प्रणालीगत ल्यूपस एरिथेमेटोसस के लिए. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 डीओआई 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: बड़े भाषा मॉडलों के लिए मेडिकल डोमेन हॉलुसिनेशन टेस्ट. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%समग्र स्कोर

100,000स्कोर किए गए केस

127कवर किए गए देश-लेबल

0 / 87,412ट्रैप फॉल्स-पॉज़िटिव्स

अक्सर पूछे जाने वाले प्रश्नों

सिंथेटिक टेस्ट केसों पर Kantesti AI इंजन की सटीकता कितनी है?

एक pre-registered rubric पर, आठ content areas और 127 देश-लेबलों में फैले 100,000 synthetically generated test cases पर (V11 Second Update), engine ने 99.80 प्रतिशत का एक composite स्कोर प्राप्त किया; 87,412 monitored trap-case अवसरों में hyperdiagnosis के लिए शून्य फ़्लैग थे और mean response latency 13.26 सेकंड थी। यह composite synthetic inputs पर output conformance को मापता है, न कि diagnostic accuracy को। मूल V11 रिलीज़ ने उसी rubric को 15 हाथ से बनाए गए मामलों (composite 99.12%) पर लागू किया था; Second Update rubric को byte-identical बनाए रखता है और इसे एक बड़े synthetic cohort तक विस्तारित करता है। पूरा scorecard Figshare पर DOI 10.6084/m9.figshare.32095435 के अंतर्गत और GitHub पर MIT licence के अंतर्गत प्रकाशित है।.

क्या Kantesti एआई इंजन का नैदानिक रूप से सत्यापन किया गया है?

नहीं। engine का मूल्यांकन एक automated technical benchmark (clinical validation नहीं) के रूप में, उस rubric के विरुद्ध किया गया है जो V11 initial run से पहले source code में freeze की गई थी और V11 Second Update के लिए byte-identical रखी गई, तथा hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology, और internal medicine में फैले 127 देश-लेबलों से लिए गए 100,000 synthetic blood-test cases पर मूल्यांकन किया गया। Clinical oversight Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) द्वारा प्रदान की गई, जो board-certified clinical hematologist और Kantesti AI के Chief Medical Officer हैं।.

हाइपरडायग्नोसिस ट्रैप केस क्या है?

एक हाइपरडायग्नोसिस ट्रैप केस वह क्लिनिकल परिदृश्य है जिसे विशेष रूप से AI इंजनों में ओवर-डायग्नोसिस व्यवहार का पता लगाने के लिए डिज़ाइन किया जाता है। V11 प्रारंभिक बेंचमार्क ने ऐसे दो मामलों को एक मेथडोलॉजिकल प्रूफ-ऑफ-कॉन्सेप्ट के रूप में उपयोग किया: गिल्बर्ट्स सिंड्रोम के अनुरूप एक पृथक अप्रत्यक्ष हाइपरबिलिरुबिनेमिया (जहाँ सही व्याख्या हेपेटाइटिस या हेमोलाइसिस के बजाय सौम्य UGT1A1 पॉलिमॉर्फिज़्म है) और एक पूरी तरह सामान्य वयस्क स्क्रीनिंग पैनल (जहाँ सही आउटपुट आश्वासन है, न कि किसी निर्मित सीमांत पैथोलॉजी का)। V11 सेकंड अपडेट ने इस ट्रैप-केस मेथडोलॉजी को 8,723 मामलों के समर्पित उपसमूह तक स्केल किया, जिससे 87,412 मॉनिटर किए गए हाइपरडायग्नोसिस फ्लैग अवसर बने—और इंजन की फॉल्स-पॉज़िटिव दर शून्य ही रही।.

क्या Kantesti एआई इंजन का मूल्यांकन दोहराने योग्य (reproducible) है?

पूर्ण मूल्यांकन हार्नेस MIT लाइसेंस के तहत एक एकल, स्व-निहित Python मॉड्यूल के रूप में जारी किया गया है। V11 प्रारंभिक रन के लिए केवल Kantesti API क्रेडेंशियल जोड़ी और Python 3.10 या बाद का संस्करण चाहिए। V11 सेकंड अपडेट एक पैरामीटराइज़्ड, रीड-ओनली SQL केस लोडर जोड़ता है, जिसके लिए Kantesti क्लिनिकल-रिपॉज़िटरी क्रेडेंशियल चाहिए (a bench_reader ऐसी भूमिका जिसके पास टेबलों की पहचान करने की कोई विशेषाधिकार नहीं है)। कोड, केस लोडर SQL, रूब्रिक (रिलीज़ों के बीच बाइट-आइडेंटिकल), और V11 प्रारंभिक तथा सेकंड अपडेट—दोनों रेफरेंस रन से कच्चे इंजन प्रतिक्रियाओं का एक स्तरीकृत रैंडम सैंपल—ये सभी github.com/emirhanai/kantesti-blood-test-benchmark पर उपलब्ध हैं और Figshare, ResearchGate, तथा Academia.edu पर मिरर किए गए हैं।.

Kantesti एआई इंजन आयरन की कमी को बीटा-थैलेसीमिया ट्रेट से कैसे अलग करता है?

इंजन Mentzer index लागू करता है, जिसे mean corpuscular volume को red blood cell count से विभाजित करके गणना किया जाता है। 13 से ऊपर का Mentzer index आयरन डिफिशिएंसी एनीमिया का समर्थन करता है, जबकि 13 से नीचे का मान बीटा-थैलेसीमिया ट्रेट का समर्थन करता है। V11 प्रारंभिक बेंचमार्क में दोनों प्रस्तुतियों को स्पष्ट Mentzer index गणना के साथ सही वर्गीकृत किया गया, जिसे ferritin, RDW, और HbA2 संदर्भ द्वारा समर्थित किया गया। V11 सेकंड अपडेट के 100,000-केस कोहोर्ट में भी वही विभेदक व्यवहार जनसंख्या स्तर पर संरक्षित रहा।.

मुझे कच्चा बेंचमार्क डेटा और स्रोत कोड कहाँ मिल सकता है?

तकनीकी रिपोर्ट Figshare पर DOI 10.6084/m9.figshare.32095435 के अंतर्गत जमा की गई है (जिसमें V11 प्रारंभिक रिलीज़ और V11 सेकंड अपडेट दोनों शामिल हैं), ResearchGate प्रकाशन 404175463 और Academia.edu पेपर 165956808 पर मिरर की गई है—दोनों को V11 सेकंड अपडेट शीर्षक और 100,000-केस परिणामों के साथ अपडेट किया गया है—और MIT-लाइसेंस्ड Python हार्नेस जिसमें सभी रेफरेंस रन परिणाम शामिल हैं, github.com/emirhanai/kantesti-blood-test-benchmark पर उपलब्ध है। चार-प्लेटफ़ॉर्म मिरर नेटवर्क दीर्घकालिक उपलब्धता और उद्धरण लचीलापन सुनिश्चित करता है।.

AI मेडिकल बेंचमार्क के लिए प्री-रजिस्ट्रेशन क्यों महत्वपूर्ण है?

प्री-रजिस्ट्रेशन पोस्ट-हॉक रूब्रिक ट्यूनिंग को रोकता है, जो कंपनी-चालित बेंचमार्क्स द्वारा अपने ही नंबर बढ़ाने का सबसे आम तरीका है। किसी भी इंजन कॉल से पहले रूब्रिक को सोर्स कोड में कमिट करके और हार्नेस को सार्वजनिक रूप से प्रकाशित करके, रूब्रिक लेखक की तिथियाँ वर्ज़न कंट्रोल में जाँची जा सकती हैं, और इंजन के परिणाम स्कोरिंग मानदंडों को आकार नहीं दे सकते।.

क्या इस बेंचमार्क में अन्य AI इंजनों के साथ तुलना शामिल है?

नहीं। V11 रिपोर्ट—दोनों, प्रारंभिक रिलीज़ और सेकंड अपडेट—जानबूझकर एक ही इंजन को एक निश्चित रूब्रिक के विरुद्ध चरित्रित करती है, न कि उसे वैकल्पिक व्यावसायिक प्रणालियों के विरुद्ध स्थापित करती है। हार्नेस MIT लाइसेंस के तहत ओपन सोर्स है (अब इसमें SQL case loader भी शामिल है), इसलिए स्वतंत्र शोधकर्ता अपनी पसंद के किसी भी इंजन का मूल्यांकन उसी रूब्रिक और case loader के विरुद्ध कर सकते हैं और अपने परिणाम प्रकाशित कर सकते हैं।.

क्या मरीजों के केस वास्तविक हैं या कृत्रिम (synthetic)?

सभी मामले synthetically generated हैं — V11 initial release में 15 hand-constructed cases और Second Update में 100,000। ये synthetic cases नहीं हैं: कोई synthetic data नहीं, कोई consent प्रक्रिया नहीं, और कोई de-identification शामिल नहीं है, क्योंकि cohort में कोई personal data मौजूद ही नहीं है। प्रकाशित harness, technical report, या released datasets में कोई personal data दिखाई नहीं देता।.

⚕️ चिकित्सा अस्वीकरण (Medical Disclaimer) एवं हितों का टकराव (Conflict of Interest)

यह बेंचमार्क रिपोर्ट अनुसंधान और पद्धतिगत पारदर्शिता के उद्देश्यों के लिए है। यह चिकित्सा सलाह का गठन नहीं करती, यह कोई निदान नहीं है, और यह पेशेवर चिकित्सा देखभाल का विकल्प नहीं है; यहाँ कोई भी परिणाम डॉक्टर को दिखाने में देरी करने या उससे बचने के लिए उपयोग नहीं किया जाना चाहिए। निदान और उपचार संबंधी निर्णयों के लिए हमेशा किसी योग्य स्वास्थ्य सेवा प्रदाता से परामर्श करें। यह कंपनी के अपने इंजन का एक स्व-चालित आंतरिक बेंचमार्क है और इसे स्वतंत्र रूप से सत्यापित या सहकर्मी-समीक्षित नहीं किया गया है। समग्र स्कोर एक निश्चित रूब्रिक (रिपोर्ट संरचना, कीवर्ड और स्कोरिंग-प्रणाली रिकॉल, तथा लेटेंसी) के अनुरूपता को मापता है; यह वास्तविक दुनिया की नैदानिक सटीकता या नैदानिक सुरक्षा का माप नहीं है। दोनों लेखक Kantesti Ltd में कार्यरत हैं और उनमें इक्विटी रखते हैं, और जिस इंजन का मूल्यांकन किया जा रहा है वह उसी संगठन का एक व्यावसायिक उत्पाद है। हितों के इस टकराव को स्रोत कोड में रूब्रिक को प्री-रजिस्टर करके, MIT लाइसेंस के तहत harness जारी करके, और कच्चे इंजन प्रतिक्रियाओं का स्तरीकृत यादृच्छिक नमूना प्रकाशित करके कम किया गया है।.

E-E-A-T भरोसा संकेत

⭐

अनुभव

केस पैनल चयन की निगरानी करते हुए 15+ वर्षों का क्लिनिकल हेमेटोलॉजी और लैबोरेटरी मेडिसिन अभ्यास।.

📋

विशेषज्ञता

प्री-रजिस्टर्ड रूब्रिक डिज़ाइन जिसमें स्पष्ट हाइपरडायग्नोसिस दंड (penalties) और मान्यता प्राप्त क्लिनिकल स्कोरिंग सिस्टम (Mentzer, FIB-4, EULAR/ACR, KDIGO) शामिल हैं।.

👤

अधिकारिता

प्रमुख लेखक डॉ. थॉमस क्लाइन, MD (ORCID 0009-0009-1490-1321)। कार्यान्वयन (Implementation) जूलियन एमिरहान बुलुत, Kantesti Ltd के CEO द्वारा।.

🛡️

विश्वसनीयता

MIT-लाइसेंस्ड पुनरुत्पाद्य (reproducible) हार्नेस, कच्ची (raw) इंजन प्रतिक्रियाएँ प्रकाशित, खुला हितों के टकराव का प्रकटीकरण, चार-प्लेटफ़ॉर्म शोध मिरर नेटवर्क।.

🏢 कांटेस्टी लिमिटेड इंग्लैंड और वेल्स में पंजीकृत · कंपनी संख्या. 17090423 लंदन, यूनाइटेड किंगडम · kantesti.net kantesti.net