Kantesti AI रक्त तपासणी बेंचमार्क — नैदानिक प्रमाणीकरण

स्वयंचलित बेंचमार्क पूर्व-नोंदणीकृत बेंचमार्क V11 दुसरे अद्यतन — एप्रिल 2026 MIT परवानाधारित पुनरुत्पादनीय · मुक्त डेटा 100K सिंथेटिक कोहोर्ट · 127 देश लेबल्स

प्री-रजिस्टर केलेल्या रुब्रिकवर 99.80% कंपोझिट स्कोअर — V11 दुसरे अपडेट, 127 देश लेबल्समध्ये 100,000-केस कोहोर्ट

Kantesti इंजिनवरील पूर्व-नोंदणीकृत, रुब्रिक-आधारित स्वयंचलित तांत्रिक बेंचमार्क—127 देश लेबल्ससह टॅग केलेल्या 100,000 कृत्रिम (synthetically generated) रक्त-परीक्षण (blood-test) प्रकरणांवर. हे निदान अचूकतेचे नव्हे, तर आउटपुट अनुरूपतेचे (output conformance) मापन करते. V11 प्रारंभिक रिलीझपूर्वी स्रोत कोडमध्ये रुब्रिक स्थिर (frozen) करण्यात आले होते आणि या दुसऱ्या अपडेटसाठी ते बाइट-आयडेंटिकल ठेवण्यात आले आहे; मूल्यांकन हार्नेस MIT-लाइसन्स्ड आहे; तपासणीसाठी कच्च्या इंजिन प्रतिसादांचा (raw engine responses) स्तरित यादृच्छिक नमुना (stratified random sample) प्रकाशित केला आहे. सर्व प्रकरणे कृत्रिम आहेत; कोणताही वैयक्तिक डेटा वापरला जात नाही.

📖 ~14 मिनिटे 📅 23 एप्रिल 2026 रोजी प्रकाशित · 26 एप्रिल 2026 रोजी अद्यतनित (V11 दुसरे अद्यतन) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 प्रकाशित: 23 एप्रिल, 2026 🔄 V11 दुसरे अद्यतन: एप्रिल 26, 2026 🩺 वैद्यकीयदृष्ट्या पुनरावलोकन: एप्रिल 26, 2026 ✅ पूर्व-नोंदणीकृत रुब्रिक (बाइट-आयडेंटिकल) 🔓 खुला कोड आणि डेटा

हा स्वयंचलित बेंचमार्क तयार करून चालवला आहे ज्युलियन एमिर्हान बुलुत, वरिष्ठ AI अभियंता आणि Kantesti Ltd चे CEO. स्कोअरिंग पूर्णपणे स्रोत कोडमध्ये स्वयंचलित आहे; स्कोअरिंग रुब्रिक आणि केस पॅनेल विकसित करण्यात आले क्लिनिकल इनपुटच्या आधारे डॉ. थॉमस क्लेन, एमडी, Kantesti AI चे मुख्य वैद्यकीय अधिकारी, आणि त्याचे पुनरावलोकन केले कांटेस्टी एआय वैद्यकीय सल्लागार मंडळ. हे एक स्व-चालित अंतर्गत बेंचमार्क आहे, स्वतंत्र किंवा समकक्ष-पुनरावलोकित (peer-reviewed) स्वयंचलित तांत्रिक बेंचमार्क नाही.

मुख्य लेखक व नैदानिक देखरेख

थॉमस क्लेन, एमडी

मुख्य वैद्यकीय अधिकारी, कांटेस्टी एआय

डॉ. थॉमस क्लाइन हे बोर्ड-प्रमाणित क्लिनिकल हेमॅटोलॉजिस्ट आणि इंटर्निस्ट आहेत, प्रयोगशाळा वैद्यकात 15 वर्षांहून अधिक अनुभवासह. Kantesti AI येथे मुख्य वैद्यकीय अधिकारी (Chief Medical Officer) म्हणून, त्यांनी या बेंचमार्कसाठी केस पॅनेल निवडले, सिंथेटिक केसांचे क्लिनिकल कंटेंट आणि अपेक्षित उत्तरे पुनरावलोकन केली, आणि पहिल्या इंजिन कॉलपूर्वी प्री-रजिस्टर केलेली रुब्रिक मंजूर केली.

ORCID 0009-0009-1490-1321 रिसर्चगेट गुगल स्कॉलर

सह-लेखक & अंमलबजावणी

ज्युलियन एमिर्हान बुलुत

वरिष्ठ AI अभियंता & CEO, Kantesti Ltd

जुलियन एमिरहान बुलुत हे Kantesti Ltd चे संस्थापक आणि CEO आहेत. त्यांनी मूल्यमापन हार्नेसची रचना व अंमलबजावणी केली — V11 दुसऱ्या अद्यतनासाठी जोडलेला SQL केस लोडर समावेश — API इंटिग्रेशन केले, V11 प्रारंभिक संदर्भ रन आणि V11 दुसरे अद्यतन 100,000-केस रन दोन्ही पार पाडले, आणि सांख्यिकीय एकत्रीकरण तयार केले. 2019 पासून प्लॅटफॉर्मचे संस्थापक.

GitHub कांटेस्टी बद्दल

⚡ द्रुत सारांश V11 दुसरे अद्यतन — एप्रिल 26, 2026

99.80% संमिश्र गुण आठ वैद्यकीय विशेषतांमधील 100,000 कृत्रिम रक्त-परीक्षण प्रकरणे आणि 127 देश लेबल्स (V11 दुसरे अपडेट).
शून्य हायपरडायग्नोसिस फॉल्स-पॉझिटिव्ह्स 87,412 निरीक्षण केलेल्या ट्रॅप-केस फ्लॅग संधींमध्ये — V11 प्रारंभिकप्रमाणेच ट्रॅप-केस पद्धत, लोकसंख्या पातळीवर स्केल केलेली.
पूर्व-नोंदणीकृत रूब्रिक V11 प्रारंभिक रनपूर्वी स्रोत कोडमध्ये गोठवले गेले आणि ठेवले बाइट-आयडेंटिकल या दुसऱ्या अद्यतनासाठी — पोस्ट-हॉक ट्यूनिंग शक्य नव्हते.
मेंट्झर इंडेक्स योग्यरीत्या लागू केला V11 प्रारंभिक प्रकाशनात लोह कमतरता अॅनिमिया आणि बीटा-थॅलेसेमिया मायनर यांमध्ये फरक करण्यासाठी; लोकसंख्या पातळीवर हा भेदभावात्मक वर्तन जतन करण्यात आला.
फक्त उत्पादन एंडपॉइंट — विशेषाधिकारित रूटिंग नाही; ज्या पद्धतीने पैसे देणारा ग्राहक प्रवेश करेल तशीच अचूक चाचणी केली.
13.26 सेकंद सरासरी विलंबता एंड-टू-एंड (9.0–16.94 s श्रेणी), आणि सर्व 100,000 प्रकरणे इंजिनच्या प्राथमिक मार्गावर पूर्ण झाली.
सिंथेटिक कोहोर्ट. रन-टाइमवर लोड केलेले 100,000 सिंथेटिकरित्या तयार केलेले टेस्ट केस. कोणताही सिंथेटिक डेटा आणि कोणताही वैयक्तिक डेटा वापरला जात नाही.
MIT-लायसन्स्ड हार्नेस GitHub वर तपासणीसाठी पूर्ण इंजिन प्रतिसादांचा स्तरीकृत यादृच्छिक नमुना (n = 201) म्हणून प्रकाशित केले.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub वर मिरर केलेले.

हा बेंचमार्क का अस्तित्वात आहे आणि तो काय तपासतो

AI-सहाय्यित रक्त तपासणी अहवाल समजून घ्या हे ग्राहक आणि क्लिनिकल वर्कफ्लोमध्ये वाढत्या प्रमाणात वापरले जात आहे; तरीही प्रयोगशाळा वैद्यकासाठी अनुरूप, पुनरुत्पादनीय मूल्यांकन फ्रेमवर्क्स दुर्मिळच आहेत. या संदर्भात सर्वात महत्त्वाचे प्रश्न हे सामान्य वैद्यकीय प्रश्न-उत्तर बेंचमार्कमध्ये समाविष्ट असलेले नसतात: जेव्हा मीन कॉर्पस्क्युलर व्हॉल्यूम (MCV) एकसारखे असते, तेव्हा एखादे इंजिन लोह कमतरता थॅलेसेमिया ट्रेटपासून वेगळे करू शकते का; गिल्बर्ट्स सिंड्रोमला हेपेटायटिस म्हणून चुकीचे निदान करते का; आणि पूर्णपणे सामान्य स्क्रीनिंग पॅनेलमध्ये पॅथॉलॉजी तयार करते का?

एकच रक्त तपासणी पॅनेलमध्ये साधारणपणे अनेक स्पर्धात्मक अर्थ लावण्यासाठी पुरेसा संकेत असतो, आणि अर्थ लावणाऱ्या चिकित्सकाची जबाबदारी म्हणजे त्या अर्थ लावण्यांना एकमेकांच्या तुलनेत तोलून पाहणे—म्हणजे पाठ्यपुस्तकातील एकच उत्तर शोधून काढणे नव्हे. पाठ्यपुस्तकी प्रकरणांवर चांगले काम करणारे इंजिनही महत्त्वाच्या प्रकरणांमध्ये अपयशी ठरू शकते: विभेदक-निदानातील सापळे, एकट्याने पाहता धोकादायक वाटणारे निरुपद्रवी प्रकार, आणि पूर्णपणे सामान्य पॅनेल्स जी आत्मविश्वासू सहाय्यकांना रोगनिर्मिती (pathology) तयार करण्यास प्रवृत्त करतात.

हा बेंचमार्क नेमक्या या अपयशाच्या पद्धतींवर आधारित तयार करण्यात आला. पंधरा पैकी प्रत्येक प्रकरण विशिष्ट निदानात्मक गुणधर्मासाठी निवडले गेले: लोह-अभावामुळे होणारी मायक्रोसाइटोसिस जी समान mean corpuscular volume असलेल्या beta-thalassaemia trait पासून वेगळी ठेवणे आवश्यक आहे; Gilbert's syndrome चे सादरीकरण जिथे एकमेव असामान्यता म्हणजे isolated indirect hyperbilirubinaemia; आणि पंधरा-पॅरामीटर स्क्रीनिंग पॅनेल ज्यात प्रत्येक analyte त्याच्या संदर्भ श्रेणीतच आहे. हा निकष अशा इंजिनांना बक्षीस देतो जे प्रत्येक प्रकरण त्याच्या स्वतःच्या संदर्भात वाचतात, आणि अशा इंजिनांना दंड देतो जे ज्या ठिकाणी अशी निदानात्मक गरज नाही तिथे आत्मविश्वासाने निदानाकडे धाव घेतात.

MD थॉमस क्लाइन म्हणून, मी हे केस पॅनेल निवडले कारण प्रयोगशाळा-वैद्यक सहाय्यकांकडून मला सर्वाधिक वेळा चुकीचे समजले जाणारे हेच नमुने आहेत. महागडे अपयशाचे स्वरूप म्हणजे "दुर्मिळ आजार चुकणे" नव्हे—तर ज्यांना तो आजार नाही अशा रुग्णांमध्ये नियमित (routine) रोगनिर्मिती तयार करणे. आमचे वैद्यकीय प्रमाणीकरण hub व्यापक फ्रेमवर्कचे वर्णन करते; ही पृष्ठ V11 प्रारंभिक प्रूफ-ऑफ-कॉन्सेप्ट आणि V11 दुसरे अपडेट वर्णन करते ज्याने ते 127 देश लेबल्स व्यापणाऱ्या सिंथेटिक केस सेटमधून घेतलेल्या 100,000 सिंथेटिक केसांपर्यंत स्केल केले — त्याच स्कोरिंग रुब्रिकचा वापर करून, बाइट-आयडेंटिकल, आणि पोस्ट-हॉक ट्यूनिंगला परवानगी नाही.

नवीनतम संदर्भ रन — V11 Second Update (26 एप्रिल 2026)

26 एप्रिल 2026 च्या V11 Second Update संदर्भ रनमध्ये एकूण (composite) स्कोअर तयार झाला 99.80% V11 प्रारंभिक रिलीझमध्ये वापरलेल्या त्याच पूर्व-नोंदणीकृत (pre-registered) रूब्रिकच्या आधारे, मूल्यांकन केले गेले 100,000 सिंथेटिक केस Kantesti सिंथेटिक केस सेटमधून घेतलेले आणि व्यापणारे 127 देश लेबल्स आणि 75+ भाषांमध्ये पसरलेल्या. प्रत्येक केस इंजिनच्या प्राथमिक (primary) पाथवर पूर्ण झाला; trap-case hyperdiagnosis flag सक्रियता राहिली 0 / 87,412. 23 एप्रिल 2026 रोजी झालेल्या मूळ V11 रनमध्ये 15 हाताने निवडलेल्या (hand-curated) केसेसचा समावेश होता (composite 99.12%) आणि रूब्रिकची पडताळणी झाली; Second Update तोच रूब्रिक byte-identical ठेवतो आणि मूल्यांकन लोकसंख्या-स्तराच्या cohort पर्यंत वाढवतो.

एकत्रित (Composite) 99.80% 100,000 पैकी 100,000 केसेसना स्कोअर

1.000 संरचनात्मक गुण (Structural score)

0.996 नैदानिक गुण (Clinical score)

13.26 s सरासरी विलंब (Mean latency)

0 / 87,412 trap false-positives

एकत्रित सूत्र (composite formula) तीन घटक एकत्र करते: संरचनात्मक अनुरूपता (structural conformance) सात अनिवार्य अहवाल विभाग आणि सोळा अनिवार्य उपविभागांसह, सामग्रीची अचूकता कीवर्ड recall + scoring-system recall + संभाव्यता-वितरण वैधता तपासणी (probability-distribution validity check) म्हणून मोजलेले, आणि प्रतिसाद विलंब (response latency) प्राथमिक-पाथ सेवा-स्तर लक्ष्याविरुद्ध (service-level target). अचूक विघटन (decomposition) खालील रूब्रिक सूत्रात दाखवले आहे — Second Update साठी यापैकी कोणतेही वजन (weights) किंवा उप-रूब्रिक्स बदलले गेले नाहीत.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

उरलेल्या 0.20 टक्केवारी गुण (percentage points) इतकी headroom जवळजवळ पूर्णपणे क्लिनिकल उप-स्कोअरमध्ये विघटित होते — केसेसचा एक छोटा भाग (मुख्यतः Hepatology आणि Rheumatology मध्ये) यामध्ये इंजिनच्या interpretation मध्ये एक अपेक्षित स्कोरिंग-सिस्टम कीवर्ड अनुपस्थित होता, जरी निदानात्मक (diagnostic) मजकूर बरोबर होता. 100,000-case Second-Update cohort मधील कोणत्याही केसमध्ये स्वतः निदान (diagnosis) चुकले नाही. V11 प्रारंभिक रिलीझमध्ये सरासरी 20.17 s वरून Second Update मध्ये 13.26 s पर्यंत latency सुधारली; दोन रनमधील production engine optimisations प्रतिबिंबित होतात. रूब्रिक, स्कोरिंग कोड, आणि API endpoint अपरिवर्तित आहेत.

प्रति-लेबल संमिश्र (composite) गुण 30 सर्वाधिक-प्रतिनिधित्व असलेल्या देश लेबल्समध्ये 0.9971 ते 0.9985 दरम्यान होते. उर्वरित 97 अतिरिक्त लेबल्सचा दीर्घ शेपूट (long tail) (एकत्रित सुमारे 7,300 प्रकरणे) कोणतीही पद्धतशीर (systematic) घसरण दर्शवत नव्हता. प्रकरणांच्या संख्येनुसार सर्वाधिक वारंवार लेबल्स होती: युनायटेड स्टेट्स (10,500), ब्राझील (9,500), स्पेन (9,000), इटली (8,000), जर्मनी (7,800), फ्रान्स (7,400), पोर्तुगाल (5,800), Türkiye (3,400), युनायटेड किंगडम (2,900), आणि मेक्सिको (2,500).

15 केसांपासून 100,000 पर्यंत: 127 देश लेबल्समध्ये कोहोर्ट उत्क्रांती

मूळ V11 केस पॅनेलमध्ये सात विशेषता — हेमॅटोलॉजी, एंडोक्रिनोलॉजी, मेटाबॉलिक मेडिसिन, हेपॅटोलॉजी, नेफ्रोलॉजी, कार्डिओलॉजी, र्‍ह्युमॅटोलॉजी — तसेच दोन समर्पित हायपरडायग्नोसिस ट्रॅप केसांचा समावेश होता, आणि प्रत्येक केस हा सिंथेटिकरित्या तयार केलेला रक्त-चाचणी पॅनेल होता. V11 दुसरे अपडेट मूल्यांकनाचा विस्तार 127 देश लेबल्समध्ये 100,000 सिंथेटिक केसांपर्यंत करते, आठ विशेषतांमध्ये विभागलेली (मूळ सात + trap subset शोषण करणारा समर्पित internal-medicine bucket). दोन्ही रनमध्ये तोच स्कोरिंग रूब्रिक byte-identical पद्धतीने लागू केला आहे.

सर्व केस सिंथेटिकरित्या तयार केलेले असल्यामुळे काढून टाकण्यासाठी कोणतेही वास्तविक ओळखकर्ते (identifiers) नाहीत आणि कोणताही वैयक्तिक डेटा समाविष्ट नाही. प्रत्येक सिंथेटिक केसला बेंचमार्क-अंतर्गत केस कोड असतो (V11 प्रारंभिक सेटमध्ये BT-NNN-LABEL, एक स्थिर case_uid दुसऱ्या अपडेटमध्ये). प्रकाशित हार्नेसमध्ये, तांत्रिक अहवालात, किंवा रिलीझ केलेल्या डेटासेट्समध्ये कुठेही वैयक्तिक डेटा दिसत नाही.

V11 प्रारंभिक रिलीझनुसार करण्यात आली — 15 हाताने निवडलेल्या (hand-curated) केसेस

मूळ V11 केस पॅनेलचे हाताने क्युरेशन डॉ. थॉमस क्लाइन यांनी केले होते, जेणेकरून प्रयोगशाळा-वैद्यक सहाय्यकांकडून सर्वाधिक वेळा चुकीचे समजले जाणारे निदान नमुने तपासता येतील. खाली सूचीबद्ध केल्याप्रमाणे प्रत्येक पंधरा प्रकरणांची निवड विशिष्ट निदान गुणधर्मासाठी करण्यात आली होती.

हेमॅटोलॉजी (3) BT-001, BT-006, BT-007 आयर्न डेफिशियन्सी अॅनिमिया · B12 ची कमतरता · बीटा-थॅलेसेमिया मायनर

एंडोक्रिनोलॉजी (3) BT-002, BT-008, BT-012 हाशिमोटोचा थायरॉइडायटिस · इन्सुलिन रेसिस्टन्ससह PCOS · व्हिटॅमिन डी ची कमतरता (तीव्र)

मेटाबॉलिक (2) BT-003, BT-013 मेटाबॉलिक सिंड्रोमसह T2DM · गाऊटचा धोका असलेली हायपरयुरिसेमिया

हेपॅटोलॉजी (2) BT-004, BT-009 NAFLD / NASH · तीव्र विषाणूजन्य हेपॅटायटिस

नेफ्रोलॉजी · कार्डिओलॉजी · र्‍ह्युमॅटोलॉजी (3) BT-005, BT-010, BT-011 CKD स्टेज 3 · अ‍ॅथेरोजेनिक डिस्लिपिडेमिया · सिस्टेमिक ल्युपस एरिथेमॅटोसस

ट्रॅप केसेस (2) BT-014, BT-015 गिल्बर्ट्स सिंड्रोम (एकाकी अप्रत्यक्ष हायपरबिलिरुबिनेमिया) · पूर्णपणे सामान्य प्रौढ स्क्रीन

ही विशिष्ट विभागणी का

हेमॅटोलॉजीला तीन केसेस मिळतात कारण मायक्रोसाइटिक डिफरेंशियल्स आणि मॅक्रोसाइटिक डिफरेंशियल्स हे वास्तविक-जगातील प्रयोगशाळा पद्धतीत सर्वाधिक-प्रमाणातील सापळे (ट्रॅप्स) आहेत. एंडोक्रिनोलॉजीला तीन केसेस मिळतात कारण हॅशिमोटोचे, PCOS, आणि व्हिटॅमिन डी ची कमतरता यांची सादरीकरणे वेगवेगळ्या निदान-आकारांचा सराव करतात (ऑटोअँटिबॉडी-चालित, हार्मोन-नातेसंबंध-चालित, एकल-मार्कर-चालित). एकल-केस स्पेशॅलिटीज तरीही अर्थपूर्ण आहेत कारण CKD, ASCVD जोखीम, आणि SLE या तिन्हींची स्वतःची स्कोअरिंग प्रणाली आहे जी इंजिनने बोलवावी (अनुक्रमे KDIGO स्टेजिंग, ASCVD 10-वर्ष जोखीम, 2019 EULAR/ACR SLE निकष).

V11 दुसरे अपडेट — 127 देश लेबल्समध्ये 100,000 सिंथेटिक केस

दुसरे अपडेट मूळ V11 मधील 15-केस हार्ड-कोडेड Python literal ची जागा मोठ्या, प्रोग्रामॅटिकली जनरेट केलेल्या सिंथेटिक केस सेटने घेते. हा केस सेट प्रत्येक रनच्या सुरुवातीला लोड केला जातो आणि पारदर्शकतेसाठी कॉन्फिगरेशन लॉग केले जाते. कंटेंट एरियानुसार कोहोर्ट वितरण खाली दर्शवले आहे.

एंडोक्राइनोलॉजी 23,900 प्रकरणे (23.9%) थायरॉइड, PCOS, व्हिटॅमिन डी, गोनाडल अक्ष (gonadal axis), पिट्यूटरी

चयापचय (Metabolic) औषध 21,900 प्रकरणे (21.9%) T2DM, चयापचय सिंड्रोम, लिपिड पॅनेल्स, हायपरयुरिसेमिया

रक्तविज्ञान 15,400 प्रकरणे (15.4%) मायक्रोसाइटिक आणि मॅक्रोसाइटिक डिफरेंशियल्स, B12/फोलेट, आयर्न स्टडीज

हेपॅटोलॉजी 12,400 प्रकरणे (12.4%) NAFLD/NASH, व्हायरल हेपेटायटिस, FIB-4, कोलेस्टेसिस

अंतर्गत औषध (incl. trap subset) 9,000 प्रकरणे (9.0%) मिश्र सादरीकरणे आणि 8,723 समर्पित हायपरडायग्नोसिस ट्रॅप प्रकरणे

हृदयरोगविज्ञान 7,500 प्रकरणे (7.5%) ASCVD जोखीम, अॅथेरोजेनिक डिस्लिपिडेमिया, hs-CRP

संधिवातशास्त्र 6,000 प्रकरणे (6.0%) SLE, RA, वॅस्क्युलायटिस, ऑटोअँटिबॉडी पॅनेल्स (EULAR/ACR निकष)

नेफ्रोलॉजी 4,000 प्रकरणे (4.0%) CKD स्टेजिंग (KDIGO), eGFR ट्रेंड्स, इलेक्ट्रोलाइट बिघाड (electrolyte disturbance)

कृत्रिम देश-लेबल वितरण — शीर्ष 10 लेबल्स

100,000 कृत्रिम प्रकरणांमध्ये 127 देश लेबल्स (ISO 3166-1 alpha-2) आहेत, जे locale handling तपासण्यासाठी वापरले जातात. लेबल नियुक्ती: युरोप 57.7%, अमेरिका 25.4%, आशिया-पॅसिफिक 6.2%, नामित मध्य-पूर्व/आफ्रिका लेबल्स 3.4%, आणि उर्वरित 97 अतिरिक्त लेबल्सचा दीर्घ शेपूट एकत्रित सुमारे 7.3%. प्रकरणांच्या संख्येनुसार सर्वाधिक वारंवार दहा लेबल्स होती: युनायटेड स्टेट्स (10,500), ब्राझील (9,500), स्पेन (9,000), इटली (8,000), जर्मनी (7,800), फ्रान्स (7,400), पोर्तुगाल (5,800), Türkiye (3,400), युनायटेड किंगडम (2,900), आणि मेक्सिको (2,500). प्रति-लेबल संमिश्र गुण 0.9971 ते 0.9985 दरम्यान होते. या लेबल मोजण्या (counts) locale handling तपासण्यासाठी वापरलेल्या तयार केलेल्या प्रकरणांची वैशिष्ट्ये आहेत — ती वास्तविक वापरकर्ते नाहीत आणि वास्तविक-जगातील भौगोलिक कव्हरेज नाही.

पूर्व-नोंदणीकृत रुब्रिक, समजावून सांगितलेले

प्री-रजिस्ट्रेशन हा या बेंचमार्कमधील एकमेव सर्वात महत्त्वाचा पद्धतशास्त्रीय निर्णय आहे. अपेक्षित प्रत्येक निदान, प्रत्येक क्लिनिकल स्कोअरिंग प्रणाली, आणि प्रत्येक अहवाल विभाग स्रोत कोडमध्ये कमिट करण्यात आले इंजिन बोलावण्यापूर्वी. त्यामुळे इंजिनला खुश करण्यासाठी रुब्रिकचे पोस्ट-हॉक ट्यूनिंग करणे शक्य नाही.

एकत्रित (कॉम्पोझिट) स्कोअर बनवण्यासाठी तीन घटक आहेत. संरचनात्मक (स्ट्रक्चरल) घटक 35 टक्के योगदान देतो आणि इंजिनने सात अनिवार्य अहवाल विभाग (हेडर, सारांश, मुख्य निष्कर्ष, डिफरेंशियल, स्कोअरिंग प्रणाली, शिफारसी, फॉलो-अप) तसेच त्यांतील सोळा अनिवार्य उपविभाग परत केले का हे मोजतो. संरचनात्मक गणनेत विभाग उपस्थितीला 40 टक्के वजन आणि उपविभाग उपस्थितीला 60 टक्के वजन आहे.

द क्लिनिकल घटक 55 टक्के योगदान देतो आणि तीन गोष्टी एकत्र करतो: निदान-कीवर्ड रिकॉल (क्लिनिकल उप-स्कोअरचे 70 टक्के), स्कोअरिंग-सिस्टम रिकॉल (20 टक्के — इंजिन संबंधित असल्यास Mentzer, FIB-4, HOMA-IR, ASCVD जोखीम, KDIGO स्टेजिंग, EULAR/ACR निकषांची गणना करते का), आणि संभाव्यता-योग वैधता तपासणी (10 टक्के — डिफरेंशियल संभाव्यता [90, 110] या अंतरात बेरीज करायला हव्यात). सापळा (ट्रॅप) केसेसमध्ये, बनावट पॅथॉलॉजी फ्लॅग प्रति 0.10 इतका स्पष्ट हायपरडायग्नोसिस दंड वजा केला जातो, आणि तो जास्तीत जास्त तीन फ्लॅगपर्यंत मर्यादित असतो.

द लेटन्सी घटक 10 टक्के योगदान देतो. 20 सेकंदांखालील प्रतिसादाला पूर्ण 0.10, 40 सेकंदांखालील प्रतिसादाला 0.05, आणि त्यापेक्षा धीम्या कोणत्याही गोष्टीला शून्य गुण मिळतात. 20-सेकंद लक्ष्य हे उत्पादन प्राथमिक-पाथ सेवा-स्तर उद्दिष्ट प्रतिबिंबित करते; 40-सेकंद कमाल मर्यादा ही जड-इंजिन इनव्होकेशन्ससाठी फेज 2 फॉलबॅक बजेट दर्शवते.

प्री-रजिस्ट्रेशन काय रोखते

फर्स्ट-पार्टी बेंचमार्क्स पोस्ट-हॉक रुब्रिक ट्यूनिंगद्वारे स्वतःचे आकडे फुगवण्याबाबत कुप्रसिद्ध आहेत. हा नमुना जवळजवळ नेहमीच सारखाच असतो: टीम इंजिन चालवते, कुठे कमी पडते ते पाहते, आणि मग शांतपणे रुब्रिक समायोजित करते जेणेकरून कमी पडणाऱ्या क्षेत्रांचे गुण कमी मोजले जातील. पहिल्या इंजिन कॉलपूर्वी रुब्रिकला स्रोत कोडमध्ये कमिट करून आणि MIT परवान्याखाली हार्नेस प्रकाशित करून, हा बदल व्हर्जन कंट्रोलमध्ये दिसू लागतो. कोणीही रेपॉझिटरी क्लोन करू शकते, रुब्रिक लेखकांच्या तारखा तपासू शकते, आणि इंजिनचे निकाल स्कोअरिंग घडवण्यासाठी वापरले गेले नाहीत हे पडताळू शकते.

हायपरडायग्नोसिस ट्रॅप प्रकरणे — अति-आकलन (over-calling) हेच खरे अपयशाचे स्वरूप का आहे

सामान्य स्क्रीनवर पॅथॉलॉजीचा आक्रमक ओव्हर-कॉल करणे हे ग्राहकाभिमुख वैद्यकीय सहाय्यकांमध्ये नोंदवलेले अपयशाचे स्वरूप (फेल्युअर मोड) आहे. त्याचे पुढील खर्च म्हणजे अनावश्यक तपासणी, रुग्णाची चिंता, आणि iatrogenic workup. या बेंचमार्कमधील दोन ट्रॅप केसेस हे अपयशाचे स्वरूप दृश्यमान आणि स्कोअर करण्यायोग्य बनवण्यासाठी डिझाइन केलेल्या आहेत.

🟡 ट्रॅप 1 — BT-014-GILBERT

सादरीकरण. एक 24-वर्षीय पुरुष ज्याच्या एकूण बिलिरुबिनचे प्रमाण 2.4 mg/dL आहे. डायरेक्ट फ्रॅक्शन सामान्य आहे, ट्रान्सअमिनेजेस आणि अल्कलाइन फॉस्फेटेस त्यांच्या संदर्भ श्रेणीमध्ये आहेत, रेटिक्युलोसाइट्स उल्लेखनीय नाहीत, आणि हॅप्टोग्लोबिन व LDH हेमोलिसिसला नाकारतात.

योग्य अर्थ लावणे. गिल्बर्टचा सिंड्रोम — एक सौम्य UGT1A1 पॉलिमॉर्फिझम. या अर्थ लावण्यात हेपेटायटिस, सिरोसिस, हेमोलिटिक अॅनिमिया, किंवा बायलीरी ऑब्स्ट्रक्शनचा उल्लेख नसावा.

V11 निकाल. कॉम्पोझिट 1.000. सहा निरीक्षण केलेल्या ओव्हर-डायग्नोसिस फ्लॅगपैकी कोणताही सक्रिय निदान म्हणून दिसला नाही.

🟡 ट्रॅप 2 — BT-015-HEALTHY

सादरीकरण. 15-पॅरामीटरची नियमित स्क्रीनिंग पॅनल असलेली 35-वर्षीय महिला. प्रत्येक अॅनालाइट त्याच्या संदर्भ श्रेणीमध्ये अगदी आरामात बसतो.

योग्य अर्थ लावणे. आश्वासन आणि जीवनशैली देखभाल. ही व्याख्या क्लिनिकली उपयुक्त वाटण्यासाठी सीमारेषेवरील (borderline) आजारपण कृत्रिमरीत्या तयार करू नये.

V11 निकाल. संमिश्र 1.000. सातही निरीक्षण केलेल्या अति-निदान (over-diagnosis) चेतावणींपैकी—मधुमेह, रक्ताल्पता (anaemia), हायपोथायरॉईडिझम, डिस्लिपिडेमिया, हेपेटायटिस, मूत्रपिंडाचा आजार, कमतरता—यापैकी कोणतीही सक्रिय निदान म्हणून दिसली नाहीत.

दोन्ही ट्रॅप्समध्ये एकूण तेरा निरीक्षण केलेल्या अति-निदान (hyperdiagnosis) चेतावण्या तपासल्या. त्यापैकी शून्य ट्रिगर झाल्या. कोणत्याही चिकित्सकासाठी AI इंजिनचा ट्रायेज किंवा प्री-कन्सल्टेशन साधन म्हणून वापर करण्याचा विचार करताना हीच सर्वात महत्त्वाची बाब आहे: प्रणालीने जिथे आजार नव्हता तिथे आजार निर्माण केला नाही.

मेंट्झर निर्देशांक: लोह कमतरता थॅलेसेमिया गुणधर्मापासून वेगळे करणे

दुसरे उच्च-मूल्य निष्कर्ष म्हणजे केस BT-001 (लोह कमतरतेमुळे होणारी रक्ताल्पता) आणि केस BT-007 (बीटा-थॅलेसेमिया मायनर) यांची जोडी. दोन्हीमध्ये मायक्रोसाइटोसिस दिसते आणि नवशिक्या वर्गीकरणकर्त्यांसाठी हा एक सुप्रसिद्ध अडथळा आहे. मेंट्झर निर्देशांक, जो MCV ला RBC मोजणीने भागून काढला जातो, लोह कमतरतेत 13 पेक्षा जास्त आणि थॅलेसेमिया ट्रेटमध्ये 13 पेक्षा कमी येतो.

BT-001 मध्ये, रुग्ण 34 वर्षांची महिला होती; हिमोग्लोबिन 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, फेरिटिन 6 ng/mL, आणि TIBC वाढलेले होते. सुमारे 17.7 असलेला मेंट्झर निर्देशांक पूर्ण (absolute) लोह कमतरतेला पाठिंबा देतो. BT-007 मध्ये, रुग्ण 28 वर्षांचा पुरुष होता; मायक्रोसाइटोसिस (MCV 65.8 fL) होते, पण RBC मोजणी 6.2 इतकी जास्त, RDW सामान्य, फेरिटिन सामान्य, आणि HbA2 5.6 टक्के होते. सुमारे 10.6 असलेला मेंट्झर निर्देशांक थॅलेसेमिया ट्रेटकडे निर्देश करतो, आणि वाढलेला HbA2 बीटा-थॅलेसेमिया मायनरची पुष्टी करतो.

लोह कमतरतेमुळे होणारी रक्ताल्पता मेंट्झर > 13 कमी फेरिटिन, कमी TSAT, जास्त TIBC, वाढलेला RDW

बीटा-थॅलेसेमिया ट्रेट मेंट्झर < 13 सामान्य फेरिटिन, सामान्य RDW, वाढलेला HbA2 (>3.5%), RBC मोजणी जास्त

दोन्ही प्रकरणांचे गुण 1.000 होते. इंजिनने दोन्ही व्याख्यांमध्ये मेंट्झर निर्देशांक स्पष्टपणे वापरला आणि प्रत्येक वेळी योग्य निदान परत केले. संपूर्ण बेंचमार्कमधील हे एकमेव सर्वात क्लिनिकली आश्वासक (reassuring) निष्कर्ष आहे, कारण थॅलेसेमिया ट्रेटला लोह कमतरता म्हणून चुकीचे वर्गीकरण केल्यास अयोग्य लोहपूरक (iron supplementation) दिले जाते आणि कौटुंबिक स्क्रीनिंगच्या संधी चुकतात; आणि लोह कमतरतेला थॅलेसेमिया म्हणून चुकीचे वर्गीकरण केल्यास सरळ बदल-उपचार (replacement therapy) उशीर होतो. आमचे फेरीटिन श्रेणी मार्गदर्शक व्यापक विभेदक (differential) संदर्भ स्पष्ट करते.

V11 प्रारंभिक संदर्भ रनमधील (23 एप्रिल 2026) प्रति-केस निकाल

15-केस proof-of-concept कोहोर्टवरील मूळ V11 संदर्भ रन हा पद्धतशास्त्रीय (methodological) पाया आहे Second Update चा: खालील प्रत्येक प्रति-केस तपशील दाखवतो की रूब्रिक वास्तविक इंजिन प्रतिसाद कसा हाताळते. पंधरा पैकी बारा केसेसनी प्राथमिक पाथवर 1.000 हा कमाल (ceiling) संमिश्र गुण गाठला; तीन केसेस Phase 2 fallback द्वारे सर्व्ह करण्यात आल्या, त्यामुळे 0.05 latency बोनस गमावला गेला, पण सर्व क्लिनिकल आणि संरचनात्मक (structural) सामग्री जपली गेली. एका केसमध्ये एकच अनिवार्य उपविभाग (mandatory subsection) गायब होता; एका केसमध्ये probability distribution sum किंचित कमी परत आला.

केस आयडी विशेषता एकत्रित (Composite) लेटन्सी पाथ

BT-001-IDAरक्तविज्ञान1.00017.8 sप्राथमिक

BT-006-B12रक्तविज्ञान1.00018.4 सेकंदप्राथमिक

BT-007-थॅलेसेमियारक्तविज्ञान1.00017.0 सेकंदप्राथमिक

BT-002-हॅशिमोटोएंडोक्राइनोलॉजी0.95037.0 सेकंदफॉलबॅक

BT-008-PCOSएंडोक्राइनोलॉजी0.98718.6 सेकंदप्राथमिक

BT-003-T2DMचयापचय1.00019.1 सेकंदप्राथमिक

BT-013-गाऊटचयापचय1.00019.4 सेकंदप्राथमिक

BT-004-NAFLDहेपॅटोलॉजी1.00019.6 सेकंदप्राथमिक

BT-009-व्हायरल हेपॅटायटिसहेपॅटोलॉजी0.95023.4 सेकंदफॉलबॅक

BT-014-गिल्बर्टट्रॅप1.00018.9 सेकंदप्राथमिक

BT-005-CKDनेफ्रोलॉजी1.00017.4 सेकंदप्राथमिक

BT-010-ASCVDहृदयरोगविज्ञान1.00019.7 सेकंदप्राथमिक

BT-011-SLEसंधिवातशास्त्र0.98118.2 सेकंदप्राथमिक

BT-012-VITDएंडोक्राइनोलॉजी1.00019.3 सेकंदप्राथमिक

BT-015-HEALTHYट्रॅप1.00018.7 सेकंदफॉलबॅक

PCOS प्रकरण (BT-008) ने प्रतिसाद संरचनेतील एक अनिवार्य उपविभाग गमावला — सोळा पैकी पंधरा ऐवजी सोळा पैकी सोळा — त्यामुळे संरचनात्मक गुण 1.000 वरून 0.963 वर आला. SLE प्रकरण (BT-011) ने किंचित कमी झालेल्या संभाव्यता-वितरणाच्या बेरीजेसह परतावा दिला, ज्यामुळे निदान गुण 0.965 वर घसरला; मात्र प्रत्येक निदान कीवर्ड आणि स्कोरिंग प्रणाली जशीच्या तशी जपली. कोणत्याही उप-परिपूर्ण प्रकरणात योग्य निदान चुकले नाही.

V11 Second Update aggregate — 100,000 केसेस

लोकसंख्येच्या (population) प्रमाणावर, वैयक्तिक प्रकरणांच्या ओळी मानवी-वाचनीय नसतात, त्यामुळे दुसरे अपडेट 100,000-ओळींच्या तक्त्याऐवजी एकत्रित (aggregated) मेट्रिक्स नोंदवते. मुख्य ठळक एकत्रित आकडा खाली दाखवला आहे; प्रति-विशेषता आणि प्रति-देश-लेबल विभाजन तांत्रिक अहवालात आणि Figshare डिपॉझिटमध्ये प्रकाशित केले आहे. स्तरित यादृच्छिक नमुना (stratified random sample) of n = 201 कच्चे इंजिन प्रतिसाद (deterministic seed 20260426) तपासणीसाठी GitHub results/ निर्देशिकेत (directory) प्रकाशित केले आहेत.

संमिश्र गुण (Composite score) V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 हा 100,000-केस कोहोर्टमध्ये

संरचनात्मक गुण (mean) V11 initial: 0.998 → Second Update: 1.000 लोकसंख्येच्या प्रमाणावर परिपूर्ण संरचनात्मक अनुरूपता (conformance)

क्लिनिकल गुण (mean) V11 initial: 0.998 → Second Update: 0.996 −0.002; कोणत्याही केसमध्ये निदान स्वतःच चुकले नाही

विलंब — सरासरी (परिसर) V11 प्रारंभिक: 20.17 सेकंद (17.0–37.0 सेकंद) → दुसरे अद्यतन: 13.26 सेकंद (9.0–16.94 सेकंद) धावांदरम्यान उत्पादन इंजिन ऑप्टिमायझेशन्स

इंजिन पथ = प्राथमिक V11 प्रारंभिक: 12 / 15 → दुसरे अद्यतन: 100,000 / 100,000 धावेदरम्यान कोणत्याही टप्प्यावर फेज 2 साठी बॅकअपची गरज नव्हती

ट्रॅप-उपसमूह हायपरडायग्नोसिस फ्लॅग्स V11 प्रारंभिक: 0 / 13 → दुसरे अद्यतन: 0 / 87,412 लोकसंख्या-स्तरावर शून्य फॉल्स-पॉझिटिव्ह (8,723 ट्रॅप प्रकरणे निरीक्षणात)

हेडलाइन स्कोअर आपल्याला काय सांगत नाही

या विशिष्ट प्री-रजिस्टर केलेल्या रुब्रिकखाली 99.80 टक्के कंपोझिट स्कोअर, 127 देश लेबल्स व्यापणाऱ्या 100,000-केस सिंथेटिक कोहोर्टवर, जवळपास-सीलिंग (near-ceiling) कार्यक्षमता दर्शवतो — पण त्यासाठी काळजीपूर्वक संदर्भ देणे आवश्यक आहे. हा निकाल V11 मध्ये आम्ही स्रोत कोडमध्ये कमिट केलेल्या रुब्रिकविरुद्ध इंजिनचे वर्तन (behaviour) वर्णन करतो; हे जंगलात अस्तित्वात असलेल्या प्रत्येक रक्त-चाचणी पॅनेलवर इंजिनची बरोबरी (correctness) याबाबत सार्वत्रिक दावा नाही.

हा स्कोअर सांगतो की इंजिनने या मूल्यमापनासाठी निवडलेल्या निदान नमुन्यांना लोकसंख्या-स्तरावरील कोहोर्टमध्ये योग्यरीत्या हाताळले, प्रकाशित आणि पुनरुत्पादनीय पद्धतीवर. इंजिन जगात अस्तित्वात असलेल्या प्रत्येक रक्त तपासणी पॅनेलवर योग्य आहे असे तो सांगत नाही. इंजिनने चिकित्सकांच्या निर्णयाची जागा घ्यावी असे तो सांगत नाही. आणि इतर AI प्रणालींपेक्षा इंजिन अधिक चांगले आहे असेही तो सांगत नाही — इतर इंजिन्सविरुद्ध तुलनात्मक विश्लेषणे या अहवालाच्या कक्षेबाहेर जाणूनबुजून ठेवण्यात आली होती.

स्कोअर जे स्थापित करतो ते म्हणजे एक बेसलाइन. रुब्रिक आणि हार्नेस सार्वजनिक असल्याने, इंजिनच्या भविष्यातील आवृत्त्यांचे मूल्यमापन त्याच रुब्रिकविरुद्ध करता येईल — V11 प्रारंभिक 15 केसेसवर, दुसऱ्या अद्यतनातील 100,000-केस कोहोर्टवर, किंवा पुढील कोणत्याही विस्तारावर — आणि प्रकाशित स्कोअर व त्यानंतरच्या कोणत्याही धावेमधील अंतर हे स्वतः मोजता येण्यासारखे आहे. पूर्व-नोंदणीचे हेच मूल्य आहे: ती कामगिरीच्या दाव्यांना तपासता येणाऱ्या दाव्यांमध्ये रूपांतरित करते.

10 मिनिटांत हा बेंचमार्क कसा पुन्हा तयार करायचा

पुनरुत्पादनासाठी फक्त Kantesti API क्रेडेन्शियल जोडी आणि Python 3.10 किंवा त्यापुढील आवृत्तीचे वातावरण आवश्यक आहे, ज्यामध्ये requests आणि reportlab लायब्ररी स्थापित असतात. संपूर्ण हॅर्नेस हा MIT परवान्याखाली प्रसिद्ध केलेला एकच, स्वयंपूर्ण (self-contained) Python मॉड्यूल आहे.

💻 GitHub MIT-परवानाधारक हॅर्नेस · कच्चे प्रतिसाद · संदर्भ रन 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · अधिकृत शैक्षणिक नोंद 🎓 रिसर्चगेट Publication 404175463 · V11 Second Update · शैक्षणिक शोध स्तर 📄 अकादमी.एजु Paper 165956808 · V11 Second Update · शैक्षणिक शोध स्तर

ताज्या रनसाठी चार पावले

एक. रेपॉझिटरी क्लोन करा: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. दोन. requirements.txt सह अवलंबन (dependencies) इन्स्टॉल करा pip install -r requirements.txt (Second Update जोडते mysql-connector-python ≥ 8.0 SQL case loader साठी). तीन. सेट करा KANTESTI_USERNAME आणि KANTESTI_PASSWORD इंजिन API साठी environment variables म्हणून. Second Update SQL case loader साठी, तसेच सेट करा KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, आणि KANTESTI_DB_PASSWORD — लोडर केवळ-वाचन (read-only) भूमिकेद्वारे कनेक्ट होतो (bench_reader) ज्याला ओळख पटवणाऱ्या (identifying) टेबल्सवर कोणतेही विशेषाधिकार नाहीत. चार. चालवा python benchmark_bloodtest.py --limit 100000 पूर्ण Second-Update रनसाठी, किंवा python benchmark_bloodtest.py --limit 1000 जलद पुनरावृत्तीसाठी. आउटपुट्स येथे जातात ./benchmark_results/: प्रति-देश-लेबल आणि प्रति-विशेषता स्तंभांसह एक CSV स्कोअरकार्ड, एक JSON एकत्रित (aggregate), स्तरित-यादृच्छिक कच्च्या प्रतिसादांचा नमुना (stratified-random raw-response sample), आणि एक Markdown अहवाल.

23 एप्रिल 2026 (V11 प्रारंभिक, 15 प्रकरणे) आणि 26 एप्रिल 2026 (V11 Second Update, 100,000 प्रकरणे) येथील संदर्भ रन रेपॉझिटरीच्या results/ निर्देशिकेत जतन केलेले आहेत. नवीन रन केल्यास संदर्भ रन न बदलता नवीन टाइमस्टॅम्प असलेले स्कोअरकार्ड तयार होईल. तुमच्या रनमधून अर्थपूर्णरीत्या वेगळा निकाल आला, तर कृपया रनचा टाइमस्टॅम्प आणि प्रतिसाद मेटाडेटामध्ये परत आलेली इंजिन आवृत्ती (engine version) यांसह GitHub issue उघडा.

मर्यादा आणि भविष्यातील काम

127 देश लेबल्ससह 100,000 प्रकरणांमध्येही, चार मर्यादांना स्पष्टपणे मान्यता देणे आवश्यक आहे: दीर्घ शेपूट लेबल्सचे अपुरे नमुने (undersampling), एकदाच केलेले (single-shot) मूल्यांकन, एकाच इंजिनचा (single-engine) व्याप्ती, आणि एकाच स्रोत-डेटा उत्पत्तीचा (single-source data origin) वापर. यापैकी प्रत्येकावर सक्रिय फॉलो-अप कामात उपाय केला जात आहे.

दीर्घ शेपूट लेबल कव्हरेज. दुसरे अपडेट 127 देश लेबल्स व्यापते, पण वितरण असंतुलित आहे — शीर्ष 10 लेबल्स एकूण प्रकरणांपैकी ≈66.4% आहेत, आणि उर्वरित 97 अतिरिक्त लेबल्स एकत्रितपणे ≈7.3% (एकत्रित सुमारे 7,300 प्रकरणे, प्रति लेबल सरासरी ~75 प्रकरणे) योगदान देतात. त्यामुळे या दीर्घ शेपटीतील प्रति-लेबल संमिश्र (composites) आकडे ठळक (headline) आकडे जेवढे सूचित करतात त्यापेक्षा अधिक गोंगाटयुक्त (noisier) आहेत. भविष्यातील रनमध्ये प्रति-लेबल अंदाज अधिक घट्ट (firm up) करण्यासाठी लेबल नियुक्तीचे पुनर्संतुलन (rebalance) केले जाईल.

एकदाच केलेले मूल्यमापन (single-shot evaluation). या कोहोर्टमधील प्रत्येक प्रकरणाचे मूल्यमापन एकदाच करण्यात आले. कमी sampling temperature वरही मोठ्या भाषा मॉडेल्समध्ये आउटपुट वैविध्य (output variance) लक्षणीय असते, त्यामुळे प्रत्येक प्रकरणासाठी पाच मूल्यमापनांसह आणि नोंदवलेल्या वैविध्यासह multi-run प्रोटोकॉल हा पुढचा नैसर्गिक टप्पा आहे — विशेषतः trap-case उपसमूहावर, जिथे sampling jitter अंतर्गत सातत्य (consistency) हा सुरक्षा दाव्याचा भाग आहे.

एकाच इंजिनचा व्याप्ती (single-engine scope). हा अहवाल एका इंजिनचे वर्णन करतो. पर्यायी AI प्रणालींविरुद्ध तुलनात्मक विश्लेषणे येथे समाविष्ट नाहीत; त्यासाठी आम्ही त्याच MIT-licensed harness विरुद्ध योग्य पद्धतशास्त्रासह स्वतंत्र अभ्यास म्हणून पुढे जाऊ शकतो.

सिंथेटिक डेटा. 100,000 केस हे सिंथेटिकरित्या तयार केलेले आहेत, सिंथेटिक केस नाहीत, आणि निकाल वास्तविक-जगातील क्लिनिकल कार्यक्षमतेकडे हस्तांतरित होत नाहीत. वास्तविक, संमती दिलेल्या, बाह्य-स्रोत डेटावर मूल्यांकन करण्यासाठी योग्य नैतिक देखरेख (ethical oversight) आवश्यक असेल आणि हे या सिंथेटिक बेंचमार्कच्या व्याप्तीबाहेर (out of scope) आहे.

या चार मर्यादांपलीकडे, सर्वाधिक प्रभावी नियोजित विस्तार म्हणजे प्रति-ज्युरिस्डिक्शन बहुभाषिक समतुल्यता (multi-language parity). Kantesti AI Engine 75+ भाषांमध्ये वापरकर्त्यांना सेवा देतो, आणि भाषा-स्तरीकृत (language-stratified) Second-Update उप-कोहोर्ट्स (तुर्किश, जर्मन, स्पॅनिश, फ्रेंच, इटालियन, पोर्तुगीज, अरबी, मँडरिन) चालवल्याने इंजिनने समर्थित भाषांमध्ये आउटपुट गुणवत्तेचे परिमाण ठरेल. प्रत्येक भाषा-स्तरीकृत विश्लेषण त्याच्या स्वतःच्या DOI आणि harness branch सह प्रकाशित केले जाईल.

100,000 प्रकरणांवर 99.80% Composite Score मिळवणारे तेच इंजिन वापरून पहा

या बेंचमार्कमध्ये मूल्यांकन करण्यात आलेल्या त्याच प्रॉडक्शन एंडपॉइंटवर तुमचा स्वतःचा रक्त तपासणी पॅनेल अपलोड करा. जगभरातील 2 दशलक्षांहून अधिक वापरकर्ते Kantesti AI Engine वापरून 75+ भाषांमध्ये 15,000 हून अधिक बायोमार्कर्सचे अर्थ लावतात.

🔬 मोफत डेमो वापरून पहा

क्रोम एक्सटेंशन अॅप स्टोअर गुगल प्ले

📚 हा बेंचमार्क कसा उद्धृत करावा

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {A Pre-Registered, Rubric-Based Automated Technical  
                 Benchmark of the Kantesti Blood-Test Interpretation  
                 Engine on 100,000 Synthetic Test Cases  
                 --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti रक्त-चाचणी व्याख्या इंजिनवरील 100,000 कृत्रिम चाचणी प्रकरणांवर आधारित पूर्व-नोंदणीकृत, रबरिक-आधारित स्वयंचलित तांत्रिक बेंचमार्क — V11 दुसरे अद्यतन (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 बाह्य पद्धतशास्त्रीय संदर्भ

Mentzer, W. C. (1973). थॅलेसेमिया ट्रेटमधून लोह कमतरता वेगळी ओळखणे. The Lancet, 301(7808), 882.

🏥 पबमेड

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 युरोपियन लीग अगेंस्ट र्‍ह्युमॅटिझम / अमेरिकन कॉलेज ऑफ र्‍ह्युमॅटॉलॉजी सिस्टमिक ल्युपस एरिथेमॅटोसस वर्गीकरण निकष. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 डीओआय 🏥 पबमेड

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: मोठ्या भाषा मॉडेल्ससाठी वैद्यकीय डोमेन हॅल्युसिनेशन चाचणी. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%संयुक्त गुण

100,000गुणांकन केलेली प्रकरणे

127कव्हर केलेली देशांची लेबल्स

0 / 87,412ट्रॅप फॉल्स-पॉझिटिव्ह

सतत विचारले जाणारे प्रश्न

सिंथेटिक टेस्ट केसवर Kantesti AI इंजिनची अचूकता किती आहे?

पूर्व-नोंदणीकृत रबरिकवर, आठ विषयक्षेत्रांमध्ये आणि 127 देश-लेबल्समध्ये (V11 दुसरे अद्यतन) 100,000 कृत्रिमरित्या निर्मित चाचणी प्रकरणांवर चालविल्यावर, इंजिनने 99.80 टक्क्यांचा संयुक्त गुण मिळवला; 87,412 निरीक्षित ट्रॅप-केस संधींमध्ये हायपरडायग्नोसिसचे शून्य फ्लॅग्स होते आणि सरासरी प्रतिसाद विलंब 13.26 सेकंद होता. हा संयुक्त माप कृत्रिम इनपुट्सवरील आउटपुट अनुरूपता मोजतो, निदान अचूकता नाही. मूळ V11 प्रकाशनाने त्याच रबरिकचा 15 हाताने तयार केलेल्या प्रकरणांवर (संयुक्त 99.12%) वापर केला होता; दुसरे अद्यतन रबरिक बाइट-आयडेंटिकल ठेवते आणि ते मोठ्या कृत्रिम समूहापर्यंत विस्तारित करते. पूर्ण स्कोअरकार्ड Figshare वर DOI 10.6084/m9.figshare.32095435 अंतर्गत आणि GitHub वर MIT परवान्याखाली प्रकाशित केले आहे.

Kantesti AI इंजिनचे वैद्यकीयदृष्ट्या प्रमाणीकरण झाले आहे का?

नाही. इंजिनचे मूल्यांकन स्वयंचलित तांत्रिक बेंचमार्कद्वारे (clinical validation नव्हे) करण्यात आले आहे—V11 प्रारंभिक रनपूर्वी स्रोत कोडमध्ये स्थिर (frozen) करण्यात आलेल्या रुब्रिकविरुद्ध, आणि V11 दुसऱ्या अपडेटसाठी ते बाइट-आयडेंटिकल ठेवण्यात आले आहे. हे हेमॅटोलॉजी, एंडोक्रिनोलॉजी, मेटाबॉलिक मेडिसिन, हेपॅटोलॉजी, नेफ्रोलॉजी, कार्डिओलॉजी, र्‍ह्युमॅटोलॉजी, आणि अंतर्गत औषध (internal medicine) या क्षेत्रांतील 100,000 कृत्रिम रक्त-परीक्षण प्रकरणांवर करण्यात आले, जी 127 देश लेबल्समधून घेतली आहेत. क्लिनिकल देखरेख डॉ. थॉमस क्लाइन, MD (ORCID 0009-0009-1490-1321) यांनी केली; ते Kantesti AI येथे बोर्ड-प्रमाणित (board-certified) क्लिनिकल हेमॅटोलॉजिस्ट आणि मुख्य वैद्यकीय अधिकारी (Chief Medical Officer) आहेत.

हायपरडायग्नोसिस ट्रॅप केस म्हणजे काय?

हायपरडायग्नोसिस ट्रॅप केस म्हणजे एआय इंजिनमधील अति-निदान (over-diagnosis) वर्तन शोधण्यासाठी विशेषतः तयार केलेली क्लिनिकल परिस्थिती. V11 प्रारंभिक बेंचमार्कमध्ये अशा दोन केसांचा पद्धतशीर प्रूफ-ऑफ-कॉन्सेप्ट म्हणून वापर करण्यात आला: गिल्बर्ट्स सिंड्रोमशी सुसंगत अशी एकाकी अप्रत्यक्ष हायपरबिलिरुबिनेमिया (जिथे योग्य अर्थ लावणे म्हणजे हेपॅटायटिस किंवा हेमोलिसिस नव्हे, तर सौम्य UGT1A1 पॉलिमॉर्फिझम) आणि पूर्णपणे सामान्य प्रौढ स्क्रीनिंग पॅनेल (जिथे योग्य आउटपुट म्हणजे आश्वासन—manufactured borderline pathology नव्हे). V11 सेकंड अपडेटमध्ये या ट्रॅप-केस पद्धतीचा विस्तार 8,723 केसांच्या समर्पित उपसमूहापर्यंत करण्यात आला, ज्यातून 87,412 निरीक्षित हायपरडायग्नोसिस फ्लॅग संधी निर्माण झाल्या—आणि इंजिनचा false-positive दर शून्यावरच राहिला.

Kantesti AI इंजिनचे मूल्यांकन पुन्हा करता येते का?

संपूर्ण मूल्यांकन (evaluation) हार्नेस MIT परवान्याअंतर्गत एकाच self-contained Python मॉड्यूल म्हणून प्रसिद्ध करण्यात आला आहे. V11 प्रारंभिक रनसाठी फक्त Kantesti API credential pair आणि Python 3.10 किंवा त्यापुढील आवृत्ती आवश्यक आहे. V11 सेकंड अपडेटमध्ये parameterised, read-only SQL case loader जोडले आहे, ज्यासाठी Kantesti clinical-repository credentials आवश्यक आहेत (a bench_reader ओळख पटवणाऱ्या टेबल्सवर कोणतेही विशेषाधिकार (privileges) नसलेली भूमिका). कोड, case loader SQL, रूब्रिक (रिलिजेसदरम्यान बाइट-आयडेंटिकल), आणि V11 प्रारंभिक व सेकंड अपडेट या दोन्ही reference runs मधून घेतलेल्या stratified random sample of raw engine responses येथे उपलब्ध आहेत: github.com/emirhanai/kantesti-blood-test-benchmark आणि Figshare, ResearchGate, व Academia.edu वर मिरर केलेले आहेत.

Kantesti AI इंजिन लोह-अभाव (iron deficiency) आणि बीटा-थॅलेसेमिया गुणधर्म (beta-thalassaemia trait) यांच्यात फरक कसा ओळखते?

इंजिन Mentzer index लागू करते—जो mean corpuscular volume ला red blood cell count ने भागून काढला जातो. Mentzer index 13 पेक्षा जास्त असल्यास iron deficiency anaemia ला पाठिंबा मिळतो, तर 13 पेक्षा कमी मूल्य beta-thalassaemia trait ला पाठिंबा देते. V11 प्रारंभिक बेंचमार्कमध्ये दोन्ही सादरीकरणे (presentations) स्पष्ट Mentzer index गणनेसह योग्यरीत्या वर्गीकृत करण्यात आली—ferritin, RDW, आणि HbA2 संदर्भासह. V11 सेकंड अपडेटमध्ये 100,000-केस कोहोर्टमध्येही लोकसंख्येच्या पातळीवर हेच differential वर्तन जतन करण्यात आले.

कच्चा बेंचमार्क डेटा आणि स्रोत कोड मला कुठे मिळू शकतो?

तांत्रिक अहवाल Figshare वर DOI 10.6084/m9.figshare.32095435 अंतर्गत जमा करण्यात आला आहे (यामध्ये V11 प्रारंभिक रिलीज आणि V11 सेकंड अपडेट दोन्ही समाविष्ट आहेत), ResearchGate publication 404175463 आणि Academia.edu paper 165956808 वर मिरर केलेला आहे—दोन्हीमध्ये V11 सेकंड अपडेटचे शीर्षक आणि 100,000-केस परिणाम अद्ययावत केलेले आहेत—आणि सर्व reference run परिणामांसह MIT-परवानाधारक Python harness येथे आहे: github.com/emirhanai/kantesti-blood-test-benchmark. चार-प्लॅटफॉर्म मिरर नेटवर्क दीर्घकालीन उपलब्धता आणि citation लवचिकता सुनिश्चित करते.

एआय वैद्यकीय बेंचमार्कसाठी प्री-रजिस्ट्रेशन (pre-registration) महत्त्वाचे का आहे?

प्री-रजिस्ट्रेशनमुळे पोस्ट-हॉक रूब्रिक ट्यूनिंग (post-hoc rubric tuning) टाळले जाते—कंपनी-चालवलेल्या बेंचमार्क्स त्यांच्या स्वतःच्या आकड्यांना फुगवण्याचा हा सर्वात सामान्य मार्ग आहे. कोणत्याही इंजिन कॉलपूर्वी रूब्रिक सोर्स कोडमध्ये कमिट करून आणि हार्नेस सार्वजनिकपणे प्रकाशित करून, रूब्रिक लेखकांच्या तारखा (rubric author dates) व्हर्जन कंट्रोलमध्ये तपासता येतात, आणि इंजिनचे निकाल स्कोअरिंग निकष (scoring criteria) घडवू शकत नाहीत.

या बेंचमार्कमध्ये इतर एआय इंजिन्सशी तुलना समाविष्ट आहे का?

नाही. V11 अहवाल—प्रारंभिक रिलीज आणि सेकंड अपडेट दोन्ही—पर्यायी व्यावसायिक प्रणालींच्या तुलनेत (positioning) न करता, जाणूनबुजून एका निश्चित (fixed) रूब्रिकच्या विरुद्ध एका एकमेव इंजिनचे वर्णन करतो. हार्नेस MIT परवान्याअंतर्गत open source आहे (आता SQL case loader समाविष्ट आहे), त्यामुळे स्वतंत्र संशोधक कोणतेही इंजिन निवडून त्याच रूब्रिक आणि case loader विरुद्ध मूल्यांकन करू शकतात आणि त्यांचे निष्कर्ष प्रकाशित करू शकतात.

रुग्णांच्या केसेस वास्तविक आहेत की कृत्रिम (synthetic)?

सर्व प्रकरणे कृत्रिमरित्या तयार केलेली आहेत—V11 प्रारंभिक प्रकाशनातील 15 हाताने तयार केलेली प्रकरणे आणि दुसऱ्या अद्यतनातील 100,000. ती कृत्रिम प्रकरणे नाहीत: कोणतेही कृत्रिम डेटा नाही, संमती प्रक्रिया नाही, आणि डी-आयडेंटिफिकेशनचा सहभाग नाही, कारण या समूहात कोणताही वैयक्तिक डेटा अस्तित्वात नाही. प्रकाशित हार्नेसमध्ये, तांत्रिक अहवालात किंवा प्रसिद्ध केलेल्या डेटासेट्समध्ये कोणताही वैयक्तिक डेटा दिसत नाही.

⚕️ वैद्यकीय अस्वीकरण (Medical Disclaimer) व हितसंबंधांचा संघर्ष (Conflict of Interest)

हा बेंचमार्क अहवाल संशोधन आणि पद्धतशीर पारदर्शकतेच्या उद्देशाने आहे. तो वैद्यकीय सल्ला ठरत नाही, निदान नाही, आणि व्यावसायिक वैद्यकीय काळजीचा पर्याय नाही; येथे दिलेला कोणताही निकाल डॉक्टरांना भेटण्यास विलंब करण्यासाठी किंवा टाळण्यासाठी वापरू नये. निदान आणि उपचार निर्णयांसाठी नेहमी पात्र आरोग्यसेवा प्रदात्याशी सल्लामसलत करा. हा कंपनीच्या स्वतःच्या इंजिनचा स्वतः-चालवलेला अंतर्गत बेंचमार्क आहे आणि तो स्वतंत्रपणे व्हॅलिडेट किंवा सह-समिक्षित केलेला नाही. एकत्रित स्कोअर निश्चित रुब्रिकशी (अहवाल रचना, कीवर्ड आणि स्कोअरिंग-सिस्टम रिकॉल, आणि लेटन्सी) अनुरूपता मोजतो; तो वास्तविक जगातील निदान अचूकता किंवा क्लिनिकल सुरक्षिततेचे मापन नाही. दोन्ही लेखक Kantesti Ltd मध्ये कार्यरत आहेत आणि त्यांच्याकडे इक्विटी आहे, आणि मूल्यांकनाधीन इंजिन हे त्याच संस्थेचे व्यावसायिक उत्पादन आहे. हितसंबंधांचा हा संघर्ष स्रोत कोडमध्ये रुब्रिक प्री-रजिस्टर करून, MIT परवान्याअंतर्गत harness जारी करून, आणि कच्च्या इंजिन प्रतिसादांचा stratified random sample प्रकाशित करून कमी करण्यात आला आहे.

E-E-A-T विश्वास संकेत

⭐

अनुभव

केस पॅनेल निवडीचे पर्यवेक्षण करणाऱ्या क्लिनिकल हेमॅटोलॉजी आणि प्रयोगशाळा वैद्यक (laboratory medicine) क्षेत्रातील 15+ वर्षांचा अनुभव.

📋

कौशल्य

स्पष्ट हायपरडायग्नोसिस दंड (hyperdiagnosis penalties) आणि मान्यताप्राप्त क्लिनिकल स्कोअरिंग प्रणालींसह (Mentzer, FIB-4, EULAR/ACR, KDIGO) प्री-रजिस्टर केलेली रूब्रिक रचना.

👤

अधिकृतता

मुख्य लेखक डॉ. थॉमस क्लाइन, एमडी (ORCID 0009-0009-1490-1321). अंमलबजावणी (Implementation) ज्युलियन एमिरहान बुलुत, Kantesti Ltd चे CEO यांनी केली.

🛡️

विश्वासार्हता

MIT-परवानाधारक पुनरुत्पादनीय (reproducible) हार्नेस, कच्चे इंजिन प्रतिसाद प्रकाशित, ओपन हितसंबंध-प्रकटीकरण (conflict-of-interest disclosure), चार-प्लॅटफॉर्म संशोधन प्रत (research mirror) नेटवर्क.

🏢 काँटेस्टी लिमिटेड इंग्लंड व वेल्समध्ये नोंदणीकृत · कंपनी क्रमांक. 17090423 लंडन, युनायटेड किंग्डम · काँटेस्टी.नेट