हा बेंचमार्क का अस्तित्वात आहे आणि तो काय तपासतो

AI-सहाय्यित रक्त तपासणी अहवाल समजून घ्या हे ग्राहक आणि क्लिनिकल वर्कफ्लोमध्ये वाढत्या प्रमाणात वापरले जात आहे; तरीही प्रयोगशाळा वैद्यकासाठी अनुरूप, पुनरुत्पादनीय मूल्यांकन फ्रेमवर्क्स दुर्मिळच आहेत. या संदर्भात सर्वात महत्त्वाचे प्रश्न हे सामान्य वैद्यकीय प्रश्न-उत्तर बेंचमार्कमध्ये समाविष्ट असलेले नसतात: जेव्हा मीन कॉर्पस्क्युलर व्हॉल्यूम (MCV) एकसारखे असते, तेव्हा एखादे इंजिन लोह कमतरता थॅलेसेमिया ट्रेटपासून वेगळे करू शकते का; गिल्बर्ट्स सिंड्रोमला हेपेटायटिस म्हणून चुकीचे निदान करते का; आणि पूर्णपणे सामान्य स्क्रीनिंग पॅनेलमध्ये पॅथॉलॉजी तयार करते का?

पूर्व-नोंदणीकृत रूब्रिक फ्लो डायग्राम—Kantesti AI Engine — V11 Second Update, 100,000 केसांवर 99.80% composite स्कोअर — हे गोठवलेल्या (frozen) स्कोरिंग निकषांच्या विरुद्ध कसे मूल्यांकन केले जाते ते दर्शवितो
आकृती १: V11 च्या मागील बेंचमार्क आर्किटेक्चर 99.80% संमिश्र गुण V11 Second Update मध्ये 100,000-case cohort — प्रत्येक केस, प्रत्येक कीवर्ड, प्रत्येक स्कोरिंग प्रणाली इंजिनने एकही PDF पाहण्याआधीच स्रोत कोडमध्ये निश्चित केलेली असते, आणि रूब्रिक V11 च्या प्रारंभिक रिलीझसारखीच (byte-identical) असते. डिझाइननुसार पोस्ट-हॉक रूब्रिक ट्यूनिंग शक्य नाही.

एकच रक्त तपासणी पॅनेलमध्ये साधारणपणे अनेक स्पर्धात्मक अर्थ लावण्यासाठी पुरेसा संकेत असतो, आणि अर्थ लावणाऱ्या चिकित्सकाची जबाबदारी म्हणजे त्या अर्थ लावण्यांना एकमेकांच्या तुलनेत तोलून पाहणे—म्हणजे पाठ्यपुस्तकातील एकच उत्तर शोधून काढणे नव्हे. पाठ्यपुस्तकी प्रकरणांवर चांगले काम करणारे इंजिनही महत्त्वाच्या प्रकरणांमध्ये अपयशी ठरू शकते: विभेदक-निदानातील सापळे, एकट्याने पाहता धोकादायक वाटणारे निरुपद्रवी प्रकार, आणि पूर्णपणे सामान्य पॅनेल्स जी आत्मविश्वासू सहाय्यकांना रोगनिर्मिती (pathology) तयार करण्यास प्रवृत्त करतात.

हा बेंचमार्क नेमक्या या अपयशाच्या पद्धतींवर आधारित तयार करण्यात आला. पंधरा पैकी प्रत्येक प्रकरण विशिष्ट निदानात्मक गुणधर्मासाठी निवडले गेले: लोह-अभावामुळे होणारी मायक्रोसाइटोसिस जी समान mean corpuscular volume असलेल्या beta-thalassaemia trait पासून वेगळी ठेवणे आवश्यक आहे; Gilbert's syndrome चे सादरीकरण जिथे एकमेव असामान्यता म्हणजे isolated indirect hyperbilirubinaemia; आणि पंधरा-पॅरामीटर स्क्रीनिंग पॅनेल ज्यात प्रत्येक analyte त्याच्या संदर्भ श्रेणीतच आहे. हा निकष अशा इंजिनांना बक्षीस देतो जे प्रत्येक प्रकरण त्याच्या स्वतःच्या संदर्भात वाचतात, आणि अशा इंजिनांना दंड देतो जे ज्या ठिकाणी अशी निदानात्मक गरज नाही तिथे आत्मविश्वासाने निदानाकडे धाव घेतात.

MD थॉमस क्लाइन म्हणून, मी हे केस पॅनेल निवडले कारण प्रयोगशाळा-वैद्यक सहाय्यकांकडून मला सर्वाधिक वेळा चुकीचे समजले जाणारे हेच नमुने आहेत. महागडे अपयशाचे स्वरूप म्हणजे "दुर्मिळ आजार चुकणे" नव्हे—तर ज्यांना तो आजार नाही अशा रुग्णांमध्ये नियमित (routine) रोगनिर्मिती तयार करणे. आमचे वैद्यकीय प्रमाणीकरण hub व्यापक फ्रेमवर्कचे वर्णन करते; ही पृष्ठ V11 प्रारंभिक प्रूफ-ऑफ-कॉन्सेप्ट आणि V11 दुसरे अपडेट वर्णन करते ज्याने ते 127 देश लेबल्स व्यापणाऱ्या सिंथेटिक केस सेटमधून घेतलेल्या 100,000 सिंथेटिक केसांपर्यंत स्केल केले — त्याच स्कोरिंग रुब्रिकचा वापर करून, बाइट-आयडेंटिकल, आणि पोस्ट-हॉक ट्यूनिंगला परवानगी नाही.

नवीनतम संदर्भ रन — V11 Second Update (26 एप्रिल 2026)

26 एप्रिल 2026 च्या V11 Second Update संदर्भ रनमध्ये एकूण (composite) स्कोअर तयार झाला 99.80% V11 प्रारंभिक रिलीझमध्ये वापरलेल्या त्याच पूर्व-नोंदणीकृत (pre-registered) रूब्रिकच्या आधारे, मूल्यांकन केले गेले 100,000 सिंथेटिक केस Kantesti सिंथेटिक केस सेटमधून घेतलेले आणि व्यापणारे 127 देश लेबल्स आणि 75+ भाषांमध्ये पसरलेल्या. प्रत्येक केस इंजिनच्या प्राथमिक (primary) पाथवर पूर्ण झाला; trap-case hyperdiagnosis flag सक्रियता राहिली 0 / 87,412. 23 एप्रिल 2026 रोजी झालेल्या मूळ V11 रनमध्ये 15 हाताने निवडलेल्या (hand-curated) केसेसचा समावेश होता (composite 99.12%) आणि रूब्रिकची पडताळणी झाली; Second Update तोच रूब्रिक byte-identical ठेवतो आणि मूल्यांकन लोकसंख्या-स्तराच्या cohort पर्यंत वाढवतो.

एकत्रित (Composite) 99.80% 100,000 पैकी 100,000 केसेसना स्कोअर
1.000 संरचनात्मक गुण (Structural score)
0.996 नैदानिक गुण (Clinical score)
13.26 s सरासरी विलंब (Mean latency)
0 / 87,412 trap false-positives

एकत्रित सूत्र (composite formula) तीन घटक एकत्र करते: संरचनात्मक अनुरूपता (structural conformance) सात अनिवार्य अहवाल विभाग आणि सोळा अनिवार्य उपविभागांसह, सामग्रीची अचूकता कीवर्ड recall + scoring-system recall + संभाव्यता-वितरण वैधता तपासणी (probability-distribution validity check) म्हणून मोजलेले, आणि प्रतिसाद विलंब (response latency) प्राथमिक-पाथ सेवा-स्तर लक्ष्याविरुद्ध (service-level target). अचूक विघटन (decomposition) खालील रूब्रिक सूत्रात दाखवले आहे — Second Update साठी यापैकी कोणतेही वजन (weights) किंवा उप-रूब्रिक्स बदलले गेले नाहीत.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

उरलेल्या 0.20 टक्केवारी गुण (percentage points) इतकी headroom जवळजवळ पूर्णपणे क्लिनिकल उप-स्कोअरमध्ये विघटित होते — केसेसचा एक छोटा भाग (मुख्यतः Hepatology आणि Rheumatology मध्ये) यामध्ये इंजिनच्या interpretation मध्ये एक अपेक्षित स्कोरिंग-सिस्टम कीवर्ड अनुपस्थित होता, जरी निदानात्मक (diagnostic) मजकूर बरोबर होता. 100,000-case Second-Update cohort मधील कोणत्याही केसमध्ये स्वतः निदान (diagnosis) चुकले नाही. V11 प्रारंभिक रिलीझमध्ये सरासरी 20.17 s वरून Second Update मध्ये 13.26 s पर्यंत latency सुधारली; दोन रनमधील production engine optimisations प्रतिबिंबित होतात. रूब्रिक, स्कोरिंग कोड, आणि API endpoint अपरिवर्तित आहेत.

प्रति-लेबल संमिश्र (composite) गुण 30 सर्वाधिक-प्रतिनिधित्व असलेल्या देश लेबल्समध्ये 0.9971 ते 0.9985 दरम्यान होते. उर्वरित 97 अतिरिक्त लेबल्सचा दीर्घ शेपूट (long tail) (एकत्रित सुमारे 7,300 प्रकरणे) कोणतीही पद्धतशीर (systematic) घसरण दर्शवत नव्हता. प्रकरणांच्या संख्येनुसार सर्वाधिक वारंवार लेबल्स होती: युनायटेड स्टेट्स (10,500), ब्राझील (9,500), स्पेन (9,000), इटली (8,000), जर्मनी (7,800), फ्रान्स (7,400), पोर्तुगाल (5,800), Türkiye (3,400), युनायटेड किंगडम (2,900), आणि मेक्सिको (2,500).

15 केसांपासून 100,000 पर्यंत: 127 देश लेबल्समध्ये कोहोर्ट उत्क्रांती

मूळ V11 केस पॅनेलमध्ये सात विशेषता — हेमॅटोलॉजी, एंडोक्रिनोलॉजी, मेटाबॉलिक मेडिसिन, हेपॅटोलॉजी, नेफ्रोलॉजी, कार्डिओलॉजी, र्‍ह्युमॅटोलॉजी — तसेच दोन समर्पित हायपरडायग्नोसिस ट्रॅप केसांचा समावेश होता, आणि प्रत्येक केस हा सिंथेटिकरित्या तयार केलेला रक्त-चाचणी पॅनेल होता. V11 दुसरे अपडेट मूल्यांकनाचा विस्तार 127 देश लेबल्समध्ये 100,000 सिंथेटिक केसांपर्यंत करते, आठ विशेषतांमध्ये विभागलेली (मूळ सात + trap subset शोषण करणारा समर्पित internal-medicine bucket). दोन्ही रनमध्ये तोच स्कोरिंग रूब्रिक byte-identical पद्धतीने लागू केला आहे.

V11 प्रारंभिक केस-पॅनेल डिझाइन — सात वैद्यकीय विशेषतांमधील पंधरा कृत्रिम रक्त-चाचणी प्रकरणे तसेच दोन हायपरडायग्नोसिस ट्रॅप प्रकरणे; त्याच रबरिकने V11 दुसऱ्या अद्यतनात 100,000 प्रकरणांवर 99.80% संयुक्त गुण मिळवला
आकृती २: hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology या क्षेत्रांतील V11 प्रारंभिक case-panel डिझाइन — तसेच दोन trap केसेस: Gilbert's syndrome आणि पूर्णपणे सामान्य (fully normal) screening panel. Second Update हा रूब्रिक byte-identical ठेवतो आणि cohort ला Kantesti SQL रिपॉझिटरीमधून घेतलेल्या 100,000 केसेसपर्यंत वाढवतो.

सर्व केस सिंथेटिकरित्या तयार केलेले असल्यामुळे काढून टाकण्यासाठी कोणतेही वास्तविक ओळखकर्ते (identifiers) नाहीत आणि कोणताही वैयक्तिक डेटा समाविष्ट नाही. प्रत्येक सिंथेटिक केसला बेंचमार्क-अंतर्गत केस कोड असतो (V11 प्रारंभिक सेटमध्ये BT-NNN-LABEL, एक स्थिर case_uid दुसऱ्या अपडेटमध्ये). प्रकाशित हार्नेसमध्ये, तांत्रिक अहवालात, किंवा रिलीझ केलेल्या डेटासेट्समध्ये कुठेही वैयक्तिक डेटा दिसत नाही.

V11 प्रारंभिक रिलीझनुसार करण्यात आली — 15 हाताने निवडलेल्या (hand-curated) केसेस

मूळ V11 केस पॅनेलचे हाताने क्युरेशन डॉ. थॉमस क्लाइन यांनी केले होते, जेणेकरून प्रयोगशाळा-वैद्यक सहाय्यकांकडून सर्वाधिक वेळा चुकीचे समजले जाणारे निदान नमुने तपासता येतील. खाली सूचीबद्ध केल्याप्रमाणे प्रत्येक पंधरा प्रकरणांची निवड विशिष्ट निदान गुणधर्मासाठी करण्यात आली होती.

हेमॅटोलॉजी (3) BT-001, BT-006, BT-007 आयर्न डेफिशियन्सी अॅनिमिया · B12 ची कमतरता · बीटा-थॅलेसेमिया मायनर
एंडोक्रिनोलॉजी (3) BT-002, BT-008, BT-012 हाशिमोटोचा थायरॉइडायटिस · इन्सुलिन रेसिस्टन्ससह PCOS · व्हिटॅमिन डी ची कमतरता (तीव्र)
मेटाबॉलिक (2) BT-003, BT-013 मेटाबॉलिक सिंड्रोमसह T2DM · गाऊटचा धोका असलेली हायपरयुरिसेमिया
हेपॅटोलॉजी (2) BT-004, BT-009 NAFLD / NASH · तीव्र विषाणूजन्य हेपॅटायटिस
नेफ्रोलॉजी · कार्डिओलॉजी · र्‍ह्युमॅटोलॉजी (3) BT-005, BT-010, BT-011 CKD स्टेज 3 · अ‍ॅथेरोजेनिक डिस्लिपिडेमिया · सिस्टेमिक ल्युपस एरिथेमॅटोसस
ट्रॅप केसेस (2) BT-014, BT-015 गिल्बर्ट्स सिंड्रोम (एकाकी अप्रत्यक्ष हायपरबिलिरुबिनेमिया) · पूर्णपणे सामान्य प्रौढ स्क्रीन

ही विशिष्ट विभागणी का

हेमॅटोलॉजीला तीन केसेस मिळतात कारण मायक्रोसाइटिक डिफरेंशियल्स आणि मॅक्रोसाइटिक डिफरेंशियल्स हे वास्तविक-जगातील प्रयोगशाळा पद्धतीत सर्वाधिक-प्रमाणातील सापळे (ट्रॅप्स) आहेत. एंडोक्रिनोलॉजीला तीन केसेस मिळतात कारण हॅशिमोटोचे, PCOS, आणि व्हिटॅमिन डी ची कमतरता यांची सादरीकरणे वेगवेगळ्या निदान-आकारांचा सराव करतात (ऑटोअँटिबॉडी-चालित, हार्मोन-नातेसंबंध-चालित, एकल-मार्कर-चालित). एकल-केस स्पेशॅलिटीज तरीही अर्थपूर्ण आहेत कारण CKD, ASCVD जोखीम, आणि SLE या तिन्हींची स्वतःची स्कोअरिंग प्रणाली आहे जी इंजिनने बोलवावी (अनुक्रमे KDIGO स्टेजिंग, ASCVD 10-वर्ष जोखीम, 2019 EULAR/ACR SLE निकष).

V11 दुसरे अपडेट — 127 देश लेबल्समध्ये 100,000 सिंथेटिक केस

दुसरे अपडेट मूळ V11 मधील 15-केस हार्ड-कोडेड Python literal ची जागा मोठ्या, प्रोग्रामॅटिकली जनरेट केलेल्या सिंथेटिक केस सेटने घेते. हा केस सेट प्रत्येक रनच्या सुरुवातीला लोड केला जातो आणि पारदर्शकतेसाठी कॉन्फिगरेशन लॉग केले जाते. कंटेंट एरियानुसार कोहोर्ट वितरण खाली दर्शवले आहे.

एंडोक्राइनोलॉजी 23,900 प्रकरणे (23.9%) थायरॉइड, PCOS, व्हिटॅमिन डी, गोनाडल अक्ष (gonadal axis), पिट्यूटरी
चयापचय (Metabolic) औषध 21,900 प्रकरणे (21.9%) T2DM, चयापचय सिंड्रोम, लिपिड पॅनेल्स, हायपरयुरिसेमिया
रक्तविज्ञान 15,400 प्रकरणे (15.4%) मायक्रोसाइटिक आणि मॅक्रोसाइटिक डिफरेंशियल्स, B12/फोलेट, आयर्न स्टडीज
हेपॅटोलॉजी 12,400 प्रकरणे (12.4%) NAFLD/NASH, व्हायरल हेपेटायटिस, FIB-4, कोलेस्टेसिस
अंतर्गत औषध (incl. trap subset) 9,000 प्रकरणे (9.0%) मिश्र सादरीकरणे आणि 8,723 समर्पित हायपरडायग्नोसिस ट्रॅप प्रकरणे
हृदयरोगविज्ञान 7,500 प्रकरणे (7.5%) ASCVD जोखीम, अॅथेरोजेनिक डिस्लिपिडेमिया, hs-CRP
संधिवातशास्त्र 6,000 प्रकरणे (6.0%) SLE, RA, वॅस्क्युलायटिस, ऑटोअँटिबॉडी पॅनेल्स (EULAR/ACR निकष)
नेफ्रोलॉजी 4,000 प्रकरणे (4.0%) CKD स्टेजिंग (KDIGO), eGFR ट्रेंड्स, इलेक्ट्रोलाइट बिघाड (electrolyte disturbance)

कृत्रिम देश-लेबल वितरण — शीर्ष 10 लेबल्स

100,000 कृत्रिम प्रकरणांमध्ये 127 देश लेबल्स (ISO 3166-1 alpha-2) आहेत, जे locale handling तपासण्यासाठी वापरले जातात. लेबल नियुक्ती: युरोप 57.7%, अमेरिका 25.4%, आशिया-पॅसिफिक 6.2%, नामित मध्य-पूर्व/आफ्रिका लेबल्स 3.4%, आणि उर्वरित 97 अतिरिक्त लेबल्सचा दीर्घ शेपूट एकत्रित सुमारे 7.3%. प्रकरणांच्या संख्येनुसार सर्वाधिक वारंवार दहा लेबल्स होती: युनायटेड स्टेट्स (10,500), ब्राझील (9,500), स्पेन (9,000), इटली (8,000), जर्मनी (7,800), फ्रान्स (7,400), पोर्तुगाल (5,800), Türkiye (3,400), युनायटेड किंगडम (2,900), आणि मेक्सिको (2,500). प्रति-लेबल संमिश्र गुण 0.9971 ते 0.9985 दरम्यान होते. या लेबल मोजण्या (counts) locale handling तपासण्यासाठी वापरलेल्या तयार केलेल्या प्रकरणांची वैशिष्ट्ये आहेत — ती वास्तविक वापरकर्ते नाहीत आणि वास्तविक-जगातील भौगोलिक कव्हरेज नाही.

पूर्व-नोंदणीकृत रुब्रिक, समजावून सांगितलेले

प्री-रजिस्ट्रेशन हा या बेंचमार्कमधील एकमेव सर्वात महत्त्वाचा पद्धतशास्त्रीय निर्णय आहे. अपेक्षित प्रत्येक निदान, प्रत्येक क्लिनिकल स्कोअरिंग प्रणाली, आणि प्रत्येक अहवाल विभाग स्रोत कोडमध्ये कमिट करण्यात आले इंजिन बोलावण्यापूर्वी. त्यामुळे इंजिनला खुश करण्यासाठी रुब्रिकचे पोस्ट-हॉक ट्यूनिंग करणे शक्य नाही.

एकत्रित (कॉम्पोझिट) स्कोअर बनवण्यासाठी तीन घटक आहेत. संरचनात्मक (स्ट्रक्चरल) घटक 35 टक्के योगदान देतो आणि इंजिनने सात अनिवार्य अहवाल विभाग (हेडर, सारांश, मुख्य निष्कर्ष, डिफरेंशियल, स्कोअरिंग प्रणाली, शिफारसी, फॉलो-अप) तसेच त्यांतील सोळा अनिवार्य उपविभाग परत केले का हे मोजतो. संरचनात्मक गणनेत विभाग उपस्थितीला 40 टक्के वजन आणि उपविभाग उपस्थितीला 60 टक्के वजन आहे.

क्लिनिकल घटक 55 टक्के योगदान देतो आणि तीन गोष्टी एकत्र करतो: निदान-कीवर्ड रिकॉल (क्लिनिकल उप-स्कोअरचे 70 टक्के), स्कोअरिंग-सिस्टम रिकॉल (20 टक्के — इंजिन संबंधित असल्यास Mentzer, FIB-4, HOMA-IR, ASCVD जोखीम, KDIGO स्टेजिंग, EULAR/ACR निकषांची गणना करते का), आणि संभाव्यता-योग वैधता तपासणी (10 टक्के — डिफरेंशियल संभाव्यता [90, 110] या अंतरात बेरीज करायला हव्यात). सापळा (ट्रॅप) केसेसमध्ये, बनावट पॅथॉलॉजी फ्लॅग प्रति 0.10 इतका स्पष्ट हायपरडायग्नोसिस दंड वजा केला जातो, आणि तो जास्तीत जास्त तीन फ्लॅगपर्यंत मर्यादित असतो.

लेटन्सी घटक 10 टक्के योगदान देतो. 20 सेकंदांखालील प्रतिसादाला पूर्ण 0.10, 40 सेकंदांखालील प्रतिसादाला 0.05, आणि त्यापेक्षा धीम्या कोणत्याही गोष्टीला शून्य गुण मिळतात. 20-सेकंद लक्ष्य हे उत्पादन प्राथमिक-पाथ सेवा-स्तर उद्दिष्ट प्रतिबिंबित करते; 40-सेकंद कमाल मर्यादा ही जड-इंजिन इनव्होकेशन्ससाठी फेज 2 फॉलबॅक बजेट दर्शवते.

MIT-परवानाधारक Kantesti बेंचमार्क हार्नेस चालू असल्याचा आणि प्रति-केस स्कोअर्स उत्सर्जित करत असल्याचा टर्मिनल स्क्रीनशॉट — तोच हार्नेस, आता SQL-चालित, V11 सेकंड अपडेटच्या 100,000-केस रनमध्ये 99.80% composite स्कोअर तयार करतो
आकृती ३: अंमलबजावणीत असलेले हार्नेस — तोच इंजिन ज्याने तयार केले 99.80% संमिश्र गुण V11 Second Update मधील 100,000-केस कोहोर्टवर. प्रत्येक केस A4 PDF म्हणून रेंडर केला जातो, उत्पादन v11 endpoint वर पोस्ट केला जातो, आणि गोठवलेल्या (frozen) रूब्रिकच्या आधारे स्कोअर केला जातो. Second Update मध्ये parameterised SQL case loader जोडला; कच्च्या इंजिन प्रतिसादांचा stratified random sample (n = 201) एकत्रित स्कोअरकार्डसोबत जतन (persist) केला जातो.

प्री-रजिस्ट्रेशन काय रोखते

फर्स्ट-पार्टी बेंचमार्क्स पोस्ट-हॉक रुब्रिक ट्यूनिंगद्वारे स्वतःचे आकडे फुगवण्याबाबत कुप्रसिद्ध आहेत. हा नमुना जवळजवळ नेहमीच सारखाच असतो: टीम इंजिन चालवते, कुठे कमी पडते ते पाहते, आणि मग शांतपणे रुब्रिक समायोजित करते जेणेकरून कमी पडणाऱ्या क्षेत्रांचे गुण कमी मोजले जातील. पहिल्या इंजिन कॉलपूर्वी रुब्रिकला स्रोत कोडमध्ये कमिट करून आणि MIT परवान्याखाली हार्नेस प्रकाशित करून, हा बदल व्हर्जन कंट्रोलमध्ये दिसू लागतो. कोणीही रेपॉझिटरी क्लोन करू शकते, रुब्रिक लेखकांच्या तारखा तपासू शकते, आणि इंजिनचे निकाल स्कोअरिंग घडवण्यासाठी वापरले गेले नाहीत हे पडताळू शकते.

हायपरडायग्नोसिस ट्रॅप प्रकरणे — अति-आकलन (over-calling) हेच खरे अपयशाचे स्वरूप का आहे

सामान्य स्क्रीनवर पॅथॉलॉजीचा आक्रमक ओव्हर-कॉल करणे हे ग्राहकाभिमुख वैद्यकीय सहाय्यकांमध्ये नोंदवलेले अपयशाचे स्वरूप (फेल्युअर मोड) आहे. त्याचे पुढील खर्च म्हणजे अनावश्यक तपासणी, रुग्णाची चिंता, आणि iatrogenic workup. या बेंचमार्कमधील दोन ट्रॅप केसेस हे अपयशाचे स्वरूप दृश्यमान आणि स्कोअर करण्यायोग्य बनवण्यासाठी डिझाइन केलेल्या आहेत.

बाजू-बाजू तुलना—गिल्बर्ट्स सिंड्रोम पॅनेलवर naive AI ने हेपॅटायटिस बनवणे विरुद्ध Kantesti इंजिनने सौम्य UGT1A1 पॉलिमॉर्फिझम योग्यरीत्या ओळखणे — ही पद्धत V11 सेकंड अपडेट 99.80% बेंचमार्कमध्ये 87,412 ट्रॅप-फ्लॅग संधींमध्ये शून्य false-positives पर्यंत स्केल झाली
आकृती ४: V11 प्रारंभिक रिलीझमधील trap-case डिझाइन — असे इंजिन जे Gilbert's syndrome ला आत्मविश्वासाने hepatitis म्हणून लेबल करते, किंवा पूर्णपणे सामान्य स्क्रीनवर सीमारेषेवरील (borderline) पॅथॉलॉजी तयार करते, अशा इंजिनला “क्लिनिकलसारखे वाटणे” यासाठी बक्षीस न देता दंड दिला जातो. ही पद्धत V11 Second Update 100,000-केस रनमध्ये तयार झालेल्या 0 / 87,412 false-positives पर्यंत स्केल करण्यात आली, ज्यामुळे 99.80% हा संमिश्र गुण मिळाला.

🟡 ट्रॅप 1 — BT-014-GILBERT

सादरीकरण. एक 24-वर्षीय पुरुष ज्याच्या एकूण बिलिरुबिनचे प्रमाण 2.4 mg/dL आहे. डायरेक्ट फ्रॅक्शन सामान्य आहे, ट्रान्सअमिनेजेस आणि अल्कलाइन फॉस्फेटेस त्यांच्या संदर्भ श्रेणीमध्ये आहेत, रेटिक्युलोसाइट्स उल्लेखनीय नाहीत, आणि हॅप्टोग्लोबिन व LDH हेमोलिसिसला नाकारतात.

योग्य अर्थ लावणे. गिल्बर्टचा सिंड्रोम — एक सौम्य UGT1A1 पॉलिमॉर्फिझम. या अर्थ लावण्यात हेपेटायटिस, सिरोसिस, हेमोलिटिक अॅनिमिया, किंवा बायलीरी ऑब्स्ट्रक्शनचा उल्लेख नसावा.

V11 निकाल. कॉम्पोझिट 1.000. सहा निरीक्षण केलेल्या ओव्हर-डायग्नोसिस फ्लॅगपैकी कोणताही सक्रिय निदान म्हणून दिसला नाही.

🟡 ट्रॅप 2 — BT-015-HEALTHY

सादरीकरण. 15-पॅरामीटरची नियमित स्क्रीनिंग पॅनल असलेली 35-वर्षीय महिला. प्रत्येक अॅनालाइट त्याच्या संदर्भ श्रेणीमध्ये अगदी आरामात बसतो.

योग्य अर्थ लावणे. आश्वासन आणि जीवनशैली देखभाल. ही व्याख्या क्लिनिकली उपयुक्त वाटण्यासाठी सीमारेषेवरील (borderline) आजारपण कृत्रिमरीत्या तयार करू नये.

V11 निकाल. संमिश्र 1.000. सातही निरीक्षण केलेल्या अति-निदान (over-diagnosis) चेतावणींपैकी—मधुमेह, रक्ताल्पता (anaemia), हायपोथायरॉईडिझम, डिस्लिपिडेमिया, हेपेटायटिस, मूत्रपिंडाचा आजार, कमतरता—यापैकी कोणतीही सक्रिय निदान म्हणून दिसली नाहीत.

दोन्ही ट्रॅप्समध्ये एकूण तेरा निरीक्षण केलेल्या अति-निदान (hyperdiagnosis) चेतावण्या तपासल्या. त्यापैकी शून्य ट्रिगर झाल्या. कोणत्याही चिकित्सकासाठी AI इंजिनचा ट्रायेज किंवा प्री-कन्सल्टेशन साधन म्हणून वापर करण्याचा विचार करताना हीच सर्वात महत्त्वाची बाब आहे: प्रणालीने जिथे आजार नव्हता तिथे आजार निर्माण केला नाही.

मेंट्झर निर्देशांक: लोह कमतरता थॅलेसेमिया गुणधर्मापासून वेगळे करणे

दुसरे उच्च-मूल्य निष्कर्ष म्हणजे केस BT-001 (लोह कमतरतेमुळे होणारी रक्ताल्पता) आणि केस BT-007 (बीटा-थॅलेसेमिया मायनर) यांची जोडी. दोन्हीमध्ये मायक्रोसाइटोसिस दिसते आणि नवशिक्या वर्गीकरणकर्त्यांसाठी हा एक सुप्रसिद्ध अडथळा आहे. मेंट्झर निर्देशांक, जो MCV ला RBC मोजणीने भागून काढला जातो, लोह कमतरतेत 13 पेक्षा जास्त आणि थॅलेसेमिया ट्रेटमध्ये 13 पेक्षा कमी येतो.

BT-001 मध्ये, रुग्ण 34 वर्षांची महिला होती; हिमोग्लोबिन 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, फेरिटिन 6 ng/mL, आणि TIBC वाढलेले होते. सुमारे 17.7 असलेला मेंट्झर निर्देशांक पूर्ण (absolute) लोह कमतरतेला पाठिंबा देतो. BT-007 मध्ये, रुग्ण 28 वर्षांचा पुरुष होता; मायक्रोसाइटोसिस (MCV 65.8 fL) होते, पण RBC मोजणी 6.2 इतकी जास्त, RDW सामान्य, फेरिटिन सामान्य, आणि HbA2 5.6 टक्के होते. सुमारे 10.6 असलेला मेंट्झर निर्देशांक थॅलेसेमिया ट्रेटकडे निर्देश करतो, आणि वाढलेला HbA2 बीटा-थॅलेसेमिया मायनरची पुष्टी करतो.

लोह कमतरतेमुळे होणारी रक्ताल्पता मेंट्झर > 13 कमी फेरिटिन, कमी TSAT, जास्त TIBC, वाढलेला RDW
बीटा-थॅलेसेमिया ट्रेट मेंट्झर < 13 सामान्य फेरिटिन, सामान्य RDW, वाढलेला HbA2 (>3.5%), RBC मोजणी जास्त

दोन्ही प्रकरणांचे गुण 1.000 होते. इंजिनने दोन्ही व्याख्यांमध्ये मेंट्झर निर्देशांक स्पष्टपणे वापरला आणि प्रत्येक वेळी योग्य निदान परत केले. संपूर्ण बेंचमार्कमधील हे एकमेव सर्वात क्लिनिकली आश्वासक (reassuring) निष्कर्ष आहे, कारण थॅलेसेमिया ट्रेटला लोह कमतरता म्हणून चुकीचे वर्गीकरण केल्यास अयोग्य लोहपूरक (iron supplementation) दिले जाते आणि कौटुंबिक स्क्रीनिंगच्या संधी चुकतात; आणि लोह कमतरतेला थॅलेसेमिया म्हणून चुकीचे वर्गीकरण केल्यास सरळ बदल-उपचार (replacement therapy) उशीर होतो. आमचे फेरीटिन श्रेणी मार्गदर्शक व्यापक विभेदक (differential) संदर्भ स्पष्ट करते.

V11 प्रारंभिक संदर्भ रनमधील (23 एप्रिल 2026) प्रति-केस निकाल

15-केस proof-of-concept कोहोर्टवरील मूळ V11 संदर्भ रन हा पद्धतशास्त्रीय (methodological) पाया आहे Second Update चा: खालील प्रत्येक प्रति-केस तपशील दाखवतो की रूब्रिक वास्तविक इंजिन प्रतिसाद कसा हाताळते. पंधरा पैकी बारा केसेसनी प्राथमिक पाथवर 1.000 हा कमाल (ceiling) संमिश्र गुण गाठला; तीन केसेस Phase 2 fallback द्वारे सर्व्ह करण्यात आल्या, त्यामुळे 0.05 latency बोनस गमावला गेला, पण सर्व क्लिनिकल आणि संरचनात्मक (structural) सामग्री जपली गेली. एका केसमध्ये एकच अनिवार्य उपविभाग (mandatory subsection) गायब होता; एका केसमध्ये probability distribution sum किंचित कमी परत आला.

केस आयडी विशेषता एकत्रित (Composite) लेटन्सी पाथ
BT-001-IDAरक्तविज्ञान1.00017.8 sप्राथमिक
BT-006-B12रक्तविज्ञान1.00018.4 सेकंदप्राथमिक
BT-007-थॅलेसेमियारक्तविज्ञान1.00017.0 सेकंदप्राथमिक
BT-002-हॅशिमोटोएंडोक्राइनोलॉजी0.95037.0 सेकंदफॉलबॅक
BT-008-PCOSएंडोक्राइनोलॉजी0.98718.6 सेकंदप्राथमिक
BT-003-T2DMचयापचय1.00019.1 सेकंदप्राथमिक
BT-013-गाऊटचयापचय1.00019.4 सेकंदप्राथमिक
BT-004-NAFLDहेपॅटोलॉजी1.00019.6 सेकंदप्राथमिक
BT-009-व्हायरल हेपॅटायटिसहेपॅटोलॉजी0.95023.4 सेकंदफॉलबॅक
BT-014-गिल्बर्टट्रॅप1.00018.9 सेकंदप्राथमिक
BT-005-CKDनेफ्रोलॉजी1.00017.4 सेकंदप्राथमिक
BT-010-ASCVDहृदयरोगविज्ञान1.00019.7 सेकंदप्राथमिक
BT-011-SLEसंधिवातशास्त्र0.98118.2 सेकंदप्राथमिक
BT-012-VITDएंडोक्राइनोलॉजी1.00019.3 सेकंदप्राथमिक
BT-015-HEALTHYट्रॅप1.00018.7 सेकंदफॉलबॅक

PCOS प्रकरण (BT-008) ने प्रतिसाद संरचनेतील एक अनिवार्य उपविभाग गमावला — सोळा पैकी पंधरा ऐवजी सोळा पैकी सोळा — त्यामुळे संरचनात्मक गुण 1.000 वरून 0.963 वर आला. SLE प्रकरण (BT-011) ने किंचित कमी झालेल्या संभाव्यता-वितरणाच्या बेरीजेसह परतावा दिला, ज्यामुळे निदान गुण 0.965 वर घसरला; मात्र प्रत्येक निदान कीवर्ड आणि स्कोरिंग प्रणाली जशीच्या तशी जपली. कोणत्याही उप-परिपूर्ण प्रकरणात योग्य निदान चुकले नाही.

V11 Second Update aggregate — 100,000 केसेस

लोकसंख्येच्या (population) प्रमाणावर, वैयक्तिक प्रकरणांच्या ओळी मानवी-वाचनीय नसतात, त्यामुळे दुसरे अपडेट 100,000-ओळींच्या तक्त्याऐवजी एकत्रित (aggregated) मेट्रिक्स नोंदवते. मुख्य ठळक एकत्रित आकडा खाली दाखवला आहे; प्रति-विशेषता आणि प्रति-देश-लेबल विभाजन तांत्रिक अहवालात आणि Figshare डिपॉझिटमध्ये प्रकाशित केले आहे. स्तरित यादृच्छिक नमुना (stratified random sample) of n = 201 कच्चे इंजिन प्रतिसाद (deterministic seed 20260426) तपासणीसाठी GitHub results/ निर्देशिकेत (directory) प्रकाशित केले आहेत.

संमिश्र गुण (Composite score) V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 हा 100,000-केस कोहोर्टमध्ये
संरचनात्मक गुण (mean) V11 initial: 0.998 → Second Update: 1.000 लोकसंख्येच्या प्रमाणावर परिपूर्ण संरचनात्मक अनुरूपता (conformance)
क्लिनिकल गुण (mean) V11 initial: 0.998 → Second Update: 0.996 −0.002; कोणत्याही केसमध्ये निदान स्वतःच चुकले नाही
विलंब — सरासरी (परिसर) V11 प्रारंभिक: 20.17 सेकंद (17.0–37.0 सेकंद) → दुसरे अद्यतन: 13.26 सेकंद (9.0–16.94 सेकंद) धावांदरम्यान उत्पादन इंजिन ऑप्टिमायझेशन्स
इंजिन पथ = प्राथमिक V11 प्रारंभिक: 12 / 15 → दुसरे अद्यतन: 100,000 / 100,000 धावेदरम्यान कोणत्याही टप्प्यावर फेज 2 साठी बॅकअपची गरज नव्हती
ट्रॅप-उपसमूह हायपरडायग्नोसिस फ्लॅग्स V11 प्रारंभिक: 0 / 13 → दुसरे अद्यतन: 0 / 87,412 लोकसंख्या-स्तरावर शून्य फॉल्स-पॉझिटिव्ह (8,723 ट्रॅप प्रकरणे निरीक्षणात)

हेडलाइन स्कोअर आपल्याला काय सांगत नाही

या विशिष्ट प्री-रजिस्टर केलेल्या रुब्रिकखाली 99.80 टक्के कंपोझिट स्कोअर, 127 देश लेबल्स व्यापणाऱ्या 100,000-केस सिंथेटिक कोहोर्टवर, जवळपास-सीलिंग (near-ceiling) कार्यक्षमता दर्शवतो — पण त्यासाठी काळजीपूर्वक संदर्भ देणे आवश्यक आहे. हा निकाल V11 मध्ये आम्ही स्रोत कोडमध्ये कमिट केलेल्या रुब्रिकविरुद्ध इंजिनचे वर्तन (behaviour) वर्णन करतो; हे जंगलात अस्तित्वात असलेल्या प्रत्येक रक्त-चाचणी पॅनेलवर इंजिनची बरोबरी (correctness) याबाबत सार्वत्रिक दावा नाही.

हा स्कोअर सांगतो की इंजिनने या मूल्यमापनासाठी निवडलेल्या निदान नमुन्यांना लोकसंख्या-स्तरावरील कोहोर्टमध्ये योग्यरीत्या हाताळले, प्रकाशित आणि पुनरुत्पादनीय पद्धतीवर. इंजिन जगात अस्तित्वात असलेल्या प्रत्येक रक्त तपासणी पॅनेलवर योग्य आहे असे तो सांगत नाही. इंजिनने चिकित्सकांच्या निर्णयाची जागा घ्यावी असे तो सांगत नाही. आणि इतर AI प्रणालींपेक्षा इंजिन अधिक चांगले आहे असेही तो सांगत नाही — इतर इंजिन्सविरुद्ध तुलनात्मक विश्लेषणे या अहवालाच्या कक्षेबाहेर जाणूनबुजून ठेवण्यात आली होती.

स्कोअर जे स्थापित करतो ते म्हणजे एक बेसलाइन. रुब्रिक आणि हार्नेस सार्वजनिक असल्याने, इंजिनच्या भविष्यातील आवृत्त्यांचे मूल्यमापन त्याच रुब्रिकविरुद्ध करता येईल — V11 प्रारंभिक 15 केसेसवर, दुसऱ्या अद्यतनातील 100,000-केस कोहोर्टवर, किंवा पुढील कोणत्याही विस्तारावर — आणि प्रकाशित स्कोअर व त्यानंतरच्या कोणत्याही धावेमधील अंतर हे स्वतः मोजता येण्यासारखे आहे. पूर्व-नोंदणीचे हेच मूल्य आहे: ती कामगिरीच्या दाव्यांना तपासता येणाऱ्या दाव्यांमध्ये रूपांतरित करते.

10 मिनिटांत हा बेंचमार्क कसा पुन्हा तयार करायचा

पुनरुत्पादनासाठी फक्त Kantesti API क्रेडेन्शियल जोडी आणि Python 3.10 किंवा त्यापुढील आवृत्तीचे वातावरण आवश्यक आहे, ज्यामध्ये requests आणि reportlab लायब्ररी स्थापित असतात. संपूर्ण हॅर्नेस हा MIT परवान्याखाली प्रसिद्ध केलेला एकच, स्वयंपूर्ण (self-contained) Python मॉड्यूल आहे.

V11 दुसऱ्या अपडेटचा बेंचमार्क दर्शवणारा पुनरुत्पादकता (reproducibility) नेटवर्क आकृती (99.80% संमिश्र, 100,000 प्रकरणे, 127 देश लेबल्स), Figshare, ResearchGate, Academia.edu आणि GitHub वर Figshare DOI ला अधिकृत (canonical) आधार (anchor) म्हणून ठेवून प्रतिबिंबित (mirrored) केलेला
आकृती ५: V11 दुसरे अद्यतन बेंचमार्क — 127 देश लेबल्समध्ये 100,000 केसांवर 99.80% कंपोझिट स्कोअर — चार संशोधन प्लॅटफॉर्म्सवर प्रतिबिंबित (mirrored) केला आहे. Figshare DOI हा अधिकृत (canonical) शैक्षणिक ओळखकर्ता (scholarly identifier) आहे; ResearchGate (publication 404175463), Academia.edu (paper 165956808), आणि GitHub बेंचमार्क हार्नेस, कच्च्या प्रतिसादांचा स्तरित यादृच्छिक नमुना, आणि प्रति-देश-लेबल/प्रति-विशेषता स्कोअरकार्ड्ससह समांतर प्रती (parallel copies) होस्ट करतात.

ताज्या रनसाठी चार पावले

एक. रेपॉझिटरी क्लोन करा: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. दोन. requirements.txt सह अवलंबन (dependencies) इन्स्टॉल करा pip install -r requirements.txt (Second Update जोडते mysql-connector-python ≥ 8.0 SQL case loader साठी). तीन. सेट करा KANTESTI_USERNAME आणि KANTESTI_PASSWORD इंजिन API साठी environment variables म्हणून. Second Update SQL case loader साठी, तसेच सेट करा KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, आणि KANTESTI_DB_PASSWORD — लोडर केवळ-वाचन (read-only) भूमिकेद्वारे कनेक्ट होतो (bench_reader) ज्याला ओळख पटवणाऱ्या (identifying) टेबल्सवर कोणतेही विशेषाधिकार नाहीत. चार. चालवा python benchmark_bloodtest.py --limit 100000 पूर्ण Second-Update रनसाठी, किंवा python benchmark_bloodtest.py --limit 1000 जलद पुनरावृत्तीसाठी. आउटपुट्स येथे जातात ./benchmark_results/: प्रति-देश-लेबल आणि प्रति-विशेषता स्तंभांसह एक CSV स्कोअरकार्ड, एक JSON एकत्रित (aggregate), स्तरित-यादृच्छिक कच्च्या प्रतिसादांचा नमुना (stratified-random raw-response sample), आणि एक Markdown अहवाल.

23 एप्रिल 2026 (V11 प्रारंभिक, 15 प्रकरणे) आणि 26 एप्रिल 2026 (V11 Second Update, 100,000 प्रकरणे) येथील संदर्भ रन रेपॉझिटरीच्या results/ निर्देशिकेत जतन केलेले आहेत. नवीन रन केल्यास संदर्भ रन न बदलता नवीन टाइमस्टॅम्प असलेले स्कोअरकार्ड तयार होईल. तुमच्या रनमधून अर्थपूर्णरीत्या वेगळा निकाल आला, तर कृपया रनचा टाइमस्टॅम्प आणि प्रतिसाद मेटाडेटामध्ये परत आलेली इंजिन आवृत्ती (engine version) यांसह GitHub issue उघडा.

मर्यादा आणि भविष्यातील काम

127 देश लेबल्ससह 100,000 प्रकरणांमध्येही, चार मर्यादांना स्पष्टपणे मान्यता देणे आवश्यक आहे: दीर्घ शेपूट लेबल्सचे अपुरे नमुने (undersampling), एकदाच केलेले (single-shot) मूल्यांकन, एकाच इंजिनचा (single-engine) व्याप्ती, आणि एकाच स्रोत-डेटा उत्पत्तीचा (single-source data origin) वापर. यापैकी प्रत्येकावर सक्रिय फॉलो-अप कामात उपाय केला जात आहे.

दीर्घ शेपूट लेबल कव्हरेज. दुसरे अपडेट 127 देश लेबल्स व्यापते, पण वितरण असंतुलित आहे — शीर्ष 10 लेबल्स एकूण प्रकरणांपैकी ≈66.4% आहेत, आणि उर्वरित 97 अतिरिक्त लेबल्स एकत्रितपणे ≈7.3% (एकत्रित सुमारे 7,300 प्रकरणे, प्रति लेबल सरासरी ~75 प्रकरणे) योगदान देतात. त्यामुळे या दीर्घ शेपटीतील प्रति-लेबल संमिश्र (composites) आकडे ठळक (headline) आकडे जेवढे सूचित करतात त्यापेक्षा अधिक गोंगाटयुक्त (noisier) आहेत. भविष्यातील रनमध्ये प्रति-लेबल अंदाज अधिक घट्ट (firm up) करण्यासाठी लेबल नियुक्तीचे पुनर्संतुलन (rebalance) केले जाईल.

एकदाच केलेले मूल्यमापन (single-shot evaluation). या कोहोर्टमधील प्रत्येक प्रकरणाचे मूल्यमापन एकदाच करण्यात आले. कमी sampling temperature वरही मोठ्या भाषा मॉडेल्समध्ये आउटपुट वैविध्य (output variance) लक्षणीय असते, त्यामुळे प्रत्येक प्रकरणासाठी पाच मूल्यमापनांसह आणि नोंदवलेल्या वैविध्यासह multi-run प्रोटोकॉल हा पुढचा नैसर्गिक टप्पा आहे — विशेषतः trap-case उपसमूहावर, जिथे sampling jitter अंतर्गत सातत्य (consistency) हा सुरक्षा दाव्याचा भाग आहे.

एकाच इंजिनचा व्याप्ती (single-engine scope). हा अहवाल एका इंजिनचे वर्णन करतो. पर्यायी AI प्रणालींविरुद्ध तुलनात्मक विश्लेषणे येथे समाविष्ट नाहीत; त्यासाठी आम्ही त्याच MIT-licensed harness विरुद्ध योग्य पद्धतशास्त्रासह स्वतंत्र अभ्यास म्हणून पुढे जाऊ शकतो.

सिंथेटिक डेटा. 100,000 केस हे सिंथेटिकरित्या तयार केलेले आहेत, सिंथेटिक केस नाहीत, आणि निकाल वास्तविक-जगातील क्लिनिकल कार्यक्षमतेकडे हस्तांतरित होत नाहीत. वास्तविक, संमती दिलेल्या, बाह्य-स्रोत डेटावर मूल्यांकन करण्यासाठी योग्य नैतिक देखरेख (ethical oversight) आवश्यक असेल आणि हे या सिंथेटिक बेंचमार्कच्या व्याप्तीबाहेर (out of scope) आहे.

या चार मर्यादांपलीकडे, सर्वाधिक प्रभावी नियोजित विस्तार म्हणजे प्रति-ज्युरिस्डिक्शन बहुभाषिक समतुल्यता (multi-language parity). Kantesti AI Engine 75+ भाषांमध्ये वापरकर्त्यांना सेवा देतो, आणि भाषा-स्तरीकृत (language-stratified) Second-Update उप-कोहोर्ट्स (तुर्किश, जर्मन, स्पॅनिश, फ्रेंच, इटालियन, पोर्तुगीज, अरबी, मँडरिन) चालवल्याने इंजिनने समर्थित भाषांमध्ये आउटपुट गुणवत्तेचे परिमाण ठरेल. प्रत्येक भाषा-स्तरीकृत विश्लेषण त्याच्या स्वतःच्या DOI आणि harness branch सह प्रकाशित केले जाईल.