यह बेंचमार्क क्यों मौजूद है और यह क्या जांचता है
एआई-सहायता प्राप्त ब्लड टेस्ट रिपोर्ट समझें का उपयोग उपभोक्ता और नैदानिक वर्कफ़्लो में तेजी से किया जा रहा है, फिर भी प्रयोगशाला चिकित्सा के अनुरूप पुनरुत्पाद्य मूल्यांकन ढाँचे दुर्लभ बने हुए हैं। इस संदर्भ में सबसे महत्वपूर्ण प्रश्न वे नहीं हैं जो सामान्य चिकित्सा प्रश्न-उत्तर बेंचमार्क में कवर होते हैं: क्या कोई इंजन तब आयरन की कमी को थैलेसीमिया ट्रेट से अलग कर सकता है जब मीन कॉर्पस्कुलर वॉल्यूम समान हो, क्या वह गिल्बर्ट्स सिंड्रोम को हेपेटाइटिस के रूप में ओवर-डायग्नोज़ करता है, और क्या वह पूरी तरह सामान्य स्क्रीनिंग पैनल में पैथोलॉजी “बनाता” है?
एकल ब्लड टेस्ट पैनल में आम तौर पर कई प्रतिस्पर्धी व्याख्याओं का समर्थन करने के लिए पर्याप्त संकेत होते हैं, और व्याख्या करने वाले चिकित्सक का काम उन व्याख्याओं को एक-दूसरे के विरुद्ध तौलना होता है, न कि किसी पाठ्यपुस्तक-सा एक निश्चित उत्तर निकालना। जो इंजन पाठ्यपुस्तक वाले मामलों में अच्छा प्रदर्शन करता है, वह फिर भी उन मामलों में असफल हो सकता है जो सबसे अधिक मायने रखते हैं: विभेदक-निदान की गलतियाँ, वे सौम्य विविधताएँ जो अकेले में चिंताजनक लगती हैं, और वे पूरी तरह सामान्य पैनल जो आत्मविश्वासी सहायकों को पैथोलॉजी गढ़ने के लिए लुभाते हैं।.
यह बेंचमार्क ठीक उन्हीं विफलता-प्रकारों के इर्द-गिर्द बनाया गया था। पंद्रहों मामलों को किसी विशिष्ट नैदानिक गुण के लिए चुना गया: एक आयरन-की कमी से होने वाली माइक्रोसाइटोसिस जिसे समान mean corpuscular volume वाले beta-thalassaemia trait से अलग रखना जरूरी है; एक Gilbert's syndrome प्रस्तुति जिसमें एकमात्र असामान्यता अलग-थलग indirect hyperbilirubinaemia है; और एक पंद्रह-पैरामीटर स्क्रीनिंग पैनल जिसमें हर analyte अपने संदर्भ-सीमा के भीतर बैठता है। यह रूब्रिक उन इंजनों को पुरस्कृत करती है जो हर केस को अपने संदर्भ में पढ़ते हैं और उन इंजनों को दंडित करती है जो ऐसे आत्मविश्वासपूर्ण निदान तक पहुँच जाते हैं जहाँ ऐसा निदान उचित नहीं है।.
डॉ. थॉमस क्लाइन के रूप में, मैंने केस पैनल इसलिए चुना क्योंकि ये वे पैटर्न हैं जिन्हें लैब-चिकित्सा सहायक सबसे अधिक बार गलत करते हैं।. महँगा विफलता-प्रकार "दुर्लभ बीमारी को चूकना" नहीं है — यह उन मरीजों में नियमित पैथोलॉजी गढ़ देना है जिनमें वह मौजूद नहीं है।. हमारा चिकित्सा सत्यापन hub व्यापक ढाँचा बताता है; यह पेज V11 इंजन पर उसका लागू परिणाम वर्णित करता है।.
नवीनतम संदर्भ रन — V11 (अप्रैल 2026)
Kantesti AI Engine V11 का अप्रैल 2026 संदर्भ रन एक समग्र स्कोर (composite score) के रूप में उत्पन्न हुआ: 99.12% पंजीकृत (pre-registered) पंद्रह-केस रूब्रिक पर। दोनों hyperdiagnosis trap मामलों ने अधिकतम सीमा (ceiling) को छुआ। आयरन-डिफिशिएंसी बनाम थैलेसीमिया विभेदक में Mentzer index सही तरीके से लागू किया गया।.
समग्र सूत्र (composite formula) तीन घटकों को जोड़ता है: संरचनात्मक अनुरूपता (structural conformance) सात अनिवार्य रिपोर्ट सेक्शनों और सोलह अनिवार्य उप-सेक्शनों के साथ, नैदानिक सटीकता (clinical accuracy) जिसे keyword recall के साथ-साथ scoring-system recall और probability-distribution validity check के रूप में मापा गया, और प्रतिक्रिया विलंबता (response latency) 20-सेकंड की प्राथमिक-पाथ सेवा-स्तर लक्ष्य (primary service-level target) के विरुद्ध। नीचे रूब्रिक सूत्र में सटीक विभाजन दिखाया गया है।.
हेडरूम के शेष 0.88 प्रतिशत अंक लगभग पूरी तरह लेटेंसी लॉस में विघटित हो जाते हैं — प्रत्येक में लगभग 0.60 का योगदान देने वाली तीन Phase 2 फॉलबैक इनवोकेशन ने 0.88-पॉइंट की कमी में योगदान दिया — न कि क्लिनिकल कंटेंट में। इंजन ने पंद्रह मामलों में से किसी में भी सही निदान चूक नहीं किया; जहाँ यह कम पड़ा, वहाँ यह कुछ अल्पसंख्यक इनवोकेशनों में 20-सेकंड के प्राथमिक-पाथ लक्ष्य से थोड़ा अधिक समय लेने के कारण था।.
सात चिकित्सा विशिष्टताओं (medical specialties) में पंद्रह केस
केस पैनल सात विशेषज्ञताओं को कवर करता है — हेमेटोलॉजी, एंडोक्रिनोलॉजी, मेटाबोलिक मेडिसिन, हेपेटोलॉजी, नेफ्रोलॉजी, कार्डियोलॉजी, रूमेटोलॉजी — साथ ही दो समर्पित हाइपरडायग्नोसिस ट्रैप केस। प्रत्येक केस एक अनामित वास्तविक मरीज रिकॉर्ड है, जिसे लिखित सूचित सहमति के तहत Kantesti क्लिनिकल डेटा रिपॉजिटरी से लिया गया है।.
डी-आइडेंटिफिकेशन Safe Harbor दृष्टिकोण के तहत किया गया: सभी प्रत्यक्ष पहचानकर्ताओं को हटाया या प्रतिस्थापित किया गया, और प्रत्येक रिकॉर्ड को BT-NNN-LABEL प्रारूप में एक बेंचमार्क-आंतरिक केस कोड सौंपा गया। प्रोसेसिंग निम्न के अनुसार की गई GDPR अनुच्छेद 9(2)(j) उपयुक्त सुरक्षा उपायों के साथ वैज्ञानिक अनुसंधान हेतु, और समकक्ष UK GDPR प्रावधानों के अनुसार। प्रकाशित हार्नेस, तकनीकी रिपोर्ट, या जारी किए गए डेटासेट में कहीं भी कोई व्यक्तिगत रूप से पहचान योग्य जानकारी दिखाई नहीं देती।.
यह विशेष वितरण क्यों
हेमेटोलॉजी को तीन केस मिलते हैं क्योंकि माइक्रोसाइटिक डिफरेंशियल्स और मैक्रोसाइटिक डिफरेंशियल्स वास्तविक दुनिया की लैब प्रैक्टिस में सबसे अधिक-आवृत्ति वाले “ट्रैप” हैं। एंडोक्रिनोलॉजी को तीन केस मिलते हैं क्योंकि हैशिमोटो, PCOS, और विटामिन डी की कमी की प्रस्तुतियाँ अलग-अलग डायग्नोस्टिक आकृतियाँ (ऑटोएंटीबॉडी-चालित, हार्मोन-रेशियो-चालित, एकल-मार्कर-चालित) अभ्यास में लाती हैं। एकल-केस वाली विशेषताएँ फिर भी सार्थक हैं क्योंकि CKD, ASCVD जोखिम, और SLE—तीनों की अपनी-अपनी स्कोरिंग प्रणाली है जिसे इंजन को बुलाना चाहिए (क्रमशः KDIGO स्टेजिंग, ASCVD 10-वर्ष जोखिम, 2019 EULAR/ACR SLE मानदंड)।.
पूर्व-रजिस्टर्ड रूब्रिक, समझाया गया
प्री-रजिस्ट्रेशन इस बेंचमार्क में सबसे महत्वपूर्ण पद्धतिगत (methodological) विकल्प है। हर अपेक्षित निदान, हर क्लिनिकल स्कोरिंग सिस्टम, और हर रिपोर्ट सेक्शन को सोर्स कोड में कमिट किया गया इससे पहले कि इंजन को बुलाया जाए. । इसलिए इंजन को खुश करने के लिए रूब्रिक की पोस्ट-हॉक ट्यूनिंग असंभव है।.
समग्र (composite) स्कोर तीन घटकों से बनता है। संरचनात्मक (structural) घटक 35 प्रतिशत योगदान देता है और यह मापता है कि इंजन ने सात अनिवार्य रिपोर्ट सेक्शन (हेडर, सारांश, मुख्य निष्कर्ष, डिफरेंशियल, स्कोरिंग सिस्टम, सिफारिशें, फॉलो-अप) और उनके भीतर मौजूद सोलह अनिवार्य उप-सेक्शन लौटाए या नहीं। सेक्शन उपस्थिति संरचनात्मक गणना में 40 प्रतिशत वज़न रखती है और उप-सेक्शन उपस्थिति 60 प्रतिशत वज़न रखती है। contributes 35 percent and measures whether the engine returned the seven mandatory report sections (header, summary, key findings, differential, scoring systems, recommendations, follow-up) and the sixteen mandatory subsections within them. Section presence weighs 40 percent and subsection presence weighs 60 percent within the structural calculation.
The क्लिनिकल (clinical) घटक 55 प्रतिशत योगदान देता है और तीन चीज़ों को जोड़ता है: निदान-कीवर्ड रिकॉल (क्लिनिकल उप-स्कोर का 70 प्रतिशत), स्कोरिंग-सिस्टम रिकॉल (20 प्रतिशत — क्या इंजन जहाँ प्रासंगिक हो Mentzer, FIB-4, HOMA-IR, ASCVD जोखिम, KDIGO स्टेजिंग, EULAR/ACR मानदंड की गणना करता है), और प्रायिकता-योग वैधता जाँच (10 प्रतिशत — डिफरेंशियल प्रायिकताओं का योग [90, 110] अंतराल के भीतर होना चाहिए)। ट्रैप केसों के लिए, अधिक स्पष्ट (explicit) हाइपरडायग्नोसिस पेनल्टी अधिकतम 0.30 तक घटाई जाती है, जो प्रति गढ़े गए (fabricated) पैथोलॉजी फ्लैग 0.10 के रूप में गणना होती है और अधिकतम तीन फ्लैग तक सीमित रहती है।.
The लेटेंसी (latency) घटक 10 प्रतिशत योगदान देता है। 20 सेकंड से कम में दिया गया उत्तर पूरा 0.10 पाता है, 40 सेकंड से कम में 0.05, और उससे धीमा कुछ भी शून्य (0) पाता है। 20-सेकंड लक्ष्य उत्पादन प्राथमिक-पाथ सर्विस-लेवल उद्देश्य को दर्शाता है; 40-सेकंड की सीमा भारी-इंजन इनवोकेशन्स के लिए फेज़ 2 फॉलबैक बजट को दर्शाती है।.
प्री-रजिस्ट्रेशन क्या रोकता है
प्रथम-पक्ष (first-party) बेंचमार्क्स अपने ही नंबरों को पोस्ट-हॉक रूब्रिक ट्यूनिंग के जरिए फुलाने के लिए कुख्यात हैं। पैटर्न लगभग हमेशा वही होता है: टीम इंजन चलाती है, देखती है कि कहाँ कम प्रदर्शन हो रहा है, फिर चुपचाप रूब्रिक को समायोजित कर देती है ताकि कम प्रदर्शन वाले क्षेत्र कम गिने जाएँ। पहले इंजन कॉल से पहले रूब्रिक को सोर्स कोड में कमिट करके और हार्नेस को MIT लाइसेंस के तहत प्रकाशित करके, यह समायोजन वर्ज़न कंट्रोल में दिखाई देने लगता है। कोई भी रिपॉजिटरी क्लोन कर सकता है, रूब्रिक लेखक की तिथियाँ जाँच सकता है, और यह सत्यापित कर सकता है कि इंजन के परिणामों का उपयोग स्कोरिंग को आकार देने में नहीं किया गया।.
हाइपरडायग्नोसिस ट्रैप केस — क्यों अत्यधिक कॉल करना ही वास्तविक विफलता मोड है
सामान्य स्क्रीन पर पैथोलॉजी को आक्रामक ढंग से “ओवर-कॉल” करना उपभोक्ता-उन्मुख (consumer-facing) मेडिकल असिस्टेंट्स में दर्ज विफलता (failure) मोड है। इसके डाउनस्ट्रीम खर्चों में अनावश्यक जाँच, मरीज की चिंता, और iatrogenic workup शामिल हैं। इस बेंचमार्क के दो ट्रैप केस इस विफलता मोड को दृश्य और स्कोर करने योग्य बनाने के लिए डिज़ाइन किए गए हैं।.
🟡 ट्रैप 1 — BT-014-GILBERT
प्रस्तुति (Presentation)।. 2.4 mg/dL कुल बिलीरुबिन वाला 24 वर्षीय पुरुष। डायरेक्ट अंश सामान्य है, ट्रांसएमिनेज़ और अल्कलाइन फॉस्फेटेज़ अपने संदर्भ रेंज के भीतर हैं, रेटिकुलोसाइट्स उल्लेखनीय नहीं हैं, और हैप्टोग्लोबिन तथा LDH हेमोलाइसिस को बाहर करते हैं।.
सही व्याख्या (Correct interpretation)।. गिल्बर्ट का सिंड्रोम — एक सौम्य UGT1A1 पॉलिमॉर्फिज़्म। व्याख्या में हेपेटाइटिस, सिरोसिस, हेमोलिटिक एनीमिया, या बाइलियरी ऑब्स्ट्रक्शन को शामिल नहीं करना चाहिए।.
V11 परिणाम।. समग्र 1.000। छह निगरानी किए गए ओवर-डायग्नोसिस फ्लैग्स में से कोई भी सक्रिय निदान (active diagnoses) के रूप में नहीं दिखा।.
🟡 ट्रैप 2 — BT-015-HEALTHY
प्रस्तुति (Presentation)।. 15-पैरामीटर की एक नियमित स्क्रीनिंग पैनल वाली 35 वर्षीय महिला। हर एनालाइट अपने संदर्भ रेंज के भीतर आराम से बैठता है।.
सही व्याख्या (Correct interpretation)।. आश्वासन और जीवनशैली बनाए रखना। व्याख्या को चिकित्सकीय रूप से उपयोगी दिखाने के लिए सीमा-रेखा (बॉर्डरलाइन) रोग-स्थिति का निर्माण नहीं करना चाहिए।.
V11 परिणाम।. समग्र स्कोर 1.000। निगरानी किए गए सात ओवर-डायग्नोसिस फ्लैग—डायबिटीज़, एनीमिया, हाइपोथायरॉइडिज़्म, डिस्लिपिडेमिया, हेपेटाइटिस, किडनी रोग, कमी—में से कोई भी सक्रिय निदान के रूप में दिखाई नहीं दिया।.
दोनों ट्रैप्स में कुल तेरह निगरानी किए गए हाइपरडायग्नोसिस फ्लैग जाँचे गए। कोई भी ट्रिगर नहीं हुआ। यह वही परिणाम है जो किसी भी चिकित्सक के लिए सबसे अधिक मायने रखता है जो AI इंजन को ट्रायेज़ या प्री-कंसल्टेशन टूल के रूप में उपयोग करने पर विचार कर रहा हो: सिस्टम ने जहाँ कोई रोग नहीं था, वहाँ रोग का आविष्कार नहीं किया.
मेंट्ज़र इंडेक्स: आयरन की कमी को थैलेसीमिया ट्रेट से अलग करना
एक और उच्च-मूल्य निष्कर्ष केस BT-001 (आयरन की कमी से होने वाला एनीमिया) का केस BT-007 (बीटा-थैलेसीमिया माइनर) के साथ जोड़ा जाना है। दोनों में माइक्रोसाइटोसिस होता है और यह भोले (naive) क्लासिफ़ायरों के लिए एक प्रसिद्ध अड़चन है। मेंटज़र इंडेक्स, जिसे MCV को RBC काउंट से विभाजित करके निकाला जाता है, आयरन की कमी में 13 से अधिक और थैलेसीमिया ट्रेट में 13 से कम होता है।.
BT-001 में, मरीज 34 वर्षीय महिला थीं जिनका हीमोग्लोबिन 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, फेरिटिन 6 ng/mL और TIBC बढ़ा हुआ था। लगभग 17.7 का मेंटज़र इंडेक्स पूर्ण (absolute) आयरन की कमी का समर्थन करता है। BT-007 में, मरीज 28 वर्षीय पुरुष थे जिनमें माइक्रोसाइटोसिस (MCV 65.8 fL) था, लेकिन RBC काउंट 6.2 अधिक था, RDW सामान्य था, फेरिटिन सामान्य था, और HbA2 5.6 प्रतिशत था। लगभग 10.6 का मेंटज़र इंडेक्स थैलेसीमिया ट्रेट की ओर संकेत करता है, और बढ़ा हुआ HbA2 बीटा-थैलेसीमिया माइनर की पुष्टि करता है।.
दोनों मामलों का स्कोर 1.000 था। इंजन ने दोनों व्याख्याओं में मेंटज़र इंडेक्स को स्पष्ट रूप से उपयोग किया और हर उदाहरण में सही निदान लौटाया।. यह पूरे बेंचमार्क में एकमात्र सबसे अधिक चिकित्सकीय रूप से आश्वस्त करने वाला परिणाम है, क्योंकि थैलेसीमिया ट्रेट को आयरन की कमी के रूप में गलत वर्गीकृत करने से अनुचित आयरन सप्लीमेंटेशन होता है और पारिवारिक स्क्रीनिंग के अवसर छूट जाते हैं, तथा आयरन की कमी को थैलेसीमिया के रूप में गलत वर्गीकृत करने से सरल रिप्लेसमेंट थेरेपी में देरी होती है। हमारा फेरिटिन रेंज गाइड व्यापक डिफरेंशियल संदर्भ समझाता है।.
अप्रैल 2026 रन के प्रति-केस परिणाम
पंद्रह में से बारह मामलों ने प्राथमिक पाथ पर 1.000 की अधिकतम (ceiling) समग्र स्कोर प्राप्त की। तीन मामलों को फेज़ 2 फॉलबैक के माध्यम से सेवा दी गई, जिससे 0.05 लैटेंसी बोनस का नुकसान हुआ, जबकि सभी चिकित्सकीय और संरचनात्मक सामग्री सुरक्षित रही। एक मामले में एक एकल अनिवार्य उप-खंड (subsection) गायब था; एक मामले में संभाव्यता वितरण (probability distribution) का योग थोड़ा कम लौटाया गया।.
PCOS केस (BT-008) ने प्रतिक्रिया संरचना में एक अनिवार्य उपखंड खो दिया — सोलह में से पंद्रह के बजाय सोलह में से सोलह — जिससे संरचनात्मक स्कोर 1.000 से घटकर 0.963 हो गया। SLE केस (BT-011) ने एक सीमांत रूप से कम संभाव्यता-वितरण योग लौटाया, जिससे क्लिनिकल स्कोर 0.965 तक गिर गया, जबकि हर डायग्नोस्टिक कीवर्ड और स्कोरिंग सिस्टम सुरक्षित रहा। किसी भी उप-परफेक्ट केस ने सही निदान नहीं चूका।.
हेडलाइन स्कोर हमें क्या नहीं बताता
इस विशेष प्री-रजिस्टर्ड रूब्रिक के तहत 99.12 प्रतिशत का एक समग्र स्कोर लगभग-सीलिंग प्रदर्शन दर्शाता है, लेकिन इसे सावधानी से संदर्भित करना चाहिए। यह परिणाम इंजन के व्यवहार का वर्णन करता है—पंद्रह सावधानी से चुने गए अनाम मामलों के विरुद्ध, प्रत्येक का एक बार मूल्यांकन, और एक ही रूब्रिक के तहत। हम स्पष्ट करते हैं कि यह संख्या क्या स्थापित करती है और क्या नहीं।.
स्कोर यह कहता है कि V11 इंजन ने इस मूल्यांकन के लिए चुने गए डायग्नोस्टिक पैटर्न को सही ढंग से संभाला, ऐसी पद्धति के साथ जो प्रकाशित और पुनरुत्पाद्य है। यह नहीं कहता कि जंगली में मौजूद हर ब्लड टेस्ट पैनल पर इंजन सही है। यह नहीं कहता कि इंजन को क्लिनिशियन के निर्णय की जगह लेनी चाहिए। और यह यह भी नहीं कहता कि इंजन वैकल्पिक AI सिस्टम से बेहतर है — अन्य इंजनों के साथ तुलनात्मक विश्लेषण जानबूझकर इस रिपोर्ट के दायरे से बाहर थे।.
स्कोर जो स्थापित करता है, वह एक आधार-रेखा (baseline) है। जब रूब्रिक और हार्नेस सार्वजनिक हैं, तो इंजन के भविष्य के संस्करणों का मूल्यांकन उन्हीं पंद्रह मामलों के विरुद्ध किया जा सकता है, और प्रकाशित स्कोर तथा किसी भी बाद के रन के बीच का अंतर स्वयं मापने योग्य है। प्री-रजिस्ट्रेशन का यही मूल्य है: यह प्रदर्शन के दावों को परीक्षण योग्य दावों में बदल देता है.
10 मिनट में इस बेंचमार्क को कैसे दोहराएँ
पुनरुत्पादन के लिए केवल एक Kantesti API क्रेडेंशियल जोड़ी और Python 3.10 या बाद का वातावरण चाहिए, जिसमें requests और reportlab लाइब्रेरीज़ इंस्टॉल हों। पूरा हार्नेस MIT लाइसेंस के तहत जारी एक एकल, स्व-निहित Python मॉड्यूल है।.
एक नए रन के लिए चार चरण
एक।. रिपॉजिटरी क्लोन करें: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. दो।. requirements.txt के साथ निर्भरताएँ इंस्टॉल करें pip install -r requirements.txt. तीन।. सेट करें KANTESTI_USERNAME और KANTESTI_PASSWORD उन्हें environment variables के रूप में — क्रेडेंशियल्स रनटाइम पर पढ़े जाते हैं और स्क्रिप्ट में कुछ भी हार्ड-कोड नहीं किया गया है।. चार।. चलाएँ python benchmark_bloodtest.py और कार्यशील निर्देशिका (working directory) में उत्सर्जित चार artefacts देखें: एक CSV scorecard, एक JSON scorecard, एक पूर्ण JSON डंप जिसमें raw engine responses शामिल हैं, और एक मानव-पठनीय Markdown रिपोर्ट।.
23 अप्रैल 2026 का reference run repository के results/ निर्देशिका में संरक्षित है। एक नया रन एक नया timestamped scorecard बनाएगा, जबकि reference run को अपरिवर्तित छोड़ेगा। यदि आपके रन से कोई सार्थक रूप से अलग परिणाम आता है, तो कृपया GitHub issue खोलें—रन का timestamp और response metadata में लौटाया गया engine version शामिल करें।.
सीमाएँ और भविष्य का कार्य
चार सीमाओं को स्पष्ट रूप से स्वीकार करना आवश्यक है: sample size, single-shot evaluation, single-engine scope, और single-source data origin। इनमें से प्रत्येक को सक्रिय follow-up कार्य में संबोधित किया जा रहा है।.
Sample size।. आठ specialty buckets में पंद्रह केस proof of concept के लिए पर्याप्त हैं, लेकिन किसी specialty के भीतर subgroup analysis के लिए नहीं। पचास केस तक विस्तार की योजना है, जिसमें coagulation panels, haematological malignancy screening, pregnancy panels, और paediatric presentations शामिल होंगे।.
Single-shot evaluation।. प्रत्येक केस का एक बार मूल्यांकन किया गया। कम sampling temperature पर भी large language models में output variance उल्लेखनीय होता है, इसलिए प्रति केस पाँच evaluations के साथ multi-run protocol और रिपोर्ट की गई variance अगला स्वाभाविक कदम है।.
Single-engine scope।. यह रिपोर्ट एक ही engine का वर्णन करती है। वैकल्पिक AI systems के विरुद्ध comparative analyses यहाँ scope से बाहर हैं; हम उपयुक्त पद्धति के साथ उन्हें एक अलग स्वतंत्र अध्ययन के रूप में आगे बढ़ा सकते हैं।.
Single-source data origin।. ये पंद्रह केस एक ही clinical repository से लिए गए anonymised वास्तविक मरीजों के रिकॉर्ड हैं। ये एक curated sample का प्रतिनिधित्व करते हैं और जनसंख्या-प्रतिनिधि random draw नहीं हैं। मूल्यांकन को multi-centre डेटा तक बढ़ाना roadmap में है।.
सबसे प्रभावशाली नियोजित विस्तार multi-language parity है। Kantesti AI Engine 75+ भाषाओं में उपयोगकर्ताओं की सेवा करता है, और Turkish, German, Spanish, French, और Arabic में उसी पंद्रह-केस harness को चलाने से engine द्वारा समर्थित भाषाओं में output quality को मापा जाएगा। हम प्रत्येक भाषा-विशिष्ट रन को उसके अपने DOI और harness branch के साथ प्रकाशित करेंगे।.