हा बेंचमार्क का अस्तित्वात आहे आणि तो काय तपासतो
AI-सहाय्यित रक्त तपासणी अहवाल समजून घ्या हे ग्राहक आणि क्लिनिकल वर्कफ्लोमध्ये वाढत्या प्रमाणात वापरले जात आहे; तरीही प्रयोगशाळा वैद्यकासाठी अनुरूप, पुनरुत्पादनीय मूल्यांकन फ्रेमवर्क्स दुर्मिळच आहेत. या संदर्भात सर्वात महत्त्वाचे प्रश्न हे सामान्य वैद्यकीय प्रश्न-उत्तर बेंचमार्कमध्ये समाविष्ट असलेले नसतात: जेव्हा मीन कॉर्पस्क्युलर व्हॉल्यूम (MCV) एकसारखे असते, तेव्हा एखादे इंजिन लोह कमतरता थॅलेसेमिया ट्रेटपासून वेगळे करू शकते का; गिल्बर्ट्स सिंड्रोमला हेपेटायटिस म्हणून चुकीचे निदान करते का; आणि पूर्णपणे सामान्य स्क्रीनिंग पॅनेलमध्ये पॅथॉलॉजी तयार करते का?
एकच रक्त तपासणी पॅनेलमध्ये साधारणपणे अनेक स्पर्धात्मक अर्थ लावण्यासाठी पुरेसा संकेत असतो, आणि अर्थ लावणाऱ्या चिकित्सकाची जबाबदारी म्हणजे त्या अर्थ लावण्यांना एकमेकांच्या तुलनेत तोलून पाहणे—म्हणजे पाठ्यपुस्तकातील एकच उत्तर शोधून काढणे नव्हे. पाठ्यपुस्तकी प्रकरणांवर चांगले काम करणारे इंजिनही महत्त्वाच्या प्रकरणांमध्ये अपयशी ठरू शकते: विभेदक-निदानातील सापळे, एकट्याने पाहता धोकादायक वाटणारे निरुपद्रवी प्रकार, आणि पूर्णपणे सामान्य पॅनेल्स जी आत्मविश्वासू सहाय्यकांना रोगनिर्मिती (pathology) तयार करण्यास प्रवृत्त करतात.
हा बेंचमार्क नेमक्या या अपयशाच्या पद्धतींवर आधारित तयार करण्यात आला. पंधरा पैकी प्रत्येक प्रकरण विशिष्ट निदानात्मक गुणधर्मासाठी निवडले गेले: लोह-अभावामुळे होणारी मायक्रोसाइटोसिस जी समान mean corpuscular volume असलेल्या beta-thalassaemia trait पासून वेगळी ठेवणे आवश्यक आहे; Gilbert's syndrome चे सादरीकरण जिथे एकमेव असामान्यता म्हणजे isolated indirect hyperbilirubinaemia; आणि पंधरा-पॅरामीटर स्क्रीनिंग पॅनेल ज्यात प्रत्येक analyte त्याच्या संदर्भ श्रेणीतच आहे. हा निकष अशा इंजिनांना बक्षीस देतो जे प्रत्येक प्रकरण त्याच्या स्वतःच्या संदर्भात वाचतात, आणि अशा इंजिनांना दंड देतो जे ज्या ठिकाणी अशी निदानात्मक गरज नाही तिथे आत्मविश्वासाने निदानाकडे धाव घेतात.
MD थॉमस क्लाइन म्हणून, मी हे केस पॅनेल निवडले कारण प्रयोगशाळा-वैद्यक सहाय्यकांकडून मला सर्वाधिक वेळा चुकीचे समजले जाणारे हेच नमुने आहेत. महागडे अपयशाचे स्वरूप म्हणजे "दुर्मिळ आजार चुकणे" नव्हे—तर ज्यांना तो आजार नाही अशा रुग्णांमध्ये नियमित (routine) रोगनिर्मिती तयार करणे. आमचे वैद्यकीय प्रमाणीकरण hub व्यापक चौकट वर्णन करते; या पानावर V11 इंजिनवरील त्याचा लागू केलेला परिणाम वर्णन केला आहे.
नवीनतम संदर्भ रन — V11 (एप्रिल 2026)
Kantesti AI Engine V11 ची एप्रिल 2026 मधील संदर्भ रन (reference run) ने 99.12% पूर्व-नोंदवलेल्या पंधरा-केस निकषावर (rubric) एकत्रित (composite) गुण मिळवले. दोन्ही hyperdiagnosis trap प्रकरणांचे गुण कमाल मर्यादेला पोहोचले. iron-deficiency विरुद्ध thalassaemia या विभेदक निदानात Mentzer index योग्यरीत्या लागू करण्यात आला.
एकत्रित सूत्र (composite formula) तीन घटक एकत्र करते: संरचनात्मक अनुरूपता (structural conformance) सात अनिवार्य अहवाल विभाग आणि सोळा अनिवार्य उपविभागांसह, नैदानिक अचूकता (clinical accuracy) कीवर्ड recall + scoring-system recall + संभाव्यता-वितरण वैधता तपासणी (probability-distribution validity check) म्हणून मोजलेले, आणि प्रतिसाद विलंब (response latency) 20-सेकंदांच्या प्राथमिक सेवा-स्तर लक्ष्याविरुद्ध. अचूक विघटन (decomposition) खालील rubric सूत्रात दाखवले आहे.
हेडरूमचे उरलेले 0.88 टक्के गुण जवळजवळ पूर्णपणे लेटन्सी लॉसमध्ये विघटित होतात — प्रत्येकी -0.05 इतका कंपोझिट असलेल्या तीन फेज 2 फॉलबॅक इनव्होकेशन्सपैकी प्रत्येकाने 0.88-पॉइंटच्या तुटीपैकी सुमारे 0.60 योगदान दिले — क्लिनिकल कंटेंटमध्ये नाही. इंजिनने पंधरा प्रकरणांपैकी कोणत्याही प्रकरणात योग्य निदान चुकवले नाही; जिथे ते कमी पडले, तिथे ते थोड्या अल्पसंख्य इनव्होकेशन्समध्ये 20-सेकंदांच्या प्राथमिक-पाथ लक्ष्यापेक्षा किंचित जास्त वेळ घेतल्यामुळे कमी पडले.
सात वैद्यकीय विशेषतांमधील पंधरा प्रकरणे
केस पॅनेलमध्ये सात विशेषता आहेत — हेमॅटोलॉजी, एंडोक्रिनोलॉजी, मेटाबॉलिक मेडिसिन, हेपॅटोलॉजी, नेफ्रोलॉजी, कार्डिओलॉजी, र्ह्युमॅटोलॉजी — तसेच दोन समर्पित हायपरडायग्नोसिस ट्रॅप केसेस. प्रत्येक केस ही लिखित सूचित संमतीअंतर्गत Kantesti क्लिनिकल डेटा रिपॉझिटरीमधून घेतलेली एक अनामिकृत वास्तविक रुग्ण नोंद आहे.
डी-आयडेंटिफिकेशन Safe Harbor पद्धतीने करण्यात आले: सर्व थेट ओळख पटवणारे घटक काढून टाकले किंवा बदलले, आणि प्रत्येक नोंदीला BT-NNN-LABEL या स्वरूपात एक बेंचमार्क-आंतरिक केस कोड देण्यात आला. प्रक्रिया यानुसार करण्यात आली GDPR अनुच्छेद 9(2)(j) योग्य संरक्षण उपायांसह वैज्ञानिक संशोधनासाठी, तसेच समतुल्य UK GDPR तरतुदींनुसार. प्रकाशित हार्नेस, तांत्रिक अहवाल किंवा जारी केलेल्या डेटासेट्समध्ये कुठेही वैयक्तिक ओळख पटवणारी माहिती दिसत नाही.
ही विशिष्ट विभागणी का
हेमॅटोलॉजीला तीन केसेस मिळतात कारण मायक्रोसाइटिक डिफरेंशियल्स आणि मॅक्रोसाइटिक डिफरेंशियल्स हे वास्तविक-जगातील प्रयोगशाळा पद्धतीत सर्वाधिक-प्रमाणातील सापळे (ट्रॅप्स) आहेत. एंडोक्रिनोलॉजीला तीन केसेस मिळतात कारण हॅशिमोटोचे, PCOS, आणि व्हिटॅमिन डी ची कमतरता यांची सादरीकरणे वेगवेगळ्या निदान-आकारांचा सराव करतात (ऑटोअँटिबॉडी-चालित, हार्मोन-नातेसंबंध-चालित, एकल-मार्कर-चालित). एकल-केस स्पेशॅलिटीज तरीही अर्थपूर्ण आहेत कारण CKD, ASCVD जोखीम, आणि SLE या तिन्हींची स्वतःची स्कोअरिंग प्रणाली आहे जी इंजिनने बोलवावी (अनुक्रमे KDIGO स्टेजिंग, ASCVD 10-वर्ष जोखीम, 2019 EULAR/ACR SLE निकष).
पूर्व-नोंदणीकृत रुब्रिक, समजावून सांगितलेले
प्री-रजिस्ट्रेशन हा या बेंचमार्कमधील एकमेव सर्वात महत्त्वाचा पद्धतशास्त्रीय निर्णय आहे. अपेक्षित प्रत्येक निदान, प्रत्येक क्लिनिकल स्कोअरिंग प्रणाली, आणि प्रत्येक अहवाल विभाग स्रोत कोडमध्ये कमिट करण्यात आले इंजिन बोलावण्यापूर्वी. त्यामुळे इंजिनला खुश करण्यासाठी रुब्रिकचे पोस्ट-हॉक ट्यूनिंग करणे शक्य नाही.
एकत्रित (कॉम्पोझिट) स्कोअर बनवण्यासाठी तीन घटक आहेत. संरचनात्मक (स्ट्रक्चरल) घटक 35 टक्के योगदान देतो आणि इंजिनने सात अनिवार्य अहवाल विभाग (हेडर, सारांश, मुख्य निष्कर्ष, डिफरेंशियल, स्कोअरिंग प्रणाली, शिफारसी, फॉलो-अप) तसेच त्यांतील सोळा अनिवार्य उपविभाग परत केले का हे मोजतो. संरचनात्मक गणनेत विभाग उपस्थितीला 40 टक्के वजन आणि उपविभाग उपस्थितीला 60 टक्के वजन आहे.
द क्लिनिकल घटक 55 टक्के योगदान देतो आणि तीन गोष्टी एकत्र करतो: निदान-कीवर्ड रिकॉल (क्लिनिकल उप-स्कोअरचे 70 टक्के), स्कोअरिंग-सिस्टम रिकॉल (20 टक्के — इंजिन संबंधित असल्यास Mentzer, FIB-4, HOMA-IR, ASCVD जोखीम, KDIGO स्टेजिंग, EULAR/ACR निकषांची गणना करते का), आणि संभाव्यता-योग वैधता तपासणी (10 टक्के — डिफरेंशियल संभाव्यता [90, 110] या अंतरात बेरीज करायला हव्यात). सापळा (ट्रॅप) केसेसमध्ये, बनावट पॅथॉलॉजी फ्लॅग प्रति 0.10 इतका स्पष्ट हायपरडायग्नोसिस दंड वजा केला जातो, आणि तो जास्तीत जास्त तीन फ्लॅगपर्यंत मर्यादित असतो.
द लेटन्सी घटक 10 टक्के योगदान देतो. 20 सेकंदांखालील प्रतिसादाला पूर्ण 0.10, 40 सेकंदांखालील प्रतिसादाला 0.05, आणि त्यापेक्षा धीम्या कोणत्याही गोष्टीला शून्य गुण मिळतात. 20-सेकंद लक्ष्य हे उत्पादन प्राथमिक-पाथ सेवा-स्तर उद्दिष्ट प्रतिबिंबित करते; 40-सेकंद कमाल मर्यादा ही जड-इंजिन इनव्होकेशन्ससाठी फेज 2 फॉलबॅक बजेट दर्शवते.
प्री-रजिस्ट्रेशन काय रोखते
फर्स्ट-पार्टी बेंचमार्क्स पोस्ट-हॉक रुब्रिक ट्यूनिंगद्वारे स्वतःचे आकडे फुगवण्याबाबत कुप्रसिद्ध आहेत. हा नमुना जवळजवळ नेहमीच सारखाच असतो: टीम इंजिन चालवते, कुठे कमी पडते ते पाहते, आणि मग शांतपणे रुब्रिक समायोजित करते जेणेकरून कमी पडणाऱ्या क्षेत्रांचे गुण कमी मोजले जातील. पहिल्या इंजिन कॉलपूर्वी रुब्रिकला स्रोत कोडमध्ये कमिट करून आणि MIT परवान्याखाली हार्नेस प्रकाशित करून, हा बदल व्हर्जन कंट्रोलमध्ये दिसू लागतो. कोणीही रेपॉझिटरी क्लोन करू शकते, रुब्रिक लेखकांच्या तारखा तपासू शकते, आणि इंजिनचे निकाल स्कोअरिंग घडवण्यासाठी वापरले गेले नाहीत हे पडताळू शकते.
हायपरडायग्नोसिस ट्रॅप प्रकरणे — अति-आकलन (over-calling) हेच खरे अपयशाचे स्वरूप का आहे
सामान्य स्क्रीनवर पॅथॉलॉजीचा आक्रमक ओव्हर-कॉल करणे हे ग्राहकाभिमुख वैद्यकीय सहाय्यकांमध्ये नोंदवलेले अपयशाचे स्वरूप (फेल्युअर मोड) आहे. त्याचे पुढील खर्च म्हणजे अनावश्यक तपासणी, रुग्णाची चिंता, आणि iatrogenic workup. या बेंचमार्कमधील दोन ट्रॅप केसेस हे अपयशाचे स्वरूप दृश्यमान आणि स्कोअर करण्यायोग्य बनवण्यासाठी डिझाइन केलेल्या आहेत.
🟡 ट्रॅप 1 — BT-014-GILBERT
सादरीकरण. एक 24-वर्षीय पुरुष ज्याच्या एकूण बिलिरुबिनचे प्रमाण 2.4 mg/dL आहे. डायरेक्ट फ्रॅक्शन सामान्य आहे, ट्रान्सअमिनेजेस आणि अल्कलाइन फॉस्फेटेस त्यांच्या संदर्भ श्रेणीमध्ये आहेत, रेटिक्युलोसाइट्स उल्लेखनीय नाहीत, आणि हॅप्टोग्लोबिन व LDH हेमोलिसिसला नाकारतात.
योग्य अर्थ लावणे. गिल्बर्टचा सिंड्रोम — एक सौम्य UGT1A1 पॉलिमॉर्फिझम. या अर्थ लावण्यात हेपेटायटिस, सिरोसिस, हेमोलिटिक अॅनिमिया, किंवा बायलीरी ऑब्स्ट्रक्शनचा उल्लेख नसावा.
V11 निकाल. कॉम्पोझिट 1.000. सहा निरीक्षण केलेल्या ओव्हर-डायग्नोसिस फ्लॅगपैकी कोणताही सक्रिय निदान म्हणून दिसला नाही.
🟡 ट्रॅप 2 — BT-015-HEALTHY
सादरीकरण. 15-पॅरामीटरची नियमित स्क्रीनिंग पॅनल असलेली 35-वर्षीय महिला. प्रत्येक अॅनालाइट त्याच्या संदर्भ श्रेणीमध्ये अगदी आरामात बसतो.
योग्य अर्थ लावणे. आश्वासन आणि जीवनशैली देखभाल. ही व्याख्या क्लिनिकली उपयुक्त वाटण्यासाठी सीमारेषेवरील (borderline) आजारपण कृत्रिमरीत्या तयार करू नये.
V11 निकाल. संमिश्र 1.000. सातही निरीक्षण केलेल्या अति-निदान (over-diagnosis) चेतावणींपैकी—मधुमेह, रक्ताल्पता (anaemia), हायपोथायरॉईडिझम, डिस्लिपिडेमिया, हेपेटायटिस, मूत्रपिंडाचा आजार, कमतरता—यापैकी कोणतीही सक्रिय निदान म्हणून दिसली नाहीत.
दोन्ही ट्रॅप्समध्ये एकूण तेरा निरीक्षण केलेल्या अति-निदान (hyperdiagnosis) चेतावण्या तपासल्या. त्यापैकी शून्य ट्रिगर झाल्या. कोणत्याही चिकित्सकासाठी AI इंजिनचा ट्रायेज किंवा प्री-कन्सल्टेशन साधन म्हणून वापर करण्याचा विचार करताना हीच सर्वात महत्त्वाची बाब आहे: प्रणालीने जिथे आजार नव्हता तिथे आजार निर्माण केला नाही.
मेंट्झर निर्देशांक: लोह कमतरता थॅलेसेमिया गुणधर्मापासून वेगळे करणे
दुसरे उच्च-मूल्य निष्कर्ष म्हणजे केस BT-001 (लोह कमतरतेमुळे होणारी रक्ताल्पता) आणि केस BT-007 (बीटा-थॅलेसेमिया मायनर) यांची जोडी. दोन्हीमध्ये मायक्रोसाइटोसिस दिसते आणि नवशिक्या वर्गीकरणकर्त्यांसाठी हा एक सुप्रसिद्ध अडथळा आहे. मेंट्झर निर्देशांक, जो MCV ला RBC मोजणीने भागून काढला जातो, लोह कमतरतेत 13 पेक्षा जास्त आणि थॅलेसेमिया ट्रेटमध्ये 13 पेक्षा कमी येतो.
BT-001 मध्ये, रुग्ण 34 वर्षांची महिला होती; हिमोग्लोबिन 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, फेरिटिन 6 ng/mL, आणि TIBC वाढलेले होते. सुमारे 17.7 असलेला मेंट्झर निर्देशांक पूर्ण (absolute) लोह कमतरतेला पाठिंबा देतो. BT-007 मध्ये, रुग्ण 28 वर्षांचा पुरुष होता; मायक्रोसाइटोसिस (MCV 65.8 fL) होते, पण RBC मोजणी 6.2 इतकी जास्त, RDW सामान्य, फेरिटिन सामान्य, आणि HbA2 5.6 टक्के होते. सुमारे 10.6 असलेला मेंट्झर निर्देशांक थॅलेसेमिया ट्रेटकडे निर्देश करतो, आणि वाढलेला HbA2 बीटा-थॅलेसेमिया मायनरची पुष्टी करतो.
दोन्ही प्रकरणांचे गुण 1.000 होते. इंजिनने दोन्ही व्याख्यांमध्ये मेंट्झर निर्देशांक स्पष्टपणे वापरला आणि प्रत्येक वेळी योग्य निदान परत केले. संपूर्ण बेंचमार्कमधील हे एकमेव सर्वात क्लिनिकली आश्वासक (reassuring) निष्कर्ष आहे, कारण थॅलेसेमिया ट्रेटला लोह कमतरता म्हणून चुकीचे वर्गीकरण केल्यास अयोग्य लोहपूरक (iron supplementation) दिले जाते आणि कौटुंबिक स्क्रीनिंगच्या संधी चुकतात; आणि लोह कमतरतेला थॅलेसेमिया म्हणून चुकीचे वर्गीकरण केल्यास सरळ बदल-उपचार (replacement therapy) उशीर होतो. आमचे फेरीटिन श्रेणी मार्गदर्शक व्यापक विभेदक (differential) संदर्भ स्पष्ट करते.
एप्रिल 2026 रनमधील प्रति-केस निकाल
पंधरा पैकी बारा प्रकरणांनी प्राथमिक पाथवर 1.000 हा कमाल (ceiling) संमिश्र गुण मिळवला. तीन प्रकरणे Phase 2 fallback द्वारे हाताळली गेली; त्यामुळे 0.05 लेटन्सी बोनस गमावला गेला, तरीही सर्व क्लिनिकल आणि संरचनात्मक (structural) सामग्री जपली गेली. एका प्रकरणात एकच अनिवार्य उपविभाग (mandatory subsection) गायब होता; आणि एका प्रकरणात संभाव्यतेच्या (probability) वितरणाची बेरीज किंचित कमी परत आली.
PCOS प्रकरण (BT-008) ने प्रतिसाद संरचनेतील एक अनिवार्य उपविभाग गमावला — सोळा पैकी पंधरा ऐवजी सोळा पैकी सोळा — त्यामुळे संरचनात्मक गुण 1.000 वरून 0.963 वर आला. SLE प्रकरण (BT-011) ने किंचित कमी झालेल्या संभाव्यता-वितरणाच्या बेरीजेसह परतावा दिला, ज्यामुळे निदान गुण 0.965 वर घसरला; मात्र प्रत्येक निदान कीवर्ड आणि स्कोरिंग प्रणाली जशीच्या तशी जपली. कोणत्याही उप-परिपूर्ण प्रकरणात योग्य निदान चुकले नाही.
हेडलाइन स्कोअर आपल्याला काय सांगत नाही
या विशिष्ट पूर्व-नोंदणीकृत (pre-registered) निकषांनुसार 99.12 टक्क्यांचा संयुक्त गुण म्हणजे जवळपास कमाल-स्तरीय कामगिरी, पण त्यासाठी काळजीपूर्वक संदर्भ देणे आवश्यक आहे. हा निकाल इंजिनच्या वर्तनाचे वर्णन करतो—पंधरा काळजीपूर्वक निवडलेल्या अनामिक प्रकरणांविरुद्ध, प्रत्येकाचे एकदाच मूल्यमापन करून, एका एकमेव निकषाच्या चौकटीत. आम्ही स्पष्ट करतो की हा आकडा काय सिद्ध करतो आणि काय करत नाही.
हा गुण सांगतो की V11 इंजिनने या मूल्यमापनासाठी निवडलेल्या निदान नमुन्यांना योग्यरीत्या हाताळले, अशी पद्धतशास्त्र (methodology) प्रकाशित आणि पुनरुत्पादनीय आहे. याचा अर्थ असा नाही की जंगलात अस्तित्वात असलेल्या प्रत्येक रक्त तपासणी पॅनेलवर इंजिन बरोबर आहे. याचा अर्थ इंजिनने चिकित्सकांच्या निर्णयाची जागा घ्यावी असा नाही. आणि याचा अर्थ इंजिन इतर पर्यायी AI प्रणालींपेक्षा चांगले आहे असेही नाही—इतर इंजिन्सविरुद्ध तुलना-आधारित विश्लेषणे या अहवालाच्या व्याप्तीबाहेर (deliberately out of scope) ठेवण्यात आली होती.
गुण काय सिद्ध करतो ते म्हणजे एक आधाररेषा (baseline). निकष (rubric) आणि हॅर्नेस (harness) सार्वजनिक असल्याने, इंजिनच्या भविष्यातील आवृत्त्यांचे मूल्यमापन त्याच पंधरा प्रकरणांविरुद्ध करता येईल, आणि प्रकाशित गुण व त्यानंतरच्या कोणत्याही रनमधील अंतर हे स्वतः मोजता येईल. पूर्व-नोंदणीचे हेच मूल्य आहे: ती कामगिरीच्या दाव्यांना तपासता येणाऱ्या दाव्यांमध्ये रूपांतरित करते.
10 मिनिटांत हा बेंचमार्क कसा पुन्हा तयार करायचा
पुनरुत्पादनासाठी फक्त Kantesti API क्रेडेन्शियल जोडी आणि Python 3.10 किंवा त्यापुढील आवृत्तीचे वातावरण आवश्यक आहे, ज्यामध्ये requests आणि reportlab लायब्ररी स्थापित असतात. संपूर्ण हॅर्नेस हा MIT परवान्याखाली प्रसिद्ध केलेला एकच, स्वयंपूर्ण (self-contained) Python मॉड्यूल आहे.
ताज्या रनसाठी चार पावले
एक. रेपॉझिटरी क्लोन करा: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. दोन. requirements.txt सह अवलंबन (dependencies) इन्स्टॉल करा pip install -r requirements.txt. तीन. सेट करा KANTESTI_USERNAME आणि KANTESTI_PASSWORD पर्यावरण चल (environment variables) म्हणून — क्रेडेन्शियल्स रनटाइमला वाचली जातात आणि स्क्रिप्टमध्ये काहीही हार्ड-कोड केलेले नाही. चार. चालवा python benchmark_bloodtest.py आणि कार्यरत निर्देशिकेत (working directory) उत्सर्जित (emit) झालेल्या चार artefacts तपासा: एक CSV scorecard, एक JSON scorecard, कच्च्या इंजिन प्रतिसादांसह पूर्ण JSON dump, आणि मानवाला वाचता येईल असा Markdown अहवाल.
23 एप्रिल 2026 मधील संदर्भ (reference) रन जतन केलेला आहे results/ रेपॉझिटरीच्या निर्देशिकेत (directory). नवीन रन नवीन टाइमस्टॅम्प असलेला scorecard तयार करेल, तर संदर्भ रन अपरिवर्तित ठेवेल. तुमच्या रनमधून अर्थपूर्णरीत्या वेगळा निकाल आला तर कृपया रनचा टाइमस्टॅम्प आणि प्रतिसाद मेटाडेटामध्ये परत आलेली इंजिन आवृत्ती (engine version) यांसह GitHub issue उघडा.
मर्यादा आणि भविष्यातील काम
चार मर्यादांना स्पष्टपणे मान्यता देणे आवश्यक आहे: नमुना आकार (sample size), एकदाच केलेले मूल्यमापन (single-shot evaluation), एकाच इंजिनचा व्याप्ती (single-engine scope), आणि एकाच स्रोताकडून आलेला डेटा (single-source data origin). यापैकी प्रत्येकावर सक्रिय फॉलो-अप काम सुरू आहे.
नमुना आकार. आठ विशेषता (specialty) बकेट्समधील पंधरा प्रकरणे (cases) प्रूफ ऑफ कॉन्सेप्टसाठी पुरेशी आहेत, पण एखाद्या विशेषतेतील उपगट (subgroup) विश्लेषणासाठी पुरेशी नाहीत. पन्नास प्रकरणांपर्यंत विस्तार नियोजित आहे आणि त्यात coagulation panels, haematological malignancy screening, pregnancy panels, आणि बालरोग (paediatric) सादरीकरणांचा समावेश असेल.
एकदाच केलेले मूल्यमापन (single-shot evaluation). प्रत्येक प्रकरणाचे एकदाच मूल्यमापन करण्यात आले. कमी sampling temperature वरही मोठे भाषा मॉडेल्स (large language models) लक्षणीय आउटपुट वैविध्य (output variance) दर्शवतात, त्यामुळे प्रत्येक प्रकरणासाठी पाच मूल्यमापनांसह multi-run प्रोटोकॉल आणि नोंदवलेले वैविध्य (reported variance) हा पुढचा नैसर्गिक टप्पा आहे.
एकाच इंजिनचा व्याप्ती (single-engine scope). हा अहवाल एका इंजिनचे वर्णन करतो. पर्यायी AI प्रणालींविरुद्ध तुलनात्मक विश्लेषणे येथे व्याप्तीबाहेर (out of scope) आहेत; योग्य पद्धतशास्त्रासह आम्ही ती स्वतंत्र स्वतंत्र अभ्यास म्हणून पुढे नेऊ शकतो.
एकाच स्रोताकडून आलेला डेटा (single-source data origin). ही पंधरा प्रकरणे एका एकाच क्लिनिकल रेपॉझिटरीमधून घेतलेली अनामिक (anonymised) वास्तविक रुग्ण नोंदी आहेत. ती निवडक (curated) नमुना दर्शवतात आणि लोकसंख्येचे प्रतिनिधित्व करणारी यादृच्छिक (random) निवड नाही. मूल्यमापनाचा विस्तार multi-centre डेटापर्यंत करण्याचा रोडमॅपमध्ये समावेश आहे.
सर्वाधिक प्रभावी नियोजित विस्तार म्हणजे बहुभाषिक समतुल्यता (multi-language parity). Kantesti AI Engine 75+ भाषांमधील वापरकर्त्यांना सेवा देतो, आणि तुर्किश, जर्मन, स्पॅनिश, फ्रेंच आणि अरबी या भाषांमध्ये तीच पंधरा-प्रकरणांची harness चालवल्यास इंजिनच्या समर्थित भाषांमधील आउटपुट गुणवत्तेचे मापन करता येईल. आम्ही प्रत्येक भाषेसाठी स्वतंत्र रन त्याच्या स्वतःच्या DOI आणि harness branch सह प्रकाशित करू.