இந்த பெஞ்ச்மார்க் ஏன் உள்ளது மற்றும் அது என்ன சோதிக்கிறது

AI உதவியுடன் இரத்த பரிசோதனை விளக்கம் நுகர்வோர் மற்றும் மருத்துவ பணிச்சூழல்களில் அதிகரித்து பயன்படுத்தப்படுகிறது; ஆனால் ஆய்வக மருத்துவத்திற்கேற்ற, மீண்டும் உருவாக்கக்கூடிய மதிப்பீட்டு கட்டமைப்புகள் இன்னும் அரிதாகவே உள்ளன. இந்த சூழலில் மிக முக்கியமான கேள்விகள் பொதுவான மருத்துவ கேள்வி-பதில் அளவுகோல்களில் உள்ளவையல்ல: சராசரி கார்பஸ்குலர் அளவு ஒரே மாதிரியாக இருந்தாலும், ஒரு என்ஜின் இரும்புக் குறைபாட்டை தலசீமியா பண்பிலிருந்து பிரிக்க முடியுமா; அது கில்பர்ட் நோயை ஹெபடைட்டிஸாக அதிகமாக நோயறியுமா; மற்றும் முழுமையாக சாதாரணமான திரைச்சோதனை பேனலில் அது நோயியல் கண்டுபிடிப்புகளை உருவாக்குமா?

Kantesti AI என்ஜின் எவ்வாறு உறைந்த மதிப்பீட்டு அளவுகோல்களுக்கு எதிராக மதிப்பிடப்படுகிறது என்பதை காட்டும் முன்பதிவு செய்யப்பட்ட ரூப்ரிக் ஓட்டப்படம்
படம் 1: அளவுகோல் கட்டமைப்பு — ஒவ்வொரு வழக்கும், ஒவ்வொரு முக்கியச்சொல்லும், ஒவ்வொரு மதிப்பீட்டு முறையும் இயந்திரம் ஒரு PDF-ஐ கூட பார்க்கும் முன்பே மூலக் குறியீட்டில் நிரந்தரமாக நிர்ணயிக்கப்பட்டுள்ளது. வடிவமைப்பின் காரணமாக post-hoc rubric tuning சாத்தியமில்லை.

ஒரு தனி இரத்தப் பரிசோதனை பேனல் பொதுவாக பல போட்டியிடும் விளக்கங்களை ஆதரிக்க போதுமான சிக்னலை கொண்டிருக்கும்; விளக்கும் மருத்துவரின் பணி, அவற்றை ஒன்றோடொன்று ஒப்பிட்டு எடையிடுவது; பாடநூல் போன்ற ஒரே பதிலை மீட்டெடுப்பது அல்ல. பாடநூல் வழக்குகளில் நன்றாக செயல்படும் ஒரு இயந்திரம், மிக முக்கியமான வழக்குகளில் இன்னும் தோல்வியடையலாம்: differential-diagnosis சிக்கல்கள், தனியாகப் பார்த்தால் எச்சரிக்கையாகத் தோன்றும் தீங்கற்ற மாறுபாடுகள், மற்றும் முழுமையாக சாதாரணமான பேனல்கள்—தன்னம்பிக்கையுள்ள உதவியாளர்களை நோயியல் உருவாக்கத் தூண்டும்.

இந்த அளவுகோல் அந்த தோல்வி முறைகளையே மையமாகக் கொண்டு உருவாக்கப்பட்டது. பதினைந்து வழக்குகளில் ஒவ்வொன்றும் ஒரு குறிப்பிட்ட கண்டறிதல் பண்புக்காகத் தேர்ந்தெடுக்கப்பட்டது: ஒரே மாதிரியான mean corpuscular volume உடைய beta-thalassaemia trait-இலிருந்து தனியாக வைத்திருக்க வேண்டிய இரும்புக் குறைபாடு காரணமான microcytosis; ஒரே அசாதாரணம் தனித்த isolated indirect hyperbilirubinaemia ஆக இருக்கும் Gilbert's syndrome வெளிப்பாடு; மற்றும் ஒவ்வொரு analyte-உம் அதன் reference range-க்குள் இருக்கும் பதினைந்து-அளவுரு screening பேனல். rubric, ஒவ்வொரு வழக்கையும் அதன் சொந்த நிபந்தனைகளில் வாசிக்கும் இயந்திரங்களுக்கு வெகுமதி அளிக்கிறது; அத்தகைய கண்டறிதல் தேவையில்லாத இடத்தில் தன்னம்பிக்கையுடன் ஒரு நோயறிதலை எட்டும் இயந்திரங்களுக்கு தண்டனை விதிக்கிறது.

டாக்டர் தாமஸ் கிளைன் (MD) ஆக, இந்த case panel-ஐ நான் தேர்ந்தெடுத்தது, ஆய்வக-மருத்துவ உதவியாளர்கள் அதிகமாக தவறாகப் பெறும் வடிவங்கள் இவையே என்பதால்தான். விலையுயர்ந்த தோல்வி முறை "அரிதான ஒரு நோயை தவறவிடுவது" அல்ல — அதற்கு பதிலாக, அதைக் கொண்டிராத நோயாளிகளில் வழக்கமான நோயியல் (pathology) ஒன்றை உருவாக்குவது. நமது மருத்துவ சரிபார்ப்பு hub பரந்த கட்டமைப்பை விவரிக்கிறது; இந்தப் பக்கம் V11 இயந்திரத்தில் அதன் பயன்படுத்தப்பட்ட விளைவைக் கூறுகிறது.

சமீபத்திய குறிப்பு (reference) இயக்கம் — V11 (ஏப்ரல் 2026)

Kantesti AI Engine V11-க்கான ஏப்ரல் 2026 reference run, ஒரு composite score-ஐ உருவாக்கியது 99.12% முன்பதிவு செய்யப்பட்ட பதினைந்து-வழக்கு rubric-இல். இரு hyperdiagnosis trap வழக்குகளும் உச்சவரம்பில் (ceiling) மதிப்பெண் பெற்றன. இரும்புக் குறைபாடு எதிர் thalassaemia differential-இல் Mentzer index சரியாகப் பயன்படுத்தப்பட்டது.

Composite 99.12% 15 இல் 15 வழக்குகள் மதிப்பெண் பெற்றன
0.998 Structural score
0.998 Clinical score
20.17 s சராசரி தாமதம் (latency)
0 / 13 Trap false-positives

composite சூத்திரம் மூன்று கூறுகளை இணைக்கிறது: structural இணக்கம் ஏழு கட்டாய அறிக்கை பிரிவுகள் மற்றும் பதினாறு கட்டாய துணைப் பிரிவுகளுடன், மருத்துவ துல்லியம் முக்கியச்சொல் recall + மதிப்பீட்டு-முறை recall + probability-distribution validity check என அளவிடப்படுகிறது, மற்றும் பதில் தாமதம் (response latency) 20 விநாடிகளுக்கான முதன்மை-சேவை நிலை இலக்குக்கு எதிராக. கீழே உள்ள rubric சூத்திரத்தில் சரியான பிரிப்பு காட்டப்பட்டுள்ளது.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × தாமதம்

தலைவெளியின் மீதமுள்ள 0.88 சதவீத புள்ளிகள் பெரும்பாலும் தாமத இழப்பாகவே பிரிகிறது — ஒவ்வொன்றும் மொத்தமாக -0.05 கொண்ட மூன்று Phase 2 fallback அழைப்புகள், 0.88 புள்ளி குறைவில் சுமார் 0.60 அளவுக்கு பங்களித்தன — மருத்துவ உள்ளடக்கத்தில் அல்ல. பதினைந்து வழக்குகளில் எதிலும் இயந்திரம் சரியான நோயறிதலை தவறவிடவில்லை; அது குறைந்த இடங்களில், சில சிறுபான்மை அழைப்புகளில் 20 விநாடி முதன்மை-பாதை இலக்கை விட சற்று அதிக நேரம் எடுத்ததன் மூலம் மட்டுமே குறைந்தது.

ஏழு மருத்துவ சிறப்புத்துறைகளில் பதினைந்து வழக்குகள்

வழக்கு குழு ஏழு சிறப்புத்துறைகளை உள்ளடக்குகிறது — ஹீமடாலஜி, எண்டோகிரினாலஜி, மெட்டபாலிக் மெடிசின், ஹெபடாலஜி, நெப்ராலஜி, கார்டியாலஜி, ரியுமடாலஜி — மேலும் இரண்டு தனித்துவமான ஹைப்பர் நோயறிதல் trap வழக்குகள். ஒவ்வொரு வழக்கும், எழுதப்பட்ட தகவலறிந்த சம்மதத்தின் கீழ் Kantesti மருத்துவ தரவு களஞ்சியத்திலிருந்து பெறப்பட்ட பெயரற்ற உண்மையான நோயாளி பதிவாகும்.

ஏழு மருத்துவ சிறப்புத்துறைகளில் பகிரப்பட்ட பதினைந்து பெயரில்லா இரத்த பரிசோதனை வழக்குகளின் கவரேஜ் வரைபடம்; அதனுடன் ஹைப்பர்-டயக்னோசிஸ் வலை வழக்குகளும்
படம் 2: ஹீமடாலஜி, எண்டோகிரினாலஜி, மெட்டபாலிக் மெடிசின், ஹெபடாலஜி, நெப்ராலஜி, கார்டியாலஜி, ரியுமடாலஜி ஆகியவற்றில் வழக்குகள் பகிர்வு — மேலும் இரண்டு trap வழக்குகள்: Gilbert's syndrome மற்றும் முழுமையாக சாதாரண ஸ்கிரீனிங் பேனல்.

Safe Harbor அணுகுமுறையின் கீழ் அடையாள நீக்கம் செய்யப்பட்டது: அனைத்து நேரடி அடையாளங்களும் அகற்றப்பட்டன அல்லது மாற்றப்பட்டன; மேலும் ஒவ்வொரு பதிவுக்கும் BT-NNN-LABEL என்ற வடிவத்தில் ஒரு benchmark-உள் வழக்கு குறியீடு ஒதுக்கப்பட்டது. செயலாக்கம் இதற்கிணங்க மேற்கொள்ளப்பட்டது GDPR கட்டுரை 9(2)(j) அறிவியல் ஆராய்ச்சிக்காக, பொருத்தமான பாதுகாப்பு நடவடிக்கைகளுடன், மற்றும் அதற்கு இணையான UK GDPR விதிகளுடன். வெளியிடப்பட்ட harness, தொழில்நுட்ப அறிக்கை, அல்லது வெளியிடப்பட்ட தரவுத்தொகுப்புகளில் எங்கும் தனிப்பட்ட அடையாளத் தகவல் தோன்றவில்லை.

ஹீமடாலஜி (3) BT-001, BT-006, BT-007 இரும்புக் குறைபாடு அனீமியா · B12 குறைபாடு · பீட்டா-தலசீமியா மைனர்
எண்டோகிரினாலஜி (3) BT-002, BT-008, BT-012 ஹாஷிமோட்டோஸ் தைராய்டைட்டிஸ் · இன்சுலின் எதிர்ப்புடன் கூடிய PCOS · கடுமையான வைட்டமின் டி குறைபாடு
மெட்டபாலிக் (2) BT-003, BT-013 மெட்டபாலிக் சிண்ட்ரோமுடன் கூடிய T2DM · கௌட் அபாயத்துடன் கூடிய ஹைப்பர்யூரிசீமியா
ஹெபடாலஜி (2) BT-004, BT-009 NAFLD / NASH · கடுமையான வைரல் ஹெபடிடிஸ்
நெப்ராலஜி · கார்டியாலஜி · ரியுமடாலஜி (3) BT-005, BT-010, BT-011 CKD நிலை 3 · அதெரோஜெனிக் டிஸ்லிபிடீமியா · சிஸ்டமிக் லூபஸ் எரிதிமேடோசஸ்
Trap வழக்குகள் (2) BT-014, BT-015 Gilbert's syndrome (தனித்த தனி அதிகரித்த மறைமுக பிலிருபினீமியா) · முழுமையாக சாதாரண பெரியவர் ஸ்கிரீன்

இந்த குறிப்பிட்ட விநியோகம் ஏன்

ஹீமட்டாலஜிக்கு மூன்று வழக்குகள் கிடைக்கின்றன, ஏனெனில் மைக்ரோசைட்டிக் வேறுபாடுகள் மற்றும் மேக்ரோசைட்டிக் வேறுபாடுகள் ஆகியவை நிஜ உலக ஆய்வக நடைமுறையில் அதிக அளவு “trap” ஆகும். எண்டோக்ரைனாலஜிக்கு மூன்று வழக்குகள் கிடைக்கின்றன, ஏனெனில் Hashimoto's, PCOS, மற்றும் வைட்டமின் டி குறைபாடு ஆகியவற்றின் வெளிப்பாடுகள் வெவ்வேறு கண்டறிதல் வடிவங்களைப் பயிற்சி செய்கின்றன (தான்உடல் எதிர்ப்பு இயக்கம் சார்ந்தது, ஹார்மோன் விகிதம் சார்ந்தது, ஒரே குறியீடு சார்ந்தது). CKD, ASCVD ஆபத்து, மற்றும் SLE ஆகிய ஒவ்வொன்றுக்கும் தனித்தனி மதிப்பீட்டு முறைமை இருப்பதால், அந்த ஒற்றை-வழக்கு சிறப்புத்துறைகள் இன்னும் அர்த்தமுள்ளதாகவே இருக்கின்றன; என்ஜின் அவற்றை அழைக்க வேண்டும் (முறையே KDIGO நிலைமை, ASCVD 10 ஆண்டு ஆபத்து, 2019 EULAR/ACR SLE அளவுகோல்கள்).

முன்பதிவு செய்யப்பட்ட ரூப்ரிக் — விளக்கம்

இந்த பெஞ்ச்மார்க்கில் முன்பதிவு (pre-registration) என்பது மிக முக்கியமான ஒரே முறைமையியல் தேர்வு. எதிர்பார்க்கப்படும் ஒவ்வொரு கண்டறிதலும், ஒவ்வொரு மருத்துவ மதிப்பீட்டு முறைமையும், ஒவ்வொரு அறிக்கை பிரிவும் மூலக் குறியீட்டில் (source code) உறுதிப்படுத்தப்பட்டிருந்தது என்ஜின் அழைக்கப்படுவதற்கு முன்பே. எனவே, என்ஜினை “பிடிக்க” ரூப்ரிக்கை (rubric) பின்னர் சரிசெய்து (post-hoc) மேம்படுத்துவது சாத்தியமில்லை.

ஒருங்கிணைந்த மதிப்பெண் (composite score) மூன்று கூறுகளால் உருவாகிறது. அந்த கட்டமைப்பு கூறு (structural component) 35 சதவீதம் பங்களிக்கிறது; மேலும் என்ஜின் ஏழு கட்டாய அறிக்கை பிரிவுகளை (header, summary, key findings, differential, scoring systems, recommendations, follow-up) மற்றும் அவற்றுக்குள் உள்ள பதினாறு கட்டாய துணைப் பிரிவுகளையும் திருப்பி அளித்ததா என்பதை அளவிடுகிறது. பிரிவு இருப்பு (section presence) கட்டமைப்பு கணக்கில் 40 சதவீதம் எடையும், துணைப் பிரிவு இருப்பு (subsection presence) 60 சதவீதம் எடையும் கொண்டது.

தி மருத்துவ கூறு (clinical component) 55 சதவீதம் பங்களிக்கிறது; மேலும் மூன்று விஷயங்களை இணைக்கிறது: கண்டறிதல்-முக்கியச்சொல் நினைவூட்டல் (clinical sub-score இன் 70 சதவீதம்), மதிப்பீட்டு-முறைமை நினைவூட்டல் (20 சதவீதம் — பொருத்தமான இடங்களில் என்ஜின் Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR அளவுகோல்களை கணக்கிடுகிறதா), மற்றும் சாத்தியக்கூறு-கூட்டுத்தொகை செல்லுபடியாக்கல் சோதனை (10 சதவீதம் — differential சாத்தியக்கூறுகள் [90, 110] இடைவெளிக்குள் கூட்டுத்தொகையாக இருக்க வேண்டும்). trap வழக்குகளுக்கு, அதிகப்படியான கண்டறிதல் (hyperdiagnosis) குறித்த வெளிப்படையான தண்டனை அதிகபட்சம் 0.30 வரை கழிக்கப்படுகிறது; இது உருவாக்கப்பட்ட pathology flag ஒன்றுக்கு 0.10 வீதம் கணக்கிடப்பட்டு, அதிகபட்சம் மூன்று flag களாக வரையறுக்கப்படுகிறது.

தி தாமத கூறு (latency component) 10 சதவீதம் பங்களிக்கிறது. 20 விநாடிகளுக்குள் பதில் வந்தால் முழு 0.10 கிடைக்கும்; 40 விநாடிகளுக்குள் வந்தால் 0.05 கிடைக்கும்; அதைவிட மெதுவான எதுவும் பூஜ்யம் (zero). 20 விநாடி இலக்கு உற்பத்தி முதன்மை primary-path சேவை-நிலை நோக்கத்தை (service-level objective) பிரதிபலிக்கிறது; 40 விநாடி உச்சவரம்பு Phase 2 இல் கனமான என்ஜின் அழைப்புகளுக்கான மாற்று (fallback) பட்ஜெட்டை பிரதிபலிக்கிறது.

MIT உரிமம் பெற்ற Kantesti பெஞ்ச்மார்க் ஹார்னஸ் இயங்கி, ஒவ்வொரு வழக்கிற்குமான மதிப்பெண்களை வெளியிடும் இறுதி ஸ்கிரீன்ஷாட்
படம் 3: செயல்பாட்டில் உள்ள harness. ஒவ்வொரு வழக்கும் A4 PDF ஆக உருவாக்கப்பட்டு, production v11 endpoint-க்கு பதிவேற்றப்பட்டு, உறைந்த ரூப்ரிக்குக்கு எதிராக மதிப்பிடப்படுகிறது. ஒவ்வொரு மூல (raw) பதிலும் ஒருங்கிணைக்கப்பட்ட scorecard உடன் சேர்த்து சேமிக்கப்படுகிறது.

முன்பதிவு (pre-registration) என்னதைத் தடுக்கிறது

முதல்-தரப்பு (first-party) பெஞ்ச்மார்க்குகள் post-hoc ரூப்ரிக் tuning மூலம் தங்களின் சொந்த எண்ணிக்கைகளை உயர்த்துவது குறித்து பிரபலமாகவே உள்ளன. அந்த முறைமை கிட்டத்தட்ட எப்போதும் ஒரே மாதிரிதான்: குழு என்ஜினை இயக்குகிறது, எங்கு குறைவாக செயல்படுகிறது என்பதை பார்க்கிறது, பின்னர் அந்த குறைவான பகுதிகள் குறைவாக எண்ணப்படுமாறு ரூப்ரிக்கை அமைதியாக மாற்றுகிறது. முதல் என்ஜின் அழைப்புக்கு முன்பே ரூப்ரிக்கை மூலக் குறியீட்டில் உறுதிப்படுத்தி, harness-ஐ MIT உரிமத்தின் கீழ் வெளியிடுவதன் மூலம், அந்த மாற்றம் version control-ல் தெரியும். யாரும் repository-ஐ clone செய்து, ரூப்ரிக் ஆசிரியர் தேதிகளை (author dates) சரிபார்த்து, scoring-ஐ வடிவமைக்க என்ஜின் முடிவுகள் பயன்படுத்தப்படவில்லை என்பதை உறுதிப்படுத்தலாம்.

ஹைப்பர்-டயக்னோசிஸ் (Hyperdiagnosis) வலை வழக்குகள் — ஏன் அதிகமாக அழைப்பது (over-calling) தான் உண்மையான தோல்வி முறையாகும்

சாதாரண திரைகளில் (normal screens) pathology-ஐ மிகத் தீவிரமாக (aggressively) அதிகமாக அழைப்பது (over-calling) என்பது நுகர்வோர் நோக்கமுள்ள மருத்துவ உதவியாளர்களில் பதிவுசெய்யப்பட்ட தோல்வி முறையாகும். அதன் பின்விளைவுச் செலவுகளில் தேவையற்ற விசாரணை, நோயாளி கவலை, மற்றும் iatrogenic workup ஆகியவை அடங்கும். இந்த பெஞ்ச்மார்க்கில் உள்ள இரண்டு trap வழக்குகள், அந்த தோல்வி முறையை தெரியும் வகையிலும் மதிப்பிடக்கூடிய வகையிலும் உருவாக்கப்பட்டுள்ளன.

ஜில்பர்ட் சிண்ட்ரோம் பேனலில் ஹெபடைட்டிஸை உருவாக்கும் ஒரு சாதாரண AI-யின் பக்கம்சார்ந்த ஒப்பீடு; அதற்கு எதிராக Kantesti என்ஜின் நன்மையான UGT1A1 பாலிமார்பிஸத்தை சரியாக அடையாளம் காண்பது
படம் 4: trap-case வடிவமைப்பு. Gilbert's syndrome-ஐ hepatitis என்று நம்பிக்கையுடன் லேபிள் செய்யும் என்ஜின், அல்லது முழுமையாக சாதாரண திரையில் (fully normal screen) எல்லைக்கோடு (borderline) pathology-ஐ உருவாக்கும் என்ஜின் — மருத்துவமாக ஒலிப்பதற்காக வெகுமதி பெறாது; மாறாக தண்டிக்கப்படும்.

🟡 Trap 1 — BT-014-GILBERT

வெளிப்பாடு (Presentation). மொத்த பிலிருபின் 2.4 mg/dL கொண்ட 24 வயது ஆண். direct பகுதி சாதாரணமாக உள்ளது; transaminases மற்றும் alkaline phosphatase அவற்றின் குறிப்பு வரம்புகளுக்குள் இருக்கின்றன; reticulocytes குறிப்பிடத்தக்கதாக இல்லை; மேலும் haptoglobin மற்றும் LDH haemolysis-ஐ நீக்குகின்றன.

சரியான விளக்கம். Gilbert's syndrome — ஒரு benign UGT1A1 polymorphism. இந்த விளக்கம் hepatitis, cirrhosis, haemolytic anaemia, அல்லது biliary obstruction ஆகியவற்றை முன்வைக்கக் கூடாது.

V11 முடிவு. Composite 1.000. கண்காணிக்கப்பட்ட ஆறு over-diagnosis flag களில் எதுவும் செயலில் உள்ள கண்டறிதல்களாக தோன்றவில்லை.

🟡 Trap 2 — BT-015-HEALTHY

வெளிப்பாடு (Presentation). பதினைந்து அளவுருக்களைக் கொண்ட வழக்கமான ஸ்கிரீனிங் பேனலை உடைய 35 வயது பெண். ஒவ்வொரு பரிசோதனை அளவீடும் அதன் குறிப்பு வரம்புக்குள் நன்றாகவே உள்ளது.

சரியான விளக்கம். உறுதிப்படுத்தல் மற்றும் வாழ்க்கைமுறை பராமரிப்பு. இந்த விளக்கம், மருத்துவ ரீதியாக பயனுள்ளதாகத் தோன்றும் வகையில் எல்லைக்கோடு நோய்நிலையை செயற்கையாக உருவாக்கக் கூடாது.

V11 முடிவு. கூட்டு 1.000. கண்காணிக்கப்பட்ட ஏழு அதிக-நோயறிதல் எச்சரிக்கைகளில்—நீரிழிவு, இரத்தசோகை, ஹைப்போதைராய்டிசம், டிஸ்லிபிடீமியா, ஹெபடைட்டிஸ், சிறுநீரக நோய், குறைபாடு—எதுவும் செயலில் உள்ள நோயறிதலாக தோன்றவில்லை.

இரு சோதனை அமைப்புகளிலும் பதின்மூன்று கண்காணிக்கப்பட்ட ஹைப்பர்-நோயறிதல் எச்சரிக்கைகள் சரிபார்க்கப்பட்டன. எதுவும் செயல்படவில்லை. எந்த மருத்துவரும் AI இயந்திரத்தை ட்ரையாஜ் அல்லது முன்-ஆலோசனை கருவியாக பயன்படுத்த நினைக்கும் போது மிக முக்கியமாக கவனிக்க வேண்டிய முடிவு இதுவே: இல்லாத இடத்தில் அமைப்பு நோயை உருவாக்கவில்லை.

மென்ட்சர் குறியீடு: இரும்புக் குறைபாட்டை தலசீமியா பண்பிலிருந்து பிரித்தறிதல்

இரண்டாவது உயர்மதிப்பு கண்டுபிடிப்பு, வழக்கு BT-001 (இரும்புக் குறைபாடு இரத்தசோகை) மற்றும் வழக்கு BT-007 (பீட்டா-தலசீமியா மைனர்) ஆகியவற்றின் இணைப்பைச் சார்ந்தது. இரண்டும் மைக்ரோசைட்டோசிஸுடன் காணப்படுகின்றன; இது அறியாத வகைப்பாட்டாளர்களுக்கு நன்கு அறியப்பட்ட தடுமாற்றம். மென்ட்சர் குறியீடு, அதாவது MCV-ஐ RBC எண்ணிக்கையால் வகுத்தால், இரும்புக் குறைபாட்டில் 13-ஐ விட அதிகமாகவும், தலசீமியா பண்பில் 13-ஐ விட குறைவாகவும் இருக்கும்.

BT-001-ல், நோயாளி 34 வயது பெண்; ஹீமோகுளோபின் 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ஃபெரிட்டின் 6 ng/mL, மற்றும் உயர்ந்த TIBC இருந்தது. சுமார் 17.7 என்ற மென்ட்சர் குறியீடு முழுமையான இரும்புக் குறைபாட்டை ஆதரிக்கிறது. BT-007-ல், நோயாளி 28 வயது ஆண்; மைக்ரோசைட்டோசிஸுடன் (MCV 65.8 fL) இருந்தாலும், RBC எண்ணிக்கை 6.2 என்ற அளவில் உயர்ந்தது, RDW சாதாரணம், ஃபெரிட்டின் சாதாரணம், மற்றும் HbA2 5.6 சதவீதம். சுமார் 10.6 என்ற மென்ட்சர் குறியீடு தலசீமியா பண்பைச் சுட்டுகிறது; உயர்ந்த HbA2 பீட்டா-தலசீமியா மைனரை உறுதிப்படுத்துகிறது.

இரும்புக் குறைபாடு இரத்தசோகை மென்ட்சர் > 13 குறைந்த ஃபெரிட்டின், குறைந்த TSAT, உயர்ந்த TIBC, உயர்ந்த RDW
பீட்டா-தலசீமியா பண்பு மென்ட்சர் < 13 சாதாரண ஃபெரிட்டின், சாதாரண RDW, உயர்ந்த HbA2 (>3.5%), உயர்ந்த RBC எண்ணிக்கை

இரு வழக்குகளும் 1.000 என்ற மதிப்பெண் பெற்றன. இரு விளக்கங்களிலும் இயந்திரம் மென்ட்சர் குறியீட்டை வெளிப்படையாக பயன்படுத்தி, ஒவ்வொரு முறையிலும் சரியான நோயறிதலைத் திருப்பியது. முழு பெஞ்ச்மார்க்கில் மிக அதிக மருத்துவ ரீதியாக உறுதிப்படுத்தும் ஒரே முடிவு இதுவே, ஏனெனில் தலசீமியா பண்பை இரும்புக் குறைபாடாக தவறாக வகைப்படுத்துவது தேவையற்ற இரும்பு கூடுதல் அளிப்பை ஏற்படுத்தி குடும்ப-ஸ்கிரீனிங் வாய்ப்புகளை தவறவிடச் செய்கிறது; மேலும் இரும்புக் குறைபாட்டை தலசீமியாவாக தவறாக வகைப்படுத்துவது நேரடியான மாற்று சிகிச்சையை தாமதப்படுத்துகிறது. எங்கள் ஃபெரிட்டின் (ferritin) வரம்பு வழிகாட்டி விரிவான வேறுபாட்டு சூழலை விளக்குகிறது.

2026 ஏப்ரல் இயக்கத்தின் ஒவ்வொரு வழக்கிற்குமான முடிவுகள்

பதினைந்து வழக்குகளில் பன்னிரண்டு, முதன்மை பாதையில் 1.000 என்ற உச்ச கூட்டு மதிப்பெண்ணை அடைந்தன. மூன்று வழக்குகள் Phase 2 fallback மூலம் சேவை செய்யப்பட்டன; இதனால் 0.05 latency போனஸை இழந்தாலும், அனைத்து மருத்துவ மற்றும் கட்டமைப்பு உள்ளடக்கமும் பாதுகாக்கப்பட்டது. ஒரு வழக்கில் ஒரு கட்டாய துணைப்பிரிவு காணாமல் போனது; ஒன்று சற்று குறைந்த probability distribution கூட்டுத்தொகையைத் திருப்பியது.

வழக்கு ஐடி சிறப்பு துறை Composite லேட்டன்சி பாதை
BT-001-IDAஇரத்தவியல்1.00017.8 sமுதன்மை
BT-006-B12இரத்தவியல்1.00018.4 விமுதன்மை
BT-007-THALஇரத்தவியல்1.00017.0 விமுதன்மை
BT-002-HASHநாளமில்லா சுரப்பியியல்0.95037.0 விமாற்று (fallback)
BT-008-PCOSநாளமில்லா சுரப்பியியல்0.98718.6 விமுதன்மை
BT-003-T2DMவளர்சிதை மாற்றம்1.00019.1 விமுதன்மை
BT-013-GOUTவளர்சிதை மாற்றம்1.00019.4 விமுதன்மை
BT-004-NAFLDகல்லீரல் மருத்துவம் (Hepatology)1.00019.6 விமுதன்மை
BT-009-VIRHEPகல்லீரல் மருத்துவம் (Hepatology)0.95023.4 விமாற்று (fallback)
BT-014-GILBERTகண்ணி (Trap)1.00018.9 விமுதன்மை
BT-005-CKDசிறுநீரகவியல்1.00017.4 விமுதன்மை
BT-010-ASCVDஇருதயவியல்1.00019.7 விமுதன்மை
BT-011-SLEவாதநோயியல்0.98118.2 விமுதன்மை
BT-012-VITDநாளமில்லா சுரப்பியியல்1.00019.3 விமுதன்மை
BT-015-HEALTHYகண்ணி (Trap)1.00018.7 விமாற்று (fallback)

PCOS வழக்கு (BT-008) பதில் அமைப்பில் ஒரு கட்டாய துணைப்பிரிவை இழந்தது — பதினாறு இல் பதினாறு (16 இல் 16) என்பதற்குப் பதிலாக பதினைந்து இல் பதினாறு (15 இல் 16) — இதனால் கட்டமைப்பு மதிப்பெண் 1.000 இலிருந்து 0.963 ஆகக் குறைந்தது. SLE வழக்கு (BT-011) சிறிதளவு குறைந்த probability-distribution கூட்டுத்தொகையைத் திருப்பியது; இதனால் மருத்துவ மதிப்பெண் 0.965 ஆகக் குறைந்தது; அதே நேரத்தில் ஒவ்வொரு கண்டறிதல் முக்கியச்சொல்லையும் மற்றும் மதிப்பீட்டு முறையையும் பாதுகாத்தது. எந்த துணை-சரியான வழக்கும் சரியான கண்டறிதலைத் தவறவிடவில்லை.

தலைப்பு மதிப்பெண் எதை நமக்குத் தெரிவிக்காது

இந்த குறிப்பிட்ட முன்பதிவு செய்யப்பட்ட விதிமுறையின் கீழ் 99.12 சதவீதம் என்ற கூட்டு மதிப்பெண், உச்ச எல்லைக்கு அருகிலான செயல்திறனை குறிக்கிறது; ஆனால் அதை கவனமாகச் சூழலமைத்துக் கூற வேண்டும். இந்த முடிவு, ஒரே ஒரு விதிமுறைக்கு எதிராக, ஒவ்வொன்றும் ஒருமுறை மதிப்பிடப்பட்ட, பதினைந்து கவனமாகத் தேர்ந்தெடுக்கப்பட்ட பெயரில்லா வழக்குகளுக்கு எதிராக இயந்திரத்தின் நடத்தை எப்படி இருந்தது என்பதை விவரிக்கிறது. அந்த எண் எதை நிறுவுகிறது, எதை நிறுவவில்லை என்பதில் நாங்கள் தெளிவாக இருக்கிறோம்.

இந்த மதிப்பெண் கூறுவது என்னவென்றால், V11 இயந்திரம் இந்த மதிப்பீட்டிற்காகத் தேர்ந்தெடுக்கப்பட்ட கண்டறிதல் வடிவங்களை சரியாக கையாள்ந்தது; வெளியிடப்பட்ட மற்றும் மீண்டும் உருவாக்கக்கூடிய ஒரு முறையியலின் அடிப்படையில். உலகில் உள்ள ஒவ்வொரு இரத்த பரிசோதனை பேனலிலும் இயந்திரம் சரியாக இருக்கிறது என்று அது சொல்லவில்லை. அந்த இயந்திரம் மருத்துவரின் தீர்மானத்தை மாற்ற வேண்டும் என்று அது சொல்லவில்லை. மேலும், மாற்று AI அமைப்புகளை விட அது சிறப்பாக செயல்படுகிறது என்று அது சொல்லவில்லை — பிற இயந்திரங்களுடன் ஒப்பீட்டு பகுப்பாய்வுகள் இந்த அறிக்கையின் வரம்புக்கு வெளியே திட்டமிட்டு வைக்கப்பட்டிருந்தன.

இந்த மதிப்பெண் நிறுவுவது ஒரு அடித்தளம் (baseline) தான். விதிமுறை (rubric) மற்றும் harness பொதுவாக கிடைப்பதால், இயந்திரத்தின் எதிர்கால பதிப்புகளை அதே பதினைந்து வழக்குகளுக்கு எதிராக மதிப்பிட முடியும்; வெளியிடப்பட்ட மதிப்பெண்ணுக்கும் பின்னர் வரும் எந்த ஓட்டத்திற்கும் இடையிலான இடைவெளியும் தானாகவே அளவிடக்கூடியதாக இருக்கும். முன்பதிவு (pre-registration) என்பதன் மதிப்பு இதுதான்: செயல்திறன் கோரிக்கைகளை சோதிக்கக்கூடிய கோரிக்கைகளாக மாற்றுகிறது.

10 நிமிடங்களில் இந்த அளவுகோலை மீண்டும் உருவாக்குவது எப்படி

மீண்டும் உருவாக்க (Reproduction) செய்ய, Kantesti API சான்றிதழ் ஜோடி மற்றும் Python 3.10 அல்லது அதற்கு மேற்பட்ட பதிப்புள்ள சூழல் மட்டும் போதுமானது; அதில் requests மற்றும் reportlab நூலகங்கள் நிறுவப்பட்டிருக்க வேண்டும். முழு harness என்பது MIT உரிமத்தின் கீழ் வெளியிடப்பட்ட ஒரே, தனித்துவமான Python module ஆகும்.

Figshare, ResearchGate, Academia.edu மற்றும் GitHub ஆகியவற்றில் பெஞ்ச்மார்க் பிரதிபலிக்கப்பட்டிருப்பதை காட்டும் மீளுருவாக்க நெட்வொர்க் வரைபடம்; Figshare DOI-யை முதன்மை அடையாளமாகக் கொண்டு
படம் 5: இந்த benchmark நான்கு ஆராய்ச்சி தளங்களில் பிரதிபலிக்கப்படுகிறது. Figshare DOI தான் அதிகாரப்பூர்வ கல்வி அடையாளம்; ResearchGate, Academia.edu, மற்றும் GitHub ஆகியவை குறியீடு மற்றும் மூல தரவுகளுடன் இணை பிரதிகளை வழங்குகின்றன.

புதிய ஓட்டத்திற்கான நான்கு படிகள்

ஒன்று. repository-யை clone செய்யவும்: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. இரண்டு. சார்புகளை நிறுவவும் pip install -r requirements.txt. மூன்று. அமைக்கவும் KANTESTI_USERNAME மற்றும் KANTESTI_PASSWORD சூழல் மாறிகளாக — சான்றுகள் இயக்க நேரத்தில் வாசிக்கப்படுகின்றன; ஸ்கிரிப்டில் எதுவும் கடினமாக (hard-coded) சேர்க்கப்படவில்லை. நான்கு. இயக்கவும் python benchmark_bloodtest.py மேலும் வேலை அடைவில் (working directory) வெளியிடப்படும் நான்கு artefacts-ஐ ஆய்வு செய்யவும்: ஒரு CSV scorecard, ஒரு JSON scorecard, மூல இயந்திர (raw engine) பதில்களை உட்பட முழு JSON dump, மற்றும் மனிதருக்கு வாசிக்கக்கூடிய Markdown அறிக்கை.

23 ஏப்ரல் 2026-இல் இருந்து வந்த குறிப்பு (reference) இயக்கம், results/ அடைவில் (directory) repository-யில் பாதுகாக்கப்பட்டுள்ளது. புதிய இயக்கம் புதிய timestamped scorecard-ஐ உருவாக்கும்; குறிப்பு இயக்கம் மாற்றமின்றி இருக்கும். உங்கள் இயக்கம் அர்த்தமுள்ள விதத்தில் வேறுபட்ட முடிவை உருவாக்கினால், தயவுசெய்து GitHub issue ஒன்றைத் திறந்து, இயக்கத்தின் timestamp மற்றும் பதில் metadata-வில் திரும்பிய engine version-ஐ சேர்க்கவும்.

வரம்புகள் மற்றும் எதிர்கால பணிகள்

நான்கு வரம்புகள் (limitations) தெளிவாக ஒப்புக்கொள்ளப்பட வேண்டும்: மாதிரி அளவு, ஒரே முறை (single-shot) மதிப்பீடு, ஒரே இயந்திர (single-engine) வரம்பு, மற்றும் ஒரே மூலத் தரவு (single-source data origin). இவை அனைத்தும் செயலில் உள்ள தொடர்ச்சிப் பணிகளில் (active follow-up work) தீர்க்கப்படுகின்றன.

மாதிரி அளவு. எட்டு சிறப்பு (specialty) பிரிவுகளில் பதினைந்து வழக்குகள் (cases) proof of concept-க்கு போதுமானது; ஆனால் ஒரு சிறப்புக்குள் (specialty) துணைக்குழு (subgroup) பகுப்பாய்வுக்கு போதாது. ஐம்பது வழக்குகளுக்கு (fifty cases) விரிவாக்கம் திட்டமிடப்பட்டுள்ளது; இதில் coagulation panels, haematological malignancy screening, pregnancy panels, மற்றும் குழந்தை மருத்துவ (paediatric) நிகழ்வுகள் சேர்க்கப்படும்.

ஒரே முறை மதிப்பீடு. ஒவ்வொரு வழக்கும் ஒருமுறை மட்டுமே மதிப்பிடப்பட்டது. குறைந்த sampling temperature-இல்கூட பெரிய மொழி மாதிரிகள் (large language models) குறிப்பிடத்தக்க output variance-ஐ காட்டுகின்றன; எனவே ஒவ்வொரு வழக்குக்கும் ஐந்து மதிப்பீடுகளுடன் (five evaluations per case) பல-இயக்கு (multi-run) நெறிமுறை மற்றும் அறிவிக்கப்பட்ட variance அடுத்த இயல்பான படியாகும்.

ஒரே இயந்திர வரம்பு. இந்த அறிக்கை ஒரு இயந்திரத்தை (one engine) விவரிக்கிறது. மாற்று AI அமைப்புகளுடன் ஒப்பீட்டு பகுப்பாய்வுகள் இங்கு வரம்புக்கு உட்படாது (out of scope); பொருத்தமான முறைமையுடன் (methodology) அவற்றை தனி சுயாதீன ஆய்வாக (separate independent study) மேற்கொள்ளலாம்.

ஒரே மூலத் தரவு தோற்றம். அந்த பதினைந்து வழக்குகளும் ஒரே மருத்துவ (clinical) repository-யிலிருந்து பெறப்பட்ட, பெயரில்லாத (anonymised) உண்மையான நோயாளி பதிவுகள். இவை தேர்ந்தெடுக்கப்பட்ட (curated) மாதிரி; மக்கள் தொகையை பிரதிநிதித்துவப்படுத்தும் சீரற்ற (population-representative random) தேர்வு அல்ல. மதிப்பீட்டை பல மைய (multi-centre) தரவுக்கு விரிவாக்குவது roadmap-இல் உள்ளது.

மிக முக்கியமான திட்டமிட்ட விரிவாக்கம் பல மொழி சமநிலை (multi-language parity). Kantesti AI Engine, 75+ மொழிகளில் பயனர்களுக்கு சேவை செய்கிறது; அதே பதினைந்து-வழக்கு harness-ஐ துருக்கியம், ஜெர்மன், ஸ்பானிஷ், பிரெஞ்சு, மற்றும் அரபி ஆகிய மொழிகளில் இயக்குவது, இயந்திரம் ஆதரிக்கும் மொழிகள் முழுவதும் output தரத்தை அளவிடும். ஒவ்வொரு மொழிக்குமான தனித்தனி இயக்கத்தையும் (language-specific run) அதன் சொந்த DOI மற்றும் harness branch உடன் வெளியிடுவோம்.