இந்த பெஞ்ச்மார்க் ஏன் உள்ளது மற்றும் அது என்ன சோதிக்கிறது
AI உதவியுடன் இரத்த பரிசோதனை விளக்கம் நுகர்வோர் மற்றும் மருத்துவ பணிச்சூழல்களில் அதிகரித்து பயன்படுத்தப்படுகிறது; ஆனால் ஆய்வக மருத்துவத்திற்கேற்ற, மீண்டும் உருவாக்கக்கூடிய மதிப்பீட்டு கட்டமைப்புகள் இன்னும் அரிதாகவே உள்ளன. இந்த சூழலில் மிக முக்கியமான கேள்விகள் பொதுவான மருத்துவ கேள்வி-பதில் அளவுகோல்களில் உள்ளவையல்ல: சராசரி கார்பஸ்குலர் அளவு ஒரே மாதிரியாக இருந்தாலும், ஒரு என்ஜின் இரும்புக் குறைபாட்டை தலசீமியா பண்பிலிருந்து பிரிக்க முடியுமா; அது கில்பர்ட் நோயை ஹெபடைட்டிஸாக அதிகமாக நோயறியுமா; மற்றும் முழுமையாக சாதாரணமான திரைச்சோதனை பேனலில் அது நோயியல் கண்டுபிடிப்புகளை உருவாக்குமா?
ஒரு தனி இரத்தப் பரிசோதனை பேனல் பொதுவாக பல போட்டியிடும் விளக்கங்களை ஆதரிக்க போதுமான சிக்னலை கொண்டிருக்கும்; விளக்கும் மருத்துவரின் பணி, அவற்றை ஒன்றோடொன்று ஒப்பிட்டு எடையிடுவது; பாடநூல் போன்ற ஒரே பதிலை மீட்டெடுப்பது அல்ல. பாடநூல் வழக்குகளில் நன்றாக செயல்படும் ஒரு இயந்திரம், மிக முக்கியமான வழக்குகளில் இன்னும் தோல்வியடையலாம்: differential-diagnosis சிக்கல்கள், தனியாகப் பார்த்தால் எச்சரிக்கையாகத் தோன்றும் தீங்கற்ற மாறுபாடுகள், மற்றும் முழுமையாக சாதாரணமான பேனல்கள்—தன்னம்பிக்கையுள்ள உதவியாளர்களை நோயியல் உருவாக்கத் தூண்டும்.
இந்த அளவுகோல் அந்த தோல்வி முறைகளையே மையமாகக் கொண்டு உருவாக்கப்பட்டது. பதினைந்து வழக்குகளில் ஒவ்வொன்றும் ஒரு குறிப்பிட்ட கண்டறிதல் பண்புக்காகத் தேர்ந்தெடுக்கப்பட்டது: ஒரே மாதிரியான mean corpuscular volume உடைய beta-thalassaemia trait-இலிருந்து தனியாக வைத்திருக்க வேண்டிய இரும்புக் குறைபாடு காரணமான microcytosis; ஒரே அசாதாரணம் தனித்த isolated indirect hyperbilirubinaemia ஆக இருக்கும் Gilbert's syndrome வெளிப்பாடு; மற்றும் ஒவ்வொரு analyte-உம் அதன் reference range-க்குள் இருக்கும் பதினைந்து-அளவுரு screening பேனல். rubric, ஒவ்வொரு வழக்கையும் அதன் சொந்த நிபந்தனைகளில் வாசிக்கும் இயந்திரங்களுக்கு வெகுமதி அளிக்கிறது; அத்தகைய கண்டறிதல் தேவையில்லாத இடத்தில் தன்னம்பிக்கையுடன் ஒரு நோயறிதலை எட்டும் இயந்திரங்களுக்கு தண்டனை விதிக்கிறது.
டாக்டர் தாமஸ் கிளைன் (MD) ஆக, இந்த case panel-ஐ நான் தேர்ந்தெடுத்தது, ஆய்வக-மருத்துவ உதவியாளர்கள் அதிகமாக தவறாகப் பெறும் வடிவங்கள் இவையே என்பதால்தான். விலையுயர்ந்த தோல்வி முறை "அரிதான ஒரு நோயை தவறவிடுவது" அல்ல — அதற்கு பதிலாக, அதைக் கொண்டிராத நோயாளிகளில் வழக்கமான நோயியல் (pathology) ஒன்றை உருவாக்குவது. நமது மருத்துவ சரிபார்ப்பு hub பரந்த கட்டமைப்பை விவரிக்கிறது; இந்தப் பக்கம் V11 ஆரம்ப proof-of-concept மற்றும் அதனை 127 நாடு லேபல்கள் கொண்ட ஒரு செயற்கை கேஸ் செட்டிலிருந்து பெறப்பட்ட 100,000 செயற்கை வழக்குகளாக அளவுபடுத்திய V11 இரண்டாம் புதுப்பிப்பை விவரிக்கிறது — அதே மதிப்பீட்டு ரூப்ரிக், byte-identical, மற்றும் post-hoc tuning அனுமதிக்கப்படாமல்.
சமீபத்திய குறிப்பு (reference) இயக்கம் — V11 இரண்டாம் புதுப்பிப்பு (ஏப்ரல் 26, 2026)
26 ஏப்ரல் 2026 அன்று நடைபெற்ற V11 இரண்டாம் புதுப்பிப்பு குறிப்பு இயக்கம் ஒரு கூட்டு (composite) மதிப்பெண்ணை உருவாக்கியது 99.80% V11 ஆரம்ப வெளியீட்டில் பயன்படுத்தப்பட்ட அதே முன்பதிவு செய்யப்பட்ட (pre-registered) ரூப்ரிக் மூலம் மதிப்பிடப்பட்டது; 100,000 செயற்கை வழக்குகள் Kantesti செயற்கை கேஸ் செட்டிலிருந்து பெறப்பட்டவை மற்றும் 127 நாடு லேபல்கள் முழுவதும் மற்றும் 75+ மொழிகளை உள்ளடக்கியவை. ஒவ்வொரு கேஸும் என்ஜினின் முதன்மை பாதையில் (primary path) முடிந்தது; trap-case hyperdiagnosis flag செயல்பாடுகள் 0 / 87,412. இல் நிலைத்திருந்தன. 23 ஏப்ரல் 2026 அன்று நடைபெற்ற அசல் V11 இயக்கம் 15 கைமுறையாகத் தேர்ந்தெடுக்கப்பட்ட (hand-curated) கேஸ்களை (composite 99.12%) உள்ளடக்கியது மற்றும் ரூப்ரிக்கை சரிபார்த்தது; இரண்டாம் புதுப்பிப்பு அந்த ரூப்ரிக்கை பைட்-அடையாளமாகவே வைத்துக்கொண்டு, மதிப்பீட்டை மக்கள்-அளவிலான (population-scale) கூட்டணிக்கு விரிவாக்குகிறது.
composite சூத்திரம் மூன்று கூறுகளை இணைக்கிறது: structural இணக்கம் ஏழு கட்டாய அறிக்கை பிரிவுகள் மற்றும் பதினாறு கட்டாய துணைப் பிரிவுகளுடன், உள்ளடக்க துல்லியம் முக்கியச்சொல் recall + மதிப்பீட்டு-முறை recall + probability-distribution validity check என அளவிடப்படுகிறது, மற்றும் பதில் தாமதம் (response latency) முதன்மை-பாதை சேவை-நிலை இலக்குக்கு (service-level target) எதிராக. கீழே உள்ள ரூப்ரிக் சூத்திரத்தில் துல்லியமான பிரிப்பு காட்டப்பட்டுள்ளது — இரண்டாம் புதுப்பிப்பிற்காக இவற்றில் எந்த எடைகளும் (weights) அல்லது துணை-ரூப்ரிக்குகளும் மாற்றப்படவில்லை.
மீதமுள்ள 0.20 சதவீத புள்ளிகள் (percentage points) அளவளாவல் (headroom) பெரும்பாலும் மருத்துவ துணை-மதிப்பெண்ணில் (clinical sub-score) பிரிகிறது — எதிர்பார்க்கப்பட்ட மதிப்பீட்டு-முறை (scoring-system) முக்கியச் சொல் என்ஜின் விளக்கத்தில் (interpretation) இல்லாமல் இருந்தது, ஆனால் நோயறிதல் உள்ளடக்கம் சரியாக இருந்தது; சிறிய பகுதி கேஸ்கள் (முக்கியமாக Hepatology மற்றும் Rheumatology) இதை கொண்டிருந்தன. 100,000-கேஸ் இரண்டாம்-புதுப்பிப்பு கூட்டணியில் எந்த கேஸும் நோயறிதலைத் தவறவிடவில்லை. தாமதம் (latency) V11 ஆரம்ப வெளியீட்டில் சராசரியாக 20.17 s இருந்து இரண்டாம் புதுப்பிப்பில் 13.26 s ஆக மேம்பட்டது; இரண்டு இயக்கங்களுக்கிடையில் உற்பத்தி என்ஜின் மேம்பாடுகள் (optimisations) இதை பிரதிபலிக்கின்றன; ரூப்ரிக், மதிப்பீட்டு குறியீடு (scoring code), மற்றும் API இறுதிநிலை (endpoint) மாற்றமின்றி உள்ளது.
ஒவ்வொரு லேபலுக்குமான கூட்டு மதிப்பெண்கள், அதிகம் பிரதிநிதித்துவம் பெற்ற 30 நாடு லேபல்கள் முழுவதும் 0.9971 முதல் 0.9985 வரை இருந்தன. கூடுதலான 97 லேபல்கள் கொண்ட நீண்ட வால் (மொத்தம் ≈7,300 வழக்குகள்) எந்த முறையான சிதைவையும் காட்டவில்லை. வழக்கு எண்ணிக்கையில் மிக அதிகமாக இருந்த லேபல்கள்: அமெரிக்கா (10,500), பிரேசில் (9,500), ஸ்பெயின் (9,000), இத்தாலி (8,000), ஜெர்மனி (7,800), பிரான்ஸ் (7,400), போர்ச்சுகல் (5,800), Türkiye (3,400), ஐக்கிய இராச்சியம் (2,900), மற்றும் மெக்சிகோ (2,500). லேபல்-வாரியான கூட்டு மதிப்பெண்கள் 0.9971 முதல் 0.9985 வரை இருந்தன.
15 வழக்குகளிலிருந்து 100,000 வரை: 127 நாடு லேபல்கள் முழுவதும் கூட்டணி வளர்ச்சி
முதன்மை V11 கேஸ் பேனல் ஏழு சிறப்புத்துறைகளை — ஹீமடாலஜி, எண்டோகிரினாலஜி, மெட்டபாலிக் மெடிசின், ஹெபடாலஜி, நெப்ராலஜி, கார்டியாலஜி, ரியூமடாலஜி — மேலும் இரண்டு தனித்த hyperdiagnosis trap வழக்குகளையும் கொண்டது; ஒவ்வொரு வழக்கும் செயற்கையாக உருவாக்கப்பட்ட இரத்தப் பரிசோதனை பேனலாக இருந்தது. V11 இரண்டாம் புதுப்பிப்பு மதிப்பீட்டை 127 நாடு லேபல்கள் முழுவதும் 100,000 செயற்கை வழக்குகளுக்கு விரிவுபடுத்துகிறது, — எட்டு சிறப்புத்துறைகளில் (அசல் ஏழு + trap துண்டை (trap subset) உறிஞ்சும் தனித்த உள்-மருத்துவ (internal-medicine) பிரிவு) பகிரப்பட்டவை. அதே மதிப்பீட்டு ரூப்ரிக் இரு இயக்கங்களிலும் பைட்-அடையாளமாகப் பயன்படுத்தப்படுகிறது.
அனைத்து வழக்குகளும் செயற்கையாக உருவாக்கப்பட்டதால், நீக்க வேண்டிய உண்மையான அடையாளங்கள் எதுவும் இல்லை; தனிப்பட்ட தரவும் சம்பந்தப்படவில்லை. ஒவ்வொரு செயற்கை வழக்கும் ஒரு பெஞ்ச்மார்க்-உள்புற வழக்கு குறியீட்டை கொண்டுள்ளது (V11 ஆரம்ப செட்டில் BT-NNN-LABEL, இரண்டாம் புதுப்பிப்பில் நிலையான case_uid ). வெளியிடப்பட்ட ஹார்னஸ், தொழில்நுட்ப அறிக்கை, அல்லது வெளியிடப்பட்ட தரவுத்தொகுப்புகளில் எங்கும் தனிப்பட்ட தரவு தோன்றவில்லை.
V11 ஆரம்ப வெளியீட்டின் படி மேற்கொள்ளப்பட்டது — 15 கைமுறையாகத் தேர்ந்தெடுக்கப்பட்ட கேஸ்கள்
அசல் V11 வழக்கு பேனலை டாக்டர் தாமஸ் க்ளைன் கையால் தேர்ந்தெடுத்து உருவாக்கினார்; ஆய்வக-மருத்துவ உதவியாளர்கள் அதிகமாக தவறாகப் புரிந்துகொள்ளும் நோயறிதல் வடிவங்களை பயிற்சி செய்யும் வகையில். கீழே பட்டியலிட்டுள்ள குறிப்பிட்ட நோயறிதல் பண்புக்காக பதினைந்து வழக்குகளில் ஒவ்வொன்றும் தேர்ந்தெடுக்கப்பட்டது.
இந்த குறிப்பிட்ட விநியோகம் ஏன்
ஹீமட்டாலஜிக்கு மூன்று வழக்குகள் கிடைக்கின்றன, ஏனெனில் மைக்ரோசைட்டிக் வேறுபாடுகள் மற்றும் மேக்ரோசைட்டிக் வேறுபாடுகள் ஆகியவை நிஜ உலக ஆய்வக நடைமுறையில் அதிக அளவு “trap” ஆகும். எண்டோக்ரைனாலஜிக்கு மூன்று வழக்குகள் கிடைக்கின்றன, ஏனெனில் Hashimoto's, PCOS, மற்றும் வைட்டமின் டி குறைபாடு ஆகியவற்றின் வெளிப்பாடுகள் வெவ்வேறு கண்டறிதல் வடிவங்களைப் பயிற்சி செய்கின்றன (தான்உடல் எதிர்ப்பு இயக்கம் சார்ந்தது, ஹார்மோன் விகிதம் சார்ந்தது, ஒரே குறியீடு சார்ந்தது). CKD, ASCVD ஆபத்து, மற்றும் SLE ஆகிய ஒவ்வொன்றுக்கும் தனித்தனி மதிப்பீட்டு முறைமை இருப்பதால், அந்த ஒற்றை-வழக்கு சிறப்புத்துறைகள் இன்னும் அர்த்தமுள்ளதாகவே இருக்கின்றன; என்ஜின் அவற்றை அழைக்க வேண்டும் (முறையே KDIGO நிலைமை, ASCVD 10 ஆண்டு ஆபத்து, 2019 EULAR/ACR SLE அளவுகோல்கள்).
V11 இரண்டாம் புதுப்பிப்பு — 127 நாடு லேபல்கள் முழுவதும் 100,000 செயற்கை வழக்குகள்
இரண்டாம் புதுப்பிப்பு, முதன்மை V11 இல் இருந்த 15-கேஸ் hard-coded Python literal ஐ, பெரிய அளவிலான, நிரல்முறையாக உருவாக்கப்பட்ட செயற்கை கேஸ் செட்டால் மாற்றுகிறது. ஒவ்வொரு இயக்கத்தின் தொடக்கத்திலும் கேஸ் செட் ஏற்றப்படுகிறது மற்றும் வெளிப்படைத்தன்மைக்காக கட்டமைப்பு பதிவு செய்யப்படுகிறது. உள்ளடக்கப் பகுதி அடிப்படையிலான கூட்டணி விநியோகம் கீழே காட்டப்பட்டுள்ளது.
செயற்கை நாடு-லேபல் விநியோகம் — முதல் 10 லேபல்கள்
100,000 செயற்கை வழக்குகள் locale கையாளுதலை சோதிக்க 127 நாடு லேபல்கள் (ISO 3166-1 alpha-2) கொண்டுள்ளன. லேபல் ஒதுக்கீடு: ஐரோப்பா 57.7%, அமெரிக்காஸ் 25.4%, ஆசியா-பசிபிக் 6.2%, பெயரிடப்பட்ட மத்திய-கிழக்கு/ஆப்பிரிக்கா லேபல்கள் 3.4%, மேலும் கூடுதலான 97 லேபல்கள் கொண்ட நீண்ட வால் மொத்தமாக சுமார் 7.3%. வழக்கு எண்ணிக்கையில் மிக அதிகமாக உள்ள பத்து லேபல்கள்: அமெரிக்கா (10,500), பிரேசில் (9,500), ஸ்பெயின் (9,000), இத்தாலி (8,000), ஜெர்மனி (7,800), பிரான்ஸ் (7,400), போர்ச்சுகல் (5,800), Türkiye (3,400), ஐக்கிய இராச்சியம் (2,900), மற்றும் மெக்சிகோ (2,500). லேபல்-வாரியான கூட்டு மதிப்பெண்கள் 0.9971 முதல் 0.9985 வரை இருந்தன. இந்த லேபல் எண்ணிக்கைகள் locale கையாளுதலை சோதிக்க பயன்படுத்தப்பட்ட உருவாக்கப்பட்ட வழக்குகளின் பண்புகள் — இவை உண்மையான பயனர்கள் அல்ல; உண்மையான உலக புவியியல் கவரேஜும் அல்ல.
முன்பதிவு செய்யப்பட்ட ரூப்ரிக் — விளக்கம்
இந்த பெஞ்ச்மார்க்கில் முன்பதிவு (pre-registration) என்பது மிக முக்கியமான ஒரே முறைமையியல் தேர்வு. எதிர்பார்க்கப்படும் ஒவ்வொரு கண்டறிதலும், ஒவ்வொரு மருத்துவ மதிப்பீட்டு முறைமையும், ஒவ்வொரு அறிக்கை பிரிவும் மூலக் குறியீட்டில் (source code) உறுதிப்படுத்தப்பட்டிருந்தது என்ஜின் அழைக்கப்படுவதற்கு முன்பே. எனவே, என்ஜினை “பிடிக்க” ரூப்ரிக்கை (rubric) பின்னர் சரிசெய்து (post-hoc) மேம்படுத்துவது சாத்தியமில்லை.
ஒருங்கிணைந்த மதிப்பெண் (composite score) மூன்று கூறுகளால் உருவாகிறது. அந்த கட்டமைப்பு கூறு (structural component) 35 சதவீதம் பங்களிக்கிறது; மேலும் என்ஜின் ஏழு கட்டாய அறிக்கை பிரிவுகளை (header, summary, key findings, differential, scoring systems, recommendations, follow-up) மற்றும் அவற்றுக்குள் உள்ள பதினாறு கட்டாய துணைப் பிரிவுகளையும் திருப்பி அளித்ததா என்பதை அளவிடுகிறது. பிரிவு இருப்பு (section presence) கட்டமைப்பு கணக்கில் 40 சதவீதம் எடையும், துணைப் பிரிவு இருப்பு (subsection presence) 60 சதவீதம் எடையும் கொண்டது.
தி மருத்துவ கூறு (clinical component) 55 சதவீதம் பங்களிக்கிறது; மேலும் மூன்று விஷயங்களை இணைக்கிறது: கண்டறிதல்-முக்கியச்சொல் நினைவூட்டல் (clinical sub-score இன் 70 சதவீதம்), மதிப்பீட்டு-முறைமை நினைவூட்டல் (20 சதவீதம் — பொருத்தமான இடங்களில் என்ஜின் Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR அளவுகோல்களை கணக்கிடுகிறதா), மற்றும் சாத்தியக்கூறு-கூட்டுத்தொகை செல்லுபடியாக்கல் சோதனை (10 சதவீதம் — differential சாத்தியக்கூறுகள் [90, 110] இடைவெளிக்குள் கூட்டுத்தொகையாக இருக்க வேண்டும்). trap வழக்குகளுக்கு, அதிகப்படியான கண்டறிதல் (hyperdiagnosis) குறித்த வெளிப்படையான தண்டனை அதிகபட்சம் 0.30 வரை கழிக்கப்படுகிறது; இது உருவாக்கப்பட்ட pathology flag ஒன்றுக்கு 0.10 வீதம் கணக்கிடப்பட்டு, அதிகபட்சம் மூன்று flag களாக வரையறுக்கப்படுகிறது.
தி தாமத கூறு (latency component) 10 சதவீதம் பங்களிக்கிறது. 20 விநாடிகளுக்குள் பதில் வந்தால் முழு 0.10 கிடைக்கும்; 40 விநாடிகளுக்குள் வந்தால் 0.05 கிடைக்கும்; அதைவிட மெதுவான எதுவும் பூஜ்யம் (zero). 20 விநாடி இலக்கு உற்பத்தி முதன்மை primary-path சேவை-நிலை நோக்கத்தை (service-level objective) பிரதிபலிக்கிறது; 40 விநாடி உச்சவரம்பு Phase 2 இல் கனமான என்ஜின் அழைப்புகளுக்கான மாற்று (fallback) பட்ஜெட்டை பிரதிபலிக்கிறது.
முன்பதிவு (pre-registration) என்னதைத் தடுக்கிறது
முதல்-தரப்பு (first-party) பெஞ்ச்மார்க்குகள் post-hoc ரூப்ரிக் tuning மூலம் தங்களின் சொந்த எண்ணிக்கைகளை உயர்த்துவது குறித்து பிரபலமாகவே உள்ளன. அந்த முறைமை கிட்டத்தட்ட எப்போதும் ஒரே மாதிரிதான்: குழு என்ஜினை இயக்குகிறது, எங்கு குறைவாக செயல்படுகிறது என்பதை பார்க்கிறது, பின்னர் அந்த குறைவான பகுதிகள் குறைவாக எண்ணப்படுமாறு ரூப்ரிக்கை அமைதியாக மாற்றுகிறது. முதல் என்ஜின் அழைப்புக்கு முன்பே ரூப்ரிக்கை மூலக் குறியீட்டில் உறுதிப்படுத்தி, harness-ஐ MIT உரிமத்தின் கீழ் வெளியிடுவதன் மூலம், அந்த மாற்றம் version control-ல் தெரியும். யாரும் repository-ஐ clone செய்து, ரூப்ரிக் ஆசிரியர் தேதிகளை (author dates) சரிபார்த்து, scoring-ஐ வடிவமைக்க என்ஜின் முடிவுகள் பயன்படுத்தப்படவில்லை என்பதை உறுதிப்படுத்தலாம்.
ஹைப்பர்-டயக்னோசிஸ் (Hyperdiagnosis) வலை வழக்குகள் — ஏன் அதிகமாக அழைப்பது (over-calling) தான் உண்மையான தோல்வி முறையாகும்
சாதாரண திரைகளில் (normal screens) pathology-ஐ மிகத் தீவிரமாக (aggressively) அதிகமாக அழைப்பது (over-calling) என்பது நுகர்வோர் நோக்கமுள்ள மருத்துவ உதவியாளர்களில் பதிவுசெய்யப்பட்ட தோல்வி முறையாகும். அதன் பின்விளைவுச் செலவுகளில் தேவையற்ற விசாரணை, நோயாளி கவலை, மற்றும் iatrogenic workup ஆகியவை அடங்கும். இந்த பெஞ்ச்மார்க்கில் உள்ள இரண்டு trap வழக்குகள், அந்த தோல்வி முறையை தெரியும் வகையிலும் மதிப்பிடக்கூடிய வகையிலும் உருவாக்கப்பட்டுள்ளன.
🟡 Trap 1 — BT-014-GILBERT
வெளிப்பாடு (Presentation). மொத்த பிலிருபின் 2.4 mg/dL கொண்ட 24 வயது ஆண். direct பகுதி சாதாரணமாக உள்ளது; transaminases மற்றும் alkaline phosphatase அவற்றின் குறிப்பு வரம்புகளுக்குள் இருக்கின்றன; reticulocytes குறிப்பிடத்தக்கதாக இல்லை; மேலும் haptoglobin மற்றும் LDH haemolysis-ஐ நீக்குகின்றன.
சரியான விளக்கம். Gilbert's syndrome — ஒரு benign UGT1A1 polymorphism. இந்த விளக்கம் hepatitis, cirrhosis, haemolytic anaemia, அல்லது biliary obstruction ஆகியவற்றை முன்வைக்கக் கூடாது.
V11 முடிவு. Composite 1.000. கண்காணிக்கப்பட்ட ஆறு over-diagnosis flag களில் எதுவும் செயலில் உள்ள கண்டறிதல்களாக தோன்றவில்லை.
🟡 Trap 2 — BT-015-HEALTHY
வெளிப்பாடு (Presentation). பதினைந்து அளவுருக்களைக் கொண்ட வழக்கமான ஸ்கிரீனிங் பேனலை உடைய 35 வயது பெண். ஒவ்வொரு பரிசோதனை அளவீடும் அதன் குறிப்பு வரம்புக்குள் நன்றாகவே உள்ளது.
சரியான விளக்கம். உறுதிப்படுத்தல் மற்றும் வாழ்க்கைமுறை பராமரிப்பு. இந்த விளக்கம், மருத்துவ ரீதியாக பயனுள்ளதாகத் தோன்றும் வகையில் எல்லைக்கோடு நோய்நிலையை செயற்கையாக உருவாக்கக் கூடாது.
V11 முடிவு. கூட்டு 1.000. கண்காணிக்கப்பட்ட ஏழு அதிக-நோயறிதல் எச்சரிக்கைகளில்—நீரிழிவு, இரத்தசோகை, ஹைப்போதைராய்டிசம், டிஸ்லிபிடீமியா, ஹெபடைட்டிஸ், சிறுநீரக நோய், குறைபாடு—எதுவும் செயலில் உள்ள நோயறிதலாக தோன்றவில்லை.
இரு சோதனை அமைப்புகளிலும் பதின்மூன்று கண்காணிக்கப்பட்ட ஹைப்பர்-நோயறிதல் எச்சரிக்கைகள் சரிபார்க்கப்பட்டன. எதுவும் செயல்படவில்லை. எந்த மருத்துவரும் AI இயந்திரத்தை ட்ரையாஜ் அல்லது முன்-ஆலோசனை கருவியாக பயன்படுத்த நினைக்கும் போது மிக முக்கியமாக கவனிக்க வேண்டிய முடிவு இதுவே: இல்லாத இடத்தில் அமைப்பு நோயை உருவாக்கவில்லை.
மென்ட்சர் குறியீடு: இரும்புக் குறைபாட்டை தலசீமியா பண்பிலிருந்து பிரித்தறிதல்
இரண்டாவது உயர்மதிப்பு கண்டுபிடிப்பு, வழக்கு BT-001 (இரும்புக் குறைபாடு இரத்தசோகை) மற்றும் வழக்கு BT-007 (பீட்டா-தலசீமியா மைனர்) ஆகியவற்றின் இணைப்பைச் சார்ந்தது. இரண்டும் மைக்ரோசைட்டோசிஸுடன் காணப்படுகின்றன; இது அறியாத வகைப்பாட்டாளர்களுக்கு நன்கு அறியப்பட்ட தடுமாற்றம். மென்ட்சர் குறியீடு, அதாவது MCV-ஐ RBC எண்ணிக்கையால் வகுத்தால், இரும்புக் குறைபாட்டில் 13-ஐ விட அதிகமாகவும், தலசீமியா பண்பில் 13-ஐ விட குறைவாகவும் இருக்கும்.
BT-001-ல், நோயாளி 34 வயது பெண்; ஹீமோகுளோபின் 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ஃபெரிட்டின் 6 ng/mL, மற்றும் உயர்ந்த TIBC இருந்தது. சுமார் 17.7 என்ற மென்ட்சர் குறியீடு முழுமையான இரும்புக் குறைபாட்டை ஆதரிக்கிறது. BT-007-ல், நோயாளி 28 வயது ஆண்; மைக்ரோசைட்டோசிஸுடன் (MCV 65.8 fL) இருந்தாலும், RBC எண்ணிக்கை 6.2 என்ற அளவில் உயர்ந்தது, RDW சாதாரணம், ஃபெரிட்டின் சாதாரணம், மற்றும் HbA2 5.6 சதவீதம். சுமார் 10.6 என்ற மென்ட்சர் குறியீடு தலசீமியா பண்பைச் சுட்டுகிறது; உயர்ந்த HbA2 பீட்டா-தலசீமியா மைனரை உறுதிப்படுத்துகிறது.
இரு வழக்குகளும் 1.000 என்ற மதிப்பெண் பெற்றன. இரு விளக்கங்களிலும் இயந்திரம் மென்ட்சர் குறியீட்டை வெளிப்படையாக பயன்படுத்தி, ஒவ்வொரு முறையிலும் சரியான நோயறிதலைத் திருப்பியது. முழு பெஞ்ச்மார்க்கில் மிக அதிக மருத்துவ ரீதியாக உறுதிப்படுத்தும் ஒரே முடிவு இதுவே, ஏனெனில் தலசீமியா பண்பை இரும்புக் குறைபாடாக தவறாக வகைப்படுத்துவது தேவையற்ற இரும்பு கூடுதல் அளிப்பை ஏற்படுத்தி குடும்ப-ஸ்கிரீனிங் வாய்ப்புகளை தவறவிடச் செய்கிறது; மேலும் இரும்புக் குறைபாட்டை தலசீமியாவாக தவறாக வகைப்படுத்துவது நேரடியான மாற்று சிகிச்சையை தாமதப்படுத்துகிறது. எங்கள் ஃபெரிட்டின் (ferritin) வரம்பு வழிகாட்டி விரிவான வேறுபாட்டு சூழலை விளக்குகிறது.
V11 ஆரம்ப குறிப்பு இயக்கத்திலிருந்து (ஏப்ரல் 23, 2026) கேஸ்-தனிப்பட்ட முடிவுகள்
15-கேஸ் proof-of-concept குழுவில் செய்யப்பட்ட அசல் V11 குறிப்பு இயக்கம், முறைமையான அடித்தளமாகும் இரண்டாம் புதுப்பிப்புக்கு: கீழே உள்ள ஒவ்வொரு கேஸ்-தனிப்பட்ட விவரமும் ரூப்ரிக் ஒரு உண்மையான இயந்திர பதிலை எவ்வாறு கையாளுகிறது என்பதை காட்டுகிறது. பதினைந்து கேஸ்களில் பன்னிரெண்டு கேஸ்கள் முதன்மை பாதையில் 1.000 என்ற உச்ச கூட்டு மதிப்பெண்ணை அடைந்தன; மூன்று கேஸ்கள் Phase 2 fallback மூலம் சேவை செய்யப்பட்டன; இதனால் 0.05 latency போனஸ் இழக்கப்பட்டது, ஆனால் அனைத்து மருத்துவ மற்றும் கட்டமைப்பு உள்ளடக்கமும் பாதுகாக்கப்பட்டது. ஒரு கேஸில் ஒரு கட்டாய துணைப்பிரிவு (mandatory subsection) காணவில்லை; ஒன்று சற்று குறைக்கப்பட்ட probability distribution தொகையை (sum) திருப்பியது.
PCOS வழக்கு (BT-008) பதில் அமைப்பில் ஒரு கட்டாய துணைப்பிரிவை இழந்தது — பதினாறு இல் பதினாறு (16 இல் 16) என்பதற்குப் பதிலாக பதினைந்து இல் பதினாறு (15 இல் 16) — இதனால் கட்டமைப்பு மதிப்பெண் 1.000 இலிருந்து 0.963 ஆகக் குறைந்தது. SLE வழக்கு (BT-011) சிறிதளவு குறைந்த probability-distribution கூட்டுத்தொகையைத் திருப்பியது; இதனால் மருத்துவ மதிப்பெண் 0.965 ஆகக் குறைந்தது; அதே நேரத்தில் ஒவ்வொரு கண்டறிதல் முக்கியச்சொல்லையும் மற்றும் மதிப்பீட்டு முறையையும் பாதுகாத்தது. எந்த துணை-சரியான வழக்கும் சரியான கண்டறிதலைத் தவறவிடவில்லை.
V11 இரண்டாம் புதுப்பிப்பு ஒருங்கிணைவு — 100,000 கேஸ்கள்
மக்கள் அளவிலான அளவீட்டில், தனிப்பட்ட கேஸ் வரிசைகள் மனிதரால் வாசிக்க முடியாததால், இரண்டாம் புதுப்பிப்பு 100,000-வரிசை அட்டவணைக்கு பதிலாக தொகுக்கப்பட்ட அளவுகோல்களை அறிக்கையிடுகிறது. முக்கிய தொகுப்பு கீழே காட்டப்பட்டுள்ளது; சிறப்புத்துறை-வாரியான மற்றும் நாடு-லேபல்-வாரியான பிரிவுகள் தொழில்நுட்ப அறிக்கையிலும் Figshare டெபாசிட்டிலும் வெளியிடப்பட்டுள்ளன. ஒரு stratified random மாதிரி n = 201 மூல இயந்திர பதில்கள் (deterministic seed 20260426) ஆய்வுக்காக GitHub results/ அடைவில் வெளியிடப்பட்டுள்ளது.
தலைப்பு மதிப்பெண் எதை நமக்குத் தெரிவிக்காது
இந்த குறிப்பிட்ட முன்பதிவு செய்யப்பட்ட ரூப்ரிக்கின் கீழ் 99.80 சதவீதம் என்ற கூட்டு மதிப்பெண், 127 நாடு லேபல்கள் கொண்ட 100,000-கேஸ் செயற்கை கூட்டணியில், near-ceiling செயல்திறனை குறிக்கிறது — ஆனால் அதை கவனமாக சூழலுடன் விளக்க வேண்டும். இந்த முடிவு V11 இல் மூலக் குறியீட்டில் நாங்கள் உறுதியளித்த ரூப்ரிக்குக்கு எதிராக என்ஜின் எப்படி நடக்கிறது என்பதை விவரிக்கிறது; காட்டு உலகில் இருக்கும் ஒவ்வொரு இரத்தப் பரிசோதனை பேனலிலும் என்ஜின் சரியானதா என்பதைப் பற்றிய பொதுவான (universal) கூற்று அல்ல.
இந்த மதிப்பெண், இந்த மதிப்பீட்டிற்காக தேர்ந்தெடுக்கப்பட்ட கண்டறிதல் (diagnostic) வடிவங்களை மக்கள் தொகை அளவிலான கூட்டத்தில் இயந்திரம் சரியாக கையாள்ந்தது என்பதை, வெளியிடப்பட்டு மீண்டும் உருவாக்கக்கூடிய (reproducible) ஒரு முறையியலின் (methodology) அடிப்படையில் சொல்கிறது. காட்டு சூழலில் இருக்கும் ஒவ்வொரு இரத்த பரிசோதனை பலகையிலும் இயந்திரம் சரியாக இருக்கிறது என்று அது சொல்லவில்லை. மருத்துவ நிபுணரின் (clinician) தீர்மானத்தை இயந்திரம் மாற்ற வேண்டும் என்று அது சொல்லவில்லை. மேலும் மாற்று AI அமைப்புகளை விட இயந்திரம் சிறந்தது என்று அது சொல்லவில்லை — மற்ற இயந்திரங்களுடன் ஒப்பீட்டு பகுப்பாய்வுகள் இந்த அறிக்கைக்கு திட்டமிட்டு (deliberately) வெளியே வைக்கப்பட்டன.
இந்த மதிப்பெண் நிறுவுவது ஒரு அடிப்படை நிலை (baseline) மட்டுமே. மதிப்பீட்டு அளவுகோலும் (rubric) கருவியும் (harness) பொதுவாக கிடைத்திருப்பதால், இயந்திரத்தின் எதிர்கால பதிப்புகளை அதே அளவுகோலுக்கு எதிராக மதிப்பிடலாம் — V11 ஆரம்ப 15 வழக்குகளுக்கு, இரண்டாம் புதுப்பிப்பு 100,000 வழக்குகள் கொண்ட கூட்டத்திற்கு, அல்லது பின்னர் வரும் எந்த விரிவாக்கத்திற்கும் — மேலும் வெளியிடப்பட்ட மதிப்பெண்ணுக்கும் எந்த அடுத்த ஓட்டத்திற்கும் இடையிலான இடைவெளி (gap) தானாகவே அளவிடக்கூடியதாக இருக்கும். முன்பதிவு (pre-registration) என்பதன் மதிப்பு இதுதான்: செயல்திறன் கோரிக்கைகளை சோதிக்கக்கூடிய கோரிக்கைகளாக மாற்றுகிறது.
10 நிமிடங்களில் இந்த அளவுகோலை மீண்டும் உருவாக்குவது எப்படி
மீண்டும் உருவாக்க (Reproduction) செய்ய, Kantesti API சான்றிதழ் ஜோடி மற்றும் Python 3.10 அல்லது அதற்கு மேற்பட்ட பதிப்புள்ள சூழல் மட்டும் போதுமானது; அதில் requests மற்றும் reportlab நூலகங்கள் நிறுவப்பட்டிருக்க வேண்டும். முழு harness என்பது MIT உரிமத்தின் கீழ் வெளியிடப்பட்ட ஒரே, தனித்துவமான Python module ஆகும்.
புதிய ஓட்டத்திற்கான நான்கு படிகள்
ஒன்று. repository-யை clone செய்யவும்: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. இரண்டு. சார்புகளை நிறுவவும் pip install -r requirements.txt (Second Update சேர்க்கிறது mysql-connector-python ≥ 8.0 SQL case loader-க்காக). மூன்று. அமைக்கவும் KANTESTI_USERNAME மற்றும் KANTESTI_PASSWORD இயந்திர API-க்கான சூழல் மாறிகளாக (environment variables). இரண்டாம் புதுப்பிப்பு SQL case loader-க்காகவும், இதையும் அமைக்கவும் KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, மற்றும் KANTESTI_DB_PASSWORD — படிப்பதற்கு மட்டும் அனுமதி (read-only) கொண்ட ஒரு பங்கு வழியாக loader இணைக்கிறது (bench_reader) அடையாள அட்டவணைகள் (identifying tables) மீது எந்த அனுமதிகளும் இல்லாதது. நான்கு. இயக்கவும் python benchmark_bloodtest.py --limit 100000 முழு Second-Update இயக்கத்திற்காக, அல்லது python benchmark_bloodtest.py --limit 1000 விரைவான மீளாய்விற்காக. வெளியீடுகள் இங்கே கிடைக்கும் ./benchmark_results/: நாடு-லேபல் மற்றும் சிறப்புத் துறை நெடுவரிசைகளுடன் ஒரு CSV scorecard, ஒரு JSON aggregate, ஒரு stratified-random மூல-பதில் மாதிரி, மற்றும் ஒரு Markdown அறிக்கை.
23 ஏப்ரல் 2026 (V11 ஆரம்பம், 15 வழக்குகள்) மற்றும் 26 ஏப்ரல் 2026 (V11 Second Update, 100,000 வழக்குகள்) ஆகிய reference இயக்கங்கள் repository-யின் results/ அடைவில் பாதுகாக்கப்பட்டுள்ளன. நீங்கள் இயக்கினால், reference இயக்கங்களை மாற்றாமல் புதிய நேரமுத்திரையுடன் (timestamped) ஒரு scorecard உருவாகும். உங்கள் இயக்கத்தின் முடிவு குறிப்பிடத்தக்க அளவில் வேறுபட்டதாக இருந்தால், GitHub issue ஒன்றைத் திறந்து, அந்த இயக்கத்தின் நேரமுத்திரையும் பதில் metadata-வில் திரும்பிய engine version-யும் சேர்க்கவும்.
வரம்புகள் மற்றும் எதிர்கால பணிகள்
127 நாடு லேபல்கள் முழுவதும் 100,000 வழக்குகள் இருந்தாலும், நான்கு வரம்புகள் தெளிவாக ஒப்புக்கொள்ளப்பட வேண்டும்: long-tail லேபல் undersampling, single-shot மதிப்பீடு, single-engine வரம்பு, மற்றும் single-source தரவு தோற்றம். இவை அனைத்தும் செயலில் உள்ள தொடர்ச்சிப் பணிகளில் தீர்க்கப்படுகின்றன.
Long-tail லேபல் கவரேஜ். Second Update 127 நாடு லேபல்கள் வரை உள்ளடக்குகிறது, ஆனால் விநியோகம் சமநிலையற்றது — முதல் 10 லேபல்கள் மொத்த வழக்குகளில் ≈66.4% பங்கைக் கொண்டுள்ளன; மேலும் கூடுதலான 97 லேபல்களின் long tail சேர்ந்து ≈7.3% பங்களிக்கிறது (சுமார் 7,300 வழக்குகள் மொத்தமாக, சராசரியாக ஒரு லேபலுக்கு ~75 வழக்குகள்). ஆகவே, இந்த long tail-இல் உள்ள per-label composite-கள் தலைப்பு எண்கள் காட்டுவதைவிட அதிக சத்தமுடையவை. எதிர்கால இயக்கங்கள் label ஒதுக்கீட்டை மறுசீரமைத்து per-label மதிப்பீடுகளை உறுதிப்படுத்தும்.
ஒரே முறை மதிப்பீடு. அந்த cohort-இல் உள்ள ஒவ்வொரு வழக்கும் ஒருமுறை மட்டுமே மதிப்பீடு செய்யப்பட்டது. குறைந்த sampling temperature-இல்கூட பெரிய மொழி மாதிரிகள் (large language models) குறிப்பிடத்தக்க output மாறுபாட்டை (output variance) காட்டுகின்றன; ஆகவே, ஒவ்வொரு வழக்கிற்கும் ஐந்து மதிப்பீடுகளுடன் பல-இயக்க (multi-run) நெறிமுறை மற்றும் அறிவிக்கப்பட்ட மாறுபாடு (reported variance) அடுத்த இயல்பான படியாகும் — குறிப்பாக trap-case துணைத்தொகுதியில் (trap-case subset), sampling jitter-க்கு உட்பட்ட நிலைத்தன்மை (consistency) பாதுகாப்பு (safety) கூற்றின் ஒரு பகுதியாகும்.
ஒரே இயந்திர வரம்பு. இந்த அறிக்கை ஒரு engine-ஐ விவரிக்கிறது. மாற்று AI அமைப்புகளுடன் ஒப்பீட்டு பகுப்பாய்வுகள் இங்கு வரம்புக்கு உட்பட்டவை (out of scope); அதே MIT உரிமம் கொண்ட harness-க்கு எதிராக, பொருத்தமான முறைமையுடன் (methodology) தனித்த சுயாதீன ஆய்வாக அவற்றை மேற்கொள்ளலாம்.
Synthetic data. 100,000 வழக்குகள் synthetic-ஆக உருவாக்கப்பட்டவை; synthetic cases அல்ல, மேலும் முடிவுகள் நிஜ உலக மருத்துவ செயல்திறனுக்கு மாற்றப்படாது. நிஜமான, ஒப்புதல் பெற்ற, வெளிப்புறமாக பெறப்பட்ட தரவின் மீது மதிப்பீடு செய்ய வேண்டுமெனில் பொருத்தமான நெறிமுறை மேற்பார்வை தேவைப்படும்; இது இந்த synthetic benchmark-இன் வரம்புக்கு வெளியானது.
இந்த நான்கைத் தவிர, திட்டமிடப்பட்ட மிகப் பெரிய தாக்கம் கொண்ட விரிவாக்கம் நாடு-அதிகாரத்திற்கு (jurisdiction) ஏற்ப பல மொழி சமநிலை (multi-language parity) ஆகும். Kantesti AI Engine 75+ மொழிகளில் பயனர்களுக்கு சேவை செய்கிறது; மேலும் மொழி-அடுக்கு செய்யப்பட்ட Second-Update துணை-cohort-களை (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) இயக்குவது, engine ஆதரிக்கும் மொழிகள் முழுவதும் output தரத்தை அளவிடும். ஒவ்வொரு மொழி-அடுக்கு பகுப்பாய்வும் அதன் சொந்த DOI மற்றும் harness branch-உடன் வெளியிடப்படும்.