இந்த பெஞ்ச்மார்க் ஏன் உள்ளது மற்றும் அது என்ன சோதிக்கிறது

AI உதவியுடன் இரத்த பரிசோதனை விளக்கம் நுகர்வோர் மற்றும் மருத்துவ பணிச்சூழல்களில் அதிகரித்து பயன்படுத்தப்படுகிறது; ஆனால் ஆய்வக மருத்துவத்திற்கேற்ற, மீண்டும் உருவாக்கக்கூடிய மதிப்பீட்டு கட்டமைப்புகள் இன்னும் அரிதாகவே உள்ளன. இந்த சூழலில் மிக முக்கியமான கேள்விகள் பொதுவான மருத்துவ கேள்வி-பதில் அளவுகோல்களில் உள்ளவையல்ல: சராசரி கார்பஸ்குலர் அளவு ஒரே மாதிரியாக இருந்தாலும், ஒரு என்ஜின் இரும்புக் குறைபாட்டை தலசீமியா பண்பிலிருந்து பிரிக்க முடியுமா; அது கில்பர்ட் நோயை ஹெபடைட்டிஸாக அதிகமாக நோயறியுமா; மற்றும் முழுமையாக சாதாரணமான திரைச்சோதனை பேனலில் அது நோயியல் கண்டுபிடிப்புகளை உருவாக்குமா?

முன்பதிவு செய்யப்பட்ட மதிப்பீட்டு அளவுகோல் ஓட்டப்படம் (flow diagram) — Kantesti AI Engine — V11 இரண்டாம் புதுப்பிப்பு, 100,000 வழக்குகளில் 99.80% composite மதிப்பெண் — எவ்வாறு உறையவைக்கப்பட்ட (frozen) மதிப்பீட்டு அளவுகோல்களுக்கு எதிராக மதிப்பிடப்படுகிறது என்பதை காட்டுகிறது
படம் 1: V11 ஆரம்ப வெளியீட்டின் பின்னணியில் உள்ள அளவுகோல் கட்டமைப்பு 99.80% கூட்டு மதிப்பெண் V11 இரண்டாம் புதுப்பிப்பு 100,000-கேஸ் கூட்டணியில் — ஒவ்வொரு கேஸும், ஒவ்வொரு முக்கியச் சொல்லும், ஒவ்வொரு மதிப்பீட்டு முறையும் என்ஜின் ஒரு PDF-ஐ கூட பார்க்கும் முன்பே மூலக் குறியீட்டில் நிரந்தரமாக நிர்ணயிக்கப்பட்டுள்ளது; மேலும் அந்த ரூப்ரிக் V11 ஆரம்ப வெளியீட்டுடன் பைட்-அடையாளமாக (byte-identical) உள்ளது. வடிவமைப்பின் காரணமாக post-hoc ரூப்ரிக் சரிசெய்தல் சாத்தியமில்லை.

ஒரு தனி இரத்தப் பரிசோதனை பேனல் பொதுவாக பல போட்டியிடும் விளக்கங்களை ஆதரிக்க போதுமான சிக்னலை கொண்டிருக்கும்; விளக்கும் மருத்துவரின் பணி, அவற்றை ஒன்றோடொன்று ஒப்பிட்டு எடையிடுவது; பாடநூல் போன்ற ஒரே பதிலை மீட்டெடுப்பது அல்ல. பாடநூல் வழக்குகளில் நன்றாக செயல்படும் ஒரு இயந்திரம், மிக முக்கியமான வழக்குகளில் இன்னும் தோல்வியடையலாம்: differential-diagnosis சிக்கல்கள், தனியாகப் பார்த்தால் எச்சரிக்கையாகத் தோன்றும் தீங்கற்ற மாறுபாடுகள், மற்றும் முழுமையாக சாதாரணமான பேனல்கள்—தன்னம்பிக்கையுள்ள உதவியாளர்களை நோயியல் உருவாக்கத் தூண்டும்.

இந்த அளவுகோல் அந்த தோல்வி முறைகளையே மையமாகக் கொண்டு உருவாக்கப்பட்டது. பதினைந்து வழக்குகளில் ஒவ்வொன்றும் ஒரு குறிப்பிட்ட கண்டறிதல் பண்புக்காகத் தேர்ந்தெடுக்கப்பட்டது: ஒரே மாதிரியான mean corpuscular volume உடைய beta-thalassaemia trait-இலிருந்து தனியாக வைத்திருக்க வேண்டிய இரும்புக் குறைபாடு காரணமான microcytosis; ஒரே அசாதாரணம் தனித்த isolated indirect hyperbilirubinaemia ஆக இருக்கும் Gilbert's syndrome வெளிப்பாடு; மற்றும் ஒவ்வொரு analyte-உம் அதன் reference range-க்குள் இருக்கும் பதினைந்து-அளவுரு screening பேனல். rubric, ஒவ்வொரு வழக்கையும் அதன் சொந்த நிபந்தனைகளில் வாசிக்கும் இயந்திரங்களுக்கு வெகுமதி அளிக்கிறது; அத்தகைய கண்டறிதல் தேவையில்லாத இடத்தில் தன்னம்பிக்கையுடன் ஒரு நோயறிதலை எட்டும் இயந்திரங்களுக்கு தண்டனை விதிக்கிறது.

டாக்டர் தாமஸ் கிளைன் (MD) ஆக, இந்த case panel-ஐ நான் தேர்ந்தெடுத்தது, ஆய்வக-மருத்துவ உதவியாளர்கள் அதிகமாக தவறாகப் பெறும் வடிவங்கள் இவையே என்பதால்தான். விலையுயர்ந்த தோல்வி முறை "அரிதான ஒரு நோயை தவறவிடுவது" அல்ல — அதற்கு பதிலாக, அதைக் கொண்டிராத நோயாளிகளில் வழக்கமான நோயியல் (pathology) ஒன்றை உருவாக்குவது. நமது மருத்துவ சரிபார்ப்பு hub பரந்த கட்டமைப்பை விவரிக்கிறது; இந்தப் பக்கம் V11 ஆரம்ப proof-of-concept மற்றும் அதனை 127 நாடு லேபல்கள் கொண்ட ஒரு செயற்கை கேஸ் செட்டிலிருந்து பெறப்பட்ட 100,000 செயற்கை வழக்குகளாக அளவுபடுத்திய V11 இரண்டாம் புதுப்பிப்பை விவரிக்கிறது — அதே மதிப்பீட்டு ரூப்ரிக், byte-identical, மற்றும் post-hoc tuning அனுமதிக்கப்படாமல்.

சமீபத்திய குறிப்பு (reference) இயக்கம் — V11 இரண்டாம் புதுப்பிப்பு (ஏப்ரல் 26, 2026)

26 ஏப்ரல் 2026 அன்று நடைபெற்ற V11 இரண்டாம் புதுப்பிப்பு குறிப்பு இயக்கம் ஒரு கூட்டு (composite) மதிப்பெண்ணை உருவாக்கியது 99.80% V11 ஆரம்ப வெளியீட்டில் பயன்படுத்தப்பட்ட அதே முன்பதிவு செய்யப்பட்ட (pre-registered) ரூப்ரிக் மூலம் மதிப்பிடப்பட்டது; 100,000 செயற்கை வழக்குகள் Kantesti செயற்கை கேஸ் செட்டிலிருந்து பெறப்பட்டவை மற்றும் 127 நாடு லேபல்கள் முழுவதும் மற்றும் 75+ மொழிகளை உள்ளடக்கியவை. ஒவ்வொரு கேஸும் என்ஜினின் முதன்மை பாதையில் (primary path) முடிந்தது; trap-case hyperdiagnosis flag செயல்பாடுகள் 0 / 87,412. இல் நிலைத்திருந்தன. 23 ஏப்ரல் 2026 அன்று நடைபெற்ற அசல் V11 இயக்கம் 15 கைமுறையாகத் தேர்ந்தெடுக்கப்பட்ட (hand-curated) கேஸ்களை (composite 99.12%) உள்ளடக்கியது மற்றும் ரூப்ரிக்கை சரிபார்த்தது; இரண்டாம் புதுப்பிப்பு அந்த ரூப்ரிக்கை பைட்-அடையாளமாகவே வைத்துக்கொண்டு, மதிப்பீட்டை மக்கள்-அளவிலான (population-scale) கூட்டணிக்கு விரிவாக்குகிறது.

Composite 99.80% 100,000-ல் 100,000 கேஸ்கள் மதிப்பெண் பெற்றன
1.000 Structural score
0.996 Clinical score
13.26 s சராசரி தாமதம் (latency)
0 / 87,412 Trap false-positives

composite சூத்திரம் மூன்று கூறுகளை இணைக்கிறது: structural இணக்கம் ஏழு கட்டாய அறிக்கை பிரிவுகள் மற்றும் பதினாறு கட்டாய துணைப் பிரிவுகளுடன், உள்ளடக்க துல்லியம் முக்கியச்சொல் recall + மதிப்பீட்டு-முறை recall + probability-distribution validity check என அளவிடப்படுகிறது, மற்றும் பதில் தாமதம் (response latency) முதன்மை-பாதை சேவை-நிலை இலக்குக்கு (service-level target) எதிராக. கீழே உள்ள ரூப்ரிக் சூத்திரத்தில் துல்லியமான பிரிப்பு காட்டப்பட்டுள்ளது — இரண்டாம் புதுப்பிப்பிற்காக இவற்றில் எந்த எடைகளும் (weights) அல்லது துணை-ரூப்ரிக்குகளும் மாற்றப்படவில்லை.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × தாமதம்

மீதமுள்ள 0.20 சதவீத புள்ளிகள் (percentage points) அளவளாவல் (headroom) பெரும்பாலும் மருத்துவ துணை-மதிப்பெண்ணில் (clinical sub-score) பிரிகிறது — எதிர்பார்க்கப்பட்ட மதிப்பீட்டு-முறை (scoring-system) முக்கியச் சொல் என்ஜின் விளக்கத்தில் (interpretation) இல்லாமல் இருந்தது, ஆனால் நோயறிதல் உள்ளடக்கம் சரியாக இருந்தது; சிறிய பகுதி கேஸ்கள் (முக்கியமாக Hepatology மற்றும் Rheumatology) இதை கொண்டிருந்தன. 100,000-கேஸ் இரண்டாம்-புதுப்பிப்பு கூட்டணியில் எந்த கேஸும் நோயறிதலைத் தவறவிடவில்லை. தாமதம் (latency) V11 ஆரம்ப வெளியீட்டில் சராசரியாக 20.17 s இருந்து இரண்டாம் புதுப்பிப்பில் 13.26 s ஆக மேம்பட்டது; இரண்டு இயக்கங்களுக்கிடையில் உற்பத்தி என்ஜின் மேம்பாடுகள் (optimisations) இதை பிரதிபலிக்கின்றன; ரூப்ரிக், மதிப்பீட்டு குறியீடு (scoring code), மற்றும் API இறுதிநிலை (endpoint) மாற்றமின்றி உள்ளது.

ஒவ்வொரு லேபலுக்குமான கூட்டு மதிப்பெண்கள், அதிகம் பிரதிநிதித்துவம் பெற்ற 30 நாடு லேபல்கள் முழுவதும் 0.9971 முதல் 0.9985 வரை இருந்தன. கூடுதலான 97 லேபல்கள் கொண்ட நீண்ட வால் (மொத்தம் ≈7,300 வழக்குகள்) எந்த முறையான சிதைவையும் காட்டவில்லை. வழக்கு எண்ணிக்கையில் மிக அதிகமாக இருந்த லேபல்கள்: அமெரிக்கா (10,500), பிரேசில் (9,500), ஸ்பெயின் (9,000), இத்தாலி (8,000), ஜெர்மனி (7,800), பிரான்ஸ் (7,400), போர்ச்சுகல் (5,800), Türkiye (3,400), ஐக்கிய இராச்சியம் (2,900), மற்றும் மெக்சிகோ (2,500). லேபல்-வாரியான கூட்டு மதிப்பெண்கள் 0.9971 முதல் 0.9985 வரை இருந்தன.

15 வழக்குகளிலிருந்து 100,000 வரை: 127 நாடு லேபல்கள் முழுவதும் கூட்டணி வளர்ச்சி

முதன்மை V11 கேஸ் பேனல் ஏழு சிறப்புத்துறைகளை — ஹீமடாலஜி, எண்டோகிரினாலஜி, மெட்டபாலிக் மெடிசின், ஹெபடாலஜி, நெப்ராலஜி, கார்டியாலஜி, ரியூமடாலஜி — மேலும் இரண்டு தனித்த hyperdiagnosis trap வழக்குகளையும் கொண்டது; ஒவ்வொரு வழக்கும் செயற்கையாக உருவாக்கப்பட்ட இரத்தப் பரிசோதனை பேனலாக இருந்தது. V11 இரண்டாம் புதுப்பிப்பு மதிப்பீட்டை 127 நாடு லேபல்கள் முழுவதும் 100,000 செயற்கை வழக்குகளுக்கு விரிவுபடுத்துகிறது, — எட்டு சிறப்புத்துறைகளில் (அசல் ஏழு + trap துண்டை (trap subset) உறிஞ்சும் தனித்த உள்-மருத்துவ (internal-medicine) பிரிவு) பகிரப்பட்டவை. அதே மதிப்பீட்டு ரூப்ரிக் இரு இயக்கங்களிலும் பைட்-அடையாளமாகப் பயன்படுத்தப்படுகிறது.

V11 ஆரம்ப case-panel வடிவமைப்பு — ஏழு மருத்துவ சிறப்புத் துறைகளில் பதினைந்து synthetic blood-test வழக்குகள் மற்றும் இரண்டு hyperdiagnosis trap வழக்குகள்; அதே rubric, V11 Second Update-இல் 100,000 வழக்குகளில் 99.80% composite மதிப்பெண்ணை பெற்றது
படம் 2: hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology ஆகியவற்றில் V11 ஆரம்ப கேஸ்-பேனல் வடிவமைப்பு — மேலும் இரண்டு trap கேஸ்கள்: Gilbert's syndrome மற்றும் முழுமையாக சாதாரணமான screening பேனல். இரண்டாம் புதுப்பிப்பு இந்த ரூப்ரிக்கை பைட்-அடையாளமாகவே பாதுகாத்து, Kantesti SQL களஞ்சியத்திலிருந்து பெறப்பட்ட 100,000 கேஸ்களுக்கு கூட்டணியை விரிவாக்குகிறது.

அனைத்து வழக்குகளும் செயற்கையாக உருவாக்கப்பட்டதால், நீக்க வேண்டிய உண்மையான அடையாளங்கள் எதுவும் இல்லை; தனிப்பட்ட தரவும் சம்பந்தப்படவில்லை. ஒவ்வொரு செயற்கை வழக்கும் ஒரு பெஞ்ச்மார்க்-உள்புற வழக்கு குறியீட்டை கொண்டுள்ளது (V11 ஆரம்ப செட்டில் BT-NNN-LABEL, இரண்டாம் புதுப்பிப்பில் நிலையான case_uid ). வெளியிடப்பட்ட ஹார்னஸ், தொழில்நுட்ப அறிக்கை, அல்லது வெளியிடப்பட்ட தரவுத்தொகுப்புகளில் எங்கும் தனிப்பட்ட தரவு தோன்றவில்லை.

V11 ஆரம்ப வெளியீட்டின் படி மேற்கொள்ளப்பட்டது — 15 கைமுறையாகத் தேர்ந்தெடுக்கப்பட்ட கேஸ்கள்

அசல் V11 வழக்கு பேனலை டாக்டர் தாமஸ் க்ளைன் கையால் தேர்ந்தெடுத்து உருவாக்கினார்; ஆய்வக-மருத்துவ உதவியாளர்கள் அதிகமாக தவறாகப் புரிந்துகொள்ளும் நோயறிதல் வடிவங்களை பயிற்சி செய்யும் வகையில். கீழே பட்டியலிட்டுள்ள குறிப்பிட்ட நோயறிதல் பண்புக்காக பதினைந்து வழக்குகளில் ஒவ்வொன்றும் தேர்ந்தெடுக்கப்பட்டது.

ஹீமடாலஜி (3) BT-001, BT-006, BT-007 இரும்புக் குறைபாடு அனீமியா · B12 குறைபாடு · பீட்டா-தலசீமியா மைனர்
எண்டோகிரினாலஜி (3) BT-002, BT-008, BT-012 ஹாஷிமோட்டோஸ் தைராய்டைட்டிஸ் · இன்சுலின் எதிர்ப்புடன் கூடிய PCOS · கடுமையான வைட்டமின் டி குறைபாடு
மெட்டபாலிக் (2) BT-003, BT-013 மெட்டபாலிக் சிண்ட்ரோமுடன் கூடிய T2DM · கௌட் அபாயத்துடன் கூடிய ஹைப்பர்யூரிசீமியா
ஹெபடாலஜி (2) BT-004, BT-009 NAFLD / NASH · கடுமையான வைரல் ஹெபடிடிஸ்
நெப்ராலஜி · கார்டியாலஜி · ரியுமடாலஜி (3) BT-005, BT-010, BT-011 CKD நிலை 3 · அதெரோஜெனிக் டிஸ்லிபிடீமியா · சிஸ்டமிக் லூபஸ் எரிதிமேடோசஸ்
Trap வழக்குகள் (2) BT-014, BT-015 Gilbert's syndrome (தனித்த தனி அதிகரித்த மறைமுக பிலிருபினீமியா) · முழுமையாக சாதாரண பெரியவர் ஸ்கிரீன்

இந்த குறிப்பிட்ட விநியோகம் ஏன்

ஹீமட்டாலஜிக்கு மூன்று வழக்குகள் கிடைக்கின்றன, ஏனெனில் மைக்ரோசைட்டிக் வேறுபாடுகள் மற்றும் மேக்ரோசைட்டிக் வேறுபாடுகள் ஆகியவை நிஜ உலக ஆய்வக நடைமுறையில் அதிக அளவு “trap” ஆகும். எண்டோக்ரைனாலஜிக்கு மூன்று வழக்குகள் கிடைக்கின்றன, ஏனெனில் Hashimoto's, PCOS, மற்றும் வைட்டமின் டி குறைபாடு ஆகியவற்றின் வெளிப்பாடுகள் வெவ்வேறு கண்டறிதல் வடிவங்களைப் பயிற்சி செய்கின்றன (தான்உடல் எதிர்ப்பு இயக்கம் சார்ந்தது, ஹார்மோன் விகிதம் சார்ந்தது, ஒரே குறியீடு சார்ந்தது). CKD, ASCVD ஆபத்து, மற்றும் SLE ஆகிய ஒவ்வொன்றுக்கும் தனித்தனி மதிப்பீட்டு முறைமை இருப்பதால், அந்த ஒற்றை-வழக்கு சிறப்புத்துறைகள் இன்னும் அர்த்தமுள்ளதாகவே இருக்கின்றன; என்ஜின் அவற்றை அழைக்க வேண்டும் (முறையே KDIGO நிலைமை, ASCVD 10 ஆண்டு ஆபத்து, 2019 EULAR/ACR SLE அளவுகோல்கள்).

V11 இரண்டாம் புதுப்பிப்பு — 127 நாடு லேபல்கள் முழுவதும் 100,000 செயற்கை வழக்குகள்

இரண்டாம் புதுப்பிப்பு, முதன்மை V11 இல் இருந்த 15-கேஸ் hard-coded Python literal ஐ, பெரிய அளவிலான, நிரல்முறையாக உருவாக்கப்பட்ட செயற்கை கேஸ் செட்டால் மாற்றுகிறது. ஒவ்வொரு இயக்கத்தின் தொடக்கத்திலும் கேஸ் செட் ஏற்றப்படுகிறது மற்றும் வெளிப்படைத்தன்மைக்காக கட்டமைப்பு பதிவு செய்யப்படுகிறது. உள்ளடக்கப் பகுதி அடிப்படையிலான கூட்டணி விநியோகம் கீழே காட்டப்பட்டுள்ளது.

நாளமில்லா சுரப்பியியல் 23,900 வழக்குகள் (23.9%) தைராய்டு, PCOS, வைட்டமின் டி, கோனாடல் அச்சு, பிட்யூட்டரி
வளர்சிதை மாற்ற மருத்துவம் 21,900 வழக்குகள் (21.9%) T2DM, வளர்சிதை மாற்றச் சிண்ட்ரோம், லிபிட் பேனல்கள், ஹைப்பர்யூரிசீமியா
இரத்தவியல் 15,400 வழக்குகள் (15.4%) மைக்ரோசைட்டிக் மற்றும் மேக்ரோசைட்டிக் வேறுபாடுகள், B12/ஃபோலேட், இரும்பு ஆய்வுகள்
கல்லீரல் மருத்துவம் (Hepatology) 12,400 வழக்குகள் (12.4%) NAFLD/NASH, வைரல் ஹெபடைட்டிஸ், FIB-4, கொலஸ்டேசிஸ்
உள்மருத்துவம் (trap subset உட்பட) 9,000 வழக்குகள் (9.0%) கலப்பு அறிகுறி வெளிப்பாடுகள் மற்றும் 8,723 தனிப்பட்ட ஹைப்பர் நோயறிதல் trap வழக்குகள்
இருதயவியல் 7,500 வழக்குகள் (7.5%) ASCVD ஆபத்து, அத்தெரோஜெனிக் டிஸ்லிபிடீமியா, hs-CRP
வாதநோயியல் 6,000 வழக்குகள் (6.0%) SLE, RA, வாஸ்குலைட்டிஸ், தன்னியக்க எதிர்மருந்து பேனல்கள் (EULAR/ACR அளவுகோல்கள்)
சிறுநீரகவியல் 4,000 வழக்குகள் (4.0%) CKD நிலை நிர்ணயம் (KDIGO), eGFR போக்குகள், எலக்ட்ரோலைட் கோளாறு

செயற்கை நாடு-லேபல் விநியோகம் — முதல் 10 லேபல்கள்

100,000 செயற்கை வழக்குகள் locale கையாளுதலை சோதிக்க 127 நாடு லேபல்கள் (ISO 3166-1 alpha-2) கொண்டுள்ளன. லேபல் ஒதுக்கீடு: ஐரோப்பா 57.7%, அமெரிக்காஸ் 25.4%, ஆசியா-பசிபிக் 6.2%, பெயரிடப்பட்ட மத்திய-கிழக்கு/ஆப்பிரிக்கா லேபல்கள் 3.4%, மேலும் கூடுதலான 97 லேபல்கள் கொண்ட நீண்ட வால் மொத்தமாக சுமார் 7.3%. வழக்கு எண்ணிக்கையில் மிக அதிகமாக உள்ள பத்து லேபல்கள்: அமெரிக்கா (10,500), பிரேசில் (9,500), ஸ்பெயின் (9,000), இத்தாலி (8,000), ஜெர்மனி (7,800), பிரான்ஸ் (7,400), போர்ச்சுகல் (5,800), Türkiye (3,400), ஐக்கிய இராச்சியம் (2,900), மற்றும் மெக்சிகோ (2,500). லேபல்-வாரியான கூட்டு மதிப்பெண்கள் 0.9971 முதல் 0.9985 வரை இருந்தன. இந்த லேபல் எண்ணிக்கைகள் locale கையாளுதலை சோதிக்க பயன்படுத்தப்பட்ட உருவாக்கப்பட்ட வழக்குகளின் பண்புகள் — இவை உண்மையான பயனர்கள் அல்ல; உண்மையான உலக புவியியல் கவரேஜும் அல்ல.

முன்பதிவு செய்யப்பட்ட ரூப்ரிக் — விளக்கம்

இந்த பெஞ்ச்மார்க்கில் முன்பதிவு (pre-registration) என்பது மிக முக்கியமான ஒரே முறைமையியல் தேர்வு. எதிர்பார்க்கப்படும் ஒவ்வொரு கண்டறிதலும், ஒவ்வொரு மருத்துவ மதிப்பீட்டு முறைமையும், ஒவ்வொரு அறிக்கை பிரிவும் மூலக் குறியீட்டில் (source code) உறுதிப்படுத்தப்பட்டிருந்தது என்ஜின் அழைக்கப்படுவதற்கு முன்பே. எனவே, என்ஜினை “பிடிக்க” ரூப்ரிக்கை (rubric) பின்னர் சரிசெய்து (post-hoc) மேம்படுத்துவது சாத்தியமில்லை.

ஒருங்கிணைந்த மதிப்பெண் (composite score) மூன்று கூறுகளால் உருவாகிறது. அந்த கட்டமைப்பு கூறு (structural component) 35 சதவீதம் பங்களிக்கிறது; மேலும் என்ஜின் ஏழு கட்டாய அறிக்கை பிரிவுகளை (header, summary, key findings, differential, scoring systems, recommendations, follow-up) மற்றும் அவற்றுக்குள் உள்ள பதினாறு கட்டாய துணைப் பிரிவுகளையும் திருப்பி அளித்ததா என்பதை அளவிடுகிறது. பிரிவு இருப்பு (section presence) கட்டமைப்பு கணக்கில் 40 சதவீதம் எடையும், துணைப் பிரிவு இருப்பு (subsection presence) 60 சதவீதம் எடையும் கொண்டது.

தி மருத்துவ கூறு (clinical component) 55 சதவீதம் பங்களிக்கிறது; மேலும் மூன்று விஷயங்களை இணைக்கிறது: கண்டறிதல்-முக்கியச்சொல் நினைவூட்டல் (clinical sub-score இன் 70 சதவீதம்), மதிப்பீட்டு-முறைமை நினைவூட்டல் (20 சதவீதம் — பொருத்தமான இடங்களில் என்ஜின் Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR அளவுகோல்களை கணக்கிடுகிறதா), மற்றும் சாத்தியக்கூறு-கூட்டுத்தொகை செல்லுபடியாக்கல் சோதனை (10 சதவீதம் — differential சாத்தியக்கூறுகள் [90, 110] இடைவெளிக்குள் கூட்டுத்தொகையாக இருக்க வேண்டும்). trap வழக்குகளுக்கு, அதிகப்படியான கண்டறிதல் (hyperdiagnosis) குறித்த வெளிப்படையான தண்டனை அதிகபட்சம் 0.30 வரை கழிக்கப்படுகிறது; இது உருவாக்கப்பட்ட pathology flag ஒன்றுக்கு 0.10 வீதம் கணக்கிடப்பட்டு, அதிகபட்சம் மூன்று flag களாக வரையறுக்கப்படுகிறது.

தி தாமத கூறு (latency component) 10 சதவீதம் பங்களிக்கிறது. 20 விநாடிகளுக்குள் பதில் வந்தால் முழு 0.10 கிடைக்கும்; 40 விநாடிகளுக்குள் வந்தால் 0.05 கிடைக்கும்; அதைவிட மெதுவான எதுவும் பூஜ்யம் (zero). 20 விநாடி இலக்கு உற்பத்தி முதன்மை primary-path சேவை-நிலை நோக்கத்தை (service-level objective) பிரதிபலிக்கிறது; 40 விநாடி உச்சவரம்பு Phase 2 இல் கனமான என்ஜின் அழைப்புகளுக்கான மாற்று (fallback) பட்ஜெட்டை பிரதிபலிக்கிறது.

MIT உரிமம் கொண்ட Kantesti பெஞ்ச்மார்க் ஹார்னஸ் இயங்கி, ஒவ்வொரு வழக்கிற்குமான (per-case) மதிப்பெண்களை வெளியிடும் இறுதி (terminal) ஸ்கிரீன்ஷாட் — அதே ஹார்னஸ், இப்போது SQL மூலம் இயக்கப்பட்டு, V11 இரண்டாம் புதுப்பிப்பின் 100,000-வழக்கு இயக்கத்தில் 99.80% composite மதிப்பெண்ணை உருவாக்கியது
படம் 3: செயல்படுத்தப்பட்ட ஹார்னஸ் — இதே இயந்திரம் உருவாக்கியது 99.80% கூட்டு V11 இரண்டாம் புதுப்பிப்பு 100,000-கேஸ் குழுவில். ஒவ்வொரு கேஸும் A4 PDF ஆக உருவாக்கப்பட்டு, உற்பத்தி v11 என்ட்பாயிண்டுக்கு பதிவேற்றப்பட்டு, உறைந்த ரூப்ரிக் (rubric) அடிப்படையில் மதிப்பிடப்படுகிறது. இரண்டாம் புதுப்பிப்பு அளவுருப்படுத்தப்பட்ட SQL கேஸ் லோடரைச் சேர்த்தது; மூல இயந்திர பதில்களின் அடுக்கப்பட்ட சீரற்ற மாதிரி (n = 201) ஒருங்கிணைக்கப்பட்ட ஸ்கோர்கார்டுடன் சேர்த்து நிலைநிறுத்தப்படுகிறது.

முன்பதிவு (pre-registration) என்னதைத் தடுக்கிறது

முதல்-தரப்பு (first-party) பெஞ்ச்மார்க்குகள் post-hoc ரூப்ரிக் tuning மூலம் தங்களின் சொந்த எண்ணிக்கைகளை உயர்த்துவது குறித்து பிரபலமாகவே உள்ளன. அந்த முறைமை கிட்டத்தட்ட எப்போதும் ஒரே மாதிரிதான்: குழு என்ஜினை இயக்குகிறது, எங்கு குறைவாக செயல்படுகிறது என்பதை பார்க்கிறது, பின்னர் அந்த குறைவான பகுதிகள் குறைவாக எண்ணப்படுமாறு ரூப்ரிக்கை அமைதியாக மாற்றுகிறது. முதல் என்ஜின் அழைப்புக்கு முன்பே ரூப்ரிக்கை மூலக் குறியீட்டில் உறுதிப்படுத்தி, harness-ஐ MIT உரிமத்தின் கீழ் வெளியிடுவதன் மூலம், அந்த மாற்றம் version control-ல் தெரியும். யாரும் repository-ஐ clone செய்து, ரூப்ரிக் ஆசிரியர் தேதிகளை (author dates) சரிபார்த்து, scoring-ஐ வடிவமைக்க என்ஜின் முடிவுகள் பயன்படுத்தப்படவில்லை என்பதை உறுதிப்படுத்தலாம்.

ஹைப்பர்-டயக்னோசிஸ் (Hyperdiagnosis) வலை வழக்குகள் — ஏன் அதிகமாக அழைப்பது (over-calling) தான் உண்மையான தோல்வி முறையாகும்

சாதாரண திரைகளில் (normal screens) pathology-ஐ மிகத் தீவிரமாக (aggressively) அதிகமாக அழைப்பது (over-calling) என்பது நுகர்வோர் நோக்கமுள்ள மருத்துவ உதவியாளர்களில் பதிவுசெய்யப்பட்ட தோல்வி முறையாகும். அதன் பின்விளைவுச் செலவுகளில் தேவையற்ற விசாரணை, நோயாளி கவலை, மற்றும் iatrogenic workup ஆகியவை அடங்கும். இந்த பெஞ்ச்மார்க்கில் உள்ள இரண்டு trap வழக்குகள், அந்த தோல்வி முறையை தெரியும் வகையிலும் மதிப்பிடக்கூடிய வகையிலும் உருவாக்கப்பட்டுள்ளன.

கில்பர்ட் சிண்ட்ரோம் பேனலில் ஒரு naive AI ஹெபடைட்டிஸை உருவாக்குவது (fabricating) vs Kantesti இயந்திரம் நன்மை தரும் UGT1A1 பாலிமார்பிசத்தை சரியாக அடையாளம் காணுவது — இந்த முறைமையே V11 இரண்டாம் புதுப்பிப்பு 99.80% பெஞ்ச்மார்க்கில் 87,412 trap-flag வாய்ப்புகள் முழுவதிலும் zero false-positives ஆக அளவுபடுத்தப்பட்டது
படம் 4: V11 ஆரம்ப வெளியீட்டிலிருந்து வந்த ட்ராப்-கேஸ் வடிவமைப்பு — கில்பர்ட் சிண்ட்ரோம் (Gilbert's syndrome) ஐ ஹெபடைட்டிஸ் (hepatitis) என்று நம்பிக்கையுடன் லேபிள் செய்யும் இயந்திரம், அல்லது முழுமையாக சாதாரண திரையில் எல்லைக்கோடு நோயியல் (borderline pathology) ஒன்றை உருவாக்கும் இயந்திரம், மருத்துவ ரீதியாக ஒலிப்பதற்காக பாராட்டப்படுவதற்குப் பதிலாக தண்டிக்கப்படுகிறது. இந்த முறைமை 0 / 87,412 V11 இரண்டாம் புதுப்பிப்பு 100,000-கேஸ் இயக்கத்தில் உருவான false-positives க்கு அளவுபடுத்தப்பட்டது; அதுவே 99.80% கூட்டு மதிப்பெண்ணை உருவாக்கியது.

🟡 Trap 1 — BT-014-GILBERT

வெளிப்பாடு (Presentation). மொத்த பிலிருபின் 2.4 mg/dL கொண்ட 24 வயது ஆண். direct பகுதி சாதாரணமாக உள்ளது; transaminases மற்றும் alkaline phosphatase அவற்றின் குறிப்பு வரம்புகளுக்குள் இருக்கின்றன; reticulocytes குறிப்பிடத்தக்கதாக இல்லை; மேலும் haptoglobin மற்றும் LDH haemolysis-ஐ நீக்குகின்றன.

சரியான விளக்கம். Gilbert's syndrome — ஒரு benign UGT1A1 polymorphism. இந்த விளக்கம் hepatitis, cirrhosis, haemolytic anaemia, அல்லது biliary obstruction ஆகியவற்றை முன்வைக்கக் கூடாது.

V11 முடிவு. Composite 1.000. கண்காணிக்கப்பட்ட ஆறு over-diagnosis flag களில் எதுவும் செயலில் உள்ள கண்டறிதல்களாக தோன்றவில்லை.

🟡 Trap 2 — BT-015-HEALTHY

வெளிப்பாடு (Presentation). பதினைந்து அளவுருக்களைக் கொண்ட வழக்கமான ஸ்கிரீனிங் பேனலை உடைய 35 வயது பெண். ஒவ்வொரு பரிசோதனை அளவீடும் அதன் குறிப்பு வரம்புக்குள் நன்றாகவே உள்ளது.

சரியான விளக்கம். உறுதிப்படுத்தல் மற்றும் வாழ்க்கைமுறை பராமரிப்பு. இந்த விளக்கம், மருத்துவ ரீதியாக பயனுள்ளதாகத் தோன்றும் வகையில் எல்லைக்கோடு நோய்நிலையை செயற்கையாக உருவாக்கக் கூடாது.

V11 முடிவு. கூட்டு 1.000. கண்காணிக்கப்பட்ட ஏழு அதிக-நோயறிதல் எச்சரிக்கைகளில்—நீரிழிவு, இரத்தசோகை, ஹைப்போதைராய்டிசம், டிஸ்லிபிடீமியா, ஹெபடைட்டிஸ், சிறுநீரக நோய், குறைபாடு—எதுவும் செயலில் உள்ள நோயறிதலாக தோன்றவில்லை.

இரு சோதனை அமைப்புகளிலும் பதின்மூன்று கண்காணிக்கப்பட்ட ஹைப்பர்-நோயறிதல் எச்சரிக்கைகள் சரிபார்க்கப்பட்டன. எதுவும் செயல்படவில்லை. எந்த மருத்துவரும் AI இயந்திரத்தை ட்ரையாஜ் அல்லது முன்-ஆலோசனை கருவியாக பயன்படுத்த நினைக்கும் போது மிக முக்கியமாக கவனிக்க வேண்டிய முடிவு இதுவே: இல்லாத இடத்தில் அமைப்பு நோயை உருவாக்கவில்லை.

மென்ட்சர் குறியீடு: இரும்புக் குறைபாட்டை தலசீமியா பண்பிலிருந்து பிரித்தறிதல்

இரண்டாவது உயர்மதிப்பு கண்டுபிடிப்பு, வழக்கு BT-001 (இரும்புக் குறைபாடு இரத்தசோகை) மற்றும் வழக்கு BT-007 (பீட்டா-தலசீமியா மைனர்) ஆகியவற்றின் இணைப்பைச் சார்ந்தது. இரண்டும் மைக்ரோசைட்டோசிஸுடன் காணப்படுகின்றன; இது அறியாத வகைப்பாட்டாளர்களுக்கு நன்கு அறியப்பட்ட தடுமாற்றம். மென்ட்சர் குறியீடு, அதாவது MCV-ஐ RBC எண்ணிக்கையால் வகுத்தால், இரும்புக் குறைபாட்டில் 13-ஐ விட அதிகமாகவும், தலசீமியா பண்பில் 13-ஐ விட குறைவாகவும் இருக்கும்.

BT-001-ல், நோயாளி 34 வயது பெண்; ஹீமோகுளோபின் 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ஃபெரிட்டின் 6 ng/mL, மற்றும் உயர்ந்த TIBC இருந்தது. சுமார் 17.7 என்ற மென்ட்சர் குறியீடு முழுமையான இரும்புக் குறைபாட்டை ஆதரிக்கிறது. BT-007-ல், நோயாளி 28 வயது ஆண்; மைக்ரோசைட்டோசிஸுடன் (MCV 65.8 fL) இருந்தாலும், RBC எண்ணிக்கை 6.2 என்ற அளவில் உயர்ந்தது, RDW சாதாரணம், ஃபெரிட்டின் சாதாரணம், மற்றும் HbA2 5.6 சதவீதம். சுமார் 10.6 என்ற மென்ட்சர் குறியீடு தலசீமியா பண்பைச் சுட்டுகிறது; உயர்ந்த HbA2 பீட்டா-தலசீமியா மைனரை உறுதிப்படுத்துகிறது.

இரும்புக் குறைபாடு இரத்தசோகை மென்ட்சர் > 13 குறைந்த ஃபெரிட்டின், குறைந்த TSAT, உயர்ந்த TIBC, உயர்ந்த RDW
பீட்டா-தலசீமியா பண்பு மென்ட்சர் < 13 சாதாரண ஃபெரிட்டின், சாதாரண RDW, உயர்ந்த HbA2 (>3.5%), உயர்ந்த RBC எண்ணிக்கை

இரு வழக்குகளும் 1.000 என்ற மதிப்பெண் பெற்றன. இரு விளக்கங்களிலும் இயந்திரம் மென்ட்சர் குறியீட்டை வெளிப்படையாக பயன்படுத்தி, ஒவ்வொரு முறையிலும் சரியான நோயறிதலைத் திருப்பியது. முழு பெஞ்ச்மார்க்கில் மிக அதிக மருத்துவ ரீதியாக உறுதிப்படுத்தும் ஒரே முடிவு இதுவே, ஏனெனில் தலசீமியா பண்பை இரும்புக் குறைபாடாக தவறாக வகைப்படுத்துவது தேவையற்ற இரும்பு கூடுதல் அளிப்பை ஏற்படுத்தி குடும்ப-ஸ்கிரீனிங் வாய்ப்புகளை தவறவிடச் செய்கிறது; மேலும் இரும்புக் குறைபாட்டை தலசீமியாவாக தவறாக வகைப்படுத்துவது நேரடியான மாற்று சிகிச்சையை தாமதப்படுத்துகிறது. எங்கள் ஃபெரிட்டின் (ferritin) வரம்பு வழிகாட்டி விரிவான வேறுபாட்டு சூழலை விளக்குகிறது.

V11 ஆரம்ப குறிப்பு இயக்கத்திலிருந்து (ஏப்ரல் 23, 2026) கேஸ்-தனிப்பட்ட முடிவுகள்

15-கேஸ் proof-of-concept குழுவில் செய்யப்பட்ட அசல் V11 குறிப்பு இயக்கம், முறைமையான அடித்தளமாகும் இரண்டாம் புதுப்பிப்புக்கு: கீழே உள்ள ஒவ்வொரு கேஸ்-தனிப்பட்ட விவரமும் ரூப்ரிக் ஒரு உண்மையான இயந்திர பதிலை எவ்வாறு கையாளுகிறது என்பதை காட்டுகிறது. பதினைந்து கேஸ்களில் பன்னிரெண்டு கேஸ்கள் முதன்மை பாதையில் 1.000 என்ற உச்ச கூட்டு மதிப்பெண்ணை அடைந்தன; மூன்று கேஸ்கள் Phase 2 fallback மூலம் சேவை செய்யப்பட்டன; இதனால் 0.05 latency போனஸ் இழக்கப்பட்டது, ஆனால் அனைத்து மருத்துவ மற்றும் கட்டமைப்பு உள்ளடக்கமும் பாதுகாக்கப்பட்டது. ஒரு கேஸில் ஒரு கட்டாய துணைப்பிரிவு (mandatory subsection) காணவில்லை; ஒன்று சற்று குறைக்கப்பட்ட probability distribution தொகையை (sum) திருப்பியது.

வழக்கு ஐடி சிறப்பு துறை Composite லேட்டன்சி பாதை
BT-001-IDAஇரத்தவியல்1.00017.8 sமுதன்மை
BT-006-B12இரத்தவியல்1.00018.4 விமுதன்மை
BT-007-THALஇரத்தவியல்1.00017.0 விமுதன்மை
BT-002-HASHநாளமில்லா சுரப்பியியல்0.95037.0 விமாற்று (fallback)
BT-008-PCOSநாளமில்லா சுரப்பியியல்0.98718.6 விமுதன்மை
BT-003-T2DMவளர்சிதை மாற்றம்1.00019.1 விமுதன்மை
BT-013-GOUTவளர்சிதை மாற்றம்1.00019.4 விமுதன்மை
BT-004-NAFLDகல்லீரல் மருத்துவம் (Hepatology)1.00019.6 விமுதன்மை
BT-009-VIRHEPகல்லீரல் மருத்துவம் (Hepatology)0.95023.4 விமாற்று (fallback)
BT-014-GILBERTகண்ணி (Trap)1.00018.9 விமுதன்மை
BT-005-CKDசிறுநீரகவியல்1.00017.4 விமுதன்மை
BT-010-ASCVDஇருதயவியல்1.00019.7 விமுதன்மை
BT-011-SLEவாதநோயியல்0.98118.2 விமுதன்மை
BT-012-VITDநாளமில்லா சுரப்பியியல்1.00019.3 விமுதன்மை
BT-015-HEALTHYகண்ணி (Trap)1.00018.7 விமாற்று (fallback)

PCOS வழக்கு (BT-008) பதில் அமைப்பில் ஒரு கட்டாய துணைப்பிரிவை இழந்தது — பதினாறு இல் பதினாறு (16 இல் 16) என்பதற்குப் பதிலாக பதினைந்து இல் பதினாறு (15 இல் 16) — இதனால் கட்டமைப்பு மதிப்பெண் 1.000 இலிருந்து 0.963 ஆகக் குறைந்தது. SLE வழக்கு (BT-011) சிறிதளவு குறைந்த probability-distribution கூட்டுத்தொகையைத் திருப்பியது; இதனால் மருத்துவ மதிப்பெண் 0.965 ஆகக் குறைந்தது; அதே நேரத்தில் ஒவ்வொரு கண்டறிதல் முக்கியச்சொல்லையும் மற்றும் மதிப்பீட்டு முறையையும் பாதுகாத்தது. எந்த துணை-சரியான வழக்கும் சரியான கண்டறிதலைத் தவறவிடவில்லை.

V11 இரண்டாம் புதுப்பிப்பு ஒருங்கிணைவு — 100,000 கேஸ்கள்

மக்கள் அளவிலான அளவீட்டில், தனிப்பட்ட கேஸ் வரிசைகள் மனிதரால் வாசிக்க முடியாததால், இரண்டாம் புதுப்பிப்பு 100,000-வரிசை அட்டவணைக்கு பதிலாக தொகுக்கப்பட்ட அளவுகோல்களை அறிக்கையிடுகிறது. முக்கிய தொகுப்பு கீழே காட்டப்பட்டுள்ளது; சிறப்புத்துறை-வாரியான மற்றும் நாடு-லேபல்-வாரியான பிரிவுகள் தொழில்நுட்ப அறிக்கையிலும் Figshare டெபாசிட்டிலும் வெளியிடப்பட்டுள்ளன. ஒரு stratified random மாதிரி n = 201 மூல இயந்திர பதில்கள் (deterministic seed 20260426) ஆய்வுக்காக GitHub results/ அடைவில் வெளியிடப்பட்டுள்ளது.

கூட்டு மதிப்பெண் V11 ஆரம்பம்: 0.9912 (99.12%) → இரண்டாம் புதுப்பிப்பு: 0.9980 (99.80%) Δ = +0.0068 100,000-கேஸ் குழுவில் முழுவதும்
கட்டமைப்பு மதிப்பெண் (சராசரி) V11 ஆரம்பம்: 0.998 → இரண்டாம் புதுப்பிப்பு: 1.000 மக்கள் தொகை அளவில் முழுமையான கட்டமைப்பு இணக்கம்
மருத்துவ மதிப்பெண் (சராசரி) V11 ஆரம்பம்: 0.998 → இரண்டாம் புதுப்பிப்பு: 0.996 −0.002; எந்த கேஸும் நோயறிதலைத் தானே தவறவிடவில்லை
தாமதம் — சராசரி (வரம்பு) V11 ஆரம்பம்: 20.17 வி (17.0–37.0 வி) → இரண்டாம் புதுப்பிப்பு: 13.26 வி (9.0–16.94 வி) ஓட்டங்களுக்கு இடையில் உற்பத்தி இயந்திர மேம்பாடுகள்
இயந்திர பாதை = முதன்மை V11 ஆரம்பம்: 12 / 15 → இரண்டாம் புதுப்பிப்பு: 100,000 / 100,000 ஓட்டத்தின் எந்த நேரத்திலும் கட்டம் 2 மாற்று (fallback) தேவையில்லை
Trap-subset மிகை கண்டறிதல் (hyperdiagnosis) கொடிகள் V11 ஆரம்பம்: 0 / 13 → இரண்டாம் புதுப்பிப்பு: 0 / 87,412 மக்கள் தொகை அளவில் பூஜ்ய தவறான நேர்மைகள் (8,723 trap வழக்குகள் கண்காணிக்கப்பட்டன)

தலைப்பு மதிப்பெண் எதை நமக்குத் தெரிவிக்காது

இந்த குறிப்பிட்ட முன்பதிவு செய்யப்பட்ட ரூப்ரிக்கின் கீழ் 99.80 சதவீதம் என்ற கூட்டு மதிப்பெண், 127 நாடு லேபல்கள் கொண்ட 100,000-கேஸ் செயற்கை கூட்டணியில், near-ceiling செயல்திறனை குறிக்கிறது — ஆனால் அதை கவனமாக சூழலுடன் விளக்க வேண்டும். இந்த முடிவு V11 இல் மூலக் குறியீட்டில் நாங்கள் உறுதியளித்த ரூப்ரிக்குக்கு எதிராக என்ஜின் எப்படி நடக்கிறது என்பதை விவரிக்கிறது; காட்டு உலகில் இருக்கும் ஒவ்வொரு இரத்தப் பரிசோதனை பேனலிலும் என்ஜின் சரியானதா என்பதைப் பற்றிய பொதுவான (universal) கூற்று அல்ல.

இந்த மதிப்பெண், இந்த மதிப்பீட்டிற்காக தேர்ந்தெடுக்கப்பட்ட கண்டறிதல் (diagnostic) வடிவங்களை மக்கள் தொகை அளவிலான கூட்டத்தில் இயந்திரம் சரியாக கையாள்ந்தது என்பதை, வெளியிடப்பட்டு மீண்டும் உருவாக்கக்கூடிய (reproducible) ஒரு முறையியலின் (methodology) அடிப்படையில் சொல்கிறது. காட்டு சூழலில் இருக்கும் ஒவ்வொரு இரத்த பரிசோதனை பலகையிலும் இயந்திரம் சரியாக இருக்கிறது என்று அது சொல்லவில்லை. மருத்துவ நிபுணரின் (clinician) தீர்மானத்தை இயந்திரம் மாற்ற வேண்டும் என்று அது சொல்லவில்லை. மேலும் மாற்று AI அமைப்புகளை விட இயந்திரம் சிறந்தது என்று அது சொல்லவில்லை — மற்ற இயந்திரங்களுடன் ஒப்பீட்டு பகுப்பாய்வுகள் இந்த அறிக்கைக்கு திட்டமிட்டு (deliberately) வெளியே வைக்கப்பட்டன.

இந்த மதிப்பெண் நிறுவுவது ஒரு அடிப்படை நிலை (baseline) மட்டுமே. மதிப்பீட்டு அளவுகோலும் (rubric) கருவியும் (harness) பொதுவாக கிடைத்திருப்பதால், இயந்திரத்தின் எதிர்கால பதிப்புகளை அதே அளவுகோலுக்கு எதிராக மதிப்பிடலாம் — V11 ஆரம்ப 15 வழக்குகளுக்கு, இரண்டாம் புதுப்பிப்பு 100,000 வழக்குகள் கொண்ட கூட்டத்திற்கு, அல்லது பின்னர் வரும் எந்த விரிவாக்கத்திற்கும் — மேலும் வெளியிடப்பட்ட மதிப்பெண்ணுக்கும் எந்த அடுத்த ஓட்டத்திற்கும் இடையிலான இடைவெளி (gap) தானாகவே அளவிடக்கூடியதாக இருக்கும். முன்பதிவு (pre-registration) என்பதன் மதிப்பு இதுதான்: செயல்திறன் கோரிக்கைகளை சோதிக்கக்கூடிய கோரிக்கைகளாக மாற்றுகிறது.

10 நிமிடங்களில் இந்த அளவுகோலை மீண்டும் உருவாக்குவது எப்படி

மீண்டும் உருவாக்க (Reproduction) செய்ய, Kantesti API சான்றிதழ் ஜோடி மற்றும் Python 3.10 அல்லது அதற்கு மேற்பட்ட பதிப்புள்ள சூழல் மட்டும் போதுமானது; அதில் requests மற்றும் reportlab நூலகங்கள் நிறுவப்பட்டிருக்க வேண்டும். முழு harness என்பது MIT உரிமத்தின் கீழ் வெளியிடப்பட்ட ஒரே, தனித்துவமான Python module ஆகும்.

V11 Second Update benchmark (99.80% composite, 100,000 வழக்குகள், 127 நாடு லேபல்கள்) காட்டும் reproducibility network diagram; Figshare, ResearchGate, Academia.edu மற்றும் GitHub ஆகியவற்றில் பிரதிபலிக்கப்பட்டுள்ளது; Figshare DOI முதன்மை anchor ஆக உள்ளது
படம் 5: V11 இரண்டாம் புதுப்பிப்பு பெஞ்ச்மார்க் — 127 நாடு லேபல்கள் முழுவதும் 100,000 வழக்குகளில் 99.80% கூட்டு மதிப்பெண் — நான்கு ஆராய்ச்சி தளங்களில் பிரதிபலிக்கப்பட்டுள்ளது. Figshare DOI என்பது முதன்மை கல்வி அடையாளம்; ResearchGate (publication 404175463), Academia.edu (paper 165956808), மற்றும் GitHub ஆகியவை benchmark harness, மூல பதில்களின் stratified random மாதிரி, மற்றும் நாடு-லேபல்/சிறப்புத் துறை அடிப்படையிலான scorecards ஆகியவற்றுடன் இணையான பிரதிகளை வழங்குகின்றன.

புதிய ஓட்டத்திற்கான நான்கு படிகள்

ஒன்று. repository-யை clone செய்யவும்: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. இரண்டு. சார்புகளை நிறுவவும் pip install -r requirements.txt (Second Update சேர்க்கிறது mysql-connector-python ≥ 8.0 SQL case loader-க்காக). மூன்று. அமைக்கவும் KANTESTI_USERNAME மற்றும் KANTESTI_PASSWORD இயந்திர API-க்கான சூழல் மாறிகளாக (environment variables). இரண்டாம் புதுப்பிப்பு SQL case loader-க்காகவும், இதையும் அமைக்கவும் KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, மற்றும் KANTESTI_DB_PASSWORD — படிப்பதற்கு மட்டும் அனுமதி (read-only) கொண்ட ஒரு பங்கு வழியாக loader இணைக்கிறது (bench_reader) அடையாள அட்டவணைகள் (identifying tables) மீது எந்த அனுமதிகளும் இல்லாதது. நான்கு. இயக்கவும் python benchmark_bloodtest.py --limit 100000 முழு Second-Update இயக்கத்திற்காக, அல்லது python benchmark_bloodtest.py --limit 1000 விரைவான மீளாய்விற்காக. வெளியீடுகள் இங்கே கிடைக்கும் ./benchmark_results/: நாடு-லேபல் மற்றும் சிறப்புத் துறை நெடுவரிசைகளுடன் ஒரு CSV scorecard, ஒரு JSON aggregate, ஒரு stratified-random மூல-பதில் மாதிரி, மற்றும் ஒரு Markdown அறிக்கை.

23 ஏப்ரல் 2026 (V11 ஆரம்பம், 15 வழக்குகள்) மற்றும் 26 ஏப்ரல் 2026 (V11 Second Update, 100,000 வழக்குகள்) ஆகிய reference இயக்கங்கள் repository-யின் results/ அடைவில் பாதுகாக்கப்பட்டுள்ளன. நீங்கள் இயக்கினால், reference இயக்கங்களை மாற்றாமல் புதிய நேரமுத்திரையுடன் (timestamped) ஒரு scorecard உருவாகும். உங்கள் இயக்கத்தின் முடிவு குறிப்பிடத்தக்க அளவில் வேறுபட்டதாக இருந்தால், GitHub issue ஒன்றைத் திறந்து, அந்த இயக்கத்தின் நேரமுத்திரையும் பதில் metadata-வில் திரும்பிய engine version-யும் சேர்க்கவும்.

வரம்புகள் மற்றும் எதிர்கால பணிகள்

127 நாடு லேபல்கள் முழுவதும் 100,000 வழக்குகள் இருந்தாலும், நான்கு வரம்புகள் தெளிவாக ஒப்புக்கொள்ளப்பட வேண்டும்: long-tail லேபல் undersampling, single-shot மதிப்பீடு, single-engine வரம்பு, மற்றும் single-source தரவு தோற்றம். இவை அனைத்தும் செயலில் உள்ள தொடர்ச்சிப் பணிகளில் தீர்க்கப்படுகின்றன.

Long-tail லேபல் கவரேஜ். Second Update 127 நாடு லேபல்கள் வரை உள்ளடக்குகிறது, ஆனால் விநியோகம் சமநிலையற்றது — முதல் 10 லேபல்கள் மொத்த வழக்குகளில் ≈66.4% பங்கைக் கொண்டுள்ளன; மேலும் கூடுதலான 97 லேபல்களின் long tail சேர்ந்து ≈7.3% பங்களிக்கிறது (சுமார் 7,300 வழக்குகள் மொத்தமாக, சராசரியாக ஒரு லேபலுக்கு ~75 வழக்குகள்). ஆகவே, இந்த long tail-இல் உள்ள per-label composite-கள் தலைப்பு எண்கள் காட்டுவதைவிட அதிக சத்தமுடையவை. எதிர்கால இயக்கங்கள் label ஒதுக்கீட்டை மறுசீரமைத்து per-label மதிப்பீடுகளை உறுதிப்படுத்தும்.

ஒரே முறை மதிப்பீடு. அந்த cohort-இல் உள்ள ஒவ்வொரு வழக்கும் ஒருமுறை மட்டுமே மதிப்பீடு செய்யப்பட்டது. குறைந்த sampling temperature-இல்கூட பெரிய மொழி மாதிரிகள் (large language models) குறிப்பிடத்தக்க output மாறுபாட்டை (output variance) காட்டுகின்றன; ஆகவே, ஒவ்வொரு வழக்கிற்கும் ஐந்து மதிப்பீடுகளுடன் பல-இயக்க (multi-run) நெறிமுறை மற்றும் அறிவிக்கப்பட்ட மாறுபாடு (reported variance) அடுத்த இயல்பான படியாகும் — குறிப்பாக trap-case துணைத்தொகுதியில் (trap-case subset), sampling jitter-க்கு உட்பட்ட நிலைத்தன்மை (consistency) பாதுகாப்பு (safety) கூற்றின் ஒரு பகுதியாகும்.

ஒரே இயந்திர வரம்பு. இந்த அறிக்கை ஒரு engine-ஐ விவரிக்கிறது. மாற்று AI அமைப்புகளுடன் ஒப்பீட்டு பகுப்பாய்வுகள் இங்கு வரம்புக்கு உட்பட்டவை (out of scope); அதே MIT உரிமம் கொண்ட harness-க்கு எதிராக, பொருத்தமான முறைமையுடன் (methodology) தனித்த சுயாதீன ஆய்வாக அவற்றை மேற்கொள்ளலாம்.

Synthetic data. 100,000 வழக்குகள் synthetic-ஆக உருவாக்கப்பட்டவை; synthetic cases அல்ல, மேலும் முடிவுகள் நிஜ உலக மருத்துவ செயல்திறனுக்கு மாற்றப்படாது. நிஜமான, ஒப்புதல் பெற்ற, வெளிப்புறமாக பெறப்பட்ட தரவின் மீது மதிப்பீடு செய்ய வேண்டுமெனில் பொருத்தமான நெறிமுறை மேற்பார்வை தேவைப்படும்; இது இந்த synthetic benchmark-இன் வரம்புக்கு வெளியானது.

இந்த நான்கைத் தவிர, திட்டமிடப்பட்ட மிகப் பெரிய தாக்கம் கொண்ட விரிவாக்கம் நாடு-அதிகாரத்திற்கு (jurisdiction) ஏற்ப பல மொழி சமநிலை (multi-language parity) ஆகும். Kantesti AI Engine 75+ மொழிகளில் பயனர்களுக்கு சேவை செய்கிறது; மேலும் மொழி-அடுக்கு செய்யப்பட்ட Second-Update துணை-cohort-களை (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) இயக்குவது, engine ஆதரிக்கும் மொழிகள் முழுவதும் output தரத்தை அளவிடும். ஒவ்வொரு மொழி-அடுக்கு பகுப்பாய்வும் அதன் சொந்த DOI மற்றும் harness branch-உடன் வெளியிடப்படும்.