Kantesti AI இரத்த பரிசோதனை பெஞ்ச்மார்க் — மருத்துவ சரிபார்ப்பு

தானியக்க பெஞ்ச்மார்க் முன்பதிவு செய்யப்பட்ட பெஞ்ச்மார்க் V11 இரண்டாம் புதுப்பிப்பு — ஏப்ரல் 2026 MIT உரிமம் பெற்றது மீள உருவாக்கக்கூடியது · திறந்த தரவு 100K செயற்கை கூட்டணி · 127 நாடு லேபல்கள்

முன்பதிவு செய்யப்பட்ட ரூப்ரிக்கில் 99.80% கூட்டு மதிப்பெண் — V11 இரண்டாம் புதுப்பிப்பு, 127 நாடு லேபல்கள் முழுவதும் 100,000-கேஸ் கூட்டணி

127 நாடு லேபல்கள் குறியிடப்பட்ட 100,000 செயற்கையாக உருவாக்கப்பட்ட இரத்தப் பரிசோதனை வழக்குகளில் Kantesti என்ஜினுக்கான முன்பதிவு செய்யப்பட்ட, ரூப்ரிக்-அடிப்படையிலான தானியக்க தொழில்நுட்ப பெஞ்ச்மார்க். இது கண்டறிதல் துல்லியத்தை அல்ல, வெளியீட்டு இணக்கத்தன்மையை அளவிடுகிறது. V11 முதல் வெளியீட்டுக்கு முன்பே மூலக் குறியீட்டில் ரூப்ரிக் உறையவைக்கப்பட்டது மற்றும் இந்த இரண்டாம் புதுப்பிப்பிற்காக byte-identical ஆகவே வைத்திருக்கப்பட்டது; மதிப்பீட்டு ஹார்னஸ் MIT உரிமம் பெற்றது; ஆய்வுக்காக மூல என்ஜின் பதில்களின் stratified random மாதிரி வெளியிடப்படுகிறது. அனைத்து வழக்குகளும் செயற்கை; எந்த தனிப்பட்ட தரவும் பயன்படுத்தப்படவில்லை.

📖 ~14 நிமிடங்கள் 📅 2026 ஏப்ரல் 23 அன்று வெளியிடப்பட்டது · 2026 ஏப்ரல் 26 அன்று புதுப்பிக்கப்பட்டது (V11 இரண்டாம் புதுப்பிப்பு) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 வெளியிடப்பட்டது: ஏப்ரல் 23, 2026 🔄 V11 இரண்டாம் புதுப்பிப்பு: ஏப்ரல் 26, 2026 🩺 மருத்துவ ரீதியாக மதிப்பாய்வு: ஏப்ரல் 26, 2026 ✅ முன்பதிவு செய்யப்பட்ட ரூப்ரிக் (Byte-Identical) 🔓 திறந்த குறியீடு & தரவு

இந்த தானியக்க பெஞ்ச்மார்க் வடிவமைக்கப்பட்டு இயக்கப்பட்டது ஜூலியன் எமிர்ஹான் புலுட், Kantesti Ltd நிறுவனத்தின் மூத்த AI பொறியாளர் மற்றும் தலைமை செயல் அதிகாரி. மதிப்பீடு முழுமையாக மூலக் குறியீட்டில் தானியக்கமாக்கப்பட்டுள்ளது; மதிப்பீட்டு ரூப்ரிக் மற்றும் வழக்கு குழு ஆகியவை டாக்டர். தாமஸ் க்ளீன், எம்.டி., Kantesti AI நிறுவனத்தின் தலைமை மருத்துவ அதிகாரி வழங்கிய மருத்துவ உள்ளீட்டுடன் உருவாக்கப்பட்டு, கான்டெஸ்டி AI மருத்துவ ஆலோசனை வாரியம். இது சுயமாக இயக்கப்படும் உள்புற பெஞ்ச்மார்க்; சுயாதீனமான அல்லது சக-மதிப்பாய்வு செய்யப்பட்ட தானியக்க தொழில்நுட்ப பெஞ்ச்மார்க் அல்ல.

முதன்மை ஆசிரியர் & மருத்துவ மேற்பார்வை

தாமஸ் க்ளீன், எம்.டி.

தலைமை மருத்துவ அதிகாரி, கான்டெஸ்டி AI

டாக்டர் தாமஸ் கிளைன் ஒரு வாரிய-சான்றளிக்கப்பட்ட மருத்துவ ஹீமடாலஜிஸ்ட் மற்றும் இன்டர்னிஸ்ட்; ஆய்வக மருத்துவத்தில் 15 ஆண்டுகளுக்கும் மேலான அனுபவம் கொண்டவர். Kantesti AI இல் தலைமை மருத்துவ அதிகாரியாக, இந்த பெஞ்ச்மார்க்கிற்கான கேஸ் பேனலை அவர் தேர்ந்தெடுத்தார், செயற்கை வழக்குகளின் மருத்துவ உள்ளடக்கம் மற்றும் எதிர்பார்க்கப்பட்ட பதில்களை மதிப்பாய்வு செய்தார், மேலும் முதல் என்ஜின் அழைப்புக்கு முன்பே முன்பதிவு செய்யப்பட்ட ரூப்ரிக்கை அங்கீகரித்தார்.

ORCID 0009-0009-1490-1321 ஆராய்ச்சி வாயில் கூகிள் ஸ்காலர்

இணை-ஆசிரியர் & செயலாக்கம்

ஜூலியன் எமிர்ஹான் புலுட்

மூத்த AI பொறியாளர் & CEO, Kantesti Ltd

ஜூலியன் எமிர்ஹான் பலுட் Kantesti Ltd நிறுவனத்தின் நிறுவனர் மற்றும் CEO ஆவார். அவர் மதிப்பீட்டு கருவியை வடிவமைத்து செயல்படுத்தினார் — V11 இரண்டாம் புதுப்பிப்பிற்காக சேர்க்கப்பட்ட SQL case loader உட்பட — API ஒருங்கிணைப்பை மேற்கொண்டார், V11 ஆரம்ப குறிப்பு இயக்கத்தையும் V11 இரண்டாம் புதுப்பிப்பு 100,000-கேஸ் இயக்கத்தையும் நடத்தினார், மேலும் புள்ளியியல் ஒருங்கிணைப்பைத் தயாரித்தார். 2019 முதல் தளத்தின் நிறுவனர்.

GitHub கான்டெஸ்டி பற்றி

⚡ விரைவு சுருக்கம் V11 இரண்டாம் புதுப்பிப்பு — ஏப்ரல் 26, 2026

99.80% கூட்டு மதிப்பெண் எட்டு மருத்துவ சிறப்புத்துறைகள் மற்றும் 127 நாடு லேபல்கள் முழுவதும் 100,000 செயற்கை இரத்தப் பரிசோதனை வழக்குகளில் (V11 இரண்டாம் புதுப்பிப்பு).
பூஜ்யமான அதிக நோயறிதல் தவறான நேர்மைகள் 87,412 கண்காணிக்கப்பட்ட trap-case flag வாய்ப்புகள் முழுவதும் — V11 ஆரம்பத்திலிருந்த அதே trap-case முறையியல்; மக்கள் தொகை அளவிற்கு அளவிடப்பட்டது.
முன்பதிவு செய்யப்பட்ட மதிப்பீட்டு விதிமுறை V11 ஆரம்ப இயக்கத்திற்கு முன்பே மூலக் குறியீட்டில் உறையவைக்கப்பட்டது மற்றும் byte-identical ஆக வைத்திருக்கப்பட்டது இந்த இரண்டாம் புதுப்பிப்பிற்காக — post-hoc tuning செய்ய முடியவில்லை.
மென்ட்சர் குறியீடு சரியாகப் பயன்படுத்தப்பட்டது V11 ஆரம்ப வெளியீட்டில் இரும்புக் குறைபாடு அனீமியாவை beta-thalassaemia minor-இலிருந்து வேறுபடுத்த; வேறுபடுத்தும் நடத்தை மக்கள் தொகை அளவிலும் பாதுகாக்கப்பட்டது.
உற்பத்தி இறுதிநிலை மட்டும் — சிறப்பு வழிமாற்றம் இல்லை; பணம் செலுத்தும் வாடிக்கையாளர் அணுகுவது போலவே துல்லியமாக மதிப்பாய்வு செய்யப்பட்டது.
13.26 விநாடிகள் சராசரி தாமதம் end-to-end (வரம்பு 9.0–16.94 s), மேலும் அனைத்து 100,000 வழக்குகளும் இயந்திரத்தின் முதன்மை பாதையில் முடிந்தன.
செயற்கை கூட்டணி. இயக்க நேரத்தில் ஏற்றப்படும் 100,000 செயற்கையாக உருவாக்கப்பட்ட சோதனை வழக்குகள். எந்த செயற்கை தரவும் இல்லை; எந்த தனிப்பட்ட தரவும் பயன்படுத்தப்படவில்லை.
MIT உரிமம் கொண்ட ஹார்னஸ் ஆய்வுக்காக GitHub-ல் வெளியிடப்பட்டது; அடுக்கப்பட்ட சீரற்ற மாதிரி (n = 201) முழு மூல இயந்திர பதில்கள்.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub-ல் பிரதிபலிக்கப்பட்டது.

இந்த பெஞ்ச்மார்க் ஏன் உள்ளது மற்றும் அது என்ன சோதிக்கிறது

AI உதவியுடன் இரத்த பரிசோதனை விளக்கம் நுகர்வோர் மற்றும் மருத்துவ பணிச்சூழல்களில் அதிகரித்து பயன்படுத்தப்படுகிறது; ஆனால் ஆய்வக மருத்துவத்திற்கேற்ற, மீண்டும் உருவாக்கக்கூடிய மதிப்பீட்டு கட்டமைப்புகள் இன்னும் அரிதாகவே உள்ளன. இந்த சூழலில் மிக முக்கியமான கேள்விகள் பொதுவான மருத்துவ கேள்வி-பதில் அளவுகோல்களில் உள்ளவையல்ல: சராசரி கார்பஸ்குலர் அளவு ஒரே மாதிரியாக இருந்தாலும், ஒரு என்ஜின் இரும்புக் குறைபாட்டை தலசீமியா பண்பிலிருந்து பிரிக்க முடியுமா; அது கில்பர்ட் நோயை ஹெபடைட்டிஸாக அதிகமாக நோயறியுமா; மற்றும் முழுமையாக சாதாரணமான திரைச்சோதனை பேனலில் அது நோயியல் கண்டுபிடிப்புகளை உருவாக்குமா?

ஒரு தனி இரத்தப் பரிசோதனை பேனல் பொதுவாக பல போட்டியிடும் விளக்கங்களை ஆதரிக்க போதுமான சிக்னலை கொண்டிருக்கும்; விளக்கும் மருத்துவரின் பணி, அவற்றை ஒன்றோடொன்று ஒப்பிட்டு எடையிடுவது; பாடநூல் போன்ற ஒரே பதிலை மீட்டெடுப்பது அல்ல. பாடநூல் வழக்குகளில் நன்றாக செயல்படும் ஒரு இயந்திரம், மிக முக்கியமான வழக்குகளில் இன்னும் தோல்வியடையலாம்: differential-diagnosis சிக்கல்கள், தனியாகப் பார்த்தால் எச்சரிக்கையாகத் தோன்றும் தீங்கற்ற மாறுபாடுகள், மற்றும் முழுமையாக சாதாரணமான பேனல்கள்—தன்னம்பிக்கையுள்ள உதவியாளர்களை நோயியல் உருவாக்கத் தூண்டும்.

இந்த அளவுகோல் அந்த தோல்வி முறைகளையே மையமாகக் கொண்டு உருவாக்கப்பட்டது. பதினைந்து வழக்குகளில் ஒவ்வொன்றும் ஒரு குறிப்பிட்ட கண்டறிதல் பண்புக்காகத் தேர்ந்தெடுக்கப்பட்டது: ஒரே மாதிரியான mean corpuscular volume உடைய beta-thalassaemia trait-இலிருந்து தனியாக வைத்திருக்க வேண்டிய இரும்புக் குறைபாடு காரணமான microcytosis; ஒரே அசாதாரணம் தனித்த isolated indirect hyperbilirubinaemia ஆக இருக்கும் Gilbert's syndrome வெளிப்பாடு; மற்றும் ஒவ்வொரு analyte-உம் அதன் reference range-க்குள் இருக்கும் பதினைந்து-அளவுரு screening பேனல். rubric, ஒவ்வொரு வழக்கையும் அதன் சொந்த நிபந்தனைகளில் வாசிக்கும் இயந்திரங்களுக்கு வெகுமதி அளிக்கிறது; அத்தகைய கண்டறிதல் தேவையில்லாத இடத்தில் தன்னம்பிக்கையுடன் ஒரு நோயறிதலை எட்டும் இயந்திரங்களுக்கு தண்டனை விதிக்கிறது.

டாக்டர் தாமஸ் கிளைன் (MD) ஆக, இந்த case panel-ஐ நான் தேர்ந்தெடுத்தது, ஆய்வக-மருத்துவ உதவியாளர்கள் அதிகமாக தவறாகப் பெறும் வடிவங்கள் இவையே என்பதால்தான். விலையுயர்ந்த தோல்வி முறை "அரிதான ஒரு நோயை தவறவிடுவது" அல்ல — அதற்கு பதிலாக, அதைக் கொண்டிராத நோயாளிகளில் வழக்கமான நோயியல் (pathology) ஒன்றை உருவாக்குவது. நமது மருத்துவ சரிபார்ப்பு hub பரந்த கட்டமைப்பை விவரிக்கிறது; இந்தப் பக்கம் V11 ஆரம்ப proof-of-concept மற்றும் அதனை 127 நாடு லேபல்கள் கொண்ட ஒரு செயற்கை கேஸ் செட்டிலிருந்து பெறப்பட்ட 100,000 செயற்கை வழக்குகளாக அளவுபடுத்திய V11 இரண்டாம் புதுப்பிப்பை விவரிக்கிறது — அதே மதிப்பீட்டு ரூப்ரிக், byte-identical, மற்றும் post-hoc tuning அனுமதிக்கப்படாமல்.

சமீபத்திய குறிப்பு (reference) இயக்கம் — V11 இரண்டாம் புதுப்பிப்பு (ஏப்ரல் 26, 2026)

26 ஏப்ரல் 2026 அன்று நடைபெற்ற V11 இரண்டாம் புதுப்பிப்பு குறிப்பு இயக்கம் ஒரு கூட்டு (composite) மதிப்பெண்ணை உருவாக்கியது 99.80% V11 ஆரம்ப வெளியீட்டில் பயன்படுத்தப்பட்ட அதே முன்பதிவு செய்யப்பட்ட (pre-registered) ரூப்ரிக் மூலம் மதிப்பிடப்பட்டது; 100,000 செயற்கை வழக்குகள் Kantesti செயற்கை கேஸ் செட்டிலிருந்து பெறப்பட்டவை மற்றும் 127 நாடு லேபல்கள் முழுவதும் மற்றும் 75+ மொழிகளை உள்ளடக்கியவை. ஒவ்வொரு கேஸும் என்ஜினின் முதன்மை பாதையில் (primary path) முடிந்தது; trap-case hyperdiagnosis flag செயல்பாடுகள் 0 / 87,412. இல் நிலைத்திருந்தன. 23 ஏப்ரல் 2026 அன்று நடைபெற்ற அசல் V11 இயக்கம் 15 கைமுறையாகத் தேர்ந்தெடுக்கப்பட்ட (hand-curated) கேஸ்களை (composite 99.12%) உள்ளடக்கியது மற்றும் ரூப்ரிக்கை சரிபார்த்தது; இரண்டாம் புதுப்பிப்பு அந்த ரூப்ரிக்கை பைட்-அடையாளமாகவே வைத்துக்கொண்டு, மதிப்பீட்டை மக்கள்-அளவிலான (population-scale) கூட்டணிக்கு விரிவாக்குகிறது.

Composite 99.80% 100,000-ல் 100,000 கேஸ்கள் மதிப்பெண் பெற்றன

1.000 Structural score

0.996 Clinical score

13.26 s சராசரி தாமதம் (latency)

0 / 87,412 Trap false-positives

composite சூத்திரம் மூன்று கூறுகளை இணைக்கிறது: structural இணக்கம் ஏழு கட்டாய அறிக்கை பிரிவுகள் மற்றும் பதினாறு கட்டாய துணைப் பிரிவுகளுடன், உள்ளடக்க துல்லியம் முக்கியச்சொல் recall + மதிப்பீட்டு-முறை recall + probability-distribution validity check என அளவிடப்படுகிறது, மற்றும் பதில் தாமதம் (response latency) முதன்மை-பாதை சேவை-நிலை இலக்குக்கு (service-level target) எதிராக. கீழே உள்ள ரூப்ரிக் சூத்திரத்தில் துல்லியமான பிரிப்பு காட்டப்பட்டுள்ளது — இரண்டாம் புதுப்பிப்பிற்காக இவற்றில் எந்த எடைகளும் (weights) அல்லது துணை-ரூப்ரிக்குகளும் மாற்றப்படவில்லை.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × தாமதம்

மீதமுள்ள 0.20 சதவீத புள்ளிகள் (percentage points) அளவளாவல் (headroom) பெரும்பாலும் மருத்துவ துணை-மதிப்பெண்ணில் (clinical sub-score) பிரிகிறது — எதிர்பார்க்கப்பட்ட மதிப்பீட்டு-முறை (scoring-system) முக்கியச் சொல் என்ஜின் விளக்கத்தில் (interpretation) இல்லாமல் இருந்தது, ஆனால் நோயறிதல் உள்ளடக்கம் சரியாக இருந்தது; சிறிய பகுதி கேஸ்கள் (முக்கியமாக Hepatology மற்றும் Rheumatology) இதை கொண்டிருந்தன. 100,000-கேஸ் இரண்டாம்-புதுப்பிப்பு கூட்டணியில் எந்த கேஸும் நோயறிதலைத் தவறவிடவில்லை. தாமதம் (latency) V11 ஆரம்ப வெளியீட்டில் சராசரியாக 20.17 s இருந்து இரண்டாம் புதுப்பிப்பில் 13.26 s ஆக மேம்பட்டது; இரண்டு இயக்கங்களுக்கிடையில் உற்பத்தி என்ஜின் மேம்பாடுகள் (optimisations) இதை பிரதிபலிக்கின்றன; ரூப்ரிக், மதிப்பீட்டு குறியீடு (scoring code), மற்றும் API இறுதிநிலை (endpoint) மாற்றமின்றி உள்ளது.

ஒவ்வொரு லேபலுக்குமான கூட்டு மதிப்பெண்கள், அதிகம் பிரதிநிதித்துவம் பெற்ற 30 நாடு லேபல்கள் முழுவதும் 0.9971 முதல் 0.9985 வரை இருந்தன. கூடுதலான 97 லேபல்கள் கொண்ட நீண்ட வால் (மொத்தம் ≈7,300 வழக்குகள்) எந்த முறையான சிதைவையும் காட்டவில்லை. வழக்கு எண்ணிக்கையில் மிக அதிகமாக இருந்த லேபல்கள்: அமெரிக்கா (10,500), பிரேசில் (9,500), ஸ்பெயின் (9,000), இத்தாலி (8,000), ஜெர்மனி (7,800), பிரான்ஸ் (7,400), போர்ச்சுகல் (5,800), Türkiye (3,400), ஐக்கிய இராச்சியம் (2,900), மற்றும் மெக்சிகோ (2,500). லேபல்-வாரியான கூட்டு மதிப்பெண்கள் 0.9971 முதல் 0.9985 வரை இருந்தன.

15 வழக்குகளிலிருந்து 100,000 வரை: 127 நாடு லேபல்கள் முழுவதும் கூட்டணி வளர்ச்சி

முதன்மை V11 கேஸ் பேனல் ஏழு சிறப்புத்துறைகளை — ஹீமடாலஜி, எண்டோகிரினாலஜி, மெட்டபாலிக் மெடிசின், ஹெபடாலஜி, நெப்ராலஜி, கார்டியாலஜி, ரியூமடாலஜி — மேலும் இரண்டு தனித்த hyperdiagnosis trap வழக்குகளையும் கொண்டது; ஒவ்வொரு வழக்கும் செயற்கையாக உருவாக்கப்பட்ட இரத்தப் பரிசோதனை பேனலாக இருந்தது. V11 இரண்டாம் புதுப்பிப்பு மதிப்பீட்டை 127 நாடு லேபல்கள் முழுவதும் 100,000 செயற்கை வழக்குகளுக்கு விரிவுபடுத்துகிறது, — எட்டு சிறப்புத்துறைகளில் (அசல் ஏழு + trap துண்டை (trap subset) உறிஞ்சும் தனித்த உள்-மருத்துவ (internal-medicine) பிரிவு) பகிரப்பட்டவை. அதே மதிப்பீட்டு ரூப்ரிக் இரு இயக்கங்களிலும் பைட்-அடையாளமாகப் பயன்படுத்தப்படுகிறது.

அனைத்து வழக்குகளும் செயற்கையாக உருவாக்கப்பட்டதால், நீக்க வேண்டிய உண்மையான அடையாளங்கள் எதுவும் இல்லை; தனிப்பட்ட தரவும் சம்பந்தப்படவில்லை. ஒவ்வொரு செயற்கை வழக்கும் ஒரு பெஞ்ச்மார்க்-உள்புற வழக்கு குறியீட்டை கொண்டுள்ளது (V11 ஆரம்ப செட்டில் BT-NNN-LABEL, இரண்டாம் புதுப்பிப்பில் நிலையான case_uid ). வெளியிடப்பட்ட ஹார்னஸ், தொழில்நுட்ப அறிக்கை, அல்லது வெளியிடப்பட்ட தரவுத்தொகுப்புகளில் எங்கும் தனிப்பட்ட தரவு தோன்றவில்லை.

V11 ஆரம்ப வெளியீட்டின் படி மேற்கொள்ளப்பட்டது — 15 கைமுறையாகத் தேர்ந்தெடுக்கப்பட்ட கேஸ்கள்

அசல் V11 வழக்கு பேனலை டாக்டர் தாமஸ் க்ளைன் கையால் தேர்ந்தெடுத்து உருவாக்கினார்; ஆய்வக-மருத்துவ உதவியாளர்கள் அதிகமாக தவறாகப் புரிந்துகொள்ளும் நோயறிதல் வடிவங்களை பயிற்சி செய்யும் வகையில். கீழே பட்டியலிட்டுள்ள குறிப்பிட்ட நோயறிதல் பண்புக்காக பதினைந்து வழக்குகளில் ஒவ்வொன்றும் தேர்ந்தெடுக்கப்பட்டது.

ஹீமடாலஜி (3) BT-001, BT-006, BT-007 இரும்புக் குறைபாடு அனீமியா · B12 குறைபாடு · பீட்டா-தலசீமியா மைனர்

எண்டோகிரினாலஜி (3) BT-002, BT-008, BT-012 ஹாஷிமோட்டோஸ் தைராய்டைட்டிஸ் · இன்சுலின் எதிர்ப்புடன் கூடிய PCOS · கடுமையான வைட்டமின் டி குறைபாடு

மெட்டபாலிக் (2) BT-003, BT-013 மெட்டபாலிக் சிண்ட்ரோமுடன் கூடிய T2DM · கௌட் அபாயத்துடன் கூடிய ஹைப்பர்யூரிசீமியா

ஹெபடாலஜி (2) BT-004, BT-009 NAFLD / NASH · கடுமையான வைரல் ஹெபடிடிஸ்

நெப்ராலஜி · கார்டியாலஜி · ரியுமடாலஜி (3) BT-005, BT-010, BT-011 CKD நிலை 3 · அதெரோஜெனிக் டிஸ்லிபிடீமியா · சிஸ்டமிக் லூபஸ் எரிதிமேடோசஸ்

Trap வழக்குகள் (2) BT-014, BT-015 Gilbert's syndrome (தனித்த தனி அதிகரித்த மறைமுக பிலிருபினீமியா) · முழுமையாக சாதாரண பெரியவர் ஸ்கிரீன்

இந்த குறிப்பிட்ட விநியோகம் ஏன்

ஹீமட்டாலஜிக்கு மூன்று வழக்குகள் கிடைக்கின்றன, ஏனெனில் மைக்ரோசைட்டிக் வேறுபாடுகள் மற்றும் மேக்ரோசைட்டிக் வேறுபாடுகள் ஆகியவை நிஜ உலக ஆய்வக நடைமுறையில் அதிக அளவு “trap” ஆகும். எண்டோக்ரைனாலஜிக்கு மூன்று வழக்குகள் கிடைக்கின்றன, ஏனெனில் Hashimoto's, PCOS, மற்றும் வைட்டமின் டி குறைபாடு ஆகியவற்றின் வெளிப்பாடுகள் வெவ்வேறு கண்டறிதல் வடிவங்களைப் பயிற்சி செய்கின்றன (தான்உடல் எதிர்ப்பு இயக்கம் சார்ந்தது, ஹார்மோன் விகிதம் சார்ந்தது, ஒரே குறியீடு சார்ந்தது). CKD, ASCVD ஆபத்து, மற்றும் SLE ஆகிய ஒவ்வொன்றுக்கும் தனித்தனி மதிப்பீட்டு முறைமை இருப்பதால், அந்த ஒற்றை-வழக்கு சிறப்புத்துறைகள் இன்னும் அர்த்தமுள்ளதாகவே இருக்கின்றன; என்ஜின் அவற்றை அழைக்க வேண்டும் (முறையே KDIGO நிலைமை, ASCVD 10 ஆண்டு ஆபத்து, 2019 EULAR/ACR SLE அளவுகோல்கள்).

V11 இரண்டாம் புதுப்பிப்பு — 127 நாடு லேபல்கள் முழுவதும் 100,000 செயற்கை வழக்குகள்

இரண்டாம் புதுப்பிப்பு, முதன்மை V11 இல் இருந்த 15-கேஸ் hard-coded Python literal ஐ, பெரிய அளவிலான, நிரல்முறையாக உருவாக்கப்பட்ட செயற்கை கேஸ் செட்டால் மாற்றுகிறது. ஒவ்வொரு இயக்கத்தின் தொடக்கத்திலும் கேஸ் செட் ஏற்றப்படுகிறது மற்றும் வெளிப்படைத்தன்மைக்காக கட்டமைப்பு பதிவு செய்யப்படுகிறது. உள்ளடக்கப் பகுதி அடிப்படையிலான கூட்டணி விநியோகம் கீழே காட்டப்பட்டுள்ளது.

நாளமில்லா சுரப்பியியல் 23,900 வழக்குகள் (23.9%) தைராய்டு, PCOS, வைட்டமின் டி, கோனாடல் அச்சு, பிட்யூட்டரி

வளர்சிதை மாற்ற மருத்துவம் 21,900 வழக்குகள் (21.9%) T2DM, வளர்சிதை மாற்றச் சிண்ட்ரோம், லிபிட் பேனல்கள், ஹைப்பர்யூரிசீமியா

இரத்தவியல் 15,400 வழக்குகள் (15.4%) மைக்ரோசைட்டிக் மற்றும் மேக்ரோசைட்டிக் வேறுபாடுகள், B12/ஃபோலேட், இரும்பு ஆய்வுகள்

கல்லீரல் மருத்துவம் (Hepatology) 12,400 வழக்குகள் (12.4%) NAFLD/NASH, வைரல் ஹெபடைட்டிஸ், FIB-4, கொலஸ்டேசிஸ்

உள்மருத்துவம் (trap subset உட்பட) 9,000 வழக்குகள் (9.0%) கலப்பு அறிகுறி வெளிப்பாடுகள் மற்றும் 8,723 தனிப்பட்ட ஹைப்பர் நோயறிதல் trap வழக்குகள்

இருதயவியல் 7,500 வழக்குகள் (7.5%) ASCVD ஆபத்து, அத்தெரோஜெனிக் டிஸ்லிபிடீமியா, hs-CRP

வாதநோயியல் 6,000 வழக்குகள் (6.0%) SLE, RA, வாஸ்குலைட்டிஸ், தன்னியக்க எதிர்மருந்து பேனல்கள் (EULAR/ACR அளவுகோல்கள்)

சிறுநீரகவியல் 4,000 வழக்குகள் (4.0%) CKD நிலை நிர்ணயம் (KDIGO), eGFR போக்குகள், எலக்ட்ரோலைட் கோளாறு

செயற்கை நாடு-லேபல் விநியோகம் — முதல் 10 லேபல்கள்

100,000 செயற்கை வழக்குகள் locale கையாளுதலை சோதிக்க 127 நாடு லேபல்கள் (ISO 3166-1 alpha-2) கொண்டுள்ளன. லேபல் ஒதுக்கீடு: ஐரோப்பா 57.7%, அமெரிக்காஸ் 25.4%, ஆசியா-பசிபிக் 6.2%, பெயரிடப்பட்ட மத்திய-கிழக்கு/ஆப்பிரிக்கா லேபல்கள் 3.4%, மேலும் கூடுதலான 97 லேபல்கள் கொண்ட நீண்ட வால் மொத்தமாக சுமார் 7.3%. வழக்கு எண்ணிக்கையில் மிக அதிகமாக உள்ள பத்து லேபல்கள்: அமெரிக்கா (10,500), பிரேசில் (9,500), ஸ்பெயின் (9,000), இத்தாலி (8,000), ஜெர்மனி (7,800), பிரான்ஸ் (7,400), போர்ச்சுகல் (5,800), Türkiye (3,400), ஐக்கிய இராச்சியம் (2,900), மற்றும் மெக்சிகோ (2,500). லேபல்-வாரியான கூட்டு மதிப்பெண்கள் 0.9971 முதல் 0.9985 வரை இருந்தன. இந்த லேபல் எண்ணிக்கைகள் locale கையாளுதலை சோதிக்க பயன்படுத்தப்பட்ட உருவாக்கப்பட்ட வழக்குகளின் பண்புகள் — இவை உண்மையான பயனர்கள் அல்ல; உண்மையான உலக புவியியல் கவரேஜும் அல்ல.

முன்பதிவு செய்யப்பட்ட ரூப்ரிக் — விளக்கம்

இந்த பெஞ்ச்மார்க்கில் முன்பதிவு (pre-registration) என்பது மிக முக்கியமான ஒரே முறைமையியல் தேர்வு. எதிர்பார்க்கப்படும் ஒவ்வொரு கண்டறிதலும், ஒவ்வொரு மருத்துவ மதிப்பீட்டு முறைமையும், ஒவ்வொரு அறிக்கை பிரிவும் மூலக் குறியீட்டில் (source code) உறுதிப்படுத்தப்பட்டிருந்தது என்ஜின் அழைக்கப்படுவதற்கு முன்பே. எனவே, என்ஜினை “பிடிக்க” ரூப்ரிக்கை (rubric) பின்னர் சரிசெய்து (post-hoc) மேம்படுத்துவது சாத்தியமில்லை.

ஒருங்கிணைந்த மதிப்பெண் (composite score) மூன்று கூறுகளால் உருவாகிறது. அந்த கட்டமைப்பு கூறு (structural component) 35 சதவீதம் பங்களிக்கிறது; மேலும் என்ஜின் ஏழு கட்டாய அறிக்கை பிரிவுகளை (header, summary, key findings, differential, scoring systems, recommendations, follow-up) மற்றும் அவற்றுக்குள் உள்ள பதினாறு கட்டாய துணைப் பிரிவுகளையும் திருப்பி அளித்ததா என்பதை அளவிடுகிறது. பிரிவு இருப்பு (section presence) கட்டமைப்பு கணக்கில் 40 சதவீதம் எடையும், துணைப் பிரிவு இருப்பு (subsection presence) 60 சதவீதம் எடையும் கொண்டது.

தி மருத்துவ கூறு (clinical component) 55 சதவீதம் பங்களிக்கிறது; மேலும் மூன்று விஷயங்களை இணைக்கிறது: கண்டறிதல்-முக்கியச்சொல் நினைவூட்டல் (clinical sub-score இன் 70 சதவீதம்), மதிப்பீட்டு-முறைமை நினைவூட்டல் (20 சதவீதம் — பொருத்தமான இடங்களில் என்ஜின் Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR அளவுகோல்களை கணக்கிடுகிறதா), மற்றும் சாத்தியக்கூறு-கூட்டுத்தொகை செல்லுபடியாக்கல் சோதனை (10 சதவீதம் — differential சாத்தியக்கூறுகள் [90, 110] இடைவெளிக்குள் கூட்டுத்தொகையாக இருக்க வேண்டும்). trap வழக்குகளுக்கு, அதிகப்படியான கண்டறிதல் (hyperdiagnosis) குறித்த வெளிப்படையான தண்டனை அதிகபட்சம் 0.30 வரை கழிக்கப்படுகிறது; இது உருவாக்கப்பட்ட pathology flag ஒன்றுக்கு 0.10 வீதம் கணக்கிடப்பட்டு, அதிகபட்சம் மூன்று flag களாக வரையறுக்கப்படுகிறது.

தி தாமத கூறு (latency component) 10 சதவீதம் பங்களிக்கிறது. 20 விநாடிகளுக்குள் பதில் வந்தால் முழு 0.10 கிடைக்கும்; 40 விநாடிகளுக்குள் வந்தால் 0.05 கிடைக்கும்; அதைவிட மெதுவான எதுவும் பூஜ்யம் (zero). 20 விநாடி இலக்கு உற்பத்தி முதன்மை primary-path சேவை-நிலை நோக்கத்தை (service-level objective) பிரதிபலிக்கிறது; 40 விநாடி உச்சவரம்பு Phase 2 இல் கனமான என்ஜின் அழைப்புகளுக்கான மாற்று (fallback) பட்ஜெட்டை பிரதிபலிக்கிறது.

முன்பதிவு (pre-registration) என்னதைத் தடுக்கிறது

முதல்-தரப்பு (first-party) பெஞ்ச்மார்க்குகள் post-hoc ரூப்ரிக் tuning மூலம் தங்களின் சொந்த எண்ணிக்கைகளை உயர்த்துவது குறித்து பிரபலமாகவே உள்ளன. அந்த முறைமை கிட்டத்தட்ட எப்போதும் ஒரே மாதிரிதான்: குழு என்ஜினை இயக்குகிறது, எங்கு குறைவாக செயல்படுகிறது என்பதை பார்க்கிறது, பின்னர் அந்த குறைவான பகுதிகள் குறைவாக எண்ணப்படுமாறு ரூப்ரிக்கை அமைதியாக மாற்றுகிறது. முதல் என்ஜின் அழைப்புக்கு முன்பே ரூப்ரிக்கை மூலக் குறியீட்டில் உறுதிப்படுத்தி, harness-ஐ MIT உரிமத்தின் கீழ் வெளியிடுவதன் மூலம், அந்த மாற்றம் version control-ல் தெரியும். யாரும் repository-ஐ clone செய்து, ரூப்ரிக் ஆசிரியர் தேதிகளை (author dates) சரிபார்த்து, scoring-ஐ வடிவமைக்க என்ஜின் முடிவுகள் பயன்படுத்தப்படவில்லை என்பதை உறுதிப்படுத்தலாம்.

ஹைப்பர்-டயக்னோசிஸ் (Hyperdiagnosis) வலை வழக்குகள் — ஏன் அதிகமாக அழைப்பது (over-calling) தான் உண்மையான தோல்வி முறையாகும்

சாதாரண திரைகளில் (normal screens) pathology-ஐ மிகத் தீவிரமாக (aggressively) அதிகமாக அழைப்பது (over-calling) என்பது நுகர்வோர் நோக்கமுள்ள மருத்துவ உதவியாளர்களில் பதிவுசெய்யப்பட்ட தோல்வி முறையாகும். அதன் பின்விளைவுச் செலவுகளில் தேவையற்ற விசாரணை, நோயாளி கவலை, மற்றும் iatrogenic workup ஆகியவை அடங்கும். இந்த பெஞ்ச்மார்க்கில் உள்ள இரண்டு trap வழக்குகள், அந்த தோல்வி முறையை தெரியும் வகையிலும் மதிப்பிடக்கூடிய வகையிலும் உருவாக்கப்பட்டுள்ளன.

🟡 Trap 1 — BT-014-GILBERT

வெளிப்பாடு (Presentation). மொத்த பிலிருபின் 2.4 mg/dL கொண்ட 24 வயது ஆண். direct பகுதி சாதாரணமாக உள்ளது; transaminases மற்றும் alkaline phosphatase அவற்றின் குறிப்பு வரம்புகளுக்குள் இருக்கின்றன; reticulocytes குறிப்பிடத்தக்கதாக இல்லை; மேலும் haptoglobin மற்றும் LDH haemolysis-ஐ நீக்குகின்றன.

சரியான விளக்கம். Gilbert's syndrome — ஒரு benign UGT1A1 polymorphism. இந்த விளக்கம் hepatitis, cirrhosis, haemolytic anaemia, அல்லது biliary obstruction ஆகியவற்றை முன்வைக்கக் கூடாது.

V11 முடிவு. Composite 1.000. கண்காணிக்கப்பட்ட ஆறு over-diagnosis flag களில் எதுவும் செயலில் உள்ள கண்டறிதல்களாக தோன்றவில்லை.

🟡 Trap 2 — BT-015-HEALTHY

வெளிப்பாடு (Presentation). பதினைந்து அளவுருக்களைக் கொண்ட வழக்கமான ஸ்கிரீனிங் பேனலை உடைய 35 வயது பெண். ஒவ்வொரு பரிசோதனை அளவீடும் அதன் குறிப்பு வரம்புக்குள் நன்றாகவே உள்ளது.

சரியான விளக்கம். உறுதிப்படுத்தல் மற்றும் வாழ்க்கைமுறை பராமரிப்பு. இந்த விளக்கம், மருத்துவ ரீதியாக பயனுள்ளதாகத் தோன்றும் வகையில் எல்லைக்கோடு நோய்நிலையை செயற்கையாக உருவாக்கக் கூடாது.

V11 முடிவு. கூட்டு 1.000. கண்காணிக்கப்பட்ட ஏழு அதிக-நோயறிதல் எச்சரிக்கைகளில்—நீரிழிவு, இரத்தசோகை, ஹைப்போதைராய்டிசம், டிஸ்லிபிடீமியா, ஹெபடைட்டிஸ், சிறுநீரக நோய், குறைபாடு—எதுவும் செயலில் உள்ள நோயறிதலாக தோன்றவில்லை.

இரு சோதனை அமைப்புகளிலும் பதின்மூன்று கண்காணிக்கப்பட்ட ஹைப்பர்-நோயறிதல் எச்சரிக்கைகள் சரிபார்க்கப்பட்டன. எதுவும் செயல்படவில்லை. எந்த மருத்துவரும் AI இயந்திரத்தை ட்ரையாஜ் அல்லது முன்-ஆலோசனை கருவியாக பயன்படுத்த நினைக்கும் போது மிக முக்கியமாக கவனிக்க வேண்டிய முடிவு இதுவே: இல்லாத இடத்தில் அமைப்பு நோயை உருவாக்கவில்லை.

மென்ட்சர் குறியீடு: இரும்புக் குறைபாட்டை தலசீமியா பண்பிலிருந்து பிரித்தறிதல்

இரண்டாவது உயர்மதிப்பு கண்டுபிடிப்பு, வழக்கு BT-001 (இரும்புக் குறைபாடு இரத்தசோகை) மற்றும் வழக்கு BT-007 (பீட்டா-தலசீமியா மைனர்) ஆகியவற்றின் இணைப்பைச் சார்ந்தது. இரண்டும் மைக்ரோசைட்டோசிஸுடன் காணப்படுகின்றன; இது அறியாத வகைப்பாட்டாளர்களுக்கு நன்கு அறியப்பட்ட தடுமாற்றம். மென்ட்சர் குறியீடு, அதாவது MCV-ஐ RBC எண்ணிக்கையால் வகுத்தால், இரும்புக் குறைபாட்டில் 13-ஐ விட அதிகமாகவும், தலசீமியா பண்பில் 13-ஐ விட குறைவாகவும் இருக்கும்.

BT-001-ல், நோயாளி 34 வயது பெண்; ஹீமோகுளோபின் 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ஃபெரிட்டின் 6 ng/mL, மற்றும் உயர்ந்த TIBC இருந்தது. சுமார் 17.7 என்ற மென்ட்சர் குறியீடு முழுமையான இரும்புக் குறைபாட்டை ஆதரிக்கிறது. BT-007-ல், நோயாளி 28 வயது ஆண்; மைக்ரோசைட்டோசிஸுடன் (MCV 65.8 fL) இருந்தாலும், RBC எண்ணிக்கை 6.2 என்ற அளவில் உயர்ந்தது, RDW சாதாரணம், ஃபெரிட்டின் சாதாரணம், மற்றும் HbA2 5.6 சதவீதம். சுமார் 10.6 என்ற மென்ட்சர் குறியீடு தலசீமியா பண்பைச் சுட்டுகிறது; உயர்ந்த HbA2 பீட்டா-தலசீமியா மைனரை உறுதிப்படுத்துகிறது.

இரும்புக் குறைபாடு இரத்தசோகை மென்ட்சர் > 13 குறைந்த ஃபெரிட்டின், குறைந்த TSAT, உயர்ந்த TIBC, உயர்ந்த RDW

பீட்டா-தலசீமியா பண்பு மென்ட்சர் < 13 சாதாரண ஃபெரிட்டின், சாதாரண RDW, உயர்ந்த HbA2 (>3.5%), உயர்ந்த RBC எண்ணிக்கை

இரு வழக்குகளும் 1.000 என்ற மதிப்பெண் பெற்றன. இரு விளக்கங்களிலும் இயந்திரம் மென்ட்சர் குறியீட்டை வெளிப்படையாக பயன்படுத்தி, ஒவ்வொரு முறையிலும் சரியான நோயறிதலைத் திருப்பியது. முழு பெஞ்ச்மார்க்கில் மிக அதிக மருத்துவ ரீதியாக உறுதிப்படுத்தும் ஒரே முடிவு இதுவே, ஏனெனில் தலசீமியா பண்பை இரும்புக் குறைபாடாக தவறாக வகைப்படுத்துவது தேவையற்ற இரும்பு கூடுதல் அளிப்பை ஏற்படுத்தி குடும்ப-ஸ்கிரீனிங் வாய்ப்புகளை தவறவிடச் செய்கிறது; மேலும் இரும்புக் குறைபாட்டை தலசீமியாவாக தவறாக வகைப்படுத்துவது நேரடியான மாற்று சிகிச்சையை தாமதப்படுத்துகிறது. எங்கள் ஃபெரிட்டின் (ferritin) வரம்பு வழிகாட்டி விரிவான வேறுபாட்டு சூழலை விளக்குகிறது.

V11 ஆரம்ப குறிப்பு இயக்கத்திலிருந்து (ஏப்ரல் 23, 2026) கேஸ்-தனிப்பட்ட முடிவுகள்

15-கேஸ் proof-of-concept குழுவில் செய்யப்பட்ட அசல் V11 குறிப்பு இயக்கம், முறைமையான அடித்தளமாகும் இரண்டாம் புதுப்பிப்புக்கு: கீழே உள்ள ஒவ்வொரு கேஸ்-தனிப்பட்ட விவரமும் ரூப்ரிக் ஒரு உண்மையான இயந்திர பதிலை எவ்வாறு கையாளுகிறது என்பதை காட்டுகிறது. பதினைந்து கேஸ்களில் பன்னிரெண்டு கேஸ்கள் முதன்மை பாதையில் 1.000 என்ற உச்ச கூட்டு மதிப்பெண்ணை அடைந்தன; மூன்று கேஸ்கள் Phase 2 fallback மூலம் சேவை செய்யப்பட்டன; இதனால் 0.05 latency போனஸ் இழக்கப்பட்டது, ஆனால் அனைத்து மருத்துவ மற்றும் கட்டமைப்பு உள்ளடக்கமும் பாதுகாக்கப்பட்டது. ஒரு கேஸில் ஒரு கட்டாய துணைப்பிரிவு (mandatory subsection) காணவில்லை; ஒன்று சற்று குறைக்கப்பட்ட probability distribution தொகையை (sum) திருப்பியது.

வழக்கு ஐடி சிறப்பு துறை Composite லேட்டன்சி பாதை

BT-001-IDAஇரத்தவியல்1.00017.8 sமுதன்மை

BT-006-B12இரத்தவியல்1.00018.4 விமுதன்மை

BT-007-THALஇரத்தவியல்1.00017.0 விமுதன்மை

BT-002-HASHநாளமில்லா சுரப்பியியல்0.95037.0 விமாற்று (fallback)

BT-008-PCOSநாளமில்லா சுரப்பியியல்0.98718.6 விமுதன்மை

BT-003-T2DMவளர்சிதை மாற்றம்1.00019.1 விமுதன்மை

BT-013-GOUTவளர்சிதை மாற்றம்1.00019.4 விமுதன்மை

BT-004-NAFLDகல்லீரல் மருத்துவம் (Hepatology)1.00019.6 விமுதன்மை

BT-009-VIRHEPகல்லீரல் மருத்துவம் (Hepatology)0.95023.4 விமாற்று (fallback)

BT-014-GILBERTகண்ணி (Trap)1.00018.9 விமுதன்மை

BT-005-CKDசிறுநீரகவியல்1.00017.4 விமுதன்மை

BT-010-ASCVDஇருதயவியல்1.00019.7 விமுதன்மை

BT-011-SLEவாதநோயியல்0.98118.2 விமுதன்மை

BT-012-VITDநாளமில்லா சுரப்பியியல்1.00019.3 விமுதன்மை

BT-015-HEALTHYகண்ணி (Trap)1.00018.7 விமாற்று (fallback)

PCOS வழக்கு (BT-008) பதில் அமைப்பில் ஒரு கட்டாய துணைப்பிரிவை இழந்தது — பதினாறு இல் பதினாறு (16 இல் 16) என்பதற்குப் பதிலாக பதினைந்து இல் பதினாறு (15 இல் 16) — இதனால் கட்டமைப்பு மதிப்பெண் 1.000 இலிருந்து 0.963 ஆகக் குறைந்தது. SLE வழக்கு (BT-011) சிறிதளவு குறைந்த probability-distribution கூட்டுத்தொகையைத் திருப்பியது; இதனால் மருத்துவ மதிப்பெண் 0.965 ஆகக் குறைந்தது; அதே நேரத்தில் ஒவ்வொரு கண்டறிதல் முக்கியச்சொல்லையும் மற்றும் மதிப்பீட்டு முறையையும் பாதுகாத்தது. எந்த துணை-சரியான வழக்கும் சரியான கண்டறிதலைத் தவறவிடவில்லை.

V11 இரண்டாம் புதுப்பிப்பு ஒருங்கிணைவு — 100,000 கேஸ்கள்

மக்கள் அளவிலான அளவீட்டில், தனிப்பட்ட கேஸ் வரிசைகள் மனிதரால் வாசிக்க முடியாததால், இரண்டாம் புதுப்பிப்பு 100,000-வரிசை அட்டவணைக்கு பதிலாக தொகுக்கப்பட்ட அளவுகோல்களை அறிக்கையிடுகிறது. முக்கிய தொகுப்பு கீழே காட்டப்பட்டுள்ளது; சிறப்புத்துறை-வாரியான மற்றும் நாடு-லேபல்-வாரியான பிரிவுகள் தொழில்நுட்ப அறிக்கையிலும் Figshare டெபாசிட்டிலும் வெளியிடப்பட்டுள்ளன. ஒரு stratified random மாதிரி n = 201 மூல இயந்திர பதில்கள் (deterministic seed 20260426) ஆய்வுக்காக GitHub results/ அடைவில் வெளியிடப்பட்டுள்ளது.

கூட்டு மதிப்பெண் V11 ஆரம்பம்: 0.9912 (99.12%) → இரண்டாம் புதுப்பிப்பு: 0.9980 (99.80%) Δ = +0.0068 100,000-கேஸ் குழுவில் முழுவதும்

கட்டமைப்பு மதிப்பெண் (சராசரி) V11 ஆரம்பம்: 0.998 → இரண்டாம் புதுப்பிப்பு: 1.000 மக்கள் தொகை அளவில் முழுமையான கட்டமைப்பு இணக்கம்

மருத்துவ மதிப்பெண் (சராசரி) V11 ஆரம்பம்: 0.998 → இரண்டாம் புதுப்பிப்பு: 0.996 −0.002; எந்த கேஸும் நோயறிதலைத் தானே தவறவிடவில்லை

தாமதம் — சராசரி (வரம்பு) V11 ஆரம்பம்: 20.17 வி (17.0–37.0 வி) → இரண்டாம் புதுப்பிப்பு: 13.26 வி (9.0–16.94 வி) ஓட்டங்களுக்கு இடையில் உற்பத்தி இயந்திர மேம்பாடுகள்

இயந்திர பாதை = முதன்மை V11 ஆரம்பம்: 12 / 15 → இரண்டாம் புதுப்பிப்பு: 100,000 / 100,000 ஓட்டத்தின் எந்த நேரத்திலும் கட்டம் 2 மாற்று (fallback) தேவையில்லை

Trap-subset மிகை கண்டறிதல் (hyperdiagnosis) கொடிகள் V11 ஆரம்பம்: 0 / 13 → இரண்டாம் புதுப்பிப்பு: 0 / 87,412 மக்கள் தொகை அளவில் பூஜ்ய தவறான நேர்மைகள் (8,723 trap வழக்குகள் கண்காணிக்கப்பட்டன)

தலைப்பு மதிப்பெண் எதை நமக்குத் தெரிவிக்காது

இந்த குறிப்பிட்ட முன்பதிவு செய்யப்பட்ட ரூப்ரிக்கின் கீழ் 99.80 சதவீதம் என்ற கூட்டு மதிப்பெண், 127 நாடு லேபல்கள் கொண்ட 100,000-கேஸ் செயற்கை கூட்டணியில், near-ceiling செயல்திறனை குறிக்கிறது — ஆனால் அதை கவனமாக சூழலுடன் விளக்க வேண்டும். இந்த முடிவு V11 இல் மூலக் குறியீட்டில் நாங்கள் உறுதியளித்த ரூப்ரிக்குக்கு எதிராக என்ஜின் எப்படி நடக்கிறது என்பதை விவரிக்கிறது; காட்டு உலகில் இருக்கும் ஒவ்வொரு இரத்தப் பரிசோதனை பேனலிலும் என்ஜின் சரியானதா என்பதைப் பற்றிய பொதுவான (universal) கூற்று அல்ல.

இந்த மதிப்பெண், இந்த மதிப்பீட்டிற்காக தேர்ந்தெடுக்கப்பட்ட கண்டறிதல் (diagnostic) வடிவங்களை மக்கள் தொகை அளவிலான கூட்டத்தில் இயந்திரம் சரியாக கையாள்ந்தது என்பதை, வெளியிடப்பட்டு மீண்டும் உருவாக்கக்கூடிய (reproducible) ஒரு முறையியலின் (methodology) அடிப்படையில் சொல்கிறது. காட்டு சூழலில் இருக்கும் ஒவ்வொரு இரத்த பரிசோதனை பலகையிலும் இயந்திரம் சரியாக இருக்கிறது என்று அது சொல்லவில்லை. மருத்துவ நிபுணரின் (clinician) தீர்மானத்தை இயந்திரம் மாற்ற வேண்டும் என்று அது சொல்லவில்லை. மேலும் மாற்று AI அமைப்புகளை விட இயந்திரம் சிறந்தது என்று அது சொல்லவில்லை — மற்ற இயந்திரங்களுடன் ஒப்பீட்டு பகுப்பாய்வுகள் இந்த அறிக்கைக்கு திட்டமிட்டு (deliberately) வெளியே வைக்கப்பட்டன.

இந்த மதிப்பெண் நிறுவுவது ஒரு அடிப்படை நிலை (baseline) மட்டுமே. மதிப்பீட்டு அளவுகோலும் (rubric) கருவியும் (harness) பொதுவாக கிடைத்திருப்பதால், இயந்திரத்தின் எதிர்கால பதிப்புகளை அதே அளவுகோலுக்கு எதிராக மதிப்பிடலாம் — V11 ஆரம்ப 15 வழக்குகளுக்கு, இரண்டாம் புதுப்பிப்பு 100,000 வழக்குகள் கொண்ட கூட்டத்திற்கு, அல்லது பின்னர் வரும் எந்த விரிவாக்கத்திற்கும் — மேலும் வெளியிடப்பட்ட மதிப்பெண்ணுக்கும் எந்த அடுத்த ஓட்டத்திற்கும் இடையிலான இடைவெளி (gap) தானாகவே அளவிடக்கூடியதாக இருக்கும். முன்பதிவு (pre-registration) என்பதன் மதிப்பு இதுதான்: செயல்திறன் கோரிக்கைகளை சோதிக்கக்கூடிய கோரிக்கைகளாக மாற்றுகிறது.

10 நிமிடங்களில் இந்த அளவுகோலை மீண்டும் உருவாக்குவது எப்படி

மீண்டும் உருவாக்க (Reproduction) செய்ய, Kantesti API சான்றிதழ் ஜோடி மற்றும் Python 3.10 அல்லது அதற்கு மேற்பட்ட பதிப்புள்ள சூழல் மட்டும் போதுமானது; அதில் requests மற்றும் reportlab நூலகங்கள் நிறுவப்பட்டிருக்க வேண்டும். முழு harness என்பது MIT உரிமத்தின் கீழ் வெளியிடப்பட்ட ஒரே, தனித்துவமான Python module ஆகும்.

💻 GitHub MIT உரிமம் கொண்ட harness · மூல பதில்கள் · reference run 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · அதிகாரப்பூர்வ கல்வி பதிவு 🎓 ஆராய்ச்சி வாயில் Publication 404175463 · V11 Second Update · academic discovery layer 📄 அகாடமியா.எடு Paper 165956808 · V11 Second Update · academic discovery layer

புதிய ஓட்டத்திற்கான நான்கு படிகள்

ஒன்று. repository-யை clone செய்யவும்: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. இரண்டு. சார்புகளை நிறுவவும் pip install -r requirements.txt (Second Update சேர்க்கிறது mysql-connector-python ≥ 8.0 SQL case loader-க்காக). மூன்று. அமைக்கவும் KANTESTI_USERNAME மற்றும் KANTESTI_PASSWORD இயந்திர API-க்கான சூழல் மாறிகளாக (environment variables). இரண்டாம் புதுப்பிப்பு SQL case loader-க்காகவும், இதையும் அமைக்கவும் KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, மற்றும் KANTESTI_DB_PASSWORD — படிப்பதற்கு மட்டும் அனுமதி (read-only) கொண்ட ஒரு பங்கு வழியாக loader இணைக்கிறது (bench_reader) அடையாள அட்டவணைகள் (identifying tables) மீது எந்த அனுமதிகளும் இல்லாதது. நான்கு. இயக்கவும் python benchmark_bloodtest.py --limit 100000 முழு Second-Update இயக்கத்திற்காக, அல்லது python benchmark_bloodtest.py --limit 1000 விரைவான மீளாய்விற்காக. வெளியீடுகள் இங்கே கிடைக்கும் ./benchmark_results/: நாடு-லேபல் மற்றும் சிறப்புத் துறை நெடுவரிசைகளுடன் ஒரு CSV scorecard, ஒரு JSON aggregate, ஒரு stratified-random மூல-பதில் மாதிரி, மற்றும் ஒரு Markdown அறிக்கை.

23 ஏப்ரல் 2026 (V11 ஆரம்பம், 15 வழக்குகள்) மற்றும் 26 ஏப்ரல் 2026 (V11 Second Update, 100,000 வழக்குகள்) ஆகிய reference இயக்கங்கள் repository-யின் results/ அடைவில் பாதுகாக்கப்பட்டுள்ளன. நீங்கள் இயக்கினால், reference இயக்கங்களை மாற்றாமல் புதிய நேரமுத்திரையுடன் (timestamped) ஒரு scorecard உருவாகும். உங்கள் இயக்கத்தின் முடிவு குறிப்பிடத்தக்க அளவில் வேறுபட்டதாக இருந்தால், GitHub issue ஒன்றைத் திறந்து, அந்த இயக்கத்தின் நேரமுத்திரையும் பதில் metadata-வில் திரும்பிய engine version-யும் சேர்க்கவும்.

வரம்புகள் மற்றும் எதிர்கால பணிகள்

127 நாடு லேபல்கள் முழுவதும் 100,000 வழக்குகள் இருந்தாலும், நான்கு வரம்புகள் தெளிவாக ஒப்புக்கொள்ளப்பட வேண்டும்: long-tail லேபல் undersampling, single-shot மதிப்பீடு, single-engine வரம்பு, மற்றும் single-source தரவு தோற்றம். இவை அனைத்தும் செயலில் உள்ள தொடர்ச்சிப் பணிகளில் தீர்க்கப்படுகின்றன.

Long-tail லேபல் கவரேஜ். Second Update 127 நாடு லேபல்கள் வரை உள்ளடக்குகிறது, ஆனால் விநியோகம் சமநிலையற்றது — முதல் 10 லேபல்கள் மொத்த வழக்குகளில் ≈66.4% பங்கைக் கொண்டுள்ளன; மேலும் கூடுதலான 97 லேபல்களின் long tail சேர்ந்து ≈7.3% பங்களிக்கிறது (சுமார் 7,300 வழக்குகள் மொத்தமாக, சராசரியாக ஒரு லேபலுக்கு ~75 வழக்குகள்). ஆகவே, இந்த long tail-இல் உள்ள per-label composite-கள் தலைப்பு எண்கள் காட்டுவதைவிட அதிக சத்தமுடையவை. எதிர்கால இயக்கங்கள் label ஒதுக்கீட்டை மறுசீரமைத்து per-label மதிப்பீடுகளை உறுதிப்படுத்தும்.

ஒரே முறை மதிப்பீடு. அந்த cohort-இல் உள்ள ஒவ்வொரு வழக்கும் ஒருமுறை மட்டுமே மதிப்பீடு செய்யப்பட்டது. குறைந்த sampling temperature-இல்கூட பெரிய மொழி மாதிரிகள் (large language models) குறிப்பிடத்தக்க output மாறுபாட்டை (output variance) காட்டுகின்றன; ஆகவே, ஒவ்வொரு வழக்கிற்கும் ஐந்து மதிப்பீடுகளுடன் பல-இயக்க (multi-run) நெறிமுறை மற்றும் அறிவிக்கப்பட்ட மாறுபாடு (reported variance) அடுத்த இயல்பான படியாகும் — குறிப்பாக trap-case துணைத்தொகுதியில் (trap-case subset), sampling jitter-க்கு உட்பட்ட நிலைத்தன்மை (consistency) பாதுகாப்பு (safety) கூற்றின் ஒரு பகுதியாகும்.

ஒரே இயந்திர வரம்பு. இந்த அறிக்கை ஒரு engine-ஐ விவரிக்கிறது. மாற்று AI அமைப்புகளுடன் ஒப்பீட்டு பகுப்பாய்வுகள் இங்கு வரம்புக்கு உட்பட்டவை (out of scope); அதே MIT உரிமம் கொண்ட harness-க்கு எதிராக, பொருத்தமான முறைமையுடன் (methodology) தனித்த சுயாதீன ஆய்வாக அவற்றை மேற்கொள்ளலாம்.

Synthetic data. 100,000 வழக்குகள் synthetic-ஆக உருவாக்கப்பட்டவை; synthetic cases அல்ல, மேலும் முடிவுகள் நிஜ உலக மருத்துவ செயல்திறனுக்கு மாற்றப்படாது. நிஜமான, ஒப்புதல் பெற்ற, வெளிப்புறமாக பெறப்பட்ட தரவின் மீது மதிப்பீடு செய்ய வேண்டுமெனில் பொருத்தமான நெறிமுறை மேற்பார்வை தேவைப்படும்; இது இந்த synthetic benchmark-இன் வரம்புக்கு வெளியானது.

இந்த நான்கைத் தவிர, திட்டமிடப்பட்ட மிகப் பெரிய தாக்கம் கொண்ட விரிவாக்கம் நாடு-அதிகாரத்திற்கு (jurisdiction) ஏற்ப பல மொழி சமநிலை (multi-language parity) ஆகும். Kantesti AI Engine 75+ மொழிகளில் பயனர்களுக்கு சேவை செய்கிறது; மேலும் மொழி-அடுக்கு செய்யப்பட்ட Second-Update துணை-cohort-களை (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) இயக்குவது, engine ஆதரிக்கும் மொழிகள் முழுவதும் output தரத்தை அளவிடும். ஒவ்வொரு மொழி-அடுக்கு பகுப்பாய்வும் அதன் சொந்த DOI மற்றும் harness branch-உடன் வெளியிடப்படும்.

100,000 வழக்குகளில் 99.80% Composite Score பெற்ற அதே Engine-ஐ முயற்சிக்கவும்

இந்த பெஞ்ச்மார்க்கில் மதிப்பாய்வு செய்யப்பட்ட அதே உற்பத்தி (production) இறுதிநிலைக்கு (endpoint) உங்கள் சொந்த இரத்த பரிசோதனை பேனலை பதிவேற்றுங்கள். உலகளவில் 2 மில்லியனுக்கும் மேற்பட்ட பயனர்கள், Kantesti AI Engine-ஐ பயன்படுத்தி 75+ மொழிகளில் 15,000-க்கும் மேற்பட்ட பயோமார்க்கர்களை இரத்த பரிசோதனை விளக்கமாக புரிந்துகொள்கிறார்கள்.

🔬 இலவச டெமோவை முயற்சிக்கவும்

Chrome நீட்டிப்பு ஆப் ஸ்டோர் கூகிள் விளையாட்டு

📚 இந்த பெஞ்ச்மார்க்கை மேற்கோள் காட்டுவது எப்படி

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti Blood-Test Interpretation Engine-க்கான 100,000 Synthetic Test Cases மீது Pre-Registered, Rubric-Based Automated Technical Benchmark — V11 Second Update (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 வெளிப்புற முறைமையியல் (Methodological) மேற்கோள்கள்

Mentzer, W. C. (1973). இரும்புக் குறைபாட்டை (Iron Deficiency) தலசீமியா பண்பிலிருந்து (Thalassaemia Trait) வேறுபடுத்துதல். The Lancet, 301(7808), 882.

🏥 பப்மெட்

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 ஐரோப்பிய ரியுமாட்டிசம் எதிர்ப்பு லீக் (European League Against Rheumatism) / அமெரிக்க ரியுமாட்டாலஜி கல்லூரி (American College of Rheumatology) வகைப்பாட்டு அளவுகோல்கள் (Classification Criteria) — Systemic Lupus Erythematosus. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 டி.ஓ.ஐ. 🏥 பப்மெட்

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: பெரிய மொழி மாதிரிகளுக்கான மருத்துவ டொமைன் ஹாலுசினேஷன் சோதனை (Medical Domain Hallucination Test for Large Language Models). Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%கலவை மதிப்பெண் (Composite Score)

100,000மதிப்பிடப்பட்ட வழக்குகள் (Cases Scored)

127உள்ளடக்கப்பட்ட நாடு லேபல்கள்

0 / 87,412ட்ராப் தவறான நேர்மைகள் (Trap False-Positives)

அடிக்கடி கேட்கப்படும் கேள்விகள்

செயற்கை சோதனை வழக்குகளில் Kantesti AI இயந்திரம் எவ்வளவு துல்லியமாக செயல்படுகிறது?

முன்பதிவு செய்யப்பட்ட rubric-இன் அடிப்படையில், எட்டு உள்ளடக்கப் பகுதிகள் மற்றும் 127 நாடு லேபல்கள் முழுவதும் 100,000 செயற்கையாக உருவாக்கப்பட்ட சோதனை வழக்குகளில் (V11 Second Update) இயக்கப்பட்டபோது, அந்த engine 99.80 சதவீதம் என்ற composite மதிப்பெண்ணை எட்டியது; 87,412 கண்காணிக்கப்பட்ட trap-case வாய்ப்புகளில் hyperdiagnosis flags எதுவும் இல்லை, மேலும் சராசரி பதில் தாமதம் 13.26 விநாடிகள். இந்த composite என்பது synthetic உள்ளீடுகளில் output இணக்கத்தைக் (conformance) அளவிடுகிறது; கண்டறிதல் துல்லியத்தை (diagnostic accuracy) அல்ல. ஆரம்ப V11 வெளியீடு அதே rubric-ஐ 15 கையால் உருவாக்கப்பட்ட வழக்குகளில் பயன்படுத்தியது (composite 99.12%); Second Update அந்த rubric-ஐ byte-identical ஆக வைத்துக்கொண்டு அதை பெரிய synthetic cohort-க்கு விரிவுபடுத்துகிறது. முழு scorecard, DOI 10.6084/m9.figshare.32095435 என்ற Figshare-இல் மற்றும் MIT licence உடன் GitHub-இல் வெளியிடப்பட்டுள்ளது.

Kantesti AI என்ஜின் மருத்துவ ரீதியாக சரிபார்க்கப்பட்டதா?

இல்லை. அந்த engine ஒரு தானியக்க தொழில்நுட்ப benchmark (clinical validation அல்ல) மூலம் மதிப்பீடு செய்யப்பட்டுள்ளது; V11 ஆரம்ப இயக்கத்திற்கு முன்பே source code-இல் உறையவைக்கப்பட்டு, V11 Second Update-க்காக byte-identical ஆகவே வைத்திருந்த rubric-க்கு எதிராக, 127 நாடு லேபல்களிலிருந்து பெறப்பட்ட hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology, மற்றும் internal medicine ஆகிய துறைகளில் உள்ள 100,000 synthetic blood-test வழக்குகளில் மதிப்பீடு செய்யப்பட்டது. மருத்துவ மேற்பார்வை Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) அவர்களால் வழங்கப்பட்டது; அவர் Kantesti AI-இல் board-certified மருத்துவ hematologist மற்றும் Chief Medical Officer ஆவார்.

ஹைப்பர் டயக்னோசிஸ் (அதிக நோயறிதல்) சிக்கல் வழக்கு என்றால் என்ன?

ஹைப்பர்-டயக்னோசிஸ் (over-diagnosis) வலை (trap) வழக்கு என்பது, AI இயந்திரங்களில் அதிக-நோயறிதல் (over-diagnosis) நடத்தை இருப்பதை கண்டறிவதற்காக குறிப்பாக வடிவமைக்கப்பட்ட ஒரு மருத்துவ சூழல். V11 ஆரம்ப பெஞ்ச்மார்க் அத்தகைய இரண்டு வழக்குகளை முறைமையியல் ஆதாரக் கருத்தாக (methodological proof-of-concept) பயன்படுத்தியது: கில்பர்ட் சிண்ட்ரோம் (Gilbert's syndrome) உடன் பொருந்தும் தனிமைப்படுத்தப்பட்ட மறைமுக ஹைப்பர்பிலிருபினீமியா (இதில் சரியான விளக்கம் ஹெபடைட்டிஸ் அல்லது ஹீமோலிசிஸ் அல்ல; மாறாக UGT1A1 பாலிமார்பிசம் சாதாரண/நன்மை தன்மை கொண்டது) மற்றும் முழுமையாக சாதாரணமான பெரியவர்களுக்கான ஸ்கிரீனிங் பேனல் (இதில் சரியான வெளியீடு எல்லைநிலை நோயியல் என்று உருவாக்கப்பட்டதாக அல்ல; உறுதிப்படுத்தும்/ஆறுதல் அளிக்கும் பதிலாக இருக்க வேண்டும்). V11 இரண்டாம் புதுப்பிப்பு இந்த trap-வழக்கு முறைமையை 8,723 வழக்குகள் கொண்ட தனிப்பட்ட துணைத்தொகுப்பாக விரிவுபடுத்தி, 87,412 கண்காணிக்கப்பட்ட ஹைப்பர்-டயக்னோசிஸ் ஃபிளாக் (hyperdiagnosis flag) வாய்ப்புகளை உருவாக்கியது — மேலும் இயந்திரத்தின் தவறான-நேர்மறை (false-positive) விகிதம் பூஜ்யமாகவே இருந்தது.

Kantesti AI என்ஜின் மதிப்பீடு மீண்டும் செய்யக்கூடியதா?

முழு மதிப்பீட்டு (evaluation) ஹார்னஸ் MIT உரிமத்தின் கீழ், ஒரே தனித்த (self-contained) Python மாட்யூலாக வெளியிடப்பட்டுள்ளது. V11 ஆரம்ப இயக்கத்திற்கு Kantesti API சான்றிதழ் ஜோடி மற்றும் Python 3.10 அல்லது அதற்கு மேல் மட்டுமே தேவை. V11 இரண்டாம் புதுப்பிப்பு, Kantesti மருத்துவ-களஞ்சிய (clinical-repository) சான்றிதழ்கள் தேவைப்படும் அளவுருவாக்கப்பட்ட (parameterised), வாசிப்பு-மட்டும் (read-only) SQL வழக்கு ஏற்றியை (case loader) சேர்க்கிறது (a bench_reader அட்டவணைகளை அடையாளம் காண எந்த அனுமதியும் இல்லாத ஒரு பங்கு (role)). குறியீடு (code), வழக்கு ஏற்றியின் SQL, மதிப்பீட்டு அளவுகோல் (வெளியீடுகளுக்கு இடையில் பைட்-அடையாளமாக), மற்றும் V11 ஆரம்பம் மற்றும் இரண்டாம் புதுப்பிப்பு குறிப்பு (reference) இயக்கங்களிலிருந்து பெறப்பட்ட அடுக்கப்பட்ட சீரற்ற மாதிரி (stratified random sample) இயந்திர பதில்கள் ஆகியவை github.com/emirhanai/kantesti-blood-test-benchmark இல் கிடைக்கின்றன; மேலும் Figshare, ResearchGate, Academia.edu ஆகியவற்றிலும் பிரதிபலிக்கப்பட்டுள்ளன (mirrored).

Kantesti AI என்ஜின் இரும்புக் குறைபாட்டை பீட்டா-தலசீமியா பண்பிலிருந்து எவ்வாறு வேறுபடுத்துகிறது?

இந்த இயந்திரம் Mentzer index-ஐ பயன்படுத்துகிறது; இது சராசரி கார்பஸ்குலர் வால்யூம் (mean corpuscular volume) ஐ சிவப்பு இரத்த அணுக்களின் எண்ணிக்கையால் (red blood cell count) வகுத்து கணக்கிடப்படுகிறது. Mentzer index 13-க்கு மேல் இருந்தால் இரும்பு குறைபாடு இரத்தசோகை (iron deficiency anaemia) ஆதரிக்கிறது; 13-க்கு கீழே இருந்தால் beta-thalassaemia trait ஆதரிக்கிறது. V11 ஆரம்ப பெஞ்ச்மார்க்கில் இந்த இரு நிலைகளும், வெளிப்படையான Mentzer index கணக்கீட்டுடன் சரியாக வகைப்படுத்தப்பட்டன; மேலும் ferritin, RDW, மற்றும் HbA2 சூழல் (context) ஆதரவாக பயன்படுத்தப்பட்டது. V11 இரண்டாம் புதுப்பிப்பில் 100,000-வழக்கு கூட்டுத்தொகை (cohort) அளவிலும் அதே வேறுபாட்டு (differential) நடத்தை மக்கள் தொகை அளவில் (population scale) பாதுகாக்கப்பட்டது.

மூல பெஞ்ச்மார்க் தரவையும் மூலக் குறியீட்டையும் நான் எங்கே காணலாம்?

தொழில்நுட்ப அறிக்கை Figshare இல் DOI 10.6084/m9.figshare.32095435 கீழ் பதிவேற்றப்பட்டுள்ளது (V11 ஆரம்ப வெளியீடும் V11 இரண்டாம் புதுப்பிப்பும் இரண்டையும் உள்ளடக்கியது). இது ResearchGate வெளியீடு 404175463 மற்றும் Academia.edu கட்டுரை 165956808 ஆகியவற்றிலும் பிரதிபலிக்கப்பட்டுள்ளது; இரண்டும் V11 இரண்டாம் புதுப்பிப்பு தலைப்பு மற்றும் 100,000-வழக்கு முடிவுகளுடன் புதுப்பிக்கப்பட்டுள்ளன — மேலும் MIT உரிமம் கொண்ட Python ஹார்னஸ் மற்றும் அனைத்து குறிப்பு இயக்க (reference run) முடிவுகளும் github.com/emirhanai/kantesti-blood-test-benchmark இல் உள்ளன. இந்த நான்கு-தள பிரதிபலிப்பு (four-platform mirror) வலையமைப்பு நீண்டகால கிடைப்பையும் மேற்கோள் (citation) நெகிழ்வுத்தன்மையையும் உறுதி செய்கிறது.

AI மருத்துவ பெஞ்ச்மார்க்குகளுக்கு முன்பதிவு (pre-registration) ஏன் முக்கியம்?

முன்பதிவு, post-hoc rubric tuning-ஐத் தடுக்கிறது; இது நிறுவனங்கள் நடத்தும் பெஞ்ச்மார்க்குகள் தங்களின் எண்ணிக்கைகளை உயர்த்திக்காட்டும் மிக பொதுவான ஒரே வழி. எந்த என்ஜின் அழைப்புக்கும் முன்பாக மதிப்பீட்டு அட்டவணையை மூலக் குறியீட்டில் உறுதி செய்து, harness-ஐ பொதுவாக வெளியிடுவதன் மூலம், அந்த மதிப்பீட்டு அட்டவணை ஆசிரியரின் (rubric author) தேதிகள் version control-ல் ஆய்வு செய்யக்கூடியதாக (inspectable) இருக்கும்; மேலும் என்ஜின் முடிவுகள் மதிப்பீட்டு அளவுகோல்களை (scoring criteria) வடிவமைத்திருக்க முடியாது.

இந்த பெஞ்ச்மார்க்கில் மற்ற AI என்ஜின்களுடன் ஒப்பீடுகள் உள்ளதா?

இல்லை. V11 அறிக்கை — ஆரம்ப வெளியீடும் இரண்டாம் புதுப்பிப்பும் — மாற்று வணிக (commercial) அமைப்புகளுக்கு எதிராக நிலைநிறுத்துவதற்குப் பதிலாக, ஒரு நிலையான (fixed) மதிப்பீட்டு அளவுகோலுக்கு எதிராக ஒரு தனி இயந்திரத்தை (single engine) திட்டமிட்டு விவரிக்கிறது. ஹார்னஸ் MIT உரிமத்தின் கீழ் திறந்த மூலமாக (open source) உள்ளது (இப்போது SQL வழக்கு ஏற்றியும் உட்பட), எனவே சுயாதீன ஆராய்ச்சியாளர்கள் தாங்கள் தேர்ந்தெடுக்கும் எந்த இயந்திரத்தையும் அதே மதிப்பீட்டு அளவுகோல் மற்றும் வழக்கு ஏற்றிக்கு எதிராக மதிப்பீடு செய்து, தங்களின் முடிவுகளை வெளியிடலாம்.

நோயாளி வழக்குகள் உண்மையா அல்லது செயற்கையா?

அனைத்து வழக்குகளும் synthetically உருவாக்கப்பட்டவை — V11 ஆரம்ப வெளியீட்டில் 15 கையால் உருவாக்கப்பட்ட வழக்குகள் மற்றும் Second Update-இல் 100,000. அவை synthetic cases அல்ல: synthetic data, ஒப்புதல் செயல்முறை, மற்றும் de-identification எதுவும் இதில் இல்லை; ஏனெனில் அந்த cohort-இல் தனிப்பட்ட தரவு எதுவும் இல்லை. வெளியிடப்பட்ட harness-இல், தொழில்நுட்ப அறிக்கையில், அல்லது வெளியிடப்பட்ட datasets-இல் எந்த தனிப்பட்ட தரவும் தோன்றவில்லை.

⚕️ மருத்துவ மறுப்பு & நலமுரண்பாடு (Conflict of Interest)

இந்த பெஞ்ச்மார்க் அறிக்கை ஆராய்ச்சி மற்றும் முறையியல் வெளிப்படைத்தன்மை நோக்கங்களுக்காக மட்டுமே. இது மருத்துவ ஆலோசனையாகாது, நோயறிதலாகாது, மற்றும் தொழில்முறை மருத்துவ பராமரிப்பிற்கான மாற்றாகாது; இங்கு உள்ள எந்த முடிவும் மருத்துவரை பார்க்கும் தாமதத்தை ஏற்படுத்த அல்லது தவிர்க்க பயன்படுத்தப்படக்கூடாது. நோயறிதல் மற்றும் சிகிச்சை முடிவுகளுக்காக எப்போதும் தகுதியான சுகாதார வழங்குநரை அணுகவும். இது நிறுவனத்தின் சொந்த என்ஜினின் சுயமாக இயக்கப்பட்ட உள்புற பெஞ்ச்மார்க்; இது சுயாதீனமாக சரிபார்க்கப்படவில்லை அல்லது சக-மதிப்பாய்வு செய்யப்படவில்லை. ஒருங்கிணைந்த மதிப்பெண் ஒரு நிரந்தர ரூப்ரிக்கிற்கு (அறிக்கை அமைப்பு, முக்கியச்சொல் மற்றும் மதிப்பீட்டு-அமைப்பு மீளப்பெறுதல், மற்றும் தாமதம்) இணக்கத்தை அளவிடுகிறது; இது நிஜ உலக நோயறிதல் துல்லியத்தையோ அல்லது மருத்துவ பாதுகாப்பையோ அளவிடுவதில்லை. இரு ஆசிரியர்களும் Kantesti Ltd நிறுவனத்தில் பணியாற்றுகிறார்கள் மற்றும் அதில் பங்குதாரர்களாக உள்ளனர்; மதிப்பிடப்படும் என்ஜின் அதே அமைப்பின் வணிக தயாரிப்பு. இந்த நலவிரோதம், ரூப்ரிக்கை மூலக் குறியீட்டில் முன்பதிவு செய்வதன் மூலம், MIT உரிமத்தின் கீழ் harness-ஐ வெளியிடுவதன் மூலம், மற்றும் மூல என்ஜின் பதில்களின் அடுக்கப்பட்ட சீரற்ற மாதிரியை வெளியிடுவதன் மூலம் குறைக்கப்படுகிறது.

E-E-A-T நம்பிக்கை சிக்னல்கள்

⭐ कालिक के

அனுபவம்

வழக்கு பேனல் தேர்வை மேற்பார்வை செய்த 15+ ஆண்டுகள் மருத்துவ ஹீமடாலஜி மற்றும் ஆய்வக மருத்துவ நடைமுறை.

📋

நிபுணத்துவம்

வெளிப்படையான hyperdiagnosis தண்டனைகளுடன் முன்பதிவு செய்யப்பட்ட மதிப்பீட்டு அட்டவணை வடிவமைப்பு மற்றும் அங்கீகரிக்கப்பட்ட மருத்துவ மதிப்பீட்டு அமைப்புகள் (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

அதிகாரம்

முதன்மை ஆசிரியர் Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). செயலாக்கம் (Implementation) Julian Emirhan Bulut, Kantesti Ltd-இன் CEO.

🛡️

நம்பகத்தன்மை

MIT உரிமம் பெற்ற மீளுருவாக்கக்கூடிய (reproducible) harness, மூல என்ஜின் பதில்கள் வெளியிடப்பட்டுள்ளன, திறந்த நலமுரண்பாடு வெளிப்படுத்தல் (open conflict-of-interest disclosure), நான்கு-தள ஆராய்ச்சி பிரதிபலிப்பு நெட்வொர்க்.

🏢 கான்டெஸ்டி லிமிடெட் இங்கிலாந்து & வேல்ஸில் பதிவு · நிறுவனம் எண். 17090423 லண்டன், யுனைடெட் கிங்டம் · kantesti.net தமிழ் in இல்