Kantesti AI රුධිර පරීක්ෂණ ප්‍රමිතිය

ස්වයංක්‍රීය Benchmark පෙර-ලියාපදිංචි කළ සම්මත මිනුම් (Benchmark) V11 දෙවන යාවත්කාලීන කිරීම — 2026 අප්‍රේල් MIT බලපත්‍රය සහිත (MIT-Licensed) නැවත නිෂ්පාදනය කළ හැකි · විවෘත දත්ත 100K සින්තටික් කෝහෝට් · රට ලේබල් 127ක්

පෙර-ලියාපදිංචි කළ රූබ්‍රික් එකක් මත 99.80% සංයුක්ත ලකුණු — V11 දෙවන යාවත්කාලීනය, රට ලේබල් 127ක් පුරා 100,000-කේස් කෝහෝට්

රට ලේබල් 127ක් ලෙස ටැග් කර ඇති 100,000ක් සින්තටික් ලෙස ජනනය කළ රුධිර පරීක්ෂණ කේස් මත Kantesti එන්ජිම සඳහා පෙර-ලියාපදිංචි කළ, රූබ්‍රික්-පාදක ස්වයංක්‍රීය තාක්ෂණික බෙන්ච්මාර්කයක්. මෙය රෝග නිර්ණ නිරවද්‍යතාවය නොව ප්‍රතිදානයේ අනුකූලතාවය මනිනු ලබයි. V11 මුල් නිකුතුවට පෙර මූලාශ්‍ර කේතයේ රූබ්‍රික් එක ස්ථිර කර තිබූ අතර මෙම දෙවන යාවත්කාලීනය සඳහා බයිට්-සමානවම තබා ඇත; ඇගයීම් හාර්නස් MIT බලපත්‍රය යටතේ ඇත; පරීක්ෂා කිරීම සඳහා එන්ජිමෙන් ලැබෙන මුල් ප්‍රතිචාරවල ස්ථරීකෘත අහඹු නියැදියක් ප්‍රකාශයට පත් කර ඇත. සියලුම කේස් සින්තටික් වේ; පුද්ගලික දත්ත භාවිත නොකෙරේ.

📖 ~විනාඩි 14ක් 📅 2026 අප්‍රේල් 23 දින ප්‍රකාශයට පත් කරන ලදී · 2026 අප්‍රේල් 26 දින යාවත්කාලීන කරන ලදී (V11 දෙවන යාවත්කාලීන කිරීම) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 ප්‍රකාශිත: 2026 අප්‍රේල් 23 🔄 V11 දෙවන යාවත්කාලීන කිරීම: 2026 අප්‍රේල් 26 🩺 වෛද්‍යමය වශයෙන් සමාලෝචනය කළේ: 2026 අප්‍රේල් 26 ✅ පෙර-ලියාපදිංචි කළ රූබ්‍රික් (බයිට්-සමාන) 🔓 විවෘත කේතය සහ දත්ත

මෙම ස්වයංක්‍රීය benchmark එක සැලසුම් කර ක්‍රියාත්මක කරන ලද්දේ ජූලියන් එමිර්හාන් බුලුට්, Kantesti Ltd හි ජ්‍යෙෂ්ඨ AI ඉංජිනේරුවරයා සහ ප්‍රධාන විධායක නිලධාරියා (CEO) විසිනි. ලකුණුකිරීම සම්පූර්ණයෙන්ම මූලාශ්‍ර කේතයේ ස්වයංක්‍රීයව සිදු වේ; ලකුණුකිරීමේ ප්‍රමිතිය (scoring rubric) සහ නඩු පැනලය (case panel) Kantesti AI හි ප්‍රධාන වෛද්‍ය නිලධාරියා වන වෛද්‍ය තෝමස් ක්ලයින්, MD, වෙතින් ලැබුණු සායනික ආදානය සමඟින් සංවර්ධනය කර ඇති අතර, එය කන්ටෙස්ටි AI වෛද්‍ය උපදේශක මණ්ඩලය. මෙය ස්වයං-ධාවන අභ්‍යන්තර බෙන්ච්මාර්කයක් මිස ස්වාධීන හෝ සම-සමාලෝචිත තාක්ෂණික ස්වයංක්‍රීය බෙන්ච්මාර්කයක් නොවේ.

ප්‍රධාන කතුවරයා සහ සායනික අධීක්ෂණය

තෝමස් ක්ලයින්, MD

ප්‍රධාන වෛද්‍ය නිලධාරී, කන්ටෙස්ටි ඒඅයි

ආචාර්ය තෝමස් ක්ලයින් යනු වසර 15කට වැඩි පළපුරුද්දක් ඇති, පුවරු-සහතික ලත් සායනික රුධිරවේදියෙකු සහ අභ්‍යන්තර වෛද්‍යවරයෙකු වේ. Kantesti AI හි ප්‍රධාන වෛද්‍ය නිලධාරියා ලෙස, මෙම බෙන්ච්මාර්කය සඳහා කේස් පැනලය තෝරාගත්තේය, සින්තටික් කේස්වල සායනික අන්තර්ගතය සහ අපේක්ෂිත පිළිතුරු සමාලෝචනය කළේය, සහ පළමු එන්ජිම කැඳවීමට පෙර පෙර-ලියාපදිංචි කළ රූබ්‍රික් එක අනුමත කළේය.

ORCID 0009-0009-1490-1321 පර්යේෂණ ද්වාරය ගූගල් ස්කොලර්

සහකාර කතුවරයා සහ ක්‍රියාත්මක කිරීම

ජූලියන් එමිර්හාන් බුලුට්

ජ්‍යෙෂ්ඨ AI ඉංජිනේරුවරයා සහ CEO, Kantesti Ltd

ජූලියන් එමිරහන් බුලූට් Kantesti Ltd හි නිර්මාතෘවරයා සහ ප්‍රධාන විධායක නිලධාරියා වේ. ඔහු ඇගයීම් හාර්නස් — V11 දෙවන යාවත්කාලීන කිරීම සඳහා එක් කළ SQL කේස් ලෝඩරය ඇතුළුව — නිර්මාණය කර ක්‍රියාත්මක කළ අතර, API ඒකාබද්ධතාව සිදු කළේය; V11 මුල් යොමු ධාවනය සහ V11 දෙවන යාවත්කාලීන කිරීමේ නඩු 100,000 ධාවනය යන දෙකම සිදු කළේය; සහ සංඛ්‍යානමය එකතු කිරීම සකස් කළේය. 2019 සිට වේදිකාවේ නිර්මාතෘවරයා.

GitHub කන්ටෙස්ටි ගැන

⚡ ඉක්මන් සාරාංශය V11 දෙවන යාවත්කාලීන කිරීම — 2026 අප්‍රේල් 26

99.80% සංයුක්ත ලකුණු වෛද්‍ය විශේෂතා අටක් සහ රට ලේබල් 127ක් පුරා විහිදෙන 100,000ක් සින්තටික් රුධිර පරීක්ෂණ කේස් මත (V11 දෙවන යාවත්කාලීනය).
අධි-රෝග නිර්ණය (hyperdiagnosis) සම්බන්ධ බොරු ධනාත්මක (false-positives) නොමැතිව නිරීක්ෂණය කළ trap-case flag අවස්ථා 87,412ක් පුරා — V11 මුල් ක්‍රමවේදයම, ජනගහන මට්ටමට පරිමාණය කර ඇත.
පෙර-ලියාපදිංචි කළ rubric V11 මුල් ධාවනයට පෙර මූලාශ්‍ර කේතයේ ස්ථිර කර තිබූ අතර, බයිට්-සමානවම තබා ඇත මෙම දෙවන යාවත්කාලීන කිරීම සඳහා — පශ්චාත්-අභිරුචිකරණය (post-hoc tuning) කළ නොහැකි විය.
Mentzer දර්ශකය නිවැරදිව යොදාගත්තා V11 මුල් නිකුතුවේදී යකඩ ඌනතාවය නිසා ඇති රක්තහීනතාවය (iron deficiency anaemia) බීටා-තැලසීමියා සුළු (beta-thalassaemia minor) වලින් වෙන්කර හඳුනා ගැනීමට; ජනගහන මට්ටමට පරිමාණය කළ විටද එම වෙනස් හැසිරීම ආරක්ෂා විය.
නිෂ්පාදන අවසාන ලක්ෂ්‍යය පමණක් — වරප්‍රසාදිත මාර්ගගත කිරීමක් (privileged routing) නැත; ගෙවන පාරිභෝගිකයෙකුට ප්‍රවේශ විය හැකි ආකාරයටම නිවැරදිව ඇගයූවා.
තත්පර 13.26ක සාමාන්‍ය ප්‍රමාදය end-to-end (පරාසය 9.0–16.94 s) ලෙස; නඩු 100,000ම එන්ජිමේ ප්‍රධාන මාර්ගය (primary path) තුළ සම්පූර්ණ විය.
සින්තටික් කෝහෝට්. ධාවනයේදී (run-time) පූරණය කරන ලද 100,000ක් සින්තටික් ලෙස ජනනය කළ පරීක්ෂණ කේස්. සින්තටික් දත්ත හෝ පුද්ගලික දත්ත භාවිත නොකෙරේ.
MIT බලපත්‍ර සහිත harness GitHub හි පරීක්ෂා කිරීම සඳහා සමානව ස්ථරීකෘත අහඹු නියැදියක් (n = 201) ලෙස සම්පූර්ණ මුල් එන්ජිම ප්‍රතිචාර නිකුත් කරන ලදී.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub වෙත ප්‍රතිබිම්බ කර ඇත.

මෙම සම්මත මිනුම (benchmark) පැවතීමට හේතුව සහ එය පරීක්ෂා කරන්නේ කුමක්ද

AI සහාය ඇති රුධිර පරීක්ෂණ ප්‍රතිඵල කියවන්නේ කෙසේද පාරිභෝගික සහ සායනික ක්‍රියාපටිපාටිවල වැඩි වැඩියෙන් භාවිතා වෙමින් පවතී. එහෙත් රසායනාගාර වෛද්‍ය විද්‍යාවට ගැලපෙන, නැවත නිර්මාණය කළ හැකි ඇගයීම් රාමු (evaluation frameworks) අඩු වශයෙන්ම දක්නට ලැබේ. මෙම සන්දර්භයේ වැදගත්ම ප්‍රශ්න සාමාන්‍ය වෛද්‍ය ප්‍රශ්න-පිළිතුරු (question-answering) සම්මතයන් මගින් ආවරණය වන ඒවා නොවේ: මධ්‍යම සෛල පරිමාව (mean corpuscular volume) එකම නම්, එන්ජිමට යකඩ ඌනතාවය (iron deficiency) තැලසීමියා ලක්ෂණයෙන් (thalassaemia trait) වෙන් කළ හැකිද? එය Gilbert's syndrome හෙපටයිටිස් (hepatitis) ලෙස අධි-රෝග නිර්ණය කරනවාද? සහ සම්පූර්ණයෙන්ම සාමාන්‍ය පරීක්ෂණ පැනලයක (screening panel) රෝගාබාධ නිර්මාණය කරනවාද?

තනි රුධිර පරීක්ෂණ පැනලයක් සාමාන්‍යයෙන් එකිනෙකට තරඟකාරී අර්ථකථන කිහිපයක් සඳහා ප්‍රමාණවත් සංඥා අඩංගු වේ. එම අර්ථකථනය කරන වෛද්‍යවරයාගේ කාර්යය වන්නේ එම අර්ථකථන එකිනෙකට සාපේක්ෂව කිරා මැන බැලීමයි; පෙළපොත් පිළිතුරක් ලබා ගැනීම නොවේ. පෙළපොත් නඩු වලදී හොඳින් ක්‍රියා කරන එන්ජිමක්, වඩාත් වැදගත් නඩු වලදී තවමත් අසාර්ථක විය හැක: වැරදි අවකල-රෝග නිර්ණය (differential-diagnosis) උගුල්, තනිව බලන විට බියකරු ලෙස පෙනෙන සාමාන්‍ය නොවන නමුත් අහිතකර නොවන වෙනස්කම් (benign variants), සහ විශ්වම සාමාන්‍ය පැනලයන් (fully normal panels) නිසා විශ්වාසයෙන් සහායකයන් රෝගී තත්ත්වයක් “නිර්මාණය” කිරීමට පෙළඹෙන අවස්ථා.

මෙම බෙන්ච්මාර්කය නිර්මාණය කර ඇත්තේ හරියටම එවැනි අසාර්ථක වීමේ ආකාර (failure modes) වටාය. සෑම නඩුවක් (15 න් එකක්)ම නිශ්චිත රෝග නිර්ණාත්මක ගුණාංගයක් සඳහා තෝරාගෙන ඇත: එකම mean corpuscular volume (MCV) ඇති beta-thalassaemia trait එකකින් වෙන්කර තබාගත යුතු, යකඩ ඌනතාවය නිසා ඇති microcytosis; Gilbert's syndrome ලෙස පෙනෙන අවස්ථාවක්, එහි එකම අසාමාන්‍යතාවය වන්නේ හුදකලා indirect hyperbilirubinaemia වීම; සහ පරාමිතී 15ක screening පැනලයක්, එහි සෑම analyte එකක්ම තම තමන්ගේ reference range තුළම පිහිටා තිබීම. මෙම rubric මගින් එක් එක් නඩුව එහිම කොන්දේසි අනුව කියවන එන්ජිමයන්ට ප්‍රතිලාභ ලැබේ; එවැනි රෝග නිර්ණයක් අවශ්‍ය නොවන විට විශ්වාසයෙන් රෝග නිර්ණයකට පැමිණෙන එන්ජිමයන්ට දඬුවම් ලැබේ.

MD වෛද්‍ය Thomas Klein ලෙස, මෙම නඩු පැනලය මම තෝරාගත්තේ රසායනාගාර-වෛද්‍ය සහායකයන් වැඩිපුරම වැරදි කරන්නේ මේ ආකාරයේ රටා (patterns) බව මට පෙනෙන නිසාය. වියදම් සහිත අසාර්ථක වීමේ ආකාරය "දුර්ලභ රෝගයක් මගහැරීම" නොවේ — එය එය නොමැති රෝගීන් තුළ සාමාන්‍ය රෝගී තත්ත්වයක් (routine pathology) නිර්මාණය කිරීමයි. අපගේ වෛද්‍ය වලංගුකරණය hub විසින් පුළුල් රාමුව විස්තර කරයි; මෙම පිටුව V11 මුල් proof-of-concept එක සහ V11 දෙවන යාවත්කාලීනය විස්තර කරයි—එය රට ලේබල් 127ක් පුරා විහිදෙන සින්තටික් කේස් කට්ටලයකින් ලබාගත් සින්තටික් කේස් 100,000ක් දක්වා එය පරිමාණය කළේය—එකම ලකුණු රූබ්‍රික් එක භාවිත කරමින්, බයිට්-සමානව, post-hoc tuning සඳහා අවසර නොමැත.

2026 අප්‍රේල් 26 දින V11 දෙවන යාවත්කාලීනයේ යොමු ධාවනය මගින්

V11 ආරම්භක නිකුතුවේ භාවිත කළ එමම pre-registered rubric එකම මත, ඇගයීමට ලක් කළේ 99.80% 100,000 ව්‍යාජ නාමික (anonymised) කේස් 100,000ක් සින්තටික් කේස් Kantesti සින්තටික් කේස් කට්ටලයෙන් ලබාගත් අතර රට ලේබල් 127ක් පුරා විහිදේ . මට්ටමටම පැවතුණි. 2026 අප්‍රේල් 23 දින පැවති මුල් V11 ධාවනයේදී අතින් තෝරාගත් (hand-curated) කේස් 15ක් (composite 99.12%) ආවරණය කර rubric වලංගු කර තිබූ අතර; දෙවන යාවත්කාලීනය එම rubric එක byte-identical ලෙසම තබාගෙන ඇගයීම ජනගහන-පරිමාණ (population-scale) සමූහයක් දක්වා පුළුල් කරයි. 0 / 87,412. 100,000 න් 100,000 කේස් ලකුණු ලැබීය.

සංයුක්ත 99.80% 13.26 s

1.000 ව්‍යුහාත්මක ලකුණු (Structural score)

0.996 සායනික ලකුණු (Clinical score)

ප්‍රධාන මාර්ගයේ සේවා-මට්ටමේ ඉලක්කය (service-level target) අනුව. නිවැරදි විභජනය (decomposition) පහත rubric සූත්‍රයේ දක්වා ඇත — දෙවන යාවත්කාලීනය සඳහා මේ කිසිදු බරක් (weights) හෝ sub-rubrics වෙනස් කර නැත. සාමාන්‍ය ප්‍රමාදය (Mean latency)

0 / 87,412 උගුල් ලෙස වැරදි ධනාත්මක (Trap false-positives)

සංයුක්ත සූත්‍රය සංරචක තුනක් එකතු කරයි: ව්‍යුහාත්මක අනුකූලතාව (structural conformance) අනිවාර්ය වාර්තා කොටස් හත (seven mandatory report sections) සහ අනිවාර්ය උප කොටස් දහසය (sixteen mandatory subsections) සමඟ, අන්තර්ගත නිරවද්‍යතාව යනු keyword recall + scoring-system recall + සම්භාවිතා-විතරණ වලංගුතා පරීක්ෂාව (probability-distribution validity check) ලෙස මනිනු ලබන අතර, ප්‍රතිචාර ප්‍රමාදය (response latency) ඉතිරි 0.20 ප්‍රතිශත ලක්ෂ්‍ය (percentage points) පමණක් headroom ලෙස clinical sub-score වෙත බොහෝමයක් වෙන්වෙයි — කුඩා කොටසක් කේස් (ප්‍රධාන වශයෙන් Hepatology සහ Rheumatology තුළ) තුළ, රෝග විනිශ්චය අන්තර්ගතය නිවැරදි වුවද, එන්ජිමේ අර්ථකථනය තුළ එක් අපේක්ෂිත ලකුණුකරණ-පද්ධති (scoring-system) මූල පදයක් නොතිබුණි.

සංයුක්ත = 0.35 × ව්‍යුහාත්මක (Structural) + 0.55 × සායනික (Clinical) + 0.10 × ප්‍රමාදය (Latency)

100,000-කේස් දෙවන යාවත්කාලීන සමූහයේ කිසිදු කේස් එකක්ම රෝග විනිශ්චය (diagnosis) තමාම මගහැරියේ නැත. V11 ආරම්භක නිකුතුවේ සාමාන්‍ය latency 20.17 s සිට දෙවන යාවත්කාලීනයේ 13.26 s දක්වා වැඩිදියුණු විය; එය එම ධාවන දෙක අතර නිෂ්පාදන එන්ජිම (production engine) ප්‍රශස්තිකරණයන් පිළිබිඹු කරයි. rubric, scoring code, සහ API endpoint වෙනස් කර නැත. රට අනුව composite ලකුණු 30ක් වැඩිම නියෝජනය වූ රටවල් අතර 0.9971 (ඉන්දියාව) සිට 0.9985 (ස්විට්සර්ලන්තය) දක්වා විය. අමතර රටවල් 97ක දිගු වලිගය (≈7,300 කේස් එකතුව) තුළ කිසිදු ක්‍රමානුකූල පිරිහීමක් (systematic degradation) දක්නට නොලැබුණි. කේස් ගණන අනුව ප්‍රධාන දායකයන් වූයේ එක්සත් ජනපදය (10,500), බ්‍රසීලය (9,500), ස්පාඤ්ඤය (9,000), ඉතාලිය (8,000), ජර්මනිය (7,800), ප්‍රංශය (7,400), පෘතුගාලය (5,800), Türkiye (3,400), එක්සත් රාජධානිය (2,900), සහ මෙක්සිකෝව (2,500) ය.

ලේබලය-අනුව සංයුක්ත ලකුණු 30ක් වැඩිම නියෝජනය වූ රට ලේබල් අතර 0.9971 සිට 0.9985 දක්වා පරාසයක පැවතුණි. අමතර ලේබල් 97ක දිගු වලිගය (සමස්ත කේස් ≈7,300) තුළ කිසිදු ක්‍රමානුකූල පිරිහීමක් දක්නට නොලැබුණි. කේස් ගණන අනුව වැඩිම වාර ගණන ඇති ලේබල් වූයේ එක්සත් ජනපදය (10,500), බ්‍රසීලය (9,500), ස්පාඤ්ඤය (9,000), ඉතාලිය (8,000), ජර්මනිය (7,800), ප්‍රංශය (7,400), පෘතුගාලය (5,800), Türkiye (3,400), එක්සත් රාජධානිය (2,900), සහ මෙක්සිකෝව (2,500) ය. ලේබලය-අනුව සංයුක්ත ලකුණු 0.9971 සිට 0.9985 දක්වා පරාසයක පැවතුණි.

කේස් 15කින් 100,000 දක්වා: රට ලේබල් 127ක් පුරා කෝහෝට් පරිණාමය

මුල් V11 කේස් පැනලය විශේෂතා හතක් ආවරණය කළේය — රුධිරවේදය, අන්තරාසර්ගවේදය, පරිවෘත්තීය වෛද්‍ය විද්‍යාව, හෙපටොලොජි, නෙෆ්‍රොලොජි, හෘද රෝගවේදය, රූමැටොලොජි — සහ කැපවූ hyperdiagnosis trap කේස් දෙකක්ද සමඟින්; එක් එක් කේස් එකක් සින්තටික් ලෙස ජනනය කළ රුධිර පරීක්ෂණ පැනලයක් විය. V11 දෙවන යාවත්කාලීනය ඇගයීම විහිදවන්නේ රට ලේබල් 127ක් පුරා විහිදෙන 100,000ක් සින්තටික් කේස් මතට, hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology යන ක්ෂේත්‍රවල මුල් V11 කේස්-පැනල සැලසුම, සහ trap කේස් 2ක් — Gilbert's syndrome සහ සම්පූර්ණයෙන්ම සාමාන්‍ය screening පැනලයක්. දෙවන යාවත්කාලීනය මෙම rubric එක byte-identical ලෙසම පවත්වාගෙන, cohort එක Kantesti SQL ගබඩාවෙන් ලබාගත් කේස් 100,000ක් දක්වා පුළුල් කරයි.

සියලුම කේස් සින්තටික් ලෙස ජනනය කර ඇති බැවින් ඉවත් කළ යුතු සැබෑ හඳුනාගැනීම් නොමැති අතර පුද්ගලික දත්ත කිසිවක් සම්බන්ධ නොවේ. සෑම සින්තටික් කේස් එකක්ම බෙන්ච්මාර්කය-අභ්‍යන්තර කේස් කේතයක් දරයි (V11 මුල් කට්ටලයේ BT-NNN-LABEL, දෙවන යාවත්කාලීනයේ ස්ථාවර . දෙවන යාවත්කාලීනය සඳහා සැකසුම් සිදු කරන ලද්දේ ). ප්‍රකාශයට පත් කළ හාර්නස් තුළ, තාක්ෂණික වාර්තාවේ, හෝ නිකුත් කළ දත්ත කට්ටලවල කිසිම තැනක පුද්ගලික දත්ත දක්නට නොලැබේ.

V11 initial release — 15 hand-curated cases

මුල් V11 නඩු පැනලය ආචාර්ය තෝමස් කීන් විසින් අතින් තෝරා සකස් කරන ලද්දේ රසායනාගාර-වෛද්‍ය සහායකයින් බොහෝවිට වැරදි කරන රෝග නිර්ණ පේටන්ස් (diagnostic patterns) පුහුණු කිරීමටය. පහත ලැයිස්තුගත කර ඇති විශේෂ රෝග නිර්ණ ගුණාංගයක් සඳහා එක් එක් නඩු පහළොවක් (15) තෝරාගෙන තිබුණි.

Hematology (3) BT-001, BT-006, BT-007 යකඩ ඌනතාවය නිසා ඇති රක්තහීනතාවය · B12 ඌනතාවය · Beta-thalassaemia minor

Endocrinology (3) BT-002, BT-008, BT-012 Hashimoto's thyroiditis · insulin resistance සමඟ PCOS · දැඩි විටමින් D ඌනතාවය

Metabolic (2) BT-003, BT-013 metabolic syndrome සමඟ T2DM · gout අවදානම සමඟ hyperuricaemia

Hepatology (2) BT-004, BT-009 NAFLD / NASH · උග්‍ර වෛරස් හෙපටයිටිස්

Nephrology · Cardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD අදියර 3 · atherogenic dyslipidaemia · systemic lupus erythematosus

Trap cases (2) BT-014, BT-015 Gilbert's syndrome (isolated indirect hyperbilirubinaemia) · සම්පූර්ණයෙන්ම සාමාන්‍ය වැඩිහිටි screening

මෙම විශේෂිත ව්‍යාප්තිය තෝරාගත්තේ ඇයි

Hematology හට නඩු තුනක් ලැබෙන්නේ ක්ෂුද්‍ර සයිටික (microcytic) වෙනස්කම් සහ මැක්‍රොසයිටික (macrocytic) වෙනස්කම් යන දෙකම සැබෑ ලෝක රසායනාගාර භාවිතයේ වැඩිම පරිමාවක් ඇති “උගුල්” (traps) වන නිසාය. Endocrinology හට නඩු තුනක් ලැබෙන්නේ Hashimoto’s, PCOS, සහ විටමින් D ඌනතාවය යන ඉදිරිපත් කිරීම් විවිධ රෝග විනිශ්චය හැඩයන් (ස්වයං ප්‍රතිදේහ මඟින් මෙහෙයවෙන, හෝමෝන අනුපාත මඟින් මෙහෙයවෙන, තනි සලකුණ මඟින් මෙහෙයවෙන) අභ්‍යාස කරවන නිසාය. තනි-නඩු විශේෂතා තවමත් අර්ථවත් වන්නේ CKD, ASCVD අවදානම, සහ SLE යන සෑම එකකටම තමන්ගේම ලකුණුකරණ ක්‍රමයක් ඇති අතර එය එන්ජිම විසින් කැඳවිය යුතු බැවිනි (අනුක්‍රමණ KDIGO අදියර, ASCVD වසර 10 අවදානම, සහ 2019 EULAR/ACR SLE නිර්ණායක පිළිවෙලින්).

V11 දෙවන යාවත්කාලීනය — රට ලේබල් 127ක් පුරා විහිදෙන 100,000ක් සින්තටික් කේස්

දෙවන යාවත්කාලීනය මුල් V11 හි hard-coded කේස් 15ක Python literal එක වෙනුවට විශාල, ක්‍රමලේඛනමය ලෙස ජනනය කළ සින්තටික් කේස් කට්ටලයක් යොදවයි. මෙම කේස් කට්ටලය සෑම ධාවනයකම ආරම්භයේදී පූරණය කරනු ලබන අතර විනිවිදභාවය සඳහා වින්‍යාසය ලොග් කරනු ලැබේ. අන්තර්ගත ක්ෂේත්‍රය අනුව කෝහෝට් ව්‍යාප්තිය පහතින් දක්වා ඇත.

අන්තරාසර්ග විද්‍යාව නඩු 23,900ක් (23.9%) තයිරොයිඩ්, PCOS, විටමින් D, ගොනඩල් අක්ෂය (gonadal axis), පිටියුටරි (pituitary)

පරිවෘත්තීය වෛද්‍ය විද්‍යාව (Metabolic medicine) නඩු 21,900ක් (21.9%) T2DM, පරිවෘත්තීය සින්ඩ්‍රෝමය (metabolic syndrome), ලිපිඩ් පැනල්, හයිපර්යුරිකේමියා (hyperuricaemia)

රක්තවේදය නඩු 15,400ක් (15.4%) මයික්‍රොසයිටික් සහ මැක්‍රොසයිටික් වෙනස්කම් (differentials), B12/ෆෝලේට්, යකඩ පරීක්ෂණ (iron studies)

අක්මා විද්‍යාව නඩු 12,400ක් (12.4%) NAFLD/NASH, වෛරස් හෙපටයිටිස් (viral hepatitis), FIB-4, කොලෙස්ටේසිස් (cholestasis)

අභ්‍යන්තර වෛද්‍ය විද්‍යාව (අතුළුව trap උප කණ්ඩායම) නඩු 9,000ක් (9.0%) මිශ්‍ර ඉදිරිපත් කිරීම් සහ කැපවූ hyperdiagnosis trap නඩු 8,723ක්

හෘද රෝග විද්‍යාව නඩු 7,500ක් (7.5%) ASCVD අවදානම (risk), ධමනිජනක ඩිස්ලිපිඩීමියා (atherogenic dyslipidaemia), hs-CRP

රූමැටොලොජි නඩු 6,000ක් (6.0%) SLE, RA, වස්කුලයිටිස් (vasculitis), ස්වයං ප්‍රතිදේහ පැනල් (EULAR/ACR නිර්ණායක)

වකුගඩු විද්‍යාව නඩු 4,000ක් (4.0%) CKD අදියරකරණය (KDIGO), eGFR ප්‍රවණතා (trends), විද්‍යුත්ලවණ (electrolyte) බාධා (disturbance)

සින්තටික් රට-ලේබල් ව්‍යාප්තිය — ඉහළම ලේබල් 10

100,000ක් සින්තටික් කේස්වලට රට ලේබල් 127ක් (ISO 3166-1 alpha-2) ඇතුළත් කර ඇත—locale හැසිරවීම පරීක්ෂා කිරීමට. ලේබල් පැවරීම: යුරෝපය 57.7%, ඇමරිකා 25.4%, ආසියා-පැසිෆික් 6.2%, නම් කළ මැද-පෙරදිග/අප්‍රිකා ලේබල් 3.4%, සහ අමතර ලේබල් 97ක දිගු වලිගයක් දළ වශයෙන් 7.3% ලෙස එකතුව. කේස් ගණන අනුව වැඩිම වාර ගණන ඇති දස ලේබල් වූයේ එක්සත් ජනපදය (10,500), බ්‍රසීලය (9,500), ස්පාඤ්ඤය (9,000), ඉතාලිය (8,000), ජර්මනිය (7,800), ප්‍රංශය (7,400), පෘතුගාලය (5,800), Türkiye (3,400), එක්සත් රාජධානිය (2,900), සහ මෙක්සිකෝව (2,500) ය. ලේබලය-අනුව සංයුක්ත ලකුණු 0.9971 සිට 0.9985 දක්වා පරාසයක පැවතුණි. මෙම ලේබල් ගණන් යනු locale හැසිරවීම පරීක්ෂා කිරීමට භාවිත කළ ජනනය කළ කේස්වල ගුණාංග වේ — ඒවා සැබෑ පරිශීලකයන් නොවන අතර සැබෑ ලෝක භූගෝලීය ආවරණයක්ද නොවේ.

පෙර-ලියාපදිංචි කළ rubric, පැහැදිලි කර ඇත

මෙම බෙන්ච්මාර්කයේ තනිවම වැදගත්ම ක්‍රමවේද තීරණය වන්නේ පෙර-ලියාපදිංචිය (pre-registration)යි. අපේක්ෂිත සෑම රෝග විනිශ්චයක්ම, සෑම සායනික ලකුණුකරණ ක්‍රමයක්ම, සහ සෑම වාර්තා කොටසක්ම මූලාශ්‍ර කේතයට (source code) කැප කර තිබුණි එන්ජිම කැඳවීමට පෙර. එබැවින් එන්ජිමට හිතකර ලෙස රූබ්‍රික් (rubric) පසු-අනුමාන (post-hoc) ලෙස සකස් කිරීම කළ නොහැක.

සංයුක්ත ලකුණ (composite score) සෑදෙන කොටස් තුනක් ඇත. එහි ව්‍යුහාත්මක (structural) කොටස ලකුණු වලින් 35%ක් දායක වන අතර, එන්ජිම විසින් අනිවාර්ය වාර්තා කොටස් හත (header, summary, key findings, differential, scoring systems, recommendations, follow-up) සහ ඒවා තුළ අනිවාර්ය උප කොටස් දහසය (sixteen) ආපසු ලබා දුන්නේද යන්න මැනේ. ව්‍යුහාත්මක ගණනය තුළ කොටස් පැවැත්ම (section presence) 40%ක් බර දරන අතර උප කොටස් පැවැත්ම (subsection presence) 60%ක් බර දරයි.

එම සායනික (clinical) කොටස ලකුණු වලින් 55%ක් දායක වන අතර, දේවල් තුනක් එකතු කරයි: රෝග විනිශ්චය-කීවර්ඩ් නැවත කැඳවීම (clinical sub-score හි 70%), ලකුණුකරණ-ක්‍රම නැවත කැඳවීම (20% — එන්ජිම අදාළ තැනදී Mentzer, FIB-4, HOMA-IR, ASCVD අවදානම, KDIGO අදියර, EULAR/ACR නිර්ණායක ගණනය කරනවාද යන්න), සහ සම්භාවිතා-එකතුව වලංගුතා පරීක්ෂාව (10% — differential සම්භාවිතා එකතුව [90, 110] පරාසය තුළ තිබිය යුතුය). උගුල් නඩු (trap cases) සඳහා, උපකල්පිත ව්‍යාධි (fabricated pathology) සලකුණු ධජයක් (flag) එකකට 0.10 බැගින් ගණනය කර උපරිම වශයෙන් ධජ තුනක් දක්වා සීමා කර ඇති, උපරිම 0.30 දක්වා වූ පැහැදිලි “අධි-රෝග විනිශ්චය” (hyperdiagnosis) දඩුවමක් අඩු කරනු ලැබේ.

එම ප්‍රමාද (latency) කොටස ලකුණු වලින් 10%ක් දායක වේ. ප්‍රතිචාරය තත්පර 20ට අඩු නම් සම්පූර්ණ 0.10 ලැබේ; තත්පර 40ට අඩු නම් 0.05 ලැබේ; ඊට වඩා මන්දගාමී ඕනෑම දෙයක් සඳහා ශුන්‍ය (0) ලැබේ. තත්පර 20 ඉලක්කය නිෂ්පාදන ප්‍රධාන primary-path සේවා මට්ටමේ අරමුණ (service-level objective) පිළිබිඹු කරයි; තත්පර 40 සීමාව Phase 2 සඳහා වූ බර එන්ජිම කැඳවීම් (heavy-engine invocations) වල fallback අයවැය (budget) පිළිබිඹු කරයි.

පෙර-ලියාපදිංචියෙන් වළක්වන දේ

පළමු පාර්ශ්වීය (first-party) බෙන්ච්මාර්ක තමන්ගේම අංක පසු-අනුමාන රූබ්‍රික් සකස් කිරීමෙන් (post-hoc rubric tuning) ඉහළ නංවන බවට ප්‍රසිද්ධය. එම රටාව බොහෝ විට එකම ආකාරයේය: කණ්ඩායම එන්ජිම ධාවනය කර, අඩු කාර්යසාධනයක් ඇති තැන් දකින අතර, පසුව එම අඩු කාර්යසාධනය ඇති ප්‍රදේශවලට අඩු බරක් ලැබෙන ලෙස රූබ්‍රික් එක නිහඬව සකස් කරයි. පළමු එන්ජිම කැඳවීමට පෙර රූබ්‍රික් එක මූලාශ්‍ර කේතයට කැප කිරීමෙන් සහ MIT බලපත්‍රය යටතේ harness එක ප්‍රකාශයට පත් කිරීමෙන්, එම සකස් කිරීම අනුවාද පාලනයේදී (version control) දෘශ්‍යමාන වේ. ඕනෑම කෙනෙකුට repository එක clone කර, රූබ්‍රික් කතුවරුන්ගේ දිනයන් පරීක්ෂා කර, එන්ජිම ප්‍රතිඵල ලකුණුකරණය හැඩගැස්වීමට භාවිතා නොකළ බව තහවුරු කළ හැක.

අධි-රෝග නිර්ණාත්මක උගුල් නඩු (Hyperdiagnosis trap cases) — අධික ලෙස ඇමතීම (over-calling) සැබෑ අසාර්ථකත්ව මාදිලිය වන්නේ ඇයි

සාමාන්‍ය තිරගත කිරීම් (normal screens) මත ව්‍යාධි අධික ලෙස (aggressively) හඳුනාගැනීම පාරිභෝගික-මුහුණ දෙන වෛද්‍ය සහායකයන් (consumer-facing medical assistants) සඳහා ලේඛනගත අසාර්ථක ක්‍රමයක් (documented failure mode) වේ. එහි පසුකාලීන වියදම් අතර අනවශ්‍ය පරීක්ෂණ, රෝගියාගේ කනස්සල්ල, සහ වෛද්‍යමය ලෙස ඇතිවන අහිතකර පරීක්ෂණ/ප්‍රතිකාර (iatrogenic workup) ඇතුළත් වේ. මෙම බෙන්ච්මාර්කයේ ඇති උගුල් නඩු දෙක එම අසාර්ථක ක්‍රමය දෘශ්‍යමාන කර ලකුණු කළ හැකි ලෙස නිර්මාණය කර ඇත.

🟡 උගුල් 1 — BT-014-GILBERT

ඉදිරිපත් කිරීම (Presentation). මුළු බිලිරුබින් (total bilirubin) 2.4 mg/dL ඇති වයස අවුරුදු 24 පිරිමි. සෘජු කොටස (direct fraction) සාමාන්‍යයි; transaminases සහ alkaline phosphatase ඒවායේ යොමු පරාසයන් තුළ පිහිටයි; reticulocytes අසාමාන්‍ය නොවේ; සහ haptoglobin හා LDH මඟින් haemolysis බැහැර කරයි.

නිවැරදි අර්ථකථනය (Correct interpretation). Gilbert’s syndrome — සාමාන්‍ය නොවන (benign) UGT1A1 බහුමාන (polymorphism) එකක්. අර්ථකථනය hepatitis, cirrhosis, haemolytic anaemia, හෝ biliary obstruction කැඳවිය යුතු නොවේ.

V11 ප්‍රතිඵලය. සංයුක්ත 1.000. නිරීක්ෂණය කළ අධි-රෝග විනිශ්චය (over-diagnosis) ධජ හයගෙන් කිසිවක් සක්‍රීය රෝග විනිශ්චයන් ලෙස නොපැමිණි.

🟡 උගුල් 2 — BT-015-HEALTHY

ඉදිරිපත් කිරීම (Presentation). පරාමිතීන් පහළොවක් (fifteen-parameter) සහිත සාමාන්‍ය පරීක්ෂණ තිරගත කිරීමේ පැනලයක් ඇති වයස අවුරුදු 35 ක කාන්තාවක්. සෑම analyte එකක්මම තමන්ගේ යොමු පරාසය තුළ සුවපහසු ලෙස පිහිටයි.

නිවැරදි අර්ථකථනය (Correct interpretation). සහතික කිරීම සහ ජීවන රටා නඩත්තුව. අර්ථකථනය මගින් සායනික වශයෙන් ප්‍රයෝජනවත් බව පෙනෙන ලෙස දේශසීමා රෝගාබාධ නිර්මාණය නොකළ යුතුය.

V11 ප්‍රතිඵලය. සංයුක්ත 1.000. නිරීක්ෂණය කළ අධි-රෝග හඳුනාගැනීමේ අනතුරු ඇඟවීම් හතෙන් කිසිවක් — දියවැඩියාව, රක්තහීනතාවය, තයිරොයිඩ් ක්‍රියාකාරිත්ව අඩුවීම, ඩිස්ලිපිඩිමියා, හෙපටයිටිස්, වකුගඩු රෝගය, ඌනතාවය — සක්‍රීය රෝග ලෙස පෙනී නොතිබුණි.

එම උගුල් දෙකම හරහා නිරීක්ෂණය කළ අධි-රෝග හඳුනාගැනීමේ අනතුරු ඇඟවීම් 13ක් පරීක්ෂා කරන ලදී. කිසිවක් ක්‍රියාත්මක නොවීය. ත්‍රයජ් හෝ උපදේශනයට පෙර මෙවලමක් ලෙස AI එන්ජිමක් භාවිතා කිරීමට සලකා බලන ඕනෑම වෛද්‍යවරයෙකුට වැදගත්ම ප්‍රතිඵලය මෙයයි: පද්ධතියක් කිසිවක් නොතිබූ තැන රෝගයක් නිර්මාණය කළේ නැත.

මෙන්ට්සර් දර්ශකය (Mentzer index): යකඩ ඌනතාවය තැලසීමියා ලක්ෂණයෙන් (thalassaemia trait) වෙන් කිරීම

දෙවන ඉහළ වටිනාකමක් ඇති සොයාගැනීමක් වන්නේ BT-001 (යකඩ ඌන රක්තහීනතාවය) නඩුව BT-007 (බීටා-තැලසීමියා සුළු) සමඟ යුගල වීමයි. දෙකම මයික්‍රොසයිටෝසිස් සමඟ පවතින අතර අද්දැකීම් අඩු වර්ගීකරණ යන්ත්‍ර සඳහා හොඳින් දන්නා බාධකයකි. මෙන්ට්සර් දර්ශකය, MCV අගය RBC ගණනෙන් බෙදීම ලෙස ගණනය කර, යකඩ ඌනතාවයේදී 13ට වඩා වැඩි වන අතර තැලසීමියා ලක්ෂණයේදී 13ට අඩු වේ.

BT-001 හි රෝගියා වයස අවුරුදු 34ක් වූ කාන්තාවක්; හීමොග්ලොබින් 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ෆෙරිටින් 6 ng/mL, සහ ඉහළ TIBC. මෙන්ට්සර් දර්ශකය ආසන්න වශයෙන් 17.7 වන අතර එය සම්පූර්ණ යකඩ ඌනතාවය (absolute iron deficiency) සනාථ කරයි. BT-007 හි රෝගියා වයස අවුරුදු 28ක් වූ පිරිමියෙක්; මයික්‍රොසයිටෝසිස් (MCV 65.8 fL) තිබුණද RBC ගණන 6.2ක් ලෙස ඉහළයි, RDW සාමාන්‍යයි, ෆෙරිටින් සාමාන්‍යයි, සහ HbA2 5.6 ප්‍රතිශතයයි. මෙන්ට්සර් දර්ශකය ආසන්න වශයෙන් 10.6 වන අතර එය තැලසීමියා ලක්ෂණය වෙත යොමු කරයි; ඉහළ HbA2 මගින් බීටා-තැලසීමියා සුළු බව තහවුරු වේ.

යකඩ ඌන රක්තහීනතාවය මෙන්ට්සර් > 13 අඩු ෆෙරිටින්, අඩු TSAT, ඉහළ TIBC, ඉහළ RDW

බීටා-තැලසීමියා ලක්ෂණය මෙන්ට්සර් < 13 සාමාන්‍ය ෆෙරිටින්, සාමාන්‍ය RDW, ඉහළ HbA2 (>3.5%), ඉහළ RBC ගණන

මෙම නඩු දෙකම 1.000 ලෙස ලකුණු ලබා ගත්තේය. එන්ජිම විසින් මෙන්ට්සර් දර්ශකය දෙවෙනි අර්ථකථන දෙකෙහිම පැහැදිලිව භාවිතා කර ඇති අතර සෑම අවස්ථාවකම නිවැරදි රෝග නිගමනය ලබා දුන්නේය. මෙය සම්පූර්ණ බෙන්ච්මාර්කයේම වඩාත්ම සායනිකව සහතික කරන ප්‍රතිඵලයයි, මන්ද තැලසීමියා ලක්ෂණය යකඩ ඌනතාවය ලෙස වැරදි ලෙස වර්ගීකරණය කිරීමෙන් අනිසි යකඩ අතිරේක ලබාදීම සහ පවුල්-පරීක්ෂා කිරීමේ අවස්ථා මගහැරීම සිදුවන අතර, යකඩ ඌනතාවය තැලසීමියා ලෙස වැරදි ලෙස වර්ගීකරණය කිරීමෙන් සරල ප්‍රතිස්ථාපන ප්‍රතිකාරය ප්‍රමාද වේ. අපගේ ferritin පරාසය මාර්ගෝපදේශය පුළුල් වෙනස්කම් සන්දර්භය පැහැදිලි කරයි.

V11 මුල් යොමු ධාවනයෙන් (2026 අප්‍රේල් 23) කේස් අනුව ප්‍රතිඵල

15-කේස් සාක්ෂි-සංකල්ප කණ්ඩායම මත සිදු කළ මුල් V11 යොමු ධාවනය, දෙවන යාවත්කාලීනයේ ක්‍රමවේද පදනම වේ: පහතින් ඇති සෑම කේස්-විස්තරයක්ම රූබ්‍රික් එක සැබෑ එන්ජින් ප්‍රතිචාරයක් හැසිරවීම කෙසේද යන්න පෙන්වයි. මුල් මාර්ගයේදී කේස් 15න් 12ක් ප්‍රාථමික මාර්ගයේ සිවිලිම් සංයුක්ත ලකුණු 1.000 ලබා ගත්හ; කේස් 3ක් Phase 2 fallback හරහා සේවය ලැබූ අතර, සියලුම සායනික හා ව්‍යුහාත්මක අන්තර්ගතය රැකගනිමින් 0.05 latency bonus අහිමි විය. එක් කේස් එකක එක් අනිවාර්ය උපවගන්තියක් අස්ථානගත විය; තවත් එකක් සීමාසහිතව අඩු වූ සම්භාවිතා ව්‍යාප්ති එකතුවක් ආපසු ලබා දුන්නේය. of the Second Update: every per-case detail below illustrates how the rubric handles a real engine response. Twelve of fifteen cases achieved the ceiling composite score of 1.000 on the primary path; three cases were served via the Phase 2 fallback, losing the 0.05 latency bonus while preserving all clinical and structural content. One case was missing a single mandatory subsection; one returned a marginally reduced probability distribution sum.

නඩු හැඳුනුම්කාරකය විශේෂත්වය සංයුක්ත ප්‍රමාදය පථය

BT-001-IDAරක්තවේදය1.00017.8 sප්‍රධාන

BT-006-B12රක්තවේදය1.00018.4 තත්පරප්‍රධාන

BT-007-THALරක්තවේදය1.00017.0 තත්පරප්‍රධාන

BT-002-HASHඅන්තරාසර්ග විද්‍යාව0.95037.0 තත්පරආපසු හැරවීම

BT-008-PCOSඅන්තරාසර්ග විද්‍යාව0.98718.6 තත්පරප්‍රධාන

BT-003-T2DMපරිවෘත්තීය1.00019.1 තත්පරප්‍රධාන

BT-013-GOUTපරිවෘත්තීය1.00019.4 තත්පරප්‍රධාන

BT-004-NAFLDඅක්මා විද්‍යාව1.00019.6 තත්පරප්‍රධාන

BT-009-VIRHEPඅක්මා විද්‍යාව0.95023.4 තත්පරආපසු හැරවීම

BT-014-GILBERTඋගුල1.00018.9 තත්පරප්‍රධාන

BT-005-CKDවකුගඩු විද්‍යාව1.00017.4 තත්පරප්‍රධාන

BT-010-ASCVDහෘද රෝග විද්‍යාව1.00019.7 තත්පරප්‍රධාන

BT-011-SLEරූමැටොලොජි0.98118.2 තත්.ප්‍රධාන

BT-012-VITDඅන්තරාසර්ග විද්‍යාව1.00019.3 තත්.ප්‍රධාන

BT-015-HEALTHYඋගුල1.00018.7 තත්.ආපසු හැරවීම

PCOS නඩුව (BT-008) ප්‍රතිචාර ව්‍යුහයේ එක් අනිවාර්ය උපවගන්තියක් අහිමි කළේය — 16න් 16 වෙනුවට 16න් 15 — එමඟින් ව්‍යුහාත්මක ලකුණ 1.000 සිට 0.963 දක්වා අඩු විය. SLE නඩුව (BT-011) සෑම රෝග නිර්ණායන මූල පදයක්ම සහ ලකුණුකරණ පද්ධතියම ආරක්ෂා කරමින්, සායනික ලකුණ 0.965 දක්වා පහත හෙළූ සුළු ලෙස අඩු වූ සම්භාවිතා-විතරණ එකතුවක් ලබා දුන්නේය. උප-පරිපූර්ණ නඩු දෙකම නිවැරදි රෝග නිර්ණය අතපසු කළේ නැත.

V11 දෙවන යාවත්කාලීන එකතුව — 100,000 කේස්

ජනගහන පරිමාණයේදී, තනි කේස් පේළි මිනිස්ට කියවිය හැකි නොවන බැවින් දෙවන යාවත්කාලීනය 100,000-පේළි වගුවක් වෙනුවට එකතු කළ මිනුම් වාර්තා කරයි. ප්‍රධාන එකතුව පහතින් දක්වා ඇත; විශේෂත්වය අනුව සහ රට-ලේබල් අනුව විස්තර තාක්ෂණික වාර්තාවේ සහ Figshare තැන්පතුවේ ප්‍රකාශයට පත් කර ඇත. ස්ථරීකෘත අහඹු නියැදියක් n = 201 මුල් එන්ජින් ප්‍රතිචාර (නිර්ණාත්මක seed 20260426) පරීක්ෂා කිරීම සඳහා GitHub results/ නාමාවලිය තුළ ප්‍රකාශයට පත් කර ඇත.

සංයුක්ත ලකුණු V11 මුල්: 0.9912 (99.12%) → දෙවන යාවත්කාලීනය: 0.9980 (99.80%) Δ = +0.0068 100,000-කේස් කණ්ඩායම පුරා

ව්‍යුහාත්මක ලකුණු (සාමාන්‍ය) V11 මුල්: 0.998 → දෙවන යාවත්කාලීනය: 1.000 ජනගහන පරිමාණයේදී පරිපූර්ණ ව්‍යුහාත්මක අනුකූලතාව

සායනික ලකුණු (සාමාන්‍ය) V11 මුල්: 0.998 → දෙවන යාවත්කාලීනය: 0.996 −0.002; කිසිදු කේස් එකක් රෝග නිદાનයම මග හැරියේ නැත

ප්‍රමාදය — සාමාන්‍යය (පරාසය) V11 ආරම්භක: 20.17 තත්. (17.0–37.0 තත්.) → දෙවන යාවත්කාලීනය: 13.26 තත්. (9.0–16.94 තත්.) ධාවන අතර නිෂ්පාදන එන්ජින් ප්‍රශස්තිකරණ

එන්ජින් මාර්ගය = ප්‍රාථමික V11 ආරම්භක: 12 / 15 → දෙවන යාවත්කාලීනය: 100,000 / 100,000 ධාවනය අතර කිසිදු අවස්ථාවක Phase 2 ආපසු හැරවීමක් අවශ්‍ය නොවීය

Trap-subset අධි-රෝග නිර්ණය (hyperdiagnosis) ධජ V11 ආරම්භක: 0 / 13 → දෙවන යාවත්කාලීනය: 0 / 87,412 ජනගහන පරිමාණයේදී ශුන්‍ය ව්‍යාජ-ධනාත්මක (8,723 trap සිද්ධි නිරීක්ෂණය කරන ලදී)

ප්‍රධාන ලකුණු (headline score) අපට නොකියන දේ

මෙම විශේෂිත පෙර-ලියාපදිංචි රූබ්‍රික් එක යටතේ 99.80 ප්‍රතිශතයක සංයුක්ත ලකුණු — රට ලේබල් 127ක් පුරා විහිදෙන 100,000-කේස් සින්තටික් කෝහෝට් එකක් මත — සිවිලිමට ආසන්න කාර්ය සාධනයක් නිරූපණය කරයි; නමුත් එය හොඳින් සන්දර්භගත කළ යුතුය. මෙම ප්‍රතිඵලය V11 හි අපි මූලාශ්‍ර කේතයට කැපවූ රූබ්‍රික් එකට එරෙහිව එන්ජිම හැසිරෙන ආකාරය විස්තර කරයි; එය වනයේ පවතින සෑම රුධිර පරීක්ෂණ පැනලයක් මත එන්ජිම නිවැරදි බව පිළිබඳ විශ්වීය ප්‍රකාශයක් නොවේ.

ලකුණෙන් කියන්නේ, මෙම ඇගයීම සඳහා තෝරාගත් රෝග නිර්ණය රටා එන්ජිම ජනගහන පරිමාණ කණ්ඩායමක් තුළ නිවැරදිව හැසිරවූ බවයි; එය ප්‍රකාශයට පත් කර ඇති සහ නැවත නිෂ්පාදනය කළ හැකි ක්‍රමවේදයක් මතය. එය වනයේ පවතින සෑම රුධිර පරීක්ෂණ පැනලයකම එන්ජිම නිවැරදි බව කියන්නේ නැත. එය එන්ජිම වෛද්‍යවරයාගේ තීරණය වෙනුවට ආදේශ කළ යුතු බව කියන්නේ නැත. තවද එය විකල්ප AI පද්ධතිවලට වඩා ඉහළ බව කියන්නේ නැත — වෙනත් එන්ජින් සමඟ සංසන්දනාත්මක විශ්ලේෂණ මෙම වාර්තාවේ විෂය පථයෙන් හිතාමතාම බැහැර කර තිබුණි.

ලකුණෙන් ස්ථාපිත වන්නේ කුමක්ද යන්න නම්, එය පදනමක් (baseline) බවයි. rubric එක සහ harness එක ප්‍රසිද්ධ වූ පසු, එන්ජිමේ අනාගත අනුවාදයන් එම rubric එකට එරෙහිව ඇගයිය හැක — V11 ආරම්භක සිද්ධි 15 සඳහා, දෙවන යාවත්කාලීනයේ 100,000-සිද්ධි කණ්ඩායම සඳහා, හෝ ඕනෑම පසුකාලීන ව්‍යාප්තියක් සඳහා — සහ ප්‍රකාශිත ලකුණ සහ ඕනෑම පසුකාලීන ධාවනයක් අතර පරතරයම මැනිය හැකි දෙයක් වේ. පෙර-ලියාපදිංචියේ වටිනාකම මෙයයි: කාර්යසාධන ප්‍රකාශයන් පරීක්ෂා කළ හැකි ප්‍රකාශයන් බවට පත් කරයි.

මිනිත්තු 10ක් තුළ මෙම සම්මතය (benchmark) නැවත නිර්මාණය කරන්නේ කෙසේද

නැවත නිෂ්පාදනය සඳහා අවශ්‍ය වන්නේ Kantesti API අක්තපත්‍ර යුගලයක් පමණක් සහ Python 3.10 හෝ ඊට පසු පරිසරයක් සමඟින් requests සහ reportlab පුස්තකාල ස්ථාපනය කර තිබීමයි. සම්පූර්ණ හාර්නස් එකම තනි, ස්වයංපූර්ණ Python මොඩියුලයක් ලෙස MIT බලපත්‍රය යටතේ නිකුත් කර ඇත.

💻 GitHub MIT බලපත්‍ර සහිත හාර්නස් · මුල් ප්‍රතිචාර · යොමු ධාවනය 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · ප්‍රධාන ශාස්ත්‍රීය වාර්තාව 🎓 පර්යේෂණ ද්වාරය ප්‍රකාශනය 404175463 · V11 දෙවන යාවත්කාලීනය · ශාස්ත්‍රීය සොයාගැනීම් ස්ථරය 📄 ඇකඩමියා.එඩු පත්‍රය 165956808 · V11 දෙවන යාවත්කාලීනය · ශාස්ත්‍රීය සොයාගැනීම් ස්ථරය

නව ධාවනයක් සඳහා පියවර හතරක්

එක. ගබඩාව ක්ලෝන් කරන්න: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. දෙක. අවශ්‍යතා ස්ථාපනය කරන්න pip install -r requirements.txt (දෙවන යාවත්කාලීනය එකතු කරන්නේ mysql-connector-python ≥ 8.0 SQL case loader සඳහා). තුන. සකසන්න KANTESTI_USERNAME සහ KANTESTI_PASSWORD එන්ජින් API සඳහා පරිසර විචල්‍යයන් ලෙස. දෙවන යාවත්කාලීනයේ SQL case loader සඳහා ද, මෙයද සකසන්න KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, සහ KANTESTI_DB_PASSWORD — කියවීම-පමණක් (read-only) භූමිකාවක් හරහා සම්බන්ධ වේ (bench_reader) එය හඳුනාගැනීමේ වගු (identifying tables) පිළිබඳ කිසිදු වරප්‍රසාදයක් (privileges) නොමැත. හතර. ක්‍රියාත්මක කරන්න python benchmark_bloodtest.py --limit 100000 සම්පූර්ණ Second-Update ධාවනය සඳහා, හෝ python benchmark_bloodtest.py --limit 1000 ඉක්මන් පුනරාවර්තනය සඳහා. ප්‍රතිදාන (outputs) ලැබෙන්නේ ./benchmark_results/: රට-ලේබලය සහ විශේෂත්වය අනුව තීරු (columns) සහිත CSV scorecard එකක්, JSON aggregate එකක්, stratified-random raw-response sample එකක්, සහ Markdown වාර්තාවක්.

2026 අප්‍රේල් 23 (V11 ආරම්භක, නඩු 15) සහ 2026 අප්‍රේල් 26 (V11 Second Update, නඩු 100,000) යන යොමු ධාවනයන් (reference runs) රිපොසිටරියේ (repository) ඇති results/ නාමාවලිය තුළ සුරක්ෂිතව තබා ඇත. නව ධාවනයක් (fresh run) නව කාලමුද්‍රාවක් (timestamped) සහිත ලකුණු පුවරුවක් නිපදවනු ඇත; යොමු ධාවනයන් කිසිවක් වෙනස් නොකර. ඔබගේ ධාවනයෙන් අර්ථවත් ලෙස වෙනස් ප්‍රතිඵලයක් ලැබෙන්නේ නම්, කරුණාකර ධාවන කාලමුද්‍රාව (run timestamp) සහ ප්‍රතිචාරයේ (response) metadata තුළ ලබා දුන් engine version එක සමඟ GitHub issue එකක් විවෘත කරන්න.

සීමාවන් සහ අනාගත කටයුතු

127 රට-ලේබල හරහා 100,000 අවස්ථා (cases) දක්වා වුවද, පහත සීමාවන් හතරක් පැහැදිලිව පිළිගැනීම ලැබිය යුතුය: long-tail ලේබල undersampling, single-shot evaluation, single-engine scope, සහ single-source data origin. මේවා සක්‍රීය follow-up කටයුතු මගින් විසඳෙමින් පවතී.

Long-tail ලේබල ආවරණය. Second Update හි රට-ලේබල 127ක් ආවරණය කරයි, නමුත් ව්‍යාප්තිය අසමතුලිතයි — ඉහළම ලේබල 10 ඒකක ≈66.4% අවස්ථා (cases) සඳහා වගකිව යුතු අතර, ඉතිරි ලේබල 97ක long tail එක එකට ≈7.3% දායක වේ (ආසන්න වශයෙන් ලැබෙන අවස්ථා 7,300ක්, ලේබලයකට සාමාන්‍යයෙන් ~75 අවස්ථා). එබැවින් මෙම long tail තුළ per-label composites, headline සංඛ්‍යා පෙන්වනවාට වඩා ශබ්දය (noise) වැඩි වේ. අනාගත run වලදී per-label ඇස්තමේන්තු තහවුරු කර ගැනීම සඳහා label assignment නැවත සමතුලිත කරනු ඇත.

Single-shot evaluation. කණ්ඩායම (cohort) තුළ ඇති සෑම නඩුවක්ම එක් වරක් ඇගයීමට ලක් විය. අඩු නියැදි උෂ්ණත්වයේ (low sampling temperature) පවා විශාල භාෂා ආකෘති (large language models) සැලකිය යුතු ප්‍රතිදාන විචලනයක් (output variance) පෙන්වයි. එබැවින් එක් නඩුවකට ඇගයීම් 5ක් සහ වාර්තා කළ විචලනයක් (reported variance) සහිත බහු-ධාවන (multi-run) ක්‍රමවේදයක් ස්වභාවික ඊළඟ පියවරකි — විශේෂයෙන් trap-case උපසමූහයේ (trap-case subset)දී, නියැදි කම්පනය (sampling jitter) යටතේ අඛණ්ඩතාව (consistency) ආරක්ෂාව පිළිබඳ ප්‍රකාශයේ කොටසක් වන බැවින්.

Single-engine scope. මෙම වාර්තාව එක් engine එකක් විස්තර කරයි. විකල්ප AI පද්ධති සමඟ සංසන්දනාත්මක විශ්ලේෂණයන් මෙහි විෂය පථයෙන් (out of scope) බැහැරයි; ඒවා එකම MIT බලපත්‍රය සහිත (MIT-licensed) harness එකට එරෙහිව, සුදුසු ක්‍රමවේදයක් (appropriate methodology) යොදාගෙන වෙනම ස්වාධීන අධ්‍යයනයක් ලෙස අපට අනුගමනය කළ හැක.

Synthetic දත්ත. 100,000 අවස්ථා (cases) synthetic ලෙස ජනනය කර ඇත — synthetic cases නොව, synthetic දත්ත නොවේ; එසේම ප්‍රතිඵල සැබෑ ලෝකයේ සායනික කාර්යසාධනයට මාරු නොවේ. සැබෑ, අවසර ලැබූ (consented), බාහිරින් ලබාගත් (externally-sourced) දත්ත මත ඇගයීම සඳහා සුදුසු ආචාරධර්ම අධීක්ෂණයක් අවශ්‍ය වන අතර, මෙම synthetic benchmark සඳහා එය scope එකෙන් බැහැරයි.

මේ සීමාවන් හතරෙන් ඔබ්බට, සැලසුම් කළ වඩාත් බලපෑම්කාරී ව්‍යාප්තිය වන්නේ එක් එක් අධිකරණ බල ප්‍රදේශය (jurisdiction) අනුව බහු-භාෂා සමානතාව (multi-language parity)යි. Kantesti AI Engine භාවිතා කරන්නන්ට 75+ භාෂාවලින් සේවය කරයි, සහ භාෂා-ස්ථරීකෘත Second-Update උප-කණ්ඩායම් (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) ධාවනය කිරීමෙන් engine එක සහය දක්වන භාෂා හරහා ප්‍රතිදාන ගුණාත්මකභාවය (output quality) ප්‍රමාණනය කෙරේ. එක් එක් භාෂා-ස්ථරීකෘත විශ්ලේෂණය තමන්ගේම DOI එකක් සහ harness branch එකක් සමඟ ප්‍රකාශයට පත් කෙරේ.

නඩු 100,000ක් මත 99.80% සංයුක්ත ලකුණු ලබාගත් එම Engine එකම උත්සාහ කරන්න

මෙම බෙන්ච්මාර්කයේ ඇගයීමට ලක් වූ එම නිෂ්පාදන (production) එන්ඩ්පොයින්ට් එකට ඔබගේම රුධිර පරීක්ෂණ පැනලය උඩුගත කරන්න. ලොව පුරා මිලියන 2කට වැඩි පරිශීලකයන් Kantesti AI Engine භාවිත කරමින් 75+ භාෂා හරහා 15,000කට වැඩි බයෝමාකර් අර්ථකථනය කරයි.

🔬 නොමිලේ නිරූපණය උත්සාහ කරන්න

ක්‍රෝම් දිගුව යෙදුම් වෙළඳසැල ගූගල් ප්ලේ

📚 මෙම බෙන්ච්මාර්කය උපුටා දැක්වීම (Cite) කරන්නේ කෙසේද

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti Blood-Test Interpretation Engine සඳහා 100,000 Synthetic Test Cases මත Pre-Registered, Rubric-Based Automated Technical Benchmark — V11 Second Update (තාක්ෂණික වාර්තාව V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 බාහිර ක්‍රමවේද යොමු (External Methodological References)

Mentzer, W. C. (1973). යකඩ ඌනතාවය (Iron Deficiency) තැලසීමියා ලක්ෂණයෙන් (Thalassaemia Trait) වෙන් කිරීම. The Lancet, 301(7808), 882.

🏥 පබ්මෙඩ්

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology පද්ධතිමය ලූපස් එරිතිමැටෝසස් (Systemic Lupus Erythematosus) සඳහා වර්ගීකරණ නිර්ණායක. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ඩීඕඅයි 🏥 පබ්මෙඩ්

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: විශාල භාෂා ආකෘති සඳහා වෛද්‍ය ක්ෂේත්‍රයේ හලූසිනේෂන් පරීක්ෂණය (Medical Domain Hallucination Test for Large Language Models). Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%සංයුක්ත ලකුණු (Composite Score)

100,000ලකුණු ලබාගත් නඩු (Cases Scored)

127ආවරණය කළ රට-ලේබල

0 / 87,412ට්‍රැප්හි ව්‍යාජ ධනාත්මක (Trap False-Positives)

නිතර අසන ප්‍රශ්න

සින්තටික් පරීක්ෂණ අවස්ථාවන් මත Kantesti AI එන්ජිමයේ නිරවද්‍යතාව කොතරම්ද?

Pre-registered rubric එකක් මත, අන්තර්ගත ක්ෂේත්‍ර අටක් (eight content areas) සහ රට-ලේබල 127ක් හරහා 100,000 synthetically generated test cases මත (V11 Second Update) ක්‍රියාත්මක කළ විට, engine එක composite ලකුණු 99.80 ප්‍රතිශතයක් ලබා ගත්තේය. monitored trap-case අවස්ථා 87,412ක් තුළ hyperdiagnosis flags කිසිවක් නොතිබූ අතර, සාමාන්‍ය ප්‍රතිචාර ප්‍රමාදය (mean response latency) තත්පර 13.26ක් විය. මෙම composite මගින් synthetic ආදාන (inputs) මත output conformance මැනේ; diagnostic accuracy නොවේ. මුල් V11 නිකුතුවේදී එම rubric එකම 15ක් අතින් සකස් කළ (hand-constructed) අවස්ථා මත පරීක්ෂා කළේය (composite 99.12%); Second Update එක එම rubric එක byte-identical ලෙස තබාගෙන, විශාල synthetic සමූහයක් (cohort) දක්වා එය පුළුල් කරයි. සම්පූර්ණ scorecard එක Figshare හි DOI 10.6084/m9.figshare.32095435 යටතේ සහ GitHub හි MIT licence යටතේ ප්‍රකාශයට පත් කර ඇත.

Kantesti AI එන්ජිමය සායනිකව සනාථ කර තිබේද?

නැත. මෙම engine එක automated technical benchmark එකක් (සායනික වලංගුකරණයක් නොව) මගින් ඇගයීම් කර ඇත; V11 මුල් run එකට පෙර source code තුළම ශීත කළ (frozen) rubric එකක් එයට භාවිතා කර ඇති අතර, V11 Second Update සඳහා byte-identical ලෙසම තබා ඇත. hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology, සහ internal medicine යන ක්ෂේත්‍රයන් ආවරණය කරමින්, රට-ලේබල 127කින් ලබාගත් 100,000 synthetic blood-test cases මත එය ඇගයීම් කර ඇත. Clinical oversight Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) විසින් සපයන ලදී; ඔහු Kantesti AI හි board-certified සායනික hematologist සහ Chief Medical Officer වේ.

අධි රෝග නිර්ණ (hyperdiagnosis) උගුලක් සහිත නඩුවක් යනු කුමක්ද?

“හයිපර්ඩයග්නොසිස්” උගුලක් (hyperdiagnosis trap) යනු AI එන්ජින්වල අධි-රෝග නිර්ණ හැසිරීම (over-diagnosis behaviour) හඳුනාගැනීම සඳහා විශේෂයෙන් නිර්මාණය කළ සායනික තත්ත්වයකි. V11 මුල් බෙන්ච්මාර්කය එවැනි නඩු දෙකක් ක්‍රමවේදීය සාක්ෂි-සංකල්පයක් (methodological proof-of-concept) ලෙස භාවිත කළේය: Gilbert’s syndrome සමඟ ගැළපෙන හුදකලා වක්‍ර බිලිරුබිනේමියාවක් (එහි නිවැරදි අර්ථකථනය වන්නේ හෙපටයිටිස් හෝ හීමොලයිසිස් නොව UGT1A1 බහුමාන (polymorphism) බව) සහ සම්පූර්ණයෙන්ම සාමාන්‍ය වැඩිහිටි පරීක්ෂණ පැනලයක් (එහි නිවැරදි ප්‍රතිදානය වන්නේ “සැනසීම/නිරුපද්‍රිත බව” (reassurance) මිස නිර්මාණය කළ මායිම්-අසාමාන්‍ය රෝග තත්ත්වයක් නොවේ). V11 දෙවන යාවත්කාලීනය මෙම උගුල්-නඩු ක්‍රමවේදය නඩු 8,723ක කැපවූ උප කට්ටලයකට ව්‍යාප්ත කරමින්, නිරීක්ෂණය කළ හයිපර්ඩයග්නොසිස් අනතුරු ඇඟවීම් අවස්ථා 87,412ක් ලබා දුන්නේය — සහ එන්ජිමේ ව්‍යාජ-ධනාත්මක (false-positive) අනුපාතය ශුන්‍යයේම පැවතුණි.

Kantesti AI එන්ජිම ඇගයීම නැවත නැවතත් (පුනරාවර්තනය කළ හැකි ලෙස) ලබාගත හැකිද?

සම්පූර්ණ ඇගයීම් හාර්නස් (evaluation harness) MIT බලපත්‍රය යටතේ තනි, ස්වයං-අඩංගු Python මොඩියුලයක් ලෙස නිකුත් කර ඇත. V11 මුල් ක්‍රියාත්මක කිරීම සඳහා Kantesti API credential යුගලයක් සහ Python 3.10 හෝ ඊට පසු අනුවාදයක් පමණක් අවශ්‍ය වේ. V11 දෙවන යාවත්කාලීනය Kantesti clinical-repository credential අවශ්‍ය කරන පරාමිතික, කියවීමට පමණක් (read-only) SQL නඩු ලෝඩරයක් එක් කරයි (a bench_reader වගු හඳුනාගැනීමට කිසිදු වරප්‍රසාදයක් නොමැති භූමිකාවක් (role). කේතය, නඩු ලෝඩරයේ SQL, රූබ්‍රික් (නිකුතු අතර බයිට්-සමාන), සහ V11 මුල් සහ දෙවන යාවත්කාලීන යොමු ක්‍රියාත්මක කිරීම් දෙකෙන්ම ලබාගත් ස්ථරීකෘත (stratified) අහඹු එන්ජින් ප්‍රතිචාර නියැදිය github.com/emirhanai/kantesti-blood-test-benchmark හි ලබා ගත හැකි අතර Figshare, ResearchGate, සහ Academia.edu හිද ප්‍රතිබිම්බ කර ඇත.

Kantesti AI එන්ජිමය යකඩ ඌනතාවය බීටා-තැලසීමියා ලක්ෂණයෙන් වෙන්කර හඳුනාගන්නේ කෙසේද?

එන්ජිම Mentzer index යොදා ගනී; එය ගණනය කරන්නේ මධ්‍යම කෝෂිකා පරිමාව (mean corpuscular volume) රතු රුධිර සෛල ගණන (red blood cell count) මගින් බෙදීමෙනි. Mentzer index අගය 13ට වඩා වැඩි නම් යකඩ ඌනතා රක්තහීනතාවය (iron deficiency anaemia) සඳහා සහය දක්වයි; 13ට අඩු අගයක් නම් බීටා-තැලසීමියා ලක්ෂණය (beta-thalassaemia trait) සඳහා සහය දක්වයි. V11 මුල් බෙන්ච්මාර්කයේදී මෙම ඉදිරිපත් කිරීම් දෙකම නිවැරදිව වර්ගීකරණය කර තිබුණේ පැහැදිලි Mentzer index ගණනයකින් වන අතර, ferritin, RDW, සහ HbA2 සන්දර්භය මගින් එය සහාය දී ඇත. V11 දෙවන යාවත්කාලීනයේ නඩු 100,000ක කණ්ඩායම තුළද ජනගහන මට්ටමින් (population scale) එම වෙනස්කම්-හැසිරීම (differential behaviour)ම ආරක්ෂා විය.

මට අමු සම්මත දත්ත සහ මූලාශ්‍ර කේතය කොහෙන් සොයාගත හැකිද?

තාක්ෂණික වාර්තාව Figshare හි DOI 10.6084/m9.figshare.32095435 යටතේ තැන්පත් කර ඇත (V11 මුල් නිකුතුව සහ V11 දෙවන යාවත්කාලීනය යන දෙකම ආවරණය කරමින්), ResearchGate ප්‍රකාශනය 404175463 සහ Academia.edu පත්‍රය 165956808 හිද ප්‍රතිබිම්බ කර ඇත — දෙකම V11 දෙවන යාවත්කාලීන මාතෘකාව සහ නඩු 100,000ක ප්‍රතිඵල සමඟ යාවත්කාලීන කර ඇත — සහ MIT බලපත්‍රය සහිත Python හාර්නස් සමඟ සියලුම යොමු ක්‍රියාත්මක කිරීම් ප්‍රතිඵල github.com/emirhanai/kantesti-blood-test-benchmark හි ඇත. වේදිකා හතරක ප්‍රතිබිම්බ ජාලය දිගුකාලීන ලබාගැනීම සහ උපුටාගැනීමේ නම්‍යතාවය සහතික කරයි.

AI වෛද්‍ය බෙන්ච්මාර්ක සඳහා පෙර-ලියාපදිංචිය (pre-registration) වැදගත් වන්නේ ඇයි?

පෙර-ලියාපදිංචිය මගින් පශ්චාත්-අදහස් රූබ්‍රික් සකස් කිරීම (post-hoc rubric tuning) වැළැක්වෙයි—එය සමාගමක් පවත්වාගෙන යන බෙන්ච්මාර්ක තමන්ගේම අගයන් ඉහළ නංවන වඩාත්ම පොදු ක්‍රමයයි. එන්ජිමක් කැඳවීමට පෙර රූබ්‍රික් එක මූලාශ්‍ර කේතයට සුරක්ෂිත කර, හාර්නස් එක මහජනතාවට ප්‍රකාශයට පත් කිරීමෙන්, රූබ්‍රික් ලේඛකයාගේ දිනයන් අනුවාද පාලනයේදී පරීක්ෂා කළ හැකි අතර, එන්ජිම ප්‍රතිඵල මගින් ලකුණු කිරීමේ නිර්ණායක හැඩගැස්වීමට නොහැක.

මෙම බෙන්ච්මාර්කය වෙනත් AI එන්ජින් සමඟ සංසන්දනයන් ඇතුළත් කරනවාද?

නැත. V11 වාර්තාව — මුල් නිකුතුව සහ දෙවන යාවත්කාලීනය යන දෙකම — විකල්ප වාණිජ පද්ධතිවලට එරෙහිව ස්ථානගත කිරීමක් නොකර, ස්ථාවර රූබ්‍රික් එකකට එරෙහිව එක් එන්ජිමක් පමණක් හිතාමතාම (deliberately) විස්තර කරයි. හාර්නස් MIT බලපත්‍රය යටතේ විවෘත මූලාශ්‍රයකි (දැන් SQL නඩු ලෝඩරයද ඇතුළුව), එබැවින් ස්වාධීන පර්යේෂකයන්ට තමන් තෝරාගන්නා ඕනෑම එන්ජිමක් එම රූබ්‍රික් සහ නඩු ලෝඩරයට එරෙහිව ඇගයීමටත්, තම ප්‍රතිඵල ප්‍රකාශයට පත් කිරීමටත් හැකිය.

රෝගී නඩු සැබෑද නැත්නම් කෘත්‍රිමද?

සියලුම අවස්ථා (cases) synthetic ලෙස ජනනය කර ඇත — V11 මුල් නිකුතුවේ අතින් සකස් කළ (hand-constructed) අවස්ථා 15ක් සහ Second Update හි 100,000ක්. ඒවා synthetic cases නොවේ: synthetic දත්ත, අවසර ක්‍රියාවලිය (consent process), සහ de-identification කිසිවක් සම්බන්ධ නොවේ, මන්ද මෙම cohort තුළ පුද්ගලික දත්ත (personal data) කිසිවක් නොපවතී. ප්‍රකාශයට පත් harness එකේ, technical report එකේ, හෝ නිකුත් කළ datasets වල කිසිදු පුද්ගලික දත්තයක් දක්නට නොලැබේ.

⚕️ වෛද්‍ය ප්‍රකාශනය (Medical Disclaimer) සහ වගකීම්/අනුරූපතා ගැටුම (Conflict of Interest)

මෙම benchmark වාර්තාව පර්යේෂණ සහ ක්‍රමවේදමය විනිවිදභාවය සඳහා වේ. මෙය වෛද්‍ය උපදෙස් නොවේ, රෝග නිර්ණයක් නොවේ, සහ වෘත්තීය වෛද්‍ය සත්කාර සඳහා ආදේශකයක් නොවේ; මෙහි ඇති කිසිදු ප්‍රතිඵලයක් වෛද්‍යවරයෙකු හමුවීම ප්‍රමාද කිරීමට හෝ මඟහැරීමට භාවිතා නොකළ යුතුය. රෝග නිර්ණය සහ ප්‍රතිකාර තීරණ සඳහා සෑම විටම සුදුසුකම් ලත් සෞඛ්‍ය සේවා සපයන්නෙකුගෙන් උපදෙස් ලබාගන්න. මෙය සමාගමේ තමන්ගේ එන්ජිම පිළිබඳ ස්වයංක්‍රීයව ක්‍රියාත්මක කරන ලද අභ්‍යන්තර benchmark එකක් වන අතර, එය ස්වාධීනව වලංගු කර හෝ peer-reviewed කර නොමැත. සංයුක්ත ලකුණ (composite score) ස්ථාවර ප්‍රමිතියකට (report structure, keyword සහ scoring-system recall, සහ latency) අනුකූලතාව මනින අතර, එය සැබෑ ලෝකයේ රෝග නිර්ණ නිරවද්‍යතාව හෝ සායනික ආරක්ෂාව මැනීමක් නොවේ. දෙදෙනාම Kantesti Ltd හි සේවය කරන අතර එහි කොටස් හිමිකමක් දරයි, සහ ඇගයීමට ලක් කරන ලද එන්ජිම එම සංවිධානයේම වාණිජ නිෂ්පාදනයකි. මෙම අභිරුචි ගැටුම (conflict of interest) මූලාශ්‍ර කේතයේ rubric එක pre-register කිරීමෙන්, MIT බලපත්‍රය යටතේ harness එක නිකුත් කිරීමෙන්, සහ raw එන්ජිම ප්‍රතිචාරවල stratified random sample එකක් ප්‍රකාශයට පත් කිරීමෙන් අවම කර ඇත.

E-E-A-T විශ්වාස සංඥා

⭐ 안장이 안장

අත්දැකීම්

නඩු පැනල තේරීම අධීක්ෂණය කරමින් වසර 15කට වැඩි සායනික හේමැටොලොජි සහ රසායනාගාර වෛද්‍ය විද්‍යා පළපුරුද්ද.

📋

ප්‍රවීණතාව

පැහැදිලි හයිපර්ඩයග්නෝසිස් දඬුවම් සහ පිළිගත් සායනික ලකුණු කිරීමේ පද්ධති (Mentzer, FIB-4, EULAR/ACR, KDIGO) සහිත පෙර-ලියාපදිංචි රූබ්‍රික් සැලසුම.

👤

අධිකාරීත්වය

ප්‍රධාන කතුවරයා Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). ක්‍රියාත්මක කිරීම Julian Emirhan Bulut, Kantesti Ltd හි CEO විසිනි.

🛡️

විශ්වසනීයත්වය

MIT බලපත්‍රය සහිත ප්‍රතිනිෂ්පාදනය කළ හැකි හාර්නස්, අමු එන්ජින් ප්‍රතිචාර ප්‍රකාශයට පත් කර ඇත, විවෘත වගකීම්/අනුරූපතා ගැටුම් හෙළිදරව් කිරීම, වේදිකා හතරක පර්යේෂණ ප්‍රතිබිම්බ ජාලය.

🏢 කන්ටෙස්ටි ලිමිටඩ් එංගලන්තය සහ වේල්ස්හි ලියාපදිංචි · සමාගම් අංකය. 17090423 ලන්ඩන්, එක්සත් රාජධානිය · කැන්ටෙස්ටි.නෙට්