මෙම සම්මත මිනුම (benchmark) පැවතීමට හේතුව සහ එය පරීක්ෂා කරන්නේ කුමක්ද
AI සහාය ඇති රුධිර පරීක්ෂණ ප්රතිඵල කියවන්නේ කෙසේද පාරිභෝගික සහ සායනික ක්රියාපටිපාටිවල වැඩි වැඩියෙන් භාවිතා වෙමින් පවතී. එහෙත් රසායනාගාර වෛද්ය විද්යාවට ගැලපෙන, නැවත නිර්මාණය කළ හැකි ඇගයීම් රාමු (evaluation frameworks) අඩු වශයෙන්ම දක්නට ලැබේ. මෙම සන්දර්භයේ වැදගත්ම ප්රශ්න සාමාන්ය වෛද්ය ප්රශ්න-පිළිතුරු (question-answering) සම්මතයන් මගින් ආවරණය වන ඒවා නොවේ: මධ්යම සෛල පරිමාව (mean corpuscular volume) එකම නම්, එන්ජිමට යකඩ ඌනතාවය (iron deficiency) තැලසීමියා ලක්ෂණයෙන් (thalassaemia trait) වෙන් කළ හැකිද? එය Gilbert's syndrome හෙපටයිටිස් (hepatitis) ලෙස අධි-රෝග නිර්ණය කරනවාද? සහ සම්පූර්ණයෙන්ම සාමාන්ය පරීක්ෂණ පැනලයක (screening panel) රෝගාබාධ නිර්මාණය කරනවාද?
තනි රුධිර පරීක්ෂණ පැනලයක් සාමාන්යයෙන් එකිනෙකට තරඟකාරී අර්ථකථන කිහිපයක් සඳහා ප්රමාණවත් සංඥා අඩංගු වේ. එම අර්ථකථනය කරන වෛද්යවරයාගේ කාර්යය වන්නේ එම අර්ථකථන එකිනෙකට සාපේක්ෂව කිරා මැන බැලීමයි; පෙළපොත් පිළිතුරක් ලබා ගැනීම නොවේ. පෙළපොත් නඩු වලදී හොඳින් ක්රියා කරන එන්ජිමක්, වඩාත් වැදගත් නඩු වලදී තවමත් අසාර්ථක විය හැක: වැරදි අවකල-රෝග නිර්ණය (differential-diagnosis) උගුල්, තනිව බලන විට බියකරු ලෙස පෙනෙන සාමාන්ය නොවන නමුත් අහිතකර නොවන වෙනස්කම් (benign variants), සහ විශ්වම සාමාන්ය පැනලයන් (fully normal panels) නිසා විශ්වාසයෙන් සහායකයන් රෝගී තත්ත්වයක් “නිර්මාණය” කිරීමට පෙළඹෙන අවස්ථා.
මෙම බෙන්ච්මාර්කය නිර්මාණය කර ඇත්තේ හරියටම එවැනි අසාර්ථක වීමේ ආකාර (failure modes) වටාය. සෑම නඩුවක් (15 න් එකක්)ම නිශ්චිත රෝග නිර්ණාත්මක ගුණාංගයක් සඳහා තෝරාගෙන ඇත: එකම mean corpuscular volume (MCV) ඇති beta-thalassaemia trait එකකින් වෙන්කර තබාගත යුතු, යකඩ ඌනතාවය නිසා ඇති microcytosis; Gilbert's syndrome ලෙස පෙනෙන අවස්ථාවක්, එහි එකම අසාමාන්යතාවය වන්නේ හුදකලා indirect hyperbilirubinaemia වීම; සහ පරාමිතී 15ක screening පැනලයක්, එහි සෑම analyte එකක්ම තම තමන්ගේ reference range තුළම පිහිටා තිබීම. මෙම rubric මගින් එක් එක් නඩුව එහිම කොන්දේසි අනුව කියවන එන්ජිමයන්ට ප්රතිලාභ ලැබේ; එවැනි රෝග නිර්ණයක් අවශ්ය නොවන විට විශ්වාසයෙන් රෝග නිර්ණයකට පැමිණෙන එන්ජිමයන්ට දඬුවම් ලැබේ.
MD වෛද්ය Thomas Klein ලෙස, මෙම නඩු පැනලය මම තෝරාගත්තේ රසායනාගාර-වෛද්ය සහායකයන් වැඩිපුරම වැරදි කරන්නේ මේ ආකාරයේ රටා (patterns) බව මට පෙනෙන නිසාය. වියදම් සහිත අසාර්ථක වීමේ ආකාරය "දුර්ලභ රෝගයක් මගහැරීම" නොවේ — එය එය නොමැති රෝගීන් තුළ සාමාන්ය රෝගී තත්ත්වයක් (routine pathology) නිර්මාණය කිරීමයි. අපගේ වෛද්ය වලංගුකරණය hub විසින් පුළුල් රාමුව විස්තර කරයි; මෙම පිටුව V11 මුල් proof-of-concept එක සහ V11 දෙවන යාවත්කාලීනය විස්තර කරයි—එය රට ලේබල් 127ක් පුරා විහිදෙන සින්තටික් කේස් කට්ටලයකින් ලබාගත් සින්තටික් කේස් 100,000ක් දක්වා එය පරිමාණය කළේය—එකම ලකුණු රූබ්රික් එක භාවිත කරමින්, බයිට්-සමානව, post-hoc tuning සඳහා අවසර නොමැත.
2026 අප්රේල් 26 දින V11 දෙවන යාවත්කාලීනයේ යොමු ධාවනය මගින්
V11 ආරම්භක නිකුතුවේ භාවිත කළ එමම pre-registered rubric එකම මත, ඇගයීමට ලක් කළේ 99.80% 100,000 ව්යාජ නාමික (anonymised) කේස් 100,000ක් සින්තටික් කේස් Kantesti සින්තටික් කේස් කට්ටලයෙන් ලබාගත් අතර රට ලේබල් 127ක් පුරා විහිදේ . මට්ටමටම පැවතුණි. 2026 අප්රේල් 23 දින පැවති මුල් V11 ධාවනයේදී අතින් තෝරාගත් (hand-curated) කේස් 15ක් (composite 99.12%) ආවරණය කර rubric වලංගු කර තිබූ අතර; දෙවන යාවත්කාලීනය එම rubric එක byte-identical ලෙසම තබාගෙන ඇගයීම ජනගහන-පරිමාණ (population-scale) සමූහයක් දක්වා පුළුල් කරයි. 0 / 87,412. 100,000 න් 100,000 කේස් ලකුණු ලැබීය.
සංයුක්ත සූත්රය සංරචක තුනක් එකතු කරයි: ව්යුහාත්මක අනුකූලතාව (structural conformance) අනිවාර්ය වාර්තා කොටස් හත (seven mandatory report sections) සහ අනිවාර්ය උප කොටස් දහසය (sixteen mandatory subsections) සමඟ, අන්තර්ගත නිරවද්යතාව යනු keyword recall + scoring-system recall + සම්භාවිතා-විතරණ වලංගුතා පරීක්ෂාව (probability-distribution validity check) ලෙස මනිනු ලබන අතර, ප්රතිචාර ප්රමාදය (response latency) ඉතිරි 0.20 ප්රතිශත ලක්ෂ්ය (percentage points) පමණක් headroom ලෙස clinical sub-score වෙත බොහෝමයක් වෙන්වෙයි — කුඩා කොටසක් කේස් (ප්රධාන වශයෙන් Hepatology සහ Rheumatology තුළ) තුළ, රෝග විනිශ්චය අන්තර්ගතය නිවැරදි වුවද, එන්ජිමේ අර්ථකථනය තුළ එක් අපේක්ෂිත ලකුණුකරණ-පද්ධති (scoring-system) මූල පදයක් නොතිබුණි.
100,000-කේස් දෙවන යාවත්කාලීන සමූහයේ කිසිදු කේස් එකක්ම රෝග විනිශ්චය (diagnosis) තමාම මගහැරියේ නැත. V11 ආරම්භක නිකුතුවේ සාමාන්ය latency 20.17 s සිට දෙවන යාවත්කාලීනයේ 13.26 s දක්වා වැඩිදියුණු විය; එය එම ධාවන දෙක අතර නිෂ්පාදන එන්ජිම (production engine) ප්රශස්තිකරණයන් පිළිබිඹු කරයි. rubric, scoring code, සහ API endpoint වෙනස් කර නැත. රට අනුව composite ලකුණු 30ක් වැඩිම නියෝජනය වූ රටවල් අතර 0.9971 (ඉන්දියාව) සිට 0.9985 (ස්විට්සර්ලන්තය) දක්වා විය. අමතර රටවල් 97ක දිගු වලිගය (≈7,300 කේස් එකතුව) තුළ කිසිදු ක්රමානුකූල පිරිහීමක් (systematic degradation) දක්නට නොලැබුණි. කේස් ගණන අනුව ප්රධාන දායකයන් වූයේ එක්සත් ජනපදය (10,500), බ්රසීලය (9,500), ස්පාඤ්ඤය (9,000), ඉතාලිය (8,000), ජර්මනිය (7,800), ප්රංශය (7,400), පෘතුගාලය (5,800), Türkiye (3,400), එක්සත් රාජධානිය (2,900), සහ මෙක්සිකෝව (2,500) ය.
ලේබලය-අනුව සංයුක්ත ලකුණු 30ක් වැඩිම නියෝජනය වූ රට ලේබල් අතර 0.9971 සිට 0.9985 දක්වා පරාසයක පැවතුණි. අමතර ලේබල් 97ක දිගු වලිගය (සමස්ත කේස් ≈7,300) තුළ කිසිදු ක්රමානුකූල පිරිහීමක් දක්නට නොලැබුණි. කේස් ගණන අනුව වැඩිම වාර ගණන ඇති ලේබල් වූයේ එක්සත් ජනපදය (10,500), බ්රසීලය (9,500), ස්පාඤ්ඤය (9,000), ඉතාලිය (8,000), ජර්මනිය (7,800), ප්රංශය (7,400), පෘතුගාලය (5,800), Türkiye (3,400), එක්සත් රාජධානිය (2,900), සහ මෙක්සිකෝව (2,500) ය. ලේබලය-අනුව සංයුක්ත ලකුණු 0.9971 සිට 0.9985 දක්වා පරාසයක පැවතුණි.
කේස් 15කින් 100,000 දක්වා: රට ලේබල් 127ක් පුරා කෝහෝට් පරිණාමය
මුල් V11 කේස් පැනලය විශේෂතා හතක් ආවරණය කළේය — රුධිරවේදය, අන්තරාසර්ගවේදය, පරිවෘත්තීය වෛද්ය විද්යාව, හෙපටොලොජි, නෙෆ්රොලොජි, හෘද රෝගවේදය, රූමැටොලොජි — සහ කැපවූ hyperdiagnosis trap කේස් දෙකක්ද සමඟින්; එක් එක් කේස් එකක් සින්තටික් ලෙස ජනනය කළ රුධිර පරීක්ෂණ පැනලයක් විය. V11 දෙවන යාවත්කාලීනය ඇගයීම විහිදවන්නේ රට ලේබල් 127ක් පුරා විහිදෙන 100,000ක් සින්තටික් කේස් මතට, hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology යන ක්ෂේත්රවල මුල් V11 කේස්-පැනල සැලසුම, සහ trap කේස් 2ක් — Gilbert's syndrome සහ සම්පූර්ණයෙන්ම සාමාන්ය screening පැනලයක්. දෙවන යාවත්කාලීනය මෙම rubric එක byte-identical ලෙසම පවත්වාගෙන, cohort එක Kantesti SQL ගබඩාවෙන් ලබාගත් කේස් 100,000ක් දක්වා පුළුල් කරයි.
සියලුම කේස් සින්තටික් ලෙස ජනනය කර ඇති බැවින් ඉවත් කළ යුතු සැබෑ හඳුනාගැනීම් නොමැති අතර පුද්ගලික දත්ත කිසිවක් සම්බන්ධ නොවේ. සෑම සින්තටික් කේස් එකක්ම බෙන්ච්මාර්කය-අභ්යන්තර කේස් කේතයක් දරයි (V11 මුල් කට්ටලයේ BT-NNN-LABEL, දෙවන යාවත්කාලීනයේ ස්ථාවර . දෙවන යාවත්කාලීනය සඳහා සැකසුම් සිදු කරන ලද්දේ ). ප්රකාශයට පත් කළ හාර්නස් තුළ, තාක්ෂණික වාර්තාවේ, හෝ නිකුත් කළ දත්ත කට්ටලවල කිසිම තැනක පුද්ගලික දත්ත දක්නට නොලැබේ.
V11 initial release — 15 hand-curated cases
මුල් V11 නඩු පැනලය ආචාර්ය තෝමස් කීන් විසින් අතින් තෝරා සකස් කරන ලද්දේ රසායනාගාර-වෛද්ය සහායකයින් බොහෝවිට වැරදි කරන රෝග නිර්ණ පේටන්ස් (diagnostic patterns) පුහුණු කිරීමටය. පහත ලැයිස්තුගත කර ඇති විශේෂ රෝග නිර්ණ ගුණාංගයක් සඳහා එක් එක් නඩු පහළොවක් (15) තෝරාගෙන තිබුණි.
මෙම විශේෂිත ව්යාප්තිය තෝරාගත්තේ ඇයි
Hematology හට නඩු තුනක් ලැබෙන්නේ ක්ෂුද්ර සයිටික (microcytic) වෙනස්කම් සහ මැක්රොසයිටික (macrocytic) වෙනස්කම් යන දෙකම සැබෑ ලෝක රසායනාගාර භාවිතයේ වැඩිම පරිමාවක් ඇති “උගුල්” (traps) වන නිසාය. Endocrinology හට නඩු තුනක් ලැබෙන්නේ Hashimoto’s, PCOS, සහ විටමින් D ඌනතාවය යන ඉදිරිපත් කිරීම් විවිධ රෝග විනිශ්චය හැඩයන් (ස්වයං ප්රතිදේහ මඟින් මෙහෙයවෙන, හෝමෝන අනුපාත මඟින් මෙහෙයවෙන, තනි සලකුණ මඟින් මෙහෙයවෙන) අභ්යාස කරවන නිසාය. තනි-නඩු විශේෂතා තවමත් අර්ථවත් වන්නේ CKD, ASCVD අවදානම, සහ SLE යන සෑම එකකටම තමන්ගේම ලකුණුකරණ ක්රමයක් ඇති අතර එය එන්ජිම විසින් කැඳවිය යුතු බැවිනි (අනුක්රමණ KDIGO අදියර, ASCVD වසර 10 අවදානම, සහ 2019 EULAR/ACR SLE නිර්ණායක පිළිවෙලින්).
V11 දෙවන යාවත්කාලීනය — රට ලේබල් 127ක් පුරා විහිදෙන 100,000ක් සින්තටික් කේස්
දෙවන යාවත්කාලීනය මුල් V11 හි hard-coded කේස් 15ක Python literal එක වෙනුවට විශාල, ක්රමලේඛනමය ලෙස ජනනය කළ සින්තටික් කේස් කට්ටලයක් යොදවයි. මෙම කේස් කට්ටලය සෑම ධාවනයකම ආරම්භයේදී පූරණය කරනු ලබන අතර විනිවිදභාවය සඳහා වින්යාසය ලොග් කරනු ලැබේ. අන්තර්ගත ක්ෂේත්රය අනුව කෝහෝට් ව්යාප්තිය පහතින් දක්වා ඇත.
සින්තටික් රට-ලේබල් ව්යාප්තිය — ඉහළම ලේබල් 10
100,000ක් සින්තටික් කේස්වලට රට ලේබල් 127ක් (ISO 3166-1 alpha-2) ඇතුළත් කර ඇත—locale හැසිරවීම පරීක්ෂා කිරීමට. ලේබල් පැවරීම: යුරෝපය 57.7%, ඇමරිකා 25.4%, ආසියා-පැසිෆික් 6.2%, නම් කළ මැද-පෙරදිග/අප්රිකා ලේබල් 3.4%, සහ අමතර ලේබල් 97ක දිගු වලිගයක් දළ වශයෙන් 7.3% ලෙස එකතුව. කේස් ගණන අනුව වැඩිම වාර ගණන ඇති දස ලේබල් වූයේ එක්සත් ජනපදය (10,500), බ්රසීලය (9,500), ස්පාඤ්ඤය (9,000), ඉතාලිය (8,000), ජර්මනිය (7,800), ප්රංශය (7,400), පෘතුගාලය (5,800), Türkiye (3,400), එක්සත් රාජධානිය (2,900), සහ මෙක්සිකෝව (2,500) ය. ලේබලය-අනුව සංයුක්ත ලකුණු 0.9971 සිට 0.9985 දක්වා පරාසයක පැවතුණි. මෙම ලේබල් ගණන් යනු locale හැසිරවීම පරීක්ෂා කිරීමට භාවිත කළ ජනනය කළ කේස්වල ගුණාංග වේ — ඒවා සැබෑ පරිශීලකයන් නොවන අතර සැබෑ ලෝක භූගෝලීය ආවරණයක්ද නොවේ.
පෙර-ලියාපදිංචි කළ rubric, පැහැදිලි කර ඇත
මෙම බෙන්ච්මාර්කයේ තනිවම වැදගත්ම ක්රමවේද තීරණය වන්නේ පෙර-ලියාපදිංචිය (pre-registration)යි. අපේක්ෂිත සෑම රෝග විනිශ්චයක්ම, සෑම සායනික ලකුණුකරණ ක්රමයක්ම, සහ සෑම වාර්තා කොටසක්ම මූලාශ්ර කේතයට (source code) කැප කර තිබුණි එන්ජිම කැඳවීමට පෙර. එබැවින් එන්ජිමට හිතකර ලෙස රූබ්රික් (rubric) පසු-අනුමාන (post-hoc) ලෙස සකස් කිරීම කළ නොහැක.
සංයුක්ත ලකුණ (composite score) සෑදෙන කොටස් තුනක් ඇත. එහි ව්යුහාත්මක (structural) කොටස ලකුණු වලින් 35%ක් දායක වන අතර, එන්ජිම විසින් අනිවාර්ය වාර්තා කොටස් හත (header, summary, key findings, differential, scoring systems, recommendations, follow-up) සහ ඒවා තුළ අනිවාර්ය උප කොටස් දහසය (sixteen) ආපසු ලබා දුන්නේද යන්න මැනේ. ව්යුහාත්මක ගණනය තුළ කොටස් පැවැත්ම (section presence) 40%ක් බර දරන අතර උප කොටස් පැවැත්ම (subsection presence) 60%ක් බර දරයි.
එම සායනික (clinical) කොටස ලකුණු වලින් 55%ක් දායක වන අතර, දේවල් තුනක් එකතු කරයි: රෝග විනිශ්චය-කීවර්ඩ් නැවත කැඳවීම (clinical sub-score හි 70%), ලකුණුකරණ-ක්රම නැවත කැඳවීම (20% — එන්ජිම අදාළ තැනදී Mentzer, FIB-4, HOMA-IR, ASCVD අවදානම, KDIGO අදියර, EULAR/ACR නිර්ණායක ගණනය කරනවාද යන්න), සහ සම්භාවිතා-එකතුව වලංගුතා පරීක්ෂාව (10% — differential සම්භාවිතා එකතුව [90, 110] පරාසය තුළ තිබිය යුතුය). උගුල් නඩු (trap cases) සඳහා, උපකල්පිත ව්යාධි (fabricated pathology) සලකුණු ධජයක් (flag) එකකට 0.10 බැගින් ගණනය කර උපරිම වශයෙන් ධජ තුනක් දක්වා සීමා කර ඇති, උපරිම 0.30 දක්වා වූ පැහැදිලි “අධි-රෝග විනිශ්චය” (hyperdiagnosis) දඩුවමක් අඩු කරනු ලැබේ.
එම ප්රමාද (latency) කොටස ලකුණු වලින් 10%ක් දායක වේ. ප්රතිචාරය තත්පර 20ට අඩු නම් සම්පූර්ණ 0.10 ලැබේ; තත්පර 40ට අඩු නම් 0.05 ලැබේ; ඊට වඩා මන්දගාමී ඕනෑම දෙයක් සඳහා ශුන්ය (0) ලැබේ. තත්පර 20 ඉලක්කය නිෂ්පාදන ප්රධාන primary-path සේවා මට්ටමේ අරමුණ (service-level objective) පිළිබිඹු කරයි; තත්පර 40 සීමාව Phase 2 සඳහා වූ බර එන්ජිම කැඳවීම් (heavy-engine invocations) වල fallback අයවැය (budget) පිළිබිඹු කරයි.
පෙර-ලියාපදිංචියෙන් වළක්වන දේ
පළමු පාර්ශ්වීය (first-party) බෙන්ච්මාර්ක තමන්ගේම අංක පසු-අනුමාන රූබ්රික් සකස් කිරීමෙන් (post-hoc rubric tuning) ඉහළ නංවන බවට ප්රසිද්ධය. එම රටාව බොහෝ විට එකම ආකාරයේය: කණ්ඩායම එන්ජිම ධාවනය කර, අඩු කාර්යසාධනයක් ඇති තැන් දකින අතර, පසුව එම අඩු කාර්යසාධනය ඇති ප්රදේශවලට අඩු බරක් ලැබෙන ලෙස රූබ්රික් එක නිහඬව සකස් කරයි. පළමු එන්ජිම කැඳවීමට පෙර රූබ්රික් එක මූලාශ්ර කේතයට කැප කිරීමෙන් සහ MIT බලපත්රය යටතේ harness එක ප්රකාශයට පත් කිරීමෙන්, එම සකස් කිරීම අනුවාද පාලනයේදී (version control) දෘශ්යමාන වේ. ඕනෑම කෙනෙකුට repository එක clone කර, රූබ්රික් කතුවරුන්ගේ දිනයන් පරීක්ෂා කර, එන්ජිම ප්රතිඵල ලකුණුකරණය හැඩගැස්වීමට භාවිතා නොකළ බව තහවුරු කළ හැක.
අධි-රෝග නිර්ණාත්මක උගුල් නඩු (Hyperdiagnosis trap cases) — අධික ලෙස ඇමතීම (over-calling) සැබෑ අසාර්ථකත්ව මාදිලිය වන්නේ ඇයි
සාමාන්ය තිරගත කිරීම් (normal screens) මත ව්යාධි අධික ලෙස (aggressively) හඳුනාගැනීම පාරිභෝගික-මුහුණ දෙන වෛද්ය සහායකයන් (consumer-facing medical assistants) සඳහා ලේඛනගත අසාර්ථක ක්රමයක් (documented failure mode) වේ. එහි පසුකාලීන වියදම් අතර අනවශ්ය පරීක්ෂණ, රෝගියාගේ කනස්සල්ල, සහ වෛද්යමය ලෙස ඇතිවන අහිතකර පරීක්ෂණ/ප්රතිකාර (iatrogenic workup) ඇතුළත් වේ. මෙම බෙන්ච්මාර්කයේ ඇති උගුල් නඩු දෙක එම අසාර්ථක ක්රමය දෘශ්යමාන කර ලකුණු කළ හැකි ලෙස නිර්මාණය කර ඇත.
🟡 උගුල් 1 — BT-014-GILBERT
ඉදිරිපත් කිරීම (Presentation). මුළු බිලිරුබින් (total bilirubin) 2.4 mg/dL ඇති වයස අවුරුදු 24 පිරිමි. සෘජු කොටස (direct fraction) සාමාන්යයි; transaminases සහ alkaline phosphatase ඒවායේ යොමු පරාසයන් තුළ පිහිටයි; reticulocytes අසාමාන්ය නොවේ; සහ haptoglobin හා LDH මඟින් haemolysis බැහැර කරයි.
නිවැරදි අර්ථකථනය (Correct interpretation). Gilbert’s syndrome — සාමාන්ය නොවන (benign) UGT1A1 බහුමාන (polymorphism) එකක්. අර්ථකථනය hepatitis, cirrhosis, haemolytic anaemia, හෝ biliary obstruction කැඳවිය යුතු නොවේ.
V11 ප්රතිඵලය. සංයුක්ත 1.000. නිරීක්ෂණය කළ අධි-රෝග විනිශ්චය (over-diagnosis) ධජ හයගෙන් කිසිවක් සක්රීය රෝග විනිශ්චයන් ලෙස නොපැමිණි.
🟡 උගුල් 2 — BT-015-HEALTHY
ඉදිරිපත් කිරීම (Presentation). පරාමිතීන් පහළොවක් (fifteen-parameter) සහිත සාමාන්ය පරීක්ෂණ තිරගත කිරීමේ පැනලයක් ඇති වයස අවුරුදු 35 ක කාන්තාවක්. සෑම analyte එකක්මම තමන්ගේ යොමු පරාසය තුළ සුවපහසු ලෙස පිහිටයි.
නිවැරදි අර්ථකථනය (Correct interpretation). සහතික කිරීම සහ ජීවන රටා නඩත්තුව. අර්ථකථනය මගින් සායනික වශයෙන් ප්රයෝජනවත් බව පෙනෙන ලෙස දේශසීමා රෝගාබාධ නිර්මාණය නොකළ යුතුය.
V11 ප්රතිඵලය. සංයුක්ත 1.000. නිරීක්ෂණය කළ අධි-රෝග හඳුනාගැනීමේ අනතුරු ඇඟවීම් හතෙන් කිසිවක් — දියවැඩියාව, රක්තහීනතාවය, තයිරොයිඩ් ක්රියාකාරිත්ව අඩුවීම, ඩිස්ලිපිඩිමියා, හෙපටයිටිස්, වකුගඩු රෝගය, ඌනතාවය — සක්රීය රෝග ලෙස පෙනී නොතිබුණි.
එම උගුල් දෙකම හරහා නිරීක්ෂණය කළ අධි-රෝග හඳුනාගැනීමේ අනතුරු ඇඟවීම් 13ක් පරීක්ෂා කරන ලදී. කිසිවක් ක්රියාත්මක නොවීය. ත්රයජ් හෝ උපදේශනයට පෙර මෙවලමක් ලෙස AI එන්ජිමක් භාවිතා කිරීමට සලකා බලන ඕනෑම වෛද්යවරයෙකුට වැදගත්ම ප්රතිඵලය මෙයයි: පද්ධතියක් කිසිවක් නොතිබූ තැන රෝගයක් නිර්මාණය කළේ නැත.
මෙන්ට්සර් දර්ශකය (Mentzer index): යකඩ ඌනතාවය තැලසීමියා ලක්ෂණයෙන් (thalassaemia trait) වෙන් කිරීම
දෙවන ඉහළ වටිනාකමක් ඇති සොයාගැනීමක් වන්නේ BT-001 (යකඩ ඌන රක්තහීනතාවය) නඩුව BT-007 (බීටා-තැලසීමියා සුළු) සමඟ යුගල වීමයි. දෙකම මයික්රොසයිටෝසිස් සමඟ පවතින අතර අද්දැකීම් අඩු වර්ගීකරණ යන්ත්ර සඳහා හොඳින් දන්නා බාධකයකි. මෙන්ට්සර් දර්ශකය, MCV අගය RBC ගණනෙන් බෙදීම ලෙස ගණනය කර, යකඩ ඌනතාවයේදී 13ට වඩා වැඩි වන අතර තැලසීමියා ලක්ෂණයේදී 13ට අඩු වේ.
BT-001 හි රෝගියා වයස අවුරුදු 34ක් වූ කාන්තාවක්; හීමොග්ලොබින් 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ෆෙරිටින් 6 ng/mL, සහ ඉහළ TIBC. මෙන්ට්සර් දර්ශකය ආසන්න වශයෙන් 17.7 වන අතර එය සම්පූර්ණ යකඩ ඌනතාවය (absolute iron deficiency) සනාථ කරයි. BT-007 හි රෝගියා වයස අවුරුදු 28ක් වූ පිරිමියෙක්; මයික්රොසයිටෝසිස් (MCV 65.8 fL) තිබුණද RBC ගණන 6.2ක් ලෙස ඉහළයි, RDW සාමාන්යයි, ෆෙරිටින් සාමාන්යයි, සහ HbA2 5.6 ප්රතිශතයයි. මෙන්ට්සර් දර්ශකය ආසන්න වශයෙන් 10.6 වන අතර එය තැලසීමියා ලක්ෂණය වෙත යොමු කරයි; ඉහළ HbA2 මගින් බීටා-තැලසීමියා සුළු බව තහවුරු වේ.
මෙම නඩු දෙකම 1.000 ලෙස ලකුණු ලබා ගත්තේය. එන්ජිම විසින් මෙන්ට්සර් දර්ශකය දෙවෙනි අර්ථකථන දෙකෙහිම පැහැදිලිව භාවිතා කර ඇති අතර සෑම අවස්ථාවකම නිවැරදි රෝග නිගමනය ලබා දුන්නේය. මෙය සම්පූර්ණ බෙන්ච්මාර්කයේම වඩාත්ම සායනිකව සහතික කරන ප්රතිඵලයයි, මන්ද තැලසීමියා ලක්ෂණය යකඩ ඌනතාවය ලෙස වැරදි ලෙස වර්ගීකරණය කිරීමෙන් අනිසි යකඩ අතිරේක ලබාදීම සහ පවුල්-පරීක්ෂා කිරීමේ අවස්ථා මගහැරීම සිදුවන අතර, යකඩ ඌනතාවය තැලසීමියා ලෙස වැරදි ලෙස වර්ගීකරණය කිරීමෙන් සරල ප්රතිස්ථාපන ප්රතිකාරය ප්රමාද වේ. අපගේ ferritin පරාසය මාර්ගෝපදේශය පුළුල් වෙනස්කම් සන්දර්භය පැහැදිලි කරයි.
V11 මුල් යොමු ධාවනයෙන් (2026 අප්රේල් 23) කේස් අනුව ප්රතිඵල
15-කේස් සාක්ෂි-සංකල්ප කණ්ඩායම මත සිදු කළ මුල් V11 යොමු ධාවනය, දෙවන යාවත්කාලීනයේ ක්රමවේද පදනම වේ: පහතින් ඇති සෑම කේස්-විස්තරයක්ම රූබ්රික් එක සැබෑ එන්ජින් ප්රතිචාරයක් හැසිරවීම කෙසේද යන්න පෙන්වයි. මුල් මාර්ගයේදී කේස් 15න් 12ක් ප්රාථමික මාර්ගයේ සිවිලිම් සංයුක්ත ලකුණු 1.000 ලබා ගත්හ; කේස් 3ක් Phase 2 fallback හරහා සේවය ලැබූ අතර, සියලුම සායනික හා ව්යුහාත්මක අන්තර්ගතය රැකගනිමින් 0.05 latency bonus අහිමි විය. එක් කේස් එකක එක් අනිවාර්ය උපවගන්තියක් අස්ථානගත විය; තවත් එකක් සීමාසහිතව අඩු වූ සම්භාවිතා ව්යාප්ති එකතුවක් ආපසු ලබා දුන්නේය. of the Second Update: every per-case detail below illustrates how the rubric handles a real engine response. Twelve of fifteen cases achieved the ceiling composite score of 1.000 on the primary path; three cases were served via the Phase 2 fallback, losing the 0.05 latency bonus while preserving all clinical and structural content. One case was missing a single mandatory subsection; one returned a marginally reduced probability distribution sum.
PCOS නඩුව (BT-008) ප්රතිචාර ව්යුහයේ එක් අනිවාර්ය උපවගන්තියක් අහිමි කළේය — 16න් 16 වෙනුවට 16න් 15 — එමඟින් ව්යුහාත්මක ලකුණ 1.000 සිට 0.963 දක්වා අඩු විය. SLE නඩුව (BT-011) සෑම රෝග නිර්ණායන මූල පදයක්ම සහ ලකුණුකරණ පද්ධතියම ආරක්ෂා කරමින්, සායනික ලකුණ 0.965 දක්වා පහත හෙළූ සුළු ලෙස අඩු වූ සම්භාවිතා-විතරණ එකතුවක් ලබා දුන්නේය. උප-පරිපූර්ණ නඩු දෙකම නිවැරදි රෝග නිර්ණය අතපසු කළේ නැත.
V11 දෙවන යාවත්කාලීන එකතුව — 100,000 කේස්
ජනගහන පරිමාණයේදී, තනි කේස් පේළි මිනිස්ට කියවිය හැකි නොවන බැවින් දෙවන යාවත්කාලීනය 100,000-පේළි වගුවක් වෙනුවට එකතු කළ මිනුම් වාර්තා කරයි. ප්රධාන එකතුව පහතින් දක්වා ඇත; විශේෂත්වය අනුව සහ රට-ලේබල් අනුව විස්තර තාක්ෂණික වාර්තාවේ සහ Figshare තැන්පතුවේ ප්රකාශයට පත් කර ඇත. ස්ථරීකෘත අහඹු නියැදියක් n = 201 මුල් එන්ජින් ප්රතිචාර (නිර්ණාත්මක seed 20260426) පරීක්ෂා කිරීම සඳහා GitHub results/ නාමාවලිය තුළ ප්රකාශයට පත් කර ඇත.
ප්රධාන ලකුණු (headline score) අපට නොකියන දේ
මෙම විශේෂිත පෙර-ලියාපදිංචි රූබ්රික් එක යටතේ 99.80 ප්රතිශතයක සංයුක්ත ලකුණු — රට ලේබල් 127ක් පුරා විහිදෙන 100,000-කේස් සින්තටික් කෝහෝට් එකක් මත — සිවිලිමට ආසන්න කාර්ය සාධනයක් නිරූපණය කරයි; නමුත් එය හොඳින් සන්දර්භගත කළ යුතුය. මෙම ප්රතිඵලය V11 හි අපි මූලාශ්ර කේතයට කැපවූ රූබ්රික් එකට එරෙහිව එන්ජිම හැසිරෙන ආකාරය විස්තර කරයි; එය වනයේ පවතින සෑම රුධිර පරීක්ෂණ පැනලයක් මත එන්ජිම නිවැරදි බව පිළිබඳ විශ්වීය ප්රකාශයක් නොවේ.
ලකුණෙන් කියන්නේ, මෙම ඇගයීම සඳහා තෝරාගත් රෝග නිර්ණය රටා එන්ජිම ජනගහන පරිමාණ කණ්ඩායමක් තුළ නිවැරදිව හැසිරවූ බවයි; එය ප්රකාශයට පත් කර ඇති සහ නැවත නිෂ්පාදනය කළ හැකි ක්රමවේදයක් මතය. එය වනයේ පවතින සෑම රුධිර පරීක්ෂණ පැනලයකම එන්ජිම නිවැරදි බව කියන්නේ නැත. එය එන්ජිම වෛද්යවරයාගේ තීරණය වෙනුවට ආදේශ කළ යුතු බව කියන්නේ නැත. තවද එය විකල්ප AI පද්ධතිවලට වඩා ඉහළ බව කියන්නේ නැත — වෙනත් එන්ජින් සමඟ සංසන්දනාත්මක විශ්ලේෂණ මෙම වාර්තාවේ විෂය පථයෙන් හිතාමතාම බැහැර කර තිබුණි.
ලකුණෙන් ස්ථාපිත වන්නේ කුමක්ද යන්න නම්, එය පදනමක් (baseline) බවයි. rubric එක සහ harness එක ප්රසිද්ධ වූ පසු, එන්ජිමේ අනාගත අනුවාදයන් එම rubric එකට එරෙහිව ඇගයිය හැක — V11 ආරම්භක සිද්ධි 15 සඳහා, දෙවන යාවත්කාලීනයේ 100,000-සිද්ධි කණ්ඩායම සඳහා, හෝ ඕනෑම පසුකාලීන ව්යාප්තියක් සඳහා — සහ ප්රකාශිත ලකුණ සහ ඕනෑම පසුකාලීන ධාවනයක් අතර පරතරයම මැනිය හැකි දෙයක් වේ. පෙර-ලියාපදිංචියේ වටිනාකම මෙයයි: කාර්යසාධන ප්රකාශයන් පරීක්ෂා කළ හැකි ප්රකාශයන් බවට පත් කරයි.
මිනිත්තු 10ක් තුළ මෙම සම්මතය (benchmark) නැවත නිර්මාණය කරන්නේ කෙසේද
නැවත නිෂ්පාදනය සඳහා අවශ්ය වන්නේ Kantesti API අක්තපත්ර යුගලයක් පමණක් සහ Python 3.10 හෝ ඊට පසු පරිසරයක් සමඟින් requests සහ reportlab පුස්තකාල ස්ථාපනය කර තිබීමයි. සම්පූර්ණ හාර්නස් එකම තනි, ස්වයංපූර්ණ Python මොඩියුලයක් ලෙස MIT බලපත්රය යටතේ නිකුත් කර ඇත.
නව ධාවනයක් සඳහා පියවර හතරක්
එක. ගබඩාව ක්ලෝන් කරන්න: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. දෙක. අවශ්යතා ස්ථාපනය කරන්න pip install -r requirements.txt (දෙවන යාවත්කාලීනය එකතු කරන්නේ mysql-connector-python ≥ 8.0 SQL case loader සඳහා). තුන. සකසන්න KANTESTI_USERNAME සහ KANTESTI_PASSWORD එන්ජින් API සඳහා පරිසර විචල්යයන් ලෙස. දෙවන යාවත්කාලීනයේ SQL case loader සඳහා ද, මෙයද සකසන්න KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, සහ KANTESTI_DB_PASSWORD — කියවීම-පමණක් (read-only) භූමිකාවක් හරහා සම්බන්ධ වේ (bench_reader) එය හඳුනාගැනීමේ වගු (identifying tables) පිළිබඳ කිසිදු වරප්රසාදයක් (privileges) නොමැත. හතර. ක්රියාත්මක කරන්න python benchmark_bloodtest.py --limit 100000 සම්පූර්ණ Second-Update ධාවනය සඳහා, හෝ python benchmark_bloodtest.py --limit 1000 ඉක්මන් පුනරාවර්තනය සඳහා. ප්රතිදාන (outputs) ලැබෙන්නේ ./benchmark_results/: රට-ලේබලය සහ විශේෂත්වය අනුව තීරු (columns) සහිත CSV scorecard එකක්, JSON aggregate එකක්, stratified-random raw-response sample එකක්, සහ Markdown වාර්තාවක්.
2026 අප්රේල් 23 (V11 ආරම්භක, නඩු 15) සහ 2026 අප්රේල් 26 (V11 Second Update, නඩු 100,000) යන යොමු ධාවනයන් (reference runs) රිපොසිටරියේ (repository) ඇති results/ නාමාවලිය තුළ සුරක්ෂිතව තබා ඇත. නව ධාවනයක් (fresh run) නව කාලමුද්රාවක් (timestamped) සහිත ලකුණු පුවරුවක් නිපදවනු ඇත; යොමු ධාවනයන් කිසිවක් වෙනස් නොකර. ඔබගේ ධාවනයෙන් අර්ථවත් ලෙස වෙනස් ප්රතිඵලයක් ලැබෙන්නේ නම්, කරුණාකර ධාවන කාලමුද්රාව (run timestamp) සහ ප්රතිචාරයේ (response) metadata තුළ ලබා දුන් engine version එක සමඟ GitHub issue එකක් විවෘත කරන්න.
සීමාවන් සහ අනාගත කටයුතු
127 රට-ලේබල හරහා 100,000 අවස්ථා (cases) දක්වා වුවද, පහත සීමාවන් හතරක් පැහැදිලිව පිළිගැනීම ලැබිය යුතුය: long-tail ලේබල undersampling, single-shot evaluation, single-engine scope, සහ single-source data origin. මේවා සක්රීය follow-up කටයුතු මගින් විසඳෙමින් පවතී.
Long-tail ලේබල ආවරණය. Second Update හි රට-ලේබල 127ක් ආවරණය කරයි, නමුත් ව්යාප්තිය අසමතුලිතයි — ඉහළම ලේබල 10 ඒකක ≈66.4% අවස්ථා (cases) සඳහා වගකිව යුතු අතර, ඉතිරි ලේබල 97ක long tail එක එකට ≈7.3% දායක වේ (ආසන්න වශයෙන් ලැබෙන අවස්ථා 7,300ක්, ලේබලයකට සාමාන්යයෙන් ~75 අවස්ථා). එබැවින් මෙම long tail තුළ per-label composites, headline සංඛ්යා පෙන්වනවාට වඩා ශබ්දය (noise) වැඩි වේ. අනාගත run වලදී per-label ඇස්තමේන්තු තහවුරු කර ගැනීම සඳහා label assignment නැවත සමතුලිත කරනු ඇත.
Single-shot evaluation. කණ්ඩායම (cohort) තුළ ඇති සෑම නඩුවක්ම එක් වරක් ඇගයීමට ලක් විය. අඩු නියැදි උෂ්ණත්වයේ (low sampling temperature) පවා විශාල භාෂා ආකෘති (large language models) සැලකිය යුතු ප්රතිදාන විචලනයක් (output variance) පෙන්වයි. එබැවින් එක් නඩුවකට ඇගයීම් 5ක් සහ වාර්තා කළ විචලනයක් (reported variance) සහිත බහු-ධාවන (multi-run) ක්රමවේදයක් ස්වභාවික ඊළඟ පියවරකි — විශේෂයෙන් trap-case උපසමූහයේ (trap-case subset)දී, නියැදි කම්පනය (sampling jitter) යටතේ අඛණ්ඩතාව (consistency) ආරක්ෂාව පිළිබඳ ප්රකාශයේ කොටසක් වන බැවින්.
Single-engine scope. මෙම වාර්තාව එක් engine එකක් විස්තර කරයි. විකල්ප AI පද්ධති සමඟ සංසන්දනාත්මක විශ්ලේෂණයන් මෙහි විෂය පථයෙන් (out of scope) බැහැරයි; ඒවා එකම MIT බලපත්රය සහිත (MIT-licensed) harness එකට එරෙහිව, සුදුසු ක්රමවේදයක් (appropriate methodology) යොදාගෙන වෙනම ස්වාධීන අධ්යයනයක් ලෙස අපට අනුගමනය කළ හැක.
Synthetic දත්ත. 100,000 අවස්ථා (cases) synthetic ලෙස ජනනය කර ඇත — synthetic cases නොව, synthetic දත්ත නොවේ; එසේම ප්රතිඵල සැබෑ ලෝකයේ සායනික කාර්යසාධනයට මාරු නොවේ. සැබෑ, අවසර ලැබූ (consented), බාහිරින් ලබාගත් (externally-sourced) දත්ත මත ඇගයීම සඳහා සුදුසු ආචාරධර්ම අධීක්ෂණයක් අවශ්ය වන අතර, මෙම synthetic benchmark සඳහා එය scope එකෙන් බැහැරයි.
මේ සීමාවන් හතරෙන් ඔබ්බට, සැලසුම් කළ වඩාත් බලපෑම්කාරී ව්යාප්තිය වන්නේ එක් එක් අධිකරණ බල ප්රදේශය (jurisdiction) අනුව බහු-භාෂා සමානතාව (multi-language parity)යි. Kantesti AI Engine භාවිතා කරන්නන්ට 75+ භාෂාවලින් සේවය කරයි, සහ භාෂා-ස්ථරීකෘත Second-Update උප-කණ්ඩායම් (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) ධාවනය කිරීමෙන් engine එක සහය දක්වන භාෂා හරහා ප්රතිදාන ගුණාත්මකභාවය (output quality) ප්රමාණනය කෙරේ. එක් එක් භාෂා-ස්ථරීකෘත විශ්ලේෂණය තමන්ගේම DOI එකක් සහ harness branch එකක් සමඟ ප්රකාශයට පත් කෙරේ.