මෙම සම්මත මිනුම (benchmark) පැවතීමට හේතුව සහ එය පරීක්ෂා කරන්නේ කුමක්ද

AI සහාය ඇති රුධිර පරීක්ෂණ ප්‍රතිඵල කියවන්නේ කෙසේද පාරිභෝගික සහ සායනික ක්‍රියාපටිපාටිවල වැඩි වැඩියෙන් භාවිතා වෙමින් පවතී. එහෙත් රසායනාගාර වෛද්‍ය විද්‍යාවට ගැලපෙන, නැවත නිර්මාණය කළ හැකි ඇගයීම් රාමු (evaluation frameworks) අඩු වශයෙන්ම දක්නට ලැබේ. මෙම සන්දර්භයේ වැදගත්ම ප්‍රශ්න සාමාන්‍ය වෛද්‍ය ප්‍රශ්න-පිළිතුරු (question-answering) සම්මතයන් මගින් ආවරණය වන ඒවා නොවේ: මධ්‍යම සෛල පරිමාව (mean corpuscular volume) එකම නම්, එන්ජිමට යකඩ ඌනතාවය (iron deficiency) තැලසීමියා ලක්ෂණයෙන් (thalassaemia trait) වෙන් කළ හැකිද? එය Gilbert's syndrome හෙපටයිටිස් (hepatitis) ලෙස අධි-රෝග නිර්ණය කරනවාද? සහ සම්පූර්ණයෙන්ම සාමාන්‍ය පරීක්ෂණ පැනලයක (screening panel) රෝගාබාධ නිර්මාණය කරනවාද?

Kantesti AI එන්ජිමය ශීත කළ ලකුණු නිර්ණායකයන්ට එරෙහිව ඇගයීම සිදු කරන ආකාරය පෙන්වන පෙර-ලියාපදිංචි කළ රූබ්‍රික් ප්‍රවාහ රූප සටහන
රූපය 1: සම්මතයේ ගෘහ නිර්මාණය (benchmark architecture) — එක් එක් අවස්ථාව, එක් එක් මූල පදය (keyword), එක් එක් ලකුණු ක්‍රමය (scoring system) — එන්ජිමට කිසිදු PDF එකක් පෙනීමට පෙරම මූලාශ්‍ර කේතයේ සවි කර ඇත. පසුව (post-hoc) rubric සුසර කිරීම සැලසුමෙන්ම කළ නොහැක.

තනි රුධිර පරීක්ෂණ පැනලයක් සාමාන්‍යයෙන් එකිනෙකට තරඟකාරී අර්ථකථන කිහිපයක් සඳහා ප්‍රමාණවත් සංඥා අඩංගු වේ. එම අර්ථකථනය කරන වෛද්‍යවරයාගේ කාර්යය වන්නේ එම අර්ථකථන එකිනෙකට සාපේක්ෂව කිරා මැන බැලීමයි; පෙළපොත් පිළිතුරක් ලබා ගැනීම නොවේ. පෙළපොත් නඩු වලදී හොඳින් ක්‍රියා කරන එන්ජිමක්, වඩාත් වැදගත් නඩු වලදී තවමත් අසාර්ථක විය හැක: වැරදි අවකල-රෝග නිර්ණය (differential-diagnosis) උගුල්, තනිව බලන විට බියකරු ලෙස පෙනෙන සාමාන්‍ය නොවන නමුත් අහිතකර නොවන වෙනස්කම් (benign variants), සහ විශ්වම සාමාන්‍ය පැනලයන් (fully normal panels) නිසා විශ්වාසයෙන් සහායකයන් රෝගී තත්ත්වයක් “නිර්මාණය” කිරීමට පෙළඹෙන අවස්ථා.

මෙම බෙන්ච්මාර්කය නිර්මාණය කර ඇත්තේ හරියටම එවැනි අසාර්ථක වීමේ ආකාර (failure modes) වටාය. සෑම නඩුවක් (15 න් එකක්)ම නිශ්චිත රෝග නිර්ණාත්මක ගුණාංගයක් සඳහා තෝරාගෙන ඇත: එකම mean corpuscular volume (MCV) ඇති beta-thalassaemia trait එකකින් වෙන්කර තබාගත යුතු, යකඩ ඌනතාවය නිසා ඇති microcytosis; Gilbert's syndrome ලෙස පෙනෙන අවස්ථාවක්, එහි එකම අසාමාන්‍යතාවය වන්නේ හුදකලා indirect hyperbilirubinaemia වීම; සහ පරාමිතී 15ක screening පැනලයක්, එහි සෑම analyte එකක්ම තම තමන්ගේ reference range තුළම පිහිටා තිබීම. මෙම rubric මගින් එක් එක් නඩුව එහිම කොන්දේසි අනුව කියවන එන්ජිමයන්ට ප්‍රතිලාභ ලැබේ; එවැනි රෝග නිර්ණයක් අවශ්‍ය නොවන විට විශ්වාසයෙන් රෝග නිර්ණයකට පැමිණෙන එන්ජිමයන්ට දඬුවම් ලැබේ.

MD වෛද්‍ය Thomas Klein ලෙස, මෙම නඩු පැනලය මම තෝරාගත්තේ රසායනාගාර-වෛද්‍ය සහායකයන් වැඩිපුරම වැරදි කරන්නේ මේ ආකාරයේ රටා (patterns) බව මට පෙනෙන නිසාය. වියදම් සහිත අසාර්ථක වීමේ ආකාරය "දුර්ලභ රෝගයක් මගහැරීම" නොවේ — එය එය නොමැති රෝගීන් තුළ සාමාන්‍ය රෝගී තත්ත්වයක් (routine pathology) නිර්මාණය කිරීමයි. අපගේ වෛද්‍ය වලංගුකරණය hub විසින් පුළුල් රාමුව විස්තර කරයි; මෙම පිටුව V11 එන්ජිම මත එහි යෙදුම් ප්‍රතිඵලය විස්තර කරයි.

නවතම යොමු ධාවනය — V11 (2026 අප්‍රේල්)

Kantesti AI Engine V11 හි 2026 අප්‍රේල් reference run එකෙන් සංයුක්ත ලකුණු (composite score) එකක් ලැබුණේ 99.12% pre-registered නඩු 15ක rubric මත. hyperdiagnosis උගුල් (trap) නඩු දෙකම උපරිම සීමාවට (ceiling) ලකුණු ලබාගත්තා. යකඩ ඌනතාවය හා thalassaemia අතර අවකල-රෝග නිර්ණයේදී Mentzer index එක නිවැරදිව යොදාගත්තා.

සංයුක්ත 99.12% නඩු 15 න් 15ක් ලකුණු ලබාගත්තා
0.998 ව්‍යුහාත්මක ලකුණු (Structural score)
0.998 සායනික ලකුණු (Clinical score)
20.17 s සාමාන්‍ය ප්‍රමාදය (Mean latency)
0 / 13 උගුල් ලෙස වැරදි ධනාත්මක (Trap false-positives)

සංයුක්ත සූත්‍රය සංරචක තුනක් එකතු කරයි: ව්‍යුහාත්මක අනුකූලතාව (structural conformance) අනිවාර්ය වාර්තා කොටස් හත (seven mandatory report sections) සහ අනිවාර්ය උප කොටස් දහසය (sixteen mandatory subsections) සමඟ, සායනික නිරවද්‍යතාව (clinical accuracy) යනු keyword recall + scoring-system recall + සම්භාවිතා-විතරණ වලංගුතා පරීක්ෂාව (probability-distribution validity check) ලෙස මනිනු ලබන අතර, ප්‍රතිචාර ප්‍රමාදය (response latency) තත්පර 20ක ප්‍රධාන-සේවා මට්ටමේ ඉලක්කය (20-second primary-path service-level target) අනුව. නිවැරදි වෙන්කිරීම පහත rubric සූත්‍රයේ දක්වා ඇත.

සංයුක්ත = 0.35 × ව්‍යුහාත්මක (Structural) + 0.55 × සායනික (Clinical) + 0.10 × ප්‍රමාදය (Latency)

ඉතිරි 0.88 ප්‍රතිශත ලකුණු “headroom” ප්‍රමාණයෙන් වැඩි වශයෙන්ම latency loss වෙත විසිරෙයි — එක් එක් සංයුක්තය -0.05 බැගින් වූ Phase 2 fallback ආයාචනා තුනක්, 0.88-ලකුණු හිඟයෙන් ආසන්න වශයෙන් 0.60ක් දායක විය — එය සායනික අන්තර්ගතයට නොවෙයි. එන්ජිමට පහලොස් දෙනාගෙන් කිසිදු නඩුවක නිවැරදි රෝග විනිශ්චය මග හැරුණේ නැත; එය අඩු වූ තැන, ආයාචනා කිහිපයක සුළුතරයකදී ප්‍රධාන-path ඉලක්ක 20 තත්පරයට වඩා තරමක් වැඩි කාලයක් ගත කිරීමෙන් පමණි.

වෛද්‍ය විශේෂතා හතක් හරහා නඩු පහළොවක්

නඩු පැනලය විශේෂතා හතක් ආවරණය කරයි — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — මෙන්ම කැපවූ hyperdiagnosis trap නඩු දෙකක්ද. සෑම නඩුවක්ම ලිඛිත දැනුවත් කැමැත්ත යටතේ Kantesti සායනික දත්ත ගබඩාවෙන් ලබාගත් අනන්‍යතාව ඉවත් කළ සැබෑ රෝගියාගේ වාර්තාවකි.

වෛද්‍ය විශේෂත්වයන් හතකට බෙදා ඇති නිර්නාමික රුධිර පරීක්ෂණ නඩු පහළොවක ආවරණ සිතියම සහ අධි-රෝග නිර්ණය උගුල් නඩු
රූපය 2: hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology අතර නඩු ව්‍යාප්තිය — මෙන්ම trap නඩු දෙකක්ද: Gilbert's syndrome සහ සම්පූර්ණයෙන්ම සාමාන්‍ය screening පැනලයක්.

අනන්‍යතාව ඉවත් කිරීම Safe Harbor ප්‍රවේශය යටතේ සිදු කරන ලදී: සියලුම සෘජු හඳුනාගැනීම් ඉවත් කර හෝ ප්‍රතිස්ථාපනය කර, සෑම වාර්තාවකටම BT-NNN-LABEL ආකෘතියෙන් benchmark-internal case code එකක් පවරන ලදී. සැකසුම් කටයුතු සිදු කරන ලද්දේ GDPR Article 9(2)(j) සඳහා විද්‍යාත්මක පර්යේෂණයෙහිදී සුදුසු ආරක්ෂක පියවරයන් සමඟින්, සහ සමාන UK GDPR විධිවිධාන අනුවය. ප්‍රකාශයට පත් කරන ලද harness තුළ, තාක්ෂණික වාර්තාව තුළ, හෝ නිකුත් කරන ලද දත්ත කට්ටල තුළ කිසිදු පුද්ගලිකව හඳුනාගත හැකි තොරතුරක් නොපවතී.

Hematology (3) BT-001, BT-006, BT-007 යකඩ ඌනතාවය නිසා ඇති රක්තහීනතාවය · B12 ඌනතාවය · Beta-thalassaemia minor
Endocrinology (3) BT-002, BT-008, BT-012 Hashimoto's thyroiditis · insulin resistance සමඟ PCOS · දැඩි විටමින් D ඌනතාවය
Metabolic (2) BT-003, BT-013 metabolic syndrome සමඟ T2DM · gout අවදානම සමඟ hyperuricaemia
Hepatology (2) BT-004, BT-009 NAFLD / NASH · උග්‍ර වෛරස් හෙපටයිටිස්
Nephrology · Cardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD අදියර 3 · atherogenic dyslipidaemia · systemic lupus erythematosus
Trap cases (2) BT-014, BT-015 Gilbert's syndrome (isolated indirect hyperbilirubinaemia) · සම්පූර්ණයෙන්ම සාමාන්‍ය වැඩිහිටි screening

මෙම විශේෂිත ව්‍යාප්තිය තෝරාගත්තේ ඇයි

Hematology හට නඩු තුනක් ලැබෙන්නේ ක්ෂුද්‍ර සයිටික (microcytic) වෙනස්කම් සහ මැක්‍රොසයිටික (macrocytic) වෙනස්කම් යන දෙකම සැබෑ ලෝක රසායනාගාර භාවිතයේ වැඩිම පරිමාවක් ඇති “උගුල්” (traps) වන නිසාය. Endocrinology හට නඩු තුනක් ලැබෙන්නේ Hashimoto’s, PCOS, සහ විටමින් D ඌනතාවය යන ඉදිරිපත් කිරීම් විවිධ රෝග විනිශ්චය හැඩයන් (ස්වයං ප්‍රතිදේහ මඟින් මෙහෙයවෙන, හෝමෝන අනුපාත මඟින් මෙහෙයවෙන, තනි සලකුණ මඟින් මෙහෙයවෙන) අභ්‍යාස කරවන නිසාය. තනි-නඩු විශේෂතා තවමත් අර්ථවත් වන්නේ CKD, ASCVD අවදානම, සහ SLE යන සෑම එකකටම තමන්ගේම ලකුණුකරණ ක්‍රමයක් ඇති අතර එය එන්ජිම විසින් කැඳවිය යුතු බැවිනි (අනුක්‍රමණ KDIGO අදියර, ASCVD වසර 10 අවදානම, සහ 2019 EULAR/ACR SLE නිර්ණායක පිළිවෙලින්).

පෙර-ලියාපදිංචි කළ rubric, පැහැදිලි කර ඇත

මෙම බෙන්ච්මාර්කයේ තනිවම වැදගත්ම ක්‍රමවේද තීරණය වන්නේ පෙර-ලියාපදිංචිය (pre-registration)යි. අපේක්ෂිත සෑම රෝග විනිශ්චයක්ම, සෑම සායනික ලකුණුකරණ ක්‍රමයක්ම, සහ සෑම වාර්තා කොටසක්ම මූලාශ්‍ර කේතයට (source code) කැප කර තිබුණි එන්ජිම කැඳවීමට පෙර. එබැවින් එන්ජිමට හිතකර ලෙස රූබ්‍රික් (rubric) පසු-අනුමාන (post-hoc) ලෙස සකස් කිරීම කළ නොහැක.

සංයුක්ත ලකුණ (composite score) සෑදෙන කොටස් තුනක් ඇත. එහි ව්‍යුහාත්මක (structural) කොටස ලකුණු වලින් 35%ක් දායක වන අතර, එන්ජිම විසින් අනිවාර්ය වාර්තා කොටස් හත (header, summary, key findings, differential, scoring systems, recommendations, follow-up) සහ ඒවා තුළ අනිවාර්ය උප කොටස් දහසය (sixteen) ආපසු ලබා දුන්නේද යන්න මැනේ. ව්‍යුහාත්මක ගණනය තුළ කොටස් පැවැත්ම (section presence) 40%ක් බර දරන අතර උප කොටස් පැවැත්ම (subsection presence) 60%ක් බර දරයි.

එම සායනික (clinical) කොටස ලකුණු වලින් 55%ක් දායක වන අතර, දේවල් තුනක් එකතු කරයි: රෝග විනිශ්චය-කීවර්ඩ් නැවත කැඳවීම (clinical sub-score හි 70%), ලකුණුකරණ-ක්‍රම නැවත කැඳවීම (20% — එන්ජිම අදාළ තැනදී Mentzer, FIB-4, HOMA-IR, ASCVD අවදානම, KDIGO අදියර, EULAR/ACR නිර්ණායක ගණනය කරනවාද යන්න), සහ සම්භාවිතා-එකතුව වලංගුතා පරීක්ෂාව (10% — differential සම්භාවිතා එකතුව [90, 110] පරාසය තුළ තිබිය යුතුය). උගුල් නඩු (trap cases) සඳහා, උපකල්පිත ව්‍යාධි (fabricated pathology) සලකුණු ධජයක් (flag) එකකට 0.10 බැගින් ගණනය කර උපරිම වශයෙන් ධජ තුනක් දක්වා සීමා කර ඇති, උපරිම 0.30 දක්වා වූ පැහැදිලි “අධි-රෝග විනිශ්චය” (hyperdiagnosis) දඩුවමක් අඩු කරනු ලැබේ.

එම ප්‍රමාද (latency) කොටස ලකුණු වලින් 10%ක් දායක වේ. ප්‍රතිචාරය තත්පර 20ට අඩු නම් සම්පූර්ණ 0.10 ලැබේ; තත්පර 40ට අඩු නම් 0.05 ලැබේ; ඊට වඩා මන්දගාමී ඕනෑම දෙයක් සඳහා ශුන්‍ය (0) ලැබේ. තත්පර 20 ඉලක්කය නිෂ්පාදන ප්‍රධාන primary-path සේවා මට්ටමේ අරමුණ (service-level objective) පිළිබිඹු කරයි; තත්පර 40 සීමාව Phase 2 සඳහා වූ බර එන්ජිම කැඳවීම් (heavy-engine invocations) වල fallback අයවැය (budget) පිළිබිඹු කරයි.

MIT බලපත්‍රය සහිත Kantesti බेंච්මාර්ක් හාර්නස් ධාවනය වී එක් එක් නඩුවට ලකුණු නිකුත් කරන අවසාන තිරදර්ශනය
රූපය 3: ක්‍රියාත්මක කිරීමේදී ඇති harness එක. සෑම නඩුවක්ම A4 PDF එකකට රෙන්ඩර් කර, නිෂ්පාදන v11 endpoint එකට පළ කර, ශීත කළ රූබ්‍රික් (frozen rubric) අනුව ලකුණු කරනු ලැබේ. සෑම අමු ප්‍රතිචාරයක්ම එකතු කළ ලකුණු පුවරුව (aggregated scorecard) සමඟම සුරකිනු ලැබේ.

පෙර-ලියාපදිංචියෙන් වළක්වන දේ

පළමු පාර්ශ්වීය (first-party) බෙන්ච්මාර්ක තමන්ගේම අංක පසු-අනුමාන රූබ්‍රික් සකස් කිරීමෙන් (post-hoc rubric tuning) ඉහළ නංවන බවට ප්‍රසිද්ධය. එම රටාව බොහෝ විට එකම ආකාරයේය: කණ්ඩායම එන්ජිම ධාවනය කර, අඩු කාර්යසාධනයක් ඇති තැන් දකින අතර, පසුව එම අඩු කාර්යසාධනය ඇති ප්‍රදේශවලට අඩු බරක් ලැබෙන ලෙස රූබ්‍රික් එක නිහඬව සකස් කරයි. පළමු එන්ජිම කැඳවීමට පෙර රූබ්‍රික් එක මූලාශ්‍ර කේතයට කැප කිරීමෙන් සහ MIT බලපත්‍රය යටතේ harness එක ප්‍රකාශයට පත් කිරීමෙන්, එම සකස් කිරීම අනුවාද පාලනයේදී (version control) දෘශ්‍යමාන වේ. ඕනෑම කෙනෙකුට repository එක clone කර, රූබ්‍රික් කතුවරුන්ගේ දිනයන් පරීක්ෂා කර, එන්ජිම ප්‍රතිඵල ලකුණුකරණය හැඩගැස්වීමට භාවිතා නොකළ බව තහවුරු කළ හැක.

අධි-රෝග නිර්ණාත්මක උගුල් නඩු (Hyperdiagnosis trap cases) — අධික ලෙස ඇමතීම (over-calling) සැබෑ අසාර්ථකත්ව මාදිලිය වන්නේ ඇයි

සාමාන්‍ය තිරගත කිරීම් (normal screens) මත ව්‍යාධි අධික ලෙස (aggressively) හඳුනාගැනීම පාරිභෝගික-මුහුණ දෙන වෛද්‍ය සහායකයන් (consumer-facing medical assistants) සඳහා ලේඛනගත අසාර්ථක ක්‍රමයක් (documented failure mode) වේ. එහි පසුකාලීන වියදම් අතර අනවශ්‍ය පරීක්ෂණ, රෝගියාගේ කනස්සල්ල, සහ වෛද්‍යමය ලෙස ඇතිවන අහිතකර පරීක්ෂණ/ප්‍රතිකාර (iatrogenic workup) ඇතුළත් වේ. මෙම බෙන්ච්මාර්කයේ ඇති උගුල් නඩු දෙක එම අසාර්ථක ක්‍රමය දෘශ්‍යමාන කර ලකුණු කළ හැකි ලෙස නිර්මාණය කර ඇත.

Gilbert's syndrome පැනලයක හෙපටයිටිස් නිර්මාණය කරන අහිංසක AI එකක් සහ Kantesti එන්ජිමය UGT1A1 බහුමානතාවය (polymorphism) නිවැරදිව හඳුනාගන්නා ආකාරය පැත්තෙන් පැත්තට සංසන්දනය
රූපය 4: උගුල්-නඩු නිර්මාණය. Gilbert’s syndrome එක hepatitis ලෙස විශ්වාසයෙන් ලේබල් කරන එන්ජිමක්, හෝ සම්පූර්ණයෙන්ම සාමාන්‍ය තිරගත කිරීමක් මත මායිම්-මට්ටමේ (borderline) ව්‍යාධි නිර්මාණය කරන එන්ජිමක්, දඩුවම් ලබයි — සායනික ලෙස ශබ්ද කිරීම සඳහා ත්‍යාග නොලැබේ.

🟡 උගුල් 1 — BT-014-GILBERT

ඉදිරිපත් කිරීම (Presentation). මුළු බිලිරුබින් (total bilirubin) 2.4 mg/dL ඇති වයස අවුරුදු 24 පිරිමි. සෘජු කොටස (direct fraction) සාමාන්‍යයි; transaminases සහ alkaline phosphatase ඒවායේ යොමු පරාසයන් තුළ පිහිටයි; reticulocytes අසාමාන්‍ය නොවේ; සහ haptoglobin හා LDH මඟින් haemolysis බැහැර කරයි.

නිවැරදි අර්ථකථනය (Correct interpretation). Gilbert’s syndrome — සාමාන්‍ය නොවන (benign) UGT1A1 බහුමාන (polymorphism) එකක්. අර්ථකථනය hepatitis, cirrhosis, haemolytic anaemia, හෝ biliary obstruction කැඳවිය යුතු නොවේ.

V11 ප්‍රතිඵලය. සංයුක්ත 1.000. නිරීක්ෂණය කළ අධි-රෝග විනිශ්චය (over-diagnosis) ධජ හයගෙන් කිසිවක් සක්‍රීය රෝග විනිශ්චයන් ලෙස නොපැමිණි.

🟡 උගුල් 2 — BT-015-HEALTHY

ඉදිරිපත් කිරීම (Presentation). පරාමිතීන් පහළොවක් (fifteen-parameter) සහිත සාමාන්‍ය පරීක්ෂණ තිරගත කිරීමේ පැනලයක් ඇති වයස අවුරුදු 35 ක කාන්තාවක්. සෑම analyte එකක්මම තමන්ගේ යොමු පරාසය තුළ සුවපහසු ලෙස පිහිටයි.

නිවැරදි අර්ථකථනය (Correct interpretation). සහතික කිරීම සහ ජීවන රටා නඩත්තුව. අර්ථකථනය මගින් සායනික වශයෙන් ප්‍රයෝජනවත් බව පෙනෙන ලෙස දේශසීමා රෝගාබාධ නිර්මාණය නොකළ යුතුය.

V11 ප්‍රතිඵලය. සංයුක්ත 1.000. නිරීක්ෂණය කළ අධි-රෝග හඳුනාගැනීමේ අනතුරු ඇඟවීම් හතෙන් කිසිවක් — දියවැඩියාව, රක්තහීනතාවය, තයිරොයිඩ් ක්‍රියාකාරිත්ව අඩුවීම, ඩිස්ලිපිඩිමියා, හෙපටයිටිස්, වකුගඩු රෝගය, ඌනතාවය — සක්‍රීය රෝග ලෙස පෙනී නොතිබුණි.

එම උගුල් දෙකම හරහා නිරීක්ෂණය කළ අධි-රෝග හඳුනාගැනීමේ අනතුරු ඇඟවීම් 13ක් පරීක්ෂා කරන ලදී. කිසිවක් ක්‍රියාත්මක නොවීය. ත්‍රයජ් හෝ උපදේශනයට පෙර මෙවලමක් ලෙස AI එන්ජිමක් භාවිතා කිරීමට සලකා බලන ඕනෑම වෛද්‍යවරයෙකුට වැදගත්ම ප්‍රතිඵලය මෙයයි: පද්ධතියක් කිසිවක් නොතිබූ තැන රෝගයක් නිර්මාණය කළේ නැත.

මෙන්ට්සර් දර්ශකය (Mentzer index): යකඩ ඌනතාවය තැලසීමියා ලක්ෂණයෙන් (thalassaemia trait) වෙන් කිරීම

දෙවන ඉහළ වටිනාකමක් ඇති සොයාගැනීමක් වන්නේ BT-001 (යකඩ ඌන රක්තහීනතාවය) නඩුව BT-007 (බීටා-තැලසීමියා සුළු) සමඟ යුගල වීමයි. දෙකම මයික්‍රොසයිටෝසිස් සමඟ පවතින අතර අද්දැකීම් අඩු වර්ගීකරණ යන්ත්‍ර සඳහා හොඳින් දන්නා බාධකයකි. මෙන්ට්සර් දර්ශකය, MCV අගය RBC ගණනෙන් බෙදීම ලෙස ගණනය කර, යකඩ ඌනතාවයේදී 13ට වඩා වැඩි වන අතර තැලසීමියා ලක්ෂණයේදී 13ට අඩු වේ.

BT-001 හි රෝගියා වයස අවුරුදු 34ක් වූ කාන්තාවක්; හීමොග්ලොබින් 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ෆෙරිටින් 6 ng/mL, සහ ඉහළ TIBC. මෙන්ට්සර් දර්ශකය ආසන්න වශයෙන් 17.7 වන අතර එය සම්පූර්ණ යකඩ ඌනතාවය (absolute iron deficiency) සනාථ කරයි. BT-007 හි රෝගියා වයස අවුරුදු 28ක් වූ පිරිමියෙක්; මයික්‍රොසයිටෝසිස් (MCV 65.8 fL) තිබුණද RBC ගණන 6.2ක් ලෙස ඉහළයි, RDW සාමාන්‍යයි, ෆෙරිටින් සාමාන්‍යයි, සහ HbA2 5.6 ප්‍රතිශතයයි. මෙන්ට්සර් දර්ශකය ආසන්න වශයෙන් 10.6 වන අතර එය තැලසීමියා ලක්ෂණය වෙත යොමු කරයි; ඉහළ HbA2 මගින් බීටා-තැලසීමියා සුළු බව තහවුරු වේ.

යකඩ ඌන රක්තහීනතාවය මෙන්ට්සර් > 13 අඩු ෆෙරිටින්, අඩු TSAT, ඉහළ TIBC, ඉහළ RDW
බීටා-තැලසීමියා ලක්ෂණය මෙන්ට්සර් < 13 සාමාන්‍ය ෆෙරිටින්, සාමාන්‍ය RDW, ඉහළ HbA2 (>3.5%), ඉහළ RBC ගණන

මෙම නඩු දෙකම 1.000 ලෙස ලකුණු ලබා ගත්තේය. එන්ජිම විසින් මෙන්ට්සර් දර්ශකය දෙවෙනි අර්ථකථන දෙකෙහිම පැහැදිලිව භාවිතා කර ඇති අතර සෑම අවස්ථාවකම නිවැරදි රෝග නිගමනය ලබා දුන්නේය. මෙය සම්පූර්ණ බෙන්ච්මාර්කයේම වඩාත්ම සායනිකව සහතික කරන ප්‍රතිඵලයයි, මන්ද තැලසීමියා ලක්ෂණය යකඩ ඌනතාවය ලෙස වැරදි ලෙස වර්ගීකරණය කිරීමෙන් අනිසි යකඩ අතිරේක ලබාදීම සහ පවුල්-පරීක්ෂා කිරීමේ අවස්ථා මගහැරීම සිදුවන අතර, යකඩ ඌනතාවය තැලසීමියා ලෙස වැරදි ලෙස වර්ගීකරණය කිරීමෙන් සරල ප්‍රතිස්ථාපන ප්‍රතිකාරය ප්‍රමාද වේ. අපගේ ferritin පරාසය මාර්ගෝපදේශය පුළුල් වෙනස්කම් සන්දර්භය පැහැදිලි කරයි.

2026 අප්‍රේල් ධාවනයේ එක් එක් අවස්ථාව සඳහා ප්‍රතිඵල

නඩු පහළොවෙන් දොළහක් ප්‍රධාන පථයේදී 1.000 ලෙස උපරිම සංයුක්ත ලකුණට ළඟා විය. නඩු තුනක් Phase 2 fallback මගින් සේවය කරන ලදී; එහිදී 0.05 latency bonus අහිමි වූ නමුත් සියලුම සායනික හා ව්‍යුහාත්මක අන්තර්ගතය රැකුණි. එක් නඩුවක එක් අනිවාර්ය උපවගන්තියක් අස්ථානගතව තිබුණි; තවත් එකක් මඳක් අඩු වූ සම්භාවිතා ව්‍යාප්ති එකතුවක් ලබා දුන්නේය.

නඩු හැඳුනුම්කාරකය විශේෂත්වය සංයුක්ත ප්‍රමාදය පථය
BT-001-IDAරක්තවේදය1.00017.8 sප්‍රධාන
BT-006-B12රක්තවේදය1.00018.4 තත්පරප්‍රධාන
BT-007-THALරක්තවේදය1.00017.0 තත්පරප්‍රධාන
BT-002-HASHඅන්තරාසර්ග විද්‍යාව0.95037.0 තත්පරආපසු හැරවීම
BT-008-PCOSඅන්තරාසර්ග විද්‍යාව0.98718.6 තත්පරප්‍රධාන
BT-003-T2DMපරිවෘත්තීය1.00019.1 තත්පරප්‍රධාන
BT-013-GOUTපරිවෘත්තීය1.00019.4 තත්පරප්‍රධාන
BT-004-NAFLDඅක්මා විද්‍යාව1.00019.6 තත්පරප්‍රධාන
BT-009-VIRHEPඅක්මා විද්‍යාව0.95023.4 තත්පරආපසු හැරවීම
BT-014-GILBERTඋගුල1.00018.9 තත්පරප්‍රධාන
BT-005-CKDවකුගඩු විද්‍යාව1.00017.4 තත්පරප්‍රධාන
BT-010-ASCVDහෘද රෝග විද්‍යාව1.00019.7 තත්පරප්‍රධාන
BT-011-SLEරූමැටොලොජි0.98118.2 තත්.ප්‍රධාන
BT-012-VITDඅන්තරාසර්ග විද්‍යාව1.00019.3 තත්.ප්‍රධාන
BT-015-HEALTHYඋගුල1.00018.7 තත්.ආපසු හැරවීම

PCOS නඩුව (BT-008) ප්‍රතිචාර ව්‍යුහයේ එක් අනිවාර්ය උපවගන්තියක් අහිමි කළේය — 16න් 16 වෙනුවට 16න් 15 — එමඟින් ව්‍යුහාත්මක ලකුණ 1.000 සිට 0.963 දක්වා අඩු විය. SLE නඩුව (BT-011) සෑම රෝග නිර්ණායන මූල පදයක්ම සහ ලකුණුකරණ පද්ධතියම ආරක්ෂා කරමින්, සායනික ලකුණ 0.965 දක්වා පහත හෙළූ සුළු ලෙස අඩු වූ සම්භාවිතා-විතරණ එකතුවක් ලබා දුන්නේය. උප-පරිපූර්ණ නඩු දෙකම නිවැරදි රෝග නිර්ණය අතපසු කළේ නැත.

ප්‍රධාන ලකුණු (headline score) අපට නොකියන දේ

මෙම විශේෂයෙන් පෙර-ලියාපදිංචි කර ඇති මෙම රූබ්‍රික් යටතේ 99.12 ප්‍රතිශතයේ සංයුක්ත ලකුණක් යනු සිවිලිමට ආසන්න කාර්යසාධනයකි, නමුත් එය හොඳින් සන්දර්භගත කළ යුතුය. මෙම ප්‍රතිඵලය විස්තර කරන්නේ, එක් වරක් බැගින් ඇගයූ, හොඳින් තෝරාගත් නිර්නාමික නඩු පහළොවක්ට එරෙහිව එන්ජිම ක්‍රියා කළ ආකාරයයි; එය එක් රූබ්‍රික් එකකට එරෙහිවයි. මෙම අංකය මගින් තහවුරු වන දේ සහ තහවුරු නොවන දේ පිළිබඳව අපි පැහැදිලි වෙමු.

ලකුණෙන් කියන්නේ V11 එන්ජිම මෙම ඇගයීම සඳහා තෝරාගත් රෝග නිර්ණායන රටා නිවැරදිව හැසිරවූ බවයි; එය ප්‍රකාශයට පත් කර ඇති සහ නැවත නිෂ්පාදනය කළ හැකි ක්‍රමවේදයක් මතය. එන්ජිම ලෝකයේ පවතින සෑම රුධිර පරීක්ෂණ පැනලයකම නිවැරදි බව එයින් කියන්නේ නැත. එන්ජිම වෛද්‍යවරයාගේ තීරණය වෙනුවට ආදේශ කළ යුතු බව එයින් කියන්නේ නැත. තවද, වෙනත් AI පද්ධතිවලට වඩා එන්ජිම ඉදිරියෙන් බව එයින් කියන්නේ නැත — වෙනත් එන්ජින් සමඟ සංසන්දනාත්මක විශ්ලේෂණ මෙම වාර්තාවට අදාළව හිතාමතාම සීමාවෙන් බැහැර කර තිබුණි.

ලකුණෙන් තහවුරු වන්නේ පදනමක් බවයි. රූබ්‍රික් සහ හාර්නස් පොදු වන බැවින්, එන්ජිමේ අනාගත අනුවාදයන් එම නඩු පහළොවට එරෙහිව ඇගයිය හැකි අතර, ප්‍රකාශිත ලකුණ සහ ඕනෑම පසුව ක්‍රියාත්මක කිරීමක් අතර ඇති පරතරයද මැනිය හැකි දෙයකි. පෙර-ලියාපදිංචි කිරීමේ වටිනාකම මෙයයි: කාර්යසාධන ප්‍රකාශයන් පරීක්ෂා කළ හැකි ප්‍රකාශයන් බවට පත් කරයි.

මිනිත්තු 10ක් තුළ මෙම සම්මතය (benchmark) නැවත නිර්මාණය කරන්නේ කෙසේද

නැවත නිෂ්පාදනය සඳහා අවශ්‍ය වන්නේ Kantesti API අක්තපත්‍ර යුගලයක් පමණක් සහ Python 3.10 හෝ ඊට පසු පරිසරයක් සමඟින් requests සහ reportlab පුස්තකාල ස්ථාපනය කර තිබීමයි. සම්පූර්ණ හාර්නස් එකම තනි, ස්වයංපූර්ණ Python මොඩියුලයක් ලෙස MIT බලපත්‍රය යටතේ නිකුත් කර ඇත.

Figshare, ResearchGate, Academia.edu සහ GitHub වෙත බෙන්ච්මාර්කය ප්‍රතිබිම්බ කර ඇති බව පෙන්වන ප්‍රතිනිෂ්පාදන ජාල රූප සටහන; Figshare DOI ප්‍රධාන නැංගුරම ලෙස
රූපය 5: මෙම බෙන්ච්මාර්කය පර්යේෂණ වේදිකා හතරක් පුරා ප්‍රතිබිම්බ කර ඇත. Figshare DOI යනු ප්‍රධාන ශාස්ත්‍රීය හඳුනාගැනීමයි; ResearchGate, Academia.edu, සහ GitHub විසින් සමාන්තර පිටපත් කේතය සහ මුල් දත්ත සමඟ සපයයි.

නව ධාවනයක් සඳහා පියවර හතරක්

එක. ගබඩාව ක්ලෝන් කරන්න: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. දෙක. අවශ්‍යතා ස්ථාපනය කරන්න pip install -r requirements.txt. තුන. සකසන්න KANTESTI_USERNAME සහ KANTESTI_PASSWORD පරිසර විචල්‍යයන් ලෙස — අක්තපත්‍ර (credentials) ස්ක්‍රිප්ට් එක තුළ දෘඪකේතනය නොකර ධාවනය වන අවස්ථාවේදී කියවනු ලැබේ. හතර. ක්‍රියාත්මක කරන්න python benchmark_bloodtest.py සහ වැඩ කරන නාමාවලියට නිකුත් වන artefacts හතර පරීක්ෂා කරන්න: CSV scorecard එකක්, JSON scorecard එකක්, raw engine responses ඇතුළත් සම්පූර්ණ JSON dump එකක්, සහ මිනිසාට කියවිය හැකි Markdown වාර්තාවක්.

2026 අප්‍රේල් 23 දින සිට වූ reference run එක repository හි results/ නාමාවලිය තුළ සුරක්ෂිත කර ඇත. නව ධාවනයක් නව timestamp සහිත scorecard එකක් නිපදවනු ඇත; reference run එක නොවෙනස්ව තබනු ඇත. ඔබගේ ධාවනයෙන් අර්ථවත් ලෙස වෙනස් ප්‍රතිඵලයක් ලැබෙන්නේ නම්, කරුණාකර ධාවන timestamp එක සහ ප්‍රතිචාර metadata තුළ ලැබෙන engine version එක සමඟ GitHub issue එකක් විවෘත කරන්න.

සීමාවන් සහ අනාගත කටයුතු

සීමාවන් හතරක් පැහැදිලිව පිළිගැනීම ලැබිය යුතුය: sample size, single-shot evaluation, single-engine scope, සහ single-source data origin. මේවා සක්‍රීයව අනුගමන කටයුතු මගින් විසඳෙමින් පවතී.

Sample size. විශේෂතා bucket අටක් හරහා නඩු පහළොවක් proof of concept සඳහා ප්‍රමාණවත් නමුත් විශේෂතාවක් තුළ subgroup විශ්ලේෂණය සඳහා ප්‍රමාණවත් නොවේ. නඩු පනහ දක්වා පුළුල් කිරීම සැලසුම් කර ඇති අතර එයට coagulation panels, haematological malignancy screening, pregnancy panels, සහ ළමා රෝගී ඉදිරිපත් කිරීම් ඇතුළත් වනු ඇත.

Single-shot evaluation. සෑම නඩුවක්ම එක් වරක් පමණක් ඇගයීමට ලක් විය. අඩු sampling temperature එකකදී පවා large language models වල output variance එක සැලකිය යුතු ලෙස වෙනස් විය හැක, එබැවින් එක් නඩුවකට ඇගයීම් පහක් සහ වාර්තා කළ variance එකක් සහිත multi-run protocol එක ස්වභාවික ඊළඟ පියවරකි.

Single-engine scope. මෙම වාර්තාව එක් engine එකක් විස්තර කරයි. විකල්ප AI පද්ධති සමඟ සංසන්දනාත්මක විශ්ලේෂණයන් මෙහි scope එකෙන් බැහැරය; ඒවා සුදුසු ක්‍රමවේදයක් සහිත වෙනම ස්වාධීන අධ්‍යයනයක් ලෙස අපට අනුගමනය කළ හැක.

Single-source data origin. නඩු පහළොව සෑම එකක්ම එක්ම clinical repository එකකින් ලබාගත් anonymised සැබෑ රෝගී වාර්තා වේ. මේවා curated sample එකක් වන අතර ජනගහනය නියෝජනය කරන අහඹු තෝරාගැනීමක් නොවේ. ඇගයීම multi-centre දත්ත වෙත පුළුල් කිරීම roadmap එකේ ඇත.

වඩාත්ම බලපෑම්කාරී ලෙස සැලසුම් කර ඇති පුළුල් කිරීම multi-language parity වේ. Kantesti AI Engine එක 75+ භාෂාවලින් පරිශීලකයන්ට සේවය කරයි, සහ තුර්කි, ජර්මන්, ස්පාඤ්ඤ, ප්‍රංශ, සහ අරාබි භාෂාවලින් එකම නඩු පහළොවක harness එක ධාවනය කිරීමෙන් engine එක සහාය දක්වන භාෂා හරහා output quality එක ප්‍රමාණනය කරනු ඇත. අපි එක් එක් භාෂාවට අනුරූප ධාවනය එහිම DOI එකක් සහ harness branch එකක් සමඟ ප්‍රකාශයට පත් කරන්නෙමු.