මෙම සම්මත මිනුම (benchmark) පැවතීමට හේතුව සහ එය පරීක්ෂා කරන්නේ කුමක්ද
AI සහාය ඇති රුධිර පරීක්ෂණ ප්රතිඵල කියවන්නේ කෙසේද පාරිභෝගික සහ සායනික ක්රියාපටිපාටිවල වැඩි වැඩියෙන් භාවිතා වෙමින් පවතී. එහෙත් රසායනාගාර වෛද්ය විද්යාවට ගැලපෙන, නැවත නිර්මාණය කළ හැකි ඇගයීම් රාමු (evaluation frameworks) අඩු වශයෙන්ම දක්නට ලැබේ. මෙම සන්දර්භයේ වැදගත්ම ප්රශ්න සාමාන්ය වෛද්ය ප්රශ්න-පිළිතුරු (question-answering) සම්මතයන් මගින් ආවරණය වන ඒවා නොවේ: මධ්යම සෛල පරිමාව (mean corpuscular volume) එකම නම්, එන්ජිමට යකඩ ඌනතාවය (iron deficiency) තැලසීමියා ලක්ෂණයෙන් (thalassaemia trait) වෙන් කළ හැකිද? එය Gilbert's syndrome හෙපටයිටිස් (hepatitis) ලෙස අධි-රෝග නිර්ණය කරනවාද? සහ සම්පූර්ණයෙන්ම සාමාන්ය පරීක්ෂණ පැනලයක (screening panel) රෝගාබාධ නිර්මාණය කරනවාද?
තනි රුධිර පරීක්ෂණ පැනලයක් සාමාන්යයෙන් එකිනෙකට තරඟකාරී අර්ථකථන කිහිපයක් සඳහා ප්රමාණවත් සංඥා අඩංගු වේ. එම අර්ථකථනය කරන වෛද්යවරයාගේ කාර්යය වන්නේ එම අර්ථකථන එකිනෙකට සාපේක්ෂව කිරා මැන බැලීමයි; පෙළපොත් පිළිතුරක් ලබා ගැනීම නොවේ. පෙළපොත් නඩු වලදී හොඳින් ක්රියා කරන එන්ජිමක්, වඩාත් වැදගත් නඩු වලදී තවමත් අසාර්ථක විය හැක: වැරදි අවකල-රෝග නිර්ණය (differential-diagnosis) උගුල්, තනිව බලන විට බියකරු ලෙස පෙනෙන සාමාන්ය නොවන නමුත් අහිතකර නොවන වෙනස්කම් (benign variants), සහ විශ්වම සාමාන්ය පැනලයන් (fully normal panels) නිසා විශ්වාසයෙන් සහායකයන් රෝගී තත්ත්වයක් “නිර්මාණය” කිරීමට පෙළඹෙන අවස්ථා.
මෙම බෙන්ච්මාර්කය නිර්මාණය කර ඇත්තේ හරියටම එවැනි අසාර්ථක වීමේ ආකාර (failure modes) වටාය. සෑම නඩුවක් (15 න් එකක්)ම නිශ්චිත රෝග නිර්ණාත්මක ගුණාංගයක් සඳහා තෝරාගෙන ඇත: එකම mean corpuscular volume (MCV) ඇති beta-thalassaemia trait එකකින් වෙන්කර තබාගත යුතු, යකඩ ඌනතාවය නිසා ඇති microcytosis; Gilbert's syndrome ලෙස පෙනෙන අවස්ථාවක්, එහි එකම අසාමාන්යතාවය වන්නේ හුදකලා indirect hyperbilirubinaemia වීම; සහ පරාමිතී 15ක screening පැනලයක්, එහි සෑම analyte එකක්ම තම තමන්ගේ reference range තුළම පිහිටා තිබීම. මෙම rubric මගින් එක් එක් නඩුව එහිම කොන්දේසි අනුව කියවන එන්ජිමයන්ට ප්රතිලාභ ලැබේ; එවැනි රෝග නිර්ණයක් අවශ්ය නොවන විට විශ්වාසයෙන් රෝග නිර්ණයකට පැමිණෙන එන්ජිමයන්ට දඬුවම් ලැබේ.
MD වෛද්ය Thomas Klein ලෙස, මෙම නඩු පැනලය මම තෝරාගත්තේ රසායනාගාර-වෛද්ය සහායකයන් වැඩිපුරම වැරදි කරන්නේ මේ ආකාරයේ රටා (patterns) බව මට පෙනෙන නිසාය. වියදම් සහිත අසාර්ථක වීමේ ආකාරය "දුර්ලභ රෝගයක් මගහැරීම" නොවේ — එය එය නොමැති රෝගීන් තුළ සාමාන්ය රෝගී තත්ත්වයක් (routine pathology) නිර්මාණය කිරීමයි. අපගේ වෛද්ය වලංගුකරණය hub විසින් පුළුල් රාමුව විස්තර කරයි; මෙම පිටුව V11 එන්ජිම මත එහි යෙදුම් ප්රතිඵලය විස්තර කරයි.
නවතම යොමු ධාවනය — V11 (2026 අප්රේල්)
Kantesti AI Engine V11 හි 2026 අප්රේල් reference run එකෙන් සංයුක්ත ලකුණු (composite score) එකක් ලැබුණේ 99.12% pre-registered නඩු 15ක rubric මත. hyperdiagnosis උගුල් (trap) නඩු දෙකම උපරිම සීමාවට (ceiling) ලකුණු ලබාගත්තා. යකඩ ඌනතාවය හා thalassaemia අතර අවකල-රෝග නිර්ණයේදී Mentzer index එක නිවැරදිව යොදාගත්තා.
සංයුක්ත සූත්රය සංරචක තුනක් එකතු කරයි: ව්යුහාත්මක අනුකූලතාව (structural conformance) අනිවාර්ය වාර්තා කොටස් හත (seven mandatory report sections) සහ අනිවාර්ය උප කොටස් දහසය (sixteen mandatory subsections) සමඟ, සායනික නිරවද්යතාව (clinical accuracy) යනු keyword recall + scoring-system recall + සම්භාවිතා-විතරණ වලංගුතා පරීක්ෂාව (probability-distribution validity check) ලෙස මනිනු ලබන අතර, ප්රතිචාර ප්රමාදය (response latency) තත්පර 20ක ප්රධාන-සේවා මට්ටමේ ඉලක්කය (20-second primary-path service-level target) අනුව. නිවැරදි වෙන්කිරීම පහත rubric සූත්රයේ දක්වා ඇත.
ඉතිරි 0.88 ප්රතිශත ලකුණු “headroom” ප්රමාණයෙන් වැඩි වශයෙන්ම latency loss වෙත විසිරෙයි — එක් එක් සංයුක්තය -0.05 බැගින් වූ Phase 2 fallback ආයාචනා තුනක්, 0.88-ලකුණු හිඟයෙන් ආසන්න වශයෙන් 0.60ක් දායක විය — එය සායනික අන්තර්ගතයට නොවෙයි. එන්ජිමට පහලොස් දෙනාගෙන් කිසිදු නඩුවක නිවැරදි රෝග විනිශ්චය මග හැරුණේ නැත; එය අඩු වූ තැන, ආයාචනා කිහිපයක සුළුතරයකදී ප්රධාන-path ඉලක්ක 20 තත්පරයට වඩා තරමක් වැඩි කාලයක් ගත කිරීමෙන් පමණි.
වෛද්ය විශේෂතා හතක් හරහා නඩු පහළොවක්
නඩු පැනලය විශේෂතා හතක් ආවරණය කරයි — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — මෙන්ම කැපවූ hyperdiagnosis trap නඩු දෙකක්ද. සෑම නඩුවක්ම ලිඛිත දැනුවත් කැමැත්ත යටතේ Kantesti සායනික දත්ත ගබඩාවෙන් ලබාගත් අනන්යතාව ඉවත් කළ සැබෑ රෝගියාගේ වාර්තාවකි.
අනන්යතාව ඉවත් කිරීම Safe Harbor ප්රවේශය යටතේ සිදු කරන ලදී: සියලුම සෘජු හඳුනාගැනීම් ඉවත් කර හෝ ප්රතිස්ථාපනය කර, සෑම වාර්තාවකටම BT-NNN-LABEL ආකෘතියෙන් benchmark-internal case code එකක් පවරන ලදී. සැකසුම් කටයුතු සිදු කරන ලද්දේ GDPR Article 9(2)(j) සඳහා විද්යාත්මක පර්යේෂණයෙහිදී සුදුසු ආරක්ෂක පියවරයන් සමඟින්, සහ සමාන UK GDPR විධිවිධාන අනුවය. ප්රකාශයට පත් කරන ලද harness තුළ, තාක්ෂණික වාර්තාව තුළ, හෝ නිකුත් කරන ලද දත්ත කට්ටල තුළ කිසිදු පුද්ගලිකව හඳුනාගත හැකි තොරතුරක් නොපවතී.
මෙම විශේෂිත ව්යාප්තිය තෝරාගත්තේ ඇයි
Hematology හට නඩු තුනක් ලැබෙන්නේ ක්ෂුද්ර සයිටික (microcytic) වෙනස්කම් සහ මැක්රොසයිටික (macrocytic) වෙනස්කම් යන දෙකම සැබෑ ලෝක රසායනාගාර භාවිතයේ වැඩිම පරිමාවක් ඇති “උගුල්” (traps) වන නිසාය. Endocrinology හට නඩු තුනක් ලැබෙන්නේ Hashimoto’s, PCOS, සහ විටමින් D ඌනතාවය යන ඉදිරිපත් කිරීම් විවිධ රෝග විනිශ්චය හැඩයන් (ස්වයං ප්රතිදේහ මඟින් මෙහෙයවෙන, හෝමෝන අනුපාත මඟින් මෙහෙයවෙන, තනි සලකුණ මඟින් මෙහෙයවෙන) අභ්යාස කරවන නිසාය. තනි-නඩු විශේෂතා තවමත් අර්ථවත් වන්නේ CKD, ASCVD අවදානම, සහ SLE යන සෑම එකකටම තමන්ගේම ලකුණුකරණ ක්රමයක් ඇති අතර එය එන්ජිම විසින් කැඳවිය යුතු බැවිනි (අනුක්රමණ KDIGO අදියර, ASCVD වසර 10 අවදානම, සහ 2019 EULAR/ACR SLE නිර්ණායක පිළිවෙලින්).
පෙර-ලියාපදිංචි කළ rubric, පැහැදිලි කර ඇත
මෙම බෙන්ච්මාර්කයේ තනිවම වැදගත්ම ක්රමවේද තීරණය වන්නේ පෙර-ලියාපදිංචිය (pre-registration)යි. අපේක්ෂිත සෑම රෝග විනිශ්චයක්ම, සෑම සායනික ලකුණුකරණ ක්රමයක්ම, සහ සෑම වාර්තා කොටසක්ම මූලාශ්ර කේතයට (source code) කැප කර තිබුණි එන්ජිම කැඳවීමට පෙර. එබැවින් එන්ජිමට හිතකර ලෙස රූබ්රික් (rubric) පසු-අනුමාන (post-hoc) ලෙස සකස් කිරීම කළ නොහැක.
සංයුක්ත ලකුණ (composite score) සෑදෙන කොටස් තුනක් ඇත. එහි ව්යුහාත්මක (structural) කොටස ලකුණු වලින් 35%ක් දායක වන අතර, එන්ජිම විසින් අනිවාර්ය වාර්තා කොටස් හත (header, summary, key findings, differential, scoring systems, recommendations, follow-up) සහ ඒවා තුළ අනිවාර්ය උප කොටස් දහසය (sixteen) ආපසු ලබා දුන්නේද යන්න මැනේ. ව්යුහාත්මක ගණනය තුළ කොටස් පැවැත්ම (section presence) 40%ක් බර දරන අතර උප කොටස් පැවැත්ම (subsection presence) 60%ක් බර දරයි.
එම සායනික (clinical) කොටස ලකුණු වලින් 55%ක් දායක වන අතර, දේවල් තුනක් එකතු කරයි: රෝග විනිශ්චය-කීවර්ඩ් නැවත කැඳවීම (clinical sub-score හි 70%), ලකුණුකරණ-ක්රම නැවත කැඳවීම (20% — එන්ජිම අදාළ තැනදී Mentzer, FIB-4, HOMA-IR, ASCVD අවදානම, KDIGO අදියර, EULAR/ACR නිර්ණායක ගණනය කරනවාද යන්න), සහ සම්භාවිතා-එකතුව වලංගුතා පරීක්ෂාව (10% — differential සම්භාවිතා එකතුව [90, 110] පරාසය තුළ තිබිය යුතුය). උගුල් නඩු (trap cases) සඳහා, උපකල්පිත ව්යාධි (fabricated pathology) සලකුණු ධජයක් (flag) එකකට 0.10 බැගින් ගණනය කර උපරිම වශයෙන් ධජ තුනක් දක්වා සීමා කර ඇති, උපරිම 0.30 දක්වා වූ පැහැදිලි “අධි-රෝග විනිශ්චය” (hyperdiagnosis) දඩුවමක් අඩු කරනු ලැබේ.
එම ප්රමාද (latency) කොටස ලකුණු වලින් 10%ක් දායක වේ. ප්රතිචාරය තත්පර 20ට අඩු නම් සම්පූර්ණ 0.10 ලැබේ; තත්පර 40ට අඩු නම් 0.05 ලැබේ; ඊට වඩා මන්දගාමී ඕනෑම දෙයක් සඳහා ශුන්ය (0) ලැබේ. තත්පර 20 ඉලක්කය නිෂ්පාදන ප්රධාන primary-path සේවා මට්ටමේ අරමුණ (service-level objective) පිළිබිඹු කරයි; තත්පර 40 සීමාව Phase 2 සඳහා වූ බර එන්ජිම කැඳවීම් (heavy-engine invocations) වල fallback අයවැය (budget) පිළිබිඹු කරයි.
පෙර-ලියාපදිංචියෙන් වළක්වන දේ
පළමු පාර්ශ්වීය (first-party) බෙන්ච්මාර්ක තමන්ගේම අංක පසු-අනුමාන රූබ්රික් සකස් කිරීමෙන් (post-hoc rubric tuning) ඉහළ නංවන බවට ප්රසිද්ධය. එම රටාව බොහෝ විට එකම ආකාරයේය: කණ්ඩායම එන්ජිම ධාවනය කර, අඩු කාර්යසාධනයක් ඇති තැන් දකින අතර, පසුව එම අඩු කාර්යසාධනය ඇති ප්රදේශවලට අඩු බරක් ලැබෙන ලෙස රූබ්රික් එක නිහඬව සකස් කරයි. පළමු එන්ජිම කැඳවීමට පෙර රූබ්රික් එක මූලාශ්ර කේතයට කැප කිරීමෙන් සහ MIT බලපත්රය යටතේ harness එක ප්රකාශයට පත් කිරීමෙන්, එම සකස් කිරීම අනුවාද පාලනයේදී (version control) දෘශ්යමාන වේ. ඕනෑම කෙනෙකුට repository එක clone කර, රූබ්රික් කතුවරුන්ගේ දිනයන් පරීක්ෂා කර, එන්ජිම ප්රතිඵල ලකුණුකරණය හැඩගැස්වීමට භාවිතා නොකළ බව තහවුරු කළ හැක.
අධි-රෝග නිර්ණාත්මක උගුල් නඩු (Hyperdiagnosis trap cases) — අධික ලෙස ඇමතීම (over-calling) සැබෑ අසාර්ථකත්ව මාදිලිය වන්නේ ඇයි
සාමාන්ය තිරගත කිරීම් (normal screens) මත ව්යාධි අධික ලෙස (aggressively) හඳුනාගැනීම පාරිභෝගික-මුහුණ දෙන වෛද්ය සහායකයන් (consumer-facing medical assistants) සඳහා ලේඛනගත අසාර්ථක ක්රමයක් (documented failure mode) වේ. එහි පසුකාලීන වියදම් අතර අනවශ්ය පරීක්ෂණ, රෝගියාගේ කනස්සල්ල, සහ වෛද්යමය ලෙස ඇතිවන අහිතකර පරීක්ෂණ/ප්රතිකාර (iatrogenic workup) ඇතුළත් වේ. මෙම බෙන්ච්මාර්කයේ ඇති උගුල් නඩු දෙක එම අසාර්ථක ක්රමය දෘශ්යමාන කර ලකුණු කළ හැකි ලෙස නිර්මාණය කර ඇත.
🟡 උගුල් 1 — BT-014-GILBERT
ඉදිරිපත් කිරීම (Presentation). මුළු බිලිරුබින් (total bilirubin) 2.4 mg/dL ඇති වයස අවුරුදු 24 පිරිමි. සෘජු කොටස (direct fraction) සාමාන්යයි; transaminases සහ alkaline phosphatase ඒවායේ යොමු පරාසයන් තුළ පිහිටයි; reticulocytes අසාමාන්ය නොවේ; සහ haptoglobin හා LDH මඟින් haemolysis බැහැර කරයි.
නිවැරදි අර්ථකථනය (Correct interpretation). Gilbert’s syndrome — සාමාන්ය නොවන (benign) UGT1A1 බහුමාන (polymorphism) එකක්. අර්ථකථනය hepatitis, cirrhosis, haemolytic anaemia, හෝ biliary obstruction කැඳවිය යුතු නොවේ.
V11 ප්රතිඵලය. සංයුක්ත 1.000. නිරීක්ෂණය කළ අධි-රෝග විනිශ්චය (over-diagnosis) ධජ හයගෙන් කිසිවක් සක්රීය රෝග විනිශ්චයන් ලෙස නොපැමිණි.
🟡 උගුල් 2 — BT-015-HEALTHY
ඉදිරිපත් කිරීම (Presentation). පරාමිතීන් පහළොවක් (fifteen-parameter) සහිත සාමාන්ය පරීක්ෂණ තිරගත කිරීමේ පැනලයක් ඇති වයස අවුරුදු 35 ක කාන්තාවක්. සෑම analyte එකක්මම තමන්ගේ යොමු පරාසය තුළ සුවපහසු ලෙස පිහිටයි.
නිවැරදි අර්ථකථනය (Correct interpretation). සහතික කිරීම සහ ජීවන රටා නඩත්තුව. අර්ථකථනය මගින් සායනික වශයෙන් ප්රයෝජනවත් බව පෙනෙන ලෙස දේශසීමා රෝගාබාධ නිර්මාණය නොකළ යුතුය.
V11 ප්රතිඵලය. සංයුක්ත 1.000. නිරීක්ෂණය කළ අධි-රෝග හඳුනාගැනීමේ අනතුරු ඇඟවීම් හතෙන් කිසිවක් — දියවැඩියාව, රක්තහීනතාවය, තයිරොයිඩ් ක්රියාකාරිත්ව අඩුවීම, ඩිස්ලිපිඩිමියා, හෙපටයිටිස්, වකුගඩු රෝගය, ඌනතාවය — සක්රීය රෝග ලෙස පෙනී නොතිබුණි.
එම උගුල් දෙකම හරහා නිරීක්ෂණය කළ අධි-රෝග හඳුනාගැනීමේ අනතුරු ඇඟවීම් 13ක් පරීක්ෂා කරන ලදී. කිසිවක් ක්රියාත්මක නොවීය. ත්රයජ් හෝ උපදේශනයට පෙර මෙවලමක් ලෙස AI එන්ජිමක් භාවිතා කිරීමට සලකා බලන ඕනෑම වෛද්යවරයෙකුට වැදගත්ම ප්රතිඵලය මෙයයි: පද්ධතියක් කිසිවක් නොතිබූ තැන රෝගයක් නිර්මාණය කළේ නැත.
මෙන්ට්සර් දර්ශකය (Mentzer index): යකඩ ඌනතාවය තැලසීමියා ලක්ෂණයෙන් (thalassaemia trait) වෙන් කිරීම
දෙවන ඉහළ වටිනාකමක් ඇති සොයාගැනීමක් වන්නේ BT-001 (යකඩ ඌන රක්තහීනතාවය) නඩුව BT-007 (බීටා-තැලසීමියා සුළු) සමඟ යුගල වීමයි. දෙකම මයික්රොසයිටෝසිස් සමඟ පවතින අතර අද්දැකීම් අඩු වර්ගීකරණ යන්ත්ර සඳහා හොඳින් දන්නා බාධකයකි. මෙන්ට්සර් දර්ශකය, MCV අගය RBC ගණනෙන් බෙදීම ලෙස ගණනය කර, යකඩ ඌනතාවයේදී 13ට වඩා වැඩි වන අතර තැලසීමියා ලක්ෂණයේදී 13ට අඩු වේ.
BT-001 හි රෝගියා වයස අවුරුදු 34ක් වූ කාන්තාවක්; හීමොග්ලොබින් 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ෆෙරිටින් 6 ng/mL, සහ ඉහළ TIBC. මෙන්ට්සර් දර්ශකය ආසන්න වශයෙන් 17.7 වන අතර එය සම්පූර්ණ යකඩ ඌනතාවය (absolute iron deficiency) සනාථ කරයි. BT-007 හි රෝගියා වයස අවුරුදු 28ක් වූ පිරිමියෙක්; මයික්රොසයිටෝසිස් (MCV 65.8 fL) තිබුණද RBC ගණන 6.2ක් ලෙස ඉහළයි, RDW සාමාන්යයි, ෆෙරිටින් සාමාන්යයි, සහ HbA2 5.6 ප්රතිශතයයි. මෙන්ට්සර් දර්ශකය ආසන්න වශයෙන් 10.6 වන අතර එය තැලසීමියා ලක්ෂණය වෙත යොමු කරයි; ඉහළ HbA2 මගින් බීටා-තැලසීමියා සුළු බව තහවුරු වේ.
මෙම නඩු දෙකම 1.000 ලෙස ලකුණු ලබා ගත්තේය. එන්ජිම විසින් මෙන්ට්සර් දර්ශකය දෙවෙනි අර්ථකථන දෙකෙහිම පැහැදිලිව භාවිතා කර ඇති අතර සෑම අවස්ථාවකම නිවැරදි රෝග නිගමනය ලබා දුන්නේය. මෙය සම්පූර්ණ බෙන්ච්මාර්කයේම වඩාත්ම සායනිකව සහතික කරන ප්රතිඵලයයි, මන්ද තැලසීමියා ලක්ෂණය යකඩ ඌනතාවය ලෙස වැරදි ලෙස වර්ගීකරණය කිරීමෙන් අනිසි යකඩ අතිරේක ලබාදීම සහ පවුල්-පරීක්ෂා කිරීමේ අවස්ථා මගහැරීම සිදුවන අතර, යකඩ ඌනතාවය තැලසීමියා ලෙස වැරදි ලෙස වර්ගීකරණය කිරීමෙන් සරල ප්රතිස්ථාපන ප්රතිකාරය ප්රමාද වේ. අපගේ ferritin පරාසය මාර්ගෝපදේශය පුළුල් වෙනස්කම් සන්දර්භය පැහැදිලි කරයි.
2026 අප්රේල් ධාවනයේ එක් එක් අවස්ථාව සඳහා ප්රතිඵල
නඩු පහළොවෙන් දොළහක් ප්රධාන පථයේදී 1.000 ලෙස උපරිම සංයුක්ත ලකුණට ළඟා විය. නඩු තුනක් Phase 2 fallback මගින් සේවය කරන ලදී; එහිදී 0.05 latency bonus අහිමි වූ නමුත් සියලුම සායනික හා ව්යුහාත්මක අන්තර්ගතය රැකුණි. එක් නඩුවක එක් අනිවාර්ය උපවගන්තියක් අස්ථානගතව තිබුණි; තවත් එකක් මඳක් අඩු වූ සම්භාවිතා ව්යාප්ති එකතුවක් ලබා දුන්නේය.
PCOS නඩුව (BT-008) ප්රතිචාර ව්යුහයේ එක් අනිවාර්ය උපවගන්තියක් අහිමි කළේය — 16න් 16 වෙනුවට 16න් 15 — එමඟින් ව්යුහාත්මක ලකුණ 1.000 සිට 0.963 දක්වා අඩු විය. SLE නඩුව (BT-011) සෑම රෝග නිර්ණායන මූල පදයක්ම සහ ලකුණුකරණ පද්ධතියම ආරක්ෂා කරමින්, සායනික ලකුණ 0.965 දක්වා පහත හෙළූ සුළු ලෙස අඩු වූ සම්භාවිතා-විතරණ එකතුවක් ලබා දුන්නේය. උප-පරිපූර්ණ නඩු දෙකම නිවැරදි රෝග නිර්ණය අතපසු කළේ නැත.
ප්රධාන ලකුණු (headline score) අපට නොකියන දේ
මෙම විශේෂයෙන් පෙර-ලියාපදිංචි කර ඇති මෙම රූබ්රික් යටතේ 99.12 ප්රතිශතයේ සංයුක්ත ලකුණක් යනු සිවිලිමට ආසන්න කාර්යසාධනයකි, නමුත් එය හොඳින් සන්දර්භගත කළ යුතුය. මෙම ප්රතිඵලය විස්තර කරන්නේ, එක් වරක් බැගින් ඇගයූ, හොඳින් තෝරාගත් නිර්නාමික නඩු පහළොවක්ට එරෙහිව එන්ජිම ක්රියා කළ ආකාරයයි; එය එක් රූබ්රික් එකකට එරෙහිවයි. මෙම අංකය මගින් තහවුරු වන දේ සහ තහවුරු නොවන දේ පිළිබඳව අපි පැහැදිලි වෙමු.
ලකුණෙන් කියන්නේ V11 එන්ජිම මෙම ඇගයීම සඳහා තෝරාගත් රෝග නිර්ණායන රටා නිවැරදිව හැසිරවූ බවයි; එය ප්රකාශයට පත් කර ඇති සහ නැවත නිෂ්පාදනය කළ හැකි ක්රමවේදයක් මතය. එන්ජිම ලෝකයේ පවතින සෑම රුධිර පරීක්ෂණ පැනලයකම නිවැරදි බව එයින් කියන්නේ නැත. එන්ජිම වෛද්යවරයාගේ තීරණය වෙනුවට ආදේශ කළ යුතු බව එයින් කියන්නේ නැත. තවද, වෙනත් AI පද්ධතිවලට වඩා එන්ජිම ඉදිරියෙන් බව එයින් කියන්නේ නැත — වෙනත් එන්ජින් සමඟ සංසන්දනාත්මක විශ්ලේෂණ මෙම වාර්තාවට අදාළව හිතාමතාම සීමාවෙන් බැහැර කර තිබුණි.
ලකුණෙන් තහවුරු වන්නේ පදනමක් බවයි. රූබ්රික් සහ හාර්නස් පොදු වන බැවින්, එන්ජිමේ අනාගත අනුවාදයන් එම නඩු පහළොවට එරෙහිව ඇගයිය හැකි අතර, ප්රකාශිත ලකුණ සහ ඕනෑම පසුව ක්රියාත්මක කිරීමක් අතර ඇති පරතරයද මැනිය හැකි දෙයකි. පෙර-ලියාපදිංචි කිරීමේ වටිනාකම මෙයයි: කාර්යසාධන ප්රකාශයන් පරීක්ෂා කළ හැකි ප්රකාශයන් බවට පත් කරයි.
මිනිත්තු 10ක් තුළ මෙම සම්මතය (benchmark) නැවත නිර්මාණය කරන්නේ කෙසේද
නැවත නිෂ්පාදනය සඳහා අවශ්ය වන්නේ Kantesti API අක්තපත්ර යුගලයක් පමණක් සහ Python 3.10 හෝ ඊට පසු පරිසරයක් සමඟින් requests සහ reportlab පුස්තකාල ස්ථාපනය කර තිබීමයි. සම්පූර්ණ හාර්නස් එකම තනි, ස්වයංපූර්ණ Python මොඩියුලයක් ලෙස MIT බලපත්රය යටතේ නිකුත් කර ඇත.
නව ධාවනයක් සඳහා පියවර හතරක්
එක. ගබඩාව ක්ලෝන් කරන්න: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. දෙක. අවශ්යතා ස්ථාපනය කරන්න pip install -r requirements.txt. තුන. සකසන්න KANTESTI_USERNAME සහ KANTESTI_PASSWORD පරිසර විචල්යයන් ලෙස — අක්තපත්ර (credentials) ස්ක්රිප්ට් එක තුළ දෘඪකේතනය නොකර ධාවනය වන අවස්ථාවේදී කියවනු ලැබේ. හතර. ක්රියාත්මක කරන්න python benchmark_bloodtest.py සහ වැඩ කරන නාමාවලියට නිකුත් වන artefacts හතර පරීක්ෂා කරන්න: CSV scorecard එකක්, JSON scorecard එකක්, raw engine responses ඇතුළත් සම්පූර්ණ JSON dump එකක්, සහ මිනිසාට කියවිය හැකි Markdown වාර්තාවක්.
2026 අප්රේල් 23 දින සිට වූ reference run එක repository හි results/ නාමාවලිය තුළ සුරක්ෂිත කර ඇත. නව ධාවනයක් නව timestamp සහිත scorecard එකක් නිපදවනු ඇත; reference run එක නොවෙනස්ව තබනු ඇත. ඔබගේ ධාවනයෙන් අර්ථවත් ලෙස වෙනස් ප්රතිඵලයක් ලැබෙන්නේ නම්, කරුණාකර ධාවන timestamp එක සහ ප්රතිචාර metadata තුළ ලැබෙන engine version එක සමඟ GitHub issue එකක් විවෘත කරන්න.
සීමාවන් සහ අනාගත කටයුතු
සීමාවන් හතරක් පැහැදිලිව පිළිගැනීම ලැබිය යුතුය: sample size, single-shot evaluation, single-engine scope, සහ single-source data origin. මේවා සක්රීයව අනුගමන කටයුතු මගින් විසඳෙමින් පවතී.
Sample size. විශේෂතා bucket අටක් හරහා නඩු පහළොවක් proof of concept සඳහා ප්රමාණවත් නමුත් විශේෂතාවක් තුළ subgroup විශ්ලේෂණය සඳහා ප්රමාණවත් නොවේ. නඩු පනහ දක්වා පුළුල් කිරීම සැලසුම් කර ඇති අතර එයට coagulation panels, haematological malignancy screening, pregnancy panels, සහ ළමා රෝගී ඉදිරිපත් කිරීම් ඇතුළත් වනු ඇත.
Single-shot evaluation. සෑම නඩුවක්ම එක් වරක් පමණක් ඇගයීමට ලක් විය. අඩු sampling temperature එකකදී පවා large language models වල output variance එක සැලකිය යුතු ලෙස වෙනස් විය හැක, එබැවින් එක් නඩුවකට ඇගයීම් පහක් සහ වාර්තා කළ variance එකක් සහිත multi-run protocol එක ස්වභාවික ඊළඟ පියවරකි.
Single-engine scope. මෙම වාර්තාව එක් engine එකක් විස්තර කරයි. විකල්ප AI පද්ධති සමඟ සංසන්දනාත්මක විශ්ලේෂණයන් මෙහි scope එකෙන් බැහැරය; ඒවා සුදුසු ක්රමවේදයක් සහිත වෙනම ස්වාධීන අධ්යයනයක් ලෙස අපට අනුගමනය කළ හැක.
Single-source data origin. නඩු පහළොව සෑම එකක්ම එක්ම clinical repository එකකින් ලබාගත් anonymised සැබෑ රෝගී වාර්තා වේ. මේවා curated sample එකක් වන අතර ජනගහනය නියෝජනය කරන අහඹු තෝරාගැනීමක් නොවේ. ඇගයීම multi-centre දත්ත වෙත පුළුල් කිරීම roadmap එකේ ඇත.
වඩාත්ම බලපෑම්කාරී ලෙස සැලසුම් කර ඇති පුළුල් කිරීම multi-language parity වේ. Kantesti AI Engine එක 75+ භාෂාවලින් පරිශීලකයන්ට සේවය කරයි, සහ තුර්කි, ජර්මන්, ස්පාඤ්ඤ, ප්රංශ, සහ අරාබි භාෂාවලින් එකම නඩු පහළොවක harness එක ධාවනය කිරීමෙන් engine එක සහාය දක්වන භාෂා හරහා output quality එක ප්රමාණනය කරනු ඇත. අපි එක් එක් භාෂාවට අනුරූප ධාවනය එහිම DOI එකක් සහ harness branch එකක් සමඟ ප්රකාශයට පත් කරන්නෙමු.