මෙම benchmark එක පැවතීමට හේතුව සහ එය පරීක්ෂා කරන්නේ කුමක්ද
AI සහාය ඇති රුධිර පරීක්ෂණ ප්රතිඵල කියවන්නේ කෙසේද යන්න පාරිභෝගික සහ සායනික ක්රියාපටිපාටිවල වැඩි වැඩියෙන් භාවිතා වෙමින් පවතී. එහෙත් රසායනාගාර වෛද්ය විද්යාවට ගැලපෙන, නැවත නැවත පරීක්ෂා කළ හැකි ඇගයීම් රාමු (reproducible evaluation frameworks) තවමත් අඩුය. මෙම සන්දර්භයේ වැදගත්ම ප්රශ්න සාමාන්ය වෛද්ය ප්රශ්න-පිළිතුරු (question-answering) සම්මතයන් මගින් ආවරණය වන ඒවා නොවේ: මධ්ය කෝෂිකා පරිමාව (mean corpuscular volume) එකම නම්, එන්ජිමට යකඩ ඌනතා තත්ත්වය තැලසීමියා ලක්ෂණයෙන් (thalassaemia trait) වෙන් කළ හැකිද, Gilbert's syndrome හෙපටයිටිස් ලෙස අධි-රෝග නිර්ණය කරනවාද, සහ සම්පූර්ණයෙන්ම සාමාන්ය පරීක්ෂණ පැනලයක (screening panel) ව්යාධි (pathology) නිර්මාණය කරනවාද?
තනි රුධිර පරීක්ෂණ පැනලයක් සාමාන්යයෙන් එකිනෙකට තරඟකාරී අර්ථකථන කිහිපයක් සඳහා ප්රමාණවත් සංඥා රැගෙන එයි. එම අර්ථකථනය කරන වෛද්යවරයාගේ කාර්යය වන්නේ එම අර්ථකථන එකිනෙකාට සාපේක්ෂව කිරා මැන බැලීමයි; පෙළපොත් පිළිතුරක් ලබා ගැනීම නොවේ. පෙළපොත් නඩු වලදී හොඳින් ක්රියා කරන එන්ජිමක්, වඩාත් වැදගත් නඩු වලදී තවමත් අසාර්ථක විය හැක: අවකල රෝග නිර්ණයෙහි වැටීම්, තනිව බලන විට බියකරු ලෙස පෙනෙන නිරායුධ (benign) වෙනස්කම්, සහ විශ්වීය වශයෙන් සම්පූර්ණයෙන්ම සාමාන්ය පැනල—එවා විශ්වාසවන්ත සහායකයන්ට ව්යාධි නිර්මාණය කිරීමට පෙළඹවීමයි.
මෙම බෙන්ච්මාර්කය නිර්මාණය කර ඇත්තේ හරියටම එවැනි අසාර්ථක වීමේ ආකාරයන් වටාය. සෑම නඩුවක්ම (පහළොස් දෙනාගෙන්) නිශ්චිත රෝග නිර්ණාත්මක ගුණාංගයක් සඳහා තෝරාගෙන තිබුණි: එකම මධ්ය කෝෂිකා පරිමාව (mean corpuscular volume) ඇති β-තැලසීමියා (beta-thalassaemia) ලක්ෂණයෙන් වෙන්ව තබාගත යුතු යකඩ ඌනතාවය නිසා ඇති මයික්රොසයිටෝසිස් (microcytosis), එකම අසාමාන්යතාවය වන්නේ හුදකලා වූ වක්ර (indirect) හයිපර්බිලිරුබීනීමියා පමණක් වන ගිල්බට් සින්ඩ්රෝමය (Gilbert's syndrome) පෙනුම, සහ විශ්ලේෂක 15ක් සහිත පරීක්ෂණ පැනලයක්—එහි සෑම විශ්ලේෂකයම (analyte) තම යොමු පරාසය තුළම පිහිටා තිබීම. මෙම රූබ්රික්ය, එක් එක් නඩුව තමන්ගේම කොන්දේසි අනුව කියවන එන්ජිමයන්ට ප්රතිලාභ දෙන අතර, එවැනි රෝග නිර්ණයක් අවශ්ය නොවන තැනක විශ්වාසවන්ත රෝග නිර්ණයකට එළඹෙන එන්ජිමයන්ට දඬුවම් කරයි.
MD වෛද්ය තෝමස් ක්ලයින් (Thomas Klein) ලෙස, මෙම නඩු පැනලය මම තෝරාගත්තේ රසායනාගාර-වෛද්ය සහායකයන් වැඩිපුරම වැරදි කරන්නේ මේ ආකාරයේ රටා බව මට පෙනෙන නිසාය. වියදම් සහිත අසාර්ථක වීමේ ආකාරය "දුර්ලභ රෝගයක් මගහැරීම" නොවේ—එය එය නොමැති රෝගීන් තුළ සාමාන්ය ව්යාධි (routine pathology) නිර්මාණය කිරීමයි. අපගේ වෛද්ය වලංගුකරණය hub විසින් පුළුල් රාමුව විස්තර කරයි; මෙම පිටුව V11 එන්ජිම මත එහි යෙදුම් ප්රතිඵලය විස්තර කරයි.
නවතම යොමු ධාවනය — V11 (2026 අප්රේල්)
Kantesti AI Engine V11 හි 2026 අප්රේල් යොමු (reference) ධාවනයේදී සංයුක්ත ලකුණු (composite score) එකක් ලැබුණේ 99.12% පෙර ලියාපදිංචි කළ පහළොස් නඩු රූබ්රික්ය මත. එම “trap” (වැටීම්) ලෙස සලකන අධි-රෝග නිර්ණ (hyperdiagnosis) නඩු දෙකම උපරිම සීමාවට (ceiling) ලකුණු ලබා ගත්හ. යකඩ ඌනතාවය හා තැලසීමියා අතර අවකල රෝග නිර්ණයේදී Mentzer දර්ශකය නිවැරදිව යොදාගත්තා.
සංයුක්ත සූත්රය සංරචක තුනක් එකට ගොඩනඟයි: ව්යුහාත්මක අනුකූලතාව (structural conformance) අනිවාර්ය වාර්තා කොටස් හත (seven mandatory report sections) සහ අනිවාර්ය උප කොටස් දහසය (sixteen mandatory subsections) සමඟ, සායනික නිරවද්යතාව (clinical accuracy) යනු keyword recall + scoring-system recall + සම්භාවිතා-විතරණ වලංගුතා පරීක්ෂාව (probability-distribution validity check) ලෙස මනිනු ලබන අතර, ප්රතිචාර ප්රමාදය (response latency) තත්පර 20ක ප්රධාන සේවා මට්ටමේ ඉලක්කය (20-second primary-path service-level target) අනුව. පහත රූබ්රික් සූත්රයේ නිවැරදි වෙන්කිරීම (decomposition) පෙන්වා ඇත.
ඉතිරි 0.88 ප්රතිශත ලකුණු ප්රමාණයේ හිස් ඉඩ (headroom) අතිශය බහුතර වශයෙන් latency loss වෙත විසිරෙයි — එක් එක් සංයුක්ත (composite) -0.05 බැගින් වූ Phase 2 fallback ආයාචන තුනක්, 0.88-ලකුණු හිඟයෙන් ආසන්න වශයෙන් 0.60ක් දායක විය — එය සායනික අන්තර්ගතයට නොවෙයි. එන්ජිමට පහලොස් දෙනාගෙන් කිසිදු නඩුවක නිවැරදි රෝග විනිශ්චය මගහැරුණේ නැත; එය අඩු වූ තැන, ආයාචන කිහිපයක සුළුතරයකදී ප්රධාන-path ඉලක්කය වන තත්පර 20ට වඩා තරමක් වැඩි කාලයක් ගෙනීමෙන් පමණි.
වෛද්ය විශේෂතා හතක් හරහා නඩු පහළොවක්
නඩු පැනලය විශේෂතා හතක් ආවරණය කරයි — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — මෙන්ම කැපවූ hyperdiagnosis trap නඩු දෙකක්ද. සෑම නඩුවක්ම ලිඛිත දැනුවත් එකඟතාවය යටතේ Kantesti සායනික දත්ත ගබඩාවෙන් ලබාගත් අනන්යතාව ඉවත් කළ සැබෑ රෝගියාගේ වාර්තාවකි.
අනන්යතාව ඉවත් කිරීම Safe Harbor ප්රවේශය යටතේ සිදු කරන ලදී: සියලුම සෘජු හඳුනාගැනීම් ඉවත් කර හෝ ප්රතිස්ථාපනය කරන ලද අතර, සෑම වාර්තාවකටම BT-NNN-LABEL ආකෘතියෙන් benchmark-internal case code එකක් පවරන ලදී. සැකසුම් කටයුතු සිදු කරන ලද්දේ GDPR Article 9(2)(j) විද්යාත්මක පර්යේෂණ සඳහා සුදුසු ආරක්ෂක පියවරයන් සමඟින්, සහ සමාන UK GDPR ප්රතිපාදන අනුවය. ප්රකාශයට පත් කරන ලද harness තුළ, තාක්ෂණික වාර්තාව තුළ, හෝ නිකුත් කරන ලද දත්ත කට්ටල තුළ කිසිදු පුද්ගලිකව හඳුනාගත හැකි තොරතුරක් දක්නට නොලැබේ.
මෙම විශේෂිත ව්යාප්තිය (distribution) තෝරාගත්තේ ඇයි
සත්ය ලෝක රසායනාගාර භාවිතයේ ඉහළ-පරිමාවක් ඇති උගුල් (microcytic differential) සහ උගුල් (macrocytic differential) යන දෙකම ඉහළම ප්රමාණයෙන් පවතින බැවින් Hematology සඳහා නඩු තුනක් ලැබේ. Hashimoto's, PCOS, සහ විටමින් D ඌනතාවය යන ප්රකාශන විවිධ රෝග-නිර්ණ හැඩයන් (ස්වයං ප්රතිදේහ මඟින් මෙහෙයවෙන, හෝමෝන අනුපාත මඟින් මෙහෙයවෙන, තනි-සලකුණු මඟින් මෙහෙයවෙන) අභ්යාස කරන්නේ නිසා Endocrinology සඳහා නඩු තුනක් ලැබේ. CKD, ASCVD අවදානම, සහ SLE යන සෑම එකක්ම තමන්ගේම ලකුණුකරණ ක්රමයක් ඇති බැවින් තනි-නඩු විශේෂතා තවමත් අර්ථවත්ය; එම එන්ජිම එය කැඳවිය යුතුය (පිළිවෙලින් KDIGO අදියර, ASCVD වසර 10 අවදානම, සහ 2019 EULAR/ACR SLE නිර්ණායක).
පෙර-ලියාපදිංචි කළ rubric එක පැහැදිලි කර ඇත
මෙම සම්මත පරීක්ෂණයේ (benchmark) වඩාත්ම වැදගත් ක්රමවේද තීරණය වන්නේ pre-registration එකයි. අපේක්ෂිත සෑම රෝග-නිර්ණයක්ම, සෑම සායනික ලකුණුකරණ ක්රමයක්ම, සහ සෑම වාර්තා කොටසක්ම මූලාශ්ර කේතයට (source code) බැඳී තිබුණි එන්ජිම කැඳවීමට පෙර. එබැවින් එන්ජිමට හිතකර ලෙස rubric එක පසු-අනුමාන (post-hoc) ලෙස සකස් කිරීම කළ නොහැක.
සංයුක්ත ලකුණ (composite score) සෑදෙන කොටස් තුනක් ඇත. ව්යුහාත්මක (structural) කොටස ලකුණු වලින් 35%ක් දායක වන අතර, එන්ජිම විසින් අනිවාර්ය වාර්තා කොටස් හත (header, summary, key findings, differential, scoring systems, recommendations, follow-up) සහ ඒවා තුළ ඇති අනිවාර්ය උපකොටස් දහසය (sixteen) ආපසු ලබා දුන්නේද යන්න මැනේ. ව්යුහාත්මක ගණනය තුළ කොටස් පැවැත්ම (section presence) 40%ක් බර දරන අතර උපකොටස් පැවැත්ම (subsection presence) 60%ක් බර දරයි.
එම සායනික (clinical) කොටස ලකුණු වලින් 55%ක් දායක වන අතර, දේවල් තුනක් එකතු කරයි: රෝග-නිර්ණ-කීවර්ඩ් මතකය (clinical උප-ලකුණේ 70%), ලකුණුකරණ-ක්රම මතකය (20% — එන්ජිම අදාළ විට Mentzer, FIB-4, HOMA-IR, ASCVD අවදානම, KDIGO අදියර, EULAR/ACR නිර්ණායක ගණනය කරනවාද යන්න), සහ සම්භාවිතා-එකතුව වලංගුතා පරීක්ෂාව (10% — differential සම්භාවිතා එකතුව [90, 110] පරාසය තුළ තිබිය යුතුය). උගුල් නඩු සඳහා, උපරිම 0.30 දක්වා පැහැදිලි hyperdiagnosis දඩුවමක් අඩු කරයි; එය ව්යාජ pathology flag එකකට 0.10 බැගින් ගණනය කර, උපරිම flag තුනකට සීමා කරයි.
එම ප්රමාද (latency) කොටස ලකුණු වලින් 10%ක් දායක වේ. ප්රතිචාරය තත්පර 20කට අඩු නම් සම්පූර්ණ 0.10 ලැබේ; තත්පර 40කට අඩු නම් 0.05 ලැබේ; ඊට වඩා මන්දගාමී ඕනෑම දෙයක් සඳහා ලකුණ 0 වේ. තත්පර 20 ඉලක්කය production primary-path සේවා මට්ටමේ අරමුණ (service-level objective) පිළිබිඹු කරයි; තත්පර 40 සීමාව heavy-engine කැඳවීම් සඳහා Phase 2 fallback අයවැය (budget) පිළිබිඹු කරයි.
pre-registration මඟින් වළක්වන දේ
පළමු-පාර්ශ්ව (first-party) benchmark සාමාන්යයෙන් post-hoc rubric tuning මඟින් තමන්ගේම අංක ඉහළ දමන බව ප්රසිද්ධ අසාර්ථක ක්රමයකි. එම රටාව බොහෝ විට එකම ආකාරයෙන්ම වේ: කණ්ඩායම එන්ජිම ධාවනය කර, අඩු කාර්ය සාධනයක් ඇති තැන් දකින අතර, පසුව නිහඬව rubric එක සකස් කරන්නේ අඩු කාර්ය සාධනයක් ඇති ප්රදේශවලට ලකුණු අඩුවෙන් ගණන් වීමටය. පළමු එන්ජිම කැඳවීමට පෙර rubric එක source code එකට බැඳීමෙන් සහ MIT බලපත්රය (licence) යටතේ harness එක ප්රකාශයට පත් කිරීමෙන්, එම සකස් කිරීම version control තුළ දෘශ්යමාන වේ. ඕනෑම කෙනෙකුට repository එක clone කර, rubric author dates පරීක්ෂා කර, එන්ජිම ප්රතිඵල ලකුණුකරණය හැඩගැස්වීමට භාවිතා නොකළ බව තහවුරු කළ හැක.
අධි-රෝග නිර්ණාත්මක උගුල් නඩු — අධික ලෙස ඇමතීම (over-calling) සැබෑ අසාර්ථකත්ව මාදිලිය වන්නේ ඇයි
සාමාන්ය තිර (normal screens) මත pathology එක අධික ලෙස (aggressively) හඳුනාගැනීම consumer-facing වෛද්ය සහායකයන් සඳහා ලේඛනගත අසාර්ථක ක්රමයකි. එහි පසු-ඵල (downstream) වියදම් අතර අනවශ්ය පරීක්ෂණ, රෝගියාගේ කනස්සල්ල, සහ iatrogenic (වෛද්යමය හේතුක) පරීක්ෂණ/ප්රතිකාර ඇතුළත් වේ. මෙම benchmark හි ඇති උගුල් නඩු දෙක එම අසාර්ථක ක්රමය දෘශ්යමාන කර ලකුණු කළ හැකි ලෙස නිර්මාණය කර ඇත.
🟡 උගුල් 1 — BT-014-GILBERT
ප්රකාශනය (Presentation). මුළු bilirubin 2.4 mg/dL ඇති වයස අවුරුදු 24 පිරිමි. direct කොටස සාමාන්යයි; transaminases සහ alkaline phosphatase ඒවායේ යොමු පරාසයන් තුළ ඇත; reticulocytes අසාමාන්ය නොවේ; සහ haptoglobin හා LDH මඟින් haemolysis බැහැර කරයි.
නිවැරදි අර්ථකථනය (Correct interpretation). Gilbert's syndrome — සෞම්ය UGT1A1 polymorphism එකක්. අර්ථකථනය hepatitis, cirrhosis, haemolytic anaemia, හෝ biliary obstruction කැඳවිය යුතු නැත.
V11 ප්රතිඵලය. සංයුක්ත 1.000. නිරීක්ෂණය කළ අධි-රෝග-නිර්ණ (over-diagnosis) flag හයක්ම සක්රීය රෝග-නිර්ණ ලෙස නොපැමිණි.
🟡 උගුල් 2 — BT-015-HEALTHY
ප්රකාශනය (Presentation). පරාමිතීන් පහළොවකින් (fifteen-parameter) යුතු සාමාන්ය පරීක්ෂණ (routine screening) පැනලයක් ඇති වයස අවුරුදු 35 ක කාන්තාවක්. සෑම analyte එකක්මම තමන්ගේ යොමු පරාසය තුළ සුවපහසු ලෙස පිහිටා ඇත.
නිවැරදි අර්ථකථනය (Correct interpretation). සහතික කිරීම සහ ජීවන රටා නඩත්තුව. අර්ථකථනය මගින් සායනික වශයෙන් ප්රයෝජනවත් බව පෙනෙන ලෙස දේශසීමා ආශ්රිත ව්යාධි නිර්මාණය නොකළ යුතුය.
V11 ප්රතිඵලය. සංයුක්ත 1.000. නිරීක්ෂණය කළ අධි-රෝග නිර්ණය අනතුරු ඇඟවීම් හතෙන් කිසිවක් — දියවැඩියාව, රක්තහීනතාවය, තයිරොයිඩ් ක්රියාකාරිත්ව අඩුවීම, ඩිස්ලිපිඩීමියා, හෙපටයිටිස්, වකුගඩු රෝගය, ඌනතාවය — සක්රීය රෝග නිර්ණ ලෙස නොපැමිණියේය.
කූඩ දෙකම ආවරණය කරමින් නිරීක්ෂණය කළ අධි-රෝග නිර්ණය අනතුරු ඇඟවීම් 13ක් පරීක්ෂා කරන ලදී. කිසිවක් ක්රියාත්මක නොවීය. ත්රයජ් (triage) හෝ උපදේශනයට පෙර මෙවලමක් ලෙස AI එන්ජිමක් භාවිතා කිරීමට සලකා බලන ඕනෑම වෛද්යවරයෙකුට වැදගත්ම ප්රතිඵලය මෙයයි: පද්ධතියක් කිසිවක් නොතිබූ තැන රෝගයක් නිර්මාණය කළේ නැත.
මෙන්ට්ဇර් දර්ශකය (Mentzer index): යකඩ ඌනතාවය තැලසීමියා ලක්ෂණයෙන් (thalassaemia trait) වෙන් කිරීම
දෙවන ඉහළ වටිනාකමක් ඇති සොයාගැනීමක් වන්නේ BT-001 (යකඩ ඌන රක්තහීනතාවය) නඩුව BT-007 (බීටා-තැලසීමියා සුළු) සමඟ යුගල වීමයි. දෙකම මයික්රොසයිටෝසිස් (microcytosis) සමඟ පෙනී සිටින අතර, අද්දැකීම් අඩු වර්ගීකරණ යන්ත්ර සඳහා හොඳින් දන්නා බාධකයක් වේ. මෙන්ට්සර් දර්ශකය (Mentzer index) — RBC ගණනෙන් MCV බෙදීම ලෙස ගණනය කරන — යකඩ ඌනතාවයේදී 13ට වඩා වැඩි වන අතර තැලසීමියා ලක්ෂණයේදී 13ට අඩු වේ.
BT-001 හිදී රෝගියා වයස අවුරුදු 34ක් වූ කාන්තාවක් වූ අතර, හීමොග්ලොබින් 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ෆෙරිටින් 6 ng/mL, සහ ඉහළ TIBC තිබුණි. මෙන්ට්සර් දර්ශකය ආසන්න වශයෙන් 17.7 වීමෙන් නිරපේක්ෂ යකඩ ඌනතාවය තහවුරු වේ. BT-007 හිදී රෝගියා වයස අවුරුදු 28ක් වූ පිරිමියෙක් වූ අතර, මයික්රොසයිටෝසිස් (MCV 65.8 fL) තිබුණද RBC ගණන 6.2ක් ලෙස ඉහළය, RDW සාමාන්යය, ෆෙරිටින් සාමාන්යය, සහ HbA2 5.6 ප්රතිශතයක් විය. මෙන්ට්සර් දර්ශකය ආසන්න වශයෙන් 10.6 වීමෙන් තැලසීමියා ලක්ෂණය පෙන්නුම් කරන අතර, ඉහළ HbA2 මගින් බීටා-තැලසීමියා සුළු බව තහවුරු වේ.
2ම නඩු දෙකම ලකුණු 1.000 ලබා ගත්තේය. එන්ජිම මෙන්ට්සර් දර්ශකය දෙවෙනි අර්ථකථන දෙකෙහිම පැහැදිලිව භාවිතා කර ඇති අතර, සෑම අවස්ථාවකම නිවැරදි රෝග නිර්ණය ලබා දුන්නේය. මෙය සම්පූර්ණ බෙන්ච්මාර්කයේ ඇති එකම වඩාත්ම සායනිකව සහතික කරන ප්රතිඵලයයි, මන්ද තැලසීමියා ලක්ෂණය යකඩ ඌනතාවය ලෙස වැරදි ලෙස වර්ගීකරණය කිරීමෙන් අනිසි යකඩ අතිරේක ලබාදීම සහ පවුල්-පරීක්ෂා කිරීමේ අවස්ථා මගහැරීම සිදුවන අතර, යකඩ ඌනතාවය තැලසීමියා ලෙස වැරදි ලෙස වර්ගීකරණය කිරීමෙන් සරල ප්රතිස්ථාපන ප්රතිකාරය ප්රමාද වේ. අපගේ ferritin පරාසය මාර්ගෝපදේශය පුළුල් වෙනස්කාරක (differential) සන්දර්භය පැහැදිලි කරයි.
2026 අප්රේල් ධාවනයෙන් ලැබුණු එක් එක් නඩුව සඳහා ප්රතිඵල
පළමු මාර්ගයේ ප්රධාන (primary) මාර්ගයේ නඩු 15න් 12ක් උපරිම සංයුක්ත ලකුණු 1.000 ලබා ගත්හ. නඩු 3ක් Phase 2 fallback මගින් සපයන ලදී; එහිදී සියලුම සායනික හා ව්යුහාත්මක අන්තර්ගතය රැකගනිමින් 0.05 latency bonus අහිමි විය. එක් නඩුවක එක් අනිවාර්ය උපවගන්තියක් නොතිබුණි; තවත් නඩුවක සුළු වශයෙන් අඩු කරන ලද සම්භාවිතා ව්යාප්ති එකතුවක් (probability distribution sum) ආපසු ලැබුණි.
PCOS නඩුව (BT-008) ප්රතිචාර ව්යුහයේ එක් අනිවාර්ය උපවගන්තියක් අහිමි කරගත්තේය — 16න් 16 වෙනුවට 16න් 15 — එමඟින් ව්යුහාත්මක ලකුණු 1.000 සිට 0.963 දක්වා අඩු විය. SLE නඩුව (BT-011) සෑම රෝග-නිර්ණායන මූල පදයක්ම සහ ලකුණුකරණ ක්රමයම ආරක්ෂා කරමින්, සායනික ලකුණු 0.965 දක්වා පහත හෙළූ සුළු වශයෙන් අඩු වූ සම්භාවිතා-විතරණ එකතුවක් ලබා දුන්නේය. උප-පරිපූර්ණ නඩු දෙකෙන් කිසිවක් නිවැරදි රෝග-නිර්ණායනයක් මඟ හැරියේ නැත.
ප්රධාන ලකුණු (headline score) අපට නොකියන දේ
මෙම විශේෂයෙන් පෙර-ලියාපදිංචි කර ඇති මෙම රූබ්රික් යටතේ 99.12% ක සංයුක්ත ලකුණක් යනු සිවිලිමට ආසන්න කාර්යසාධනයකි, නමුත් එය ප්රවේශමෙන් සන්දර්භගත කළ යුතුය. මෙම ප්රතිඵලය විස්තර කරන්නේ, එක් වරක් බැගින් ඇගයූ, හොඳින් තෝරාගත් නිර්නාමික නඩු පහළොවක් (fifteen) එරෙහිව එන්ජිම ක්රියා කළ ආකාරයයි; එය එක් රූබ්රික් එකකට එරෙහිවයි. මෙම අංකය මගින් තහවුරු වන්නේ කුමක්ද සහ තහවුරු නොවන්නේ කුමක්ද යන්න අපි පැහැදිලිව කියන්නෙමු.
ලකුණෙන් කියවෙන්නේ V11 එන්ජිම මෙම ඇගයීම සඳහා තෝරාගත් රෝග-නිර්ණායන රටා නිවැරදිව හැසිරවූ බවයි; එය ප්රකාශයට පත් කර ඇති සහ නැවත නිෂ්පාදනය කළ හැකි ක්රමවේදයක් මතය. එන්ජිම ලෝකයේ පවතින සෑම රුධිර පරීක්ෂණ පැනලයක්ම සඳහා නිවැරදි බව එයින් කියන්නේ නැත. එන්ජිම වෛද්යවරයාගේ තීරණය වෙනුවට ආදේශ කළ යුතු බව එයින් කියන්නේ නැත. තවද, වෙනත් AI පද්ධතිවලට වඩා එන්ජිම ඉදිරියෙන්ද යන්න එයින් කියන්නේ නැත — වෙනත් එන්ජින් සමඟ සංසන්දනාත්මක විශ්ලේෂණ මෙම වාර්තාව සඳහා හිතාමතාම සීමාවෙන් බැහැර කර තිබුණි.
ලකුණෙන් තහවුරු වන්නේ පදනමක් (baseline) බවයි. රූබ්රික් සහ හාර්නස් (harness) ප්රසිද්ධ බැවින්, එන්ජිමේ අනාගත අනුවාදයන් එමම නඩු පහළොවට (fifteen) එරෙහිව ඇගයිය හැකි අතර, ප්රකාශිත ලකුණ සහ ඕනෑම පසුව ක්රියාත්මක කිරීමක් අතර ඇති පරතරයද මැනිය හැකිය. පෙර-ලියාපදිංචි කිරීමේ වටිනාකම මෙයයි: එය කාර්යසාධන ප්රකාශයන් පරීක්ෂා කළ හැකි ප්රකාශයන් බවට පත් කරයි.
මිනිත්තු 10ක් තුළ මෙම සම්මතය (benchmark) නැවත නිර්මාණය කරන්නේ කෙසේද
නැවත නිෂ්පාදනය සඳහා අවශ්ය වන්නේ Kantesti API අක්තපත්ර යුගලයක් පමණක් සහ Python 3.10 හෝ ඊට පසු පරිසරයක් සමඟින් requests සහ reportlab පුස්තකාල ස්ථාපනය කර තිබීමයි. සම්පූර්ණ හාර්නස් එකම MIT බලපත්රය යටතේ නිකුත් කරන ලද තනි ස්වයං-අඩංගු Python මොඩියුලයකි.
නව ධාවනයක් සඳහා පියවර හතරක්
එක. රිපොසිටරිය ක්ලෝන් කරන්න: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. දෙක. අවශ්යතා ස්ථාපනය කරන්න pip install -r requirements.txt. තුන. සකසන්න KANTESTI_USERNAME සහ KANTESTI_PASSWORD පරිසර විචල්යයන් ලෙස — අක්තපත්ර (credentials) ක්රියාත්මක වන අවස්ථාවේදී කියවෙන අතර, ස්ක්රිප්ට් තුළ කිසිවක් දෘඪකේතනය (hard-code) කර නැත. හතර. ක්රියාත්මක කරන්න python benchmark_bloodtest.py සහ වැඩ කරන නාමාවලියට නිකුත් වන artefacts හතර පරීක්ෂා කරන්න: CSV scorecard එකක්, JSON scorecard එකක්, raw engine responses ඇතුළත් සම්පූර්ණ JSON dump එකක්, සහ මිනිසාට කියවිය හැකි Markdown වාර්තාවක්.
2026 අප්රේල් 23 දින සිට වූ reference run එක repository හි results/ නාමාවලිය තුළ සුරක්ෂිත කර ඇත. නව run එකක් නව timestamp සහිත scorecard එකක් නිපදවනු ඇත; reference run එක නොවෙනස්ව පවතිනු ඇත. ඔබගේ run එකෙන් අර්ථවත් ලෙස වෙනස් ප්රතිඵලයක් ලැබෙන්නේ නම්, run timestamp එක සහ response metadata තුළ ආපසු ලැබූ engine version එක සමඟ GitHub issue එකක් විවෘත කරන්න.
සීමාවන් සහ අනාගත කටයුතු
සීමාවන් හතරක් පැහැදිලිව පිළිගැනීම ලැබිය යුතුය: sample size, single-shot evaluation, single-engine scope, සහ single-source data origin. මේවායින් එක් එක්කක් සක්රීයව අනුගමන කටයුතු මගින් විසඳෙමින් පවතී.
Sample size. විශේෂතා bucket අටක් හරහා නඩු පහළොවක් (fifteen cases) proof of concept සඳහා ප්රමාණවත් නමුත් විශේෂතාවක් තුළ subgroup විශ්ලේෂණය සඳහා ප්රමාණවත් නොවේ. නඩු පනහක් දක්වා පුළුල් කිරීම සැලසුම් කර ඇති අතර එයට coagulation panels, haematological malignancy screening, pregnancy panels, සහ ළමා (paediatric) ඉදිරිපත් කිරීම් ඇතුළත් වනු ඇත.
Single-shot evaluation. සෑම නඩුවක්ම එක් වරක් පමණක් ඇගයීමට ලක් විය. sampling temperature අඩු වුවද large language models තුළ වැදගත් output variance එකක් පවතින බැවින්, එක් නඩුවකට ඇගයීම් පහක් සහ වාර්තා කළ variance එකක් සහිත multi-run protocol එකක් ස්වභාවික ඊළඟ පියවරකි.
Single-engine scope. මෙම වාර්තාව එක් engine එකක් පමණක් විස්තර කරයි. විකල්ප AI පද්ධති සමඟ සංසන්දනාත්මක විශ්ලේෂණයන් මෙහි scope එකට අයත් නොවේ; ඒවා අපට සුදුසු ක්රමවේදයක් සහිත වෙනම ස්වාධීන අධ්යයනයක් ලෙස අනුගමනය කළ හැක.
Single-source data origin. නඩු පහළොව (fifteen cases) එකම සායනික repository එකකින් ලබාගත් anonymised සැබෑ රෝගී වාර්තා වේ. මේවා curated sample එකක් වන අතර ජනගහනය-නියෝජිත (population-representative) අහඹු තෝරාගැනීමක් නොවේ. ඇගයීම multi-centre දත්ත වෙත පුළුල් කිරීම roadmap එකේ ඇත.
වඩාත්ම බලපෑමක් ඇති සැලසුම් කළ පුළුල් කිරීම multi-language parity වේ. Kantesti AI Engine එක 75+ භාෂාවලින් පරිශීලකයන්ට සේවය සපයයි, සහ තුර්කි, ජර්මන්, ස්පාඤ්ඤ, ප්රංශ, සහ අරාබි භාෂාවලින් එකම නඩු පහළොවක harness එක ක්රියාත්මක කිරීමෙන් engine එක සහාය දක්වන භාෂා හරහා output quality ප්රමාණනය කරනු ඇත. අපි එක් එක් භාෂාවට අදාළ run එක එහිම DOI එකක් සහ harness branch එකක් සමඟ ප්රකාශයට පත් කරන්නෙමු.