ဒီ benchmark က ဘာကြောင့်ရှိပြီး ဘာကို စမ်းသပ်တာလဲ

AI-assisted blood test interpretation ကို စားသုံးသူနှင့် ဆေးဘက်ဆိုင်ရာ လုပ်ငန်းစဉ်များတွင် ပိုမိုအသုံးများလာနေသော်လည်း ဓာတ်ခွဲခန်းဆေးပညာနှင့် ကိုက်ညီအောင် ပြန်လည်စမ်းသပ်နိုင်သည့် အကဲဖြတ်ရေးဘောင်များမှာ မကြာခဏ မတွေ့ရသေးပါ။ ဒီအခြေအနေမှာ အရေးကြီးဆုံး မေးခွန်းတွေက အထွေထွေ ဆေးဘက်ဆိုင်ရာ မေးခွန်း-ဖြေကြား benchmark တွေမှာ ပါဝင်ထားတာတွေ မဟုတ်ပါ— mean corpuscular volume တူညီနေချိန်မှာ engine က iron deficiency ကို thalassaemia trait နဲ့ ခွဲနိုင်မလား၊ hepatitis လိုမျိုးနဲ့ Gilbert's syndrome ကို over-diagnose လုပ်မလား၊ ပုံမှန်အပြည့်အဝ screening panel တစ်ခုထဲမှာ pathology ကို ဖန်တီးထုတ်လုပ်မလားဆိုတာလား။

Kantesti AI Engine ကို အေးခဲထားသော ရမှတ်သတ်မှတ်ချက်များနှင့် မည်သို့ စစ်ဆေးအကဲဖြတ်ထားကြောင်း ပြသသည့် ကြိုတင်မှတ်ပုံတင်ထားသော rubric flow diagram
ပုံ ၁: benchmark architecture — case တစ်ခုစီ၊ keyword တစ်ခုစီ၊ scoring system တစ်ခုစီကို engine က PDF တစ်ခုတည်းကို မမြင်ခင် source code ထဲမှာပဲ သတ်မှတ်ထားပြီးဖြစ်သည်။ ဒီဇိုင်းအရ post-hoc rubric tuning မဖြစ်နိုင်ပါ။.

သွေးစစ်ဆေးမှု အကွက်တစ်ခုတည်း (blood test panel) မှာ ပုံမှန်အားဖြင့် အဓိပ္ပာယ်ဖွင့်ဆိုချက် အများအပြားကို ထောက်ပံ့နိုင်လောက်တဲ့ အချက်အလက် (signal) တွေ ပါဝင်တတ်ပြီး၊ အဓိပ္ပာယ်ဖွင့်ဆိုပေးမယ့် ဆေးဘက်ဆိုင်ရာ ကျွမ်းကျင်သူရဲ့ အလုပ်က စာအုပ်ထဲက အဖြေတစ်ခုကို ပြန်ရှာတာထက် အဲဒီအဓိပ္ပာယ်ဖွင့်ဆိုချက်တွေကို တစ်ခုနဲ့တစ်ခု ယှဉ်ပြီး အလေးချိန်ချိန်ရန် ဖြစ်ပါတယ်။ စာအုပ်ထဲက အခြေအနေတွေမှာ ကောင်းကောင်းလုပ်နိုင်တဲ့ အင်ဂျင်တစ်ခုက အရေးကြီးဆုံးဖြစ်တဲ့ အခြေအနေတွေမှာတော့ ပျက်ကွက်နိုင်ပါတယ်—ကွဲပြားရောဂါရှာဖွေမှု (differential-diagnosis) ထောင်ချောက်တွေ၊ တစ်ခုတည်းအနေနဲ့ ကြည့်ရင် စိုးရိမ်စရာလို ထင်ရပေမယ့် အန္တရာယ်မရှိတဲ့ မျိုးကွဲများ (benign variants)၊ နဲ့ အပြည့်အဝ ပုံမှန် (fully normal) အကွက်တွေကနေ ယုံကြည်စိတ်ချစွာ လက်ထောက်တွေကို ရောဂါလက္ခဏာတု (manufacturing pathology) ဖန်တီးစေတဲ့အရာတွေပါဝင်ပါတယ်။.

ဒီ benchmark ကို အဲဒီလို ပျက်ကွက်နိုင်တဲ့ ပုံစံတွေကို အတိအကျ အခြေခံပြီး တည်ဆောက်ထားပါတယ်။ Case (၁၅) ခုစီကို သီးခြား ရောဂါရှာဖွေရေး ဂုဏ်သတ္တိတစ်ခုအတွက် ရွေးချယ်ထားပါတယ်—တူညီတဲ့ mean corpuscular volume (MCV) ရှိတဲ့ beta-thalassaemia trait နဲ့ ခွဲခြားထားရမယ့် iron-deficient microcytosis၊ ပုံမှန်မဟုတ်မှု တစ်ခုတည်းသာ ဖြစ်တဲ့ isolated indirect hyperbilirubinaemia ပါဝင်တဲ့ Gilbert's syndrome ပုံစံ၊ နဲ့ analyte တစ်ခုချင်းစီက reference range အတွင်းမှာပဲ ရှိနေတဲ့ fifteen-parameter screening panel တစ်ခု။ rubric က case တစ်ခုချင်းစီကို ကိုယ်ပိုင်အခြေအနေအရ ဖတ်တတ်တဲ့ engine တွေကို ဆုချပြီး၊ အဲဒီလို ရောဂါရှာဖွေမှုမျိုး မလိုအပ်တဲ့နေရာမှာ ယုံကြည်စိတ်ချစွာ ရောဂါရှာဖွေမှုတစ်ခုကို ဆွဲယူသွားတဲ့ engine တွေကို ဒဏ်ခတ်ပါတယ်။.

MD ဖြစ်သူ Thomas Klein အနေနဲ့၊ ဒီ case panel ကို ကျွန်တော်ရွေးချယ်ခဲ့တာက—laboratory-medicine လက်ထောက်တွေက အများဆုံး မှားတတ်တဲ့ ပုံစံတွေက ဒီလိုပဲ ဖြစ်လို့ပါ။. အကုန်အကျများတဲ့ ပျက်ကွက်မှုက "ရှားပါးရောဂါတစ်ခုကို လွတ်သွားခြင်း" မဟုတ်ပါ—အဲဒီလို မရှိတဲ့ လူနာတွေမှာ ပုံမှန်ဖြစ်တတ်တဲ့ ရောဂါလက္ခဏာ (routine pathology) ကို တီထွင်ဖန်တီးခြင်း (fabricating) ဖြစ်ပါတယ်။. ကျွန်တော်တို့ရဲ့ ဆေးဘက်ဆိုင်ရာအတည်ပြုချက် hub က ပိုကျယ်တဲ့ framework ကို ဖော်ပြထားပါတယ်၊ ဒီစာမျက်နှာကတော့ V11 engine ပေါ်မှာ အသုံးချရလဒ် (applied result) ကို ဖော်ပြထားပါတယ်။.

နောက်ဆုံးရည်ညွှန်း run — V11 (၂၀၂၆ ခုနှစ် ဧပြီလ)

Kantesti AI Engine V11 ရဲ့ 2026 ခုနှစ် ဧပြီလ reference run မှာ composite score တစ်ခု ထွက်ခဲ့ပါတယ်။ 99.12% pre-registered fifteen-case rubric အပေါ်မှာ။ hyperdiagnosis trap case နှစ်ခုစလုံးက ceiling အထိ ရမှတ်ရခဲ့ပါတယ်။ Mentzer index ကို iron-deficiency နှင့် thalassaemia အကြား ကွဲပြားရောဂါရှာဖွေမှု (differential) မှာ မှန်ကန်စွာ အသုံးချထားပါတယ်။.

Composite 99.12% 15/15 case များ ရမှတ်ရ
0.998 Structural score
0.998 Clinical score
20.17 s ပျမ်းမျှ latency
0 / 13 Trap false-positives

composite ဖော်မြူလာက အစိတ်အပိုင်း (၃) ခုကို ပေါင်းစပ်ထားပါတယ်— structural conformance မဖြစ်မနေ report sections (၇) ခုနဲ့ မဖြစ်မနေ subsections (၁၆) ခုတို့နဲ့ ကိုက်ညီမှု၊, clinical accuracy keyword recall + scoring-system recall + probability-distribution validity check အဖြစ် တိုင်းတာထားပြီး၊ response latency ၂၀ စက္ကန့် အဓိက service-level target ကို ဆန့်ကျင်ပြီး (against)။ အတိအကျ ခွဲထုတ်ပြထားတာကို အောက်က rubric formula မှာ ပြထားပါတယ်။.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

ကျန်ရှိနေသည့် ခေါင်းခန်း (headroom) 0.88 ရာခိုင်နှုန်းအမှတ်များသည် အများအားဖြင့် latency loss အဖြစ်သာ ခွဲထွက်သွားသည်—Phase 2 fallback ခေါ်ဆိုမှု သုံးကြိမ်စီ (တစ်ခုချင်းစီ၏ ပေါင်းစပ်တန်ဖိုးမှာ minus 0.05) သည် 0.88-point ချို့တဲ့မှု၏ 0.60 ခန့်ကို ပံ့ပိုးခဲ့သည်—ဆေးဘက်ဆိုင်ရာ အကြောင်းအရာထဲသို့ မဝင်ဘဲ ဖြစ်သည်။ အင်ဂျင်သည် အမှု ၁၅ ခုလုံးတွင် မှန်ကန်သော ရောဂါရှာဖွေမှုကို မလွဲချော်ခဲ့ပါ။ လိုအပ်ချက်နည်းနည်းလျော့သွားသည့်နေရာတွင်မူ၊ invocations အနည်းငယ်သာရှိသည့် အချို့တွင် 20 စက္ကန့် အဓိက-path ပစ်မှတ်ထက် အနည်းငယ်ပိုကြာအောင် လုပ်ဆောင်ခြင်းကြောင့်သာ ဖြစ်သည်။.

ဆေးဘက်ဆိုင်ရာ အထူးပြု ခုနစ်မျိုးအတွင်းမှ အမှုကိစ္စ ဆယ့်ငါးခု

အမှုအဖွဲ့ (case panel) တွင် အထူးပြု ၇ ခု ပါဝင်သည်—သွေးရောဂါဗေဒ (hematology)၊ အတွင်းဂလင်းရောဂါဗေဒ (endocrinology)၊ ဇီဝဖြစ်စဉ်ဆိုင်ရာ ဆေးပညာ (metabolic medicine)၊ အသည်းရောဂါဗေဒ (hepatology)၊ ကျောက်ကပ်ရောဂါဗေဒ (nephrology)၊ နှလုံးရောဂါဗေဒ (cardiology)၊ အဆစ်အမြစ်ရောင်ရောဂါဗေဒ (rheumatology)—အပြင် hyperdiagnosis trap အတွက် သီးသန့် အမှု ၂ ခုလည်း ပါသည်။ အမှုတစ်ခုစီသည် သဘောတူညီချက်ဖြင့် ရေးသားထားသော informed consent အောက်တွင် Kantesti clinical data repository မှ ထုတ်ယူထားသည့် anonymised အမှန်တကယ် လူနာမှတ်တမ်းတစ်ခုဖြစ်သည်။.

ဆေးဘက်ဆိုင်ရာ အထူးကု ခုနစ်ခုအတွင်း ဖြန့်ဝေထားသည့် မျက်နှာဖုံးဖယ်ထားသော သွေးစစ်ဆေးမှု အမှုကိစ္စ ၁၅ ခု၏ coverage map နှင့် hyperdiagnosis trap အမှုကိစ္စများ
ပုံ ၂: သွေးရောဂါဗေဒ၊ အတွင်းဂလင်းရောဂါဗေဒ၊ ဇီဝဖြစ်စဉ်ဆိုင်ရာ ဆေးပညာ၊ အသည်းရောဂါဗေဒ၊ ကျောက်ကပ်ရောဂါဗေဒ၊ နှလုံးရောဂါဗေဒ၊ အဆစ်အမြစ်ရောင်ရောဂါဗေဒ—အပြင် trap အမှု ၂ ခု—Gilbert's syndrome နှင့် အပြည့်အဝ ပုံမှန် screening panel တို့အကြား အမှုဖြန့်ဝေမှု။.

De-identification ကို Safe Harbor ချဉ်းကပ်နည်းဖြင့် ဆောင်ရွက်ခဲ့သည်—တိုက်ရိုက်သတ်မှတ်နိုင်သော အချက်အလက်များအားလုံးကို ဖယ်ရှားခြင်း သို့မဟုတ် အစားထိုးခြင်းပြုလုပ်ပြီး၊ မှတ်တမ်းတစ်ခုစီကို BT-NNN-LABEL ပုံစံဖြင့် benchmark-internal case code တစ်ခု သတ်မှတ်ပေးခဲ့သည်။ လုပ်ဆောင်မှုကို အောက်ပါအတိုင်း ဆောင်ရွက်ခဲ့သည် GDPR Article 9(2)(j) သက်ဆိုင်ရာ ကာကွယ်ရေးအစီအမံများနှင့်အတူ သိပ္ပံဆိုင်ရာ သုတေသနအတွက်၊ နှင့် UK GDPR ၏ သက်ဆိုင်ရာ ပြဋ္ဌာန်းချက်များအတိုင်းလည်း ဖြစ်သည်။ ထုတ်ဝေထားသော harness၊ နည်းပညာဆိုင်ရာ အစီရင်ခံစာ၊ သို့မဟုတ် ထုတ်လွှတ်ထားသော dataset များတွင် ကိုယ်ရေးကိုယ်တာကို သတ်မှတ်နိုင်သော အချက်အလက်များ မည်သည့်နေရာတွင်မျှ မပါဝင်ပါ။.

သွေးရောဂါဗေဒ (3) BT-001၊ BT-006၊ BT-007 သံဓာတ်ချို့တဲ့ သွေးအားနည်းခြင်း · B12 ချို့တဲ့ခြင်း · Beta-thalassaemia minor
အတွင်းဂလင်းရောဂါဗေဒ (3) BT-002၊ BT-008၊ BT-012 Hashimoto's thyroiditis · အင်ဆူလင်ခုခံမှုနှင့်အတူ PCOS · ဗီတာမင်ဒီ ပြင်းထန်စွာ ချို့တဲ့ခြင်း
ဇီဝဖြစ်စဉ် (2) BT-003၊ BT-013 metabolic syndrome နှင့်အတူ T2DM · gout အန္တရာယ်နှင့်အတူ Hyperuricaemia
အသည်းရောဂါဗေဒ (2) BT-004၊ BT-009 NAFLD / NASH · စူးရှသော ဗိုင်းရပ်စ်အသည်းရောင်ရောဂါ
ကျောက်ကပ်ရောဂါဗေဒ · နှလုံးရောဂါဗေဒ · အဆစ်အမြစ်ရောင်ရောဂါဗေဒ (3) BT-005၊ BT-010၊ BT-011 CKD အဆင့် 3 · Atherogenic dyslipidaemia · Systemic lupus erythematosus
Trap အမှုများ (2) BT-014၊ BT-015 Gilbert's syndrome (သီးခြား indirect hyperbilirubinaemia) · အရွယ်ရောက်ပြီးသူ screen အပြည့်အဝ ပုံမှန်

ဒီဖြန့်ဝေမှုကို အဘယ်ကြောင့် အထူးသဖြင့် ရွေးချယ်ထားတာလဲ

သွေးဗေဒပညာရပ်တွင် အမှု ၃ ခုရရှိသည်မှာ microcytic ကွဲပြားမှုများနှင့် macrocytic ကွဲပြားမှုများသည် လက်တွေ့ဓာတ်ခွဲခန်းလုပ်ငန်းတွင် အများဆုံး “trap” ဖြစ်သောကြောင့်ဖြစ်သည်။ အာရုံကြောဆိုင်ရာ/ဟော်မုန်းဆိုင်ရာပညာရပ်တွင် အမှု ၃ ခုရရှိသည်မှာ Hashimoto's၊ PCOS နှင့် ဗီတာမင်ဒီ ချို့တဲ့ခြင်း တင်ပြပုံများသည် မတူညီသော ရောဂါရှာဖွေမှုပုံစံများကို လေ့ကျင့်ပေးသောကြောင့်ဖြစ်သည် (autoantibody-driven၊ hormone-ratio-driven၊ single-marker-driven)။ CKD၊ ASCVD risk နှင့် SLE တို့တွင် တစ်ခုစီအတွက် သီးသန့်အမှုတစ်ခုသာရှိသော်လည်း အဓိပ္ပါယ်ရှိနေသေးသည်။ အကြောင်းမှာ အင်ဂျင်က ခေါ်သုံးရမည့် ကိုယ်ပိုင် အမှတ်ပေးစနစ်တစ်ခုစီရှိသောကြောင့်ဖြစ်သည် (အသီးသီး KDIGO staging၊ ASCVD 10-year risk၊ 2019 EULAR/ACR SLE criteria)။.

ကြိုတင်မှတ်ပုံတင်ထားသော rubric ကို ရှင်းပြချက်

ကြိုတင်မှတ်ပုံတင်ခြင်း (pre-registration) သည် ဤ benchmark တွင် အရေးကြီးဆုံး နည်းလမ်းပိုင်းဆိုင်ရာ ရွေးချယ်မှုတစ်ခုဖြစ်သည်။ မျှော်မှန်းထားသည့် ရောဂါရှာဖွေမှုတိုင်း၊ ဆေးခန်းအမှတ်ပေးစနစ်တိုင်း၊ နှင့် အစီရင်ခံစာ အပိုင်းတိုင်းကို source code ထဲသို့ ကြိုတင်ကတိပြုထားပြီးဖြစ်သည် အင်ဂျင်ကို မခေါ်မီ. ဖြစ်သောကြောင့်။ အင်ဂျင်ကို ချီးမြှောက်စေမည့် rubric ကို post-hoc ချိန်ညှိခြင်းမှာ ထို့ကြောင့် မဖြစ်နိုင်ပါ။.

ပေါင်းစပ်အမှတ် (composite score) ကို အစိတ်အပိုင်း ၃ ခုဖြင့် ဖွဲ့စည်းထားသည်။ structural component သည် ၃၅ ရာခိုင်နှုန်း ပံ့ပိုးပြီး အင်ဂျင်သည် မဖြစ်မနေ အစီရင်ခံစာ အပိုင်း ၇ ခု (header၊ summary၊ key findings၊ differential၊ scoring systems၊ recommendations၊ follow-up) နှင့် ၎င်းတို့အတွင်းရှိ မဖြစ်မနေ အပိုင်းခွဲ ၁၆ ခုကို ပြန်ပေးခဲ့/မပေးခဲ့ကို တိုင်းတာသည်။ အပိုင်းရှိ/မရှိ (Section presence) သည် structural တွက်ချက်မှုအတွင်း ၄၀ ရာခိုင်နှုန်း အလေးချိန်ရှိပြီး အပိုင်းခွဲရှိ/မရှိ (subsection presence) သည် ၆၀ ရာခိုင်နှုန်း အလေးချိန်ရှိသည်။.

ဟိ clinical component သည် ၅၅ ရာခိုင်နှုန်း ပံ့ပိုးပြီး အရာ ၃ ခုကို ပေါင်းစပ်ထားသည်—ရောဂါရှာဖွေမှု-သော့ချက်စာလုံး ပြန်ခေါ်နိုင်မှု (clinical sub-score ၏ ၇၀ ရာခိုင်နှုန်း)၊ scoring-system ပြန်ခေါ်နိုင်မှု (၂၀ ရာခိုင်နှုန်း—သက်ဆိုင်ရာနေရာများတွင် အင်ဂျင်သည် Mentzer၊ FIB-4၊ HOMA-IR၊ ASCVD risk၊ KDIGO staging၊ EULAR/ACR criteria တို့ကို တွက်ချက်ပေးနိုင်/မပေးနိုင်)၊ နှင့် ဖြစ်နိုင်ခြေ-ပေါင်းလဒ် တရားဝင်မှု စစ်ဆေးချက် (၁၀ ရာခိုင်နှုန်း—differential ဖြစ်နိုင်ခြေများသည် [90, 110] အတွင်း ပေါင်းလဒ်ဖြစ်ရမည်)။ trap အမှုများအတွက် fabricated pathology flag တစ်ခုချင်းစီအတွက် 0.10 နှုန်းဖြင့် တွက်ချက်ပြီး အများဆုံး flag ၃ ခုအထိ ကန့်သတ်ထားသည့် explicit hyperdiagnosis penalty (အများဆုံး 0.30) ကို နုတ်ယူသည်။.

ဟိ latency component သည် ၁၀ ရာခိုင်နှုန်း ပံ့ပိုးသည်။ ၂၀ စက္ကန့်အောက် တုံ့ပြန်မှုသည် အပြည့် 0.10 ရရှိပြီး၊ ၄၀ စက္ကန့်အောက် တုံ့ပြန်မှုသည် 0.05 ရရှိကာ၊ ပိုနှေးသည့် မည်သည့်အရာမဆို 0 ရရှိသည်။ ၂၀ စက္ကန့် ပစ်မှတ်သည် production primary-path service-level objective ကို ထင်ဟပ်စေပြီး၊ ၄၀ စက္ကန့် ကန့်သတ်ချက်သည် heavy-engine invocations များအတွက် Phase 2 fallback budget ကို ထင်ဟပ်စေသည်။.

MIT လိုင်စင်ရ Kantesti benchmark harness အလုပ်လုပ်နေပြီး အမှုတစ်ခုချင်းစီအလိုက် ရမှတ်များ ထုတ်ပေးနေသည့် terminal screenshot
ပုံ ၃: execution အတွင်းရှိ harness ဖြစ်သည်။ အမှုတစ်ခုချင်းစီကို A4 PDF အဖြစ် ပြန်ဆိုပြီး production v11 endpoint သို့ တင်ကာ frozen rubric နှင့် နှိုင်းယှဉ်၍ အမှတ်ပေးသည်။ raw တုံ့ပြန်မှုတိုင်းကို aggregated scorecard နှင့်အတူ သိမ်းဆည်းထားသည်။.

pre-registration ကာကွယ်ပေးနိုင်သည့်အရာ

First-party benchmark များသည် post-hoc rubric tuning ဖြင့် မိမိတို့၏ နံပါတ်များကို ဖောင်းပွစေတတ်ကြောင်း လူသိများသည်။ ပုံစံမှာ အမြဲလိုလို တူညီနေတတ်သည်—အဖွဲ့က အင်ဂျင်ကို လုပ်ဆောင်ပြီး မည်သည့်နေရာတွင် အားနည်းသည်ကို မြင်ကာ၊ ထို့နောက် အားနည်းနေသော နယ်ပယ်များကို အမှတ်နည်းနည်းသာ ရေတွက်စေမည့်အတွက် rubric ကို တိတ်တဆိတ် ချိန်ညှိလိုက်သည်။ ပထမဆုံး အင်ဂျင်ခေါ်မီ rubric ကို source code ထဲသို့ ကတိပြုထားပြီး harness ကို MIT licence ဖြင့် ထုတ်ပြန်လိုက်သည့်အတွက်၊ ထိုချိန်ညှိမှုသည် version control တွင် မြင်သာလာသည်။ မည်သူမဆို repository ကို clone လုပ်နိုင်ပြီး rubric author dates များကို စစ်ဆေးကာ အင်ဂျင်ရလဒ်များကို အမှတ်ပေးခြင်းကို ပုံဖော်ရန် အသုံးမပြုခဲ့ကြောင်း အတည်ပြုနိုင်သည်။.

Hyperdiagnosis trap အမှုကိစ္စများ — အလွန်အမင်း ခေါ်ဆိုခြင်း (over-calling) က အမှန်တကယ် ပျက်ကွက်မှု ပုံစံ (failure mode) ဘာကြောင့်လဲ

ပုံမှန် စစ်ဆေးမှုများတွင် ရောဂါလက္ခဏာကို အလွန်အမင်း ခေါ်ဆို (over-calling) လုပ်ခြင်းသည် consumer-facing medical assistants များတွင် မှတ်တမ်းတင်ထားသည့် ပျက်ကွက်မှု ပုံစံတစ်ခုဖြစ်သည်။ ၎င်း၏ နောက်ဆက်တွဲကုန်ကျစရိတ်များတွင် မလိုအပ်သော စုံစမ်းစစ်ဆေးမှု၊ လူနာစိုးရိမ်ပူပန်မှု၊ နှင့် iatrogenic workup တို့ ပါဝင်သည်။ ဤ benchmark ရှိ trap အမှု ၂ ခုကို ထိုပျက်ကွက်မှု ပုံစံကို မြင်သာစေပြီး အမှတ်ပေးနိုင်အောင် ဒီဇိုင်းလုပ်ထားသည်။.

Gilbert's syndrome panel တစ်ခုတွင် အသည်းရောင်ရောဂါကို အတုလုပ်ဖန်တီးနေသည့် naive AI နှင့် Kantesti engine က benign UGT1A1 polymorphism ကို မှန်ကန်စွာ ခွဲခြားဖော်ထုတ်ပုံကို ဘေးချင်းယှဉ် နှိုင်းယှဉ်ခြင်း
ပုံ ၄: trap-case ဒီဇိုင်း။ Gilbert's syndrome ကို hepatitis အဖြစ် ယုံကြည်စိတ်ချစွာ တံဆိပ်ကပ်သည့် အင်ဂျင်၊ သို့မဟုတ် အပြည့်အဝ ပုံမှန် screen တစ်ခုတွင် borderline pathology ကို ထုတ်လုပ်သည့် အင်ဂျင်သည်—ဆေးခန်းဆိုင်ရာ အသံထွက်ကောင်းခြင်းအတွက် ချီးမြှောက်မခံရဘဲ—အပြစ်ပေးခံရသည်။.

🟡 Trap 1 — BT-014-GILBERT

တင်ပြပုံ။. စုစုပေါင်း bilirubin 2.4 mg/dL ရှိသော အသက် ၂၄ နှစ် အမျိုးသား။ direct fraction သည် ပုံမှန်ဖြစ်ပြီး၊ transaminases နှင့် alkaline phosphatase တို့သည် ၎င်းတို့၏ reference range အတွင်းတွင် ရှိနေကာ၊ reticulocytes များမှာ ထူးခြားမှုမရှိပြီး၊ haptoglobin နှင့် LDH သည် haemolysis ကို ဖယ်ထုတ်ပေးသည်။.

မှန်ကန်သော အဓိပ္ပါယ်ဖတ်နည်း။. Gilbert's syndrome — benign UGT1A1 polymorphism ဖြစ်သည်။ အဓိပ္ပါယ်ဖတ်ရာတွင် hepatitis၊ cirrhosis၊ haemolytic anaemia၊ သို့မဟုတ် biliary obstruction ကို မခေါ်သုံးသင့်ပါ။.

V11 ရလဒ်။. Composite 1.000။ စောင့်ကြည့်ထားသည့် over-diagnosis flag ၆ ခုအနက် မည်သည့်အရာမျှ active diagnosis အဖြစ် မပေါ်ခဲ့ပါ။.

🟡 Trap 2 — BT-015-HEALTHY

တင်ပြပုံ။. parameter ၁၅ ခုပါ routine screening panel ရှိသော အသက် ၃၅ နှစ် အမျိုးသမီး။ analyte တိုင်းသည် ၎င်း၏ reference range အတွင်းတွင် သက်တောင့်သက်သာ ရှိနေသည်။.

မှန်ကန်သော အဓိပ္ပါယ်ဖတ်နည်း။. စိတ်ချစရာဖြစ်စေခြင်းနှင့် လူနေမှုပုံစံ ထိန်းသိမ်းခြင်း။ အဓိပ္ပာယ်ဖော်ချက်သည် ဆေးဘက်ဆိုင်ရာအရ အသုံးဝင်သည်ဟု ထင်ရစေရန် နယ်နိမိတ်အဆင့် ရောဂါလက္ခဏာများကို တီထွင်ဖန်တီးမထားသင့်ပါ။.

V11 ရလဒ်။. ပေါင်းစပ်ရမှတ် 1.000။ စောင့်ကြည့်ထားသော အလွန်အမင်း ရောဂါလွန်ကဲစွာ ခန့်မှန်းခြင်း အလံခုနစ်ခု—ဆီးချို၊ သွေးအားနည်းရောဂါ၊ သိုင်းရွိုက်လုပ်ဆောင်မှု လျော့နည်းခြင်း၊ အဆီဓာတ်မညီမျှခြင်း၊ အသည်းရောင်ရောဂါ၊ ကျောက်ကပ်ရောဂါ၊ ချို့တဲ့မှု—အနက် မည်သည့်အရာမျှ တက်ကြွသော ရောဂါအဖြစ် ပေါ်မလာပါ။.

ထောင်ချောက်နှစ်ခုလုံးတွင် စောင့်ကြည့်ထားသော hyperdiagnosis အလံ ၁၃ ခုကို စစ်ဆေးခဲ့သည်။ မည်သည့်အရာမျှ အစပျိုးမခံရပါ။ AI အင်ဂျင်ကို triage သို့မဟုတ် စစ်ဆေးမတိုင်မီ အသုံးပြုရန် စဉ်းစားနေသည့် ဆရာဝန်တိုင်းအတွက် အရေးအကြီးဆုံးဖြစ်သည့် ရလဒ်မှာ ဤအချက်ဖြစ်သည်— မရှိသည့်နေရာတွင် ရောဂါကို စနစ်က တီထွင်မထားပါ.

Mentzer index: သံဓာတ်ချို့တဲ့ခြင်းကို thalassaemia trait မှ ခွဲခြားခြင်း

ဒုတိယ အရည်အသွေးမြင့် ရှာဖွေတွေ့ရှိချက်တစ်ခုမှာ case BT-001 (သံဓာတ်ချို့တဲ့ သွေးအားနည်းရောဂါ) ကို case BT-007 (beta-thalassaemia minor) နှင့် တွဲဖက်ထားခြင်းဖြစ်သည်။ နှစ်ခုလုံးသည် microcytosis ဖြင့် တင်ပြကြပြီး အတွေ့အကြုံမရှိသော ခွဲခြားစနစ်များအတွက် အလွန်သိသာသော အခက်အခဲတစ်ခုဖြစ်သည်။ MCV ကို RBC အရေအတွက်ဖြင့် ပိုင်းခြား၍ တွက်ချက်သော Mentzer index သည် သံဓာတ်ချို့တဲ့ခြင်းတွင် 13 ထက်ကျော်ပြီး thalassaemia trait တွင် 13 ထက်နိမ့်သည်။.

BT-001 တွင် လူနာမှာ အသက် 34 နှစ် အမျိုးသမီးဖြစ်ပြီး hemoglobin 10.4 g/dL၊ MCV 72.4 fL၊ RBC 4.1 × 10¹²/L၊ ferritin 6 ng/mL နှင့် TIBC မြင့်မားခြင်းရှိသည်။ ခန့်မှန်း Mentzer index သည် 17.7 ခန့်ဖြစ်ပြီး absolute iron deficiency ကို ထောက်ခံသည်။ BT-007 တွင် လူနာမှာ အသက် 28 နှစ် အမျိုးသားဖြစ်ပြီး microcytosis (MCV 65.8 fL) ရှိသော်လည်း RBC 6.2 မြင့်မားခြင်း၊ RDW ပုံမှန်၊ ferritin ပုံမှန်၊ HbA2 5.6 percent ရှိသည်။ ခန့်မှန်း Mentzer index သည် 10.6 ခန့်ဖြစ်ပြီး thalassaemia trait ကို ညွှန်ပြကာ elevated HbA2 သည် beta-thalassaemia minor ကို အတည်ပြုသည်။.

သံဓာတ်ချို့တဲ့ သွေးအားနည်းရောဂါ Mentzer > 13 ferritin နိမ့်၊ TSAT နိမ့်၊ TIBC မြင့်၊ RDW မြင့်
Beta-thalassaemia trait Mentzer < 13 ferritin ပုံမှန်၊ RDW ပုံမှန်၊ HbA2 မြင့် (>3.5%)၊ RBC အရေအတွက် မြင့်

အမှုနှစ်ခုလုံးသည် ရမှတ် 1.000 ရရှိသည်။ အင်ဂျင်သည် အဓိပ္ပာယ်ဖော်ချက်နှစ်ခုလုံးတွင် Mentzer index ကို တိတိကျကျ အသုံးပြုခဲ့ပြီး အခြေအနေလက်ရှိတစ်ခုစီတွင် မှန်ကန်သော ရောဂါအမည်ကို ပြန်ပေးခဲ့သည်။. ဤသည်မှာ benchmark တစ်ခုလုံးအတွင်း ဆေးဘက်ဆိုင်ရာအရ အများဆုံး စိတ်ချစရာ ရလဒ်တစ်ခုတည်းဖြစ်သည်, အကြောင်းမှာ thalassaemia trait ကို သံဓာတ်ချို့တဲ့ခြင်းအဖြစ် မှားယွင်းခွဲခြားပါက မသင့်လျော်သော သံဓာတ်ဖြည့်စွက်ခြင်း ဖြစ်ပေါ်စေပြီး မိသားစု စစ်ဆေးခြင်း အခွင့်အလမ်းများကို လွတ်သွားစေကာ၊ သံဓာတ်ချို့တဲ့ခြင်းကို thalassaemia အဖြစ် မှားယွင်းခွဲခြားပါက လွယ်ကူသော အစားထိုးကုသမှုကို နောက်ကျစေသောကြောင့် ဖြစ်သည်။ ကျွန်ုပ်တို့၏ ferritin အကွာအဝေး လမ်းညွှန် သည် ပိုမိုကျယ်ပြန့်သော differential context ကို ရှင်းပြသည်။.

ဧပြီ 2026 စမ်းသပ်မှု လည်ပတ်မှုမှ တစ်ကြိမ်ချင်းရလဒ်များ

အမှု ၁၅ ခုအနက် ၁၂ ခုသည် primary path တွင် composite score 1.000 ၏ မျက်နှာကျက်ရမှတ်ကို ရရှိခဲ့သည်။ အမှု ၃ ခုကို Phase 2 fallback မှတစ်ဆင့် ဝန်ဆောင်ပေးခဲ့ရာ latency bonus 0.05 ကို ဆုံးရှုံးသော်လည်း ဆေးဘက်ဆိုင်ရာနှင့် ဖွဲ့စည်းတည်ဆောက်ပုံဆိုင်ရာ အကြောင်းအရာအားလုံးကို ထိန်းသိမ်းထားသည်။ အမှု ၁ ခုတွင် မဖြစ်မနေလိုအပ်သော subsection တစ်ခု ပျောက်နေခဲ့သည်။ အမှု ၁ ခုက probability distribution sum ကို အနည်းငယ် လျော့ကျသည့်အတိုင်း ပြန်ပေးခဲ့သည်။.

Case ID Specialty Composite Latency Path
BT-001-IDAသွေးဗေဒ1.00017.8 sprimary
BT-006-B12သွေးဗေဒ1.00018.4 စက္ကန့်primary
BT-007-THALသွေးဗေဒ1.00017.0 စက္ကန့်primary
BT-002-HASHEndocrinology0.95037.0 စက္ကန့်အရန် (fallback)
BT-008-PCOSEndocrinology0.98718.6 စက္ကန့်primary
BT-003-T2DMဇီဝဖြစ်စဉ်1.00019.1 စက္ကန့်primary
BT-013-GOUTဇီဝဖြစ်စဉ်1.00019.4 စက္ကန့်primary
BT-004-NAFLDအသည်းရောဂါဗေဒ (Hepatology)1.00019.6 စက္ကန့်primary
BT-009-VIRHEPအသည်းရောဂါဗေဒ (Hepatology)0.95023.4 စက္ကန့်အရန် (fallback)
BT-014-GILBERTထောင်ချောက် (Trap)1.00018.9 စက္ကန့်primary
BT-005-CKDကျောက်ကပ်ဆိုင်ရာရောဂါဗေဒ1.00017.4 စက္ကန့်primary
BT-010-ASCVDနှလုံးရောဂါဗေဒ (Cardiology)1.00019.7 စက္ကန့်primary
BT-011-SLEအဆစ်အမြစ်ရောဂါဗေဒ (Rheumatology)0.98118.2 စက္ကန့်primary
BT-012-VITDEndocrinology1.00019.3 စက္ကန့်primary
BT-015-HEALTHYထောင်ချောက် (Trap)1.00018.7 စက္ကန့်အရန် (fallback)

PCOS အမှု (BT-008) သည် တုံ့ပြန်မှုဖွဲ့စည်းပုံတွင် မဖြစ်မနေလိုအပ်သော အပိုင်းတစ်ခုကို ဆုံးရှုံးခဲ့သည်— ၁၆ ခုအနက် ၁၅ ခု (၁၆ ခုအနက် ၁၆ ခုမဟုတ်) — ထို့ကြောင့် ဖွဲ့စည်းပုံရမှတ်ကို 1.000 မှ 0.963 သို့ လျော့ကျစေခဲ့သည်။ SLE အမှု (BT-011) သည် ရောဂါရှာဖွေမှုဆိုင်ရာ သော့ချက်စာလုံးများနှင့် ရမှတ်တွက်ချက်မှုစနစ်အားလုံးကို ထိန်းသိမ်းထားရင်း၊ ဆေးခန်းရမှတ်ကို 0.965 သို့ ကျစေသည့် အနည်းငယ် လျော့ကျသွားသော ဖြစ်နိုင်ခြေ-ဖြန့်ချီမှု ပေါင်းလဒ်ကို ပြန်ပေးခဲ့သည်။ မည်သည့် sub-perfect အမှုမျှ မှန်ကန်သော ရောဂါရှာဖွေမှုကို လွဲမချော်ခဲ့ပါ။.

ခေါင်းစဉ်ရမှတ်က မပြောပြနိုင်တဲ့အရာ

ဤသီးသန့် ကြိုတင်မှတ်ပုံတင်ထားသော စည်းမျဉ်း (rubric) အောက်တွင် 99.12 ရာခိုင်နှုန်း ပေါင်းစပ်ရမှတ်သည် မျက်နှာကျက်နီးပါး စွမ်းဆောင်ရည်ကို ကိုယ်စားပြုသော်လည်း၊ ၎င်းကို သေချာစွာ အဓိပ္ပါယ်ဖော်ပြရန် လိုအပ်သည်။ ရလဒ်သည် တစ်ကြိမ်စီသာ အကဲဖြတ်ထားသည့်၊ သေချာရွေးချယ်ထားသော anonymised အမှု ၁၅ ခုနှင့် စက်အင်ဂျင်၏ အပြုအမူကို တစ်ခုတည်းသော rubric တစ်ခုအောက်တွင် နှိုင်းယှဉ်ဖော်ပြထားခြင်းဖြစ်သည်။ အဆိုပါ နံပါတ်က ဘာကို သက်သေပြနိုင်ပြီး ဘာကို မသက်သေပြနိုင်သည်ကို ကျွန်ုပ်တို့ ရှင်းလင်းစွာ ဖော်ပြထားပါသည်။.

ရမှတ်က V11 အင်ဂျင်သည် ဤအကဲဖြတ်မှုအတွက် ရွေးချယ်ထားသော ရောဂါရှာဖွေမှုပုံစံများကို မှန်ကန်စွာ ကိုင်တွယ်နိုင်ခဲ့ကြောင်း ပြောထားသည်— ထုတ်ဝေပြီး ပြန်လည်ပြုလုပ်နိုင်သည့် နည်းလမ်းတစ်ခုအပေါ်တွင် ဖြစ်သည်။ လက်တွေ့လောကတွင် ရှိနေသည့် သွေးစစ်ဆေးမှု panel အားလုံးအတွက် အင်ဂျင်သည် မှန်ကန်သည်ဟု မဆိုလိုပါ။ ဆရာဝန်/ကျန်းမာရေးပညာရှင်၏ ဆုံးဖြတ်ချက်ကို အင်ဂျင်က အစားထိုးသင့်သည်ဟုလည်း မဆိုလိုပါ။ ထို့အပြင် အခြား AI စနစ်များထက် သာလွန်သည်ဟုလည်း မဆိုလိုပါ— အခြားအင်ဂျင်များနှင့် နှိုင်းယှဉ်လေ့လာမှုများကို ဤအစီရင်ခံစာ၏ အတိုင်းအတာအပြင်ဘက်အဖြစ် တမင်ထားခဲ့သည်။.

ရမှတ်က သက်သေပြနိုင်သည်မှာ အခြေခံအချက် (baseline) တစ်ခုဖြစ်သည်။ rubric နှင့် harness ကို အများပြည်သူသို့ ထုတ်ဖော်ထားပြီးဖြစ်သဖြင့်၊ အင်ဂျင်၏ အနာဂတ်ဗားရှင်းများကို အမှု ၁၅ ခုတည်းနှင့် တူညီစွာ အကဲဖြတ်နိုင်ပြီး၊ ထုတ်ဝေထားသော ရမှတ်နှင့် နောက်ထပ် run တစ်ခုခုကြားက ကွာဟချက်ကိုလည်း တိုင်းတာနိုင်သည်။ ကြိုတင်မှတ်ပုံတင်ခြင်း၏ တန်ဖိုးမှာ— စွမ်းဆောင်ရည်ဆိုင်ရာ တောင်းဆိုချက်များကို စမ်းသပ်နိုင်သော တောင်းဆိုချက်များအဖြစ် ပြောင်းလဲပေးသည်.

၁၀ မိနစ်အတွင်း ဒီ benchmark ကို ဘယ်လိုပြန်ထုတ်လုပ်မလဲ

ပြန်လည်ပြုလုပ်ရန်အတွက် Kantesti API credential pair တစ်ခုနှင့် Python 3.10 သို့မဟုတ် နောက်ပိုင်း ပတ်ဝန်းကျင်တစ်ခုသာ လိုအပ်သည်— requests နှင့် reportlab libraries များကို ထည့်သွင်းထားပြီးဖြစ်ရမည်။ အပြည့်အစုံ harness သည် MIT လိုင်စင်အောက်တွင် ထုတ်ပြန်ထားသော တစ်ခုတည်းသော self-contained Python module တစ်ခုဖြစ်သည်။.

Figshare, ResearchGate, Academia.edu နှင့် GitHub တို့တွင် benchmark ကို Figshare DOI ကို canonical anchor အဖြစ်ထားကာ မှန်ကန်စွာ ထင်ဟပ်ထားကြောင်း ပြသသည့် reproducibility network diagram
ပုံ ၅: benchmark ကို သုတေသန ပလက်ဖောင်း ၄ ခုတွင် တူညီစွာ ထင်ဟပ်ထားသည်။ Figshare DOI သည် canonical scholarly identifier ဖြစ်သည်။ ResearchGate, Academia.edu နှင့် GitHub တို့သည် code နှင့် raw data ပါဝင်သည့် အပြိုင်မိတ္တူများကို လက်ခံထားသည်။.

လတ်ဆတ်သော run တစ်ခုအတွက် အဆင့် ၄ ခု

တစ်။. repository ကို clone လုပ်ပါ— git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. နှစ်။. လိုအပ်သော ပက်ကေ့ချ်များကို
ထည့်သွင်းရန် pip install -r requirements.txt. သုံး။. သတ်မှတ်ပါ KANTESTI_USERNAME နှင့် KANTESTI_PASSWORD ကို ပတ်ဝန်းကျင် ပြောင်းလဲမှုများ (environment variables) အဖြစ်— အထောက်အထားများကို လုပ်ဆောင်ချိန်တွင် ဖတ်ရှုမည်ဖြစ်ပြီး script ထဲတွင် မည်သည့်အရာကိုမျှ တင်းတိပ်စွာ ထည့်မထားပါ။. လေး။. လုပ်ဆောင်ပါ python benchmark_bloodtest.py ပြီးတော့ အလုပ်လုပ်နေရာ directory ထဲသို့ ထုတ်ပေးထားသည့် artefact လေးခုကို စစ်ဆေးပါ— CSV scorecard တစ်ခု၊ JSON scorecard တစ်ခု၊ raw engine responses များပါဝင်သည့် full JSON dump တစ်ခု၊ နှင့် လူဖတ်လို့ရသော Markdown report တစ်ခု။.

2026 ခုနှစ် ဧပြီလ 23 ရက်မှ reference run ကို repository ၏ results/ directory ထဲတွင် ထိန်းသိမ်းထားသည်။ လတ်တလော run တစ်ခုသည် reference run ကို မထိခိုက်စေဘဲ timestamp ပါသည့် scorecard အသစ်တစ်ခု ထုတ်ပေးမည်ဖြစ်သည်။ သင့် run မှာ အဓိပ္ပါယ်ရှိစွာ ကွာခြားသော ရလဒ်ထွက်ပါက GitHub issue တစ်ခု ဖွင့်ပါ— run timestamp နှင့် response metadata ထဲတွင် ပြန်လာသည့် engine version ကိုပါ ထည့်ပေးပါ။.

ကန့်သတ်ချက်များနှင့် အနာဂတ်လုပ်ငန်း

ကန့်သတ်ချက် လေးခုကို အတိအကျ အသိအမှတ်ပြုရန် ထိုက်တန်သည်— နမူနာအရွယ်အစား၊ single-shot evaluation၊ single-engine scope၊ နှင့် single-source data origin။ ယင်းတို့ကို လက်ရှိ follow-up လုပ်ငန်းများဖြင့် ဖြေရှင်းလျက်ရှိသည်။.

နမူနာအရွယ်အစား။. အထူးပြု bucket ရှစ်ခုအတွင်း case ဆယ့်ငါးခုသည် proof of concept အတွက် လုံလောက်သော်လည်း အထူးပြုတစ်ခုအတွင်း subgroup analysis အတွက် မလုံလောက်ပါ။ case ငါးဆယ်အထိ တိုးချဲ့ရန် စီစဉ်ထားပြီး coagulation panels၊ haematological malignancy screening၊ ကိုယ်ဝန်ဆိုင်ရာ panel များ၊ နှင့် ကလေးအထူးပြု တင်ပြမှုများ ပါဝင်မည်ဖြစ်သည်။.

Single-shot evaluation။. case တစ်ခုစီကို တစ်ကြိမ်သာ အကဲဖြတ်ခဲ့သည်။ sampling temperature နိမ့်သော်လည်း large language models များသည် output variance ကို အရေးမပါမဟုတ်အောင် ပြသတတ်သောကြောင့် case တစ်ခုချင်းစီအတွက် evaluations ငါးကြိမ်ပါဝင်သည့် multi-run protocol နှင့် ဖော်ပြထားသော variance သည် သဘာဝကျသည့် နောက်တစ်ဆင့်ဖြစ်သည်။.

Single-engine scope။. ဤ report သည် engine တစ်ခုတည်းကို ဖော်ပြထားသည်။ အခြား AI စနစ်များနှင့် နှိုင်းယှဉ်သုံးသပ်မှုများသည် ဤနေရာတွင် မပါဝင်ပါ (out of scope); သင့်လျော်သော methodology ဖြင့် သီးခြား independent study အဖြစ် ကျွန်ုပ်တို့ ဆက်လက်လုပ်ဆောင်နိုင်ပါသည်။.

Single-source data origin။. case ဆယ့်ငါးခုသည် single clinical repository တစ်ခုမှ ရယူထားသည့် အမှတ်အသားဖျက်ထားသော (anonymised) အမှန်တကယ် လူနာမှတ်တမ်းများ ဖြစ်သည်။ ၎င်းတို့သည် စီမံထားသော နမူနာတစ်ခုကို ကိုယ်စားပြုပြီး လူဦးရေကို ကိုယ်စားပြုသည့် ကျပန်းရွေးချယ်မှု (random draw) မဟုတ်ပါ။ evaluation ကို multi-centre data သို့ တိုးချဲ့ခြင်းကို လမ်းပြမြေပုံ (roadmap) ထဲတွင် ထည့်သွင်းထားသည်။.

အများဆုံး အကျိုးသက်ရောက်မည့် စီစဉ်ထားသည့် တိုးချဲ့မှုမှာ multi-language parity ဖြစ်သည်။ Kantesti AI Engine သည် 75+ ဘာသာစကားများဖြင့် အသုံးပြုသူများကို ဝန်ဆောင်မှုပေးသည်။ Turkish၊ German၊ Spanish၊ French၊ နှင့် Arabic တို့တွင် case ဆယ့်ငါးခုတူညီသည့် harness ကို လုပ်ဆောင်ခြင်းဖြင့် engine ၏ ပံ့ပိုးထားသည့် ဘာသာစကားများအကြား output quality ကို တိုင်းတာမည်ဖြစ်သည်။ ဘာသာစကားတစ်ခုချင်းစီအတွက် run တစ်ခုစီကို ၎င်း၏ကိုယ်ပိုင် DOI နှင့် harness branch တို့နှင့်အတူ ထုတ်ဝေမည်ဖြစ်သည်။.