ဒီ benchmark က ဘာကြောင့်ရှိပြီး ဘာကို စမ်းသပ်တာလဲ
AI-assisted blood test interpretation ကို စားသုံးသူနှင့် ဆေးဘက်ဆိုင်ရာ လုပ်ငန်းစဉ်များတွင် ပိုမိုအသုံးများလာနေသော်လည်း ဓာတ်ခွဲခန်းဆေးပညာနှင့် ကိုက်ညီအောင် ပြန်လည်စမ်းသပ်နိုင်သည့် အကဲဖြတ်ရေးဘောင်များမှာ မကြာခဏ မတွေ့ရသေးပါ။ ဒီအခြေအနေမှာ အရေးကြီးဆုံး မေးခွန်းတွေက အထွေထွေ ဆေးဘက်ဆိုင်ရာ မေးခွန်း-ဖြေကြား benchmark တွေမှာ ပါဝင်ထားတာတွေ မဟုတ်ပါ— mean corpuscular volume တူညီနေချိန်မှာ engine က iron deficiency ကို thalassaemia trait နဲ့ ခွဲနိုင်မလား၊ hepatitis လိုမျိုးနဲ့ Gilbert's syndrome ကို over-diagnose လုပ်မလား၊ ပုံမှန်အပြည့်အဝ screening panel တစ်ခုထဲမှာ pathology ကို ဖန်တီးထုတ်လုပ်မလားဆိုတာလား။
သွေးစစ်ဆေးမှု အကွက်တစ်ခုတည်း (blood test panel) မှာ ပုံမှန်အားဖြင့် အဓိပ္ပာယ်ဖွင့်ဆိုချက် အများအပြားကို ထောက်ပံ့နိုင်လောက်တဲ့ အချက်အလက် (signal) တွေ ပါဝင်တတ်ပြီး၊ အဓိပ္ပာယ်ဖွင့်ဆိုပေးမယ့် ဆေးဘက်ဆိုင်ရာ ကျွမ်းကျင်သူရဲ့ အလုပ်က စာအုပ်ထဲက အဖြေတစ်ခုကို ပြန်ရှာတာထက် အဲဒီအဓိပ္ပာယ်ဖွင့်ဆိုချက်တွေကို တစ်ခုနဲ့တစ်ခု ယှဉ်ပြီး အလေးချိန်ချိန်ရန် ဖြစ်ပါတယ်။ စာအုပ်ထဲက အခြေအနေတွေမှာ ကောင်းကောင်းလုပ်နိုင်တဲ့ အင်ဂျင်တစ်ခုက အရေးကြီးဆုံးဖြစ်တဲ့ အခြေအနေတွေမှာတော့ ပျက်ကွက်နိုင်ပါတယ်—ကွဲပြားရောဂါရှာဖွေမှု (differential-diagnosis) ထောင်ချောက်တွေ၊ တစ်ခုတည်းအနေနဲ့ ကြည့်ရင် စိုးရိမ်စရာလို ထင်ရပေမယ့် အန္တရာယ်မရှိတဲ့ မျိုးကွဲများ (benign variants)၊ နဲ့ အပြည့်အဝ ပုံမှန် (fully normal) အကွက်တွေကနေ ယုံကြည်စိတ်ချစွာ လက်ထောက်တွေကို ရောဂါလက္ခဏာတု (manufacturing pathology) ဖန်တီးစေတဲ့အရာတွေပါဝင်ပါတယ်။.
ဒီ benchmark ကို အဲဒီလို ပျက်ကွက်နိုင်တဲ့ ပုံစံတွေကို အတိအကျ အခြေခံပြီး တည်ဆောက်ထားပါတယ်။ Case (၁၅) ခုစီကို သီးခြား ရောဂါရှာဖွေရေး ဂုဏ်သတ္တိတစ်ခုအတွက် ရွေးချယ်ထားပါတယ်—တူညီတဲ့ mean corpuscular volume (MCV) ရှိတဲ့ beta-thalassaemia trait နဲ့ ခွဲခြားထားရမယ့် iron-deficient microcytosis၊ ပုံမှန်မဟုတ်မှု တစ်ခုတည်းသာ ဖြစ်တဲ့ isolated indirect hyperbilirubinaemia ပါဝင်တဲ့ Gilbert's syndrome ပုံစံ၊ နဲ့ analyte တစ်ခုချင်းစီက reference range အတွင်းမှာပဲ ရှိနေတဲ့ fifteen-parameter screening panel တစ်ခု။ rubric က case တစ်ခုချင်းစီကို ကိုယ်ပိုင်အခြေအနေအရ ဖတ်တတ်တဲ့ engine တွေကို ဆုချပြီး၊ အဲဒီလို ရောဂါရှာဖွေမှုမျိုး မလိုအပ်တဲ့နေရာမှာ ယုံကြည်စိတ်ချစွာ ရောဂါရှာဖွေမှုတစ်ခုကို ဆွဲယူသွားတဲ့ engine တွေကို ဒဏ်ခတ်ပါတယ်။.
MD ဖြစ်သူ Thomas Klein အနေနဲ့၊ ဒီ case panel ကို ကျွန်တော်ရွေးချယ်ခဲ့တာက—laboratory-medicine လက်ထောက်တွေက အများဆုံး မှားတတ်တဲ့ ပုံစံတွေက ဒီလိုပဲ ဖြစ်လို့ပါ။. အကုန်အကျများတဲ့ ပျက်ကွက်မှုက "ရှားပါးရောဂါတစ်ခုကို လွတ်သွားခြင်း" မဟုတ်ပါ—အဲဒီလို မရှိတဲ့ လူနာတွေမှာ ပုံမှန်ဖြစ်တတ်တဲ့ ရောဂါလက္ခဏာ (routine pathology) ကို တီထွင်ဖန်တီးခြင်း (fabricating) ဖြစ်ပါတယ်။. ကျွန်တော်တို့ရဲ့ ဆေးဘက်ဆိုင်ရာအတည်ပြုချက် hub က ပိုကျယ်တဲ့ framework ကို ဖော်ပြထားပါတယ်၊ ဒီစာမျက်နှာကတော့ V11 engine ပေါ်မှာ အသုံးချရလဒ် (applied result) ကို ဖော်ပြထားပါတယ်။.
နောက်ဆုံးရည်ညွှန်း run — V11 (၂၀၂၆ ခုနှစ် ဧပြီလ)
Kantesti AI Engine V11 ရဲ့ 2026 ခုနှစ် ဧပြီလ reference run မှာ composite score တစ်ခု ထွက်ခဲ့ပါတယ်။ 99.12% pre-registered fifteen-case rubric အပေါ်မှာ။ hyperdiagnosis trap case နှစ်ခုစလုံးက ceiling အထိ ရမှတ်ရခဲ့ပါတယ်။ Mentzer index ကို iron-deficiency နှင့် thalassaemia အကြား ကွဲပြားရောဂါရှာဖွေမှု (differential) မှာ မှန်ကန်စွာ အသုံးချထားပါတယ်။.
composite ဖော်မြူလာက အစိတ်အပိုင်း (၃) ခုကို ပေါင်းစပ်ထားပါတယ်— structural conformance မဖြစ်မနေ report sections (၇) ခုနဲ့ မဖြစ်မနေ subsections (၁၆) ခုတို့နဲ့ ကိုက်ညီမှု၊, clinical accuracy keyword recall + scoring-system recall + probability-distribution validity check အဖြစ် တိုင်းတာထားပြီး၊ response latency ၂၀ စက္ကန့် အဓိက service-level target ကို ဆန့်ကျင်ပြီး (against)။ အတိအကျ ခွဲထုတ်ပြထားတာကို အောက်က rubric formula မှာ ပြထားပါတယ်။.
ကျန်ရှိနေသည့် ခေါင်းခန်း (headroom) 0.88 ရာခိုင်နှုန်းအမှတ်များသည် အများအားဖြင့် latency loss အဖြစ်သာ ခွဲထွက်သွားသည်—Phase 2 fallback ခေါ်ဆိုမှု သုံးကြိမ်စီ (တစ်ခုချင်းစီ၏ ပေါင်းစပ်တန်ဖိုးမှာ minus 0.05) သည် 0.88-point ချို့တဲ့မှု၏ 0.60 ခန့်ကို ပံ့ပိုးခဲ့သည်—ဆေးဘက်ဆိုင်ရာ အကြောင်းအရာထဲသို့ မဝင်ဘဲ ဖြစ်သည်။ အင်ဂျင်သည် အမှု ၁၅ ခုလုံးတွင် မှန်ကန်သော ရောဂါရှာဖွေမှုကို မလွဲချော်ခဲ့ပါ။ လိုအပ်ချက်နည်းနည်းလျော့သွားသည့်နေရာတွင်မူ၊ invocations အနည်းငယ်သာရှိသည့် အချို့တွင် 20 စက္ကန့် အဓိက-path ပစ်မှတ်ထက် အနည်းငယ်ပိုကြာအောင် လုပ်ဆောင်ခြင်းကြောင့်သာ ဖြစ်သည်။.
ဆေးဘက်ဆိုင်ရာ အထူးပြု ခုနစ်မျိုးအတွင်းမှ အမှုကိစ္စ ဆယ့်ငါးခု
အမှုအဖွဲ့ (case panel) တွင် အထူးပြု ၇ ခု ပါဝင်သည်—သွေးရောဂါဗေဒ (hematology)၊ အတွင်းဂလင်းရောဂါဗေဒ (endocrinology)၊ ဇီဝဖြစ်စဉ်ဆိုင်ရာ ဆေးပညာ (metabolic medicine)၊ အသည်းရောဂါဗေဒ (hepatology)၊ ကျောက်ကပ်ရောဂါဗေဒ (nephrology)၊ နှလုံးရောဂါဗေဒ (cardiology)၊ အဆစ်အမြစ်ရောင်ရောဂါဗေဒ (rheumatology)—အပြင် hyperdiagnosis trap အတွက် သီးသန့် အမှု ၂ ခုလည်း ပါသည်။ အမှုတစ်ခုစီသည် သဘောတူညီချက်ဖြင့် ရေးသားထားသော informed consent အောက်တွင် Kantesti clinical data repository မှ ထုတ်ယူထားသည့် anonymised အမှန်တကယ် လူနာမှတ်တမ်းတစ်ခုဖြစ်သည်။.
De-identification ကို Safe Harbor ချဉ်းကပ်နည်းဖြင့် ဆောင်ရွက်ခဲ့သည်—တိုက်ရိုက်သတ်မှတ်နိုင်သော အချက်အလက်များအားလုံးကို ဖယ်ရှားခြင်း သို့မဟုတ် အစားထိုးခြင်းပြုလုပ်ပြီး၊ မှတ်တမ်းတစ်ခုစီကို BT-NNN-LABEL ပုံစံဖြင့် benchmark-internal case code တစ်ခု သတ်မှတ်ပေးခဲ့သည်။ လုပ်ဆောင်မှုကို အောက်ပါအတိုင်း ဆောင်ရွက်ခဲ့သည် GDPR Article 9(2)(j) သက်ဆိုင်ရာ ကာကွယ်ရေးအစီအမံများနှင့်အတူ သိပ္ပံဆိုင်ရာ သုတေသနအတွက်၊ နှင့် UK GDPR ၏ သက်ဆိုင်ရာ ပြဋ္ဌာန်းချက်များအတိုင်းလည်း ဖြစ်သည်။ ထုတ်ဝေထားသော harness၊ နည်းပညာဆိုင်ရာ အစီရင်ခံစာ၊ သို့မဟုတ် ထုတ်လွှတ်ထားသော dataset များတွင် ကိုယ်ရေးကိုယ်တာကို သတ်မှတ်နိုင်သော အချက်အလက်များ မည်သည့်နေရာတွင်မျှ မပါဝင်ပါ။.
ဒီဖြန့်ဝေမှုကို အဘယ်ကြောင့် အထူးသဖြင့် ရွေးချယ်ထားတာလဲ
သွေးဗေဒပညာရပ်တွင် အမှု ၃ ခုရရှိသည်မှာ microcytic ကွဲပြားမှုများနှင့် macrocytic ကွဲပြားမှုများသည် လက်တွေ့ဓာတ်ခွဲခန်းလုပ်ငန်းတွင် အများဆုံး “trap” ဖြစ်သောကြောင့်ဖြစ်သည်။ အာရုံကြောဆိုင်ရာ/ဟော်မုန်းဆိုင်ရာပညာရပ်တွင် အမှု ၃ ခုရရှိသည်မှာ Hashimoto's၊ PCOS နှင့် ဗီတာမင်ဒီ ချို့တဲ့ခြင်း တင်ပြပုံများသည် မတူညီသော ရောဂါရှာဖွေမှုပုံစံများကို လေ့ကျင့်ပေးသောကြောင့်ဖြစ်သည် (autoantibody-driven၊ hormone-ratio-driven၊ single-marker-driven)။ CKD၊ ASCVD risk နှင့် SLE တို့တွင် တစ်ခုစီအတွက် သီးသန့်အမှုတစ်ခုသာရှိသော်လည်း အဓိပ္ပါယ်ရှိနေသေးသည်။ အကြောင်းမှာ အင်ဂျင်က ခေါ်သုံးရမည့် ကိုယ်ပိုင် အမှတ်ပေးစနစ်တစ်ခုစီရှိသောကြောင့်ဖြစ်သည် (အသီးသီး KDIGO staging၊ ASCVD 10-year risk၊ 2019 EULAR/ACR SLE criteria)။.
ကြိုတင်မှတ်ပုံတင်ထားသော rubric ကို ရှင်းပြချက်
ကြိုတင်မှတ်ပုံတင်ခြင်း (pre-registration) သည် ဤ benchmark တွင် အရေးကြီးဆုံး နည်းလမ်းပိုင်းဆိုင်ရာ ရွေးချယ်မှုတစ်ခုဖြစ်သည်။ မျှော်မှန်းထားသည့် ရောဂါရှာဖွေမှုတိုင်း၊ ဆေးခန်းအမှတ်ပေးစနစ်တိုင်း၊ နှင့် အစီရင်ခံစာ အပိုင်းတိုင်းကို source code ထဲသို့ ကြိုတင်ကတိပြုထားပြီးဖြစ်သည် အင်ဂျင်ကို မခေါ်မီ. ဖြစ်သောကြောင့်။ အင်ဂျင်ကို ချီးမြှောက်စေမည့် rubric ကို post-hoc ချိန်ညှိခြင်းမှာ ထို့ကြောင့် မဖြစ်နိုင်ပါ။.
ပေါင်းစပ်အမှတ် (composite score) ကို အစိတ်အပိုင်း ၃ ခုဖြင့် ဖွဲ့စည်းထားသည်။ structural component သည် ၃၅ ရာခိုင်နှုန်း ပံ့ပိုးပြီး အင်ဂျင်သည် မဖြစ်မနေ အစီရင်ခံစာ အပိုင်း ၇ ခု (header၊ summary၊ key findings၊ differential၊ scoring systems၊ recommendations၊ follow-up) နှင့် ၎င်းတို့အတွင်းရှိ မဖြစ်မနေ အပိုင်းခွဲ ၁၆ ခုကို ပြန်ပေးခဲ့/မပေးခဲ့ကို တိုင်းတာသည်။ အပိုင်းရှိ/မရှိ (Section presence) သည် structural တွက်ချက်မှုအတွင်း ၄၀ ရာခိုင်နှုန်း အလေးချိန်ရှိပြီး အပိုင်းခွဲရှိ/မရှိ (subsection presence) သည် ၆၀ ရာခိုင်နှုန်း အလေးချိန်ရှိသည်။.
ဟိ clinical component သည် ၅၅ ရာခိုင်နှုန်း ပံ့ပိုးပြီး အရာ ၃ ခုကို ပေါင်းစပ်ထားသည်—ရောဂါရှာဖွေမှု-သော့ချက်စာလုံး ပြန်ခေါ်နိုင်မှု (clinical sub-score ၏ ၇၀ ရာခိုင်နှုန်း)၊ scoring-system ပြန်ခေါ်နိုင်မှု (၂၀ ရာခိုင်နှုန်း—သက်ဆိုင်ရာနေရာများတွင် အင်ဂျင်သည် Mentzer၊ FIB-4၊ HOMA-IR၊ ASCVD risk၊ KDIGO staging၊ EULAR/ACR criteria တို့ကို တွက်ချက်ပေးနိုင်/မပေးနိုင်)၊ နှင့် ဖြစ်နိုင်ခြေ-ပေါင်းလဒ် တရားဝင်မှု စစ်ဆေးချက် (၁၀ ရာခိုင်နှုန်း—differential ဖြစ်နိုင်ခြေများသည် [90, 110] အတွင်း ပေါင်းလဒ်ဖြစ်ရမည်)။ trap အမှုများအတွက် fabricated pathology flag တစ်ခုချင်းစီအတွက် 0.10 နှုန်းဖြင့် တွက်ချက်ပြီး အများဆုံး flag ၃ ခုအထိ ကန့်သတ်ထားသည့် explicit hyperdiagnosis penalty (အများဆုံး 0.30) ကို နုတ်ယူသည်။.
ဟိ latency component သည် ၁၀ ရာခိုင်နှုန်း ပံ့ပိုးသည်။ ၂၀ စက္ကန့်အောက် တုံ့ပြန်မှုသည် အပြည့် 0.10 ရရှိပြီး၊ ၄၀ စက္ကန့်အောက် တုံ့ပြန်မှုသည် 0.05 ရရှိကာ၊ ပိုနှေးသည့် မည်သည့်အရာမဆို 0 ရရှိသည်။ ၂၀ စက္ကန့် ပစ်မှတ်သည် production primary-path service-level objective ကို ထင်ဟပ်စေပြီး၊ ၄၀ စက္ကန့် ကန့်သတ်ချက်သည် heavy-engine invocations များအတွက် Phase 2 fallback budget ကို ထင်ဟပ်စေသည်။.
pre-registration ကာကွယ်ပေးနိုင်သည့်အရာ
First-party benchmark များသည် post-hoc rubric tuning ဖြင့် မိမိတို့၏ နံပါတ်များကို ဖောင်းပွစေတတ်ကြောင်း လူသိများသည်။ ပုံစံမှာ အမြဲလိုလို တူညီနေတတ်သည်—အဖွဲ့က အင်ဂျင်ကို လုပ်ဆောင်ပြီး မည်သည့်နေရာတွင် အားနည်းသည်ကို မြင်ကာ၊ ထို့နောက် အားနည်းနေသော နယ်ပယ်များကို အမှတ်နည်းနည်းသာ ရေတွက်စေမည့်အတွက် rubric ကို တိတ်တဆိတ် ချိန်ညှိလိုက်သည်။ ပထမဆုံး အင်ဂျင်ခေါ်မီ rubric ကို source code ထဲသို့ ကတိပြုထားပြီး harness ကို MIT licence ဖြင့် ထုတ်ပြန်လိုက်သည့်အတွက်၊ ထိုချိန်ညှိမှုသည် version control တွင် မြင်သာလာသည်။ မည်သူမဆို repository ကို clone လုပ်နိုင်ပြီး rubric author dates များကို စစ်ဆေးကာ အင်ဂျင်ရလဒ်များကို အမှတ်ပေးခြင်းကို ပုံဖော်ရန် အသုံးမပြုခဲ့ကြောင်း အတည်ပြုနိုင်သည်။.
Hyperdiagnosis trap အမှုကိစ္စများ — အလွန်အမင်း ခေါ်ဆိုခြင်း (over-calling) က အမှန်တကယ် ပျက်ကွက်မှု ပုံစံ (failure mode) ဘာကြောင့်လဲ
ပုံမှန် စစ်ဆေးမှုများတွင် ရောဂါလက္ခဏာကို အလွန်အမင်း ခေါ်ဆို (over-calling) လုပ်ခြင်းသည် consumer-facing medical assistants များတွင် မှတ်တမ်းတင်ထားသည့် ပျက်ကွက်မှု ပုံစံတစ်ခုဖြစ်သည်။ ၎င်း၏ နောက်ဆက်တွဲကုန်ကျစရိတ်များတွင် မလိုအပ်သော စုံစမ်းစစ်ဆေးမှု၊ လူနာစိုးရိမ်ပူပန်မှု၊ နှင့် iatrogenic workup တို့ ပါဝင်သည်။ ဤ benchmark ရှိ trap အမှု ၂ ခုကို ထိုပျက်ကွက်မှု ပုံစံကို မြင်သာစေပြီး အမှတ်ပေးနိုင်အောင် ဒီဇိုင်းလုပ်ထားသည်။.
🟡 Trap 1 — BT-014-GILBERT
တင်ပြပုံ။. စုစုပေါင်း bilirubin 2.4 mg/dL ရှိသော အသက် ၂၄ နှစ် အမျိုးသား။ direct fraction သည် ပုံမှန်ဖြစ်ပြီး၊ transaminases နှင့် alkaline phosphatase တို့သည် ၎င်းတို့၏ reference range အတွင်းတွင် ရှိနေကာ၊ reticulocytes များမှာ ထူးခြားမှုမရှိပြီး၊ haptoglobin နှင့် LDH သည် haemolysis ကို ဖယ်ထုတ်ပေးသည်။.
မှန်ကန်သော အဓိပ္ပါယ်ဖတ်နည်း။. Gilbert's syndrome — benign UGT1A1 polymorphism ဖြစ်သည်။ အဓိပ္ပါယ်ဖတ်ရာတွင် hepatitis၊ cirrhosis၊ haemolytic anaemia၊ သို့မဟုတ် biliary obstruction ကို မခေါ်သုံးသင့်ပါ။.
V11 ရလဒ်။. Composite 1.000။ စောင့်ကြည့်ထားသည့် over-diagnosis flag ၆ ခုအနက် မည်သည့်အရာမျှ active diagnosis အဖြစ် မပေါ်ခဲ့ပါ။.
🟡 Trap 2 — BT-015-HEALTHY
တင်ပြပုံ။. parameter ၁၅ ခုပါ routine screening panel ရှိသော အသက် ၃၅ နှစ် အမျိုးသမီး။ analyte တိုင်းသည် ၎င်း၏ reference range အတွင်းတွင် သက်တောင့်သက်သာ ရှိနေသည်။.
မှန်ကန်သော အဓိပ္ပါယ်ဖတ်နည်း။. စိတ်ချစရာဖြစ်စေခြင်းနှင့် လူနေမှုပုံစံ ထိန်းသိမ်းခြင်း။ အဓိပ္ပာယ်ဖော်ချက်သည် ဆေးဘက်ဆိုင်ရာအရ အသုံးဝင်သည်ဟု ထင်ရစေရန် နယ်နိမိတ်အဆင့် ရောဂါလက္ခဏာများကို တီထွင်ဖန်တီးမထားသင့်ပါ။.
V11 ရလဒ်။. ပေါင်းစပ်ရမှတ် 1.000။ စောင့်ကြည့်ထားသော အလွန်အမင်း ရောဂါလွန်ကဲစွာ ခန့်မှန်းခြင်း အလံခုနစ်ခု—ဆီးချို၊ သွေးအားနည်းရောဂါ၊ သိုင်းရွိုက်လုပ်ဆောင်မှု လျော့နည်းခြင်း၊ အဆီဓာတ်မညီမျှခြင်း၊ အသည်းရောင်ရောဂါ၊ ကျောက်ကပ်ရောဂါ၊ ချို့တဲ့မှု—အနက် မည်သည့်အရာမျှ တက်ကြွသော ရောဂါအဖြစ် ပေါ်မလာပါ။.
ထောင်ချောက်နှစ်ခုလုံးတွင် စောင့်ကြည့်ထားသော hyperdiagnosis အလံ ၁၃ ခုကို စစ်ဆေးခဲ့သည်။ မည်သည့်အရာမျှ အစပျိုးမခံရပါ။ AI အင်ဂျင်ကို triage သို့မဟုတ် စစ်ဆေးမတိုင်မီ အသုံးပြုရန် စဉ်းစားနေသည့် ဆရာဝန်တိုင်းအတွက် အရေးအကြီးဆုံးဖြစ်သည့် ရလဒ်မှာ ဤအချက်ဖြစ်သည်— မရှိသည့်နေရာတွင် ရောဂါကို စနစ်က တီထွင်မထားပါ.
Mentzer index: သံဓာတ်ချို့တဲ့ခြင်းကို thalassaemia trait မှ ခွဲခြားခြင်း
ဒုတိယ အရည်အသွေးမြင့် ရှာဖွေတွေ့ရှိချက်တစ်ခုမှာ case BT-001 (သံဓာတ်ချို့တဲ့ သွေးအားနည်းရောဂါ) ကို case BT-007 (beta-thalassaemia minor) နှင့် တွဲဖက်ထားခြင်းဖြစ်သည်။ နှစ်ခုလုံးသည် microcytosis ဖြင့် တင်ပြကြပြီး အတွေ့အကြုံမရှိသော ခွဲခြားစနစ်များအတွက် အလွန်သိသာသော အခက်အခဲတစ်ခုဖြစ်သည်။ MCV ကို RBC အရေအတွက်ဖြင့် ပိုင်းခြား၍ တွက်ချက်သော Mentzer index သည် သံဓာတ်ချို့တဲ့ခြင်းတွင် 13 ထက်ကျော်ပြီး thalassaemia trait တွင် 13 ထက်နိမ့်သည်။.
BT-001 တွင် လူနာမှာ အသက် 34 နှစ် အမျိုးသမီးဖြစ်ပြီး hemoglobin 10.4 g/dL၊ MCV 72.4 fL၊ RBC 4.1 × 10¹²/L၊ ferritin 6 ng/mL နှင့် TIBC မြင့်မားခြင်းရှိသည်။ ခန့်မှန်း Mentzer index သည် 17.7 ခန့်ဖြစ်ပြီး absolute iron deficiency ကို ထောက်ခံသည်။ BT-007 တွင် လူနာမှာ အသက် 28 နှစ် အမျိုးသားဖြစ်ပြီး microcytosis (MCV 65.8 fL) ရှိသော်လည်း RBC 6.2 မြင့်မားခြင်း၊ RDW ပုံမှန်၊ ferritin ပုံမှန်၊ HbA2 5.6 percent ရှိသည်။ ခန့်မှန်း Mentzer index သည် 10.6 ခန့်ဖြစ်ပြီး thalassaemia trait ကို ညွှန်ပြကာ elevated HbA2 သည် beta-thalassaemia minor ကို အတည်ပြုသည်။.
အမှုနှစ်ခုလုံးသည် ရမှတ် 1.000 ရရှိသည်။ အင်ဂျင်သည် အဓိပ္ပာယ်ဖော်ချက်နှစ်ခုလုံးတွင် Mentzer index ကို တိတိကျကျ အသုံးပြုခဲ့ပြီး အခြေအနေလက်ရှိတစ်ခုစီတွင် မှန်ကန်သော ရောဂါအမည်ကို ပြန်ပေးခဲ့သည်။. ဤသည်မှာ benchmark တစ်ခုလုံးအတွင်း ဆေးဘက်ဆိုင်ရာအရ အများဆုံး စိတ်ချစရာ ရလဒ်တစ်ခုတည်းဖြစ်သည်, အကြောင်းမှာ thalassaemia trait ကို သံဓာတ်ချို့တဲ့ခြင်းအဖြစ် မှားယွင်းခွဲခြားပါက မသင့်လျော်သော သံဓာတ်ဖြည့်စွက်ခြင်း ဖြစ်ပေါ်စေပြီး မိသားစု စစ်ဆေးခြင်း အခွင့်အလမ်းများကို လွတ်သွားစေကာ၊ သံဓာတ်ချို့တဲ့ခြင်းကို thalassaemia အဖြစ် မှားယွင်းခွဲခြားပါက လွယ်ကူသော အစားထိုးကုသမှုကို နောက်ကျစေသောကြောင့် ဖြစ်သည်။ ကျွန်ုပ်တို့၏ ferritin အကွာအဝေး လမ်းညွှန် သည် ပိုမိုကျယ်ပြန့်သော differential context ကို ရှင်းပြသည်။.
ဧပြီ 2026 စမ်းသပ်မှု လည်ပတ်မှုမှ တစ်ကြိမ်ချင်းရလဒ်များ
အမှု ၁၅ ခုအနက် ၁၂ ခုသည် primary path တွင် composite score 1.000 ၏ မျက်နှာကျက်ရမှတ်ကို ရရှိခဲ့သည်။ အမှု ၃ ခုကို Phase 2 fallback မှတစ်ဆင့် ဝန်ဆောင်ပေးခဲ့ရာ latency bonus 0.05 ကို ဆုံးရှုံးသော်လည်း ဆေးဘက်ဆိုင်ရာနှင့် ဖွဲ့စည်းတည်ဆောက်ပုံဆိုင်ရာ အကြောင်းအရာအားလုံးကို ထိန်းသိမ်းထားသည်။ အမှု ၁ ခုတွင် မဖြစ်မနေလိုအပ်သော subsection တစ်ခု ပျောက်နေခဲ့သည်။ အမှု ၁ ခုက probability distribution sum ကို အနည်းငယ် လျော့ကျသည့်အတိုင်း ပြန်ပေးခဲ့သည်။.
PCOS အမှု (BT-008) သည် တုံ့ပြန်မှုဖွဲ့စည်းပုံတွင် မဖြစ်မနေလိုအပ်သော အပိုင်းတစ်ခုကို ဆုံးရှုံးခဲ့သည်— ၁၆ ခုအနက် ၁၅ ခု (၁၆ ခုအနက် ၁၆ ခုမဟုတ်) — ထို့ကြောင့် ဖွဲ့စည်းပုံရမှတ်ကို 1.000 မှ 0.963 သို့ လျော့ကျစေခဲ့သည်။ SLE အမှု (BT-011) သည် ရောဂါရှာဖွေမှုဆိုင်ရာ သော့ချက်စာလုံးများနှင့် ရမှတ်တွက်ချက်မှုစနစ်အားလုံးကို ထိန်းသိမ်းထားရင်း၊ ဆေးခန်းရမှတ်ကို 0.965 သို့ ကျစေသည့် အနည်းငယ် လျော့ကျသွားသော ဖြစ်နိုင်ခြေ-ဖြန့်ချီမှု ပေါင်းလဒ်ကို ပြန်ပေးခဲ့သည်။ မည်သည့် sub-perfect အမှုမျှ မှန်ကန်သော ရောဂါရှာဖွေမှုကို လွဲမချော်ခဲ့ပါ။.
ခေါင်းစဉ်ရမှတ်က မပြောပြနိုင်တဲ့အရာ
ဤသီးသန့် ကြိုတင်မှတ်ပုံတင်ထားသော စည်းမျဉ်း (rubric) အောက်တွင် 99.12 ရာခိုင်နှုန်း ပေါင်းစပ်ရမှတ်သည် မျက်နှာကျက်နီးပါး စွမ်းဆောင်ရည်ကို ကိုယ်စားပြုသော်လည်း၊ ၎င်းကို သေချာစွာ အဓိပ္ပါယ်ဖော်ပြရန် လိုအပ်သည်။ ရလဒ်သည် တစ်ကြိမ်စီသာ အကဲဖြတ်ထားသည့်၊ သေချာရွေးချယ်ထားသော anonymised အမှု ၁၅ ခုနှင့် စက်အင်ဂျင်၏ အပြုအမူကို တစ်ခုတည်းသော rubric တစ်ခုအောက်တွင် နှိုင်းယှဉ်ဖော်ပြထားခြင်းဖြစ်သည်။ အဆိုပါ နံပါတ်က ဘာကို သက်သေပြနိုင်ပြီး ဘာကို မသက်သေပြနိုင်သည်ကို ကျွန်ုပ်တို့ ရှင်းလင်းစွာ ဖော်ပြထားပါသည်။.
ရမှတ်က V11 အင်ဂျင်သည် ဤအကဲဖြတ်မှုအတွက် ရွေးချယ်ထားသော ရောဂါရှာဖွေမှုပုံစံများကို မှန်ကန်စွာ ကိုင်တွယ်နိုင်ခဲ့ကြောင်း ပြောထားသည်— ထုတ်ဝေပြီး ပြန်လည်ပြုလုပ်နိုင်သည့် နည်းလမ်းတစ်ခုအပေါ်တွင် ဖြစ်သည်။ လက်တွေ့လောကတွင် ရှိနေသည့် သွေးစစ်ဆေးမှု panel အားလုံးအတွက် အင်ဂျင်သည် မှန်ကန်သည်ဟု မဆိုလိုပါ။ ဆရာဝန်/ကျန်းမာရေးပညာရှင်၏ ဆုံးဖြတ်ချက်ကို အင်ဂျင်က အစားထိုးသင့်သည်ဟုလည်း မဆိုလိုပါ။ ထို့အပြင် အခြား AI စနစ်များထက် သာလွန်သည်ဟုလည်း မဆိုလိုပါ— အခြားအင်ဂျင်များနှင့် နှိုင်းယှဉ်လေ့လာမှုများကို ဤအစီရင်ခံစာ၏ အတိုင်းအတာအပြင်ဘက်အဖြစ် တမင်ထားခဲ့သည်။.
ရမှတ်က သက်သေပြနိုင်သည်မှာ အခြေခံအချက် (baseline) တစ်ခုဖြစ်သည်။ rubric နှင့် harness ကို အများပြည်သူသို့ ထုတ်ဖော်ထားပြီးဖြစ်သဖြင့်၊ အင်ဂျင်၏ အနာဂတ်ဗားရှင်းများကို အမှု ၁၅ ခုတည်းနှင့် တူညီစွာ အကဲဖြတ်နိုင်ပြီး၊ ထုတ်ဝေထားသော ရမှတ်နှင့် နောက်ထပ် run တစ်ခုခုကြားက ကွာဟချက်ကိုလည်း တိုင်းတာနိုင်သည်။ ကြိုတင်မှတ်ပုံတင်ခြင်း၏ တန်ဖိုးမှာ— စွမ်းဆောင်ရည်ဆိုင်ရာ တောင်းဆိုချက်များကို စမ်းသပ်နိုင်သော တောင်းဆိုချက်များအဖြစ် ပြောင်းလဲပေးသည်.
၁၀ မိနစ်အတွင်း ဒီ benchmark ကို ဘယ်လိုပြန်ထုတ်လုပ်မလဲ
ပြန်လည်ပြုလုပ်ရန်အတွက် Kantesti API credential pair တစ်ခုနှင့် Python 3.10 သို့မဟုတ် နောက်ပိုင်း ပတ်ဝန်းကျင်တစ်ခုသာ လိုအပ်သည်— requests နှင့် reportlab libraries များကို ထည့်သွင်းထားပြီးဖြစ်ရမည်။ အပြည့်အစုံ harness သည် MIT လိုင်စင်အောက်တွင် ထုတ်ပြန်ထားသော တစ်ခုတည်းသော self-contained Python module တစ်ခုဖြစ်သည်။.
လတ်ဆတ်သော run တစ်ခုအတွက် အဆင့် ၄ ခု
တစ်။. repository ကို clone လုပ်ပါ— git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. နှစ်။. လိုအပ်သော ပက်ကေ့ချ်များကို
ထည့်သွင်းရန် pip install -r requirements.txt. သုံး။. သတ်မှတ်ပါ KANTESTI_USERNAME နှင့် KANTESTI_PASSWORD ကို ပတ်ဝန်းကျင် ပြောင်းလဲမှုများ (environment variables) အဖြစ်— အထောက်အထားများကို လုပ်ဆောင်ချိန်တွင် ဖတ်ရှုမည်ဖြစ်ပြီး script ထဲတွင် မည်သည့်အရာကိုမျှ တင်းတိပ်စွာ ထည့်မထားပါ။. လေး။. လုပ်ဆောင်ပါ python benchmark_bloodtest.py ပြီးတော့ အလုပ်လုပ်နေရာ directory ထဲသို့ ထုတ်ပေးထားသည့် artefact လေးခုကို စစ်ဆေးပါ— CSV scorecard တစ်ခု၊ JSON scorecard တစ်ခု၊ raw engine responses များပါဝင်သည့် full JSON dump တစ်ခု၊ နှင့် လူဖတ်လို့ရသော Markdown report တစ်ခု။.
2026 ခုနှစ် ဧပြီလ 23 ရက်မှ reference run ကို repository ၏ results/ directory ထဲတွင် ထိန်းသိမ်းထားသည်။ လတ်တလော run တစ်ခုသည် reference run ကို မထိခိုက်စေဘဲ timestamp ပါသည့် scorecard အသစ်တစ်ခု ထုတ်ပေးမည်ဖြစ်သည်။ သင့် run မှာ အဓိပ္ပါယ်ရှိစွာ ကွာခြားသော ရလဒ်ထွက်ပါက GitHub issue တစ်ခု ဖွင့်ပါ— run timestamp နှင့် response metadata ထဲတွင် ပြန်လာသည့် engine version ကိုပါ ထည့်ပေးပါ။.
ကန့်သတ်ချက်များနှင့် အနာဂတ်လုပ်ငန်း
ကန့်သတ်ချက် လေးခုကို အတိအကျ အသိအမှတ်ပြုရန် ထိုက်တန်သည်— နမူနာအရွယ်အစား၊ single-shot evaluation၊ single-engine scope၊ နှင့် single-source data origin။ ယင်းတို့ကို လက်ရှိ follow-up လုပ်ငန်းများဖြင့် ဖြေရှင်းလျက်ရှိသည်။.
နမူနာအရွယ်အစား။. အထူးပြု bucket ရှစ်ခုအတွင်း case ဆယ့်ငါးခုသည် proof of concept အတွက် လုံလောက်သော်လည်း အထူးပြုတစ်ခုအတွင်း subgroup analysis အတွက် မလုံလောက်ပါ။ case ငါးဆယ်အထိ တိုးချဲ့ရန် စီစဉ်ထားပြီး coagulation panels၊ haematological malignancy screening၊ ကိုယ်ဝန်ဆိုင်ရာ panel များ၊ နှင့် ကလေးအထူးပြု တင်ပြမှုများ ပါဝင်မည်ဖြစ်သည်။.
Single-shot evaluation။. case တစ်ခုစီကို တစ်ကြိမ်သာ အကဲဖြတ်ခဲ့သည်။ sampling temperature နိမ့်သော်လည်း large language models များသည် output variance ကို အရေးမပါမဟုတ်အောင် ပြသတတ်သောကြောင့် case တစ်ခုချင်းစီအတွက် evaluations ငါးကြိမ်ပါဝင်သည့် multi-run protocol နှင့် ဖော်ပြထားသော variance သည် သဘာဝကျသည့် နောက်တစ်ဆင့်ဖြစ်သည်။.
Single-engine scope။. ဤ report သည် engine တစ်ခုတည်းကို ဖော်ပြထားသည်။ အခြား AI စနစ်များနှင့် နှိုင်းယှဉ်သုံးသပ်မှုများသည် ဤနေရာတွင် မပါဝင်ပါ (out of scope); သင့်လျော်သော methodology ဖြင့် သီးခြား independent study အဖြစ် ကျွန်ုပ်တို့ ဆက်လက်လုပ်ဆောင်နိုင်ပါသည်။.
Single-source data origin။. case ဆယ့်ငါးခုသည် single clinical repository တစ်ခုမှ ရယူထားသည့် အမှတ်အသားဖျက်ထားသော (anonymised) အမှန်တကယ် လူနာမှတ်တမ်းများ ဖြစ်သည်။ ၎င်းတို့သည် စီမံထားသော နမူနာတစ်ခုကို ကိုယ်စားပြုပြီး လူဦးရေကို ကိုယ်စားပြုသည့် ကျပန်းရွေးချယ်မှု (random draw) မဟုတ်ပါ။ evaluation ကို multi-centre data သို့ တိုးချဲ့ခြင်းကို လမ်းပြမြေပုံ (roadmap) ထဲတွင် ထည့်သွင်းထားသည်။.
အများဆုံး အကျိုးသက်ရောက်မည့် စီစဉ်ထားသည့် တိုးချဲ့မှုမှာ multi-language parity ဖြစ်သည်။ Kantesti AI Engine သည် 75+ ဘာသာစကားများဖြင့် အသုံးပြုသူများကို ဝန်ဆောင်မှုပေးသည်။ Turkish၊ German၊ Spanish၊ French၊ နှင့် Arabic တို့တွင် case ဆယ့်ငါးခုတူညီသည့် harness ကို လုပ်ဆောင်ခြင်းဖြင့် engine ၏ ပံ့ပိုးထားသည့် ဘာသာစကားများအကြား output quality ကို တိုင်းတာမည်ဖြစ်သည်။ ဘာသာစကားတစ်ခုချင်းစီအတွက် run တစ်ခုစီကို ၎င်း၏ကိုယ်ပိုင် DOI နှင့် harness branch တို့နှင့်အတူ ထုတ်ဝေမည်ဖြစ်သည်။.