Kantesti AI သွေးစစ်ဆေးခြင်း စံညွှန်း — ဆေးခန်းအတည်ပြုချက်

လက်တွေ့အတည်ပြုချက် ကြိုတင်မှတ်ပုံတင်ထားသော စံနှုန်း (Benchmark) V11 — ၂၀၂၆ ခုနှစ် ဧပြီလ MIT လိုင်စင်ဖြင့် အခြားသူများ စစ်ဆေးအတည်ပြုနိုင်သော (Peer-Verifiable)

ကြိုတင်မှတ်ပုံတင်ထားသော စံသတ်မှတ်ချက် (rubric) တစ်ခုအပေါ်တွင် Hyperdiagnosis မှားယွင်းသော အပြုသဘော (false-positives) သုညဖြင့် 99.12% ပေါင်းစပ်ရမှတ်

anonymised သွေးစစ်ဆေးမှု အမှုကိစ္စများအပေါ် Kantesti AI Engine ကို စမ်းသပ်အကဲဖြတ်သည့် လွတ်လပ်ပြီး ကြိုတင်မှတ်ပုံတင်ထားသော ဆေးဘက်ဆိုင်ရာ အကဲဖြတ်မှုတစ်ခု။ ပထမဆုံး engine ကိုခေါ်မသုံးမီ စံညွှန်း (rubric) ကို source code ထဲတွင် အေးခဲထားပြီး၊ အကဲဖြတ်မှု harness ကို MIT လိုင်စင်ဖြင့်ထားကာ၊ raw တုံ့ပြန်မှုတိုင်းကို ထုတ်ဝေထားသည်။.

📖 ~14 မိနစ် 📅 ဧပြီ 23, 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 ထုတ်ဝေထားသည်— ဧပြီ 23, 2026 🩺 ဆေးဘက်ဆိုင်ရာအရ ပြန်လည်သုံးသပ်ထားသည်— ဧပြီ 23, 2026 ✅ ကြိုတင်မှတ်ပုံတင်ထားသော Rubric 🔓 ဖွင့်ထားသော Code & Data

ဤ ဆေးဘက်ဆိုင်ရာ အတည်ပြုစစ်ဆေးမှုကို ဦးဆောင်ခဲ့သူမှာ ဒေါက်တာ သောမတ်စ် ကလိုင်း၊ MD, ၊ Kantesti AI ၏ Chief Medical Officer ဖြစ်ပြီး Julian Emirhan Bulut, နှင့် ပူးပေါင်း၍ ဆောင်ရွက်ခဲ့သည်— Senior AI Engineer နှင့် Kantesti Ltd ၏ CEO ဖြစ်သည်။ နည်းလမ်း (Methodology) နှင့် rubric ကို Kantesti AI ဆေးဘက်ဆိုင်ရာ အကြံပေးဘုတ်အဖွဲ့.

Lead Author & Clinical Oversight

သောမတ်စ် ကလိုင်း၊ MD

အကြီးတန်းဆေးဘက်ဆိုင်ရာအရာရှိ၊ Kantesti AI

ဒေါက်တာ Thomas Klein သည် ဘုတ်အဖွဲ့မှ အသိအမှတ်ပြုထားသော ဆေးခန်းသုံး သွေးရောဂါအထူးကု (clinical hematologist) နှင့် အတွင်းလူနာဆရာဝန် (internist) ဖြစ်ပြီး ဓာတ်ခွဲခန်းဆေးပညာတွင် အတွေ့အကြုံ ၁၅ နှစ်ကျော်ရှိသည်။ Kantesti AI ၏ Chief Medical Officer အဖြစ်၊ ဤ benchmark အတွက် အမှုကိစ္စအစု (case panel) ကို ရွေးချယ်ခဲ့ပြီး၊ အတည်ပြုရမည့် ရောဂါရှာဖွေရေး အမှန်တရားများ (diagnostic ground truths) အားလုံးကို ပြန်လည်စစ်ဆေးကာ၊ ပထမဆုံး engine ကိုခေါ်မသုံးမီ ကြိုတင်မှတ်ပုံတင်ထားသော rubric ကို အတည်ပြုခဲ့သည်။.

ORCID 0009-0009-1490-1321 သုတေသနဂိတ် ဂူဂယ် စကော်လာ

တွဲဖက်ရေးသားသူ & အကောင်အထည်ဖော်မှု

Julian Emirhan Bulut

Senior AI Engineer & CEO, Kantesti Ltd

Julian Emirhan Bulut သည် Kantesti Ltd ၏ တည်ထောင်သူနှင့် CEO ဖြစ်သည်။ Kantesti Ltd အကဲဖြတ်မှု harness ကို ဒီဇိုင်းရေးဆွဲပြီး အကောင်အထည်ဖော်ခဲ့ကာ၊ API ပေါင်းစည်းမှုကို ဆောင်ရွက်ခဲ့ပြီး၊ ၂၀၂၆ ခုနှစ် ဧပြီလ benchmark ကို လုပ်ဆောင်ခဲ့ကာ၊ စာရင်းအင်းဆိုင်ရာ စုစည်းမှု (statistical aggregation) ကို ပြင်ဆင်ခဲ့သည်။ ၂၀၁၉ ခုနှစ်ကတည်းက ပလက်ဖောင်း၏ တည်ထောင်သူ။.

GitHub Kantesti အကြောင်း

⚡ အကျဉ်းချုပ် V11 — ဧပြီ 23, 2026

99.12% ပေါင်းစပ်ရမှတ် ဆေးဘက်ဆိုင်ရာ အထူးပြု ၇ ခုအတွင်းမှ လူနာမှတ်တမ်း အမည်မဖော်ထားတဲ့ သွေးစစ်ဆေးမှု အမှု ၁၅ ခုအပေါ်။.
hyperdiagnosis မှားယွင်းသော positive (false-positives) မရှိ trap case နှစ်မျိုးလုံးအပေါ် (Gilbert's syndrome နှင့် အရွယ်ရောက်ပြီးသူ စစ်ဆေးမှု ပုံမှန်အပြည့်အစုံ)။.
ကြိုတင်မှတ်ပုံတင်ထားသော rubric ပထမဆုံး engine call မတိုင်မီ source code ထဲမှာ အေးခဲထားပြီး — post-hoc tuning မဖြစ်နိုင်ပါ။.
Mentzer index ကို မှန်ကန်စွာ အသုံးချထားသည် သံဓာတ်ချို့တဲ့ သွေးအားနည်းရောဂါ (iron deficiency anaemia) ကို beta-thalassaemia minor မှ ခွဲခြားရန်။.
Production endpoint သာ — privileged routing မရှိ၊ ပေးဆောင်သုံးစွဲသူတစ်ဦးက ဝင်ရောက်သုံးစွဲသလိုပဲ တိတိကျကျ အကဲဖြတ်ထားသည်။.
ပျမ်းမျှ latency 20.17 စက္ကန့် end-to-end အနေဖြင့်၊ ၁၅ ခုအနက် ၁၂ ခုသည် ၂၀ စက္ကန့် အဓိကလမ်းကြောင်း ပစ်မှတ်အောက်တွင်ရှိသည်။.
MIT လိုင်စင်ပါ harness GitHub တွင် ထုတ်ပြန်ထားပြီး raw engine response တစ်ခုချင်းစီပါဝင်သည် — လွတ်လပ်စွာ ပြန်လည်စမ်းသပ်နိုင်မှုကို ထောက်ပံ့ထားသည်။.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub တွင် mirror လုပ်ထားသည်။.

ဒီ benchmark က ဘာကြောင့်ရှိပြီး ဘာကို စမ်းသပ်တာလဲ

AI-assisted blood test interpretation ကို စားသုံးသူနှင့် ဆေးဘက်ဆိုင်ရာ လုပ်ငန်းစဉ်များတွင် ပိုမိုအသုံးများလာနေသော်လည်း ဓာတ်ခွဲခန်းဆေးပညာနှင့် ကိုက်ညီအောင် ပြန်လည်စမ်းသပ်နိုင်သည့် အကဲဖြတ်ရေးဘောင်များမှာ မကြာခဏ မတွေ့ရသေးပါ။ ဒီအခြေအနေမှာ အရေးကြီးဆုံး မေးခွန်းတွေက အထွေထွေ ဆေးဘက်ဆိုင်ရာ မေးခွန်း-ဖြေကြား benchmark တွေမှာ ပါဝင်ထားတာတွေ မဟုတ်ပါ— mean corpuscular volume တူညီနေချိန်မှာ engine က iron deficiency ကို thalassaemia trait နဲ့ ခွဲနိုင်မလား၊ hepatitis လိုမျိုးနဲ့ Gilbert's syndrome ကို over-diagnose လုပ်မလား၊ ပုံမှန်အပြည့်အဝ screening panel တစ်ခုထဲမှာ pathology ကို ဖန်တီးထုတ်လုပ်မလားဆိုတာလား။

သွေးစစ်ဆေးမှု အကွက်တစ်ခုတည်း (blood test panel) မှာ ပုံမှန်အားဖြင့် အဓိပ္ပာယ်ဖွင့်ဆိုချက် အများအပြားကို ထောက်ပံ့နိုင်လောက်တဲ့ အချက်အလက် (signal) တွေ ပါဝင်တတ်ပြီး၊ အဓိပ္ပာယ်ဖွင့်ဆိုပေးမယ့် ဆေးဘက်ဆိုင်ရာ ကျွမ်းကျင်သူရဲ့ အလုပ်က စာအုပ်ထဲက အဖြေတစ်ခုကို ပြန်ရှာတာထက် အဲဒီအဓိပ္ပာယ်ဖွင့်ဆိုချက်တွေကို တစ်ခုနဲ့တစ်ခု ယှဉ်ပြီး အလေးချိန်ချိန်ရန် ဖြစ်ပါတယ်။ စာအုပ်ထဲက အခြေအနေတွေမှာ ကောင်းကောင်းလုပ်နိုင်တဲ့ အင်ဂျင်တစ်ခုက အရေးကြီးဆုံးဖြစ်တဲ့ အခြေအနေတွေမှာတော့ ပျက်ကွက်နိုင်ပါတယ်—ကွဲပြားရောဂါရှာဖွေမှု (differential-diagnosis) ထောင်ချောက်တွေ၊ တစ်ခုတည်းအနေနဲ့ ကြည့်ရင် စိုးရိမ်စရာလို ထင်ရပေမယ့် အန္တရာယ်မရှိတဲ့ မျိုးကွဲများ (benign variants)၊ နဲ့ အပြည့်အဝ ပုံမှန် (fully normal) အကွက်တွေကနေ ယုံကြည်စိတ်ချစွာ လက်ထောက်တွေကို ရောဂါလက္ခဏာတု (manufacturing pathology) ဖန်တီးစေတဲ့အရာတွေပါဝင်ပါတယ်။.

ဒီ benchmark ကို အဲဒီလို ပျက်ကွက်နိုင်တဲ့ ပုံစံတွေကို အတိအကျ အခြေခံပြီး တည်ဆောက်ထားပါတယ်။ Case (၁၅) ခုစီကို သီးခြား ရောဂါရှာဖွေရေး ဂုဏ်သတ္တိတစ်ခုအတွက် ရွေးချယ်ထားပါတယ်—တူညီတဲ့ mean corpuscular volume (MCV) ရှိတဲ့ beta-thalassaemia trait နဲ့ ခွဲခြားထားရမယ့် iron-deficient microcytosis၊ ပုံမှန်မဟုတ်မှု တစ်ခုတည်းသာ ဖြစ်တဲ့ isolated indirect hyperbilirubinaemia ပါဝင်တဲ့ Gilbert's syndrome ပုံစံ၊ နဲ့ analyte တစ်ခုချင်းစီက reference range အတွင်းမှာပဲ ရှိနေတဲ့ fifteen-parameter screening panel တစ်ခု။ rubric က case တစ်ခုချင်းစီကို ကိုယ်ပိုင်အခြေအနေအရ ဖတ်တတ်တဲ့ engine တွေကို ဆုချပြီး၊ အဲဒီလို ရောဂါရှာဖွေမှုမျိုး မလိုအပ်တဲ့နေရာမှာ ယုံကြည်စိတ်ချစွာ ရောဂါရှာဖွေမှုတစ်ခုကို ဆွဲယူသွားတဲ့ engine တွေကို ဒဏ်ခတ်ပါတယ်။.

MD ဖြစ်သူ Thomas Klein အနေနဲ့၊ ဒီ case panel ကို ကျွန်တော်ရွေးချယ်ခဲ့တာက—laboratory-medicine လက်ထောက်တွေက အများဆုံး မှားတတ်တဲ့ ပုံစံတွေက ဒီလိုပဲ ဖြစ်လို့ပါ။. အကုန်အကျများတဲ့ ပျက်ကွက်မှုက "ရှားပါးရောဂါတစ်ခုကို လွတ်သွားခြင်း" မဟုတ်ပါ—အဲဒီလို မရှိတဲ့ လူနာတွေမှာ ပုံမှန်ဖြစ်တတ်တဲ့ ရောဂါလက္ခဏာ (routine pathology) ကို တီထွင်ဖန်တီးခြင်း (fabricating) ဖြစ်ပါတယ်။. ကျွန်တော်တို့ရဲ့ ဆေးဘက်ဆိုင်ရာအတည်ပြုချက် hub က ပိုကျယ်တဲ့ framework ကို ဖော်ပြထားပါတယ်၊ ဒီစာမျက်နှာကတော့ V11 engine ပေါ်မှာ အသုံးချရလဒ် (applied result) ကို ဖော်ပြထားပါတယ်။.

နောက်ဆုံးရည်ညွှန်း run — V11 (၂၀၂၆ ခုနှစ် ဧပြီလ)

Kantesti AI Engine V11 ရဲ့ 2026 ခုနှစ် ဧပြီလ reference run မှာ composite score တစ်ခု ထွက်ခဲ့ပါတယ်။ 99.12% pre-registered fifteen-case rubric အပေါ်မှာ။ hyperdiagnosis trap case နှစ်ခုစလုံးက ceiling အထိ ရမှတ်ရခဲ့ပါတယ်။ Mentzer index ကို iron-deficiency နှင့် thalassaemia အကြား ကွဲပြားရောဂါရှာဖွေမှု (differential) မှာ မှန်ကန်စွာ အသုံးချထားပါတယ်။.

Composite 99.12% 15/15 case များ ရမှတ်ရ

0.998 Structural score

0.998 Clinical score

20.17 s ပျမ်းမျှ latency

0 / 13 Trap false-positives

composite ဖော်မြူလာက အစိတ်အပိုင်း (၃) ခုကို ပေါင်းစပ်ထားပါတယ်— structural conformance မဖြစ်မနေ report sections (၇) ခုနဲ့ မဖြစ်မနေ subsections (၁၆) ခုတို့နဲ့ ကိုက်ညီမှု၊, clinical accuracy keyword recall + scoring-system recall + probability-distribution validity check အဖြစ် တိုင်းတာထားပြီး၊ response latency ၂၀ စက္ကန့် အဓိက service-level target ကို ဆန့်ကျင်ပြီး (against)။ အတိအကျ ခွဲထုတ်ပြထားတာကို အောက်က rubric formula မှာ ပြထားပါတယ်။.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

ကျန်ရှိနေသည့် ခေါင်းခန်း (headroom) 0.88 ရာခိုင်နှုန်းအမှတ်များသည် အများအားဖြင့် latency loss အဖြစ်သာ ခွဲထွက်သွားသည်—Phase 2 fallback ခေါ်ဆိုမှု သုံးကြိမ်စီ (တစ်ခုချင်းစီ၏ ပေါင်းစပ်တန်ဖိုးမှာ minus 0.05) သည် 0.88-point ချို့တဲ့မှု၏ 0.60 ခန့်ကို ပံ့ပိုးခဲ့သည်—ဆေးဘက်ဆိုင်ရာ အကြောင်းအရာထဲသို့ မဝင်ဘဲ ဖြစ်သည်။ အင်ဂျင်သည် အမှု ၁၅ ခုလုံးတွင် မှန်ကန်သော ရောဂါရှာဖွေမှုကို မလွဲချော်ခဲ့ပါ။ လိုအပ်ချက်နည်းနည်းလျော့သွားသည့်နေရာတွင်မူ၊ invocations အနည်းငယ်သာရှိသည့် အချို့တွင် 20 စက္ကန့် အဓိက-path ပစ်မှတ်ထက် အနည်းငယ်ပိုကြာအောင် လုပ်ဆောင်ခြင်းကြောင့်သာ ဖြစ်သည်။.

ဆေးဘက်ဆိုင်ရာ အထူးပြု ခုနစ်မျိုးအတွင်းမှ အမှုကိစ္စ ဆယ့်ငါးခု

အမှုအဖွဲ့ (case panel) တွင် အထူးပြု ၇ ခု ပါဝင်သည်—သွေးရောဂါဗေဒ (hematology)၊ အတွင်းဂလင်းရောဂါဗေဒ (endocrinology)၊ ဇီဝဖြစ်စဉ်ဆိုင်ရာ ဆေးပညာ (metabolic medicine)၊ အသည်းရောဂါဗေဒ (hepatology)၊ ကျောက်ကပ်ရောဂါဗေဒ (nephrology)၊ နှလုံးရောဂါဗေဒ (cardiology)၊ အဆစ်အမြစ်ရောင်ရောဂါဗေဒ (rheumatology)—အပြင် hyperdiagnosis trap အတွက် သီးသန့် အမှု ၂ ခုလည်း ပါသည်။ အမှုတစ်ခုစီသည် သဘောတူညီချက်ဖြင့် ရေးသားထားသော informed consent အောက်တွင် Kantesti clinical data repository မှ ထုတ်ယူထားသည့် anonymised အမှန်တကယ် လူနာမှတ်တမ်းတစ်ခုဖြစ်သည်။.

De-identification ကို Safe Harbor ချဉ်းကပ်နည်းဖြင့် ဆောင်ရွက်ခဲ့သည်—တိုက်ရိုက်သတ်မှတ်နိုင်သော အချက်အလက်များအားလုံးကို ဖယ်ရှားခြင်း သို့မဟုတ် အစားထိုးခြင်းပြုလုပ်ပြီး၊ မှတ်တမ်းတစ်ခုစီကို BT-NNN-LABEL ပုံစံဖြင့် benchmark-internal case code တစ်ခု သတ်မှတ်ပေးခဲ့သည်။ လုပ်ဆောင်မှုကို အောက်ပါအတိုင်း ဆောင်ရွက်ခဲ့သည် GDPR Article 9(2)(j) သက်ဆိုင်ရာ ကာကွယ်ရေးအစီအမံများနှင့်အတူ သိပ္ပံဆိုင်ရာ သုတေသနအတွက်၊ နှင့် UK GDPR ၏ သက်ဆိုင်ရာ ပြဋ္ဌာန်းချက်များအတိုင်းလည်း ဖြစ်သည်။ ထုတ်ဝေထားသော harness၊ နည်းပညာဆိုင်ရာ အစီရင်ခံစာ၊ သို့မဟုတ် ထုတ်လွှတ်ထားသော dataset များတွင် ကိုယ်ရေးကိုယ်တာကို သတ်မှတ်နိုင်သော အချက်အလက်များ မည်သည့်နေရာတွင်မျှ မပါဝင်ပါ။.

သွေးရောဂါဗေဒ (3) BT-001၊ BT-006၊ BT-007 သံဓာတ်ချို့တဲ့ သွေးအားနည်းခြင်း · B12 ချို့တဲ့ခြင်း · Beta-thalassaemia minor

အတွင်းဂလင်းရောဂါဗေဒ (3) BT-002၊ BT-008၊ BT-012 Hashimoto's thyroiditis · အင်ဆူလင်ခုခံမှုနှင့်အတူ PCOS · ဗီတာမင်ဒီ ပြင်းထန်စွာ ချို့တဲ့ခြင်း

ဇီဝဖြစ်စဉ် (2) BT-003၊ BT-013 metabolic syndrome နှင့်အတူ T2DM · gout အန္တရာယ်နှင့်အတူ Hyperuricaemia

အသည်းရောဂါဗေဒ (2) BT-004၊ BT-009 NAFLD / NASH · စူးရှသော ဗိုင်းရပ်စ်အသည်းရောင်ရောဂါ

ကျောက်ကပ်ရောဂါဗေဒ · နှလုံးရောဂါဗေဒ · အဆစ်အမြစ်ရောင်ရောဂါဗေဒ (3) BT-005၊ BT-010၊ BT-011 CKD အဆင့် 3 · Atherogenic dyslipidaemia · Systemic lupus erythematosus

Trap အမှုများ (2) BT-014၊ BT-015 Gilbert's syndrome (သီးခြား indirect hyperbilirubinaemia) · အရွယ်ရောက်ပြီးသူ screen အပြည့်အဝ ပုံမှန်

ဒီဖြန့်ဝေမှုကို အဘယ်ကြောင့် အထူးသဖြင့် ရွေးချယ်ထားတာလဲ

သွေးဗေဒပညာရပ်တွင် အမှု ၃ ခုရရှိသည်မှာ microcytic ကွဲပြားမှုများနှင့် macrocytic ကွဲပြားမှုများသည် လက်တွေ့ဓာတ်ခွဲခန်းလုပ်ငန်းတွင် အများဆုံး “trap” ဖြစ်သောကြောင့်ဖြစ်သည်။ အာရုံကြောဆိုင်ရာ/ဟော်မုန်းဆိုင်ရာပညာရပ်တွင် အမှု ၃ ခုရရှိသည်မှာ Hashimoto's၊ PCOS နှင့် ဗီတာမင်ဒီ ချို့တဲ့ခြင်း တင်ပြပုံများသည် မတူညီသော ရောဂါရှာဖွေမှုပုံစံများကို လေ့ကျင့်ပေးသောကြောင့်ဖြစ်သည် (autoantibody-driven၊ hormone-ratio-driven၊ single-marker-driven)။ CKD၊ ASCVD risk နှင့် SLE တို့တွင် တစ်ခုစီအတွက် သီးသန့်အမှုတစ်ခုသာရှိသော်လည်း အဓိပ္ပါယ်ရှိနေသေးသည်။ အကြောင်းမှာ အင်ဂျင်က ခေါ်သုံးရမည့် ကိုယ်ပိုင် အမှတ်ပေးစနစ်တစ်ခုစီရှိသောကြောင့်ဖြစ်သည် (အသီးသီး KDIGO staging၊ ASCVD 10-year risk၊ 2019 EULAR/ACR SLE criteria)။.

ကြိုတင်မှတ်ပုံတင်ထားသော rubric ကို ရှင်းပြချက်

ကြိုတင်မှတ်ပုံတင်ခြင်း (pre-registration) သည် ဤ benchmark တွင် အရေးကြီးဆုံး နည်းလမ်းပိုင်းဆိုင်ရာ ရွေးချယ်မှုတစ်ခုဖြစ်သည်။ မျှော်မှန်းထားသည့် ရောဂါရှာဖွေမှုတိုင်း၊ ဆေးခန်းအမှတ်ပေးစနစ်တိုင်း၊ နှင့် အစီရင်ခံစာ အပိုင်းတိုင်းကို source code ထဲသို့ ကြိုတင်ကတိပြုထားပြီးဖြစ်သည် အင်ဂျင်ကို မခေါ်မီ. ဖြစ်သောကြောင့်။ အင်ဂျင်ကို ချီးမြှောက်စေမည့် rubric ကို post-hoc ချိန်ညှိခြင်းမှာ ထို့ကြောင့် မဖြစ်နိုင်ပါ။.

ပေါင်းစပ်အမှတ် (composite score) ကို အစိတ်အပိုင်း ၃ ခုဖြင့် ဖွဲ့စည်းထားသည်။ structural component သည် ၃၅ ရာခိုင်နှုန်း ပံ့ပိုးပြီး အင်ဂျင်သည် မဖြစ်မနေ အစီရင်ခံစာ အပိုင်း ၇ ခု (header၊ summary၊ key findings၊ differential၊ scoring systems၊ recommendations၊ follow-up) နှင့် ၎င်းတို့အတွင်းရှိ မဖြစ်မနေ အပိုင်းခွဲ ၁၆ ခုကို ပြန်ပေးခဲ့/မပေးခဲ့ကို တိုင်းတာသည်။ အပိုင်းရှိ/မရှိ (Section presence) သည် structural တွက်ချက်မှုအတွင်း ၄၀ ရာခိုင်နှုန်း အလေးချိန်ရှိပြီး အပိုင်းခွဲရှိ/မရှိ (subsection presence) သည် ၆၀ ရာခိုင်နှုန်း အလေးချိန်ရှိသည်။.

ဟိ clinical component သည် ၅၅ ရာခိုင်နှုန်း ပံ့ပိုးပြီး အရာ ၃ ခုကို ပေါင်းစပ်ထားသည်—ရောဂါရှာဖွေမှု-သော့ချက်စာလုံး ပြန်ခေါ်နိုင်မှု (clinical sub-score ၏ ၇၀ ရာခိုင်နှုန်း)၊ scoring-system ပြန်ခေါ်နိုင်မှု (၂၀ ရာခိုင်နှုန်း—သက်ဆိုင်ရာနေရာများတွင် အင်ဂျင်သည် Mentzer၊ FIB-4၊ HOMA-IR၊ ASCVD risk၊ KDIGO staging၊ EULAR/ACR criteria တို့ကို တွက်ချက်ပေးနိုင်/မပေးနိုင်)၊ နှင့် ဖြစ်နိုင်ခြေ-ပေါင်းလဒ် တရားဝင်မှု စစ်ဆေးချက် (၁၀ ရာခိုင်နှုန်း—differential ဖြစ်နိုင်ခြေများသည် [90, 110] အတွင်း ပေါင်းလဒ်ဖြစ်ရမည်)။ trap အမှုများအတွက် fabricated pathology flag တစ်ခုချင်းစီအတွက် 0.10 နှုန်းဖြင့် တွက်ချက်ပြီး အများဆုံး flag ၃ ခုအထိ ကန့်သတ်ထားသည့် explicit hyperdiagnosis penalty (အများဆုံး 0.30) ကို နုတ်ယူသည်။.

ဟိ latency component သည် ၁၀ ရာခိုင်နှုန်း ပံ့ပိုးသည်။ ၂၀ စက္ကန့်အောက် တုံ့ပြန်မှုသည် အပြည့် 0.10 ရရှိပြီး၊ ၄၀ စက္ကန့်အောက် တုံ့ပြန်မှုသည် 0.05 ရရှိကာ၊ ပိုနှေးသည့် မည်သည့်အရာမဆို 0 ရရှိသည်။ ၂၀ စက္ကန့် ပစ်မှတ်သည် production primary-path service-level objective ကို ထင်ဟပ်စေပြီး၊ ၄၀ စက္ကန့် ကန့်သတ်ချက်သည် heavy-engine invocations များအတွက် Phase 2 fallback budget ကို ထင်ဟပ်စေသည်။.

pre-registration ကာကွယ်ပေးနိုင်သည့်အရာ

First-party benchmark များသည် post-hoc rubric tuning ဖြင့် မိမိတို့၏ နံပါတ်များကို ဖောင်းပွစေတတ်ကြောင်း လူသိများသည်။ ပုံစံမှာ အမြဲလိုလို တူညီနေတတ်သည်—အဖွဲ့က အင်ဂျင်ကို လုပ်ဆောင်ပြီး မည်သည့်နေရာတွင် အားနည်းသည်ကို မြင်ကာ၊ ထို့နောက် အားနည်းနေသော နယ်ပယ်များကို အမှတ်နည်းနည်းသာ ရေတွက်စေမည့်အတွက် rubric ကို တိတ်တဆိတ် ချိန်ညှိလိုက်သည်။ ပထမဆုံး အင်ဂျင်ခေါ်မီ rubric ကို source code ထဲသို့ ကတိပြုထားပြီး harness ကို MIT licence ဖြင့် ထုတ်ပြန်လိုက်သည့်အတွက်၊ ထိုချိန်ညှိမှုသည် version control တွင် မြင်သာလာသည်။ မည်သူမဆို repository ကို clone လုပ်နိုင်ပြီး rubric author dates များကို စစ်ဆေးကာ အင်ဂျင်ရလဒ်များကို အမှတ်ပေးခြင်းကို ပုံဖော်ရန် အသုံးမပြုခဲ့ကြောင်း အတည်ပြုနိုင်သည်။.

Hyperdiagnosis trap အမှုကိစ္စများ — အလွန်အမင်း ခေါ်ဆိုခြင်း (over-calling) က အမှန်တကယ် ပျက်ကွက်မှု ပုံစံ (failure mode) ဘာကြောင့်လဲ

ပုံမှန် စစ်ဆေးမှုများတွင် ရောဂါလက္ခဏာကို အလွန်အမင်း ခေါ်ဆို (over-calling) လုပ်ခြင်းသည် consumer-facing medical assistants များတွင် မှတ်တမ်းတင်ထားသည့် ပျက်ကွက်မှု ပုံစံတစ်ခုဖြစ်သည်။ ၎င်း၏ နောက်ဆက်တွဲကုန်ကျစရိတ်များတွင် မလိုအပ်သော စုံစမ်းစစ်ဆေးမှု၊ လူနာစိုးရိမ်ပူပန်မှု၊ နှင့် iatrogenic workup တို့ ပါဝင်သည်။ ဤ benchmark ရှိ trap အမှု ၂ ခုကို ထိုပျက်ကွက်မှု ပုံစံကို မြင်သာစေပြီး အမှတ်ပေးနိုင်အောင် ဒီဇိုင်းလုပ်ထားသည်။.

🟡 Trap 1 — BT-014-GILBERT

တင်ပြပုံ။. စုစုပေါင်း bilirubin 2.4 mg/dL ရှိသော အသက် ၂၄ နှစ် အမျိုးသား။ direct fraction သည် ပုံမှန်ဖြစ်ပြီး၊ transaminases နှင့် alkaline phosphatase တို့သည် ၎င်းတို့၏ reference range အတွင်းတွင် ရှိနေကာ၊ reticulocytes များမှာ ထူးခြားမှုမရှိပြီး၊ haptoglobin နှင့် LDH သည် haemolysis ကို ဖယ်ထုတ်ပေးသည်။.

မှန်ကန်သော အဓိပ္ပါယ်ဖတ်နည်း။. Gilbert's syndrome — benign UGT1A1 polymorphism ဖြစ်သည်။ အဓိပ္ပါယ်ဖတ်ရာတွင် hepatitis၊ cirrhosis၊ haemolytic anaemia၊ သို့မဟုတ် biliary obstruction ကို မခေါ်သုံးသင့်ပါ။.

V11 ရလဒ်။. Composite 1.000။ စောင့်ကြည့်ထားသည့် over-diagnosis flag ၆ ခုအနက် မည်သည့်အရာမျှ active diagnosis အဖြစ် မပေါ်ခဲ့ပါ။.

🟡 Trap 2 — BT-015-HEALTHY

တင်ပြပုံ။. parameter ၁၅ ခုပါ routine screening panel ရှိသော အသက် ၃၅ နှစ် အမျိုးသမီး။ analyte တိုင်းသည် ၎င်း၏ reference range အတွင်းတွင် သက်တောင့်သက်သာ ရှိနေသည်။.

မှန်ကန်သော အဓိပ္ပါယ်ဖတ်နည်း။. စိတ်ချစရာဖြစ်စေခြင်းနှင့် လူနေမှုပုံစံ ထိန်းသိမ်းခြင်း။ အဓိပ္ပာယ်ဖော်ချက်သည် ဆေးဘက်ဆိုင်ရာအရ အသုံးဝင်သည်ဟု ထင်ရစေရန် နယ်နိမိတ်အဆင့် ရောဂါလက္ခဏာများကို တီထွင်ဖန်တီးမထားသင့်ပါ။.

V11 ရလဒ်။. ပေါင်းစပ်ရမှတ် 1.000။ စောင့်ကြည့်ထားသော အလွန်အမင်း ရောဂါလွန်ကဲစွာ ခန့်မှန်းခြင်း အလံခုနစ်ခု—ဆီးချို၊ သွေးအားနည်းရောဂါ၊ သိုင်းရွိုက်လုပ်ဆောင်မှု လျော့နည်းခြင်း၊ အဆီဓာတ်မညီမျှခြင်း၊ အသည်းရောင်ရောဂါ၊ ကျောက်ကပ်ရောဂါ၊ ချို့တဲ့မှု—အနက် မည်သည့်အရာမျှ တက်ကြွသော ရောဂါအဖြစ် ပေါ်မလာပါ။.

ထောင်ချောက်နှစ်ခုလုံးတွင် စောင့်ကြည့်ထားသော hyperdiagnosis အလံ ၁၃ ခုကို စစ်ဆေးခဲ့သည်။ မည်သည့်အရာမျှ အစပျိုးမခံရပါ။ AI အင်ဂျင်ကို triage သို့မဟုတ် စစ်ဆေးမတိုင်မီ အသုံးပြုရန် စဉ်းစားနေသည့် ဆရာဝန်တိုင်းအတွက် အရေးအကြီးဆုံးဖြစ်သည့် ရလဒ်မှာ ဤအချက်ဖြစ်သည်— မရှိသည့်နေရာတွင် ရောဂါကို စနစ်က တီထွင်မထားပါ.

Mentzer index: သံဓာတ်ချို့တဲ့ခြင်းကို thalassaemia trait မှ ခွဲခြားခြင်း

ဒုတိယ အရည်အသွေးမြင့် ရှာဖွေတွေ့ရှိချက်တစ်ခုမှာ case BT-001 (သံဓာတ်ချို့တဲ့ သွေးအားနည်းရောဂါ) ကို case BT-007 (beta-thalassaemia minor) နှင့် တွဲဖက်ထားခြင်းဖြစ်သည်။ နှစ်ခုလုံးသည် microcytosis ဖြင့် တင်ပြကြပြီး အတွေ့အကြုံမရှိသော ခွဲခြားစနစ်များအတွက် အလွန်သိသာသော အခက်အခဲတစ်ခုဖြစ်သည်။ MCV ကို RBC အရေအတွက်ဖြင့် ပိုင်းခြား၍ တွက်ချက်သော Mentzer index သည် သံဓာတ်ချို့တဲ့ခြင်းတွင် 13 ထက်ကျော်ပြီး thalassaemia trait တွင် 13 ထက်နိမ့်သည်။.

BT-001 တွင် လူနာမှာ အသက် 34 နှစ် အမျိုးသမီးဖြစ်ပြီး hemoglobin 10.4 g/dL၊ MCV 72.4 fL၊ RBC 4.1 × 10¹²/L၊ ferritin 6 ng/mL နှင့် TIBC မြင့်မားခြင်းရှိသည်။ ခန့်မှန်း Mentzer index သည် 17.7 ခန့်ဖြစ်ပြီး absolute iron deficiency ကို ထောက်ခံသည်။ BT-007 တွင် လူနာမှာ အသက် 28 နှစ် အမျိုးသားဖြစ်ပြီး microcytosis (MCV 65.8 fL) ရှိသော်လည်း RBC 6.2 မြင့်မားခြင်း၊ RDW ပုံမှန်၊ ferritin ပုံမှန်၊ HbA2 5.6 percent ရှိသည်။ ခန့်မှန်း Mentzer index သည် 10.6 ခန့်ဖြစ်ပြီး thalassaemia trait ကို ညွှန်ပြကာ elevated HbA2 သည် beta-thalassaemia minor ကို အတည်ပြုသည်။.

သံဓာတ်ချို့တဲ့ သွေးအားနည်းရောဂါ Mentzer > 13 ferritin နိမ့်၊ TSAT နိမ့်၊ TIBC မြင့်၊ RDW မြင့်

Beta-thalassaemia trait Mentzer < 13 ferritin ပုံမှန်၊ RDW ပုံမှန်၊ HbA2 မြင့် (>3.5%)၊ RBC အရေအတွက် မြင့်

အမှုနှစ်ခုလုံးသည် ရမှတ် 1.000 ရရှိသည်။ အင်ဂျင်သည် အဓိပ္ပာယ်ဖော်ချက်နှစ်ခုလုံးတွင် Mentzer index ကို တိတိကျကျ အသုံးပြုခဲ့ပြီး အခြေအနေလက်ရှိတစ်ခုစီတွင် မှန်ကန်သော ရောဂါအမည်ကို ပြန်ပေးခဲ့သည်။. ဤသည်မှာ benchmark တစ်ခုလုံးအတွင်း ဆေးဘက်ဆိုင်ရာအရ အများဆုံး စိတ်ချစရာ ရလဒ်တစ်ခုတည်းဖြစ်သည်, အကြောင်းမှာ thalassaemia trait ကို သံဓာတ်ချို့တဲ့ခြင်းအဖြစ် မှားယွင်းခွဲခြားပါက မသင့်လျော်သော သံဓာတ်ဖြည့်စွက်ခြင်း ဖြစ်ပေါ်စေပြီး မိသားစု စစ်ဆေးခြင်း အခွင့်အလမ်းများကို လွတ်သွားစေကာ၊ သံဓာတ်ချို့တဲ့ခြင်းကို thalassaemia အဖြစ် မှားယွင်းခွဲခြားပါက လွယ်ကူသော အစားထိုးကုသမှုကို နောက်ကျစေသောကြောင့် ဖြစ်သည်။ ကျွန်ုပ်တို့၏ ferritin အကွာအဝေး လမ်းညွှန် သည် ပိုမိုကျယ်ပြန့်သော differential context ကို ရှင်းပြသည်။.

ဧပြီ 2026 စမ်းသပ်မှု လည်ပတ်မှုမှ တစ်ကြိမ်ချင်းရလဒ်များ

အမှု ၁၅ ခုအနက် ၁၂ ခုသည် primary path တွင် composite score 1.000 ၏ မျက်နှာကျက်ရမှတ်ကို ရရှိခဲ့သည်။ အမှု ၃ ခုကို Phase 2 fallback မှတစ်ဆင့် ဝန်ဆောင်ပေးခဲ့ရာ latency bonus 0.05 ကို ဆုံးရှုံးသော်လည်း ဆေးဘက်ဆိုင်ရာနှင့် ဖွဲ့စည်းတည်ဆောက်ပုံဆိုင်ရာ အကြောင်းအရာအားလုံးကို ထိန်းသိမ်းထားသည်။ အမှု ၁ ခုတွင် မဖြစ်မနေလိုအပ်သော subsection တစ်ခု ပျောက်နေခဲ့သည်။ အမှု ၁ ခုက probability distribution sum ကို အနည်းငယ် လျော့ကျသည့်အတိုင်း ပြန်ပေးခဲ့သည်။.

Case ID Specialty Composite Latency Path

BT-001-IDAသွေးဗေဒ1.00017.8 sprimary

BT-006-B12သွေးဗေဒ1.00018.4 စက္ကန့်primary

BT-007-THALသွေးဗေဒ1.00017.0 စက္ကန့်primary

BT-002-HASHEndocrinology0.95037.0 စက္ကန့်အရန် (fallback)

BT-008-PCOSEndocrinology0.98718.6 စက္ကန့်primary

BT-003-T2DMဇီဝဖြစ်စဉ်1.00019.1 စက္ကန့်primary

BT-013-GOUTဇီဝဖြစ်စဉ်1.00019.4 စက္ကန့်primary

BT-004-NAFLDအသည်းရောဂါဗေဒ (Hepatology)1.00019.6 စက္ကန့်primary

BT-009-VIRHEPအသည်းရောဂါဗေဒ (Hepatology)0.95023.4 စက္ကန့်အရန် (fallback)

BT-014-GILBERTထောင်ချောက် (Trap)1.00018.9 စက္ကန့်primary

BT-005-CKDကျောက်ကပ်ဆိုင်ရာရောဂါဗေဒ1.00017.4 စက္ကန့်primary

BT-010-ASCVDနှလုံးရောဂါဗေဒ (Cardiology)1.00019.7 စက္ကန့်primary

BT-011-SLEအဆစ်အမြစ်ရောဂါဗေဒ (Rheumatology)0.98118.2 စက္ကန့်primary

BT-012-VITDEndocrinology1.00019.3 စက္ကန့်primary

BT-015-HEALTHYထောင်ချောက် (Trap)1.00018.7 စက္ကန့်အရန် (fallback)

PCOS အမှု (BT-008) သည် တုံ့ပြန်မှုဖွဲ့စည်းပုံတွင် မဖြစ်မနေလိုအပ်သော အပိုင်းတစ်ခုကို ဆုံးရှုံးခဲ့သည်— ၁၆ ခုအနက် ၁၅ ခု (၁၆ ခုအနက် ၁၆ ခုမဟုတ်) — ထို့ကြောင့် ဖွဲ့စည်းပုံရမှတ်ကို 1.000 မှ 0.963 သို့ လျော့ကျစေခဲ့သည်။ SLE အမှု (BT-011) သည် ရောဂါရှာဖွေမှုဆိုင်ရာ သော့ချက်စာလုံးများနှင့် ရမှတ်တွက်ချက်မှုစနစ်အားလုံးကို ထိန်းသိမ်းထားရင်း၊ ဆေးခန်းရမှတ်ကို 0.965 သို့ ကျစေသည့် အနည်းငယ် လျော့ကျသွားသော ဖြစ်နိုင်ခြေ-ဖြန့်ချီမှု ပေါင်းလဒ်ကို ပြန်ပေးခဲ့သည်။ မည်သည့် sub-perfect အမှုမျှ မှန်ကန်သော ရောဂါရှာဖွေမှုကို လွဲမချော်ခဲ့ပါ။.

ခေါင်းစဉ်ရမှတ်က မပြောပြနိုင်တဲ့အရာ

ဤသီးသန့် ကြိုတင်မှတ်ပုံတင်ထားသော စည်းမျဉ်း (rubric) အောက်တွင် 99.12 ရာခိုင်နှုန်း ပေါင်းစပ်ရမှတ်သည် မျက်နှာကျက်နီးပါး စွမ်းဆောင်ရည်ကို ကိုယ်စားပြုသော်လည်း၊ ၎င်းကို သေချာစွာ အဓိပ္ပါယ်ဖော်ပြရန် လိုအပ်သည်။ ရလဒ်သည် တစ်ကြိမ်စီသာ အကဲဖြတ်ထားသည့်၊ သေချာရွေးချယ်ထားသော anonymised အမှု ၁၅ ခုနှင့် စက်အင်ဂျင်၏ အပြုအမူကို တစ်ခုတည်းသော rubric တစ်ခုအောက်တွင် နှိုင်းယှဉ်ဖော်ပြထားခြင်းဖြစ်သည်။ အဆိုပါ နံပါတ်က ဘာကို သက်သေပြနိုင်ပြီး ဘာကို မသက်သေပြနိုင်သည်ကို ကျွန်ုပ်တို့ ရှင်းလင်းစွာ ဖော်ပြထားပါသည်။.

ရမှတ်က V11 အင်ဂျင်သည် ဤအကဲဖြတ်မှုအတွက် ရွေးချယ်ထားသော ရောဂါရှာဖွေမှုပုံစံများကို မှန်ကန်စွာ ကိုင်တွယ်နိုင်ခဲ့ကြောင်း ပြောထားသည်— ထုတ်ဝေပြီး ပြန်လည်ပြုလုပ်နိုင်သည့် နည်းလမ်းတစ်ခုအပေါ်တွင် ဖြစ်သည်။ လက်တွေ့လောကတွင် ရှိနေသည့် သွေးစစ်ဆေးမှု panel အားလုံးအတွက် အင်ဂျင်သည် မှန်ကန်သည်ဟု မဆိုလိုပါ။ ဆရာဝန်/ကျန်းမာရေးပညာရှင်၏ ဆုံးဖြတ်ချက်ကို အင်ဂျင်က အစားထိုးသင့်သည်ဟုလည်း မဆိုလိုပါ။ ထို့အပြင် အခြား AI စနစ်များထက် သာလွန်သည်ဟုလည်း မဆိုလိုပါ— အခြားအင်ဂျင်များနှင့် နှိုင်းယှဉ်လေ့လာမှုများကို ဤအစီရင်ခံစာ၏ အတိုင်းအတာအပြင်ဘက်အဖြစ် တမင်ထားခဲ့သည်။.

ရမှတ်က သက်သေပြနိုင်သည်မှာ အခြေခံအချက် (baseline) တစ်ခုဖြစ်သည်။ rubric နှင့် harness ကို အများပြည်သူသို့ ထုတ်ဖော်ထားပြီးဖြစ်သဖြင့်၊ အင်ဂျင်၏ အနာဂတ်ဗားရှင်းများကို အမှု ၁၅ ခုတည်းနှင့် တူညီစွာ အကဲဖြတ်နိုင်ပြီး၊ ထုတ်ဝေထားသော ရမှတ်နှင့် နောက်ထပ် run တစ်ခုခုကြားက ကွာဟချက်ကိုလည်း တိုင်းတာနိုင်သည်။ ကြိုတင်မှတ်ပုံတင်ခြင်း၏ တန်ဖိုးမှာ— စွမ်းဆောင်ရည်ဆိုင်ရာ တောင်းဆိုချက်များကို စမ်းသပ်နိုင်သော တောင်းဆိုချက်များအဖြစ် ပြောင်းလဲပေးသည်.

၁၀ မိနစ်အတွင်း ဒီ benchmark ကို ဘယ်လိုပြန်ထုတ်လုပ်မလဲ

ပြန်လည်ပြုလုပ်ရန်အတွက် Kantesti API credential pair တစ်ခုနှင့် Python 3.10 သို့မဟုတ် နောက်ပိုင်း ပတ်ဝန်းကျင်တစ်ခုသာ လိုအပ်သည်— requests နှင့် reportlab libraries များကို ထည့်သွင်းထားပြီးဖြစ်ရမည်။ အပြည့်အစုံ harness သည် MIT လိုင်စင်အောက်တွင် ထုတ်ပြန်ထားသော တစ်ခုတည်းသော self-contained Python module တစ်ခုဖြစ်သည်။.

💻 GitHub MIT-လိုင်စင် harness · raw responses · reference run 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · canonical academic record 🎓 သုတေသနဂိတ် Publication 404175463 · academic discovery layer 📄 Academia.edu Paper 165956808 · academic discovery layer

လတ်ဆတ်သော run တစ်ခုအတွက် အဆင့် ၄ ခု

တစ်။. repository ကို clone လုပ်ပါ— git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. နှစ်။. လိုအပ်သော ပက်ကေ့ချ်များကို
ထည့်သွင်းရန် pip install -r requirements.txt. သုံး။. သတ်မှတ်ပါ KANTESTI_USERNAME နှင့် KANTESTI_PASSWORD ကို ပတ်ဝန်းကျင် ပြောင်းလဲမှုများ (environment variables) အဖြစ်— အထောက်အထားများကို လုပ်ဆောင်ချိန်တွင် ဖတ်ရှုမည်ဖြစ်ပြီး script ထဲတွင် မည်သည့်အရာကိုမျှ တင်းတိပ်စွာ ထည့်မထားပါ။. လေး။. လုပ်ဆောင်ပါ python benchmark_bloodtest.py ပြီးတော့ အလုပ်လုပ်နေရာ directory ထဲသို့ ထုတ်ပေးထားသည့် artefact လေးခုကို စစ်ဆေးပါ— CSV scorecard တစ်ခု၊ JSON scorecard တစ်ခု၊ raw engine responses များပါဝင်သည့် full JSON dump တစ်ခု၊ နှင့် လူဖတ်လို့ရသော Markdown report တစ်ခု။.

2026 ခုနှစ် ဧပြီလ 23 ရက်မှ reference run ကို repository ၏ results/ directory ထဲတွင် ထိန်းသိမ်းထားသည်။ လတ်တလော run တစ်ခုသည် reference run ကို မထိခိုက်စေဘဲ timestamp ပါသည့် scorecard အသစ်တစ်ခု ထုတ်ပေးမည်ဖြစ်သည်။ သင့် run မှာ အဓိပ္ပါယ်ရှိစွာ ကွာခြားသော ရလဒ်ထွက်ပါက GitHub issue တစ်ခု ဖွင့်ပါ— run timestamp နှင့် response metadata ထဲတွင် ပြန်လာသည့် engine version ကိုပါ ထည့်ပေးပါ။.

ကန့်သတ်ချက်များနှင့် အနာဂတ်လုပ်ငန်း

ကန့်သတ်ချက် လေးခုကို အတိအကျ အသိအမှတ်ပြုရန် ထိုက်တန်သည်— နမူနာအရွယ်အစား၊ single-shot evaluation၊ single-engine scope၊ နှင့် single-source data origin။ ယင်းတို့ကို လက်ရှိ follow-up လုပ်ငန်းများဖြင့် ဖြေရှင်းလျက်ရှိသည်။.

နမူနာအရွယ်အစား။. အထူးပြု bucket ရှစ်ခုအတွင်း case ဆယ့်ငါးခုသည် proof of concept အတွက် လုံလောက်သော်လည်း အထူးပြုတစ်ခုအတွင်း subgroup analysis အတွက် မလုံလောက်ပါ။ case ငါးဆယ်အထိ တိုးချဲ့ရန် စီစဉ်ထားပြီး coagulation panels၊ haematological malignancy screening၊ ကိုယ်ဝန်ဆိုင်ရာ panel များ၊ နှင့် ကလေးအထူးပြု တင်ပြမှုများ ပါဝင်မည်ဖြစ်သည်။.

Single-shot evaluation။. case တစ်ခုစီကို တစ်ကြိမ်သာ အကဲဖြတ်ခဲ့သည်။ sampling temperature နိမ့်သော်လည်း large language models များသည် output variance ကို အရေးမပါမဟုတ်အောင် ပြသတတ်သောကြောင့် case တစ်ခုချင်းစီအတွက် evaluations ငါးကြိမ်ပါဝင်သည့် multi-run protocol နှင့် ဖော်ပြထားသော variance သည် သဘာဝကျသည့် နောက်တစ်ဆင့်ဖြစ်သည်။.

Single-engine scope။. ဤ report သည် engine တစ်ခုတည်းကို ဖော်ပြထားသည်။ အခြား AI စနစ်များနှင့် နှိုင်းယှဉ်သုံးသပ်မှုများသည် ဤနေရာတွင် မပါဝင်ပါ (out of scope)； သင့်လျော်သော methodology ဖြင့် သီးခြား independent study အဖြစ် ကျွန်ုပ်တို့ ဆက်လက်လုပ်ဆောင်နိုင်ပါသည်။.

Single-source data origin။. case ဆယ့်ငါးခုသည် single clinical repository တစ်ခုမှ ရယူထားသည့် အမှတ်အသားဖျက်ထားသော (anonymised) အမှန်တကယ် လူနာမှတ်တမ်းများ ဖြစ်သည်။ ၎င်းတို့သည် စီမံထားသော နမူနာတစ်ခုကို ကိုယ်စားပြုပြီး လူဦးရေကို ကိုယ်စားပြုသည့် ကျပန်းရွေးချယ်မှု (random draw) မဟုတ်ပါ။ evaluation ကို multi-centre data သို့ တိုးချဲ့ခြင်းကို လမ်းပြမြေပုံ (roadmap) ထဲတွင် ထည့်သွင်းထားသည်။.

အများဆုံး အကျိုးသက်ရောက်မည့် စီစဉ်ထားသည့် တိုးချဲ့မှုမှာ multi-language parity ဖြစ်သည်။ Kantesti AI Engine သည် 75+ ဘာသာစကားများဖြင့် အသုံးပြုသူများကို ဝန်ဆောင်မှုပေးသည်။ Turkish၊ German၊ Spanish၊ French၊ နှင့် Arabic တို့တွင် case ဆယ့်ငါးခုတူညီသည့် harness ကို လုပ်ဆောင်ခြင်းဖြင့် engine ၏ ပံ့ပိုးထားသည့် ဘာသာစကားများအကြား output quality ကို တိုင်းတာမည်ဖြစ်သည်။ ဘာသာစကားတစ်ခုချင်းစီအတွက် run တစ်ခုစီကို ၎င်း၏ကိုယ်ပိုင် DOI နှင့် harness branch တို့နှင့်အတူ ထုတ်ဝေမည်ဖြစ်သည်။.

99.12% Composite Score ကို ရရှိခဲ့သည့် အတူတူ Engine ကို စမ်းကြည့်ပါ

သင်၏ကိုယ်ပိုင် သွေးစစ်ဆေးမှု ပန်နယ်ကို ဤဘင်ချ်မာ့ခ်တွင် အကဲဖြတ်ထားသည့် တူညီသော ထုတ်လုပ်ရေး endpoint သို့ အပ်လုဒ်လုပ်ပါ။ ကမ္ဘာတစ်ဝန်း အသုံးပြုသူ ၂ သန်းကျော်သည် Kantesti AI Engine ကို အသုံးပြုပြီး 75+ ဘာသာစကားများအတွင်း Biomarker 15,000 ကျော်ကို အဓိပ္ပာယ်ဖတ်ရှုရန် အသုံးပြုကြသည်။.

🔬 အခမဲ့ သရုပ်ပြမှုကို စမ်းကြည့်ပါ

Chrome တိုးချဲ့မှု အက်ပ်စတိုး Google Play

📚 ဤဘင်ချ်မာ့ခ်ကို ကိုးကားရန်

BibTeX

@techreport{klein2026kantesti,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {Kantesti AI Engine (2.78T) ၏ ဆေးခန်းအတည်ပြုချက် (Clinical Validation) - သွေးစစ်ဆေးမှု အမည်မဖော်ထားသော Case ၁၅ ခုအပေါ် (15 Anonymised Blood Test Cases): ခုနစ်ခုမြောက် ဆေးဘက်ဆိုင်ရာ အထူးပြုနယ်ပယ်များအတွင်း Hyperdiagnosis Trap ပါဝင်သည့် ကြိုတင်မှတ်ပုံတင်ထားသော Rubric အခြေပြု ဘင်ချ်မာ့ခ်},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti AI Engine (2.78T) ၏ ဆေးခန်းအတည်ပြုချက် (Clinical Validation) - သွေးစစ်ဆေးမှု အမည်မဖော်ထားသော Case ၁၅ ခုအပေါ် (15 Anonymised Blood Test Cases): ခုနစ်ခုမြောက် ဆေးဘက်ဆိုင်ရာ အထူးပြုနယ်ပယ်များအတွင်း Hyperdiagnosis Trap ပါဝင်သည့် ကြိုတင်မှတ်ပုံတင်ထားသော Rubric အခြေပြု ဘင်ချ်မာ့ခ် (Technical Report V11)။ Kantesti Ltd။. https://doi.org/10.6084/m9.figshare.32095435

📖 ဆက်စပ် Kantesti အတည်ပြုလုပ်ငန်း

အငြင်းပွားမှုသည် အဓိကအားဖြင့် အထူးလူနာအုပ်စုများအတွက် 20 မှ 40 ng/mL အကြား “အကောင်းဆုံး” (optimal) ဇုန်တွင်သာ ရှိနေသည်။. AI ဖြင့် စွမ်းအားပေးထားသော သွေးစစ်ဆေးမှု အဓိပ္ပာယ်ဖွင့်ဆိုချက်အတွက် လက်တွေ့အတည်ပြုချက် မူဘောင်- Triple-Blind အတည်ပြုချက် နည်းလမ်း၊ စွမ်းဆောင်ရည် မက်ထရစ်များနှင့် အရည်အသွေး အာမခံချက် ပရိုတိုကောများ. Kantesti AI Medical Research.

🎓 သုတေသနဂိတ်

📖 ပြင်ပနည်းလမ်းဆိုင်ရာ ကိုးကားချက်များ

Mentzer, W. C. (1973). သံဓာတ်ချို့တဲ့ခြင်းကို Thalassaemia Trait မှ ခွဲခြားခြင်း. The Lancet, 301(7808), 882။.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology Systemic Lupus Erythematosus အတွက် အမျိုးအစားခွဲခြားရေး စံသတ်မှတ်ချက်များ. Arthritis & Rheumatology, 71(9), 1400–1412။.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: ကြီးမားသော ဘာသာစကားမော်ဒယ်များအတွက် ဆေးဘက်ဆိုင်ရာ Hallucination စမ်းသပ်မှု. Proceedings of CoNLL 2023။.

🔗 ACL Anthology

99.12%ပေါင်းစပ်ရမှတ် (Composite Score)

15ရမှတ်ပေးထားသော Case များ (Cases Scored)

7အထူးပြုနယ်ပယ်များ (Specialties)

0Trap False-Positives

အမေးများသောမေးခွန်းများ

အမှန်တကယ် သွေးစစ်ဆေးမှု အမှုကိစ္စများအပေါ်မှာ Kantesti AI အင်ဂျင်က ဘယ်လောက်တိကျပါသလဲ?

ခုနစ်ခုမြောက် ဆေးဘက်ဆိုင်ရာ အထူးပြုနယ်ပယ်များအတွင်းမှ အမှန်တကယ် လူနာများ၏ သွေးစစ်ဆေးမှု Case အမည်မဖော်ထားသော ၁၅ ခုအပေါ် ကြိုတင်မှတ်ပုံတင်ထားသည့် rubric တစ်ခုအပေါ်တွင် Kantesti AI Engine V11 သည် ပေါင်းစပ်ရမှတ် 99.12 ရာခိုင်နှုန်း ရရှိခဲ့ပြီး trap case များနှင့် အခြား trap များအပေါ်တွင် hyperdiagnosis false-positives သုည (0) ရှိကာ ပျမ်းမျှ တုံ့ပြန်မှု latency 20.17 စက္ကန့် ဖြစ်သည်။ case တစ်ခုချင်းစီ၏ အပြည့်အစုံ ရမှတ်စာရင်းကို Figshare တွင် DOI 10.6084/m9.figshare.32095435 အောက်တွင်လည်းကောင်း GitHub တွင် MIT လိုင်စင်အောက်တွင်လည်းကောင်း ထုတ်ဝေထားသည်။.

Kantesti AI အင်ဂျင်ကို ဆေးခန်းအတည်ပြုထားပြီးပြီလား?

ဟုတ်ပါတယ်။ အင်ဂျင်ကို အသုံးမပြုမီ အရင်းအမြစ်ကုဒ်ထဲမှာ အေးခဲထားခဲ့တဲ့ rubric တစ်ခုနဲ့ ဆေးခန်းအတည်ပြုချက်အရ စမ်းသပ်ထားပါတယ်။ hematology၊ endocrinology၊ metabolic medicine၊ hepatology၊ nephrology၊ cardiology၊ rheumatology စတဲ့ ဘာသာရပ်များအတွင်း သွေးစစ်ဆေးမှု အမည်မဖော်ပြထားတဲ့ စမ်းသပ်ကိစ္စ ၁၅ ခုနဲ့ အကဲဖြတ်ခဲ့ပါတယ်။ ဆေးခန်းကြီးကြပ်မှုကို Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) က ပေးခဲ့ပြီး၊ Kantesti AI မှာ ဘုတ်အဖွဲ့ဝင် လက်တွေ့သွေးရောဂါအထူးကု (board-certified clinical hematologist) နှင့် Chief Medical Officer ဖြစ်ပါတယ်။.

hyperdiagnosis trap case ဆိုတာဘာလဲ?

hyperdiagnosis trap case ဆိုတာ AI အင်ဂျင်တွေမှာ over-diagnosis အပြုအမူကို အထူးသဖြင့် ဖော်ထုတ်ဖို့ ဒီဇိုင်းလုပ်ထားတဲ့ ဆေးခန်းအခြေအနေတစ်ခုပါ။ Kantesti V11 benchmark မှာ ဒီလို case နှစ်ခုကို အသုံးပြုထားပါတယ်။ ပထမတစ်ခုက Gilbert's syndrome နဲ့ ကိုက်ညီတဲ့ သီးခြား indirect hyperbilirubinaemia ဖြစ်ပြီး၊ မှန်ကန်တဲ့ အဓိပ္ပာယ်ဖတ်နည်းက hepatitis သို့မဟုတ် haemolysis မဟုတ်ဘဲ UGT1A1 မျိုးရိုးဗီဇပြောင်းလဲမှု (polymorphism) ကောင်းမွန်ခြင်း (benign) ကို ဆိုလိုတာပါ။ ဒုတိယတစ်ခုကတော့ အရွယ်ရောက်ပြီးသား စစ်ဆေးမှု panel တစ်ခုလုံးလုံး ပုံမှန်ဖြစ်ပြီး၊ မှန်ကန်တဲ့ output က borderline pathology တစ်ခုကို ဖန်တီးပြီး မဟုတ်ဘဲ စိတ်ချရမှု (reassurance) နှင့် လူနေမှုပုံစံ ထိန်းသိမ်းမှု (lifestyle maintenance) ဖြစ်ပါတယ်။.

Kantesti AI အင်ဂျင် အကဲဖြတ်မှုသည် ပြန်လည်ထုတ်လုပ်နိုင်ပါသလား။

အပြည့်အစုံ အကဲဖြတ်မှု harness ကို MIT လိုင်စင်အောက်မှာ တစ်ခုတည်းသော self-contained Python module အဖြစ် ထုတ်ပြန်ထားပါတယ်။ ပြန်လည်ထုတ်လုပ်ရန် Kantesti API credential pair တစ်စုံနှင့် Python 3.10 သို့မဟုတ် နောက်ပိုင်းသာ လိုအပ်ပါတယ်။ ကုဒ်၊ case definitions၊ နှင့် ၂၀၂၆ ခုနှစ် ဧပြီ reference run မှ ထွက်လာတဲ့ raw engine response အားလုံးကို github.com/emirhanai/kantesti-blood-test-benchmark မှာ ရနိုင်ပြီး Figshare၊ ResearchGate၊ Academia.edu တို့မှာလည်း mirror လုပ်ထားပါတယ်။.

Kantesti AI အင်ဂျင်သည် သံဓာတ်ချို့တဲ့ခြင်းကို beta-thalassaemia trait မှ မည်သို့ ခွဲခြားသတ်မှတ်ပါသလဲ?

အင်ဂျင်က Mentzer index ကို အသုံးချပါတယ်။ Mentzer index ကို mean corpuscular volume ကို red blood cell count နဲ့ ပိုင်းခြားပြီး တွက်ချက်ပါတယ်။ Mentzer index ၁၃ ထက်ပိုရင် iron deficiency anaemia ကို ထောက်ခံပြီး၊ ၁၃ အောက်ဆို beta-thalassaemia trait ကို ထောက်ခံပါတယ်။ V11 benchmark မှာ ဒီတင်ပြချက်နှစ်မျိုးလုံးကို Mentzer index ကို အတိအကျ တွက်ချက်ပြီး၊ ferritin၊ RDW၊ နှင့် HbA2 context တို့နဲ့ ထောက်ပံ့ကာ မှန်ကန်စွာ ခွဲခြားထားပါတယ်။.

အခြေခံစံနှုန်း (benchmark) မူရင်းဒေတာနှင့် အရင်းအမြစ်ကုဒ်ကို ဘယ်နေရာမှာ ရှာတွေ့နိုင်ပါသလဲ။

နည်းပညာဆိုင်ရာ အစီရင်ခံစာကို Figshare မှာ DOI 10.6084/m9.figshare.32095435 အောက်တွင် တင်ထားပြီး ResearchGate publication 404175463 နှင့် Academia.edu paper 165956808 တို့မှာလည်း mirror လုပ်ထားပါတယ်။ MIT-licensed Python harness နှင့် reference run ရလဒ်အားလုံးကို github.com/emirhanai/kantesti-blood-test-benchmark မှာ ရနိုင်ပါတယ်။ ပလက်ဖောင်းလေးခုလုံး mirror network က ရေရှည်ရရှိနိုင်မှုနှင့် ကိုးကားအသုံးပြုနိုင်မှု လိုက်လျောညီထွေမှုကို အာမခံပေးပါတယ်။.

AI ဆေးဘက်ဆိုင်ရာ benchmark တွေအတွက် pre-registration က ဘာကြောင့် အရေးကြီးတာလဲ?

Pre-registration က post-hoc rubric tuning ကို တားဆီးပါတယ်။ ဒါက ကုမ္ပဏီက လုပ်ဆောင်တဲ့ benchmark တွေက သူတို့ရဲ့ နံပါတ်တွေကို တိုးမြှင့်ဖို့ အသုံးများဆုံး နည်းလမ်းတစ်ခုပါ။ rubric ကို အင်ဂျင်ကို မခေါ်မီ အရင်းအမြစ်ကုဒ်ထဲမှာ ကတိပြုထားပြီး harness ကို အများပြည်သူအတွက် ထုတ်ပြန်လိုက်တဲ့အခါ rubric author ရဲ့ ရက်စွဲတွေကို version control မှာ စစ်ဆေးနိုင်ပါတယ်။ ထို့အပြင် အင်ဂျင်ရလဒ်တွေက scoring criteria ကို ပုံဖော်ထားနိုင်ခြေ မရှိတော့ပါဘူး။.

ဒီ benchmark မှာ အခြား AI အင်ဂျင်တွေနဲ့ နှိုင်းယှဉ်မှုတွေ ပါဝင်ပါသလား?

မပါဘူး။ V11 report က အခြားစီးပွားရေးဆိုင်ရာ စနစ်တွေကို ဆန့်ကျင်ပြီး တင်ပြတာထက်၊ fixed rubric တစ်ခုနဲ့ တစ်ခုတည်းသော အင်ဂျင်တစ်ခုကို ရည်ရွယ်ချက်ရှိရှိ ဖော်ပြထားပါတယ်။ harness ကို MIT လိုင်စင်အောက်မှာ open source အဖြစ် ထုတ်ထားတာကြောင့် လွတ်လပ်သော သုတေသီတွေက သူတို့ရွေးချယ်တဲ့ မည်သည့်အင်ဂျင်ကိုမဆို အတူတူပဲ case ဆယ့်ငါးခုနှင့် rubric နဲ့ နှိုင်းယှဉ်ပြီး သူတို့ရဲ့ ရလဒ်တွေကို ထုတ်ပြန်နိုင်ပါတယ်။.

လူနာ case တွေက အမှန်တကယ်လား ဒါမှမဟုတ် synthetic လား?

case ဆယ့်ငါးခုက Kantesti clinical data repository ထဲကနေ written informed consent အောက်မှာ ရယူထားတဲ့ အမှန်တကယ် လူနာမှတ်တမ်းတွေကို အမည်မဖော်ပြထားတာပါ။ Safe Harbor နည်းလမ်းအောက်မှာ de-identification ကို လုပ်ဆောင်ခဲ့ပြီး တိုက်ရိုက်သတ်မှတ်နိုင်တဲ့ အချက်အလက်အားလုံးကို ဖယ်ရှားထားခြင်း သို့မဟုတ် အစားထိုးထားပါတယ်။ GDPR Article 9(2)(j) နှင့် ညီမျှတဲ့ UK GDPR ပြဋ္ဌာန်းချက်များအတိုင်း လုပ်ဆောင်ခဲ့ပါတယ်။ ထုတ်ပြန်ထားတဲ့ harness၊ နည်းပညာဆိုင်ရာ အစီရင်ခံစာ၊ သို့မဟုတ် ထုတ်လွှတ်ထားတဲ့ dataset များထဲမှာ ကိုယ်ရေးကိုယ်တာကို သတ်မှတ်နိုင်တဲ့ အချက်အလက် မပါဝင်ပါဘူး။.

⚕️ ဆေးဘက်ဆိုင်ရာ သတိပေးချက် & အကျိုးစီးပွား ပဋိပက္ခ

ဒီ benchmark အစီရင်ခံစာကို သုတေသနနှင့် နည်းလမ်းပိုင်းဆိုင်ရာ ပွင့်လင်းမြင်သာမှု ရည်ရွယ်ချက်များအတွက်သာ ရေးထားတာပါ။ ဆေးဘက်ဆိုင်ရာ အကြံဉာဏ် မဟုတ်ပါ။ ရောဂါရှာဖွေခြင်းနှင့် ကုသမှု ဆုံးဖြတ်ချက်များအတွက် အရည်အချင်းပြည့်မီတဲ့ ကျန်းမာရေးဝန်ဆောင်မှုပေးသူကို အမြဲတမ်း တိုင်ပင်ပါ။ စာရေးသူနှစ်ဦးစလုံးက Kantesti Ltd မှာ အလုပ်လုပ်နေပြီး equity ကိုလည်း ကိုင်ထားကြပါတယ်။ အကဲဖြတ်နေတဲ့ အင်ဂျင်ကလည်း အတူတူပဲ အဖွဲ့အစည်းထုတ်ကုန်တစ်ခုဖြစ်တဲ့ စီးပွားရေးဆိုင်ရာ product တစ်ခုပါ။ ဒီအကျိုးစီးပွား ပဋိပက္ခကို rubric ကို အရင်းအမြစ်ကုဒ်ထဲမှာ pre-register လုပ်ခြင်း၊ harness ကို MIT လိုင်စင်အောက်မှာ ထုတ်ပြန်ခြင်း၊ နှင့် raw engine response အားလုံးကို ထုတ်ပြန်ခြင်းတို့ဖြင့် လျော့ပါးစေထားပါတယ်။.

E-E-A-T ယုံကြည်မှု အချက်ပြများ

⭐

အတွေ့အကြုံ

case panel ရွေးချယ်မှုကို ကြီးကြပ်တဲ့ ဆေးခန်းသွေးရောဂါနှင့် ဓာတ်ခွဲခန်းဆေးပညာ လုပ်ငန်းအတွေ့အကြုံ ၁၅+ နှစ်။.

📋

ကျွမ်းကျင်မှု

pre-registered rubric ဒီဇိုင်း—hyperdiagnosis penalties ကို အတိအကျ ထည့်သွင်းထားပြီး Mentzer၊ FIB-4၊ EULAR/ACR၊ KDIGO စတဲ့ အသိအမှတ်ပြု ဆေးခန်းအမှတ်ပေးစနစ်များ ပါဝင်ပါတယ်။.

👤

အခွင့်အာဏာရှိခြင်း

အဓိကစာရေးသူ Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321)။ အကောင်အထည်ဖော်မှုကို Julian Emirhan Bulut, Kantesti Ltd CEO က လုပ်ဆောင်ပါတယ်။.

🛡️

ယုံကြည်စိတ်ချရမှု

MIT-licensed ပြန်လည်ထုတ်လုပ်နိုင်တဲ့ harness၊ raw engine responses များကို ထုတ်ပြန်ထားခြင်း၊ အကျိုးစီးပွား ပဋိပက္ခကို ပွင့်လင်းစွာ ထုတ်ဖော်ခြင်း၊ ပလက်ဖောင်းလေးခုလုံးပါ သုတေသန mirror network။.

🏢 ကန်တက်စတီ လီမိတက် အင်္ဂလန်နှင့် ဝေလစ်တွင် မှတ်ပုံတင်ထားသည် · ကုမ္ပဏီနံပါတ်။. 17090423 လန်ဒန်၊ ယူနိုက်တက်ကင်းဒမ်း · kantesti.net