ဒီ benchmark က ဘာကြောင့်ရှိပြီး ဘာကို စမ်းသပ်တာလဲ
AI-assisted blood test interpretation ကို စားသုံးသူနှင့် ဆေးဘက်ဆိုင်ရာ လုပ်ငန်းစဉ်များတွင် ပိုမိုအသုံးများလာနေသော်လည်း ဓာတ်ခွဲခန်းဆေးပညာနှင့် ကိုက်ညီအောင် ပြန်လည်စမ်းသပ်နိုင်သည့် အကဲဖြတ်ရေးဘောင်များမှာ မကြာခဏ မတွေ့ရသေးပါ။ ဒီအခြေအနေမှာ အရေးကြီးဆုံး မေးခွန်းတွေက အထွေထွေ ဆေးဘက်ဆိုင်ရာ မေးခွန်း-ဖြေကြား benchmark တွေမှာ ပါဝင်ထားတာတွေ မဟုတ်ပါ— mean corpuscular volume တူညီနေချိန်မှာ engine က iron deficiency ကို thalassaemia trait နဲ့ ခွဲနိုင်မလား၊ hepatitis လိုမျိုးနဲ့ Gilbert's syndrome ကို over-diagnose လုပ်မလား၊ ပုံမှန်အပြည့်အဝ screening panel တစ်ခုထဲမှာ pathology ကို ဖန်တီးထုတ်လုပ်မလားဆိုတာလား။
သွေးစစ်ဆေးမှု အကွက်တစ်ခုတည်း (blood test panel) မှာ ပုံမှန်အားဖြင့် အဓိပ္ပာယ်ဖွင့်ဆိုချက် အများအပြားကို ထောက်ပံ့နိုင်လောက်တဲ့ အချက်အလက် (signal) တွေ ပါဝင်တတ်ပြီး၊ အဓိပ္ပာယ်ဖွင့်ဆိုပေးမယ့် ဆေးဘက်ဆိုင်ရာ ကျွမ်းကျင်သူရဲ့ အလုပ်က စာအုပ်ထဲက အဖြေတစ်ခုကို ပြန်ရှာတာထက် အဲဒီအဓိပ္ပာယ်ဖွင့်ဆိုချက်တွေကို တစ်ခုနဲ့တစ်ခု ယှဉ်ပြီး အလေးချိန်ချိန်ရန် ဖြစ်ပါတယ်။ စာအုပ်ထဲက အခြေအနေတွေမှာ ကောင်းကောင်းလုပ်နိုင်တဲ့ အင်ဂျင်တစ်ခုက အရေးကြီးဆုံးဖြစ်တဲ့ အခြေအနေတွေမှာတော့ ပျက်ကွက်နိုင်ပါတယ်—ကွဲပြားရောဂါရှာဖွေမှု (differential-diagnosis) ထောင်ချောက်တွေ၊ တစ်ခုတည်းအနေနဲ့ ကြည့်ရင် စိုးရိမ်စရာလို ထင်ရပေမယ့် အန္တရာယ်မရှိတဲ့ မျိုးကွဲများ (benign variants)၊ နဲ့ အပြည့်အဝ ပုံမှန် (fully normal) အကွက်တွေကနေ ယုံကြည်စိတ်ချစွာ လက်ထောက်တွေကို ရောဂါလက္ခဏာတု (manufacturing pathology) ဖန်တီးစေတဲ့အရာတွေပါဝင်ပါတယ်။.
ဒီ benchmark ကို အဲဒီလို ပျက်ကွက်နိုင်တဲ့ ပုံစံတွေကို အတိအကျ အခြေခံပြီး တည်ဆောက်ထားပါတယ်။ Case (၁၅) ခုစီကို သီးခြား ရောဂါရှာဖွေရေး ဂုဏ်သတ္တိတစ်ခုအတွက် ရွေးချယ်ထားပါတယ်—တူညီတဲ့ mean corpuscular volume (MCV) ရှိတဲ့ beta-thalassaemia trait နဲ့ ခွဲခြားထားရမယ့် iron-deficient microcytosis၊ ပုံမှန်မဟုတ်မှု တစ်ခုတည်းသာ ဖြစ်တဲ့ isolated indirect hyperbilirubinaemia ပါဝင်တဲ့ Gilbert's syndrome ပုံစံ၊ နဲ့ analyte တစ်ခုချင်းစီက reference range အတွင်းမှာပဲ ရှိနေတဲ့ fifteen-parameter screening panel တစ်ခု။ rubric က case တစ်ခုချင်းစီကို ကိုယ်ပိုင်အခြေအနေအရ ဖတ်တတ်တဲ့ engine တွေကို ဆုချပြီး၊ အဲဒီလို ရောဂါရှာဖွေမှုမျိုး မလိုအပ်တဲ့နေရာမှာ ယုံကြည်စိတ်ချစွာ ရောဂါရှာဖွေမှုတစ်ခုကို ဆွဲယူသွားတဲ့ engine တွေကို ဒဏ်ခတ်ပါတယ်။.
MD ဖြစ်သူ Thomas Klein အနေနဲ့၊ ဒီ case panel ကို ကျွန်တော်ရွေးချယ်ခဲ့တာက—laboratory-medicine လက်ထောက်တွေက အများဆုံး မှားတတ်တဲ့ ပုံစံတွေက ဒီလိုပဲ ဖြစ်လို့ပါ။. အကုန်အကျများတဲ့ ပျက်ကွက်မှုက "ရှားပါးရောဂါတစ်ခုကို လွတ်သွားခြင်း" မဟုတ်ပါ—အဲဒီလို မရှိတဲ့ လူနာတွေမှာ ပုံမှန်ဖြစ်တတ်တဲ့ ရောဂါလက္ခဏာ (routine pathology) ကို တီထွင်ဖန်တီးခြင်း (fabricating) ဖြစ်ပါတယ်။. ကျွန်တော်တို့ရဲ့ ဆေးဘက်ဆိုင်ရာအတည်ပြုချက် hub သည် ပိုမိုကျယ်ပြန့်သော framework ကို ဖော်ပြသည်။ ဤစာမျက်နှာသည် V11 မူလ proof-of-concept နှင့် ၎င်းကို Country Labels 127 ခုကို ဖြတ်သန်းသည့် synthetic case set မှ ရယူထားသော synthetic cases 100,000 အထိ ချဲ့ထွင်ထားသည့် V11 ဒုတိယအကြိမ်အပ်ဒိတ်ကို ဖော်ပြသည် — တူညီသော scoring rubric ကို အသုံးပြု၍ byte-identical ဖြစ်ပြီး post-hoc tuning ကို ခွင့်မပြုပါ။.
နောက်ဆုံး reference run — V11 Second Update (ဧပြီ 26၊ 2026)
2026 ခုနှစ် ဧပြီ 26 ရက် V11 Second Update reference run သည် composite score ကို ထုတ်ပေးခဲ့သည် 99.80% V11 initial release တွင် အသုံးပြုခဲ့သည့် အတည်ပြုထားသော (pre-registered) rubric အတိုင်း တူညီစွာ အကဲဖြတ်ခဲ့ပြီး Synthetic cases 100,000 ခု Kantesti synthetic case set မှ ဆင်းသက်ပြီး နိုင်ငံတံဆိပ် 127 ခု နှင့် 75+ ဘာသာစကားများကို ဖြတ်သန်းထားသည်။ case တစ်ခုစီသည် အင်ဂျင်၏ primary path ပေါ်တွင် ပြီးဆုံးခဲ့ပြီး trap-case hyperdiagnosis flag activations သည် 0 / 87,412. တွင်သာ ရှိနေသည်။ 2026 ခုနှစ် ဧပြီ 23 ရက်က မူလ V11 run သည် လက်ဖြင့်ရွေးချယ်ထားသော case 15 ခု (composite 99.12%) ကို လွှမ်းခြုံကာ rubric ကို အတည်ပြုခဲ့သည်။ Second Update သည် ထို rubric ကို byte-identical အတိုင်း ထိန်းထားပြီး evaluation ကို လူဦးရေ-အတိုင်းအတာ cohort အထိ တိုးချဲ့သည်။.
composite ဖော်မြူလာက အစိတ်အပိုင်း (၃) ခုကို ပေါင်းစပ်ထားပါတယ်— structural conformance မဖြစ်မနေ report sections (၇) ခုနဲ့ မဖြစ်မနေ subsections (၁၆) ခုတို့နဲ့ ကိုက်ညီမှု၊, အကြောင်းအရာ တိကျမှု keyword recall + scoring-system recall + probability-distribution validity check အဖြစ် တိုင်းတာထားပြီး၊ response latency primary-path service-level target ကို ဆန့်ကျင်၍ (အောင်မြင်စေသည်)။ အတိအကျ ခွဲထုတ်မှုကို အောက်ပါ rubric formula တွင် ပြထားသည်—Second Update အတွက် အလေးချိန်များ သို့မဟုတ် sub-rubrics မည်သည်ကိုမျှ ပြောင်းလဲမထားပါ။.
ကျန်ရှိနေသော headroom 0.20 percentage points သည် ဆေးခန်းဆိုင်ရာ sub-score ထဲသို့ အများစုနီးပါး ခွဲထုတ်သွားသည်—case အနည်းငယ် (အဓိကအားဖြင့် Hepatology နှင့် Rheumatology တွင်) တွင် diagnostic content မှန်ကန်နေသော်လည်း အင်ဂျင်၏ interpretation ထဲတွင် မျှော်မှန်းထားသည့် scoring-system keyword တစ်ခု ပျောက်နေခဲ့သည်။. 100,000-case Second-Update cohort အတွင်းရှိ case တစ်ခုမျှ diagnosis ကိုယ်တိုင်ကို လွဲချော်မထားပါ။. latency သည် V11 initial release တွင် ပျမ်းမျှ 20.17 s မှ Second Update တွင် 13.26 s သို့ တိုးတက်လာသည်—ယင်းသည် run နှစ်ခုကြားရှိ production engine optimisations များကို ထင်ဟပ်စေသည်။ rubric၊ scoring code နှင့် API endpoint တို့မှာ မပြောင်းလဲပါ။.
တံဆိပ်တစ်ခုချင်းစီအလိုက် composite ရမှတ်များသည် ကိုယ်စားပြုမှုအများဆုံး နိုင်ငံတံဆိပ် 30 ခုအတွင်း 0.9971 မှ 0.9985 အထိ ရှိခဲ့သည်။ နောက်ထပ် 97 ခုပါဝင်သည့် long tail သည် (စုစုပေါင်း ≈7,300 ကိစ္စ) စနစ်တကျ ယိုယွင်းမှု မပြခဲ့ပါ။ ကိစ္စအရေအတွက်အလိုက် အများဆုံးတံဆိပ်များမှာ အမေရိကန်ပြည်ထောင်စု (10,500)၊ ဘရာဇီး (9,500)၊ စပိန် (9,000)၊ အီတလီ (8,000)၊ ဂျာမနီ (7,800)၊ ပြင်သစ် (7,400)၊ ပေါ်တူဂီ (5,800)၊ Türkiye (3,400)၊ ယူနိုက်တက်ကင်းဒမ် (2,900) နှင့် မက္ကဆီကို (2,500) တို့ဖြစ်သည်။ တံဆိပ်တစ်ခုချင်းစီအလိုက် composite ရမှတ်များသည် 0.9971 မှ 0.9985 အထိ ရှိခဲ့သည်။.
Case 15 ခုမှ Case 100,000 အထိ — Country Labels 127 ခုအတွင်း cohort evolution
မူလ V11 case panel သည် hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — အထူးပြု ခုနစ်ခုကို လွှမ်းခြုံထားပြီး၊ ထို့အပြင် hyperdiagnosis trap case နှစ်ခုကို သီးသန့်ထားကာ case တစ်ခုစီသည် synthetically generated blood-test panel တစ်ခုဖြစ်သည်။ V11 ဒုတိယအကြိမ်အပ်ဒိတ်သည် evaluation ကို Country Labels 127 ခုအတွင်းရှိ synthetic cases 100,000 ခုအထိ တိုးချဲ့သည်, ၊ specialty ရှစ်ခုအတွင်း ဖြန့်ဝေထားသည် (မူလ ခုနစ်ခု plus trap subset ကို စုပ်ယူသည့် သီးသန့် internal-medicine bucket)။ တူညီသော scoring rubric ကို run နှစ်ခုလုံးတွင် byte-identical အတိုင်း အသုံးချထားသည်။.
အားလုံးသော case များသည် synthetic ဖြစ်သောကြောင့် ဖယ်ရှားရန် real identifiers မရှိသလို personal data လည်း မပါဝင်ပါ။ case တစ်ခုစီတွင် benchmark-internal case code တစ်ခု ပါရှိသည် (V11 မူလ set တွင် BT-NNN-LABEL၊ ဒုတိယအကြိမ်အပ်ဒိတ်တွင် တည်ငြိမ်သော case_uid )။ ထုတ်ပြန်ထားသော harness၊ technical report၊ သို့မဟုတ် ထုတ်လွှတ်ထားသော datasets များတွင် personal data မည်သည့်နေရာတွင်မျှ မပေါ်ပါ။.
V11 initial release အတိုင်း ဆောင်ရွက်ခဲ့သည်—လက်ဖြင့်ရွေးချယ်ထားသော case 15 ခု
မူရင်း V11 case panel ကို ဒေါက်တာ Thomas Klein က လက်ဖြင့်ရွေးချယ်တင်ပြထားပြီး ဓာတ်ခွဲခန်း-ဆေးပညာ လက်ထောက်များ အများဆုံး မှားတတ်သည့် ရောဂါရှာဖွေမှုပုံစံများကို လေ့ကျင့်နိုင်ရန် ရည်ရွယ်ထားသည်။ အမှု ၁၅ ခုစီကို အောက်တွင်ဖော်ပြထားသည့် သီးခြား ရောဂါရှာဖွေမှုပိုင်ဆိုင်မှုတစ်ခုစီအတွက် ရွေးချယ်ထားသည်။.
ဒီဖြန့်ဝေမှုကို အဘယ်ကြောင့် အထူးသဖြင့် ရွေးချယ်ထားတာလဲ
သွေးဗေဒပညာရပ်တွင် အမှု ၃ ခုရရှိသည်မှာ microcytic ကွဲပြားမှုများနှင့် macrocytic ကွဲပြားမှုများသည် လက်တွေ့ဓာတ်ခွဲခန်းလုပ်ငန်းတွင် အများဆုံး “trap” ဖြစ်သောကြောင့်ဖြစ်သည်။ အာရုံကြောဆိုင်ရာ/ဟော်မုန်းဆိုင်ရာပညာရပ်တွင် အမှု ၃ ခုရရှိသည်မှာ Hashimoto's၊ PCOS နှင့် ဗီတာမင်ဒီ ချို့တဲ့ခြင်း တင်ပြပုံများသည် မတူညီသော ရောဂါရှာဖွေမှုပုံစံများကို လေ့ကျင့်ပေးသောကြောင့်ဖြစ်သည် (autoantibody-driven၊ hormone-ratio-driven၊ single-marker-driven)။ CKD၊ ASCVD risk နှင့် SLE တို့တွင် တစ်ခုစီအတွက် သီးသန့်အမှုတစ်ခုသာရှိသော်လည်း အဓိပ္ပါယ်ရှိနေသေးသည်။ အကြောင်းမှာ အင်ဂျင်က ခေါ်သုံးရမည့် ကိုယ်ပိုင် အမှတ်ပေးစနစ်တစ်ခုစီရှိသောကြောင့်ဖြစ်သည် (အသီးသီး KDIGO staging၊ ASCVD 10-year risk၊ 2019 EULAR/ACR SLE criteria)။.
V11 ဒုတိယအကြိမ်အပ်ဒိတ် — Country Labels 127 ခုအတွင်းရှိ synthetic cases 100,000 ခု
ဒုတိယအကြိမ်အပ်ဒိတ်သည် မူလ V11 hard-coded 15-case Python literal ကို ပိုကြီးသည့်၊ programmatically generated synthetic case set ဖြင့် အစားထိုးသည်။ case set ကို run တစ်ခုစီ၏ အစတွင် တင်သွင်းပြီး transparency အတွက် configuration ကို မှတ်တမ်းတင်ထားသည်။ content area အလိုက် cohort distribution ကို အောက်တွင် ပြထားသည်။.
အတုသတ်မှတ်ထားသော နိုင်ငံ-တံဆိပ် ဖြန့်ဖြူးမှု — ထိပ် 10 တံဆိပ်
အတုသတ်မှတ်ထားသော ကိစ္စ 100,000 ခုတွင် locale handling ကို စမ်းသပ်ရန် နိုင်ငံတံဆိပ် 127 ခု (ISO 3166-1 alpha-2) ပါဝင်သည်။ တံဆိပ်သတ်မှတ်ခြင်း- ဥရောပ 57.7%၊ အမေရိကတိုက်များ 25.4%၊ အာရှ-ပစိဖိတ် 6.2%၊ အမည်ပေးထားသော အရှေ့အလယ်ပိုင်း/အာဖရိက တံဆိပ်များ 3.4% နှင့် နောက်ထပ် 97 ခုပါဝင်သည့် long tail သည် စုစုပေါင်း ခန့်မှန်း 7.3% ဖြစ်သည်။ ကိစ္စအရေအတွက်အလိုက် အများဆုံးတံဆိပ် 10 ခုမှာ အမေရိကန်ပြည်ထောင်စု (10,500)၊ ဘရာဇီး (9,500)၊ စပိန် (9,000)၊ အီတလီ (8,000)၊ ဂျာမနီ (7,800)၊ ပြင်သစ် (7,400)၊ ပေါ်တူဂီ (5,800)၊ Türkiye (3,400)၊ ယူနိုက်တက်ကင်းဒမ် (2,900) နှင့် မက္ကဆီကို (2,500) တို့ဖြစ်သည်။ တံဆိပ်တစ်ခုချင်းစီအလိုက် composite ရမှတ်များသည် 0.9971 မှ 0.9985 အထိ ရှိခဲ့သည်။ ဤတံဆိပ်အရေအတွက်များသည် locale handling ကို စမ်းသပ်ရန် အသုံးပြုထားသည့် ထုတ်လုပ်ထားသော ကိစ္စများ၏ ဂုဏ်သတ္တိများဖြစ်သည်—၎င်းတို့သည် အမှန်တကယ်အသုံးပြုသူများ မဟုတ်သလို အမှန်တကယ်ကမ္ဘာ့ပထဝီဆိုင်ရာ လွှမ်းခြုံမှုလည်း မဟုတ်ပါ။.
ကြိုတင်မှတ်ပုံတင်ထားသော rubric ကို ရှင်းပြချက်
ကြိုတင်မှတ်ပုံတင်ခြင်း (pre-registration) သည် ဤ benchmark တွင် အရေးကြီးဆုံး နည်းလမ်းပိုင်းဆိုင်ရာ ရွေးချယ်မှုတစ်ခုဖြစ်သည်။ မျှော်မှန်းထားသည့် ရောဂါရှာဖွေမှုတိုင်း၊ ဆေးခန်းအမှတ်ပေးစနစ်တိုင်း၊ နှင့် အစီရင်ခံစာ အပိုင်းတိုင်းကို source code ထဲသို့ ကြိုတင်ကတိပြုထားပြီးဖြစ်သည် အင်ဂျင်ကို မခေါ်မီ. ဖြစ်သောကြောင့်။ အင်ဂျင်ကို ချီးမြှောက်စေမည့် rubric ကို post-hoc ချိန်ညှိခြင်းမှာ ထို့ကြောင့် မဖြစ်နိုင်ပါ။.
ပေါင်းစပ်အမှတ် (composite score) ကို အစိတ်အပိုင်း ၃ ခုဖြင့် ဖွဲ့စည်းထားသည်။ structural component သည် ၃၅ ရာခိုင်နှုန်း ပံ့ပိုးပြီး အင်ဂျင်သည် မဖြစ်မနေ အစီရင်ခံစာ အပိုင်း ၇ ခု (header၊ summary၊ key findings၊ differential၊ scoring systems၊ recommendations၊ follow-up) နှင့် ၎င်းတို့အတွင်းရှိ မဖြစ်မနေ အပိုင်းခွဲ ၁၆ ခုကို ပြန်ပေးခဲ့/မပေးခဲ့ကို တိုင်းတာသည်။ အပိုင်းရှိ/မရှိ (Section presence) သည် structural တွက်ချက်မှုအတွင်း ၄၀ ရာခိုင်နှုန်း အလေးချိန်ရှိပြီး အပိုင်းခွဲရှိ/မရှိ (subsection presence) သည် ၆၀ ရာခိုင်နှုန်း အလေးချိန်ရှိသည်။.
ဟိ clinical component သည် ၅၅ ရာခိုင်နှုန်း ပံ့ပိုးပြီး အရာ ၃ ခုကို ပေါင်းစပ်ထားသည်—ရောဂါရှာဖွေမှု-သော့ချက်စာလုံး ပြန်ခေါ်နိုင်မှု (clinical sub-score ၏ ၇၀ ရာခိုင်နှုန်း)၊ scoring-system ပြန်ခေါ်နိုင်မှု (၂၀ ရာခိုင်နှုန်း—သက်ဆိုင်ရာနေရာများတွင် အင်ဂျင်သည် Mentzer၊ FIB-4၊ HOMA-IR၊ ASCVD risk၊ KDIGO staging၊ EULAR/ACR criteria တို့ကို တွက်ချက်ပေးနိုင်/မပေးနိုင်)၊ နှင့် ဖြစ်နိုင်ခြေ-ပေါင်းလဒ် တရားဝင်မှု စစ်ဆေးချက် (၁၀ ရာခိုင်နှုန်း—differential ဖြစ်နိုင်ခြေများသည် [90, 110] အတွင်း ပေါင်းလဒ်ဖြစ်ရမည်)။ trap အမှုများအတွက် fabricated pathology flag တစ်ခုချင်းစီအတွက် 0.10 နှုန်းဖြင့် တွက်ချက်ပြီး အများဆုံး flag ၃ ခုအထိ ကန့်သတ်ထားသည့် explicit hyperdiagnosis penalty (အများဆုံး 0.30) ကို နုတ်ယူသည်။.
ဟိ latency component သည် ၁၀ ရာခိုင်နှုန်း ပံ့ပိုးသည်။ ၂၀ စက္ကန့်အောက် တုံ့ပြန်မှုသည် အပြည့် 0.10 ရရှိပြီး၊ ၄၀ စက္ကန့်အောက် တုံ့ပြန်မှုသည် 0.05 ရရှိကာ၊ ပိုနှေးသည့် မည်သည့်အရာမဆို 0 ရရှိသည်။ ၂၀ စက္ကန့် ပစ်မှတ်သည် production primary-path service-level objective ကို ထင်ဟပ်စေပြီး၊ ၄၀ စက္ကန့် ကန့်သတ်ချက်သည် heavy-engine invocations များအတွက် Phase 2 fallback budget ကို ထင်ဟပ်စေသည်။.
pre-registration ကာကွယ်ပေးနိုင်သည့်အရာ
First-party benchmark များသည် post-hoc rubric tuning ဖြင့် မိမိတို့၏ နံပါတ်များကို ဖောင်းပွစေတတ်ကြောင်း လူသိများသည်။ ပုံစံမှာ အမြဲလိုလို တူညီနေတတ်သည်—အဖွဲ့က အင်ဂျင်ကို လုပ်ဆောင်ပြီး မည်သည့်နေရာတွင် အားနည်းသည်ကို မြင်ကာ၊ ထို့နောက် အားနည်းနေသော နယ်ပယ်များကို အမှတ်နည်းနည်းသာ ရေတွက်စေမည့်အတွက် rubric ကို တိတ်တဆိတ် ချိန်ညှိလိုက်သည်။ ပထမဆုံး အင်ဂျင်ခေါ်မီ rubric ကို source code ထဲသို့ ကတိပြုထားပြီး harness ကို MIT licence ဖြင့် ထုတ်ပြန်လိုက်သည့်အတွက်၊ ထိုချိန်ညှိမှုသည် version control တွင် မြင်သာလာသည်။ မည်သူမဆို repository ကို clone လုပ်နိုင်ပြီး rubric author dates များကို စစ်ဆေးကာ အင်ဂျင်ရလဒ်များကို အမှတ်ပေးခြင်းကို ပုံဖော်ရန် အသုံးမပြုခဲ့ကြောင်း အတည်ပြုနိုင်သည်။.
Hyperdiagnosis trap အမှုကိစ္စများ — အလွန်အမင်း ခေါ်ဆိုခြင်း (over-calling) က အမှန်တကယ် ပျက်ကွက်မှု ပုံစံ (failure mode) ဘာကြောင့်လဲ
ပုံမှန် စစ်ဆေးမှုများတွင် ရောဂါလက္ခဏာကို အလွန်အမင်း ခေါ်ဆို (over-calling) လုပ်ခြင်းသည် consumer-facing medical assistants များတွင် မှတ်တမ်းတင်ထားသည့် ပျက်ကွက်မှု ပုံစံတစ်ခုဖြစ်သည်။ ၎င်း၏ နောက်ဆက်တွဲကုန်ကျစရိတ်များတွင် မလိုအပ်သော စုံစမ်းစစ်ဆေးမှု၊ လူနာစိုးရိမ်ပူပန်မှု၊ နှင့် iatrogenic workup တို့ ပါဝင်သည်။ ဤ benchmark ရှိ trap အမှု ၂ ခုကို ထိုပျက်ကွက်မှု ပုံစံကို မြင်သာစေပြီး အမှတ်ပေးနိုင်အောင် ဒီဇိုင်းလုပ်ထားသည်။.
🟡 Trap 1 — BT-014-GILBERT
တင်ပြပုံ။. စုစုပေါင်း bilirubin 2.4 mg/dL ရှိသော အသက် ၂၄ နှစ် အမျိုးသား။ direct fraction သည် ပုံမှန်ဖြစ်ပြီး၊ transaminases နှင့် alkaline phosphatase တို့သည် ၎င်းတို့၏ reference range အတွင်းတွင် ရှိနေကာ၊ reticulocytes များမှာ ထူးခြားမှုမရှိပြီး၊ haptoglobin နှင့် LDH သည် haemolysis ကို ဖယ်ထုတ်ပေးသည်။.
မှန်ကန်သော အဓိပ္ပါယ်ဖတ်နည်း။. Gilbert's syndrome — benign UGT1A1 polymorphism ဖြစ်သည်။ အဓိပ္ပါယ်ဖတ်ရာတွင် hepatitis၊ cirrhosis၊ haemolytic anaemia၊ သို့မဟုတ် biliary obstruction ကို မခေါ်သုံးသင့်ပါ။.
V11 ရလဒ်။. Composite 1.000။ စောင့်ကြည့်ထားသည့် over-diagnosis flag ၆ ခုအနက် မည်သည့်အရာမျှ active diagnosis အဖြစ် မပေါ်ခဲ့ပါ။.
🟡 Trap 2 — BT-015-HEALTHY
တင်ပြပုံ။. parameter ၁၅ ခုပါ routine screening panel ရှိသော အသက် ၃၅ နှစ် အမျိုးသမီး။ analyte တိုင်းသည် ၎င်း၏ reference range အတွင်းတွင် သက်တောင့်သက်သာ ရှိနေသည်။.
မှန်ကန်သော အဓိပ္ပါယ်ဖတ်နည်း။. စိတ်ချစရာဖြစ်စေခြင်းနှင့် လူနေမှုပုံစံ ထိန်းသိမ်းခြင်း။ အဓိပ္ပာယ်ဖော်ချက်သည် ဆေးဘက်ဆိုင်ရာအရ အသုံးဝင်သည်ဟု ထင်ရစေရန် နယ်နိမိတ်အဆင့် ရောဂါလက္ခဏာများကို တီထွင်ဖန်တီးမထားသင့်ပါ။.
V11 ရလဒ်။. ပေါင်းစပ်ရမှတ် 1.000။ စောင့်ကြည့်ထားသော အလွန်အမင်း ရောဂါလွန်ကဲစွာ ခန့်မှန်းခြင်း အလံခုနစ်ခု—ဆီးချို၊ သွေးအားနည်းရောဂါ၊ သိုင်းရွိုက်လုပ်ဆောင်မှု လျော့နည်းခြင်း၊ အဆီဓာတ်မညီမျှခြင်း၊ အသည်းရောင်ရောဂါ၊ ကျောက်ကပ်ရောဂါ၊ ချို့တဲ့မှု—အနက် မည်သည့်အရာမျှ တက်ကြွသော ရောဂါအဖြစ် ပေါ်မလာပါ။.
ထောင်ချောက်နှစ်ခုလုံးတွင် စောင့်ကြည့်ထားသော hyperdiagnosis အလံ ၁၃ ခုကို စစ်ဆေးခဲ့သည်။ မည်သည့်အရာမျှ အစပျိုးမခံရပါ။ AI အင်ဂျင်ကို triage သို့မဟုတ် စစ်ဆေးမတိုင်မီ အသုံးပြုရန် စဉ်းစားနေသည့် ဆရာဝန်တိုင်းအတွက် အရေးအကြီးဆုံးဖြစ်သည့် ရလဒ်မှာ ဤအချက်ဖြစ်သည်— မရှိသည့်နေရာတွင် ရောဂါကို စနစ်က တီထွင်မထားပါ.
Mentzer index: သံဓာတ်ချို့တဲ့ခြင်းကို thalassaemia trait မှ ခွဲခြားခြင်း
ဒုတိယ အရည်အသွေးမြင့် ရှာဖွေတွေ့ရှိချက်တစ်ခုမှာ case BT-001 (သံဓာတ်ချို့တဲ့ သွေးအားနည်းရောဂါ) ကို case BT-007 (beta-thalassaemia minor) နှင့် တွဲဖက်ထားခြင်းဖြစ်သည်။ နှစ်ခုလုံးသည် microcytosis ဖြင့် တင်ပြကြပြီး အတွေ့အကြုံမရှိသော ခွဲခြားစနစ်များအတွက် အလွန်သိသာသော အခက်အခဲတစ်ခုဖြစ်သည်။ MCV ကို RBC အရေအတွက်ဖြင့် ပိုင်းခြား၍ တွက်ချက်သော Mentzer index သည် သံဓာတ်ချို့တဲ့ခြင်းတွင် 13 ထက်ကျော်ပြီး thalassaemia trait တွင် 13 ထက်နိမ့်သည်။.
BT-001 တွင် လူနာမှာ အသက် 34 နှစ် အမျိုးသမီးဖြစ်ပြီး hemoglobin 10.4 g/dL၊ MCV 72.4 fL၊ RBC 4.1 × 10¹²/L၊ ferritin 6 ng/mL နှင့် TIBC မြင့်မားခြင်းရှိသည်။ ခန့်မှန်း Mentzer index သည် 17.7 ခန့်ဖြစ်ပြီး absolute iron deficiency ကို ထောက်ခံသည်။ BT-007 တွင် လူနာမှာ အသက် 28 နှစ် အမျိုးသားဖြစ်ပြီး microcytosis (MCV 65.8 fL) ရှိသော်လည်း RBC 6.2 မြင့်မားခြင်း၊ RDW ပုံမှန်၊ ferritin ပုံမှန်၊ HbA2 5.6 percent ရှိသည်။ ခန့်မှန်း Mentzer index သည် 10.6 ခန့်ဖြစ်ပြီး thalassaemia trait ကို ညွှန်ပြကာ elevated HbA2 သည် beta-thalassaemia minor ကို အတည်ပြုသည်။.
အမှုနှစ်ခုလုံးသည် ရမှတ် 1.000 ရရှိသည်။ အင်ဂျင်သည် အဓိပ္ပာယ်ဖော်ချက်နှစ်ခုလုံးတွင် Mentzer index ကို တိတိကျကျ အသုံးပြုခဲ့ပြီး အခြေအနေလက်ရှိတစ်ခုစီတွင် မှန်ကန်သော ရောဂါအမည်ကို ပြန်ပေးခဲ့သည်။. ဤသည်မှာ benchmark တစ်ခုလုံးအတွင်း ဆေးဘက်ဆိုင်ရာအရ အများဆုံး စိတ်ချစရာ ရလဒ်တစ်ခုတည်းဖြစ်သည်, အကြောင်းမှာ thalassaemia trait ကို သံဓာတ်ချို့တဲ့ခြင်းအဖြစ် မှားယွင်းခွဲခြားပါက မသင့်လျော်သော သံဓာတ်ဖြည့်စွက်ခြင်း ဖြစ်ပေါ်စေပြီး မိသားစု စစ်ဆေးခြင်း အခွင့်အလမ်းများကို လွတ်သွားစေကာ၊ သံဓာတ်ချို့တဲ့ခြင်းကို thalassaemia အဖြစ် မှားယွင်းခွဲခြားပါက လွယ်ကူသော အစားထိုးကုသမှုကို နောက်ကျစေသောကြောင့် ဖြစ်သည်။ ကျွန်ုပ်တို့၏ ferritin အကွာအဝေး လမ်းညွှန် သည် ပိုမိုကျယ်ပြန့်သော differential context ကို ရှင်းပြသည်။.
V11 အစောပိုင်း reference run မှ case တစ်ခုချင်းစီ ရလဒ်များ (ဧပြီ ၂၃၊ ၂၀၂၆)
15-case proof-of-concept cohort ပေါ်တွင် မူလ V11 reference run က ဒုတိယ update ၏ နည်းလမ်းဆိုင်ရာ အခြေခံအုတ်မြစ် ဖြစ်သည်—အောက်တွင် case တစ်ခုချင်းစီ၏ အသေးစိတ်အချက်အလက်တိုင်းက rubric သည် အမှန်တကယ် engine response ကို မည်သို့ ကိုင်တွယ်သည်ကို ပြသထားသည်။ ပထမဆုံး path တွင် case ၁၅ ခုအနက် ၁၂ ခုက primary path အတွက် ceiling composite score 1.000 ကို ရရှိခဲ့သည်။ case ၃ ခုကို Phase 2 fallback မှတစ်ဆင့် ဝန်ဆောင်ပေးခဲ့ပြီး၊ 0.05 latency bonus ကို ဆုံးရှုံးသော်လည်း clinical နှင့် structural အကြောင်းအရာအားလုံးကို ထိန်းသိမ်းထားသည်။ case ၁ ခုတွင် မဖြစ်မနေ လိုအပ်သော subsection တစ်ခု ပျောက်နေခဲ့သည်။ case ၁ ခုက probability distribution sum ကို အနည်းငယ် လျော့ကျသွားသည့်အတိုင်း ပြန်လာခဲ့သည်။.
PCOS အမှု (BT-008) သည် တုံ့ပြန်မှုဖွဲ့စည်းပုံတွင် မဖြစ်မနေလိုအပ်သော အပိုင်းတစ်ခုကို ဆုံးရှုံးခဲ့သည်— ၁၆ ခုအနက် ၁၅ ခု (၁၆ ခုအနက် ၁၆ ခုမဟုတ်) — ထို့ကြောင့် ဖွဲ့စည်းပုံရမှတ်ကို 1.000 မှ 0.963 သို့ လျော့ကျစေခဲ့သည်။ SLE အမှု (BT-011) သည် ရောဂါရှာဖွေမှုဆိုင်ရာ သော့ချက်စာလုံးများနှင့် ရမှတ်တွက်ချက်မှုစနစ်အားလုံးကို ထိန်းသိမ်းထားရင်း၊ ဆေးခန်းရမှတ်ကို 0.965 သို့ ကျစေသည့် အနည်းငယ် လျော့ကျသွားသော ဖြစ်နိုင်ခြေ-ဖြန့်ချီမှု ပေါင်းလဒ်ကို ပြန်ပေးခဲ့သည်။ မည်သည့် sub-perfect အမှုမျှ မှန်ကန်သော ရောဂါရှာဖွေမှုကို လွဲမချော်ခဲ့ပါ။.
V11 Second Update aggregate — case 100,000
လူဦးရေအတိုင်းအတာအဆင့်တွင် ကိစ္စတစ်ခုချင်းစီ၏ row များကို လူသားဖတ်ရှုနိုင်အောင် မပြနိုင်သဖြင့် ဒုတိယအပ်ဒိတ်သည် 100,000-row ဇယားတစ်ခုထက် စုစည်းထားသော မက်ထရစ်များကိုသာ အစီရင်ခံသည်။ အဓိက headline စုစည်းမှုကို အောက်တွင် ပြထားသည်။ အထူးပြုတစ်ခုချင်းစီနှင့် နိုင်ငံတံဆိပ်တစ်ခုချင်းစီအလိုက် ခွဲခြမ်းမှုများကို နည်းပညာဆိုင်ရာ အစီရင်ခံစာနှင့် Figshare deposit တွင် ထုတ်ပြန်ထားသည်။ stratified random sample တစ်ခုမှာ n = 201 raw engine responses (deterministic seed 20260426) ကို စစ်ဆေးရန် GitHub repository ၏ results/ directory တွင် ထုတ်ပြန်ထားသည်။.
ခေါင်းစဉ်ရမှတ်က မပြောပြနိုင်တဲ့အရာ
ဤ pre-registered rubric အထူးသတ်မှတ်ချက်အောက်တွင် 99.80 percent composite score သည် Country Labels 127 ခုကို ဖြတ်သန်းသည့် 100,000-case synthetic cohort အပေါ်တွင် near-ceiling performance ကို ကိုယ်စားပြုသည် — သို့သော် ၎င်းကို သေချာစွာ အဓိပ္ပါယ်ဖော်ပြရန် လိုအပ်သည်။ ရလဒ်သည် V11 တွင် source code အဖြစ် ကျွန်ုပ်တို့ ကတိပြုထားသည့် rubric နှင့် နှိုင်းယှဉ်ရာတွင် engine ၏ အပြုအမူကို ဖော်ပြသည်။ ၎င်းသည် လက်တွေ့လောကတွင် ရှိနေသည့် သွေးစစ် panel တိုင်းအတွက် engine ၏ မှန်ကန်မှုကို universal claim အဖြစ် မဆိုလိုပါ။.
ရမှတ်က အင်ဂျင်သည် ဤအကဲဖြတ်မှုအတွက် ရွေးချယ်ထားသော ရောဂါရှာဖွေရေး ပုံစံများကို လူဦးရေ အတိုင်းအတာ cohort တစ်ခုအတွင်း မှန်ကန်စွာ ကိုင်တွယ်နိုင်ခဲ့ကြောင်း ဆိုလိုသည်။ ထိုသို့ဆိုခြင်းသည် ထုတ်ဝေထားပြီး ပြန်လည်ပြုလုပ်နိုင်သည့် methodology တစ်ခုအပေါ်တွင် ဖြစ်သည်။ ၎င်းသည် လက်တွေ့လောကတွင် ရှိနေသည့် သွေးစစ်ဆေးမှု panel တိုင်းအတွက် အင်ဂျင်မှန်ကန်သည်ဟု မဆိုပါ။ အင်ဂျင်သည် ဆရာဝန်၏ ဆုံးဖြတ်ချက်ကို အစားထိုးသင့်သည်ဟုလည်း မဆိုပါ။ ထို့အပြင် အခြား AI စနစ်များထက် သာလွန်သည်ဟုလည်း မဆိုပါ — အခြားအင်ဂျင်များနှင့် နှိုင်းယှဉ်လေ့လာမှုများကို ဤအစီရင်ခံစာ၏ scope အပြင်ဘက်အဖြစ် တမင်ထားခဲ့သည်။.
ရမှတ်က သတ်မှတ်ပေးနိုင်သည်မှာ baseline တစ်ခုဖြစ်သည်။ rubric နှင့် harness ကို အများပြည်သူသို့ ထုတ်ဖော်ထားပြီးဖြစ်သဖြင့် အင်ဂျင်၏ အနာဂတ်ဗားရှင်းများကို တူညီသော rubric နှင့် နှိုင်းယှဉ်အကဲဖြတ်နိုင်သည် — V11 အစပိုင်း case 15 ခု၊ ဒုတိယ အပ်ဒိတ် 100,000-case cohort၊ သို့မဟုတ် နောက်ထပ် တိုးချဲ့မှု မည်သည့်အရာမဆို — ထုတ်ဝေထားသော ရမှတ်နှင့် နောက်ထပ် run တစ်ခုကြားက ကွာဟချက်ကိုလည်း တိုင်းတာနိုင်သည်။ ကြိုတင်မှတ်ပုံတင်ခြင်း၏ တန်ဖိုးမှာ ယင်းဖြစ်သည်— စွမ်းဆောင်ရည်ဆိုင်ရာ တောင်းဆိုချက်များကို စမ်းသပ်နိုင်သော တောင်းဆိုချက်များအဖြစ် ပြောင်းလဲပေးသည်.
၁၀ မိနစ်အတွင်း ဒီ benchmark ကို ဘယ်လိုပြန်ထုတ်လုပ်မလဲ
ပြန်လည်ပြုလုပ်ရန်အတွက် Kantesti API credential pair တစ်ခုနှင့် Python 3.10 သို့မဟုတ် နောက်ပိုင်း ပတ်ဝန်းကျင်တစ်ခုသာ လိုအပ်သည်— requests နှင့် reportlab libraries များကို ထည့်သွင်းထားပြီးဖြစ်ရမည်။ အပြည့်အစုံ harness သည် MIT လိုင်စင်အောက်တွင် ထုတ်ပြန်ထားသော တစ်ခုတည်းသော self-contained Python module တစ်ခုဖြစ်သည်။.
လတ်ဆတ်သော run တစ်ခုအတွက် အဆင့် ၄ ခု
တစ်။. repository ကို clone လုပ်ပါ— git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. နှစ်။. လိုအပ်သော ပက်ကေ့ချ်များကို
ထည့်သွင်းရန် pip install -r requirements.txt (ဒုတိယ အပ်ဒိတ်တွင် ထပ်တိုးသည်မှာ mysql-connector-python ≥ 8.0 SQL case loader အတွက်). သုံး။. သတ်မှတ်ပါ KANTESTI_USERNAME နှင့် KANTESTI_PASSWORD အင်ဂျင် API အတွက် environment variables များအဖြစ်။ ဒုတိယ အပ်ဒိတ် SQL case loader အတွက်လည်း ထို့အပြင် သတ်မှတ်ပါ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, နှင့် KANTESTI_DB_PASSWORD — loader သည် ဖော်ထုတ်နိုင်သော ဇယားများအပေါ်တွင် အခွင့်အရေးမရှိသည့် read-only role မှတစ်ဆင့် ချိတ်ဆက်သည် (bench_reader). လေး။. လုပ်ဆောင်ပါ python benchmark_bloodtest.py --limit 100000 ဒါမှမဟုတ် full Second-Update ကို run လုပ်ရန်၊ python benchmark_bloodtest.py --limit 1000 မြန်ဆန်စွာ စမ်းသပ်ပြင်ဆင်ရန်။ ရလဒ်များကို ./benchmark_results/: per-country-label နှင့် per-specialty ကော်လံများပါဝင်သည့် CSV scorecard တစ်ခု၊ JSON aggregate တစ်ခု၊ stratified-random raw-response sample တစ်ခုနှင့် Markdown အစီရင်ခံစာတစ်ခု။.
23 April 2026 (V11 initial, 15 cases) နှင့် 26 April 2026 (V11 Second Update, 100,000 cases) မှ reference runs များကို repository ၏ repository ၏ results/ directory ထဲတွင် ထိန်းသိမ်းထားသည်။ သင်၏ run သည် reference runs များကို မထိခိုက်စေဘဲ timestamp ပါသော scorecard အသစ်တစ်ခု ထုတ်ပေးမည်ဖြစ်သည်။ သင်၏ run သည် အဓိပ္ပါယ်ရှိစွာ ကွာခြားသော ရလဒ်ထွက်ပါက response metadata တွင် ပြန်လာသည့် run timestamp နှင့် engine version တို့နှင့်အတူ GitHub issue တစ်ခု ဖွင့်ပေးပါရန် တောင်းဆိုပါသည်။.
ကန့်သတ်ချက်များနှင့် အနာဂတ်လုပ်ငန်း
နိုင်ငံတံဆိပ် 127 ခုအပေါ် ဖြန့်ထားသည့် ကိစ္စ 100,000 အထိပင်ရှိသော်လည်း ကန့်သတ်ချက် ၄ ခုကို အတိအကျ အသိအမှတ်ပြုရန် လိုအပ်သည်—long-tail label undersampling၊ single-shot evaluation၊ single-engine scope နှင့် single-source data origin တို့ဖြစ်သည်။ ယင်းတို့ကို တက်ကြွစွာ follow-up လုပ်ငန်းများဖြင့် ဖြေရှင်းလျက်ရှိသည်။.
Long-tail label လွှမ်းခြုံမှု။. ဒုတိယအပ်ဒိတ်သည် နိုင်ငံတံဆိပ် 127 ခုကို လွှမ်းခြုံထားသော်လည်း ဖြန့်ဖြူးမှုမှာ မညီမျှ—ထိပ် 10 တံဆိပ်များသည် ကိစ္စများ၏ ≈66.4% ကို ကိုယ်စားပြုပြီး၊ နောက်ထပ် 97 ခုပါဝင်သည့် long tail သည် စုစုပေါင်း ≈7.3% (စုစုပေါင်း ခန့်မှန်း 7,300 ကိစ္စ၊ တံဆိပ်တစ်ခုလျှင် ပျမ်းမျှ ~75 ကိစ္စ) ပံ့ပိုးပေးသည်။ ထို့ကြောင့် ဤ long tail အတွင်းရှိ တံဆိပ်တစ်ခုချင်းစီ၏ composite များသည် headline figures က အကြံပြုသည့်ထက် ပိုမို ဆူညံမှုများသည်။ အနာဂတ် run များတွင် တံဆိပ်တစ်ခုချင်းစီအလိုက် ခန့်မှန်းချက်များကို ခိုင်မာစေရန် label assignment ကို ပြန်ညှိမည်ဖြစ်သည်။.
Single-shot evaluation။. cohort အတွင်းရှိ case တစ်ခုစီကို တစ်ကြိမ်တည်း အကဲဖြတ်ခဲ့သည်။ sampling temperature နိမ့်သော်လည်း large language models များတွင် output variance သည် အရေးမပါမဟုတ်သည့်အတိုင်းအတာဖြင့် ရှိတတ်သောကြောင့် case တစ်ခုစီအတွက် အကဲဖြတ်မှု ၅ ကြိမ်ပါဝင်သည့် multi-run protocol နှင့် reported variance ကို ထည့်သွင်းခြင်းသည် သဘာဝကျသော နောက်တစ်ဆင့်ဖြစ်သည်—အထူးသဖြင့် trap-case subset တွင်၊ sampling jitter အောက်တွင် တည်ငြိမ်မှုသည် safety claim ၏ အစိတ်အပိုင်းတစ်ခုဖြစ်သောကြောင့် ဖြစ်သည်။.
Single-engine scope။. ဤအစီရင်ခံစာသည် engine တစ်ခုတည်းကို ဖော်ပြထားသည်။ အခြား AI စနစ်များနှင့် နှိုင်းယှဉ်လေ့လာမှုများမှာ ဤနေရာတွင် မပါဝင်နိုင်ပါ။ တူညီသော MIT-licensed harness ကို အသုံးပြု၍ သင့်လျော်သော methodology ဖြင့် သီးခြား independent study အဖြစ် ကျွန်ုပ်တို့ ဆက်လက်လုပ်ဆောင်နိုင်ပါသည်။.
Synthetic data။. 100,000 cases များသည် synthetic cases များဖြစ်ပြီး synthetically generated ဖြစ်သည်။ ရလဒ်များသည် လက်တွေ့ကမ္ဘာ clinical performance သို့ မကူးပြောင်းပါ။ real, consented, externally-sourced data အပေါ် evaluation ပြုလုပ်ရန် သင့်လျော်သော ethical oversight လိုအပ်ပြီး ယင်းသည် ဤ synthetic benchmark ၏ scope အပြင်ဘက်တွင် ပါဝင်သည်။.
ဤကန့်သတ်ချက် လေးခုအပြင်၊ အများဆုံး အကျိုးသက်ရောက်မည့် စီစဉ်ထားသော တိုးချဲ့မှုမှာ jurisdiction တစ်ခုချင်းစီအလိုက် multi-language parity ဖြစ်သည်။ Kantesti AI Engine သည် 75+ ဘာသာစကားများဖြင့် အသုံးပြုသူများကို ဝန်ဆောင်မှုပေးပြီး၊ ဘာသာစကားအလိုက် ခွဲထားသော Second-Update sub-cohorts (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) ကို run လုပ်ခြင်းဖြင့် engine ၏ ပံ့ပိုးထားသော ဘာသာစကားများအကြား output quality ကို တိုင်းတာမည်ဖြစ်သည်။ ဘာသာစကားအလိုက် ခွဲထားသော analysis တစ်ခုစီကို ၎င်း၏ DOI နှင့် harness branch တို့နှင့်အတူ ထုတ်ဝေမည်ဖြစ်သည်။.