ဒီ benchmark က ဘာကြောင့်ရှိပြီး ဘာကို စမ်းသပ်တာလဲ

AI-assisted blood test interpretation ကို စားသုံးသူနှင့် ဆေးဘက်ဆိုင်ရာ လုပ်ငန်းစဉ်များတွင် ပိုမိုအသုံးများလာနေသော်လည်း ဓာတ်ခွဲခန်းဆေးပညာနှင့် ကိုက်ညီအောင် ပြန်လည်စမ်းသပ်နိုင်သည့် အကဲဖြတ်ရေးဘောင်များမှာ မကြာခဏ မတွေ့ရသေးပါ။ ဒီအခြေအနေမှာ အရေးကြီးဆုံး မေးခွန်းတွေက အထွေထွေ ဆေးဘက်ဆိုင်ရာ မေးခွန်း-ဖြေကြား benchmark တွေမှာ ပါဝင်ထားတာတွေ မဟုတ်ပါ— mean corpuscular volume တူညီနေချိန်မှာ engine က iron deficiency ကို thalassaemia trait နဲ့ ခွဲနိုင်မလား၊ hepatitis လိုမျိုးနဲ့ Gilbert's syndrome ကို over-diagnose လုပ်မလား၊ ပုံမှန်အပြည့်အဝ screening panel တစ်ခုထဲမှာ pathology ကို ဖန်တီးထုတ်လုပ်မလားဆိုတာလား။

ကြိုတင်မှတ်ပုံတင်ထားတဲ့ rubric flow diagram — Kantesti AI Engine — V11 ဒုတိယအပ်ဒိတ်၊ 100,000 cases အပေါ် 99.80% composite score — ကို အေးခဲထားတဲ့ scoring criteria နဲ့ ဘယ်လို အကဲဖြတ်ထားကြောင်း ပြသထားသည်
ပုံ ၁: V11 Second Update 100,000-case cohort နောက်ခံရှိ benchmark architecture သည် 99.80% ပေါင်းစပ်ရမှတ် အင်ဂျင်က PDF တစ်စောင်ကို မမြင်ခင်ကတည်းက source code ထဲတွင် case တစ်ခုစီ၊ keyword တစ်ခုစီ၊ scoring system တစ်ခုစီကို သတ်မှတ်ထားပြီး rubric သည် V11 initial release နှင့် byte-identical ဖြစ်သည်။ ဒီဇိုင်းအရ post-hoc rubric tuning ကို မဖြစ်နိုင်ပါ။.

သွေးစစ်ဆေးမှု အကွက်တစ်ခုတည်း (blood test panel) မှာ ပုံမှန်အားဖြင့် အဓိပ္ပာယ်ဖွင့်ဆိုချက် အများအပြားကို ထောက်ပံ့နိုင်လောက်တဲ့ အချက်အလက် (signal) တွေ ပါဝင်တတ်ပြီး၊ အဓိပ္ပာယ်ဖွင့်ဆိုပေးမယ့် ဆေးဘက်ဆိုင်ရာ ကျွမ်းကျင်သူရဲ့ အလုပ်က စာအုပ်ထဲက အဖြေတစ်ခုကို ပြန်ရှာတာထက် အဲဒီအဓိပ္ပာယ်ဖွင့်ဆိုချက်တွေကို တစ်ခုနဲ့တစ်ခု ယှဉ်ပြီး အလေးချိန်ချိန်ရန် ဖြစ်ပါတယ်။ စာအုပ်ထဲက အခြေအနေတွေမှာ ကောင်းကောင်းလုပ်နိုင်တဲ့ အင်ဂျင်တစ်ခုက အရေးကြီးဆုံးဖြစ်တဲ့ အခြေအနေတွေမှာတော့ ပျက်ကွက်နိုင်ပါတယ်—ကွဲပြားရောဂါရှာဖွေမှု (differential-diagnosis) ထောင်ချောက်တွေ၊ တစ်ခုတည်းအနေနဲ့ ကြည့်ရင် စိုးရိမ်စရာလို ထင်ရပေမယ့် အန္တရာယ်မရှိတဲ့ မျိုးကွဲများ (benign variants)၊ နဲ့ အပြည့်အဝ ပုံမှန် (fully normal) အကွက်တွေကနေ ယုံကြည်စိတ်ချစွာ လက်ထောက်တွေကို ရောဂါလက္ခဏာတု (manufacturing pathology) ဖန်တီးစေတဲ့အရာတွေပါဝင်ပါတယ်။.

ဒီ benchmark ကို အဲဒီလို ပျက်ကွက်နိုင်တဲ့ ပုံစံတွေကို အတိအကျ အခြေခံပြီး တည်ဆောက်ထားပါတယ်။ Case (၁၅) ခုစီကို သီးခြား ရောဂါရှာဖွေရေး ဂုဏ်သတ္တိတစ်ခုအတွက် ရွေးချယ်ထားပါတယ်—တူညီတဲ့ mean corpuscular volume (MCV) ရှိတဲ့ beta-thalassaemia trait နဲ့ ခွဲခြားထားရမယ့် iron-deficient microcytosis၊ ပုံမှန်မဟုတ်မှု တစ်ခုတည်းသာ ဖြစ်တဲ့ isolated indirect hyperbilirubinaemia ပါဝင်တဲ့ Gilbert's syndrome ပုံစံ၊ နဲ့ analyte တစ်ခုချင်းစီက reference range အတွင်းမှာပဲ ရှိနေတဲ့ fifteen-parameter screening panel တစ်ခု။ rubric က case တစ်ခုချင်းစီကို ကိုယ်ပိုင်အခြေအနေအရ ဖတ်တတ်တဲ့ engine တွေကို ဆုချပြီး၊ အဲဒီလို ရောဂါရှာဖွေမှုမျိုး မလိုအပ်တဲ့နေရာမှာ ယုံကြည်စိတ်ချစွာ ရောဂါရှာဖွေမှုတစ်ခုကို ဆွဲယူသွားတဲ့ engine တွေကို ဒဏ်ခတ်ပါတယ်။.

MD ဖြစ်သူ Thomas Klein အနေနဲ့၊ ဒီ case panel ကို ကျွန်တော်ရွေးချယ်ခဲ့တာက—laboratory-medicine လက်ထောက်တွေက အများဆုံး မှားတတ်တဲ့ ပုံစံတွေက ဒီလိုပဲ ဖြစ်လို့ပါ။. အကုန်အကျများတဲ့ ပျက်ကွက်မှုက "ရှားပါးရောဂါတစ်ခုကို လွတ်သွားခြင်း" မဟုတ်ပါ—အဲဒီလို မရှိတဲ့ လူနာတွေမှာ ပုံမှန်ဖြစ်တတ်တဲ့ ရောဂါလက္ခဏာ (routine pathology) ကို တီထွင်ဖန်တီးခြင်း (fabricating) ဖြစ်ပါတယ်။. ကျွန်တော်တို့ရဲ့ ဆေးဘက်ဆိုင်ရာအတည်ပြုချက် hub သည် ပိုမိုကျယ်ပြန့်သော framework ကို ဖော်ပြသည်။ ဤစာမျက်နှာသည် V11 မူလ proof-of-concept နှင့် ၎င်းကို Country Labels 127 ခုကို ဖြတ်သန်းသည့် synthetic case set မှ ရယူထားသော synthetic cases 100,000 အထိ ချဲ့ထွင်ထားသည့် V11 ဒုတိယအကြိမ်အပ်ဒိတ်ကို ဖော်ပြသည် — တူညီသော scoring rubric ကို အသုံးပြု၍ byte-identical ဖြစ်ပြီး post-hoc tuning ကို ခွင့်မပြုပါ။.

နောက်ဆုံး reference run — V11 Second Update (ဧပြီ 26၊ 2026)

2026 ခုနှစ် ဧပြီ 26 ရက် V11 Second Update reference run သည် composite score ကို ထုတ်ပေးခဲ့သည် 99.80% V11 initial release တွင် အသုံးပြုခဲ့သည့် အတည်ပြုထားသော (pre-registered) rubric အတိုင်း တူညီစွာ အကဲဖြတ်ခဲ့ပြီး Synthetic cases 100,000 ခု Kantesti synthetic case set မှ ဆင်းသက်ပြီး နိုင်ငံတံဆိပ် 127 ခု နှင့် 75+ ဘာသာစကားများကို ဖြတ်သန်းထားသည်။ case တစ်ခုစီသည် အင်ဂျင်၏ primary path ပေါ်တွင် ပြီးဆုံးခဲ့ပြီး trap-case hyperdiagnosis flag activations သည် 0 / 87,412. တွင်သာ ရှိနေသည်။ 2026 ခုနှစ် ဧပြီ 23 ရက်က မူလ V11 run သည် လက်ဖြင့်ရွေးချယ်ထားသော case 15 ခု (composite 99.12%) ကို လွှမ်းခြုံကာ rubric ကို အတည်ပြုခဲ့သည်။ Second Update သည် ထို rubric ကို byte-identical အတိုင်း ထိန်းထားပြီး evaluation ကို လူဦးရေ-အတိုင်းအတာ cohort အထိ တိုးချဲ့သည်။.

Composite 99.80% case 100,000 အနက် 100,000 ခုသည် အမှတ်ရရှိ
1.000 Structural score
0.996 Clinical score
13.26 s ပျမ်းမျှ latency
0 / 87,412 Trap false-positives

composite ဖော်မြူလာက အစိတ်အပိုင်း (၃) ခုကို ပေါင်းစပ်ထားပါတယ်— structural conformance မဖြစ်မနေ report sections (၇) ခုနဲ့ မဖြစ်မနေ subsections (၁၆) ခုတို့နဲ့ ကိုက်ညီမှု၊, အကြောင်းအရာ တိကျမှု keyword recall + scoring-system recall + probability-distribution validity check အဖြစ် တိုင်းတာထားပြီး၊ response latency primary-path service-level target ကို ဆန့်ကျင်၍ (အောင်မြင်စေသည်)။ အတိအကျ ခွဲထုတ်မှုကို အောက်ပါ rubric formula တွင် ပြထားသည်—Second Update အတွက် အလေးချိန်များ သို့မဟုတ် sub-rubrics မည်သည်ကိုမျှ ပြောင်းလဲမထားပါ။.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

ကျန်ရှိနေသော headroom 0.20 percentage points သည် ဆေးခန်းဆိုင်ရာ sub-score ထဲသို့ အများစုနီးပါး ခွဲထုတ်သွားသည်—case အနည်းငယ် (အဓိကအားဖြင့် Hepatology နှင့် Rheumatology တွင်) တွင် diagnostic content မှန်ကန်နေသော်လည်း အင်ဂျင်၏ interpretation ထဲတွင် မျှော်မှန်းထားသည့် scoring-system keyword တစ်ခု ပျောက်နေခဲ့သည်။. 100,000-case Second-Update cohort အတွင်းရှိ case တစ်ခုမျှ diagnosis ကိုယ်တိုင်ကို လွဲချော်မထားပါ။. latency သည် V11 initial release တွင် ပျမ်းမျှ 20.17 s မှ Second Update တွင် 13.26 s သို့ တိုးတက်လာသည်—ယင်းသည် run နှစ်ခုကြားရှိ production engine optimisations များကို ထင်ဟပ်စေသည်။ rubric၊ scoring code နှင့် API endpoint တို့မှာ မပြောင်းလဲပါ။.

တံဆိပ်တစ်ခုချင်းစီအလိုက် composite ရမှတ်များသည် ကိုယ်စားပြုမှုအများဆုံး နိုင်ငံတံဆိပ် 30 ခုအတွင်း 0.9971 မှ 0.9985 အထိ ရှိခဲ့သည်။ နောက်ထပ် 97 ခုပါဝင်သည့် long tail သည် (စုစုပေါင်း ≈7,300 ကိစ္စ) စနစ်တကျ ယိုယွင်းမှု မပြခဲ့ပါ။ ကိစ္စအရေအတွက်အလိုက် အများဆုံးတံဆိပ်များမှာ အမေရိကန်ပြည်ထောင်စု (10,500)၊ ဘရာဇီး (9,500)၊ စပိန် (9,000)၊ အီတလီ (8,000)၊ ဂျာမနီ (7,800)၊ ပြင်သစ် (7,400)၊ ပေါ်တူဂီ (5,800)၊ Türkiye (3,400)၊ ယူနိုက်တက်ကင်းဒမ် (2,900) နှင့် မက္ကဆီကို (2,500) တို့ဖြစ်သည်။ တံဆိပ်တစ်ခုချင်းစီအလိုက် composite ရမှတ်များသည် 0.9971 မှ 0.9985 အထိ ရှိခဲ့သည်။.

Case 15 ခုမှ Case 100,000 အထိ — Country Labels 127 ခုအတွင်း cohort evolution

မူလ V11 case panel သည် hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — အထူးပြု ခုနစ်ခုကို လွှမ်းခြုံထားပြီး၊ ထို့အပြင် hyperdiagnosis trap case နှစ်ခုကို သီးသန့်ထားကာ case တစ်ခုစီသည် synthetically generated blood-test panel တစ်ခုဖြစ်သည်။ V11 ဒုတိယအကြိမ်အပ်ဒိတ်သည် evaluation ကို Country Labels 127 ခုအတွင်းရှိ synthetic cases 100,000 ခုအထိ တိုးချဲ့သည်, ၊ specialty ရှစ်ခုအတွင်း ဖြန့်ဝေထားသည် (မူလ ခုနစ်ခု plus trap subset ကို စုပ်ယူသည့် သီးသန့် internal-medicine bucket)။ တူညီသော scoring rubric ကို run နှစ်ခုလုံးတွင် byte-identical အတိုင်း အသုံးချထားသည်။.

V11 အစပိုင်း case-panel ဒီဇိုင်း — ဆေးဘက်ဆိုင်ရာ အထူးပြု ခုနစ်ခုအတွင်း စံပြ သွေးစစ်ချက် case ဆယ့်ငါးခုနှင့် hyperdiagnosis trap case နှစ်ခု; အလားတူ rubric သည် V11 ဒုတိယ အပ်ဒိတ်တွင် case ၁၀၀,၀၀၀ အပေါ် composite score ၉၉.၁TP40T ရရှိခဲ့သည်
ပုံ ၂: V11 initial case-panel ဒီဇိုင်းသည် hematology၊ endocrinology၊ metabolic medicine၊ hepatology၊ nephrology၊ cardiology၊ rheumatology အပြင် trap case ၂ ခု—Gilbert's syndrome နှင့် အပြည့်အဝ ပုံမှန် screening panel—တို့ပါဝင်သည်။ Second Update သည် Kantesti SQL repository မှ ဆွဲထုတ်ထားသော case 100,000 အထိ cohort ကို တိုးချဲ့နေစဉ် ဤ rubric ကို byte-identical အတိုင်း ထိန်းသိမ်းထားသည်။.

အားလုံးသော case များသည် synthetic ဖြစ်သောကြောင့် ဖယ်ရှားရန် real identifiers မရှိသလို personal data လည်း မပါဝင်ပါ။ case တစ်ခုစီတွင် benchmark-internal case code တစ်ခု ပါရှိသည် (V11 မူလ set တွင် BT-NNN-LABEL၊ ဒုတိယအကြိမ်အပ်ဒိတ်တွင် တည်ငြိမ်သော case_uid )။ ထုတ်ပြန်ထားသော harness၊ technical report၊ သို့မဟုတ် ထုတ်လွှတ်ထားသော datasets များတွင် personal data မည်သည့်နေရာတွင်မျှ မပေါ်ပါ။.

V11 initial release အတိုင်း ဆောင်ရွက်ခဲ့သည်—လက်ဖြင့်ရွေးချယ်ထားသော case 15 ခု

မူရင်း V11 case panel ကို ဒေါက်တာ Thomas Klein က လက်ဖြင့်ရွေးချယ်တင်ပြထားပြီး ဓာတ်ခွဲခန်း-ဆေးပညာ လက်ထောက်များ အများဆုံး မှားတတ်သည့် ရောဂါရှာဖွေမှုပုံစံများကို လေ့ကျင့်နိုင်ရန် ရည်ရွယ်ထားသည်။ အမှု ၁၅ ခုစီကို အောက်တွင်ဖော်ပြထားသည့် သီးခြား ရောဂါရှာဖွေမှုပိုင်ဆိုင်မှုတစ်ခုစီအတွက် ရွေးချယ်ထားသည်။.

သွေးရောဂါဗေဒ (3) BT-001၊ BT-006၊ BT-007 သံဓာတ်ချို့တဲ့ သွေးအားနည်းခြင်း · B12 ချို့တဲ့ခြင်း · Beta-thalassaemia minor
အတွင်းဂလင်းရောဂါဗေဒ (3) BT-002၊ BT-008၊ BT-012 Hashimoto's thyroiditis · အင်ဆူလင်ခုခံမှုနှင့်အတူ PCOS · ဗီတာမင်ဒီ ပြင်းထန်စွာ ချို့တဲ့ခြင်း
ဇီဝဖြစ်စဉ် (2) BT-003၊ BT-013 metabolic syndrome နှင့်အတူ T2DM · gout အန္တရာယ်နှင့်အတူ Hyperuricaemia
အသည်းရောဂါဗေဒ (2) BT-004၊ BT-009 NAFLD / NASH · စူးရှသော ဗိုင်းရပ်စ်အသည်းရောင်ရောဂါ
ကျောက်ကပ်ရောဂါဗေဒ · နှလုံးရောဂါဗေဒ · အဆစ်အမြစ်ရောင်ရောဂါဗေဒ (3) BT-005၊ BT-010၊ BT-011 CKD အဆင့် 3 · Atherogenic dyslipidaemia · Systemic lupus erythematosus
Trap အမှုများ (2) BT-014၊ BT-015 Gilbert's syndrome (သီးခြား indirect hyperbilirubinaemia) · အရွယ်ရောက်ပြီးသူ screen အပြည့်အဝ ပုံမှန်

ဒီဖြန့်ဝေမှုကို အဘယ်ကြောင့် အထူးသဖြင့် ရွေးချယ်ထားတာလဲ

သွေးဗေဒပညာရပ်တွင် အမှု ၃ ခုရရှိသည်မှာ microcytic ကွဲပြားမှုများနှင့် macrocytic ကွဲပြားမှုများသည် လက်တွေ့ဓာတ်ခွဲခန်းလုပ်ငန်းတွင် အများဆုံး “trap” ဖြစ်သောကြောင့်ဖြစ်သည်။ အာရုံကြောဆိုင်ရာ/ဟော်မုန်းဆိုင်ရာပညာရပ်တွင် အမှု ၃ ခုရရှိသည်မှာ Hashimoto's၊ PCOS နှင့် ဗီတာမင်ဒီ ချို့တဲ့ခြင်း တင်ပြပုံများသည် မတူညီသော ရောဂါရှာဖွေမှုပုံစံများကို လေ့ကျင့်ပေးသောကြောင့်ဖြစ်သည် (autoantibody-driven၊ hormone-ratio-driven၊ single-marker-driven)။ CKD၊ ASCVD risk နှင့် SLE တို့တွင် တစ်ခုစီအတွက် သီးသန့်အမှုတစ်ခုသာရှိသော်လည်း အဓိပ္ပါယ်ရှိနေသေးသည်။ အကြောင်းမှာ အင်ဂျင်က ခေါ်သုံးရမည့် ကိုယ်ပိုင် အမှတ်ပေးစနစ်တစ်ခုစီရှိသောကြောင့်ဖြစ်သည် (အသီးသီး KDIGO staging၊ ASCVD 10-year risk၊ 2019 EULAR/ACR SLE criteria)။.

V11 ဒုတိယအကြိမ်အပ်ဒိတ် — Country Labels 127 ခုအတွင်းရှိ synthetic cases 100,000 ခု

ဒုတိယအကြိမ်အပ်ဒိတ်သည် မူလ V11 hard-coded 15-case Python literal ကို ပိုကြီးသည့်၊ programmatically generated synthetic case set ဖြင့် အစားထိုးသည်။ case set ကို run တစ်ခုစီ၏ အစတွင် တင်သွင်းပြီး transparency အတွက် configuration ကို မှတ်တမ်းတင်ထားသည်။ content area အလိုက် cohort distribution ကို အောက်တွင် ပြထားသည်။.

Endocrinology အမှု ၂၃,၉၀၀ (23.9%) သိုင်းရွိုက်၊ PCOS၊ ဗီတာမင်ဒီ၊ gonadal axis၊ pituitary
ဇီဝဖြစ်စဉ်ဆေးပညာ အမှု ၂၁,၉၀၀ (21.9%) T2DM၊ metabolic syndrome၊ lipid panels၊ hyperuricaemia
သွေးဗေဒ အမှု ၁၅,၄၀၀ (15.4%) Microcytic နှင့် macrocytic ကွဲပြားမှုများ၊ B12/folate၊ iron studies
အသည်းရောဂါဗေဒ (Hepatology) အမှု ၁၂,၄၀၀ (12.4%) NAFLD/NASH၊ viral hepatitis၊ FIB-4၊ cholestasis
အတွင်းဆေးပညာ (trap subset ပါဝင်) အမှု ၉,၀၀၀ (9.0%) ရောနှောတင်ပြမှုများနှင့် 8,723 ခု အထူးပြု hyperdiagnosis trap အမှုများ
နှလုံးရောဂါဗေဒ (Cardiology) အမှု ၇,၅၀၀ (7.5%) ASCVD risk၊ atherogenic dyslipidaemia၊ hs-CRP
အဆစ်အမြစ်ရောဂါဗေဒ (Rheumatology) အမှု ၆,၀၀၀ (6.0%) SLE၊ RA၊ vasculitis၊ autoantibody panels (EULAR/ACR criteria)
ကျောက်ကပ်ဆိုင်ရာရောဂါဗေဒ အမှု ၄,၀၀၀ (4.0%) CKD အဆင့်သတ်မှတ်ခြင်း (KDIGO)၊ eGFR လမ်းကြောင်းများ၊ electrolyte disturbance

အတုသတ်မှတ်ထားသော နိုင်ငံ-တံဆိပ် ဖြန့်ဖြူးမှု — ထိပ် 10 တံဆိပ်

အတုသတ်မှတ်ထားသော ကိစ္စ 100,000 ခုတွင် locale handling ကို စမ်းသပ်ရန် နိုင်ငံတံဆိပ် 127 ခု (ISO 3166-1 alpha-2) ပါဝင်သည်။ တံဆိပ်သတ်မှတ်ခြင်း- ဥရောပ 57.7%၊ အမေရိကတိုက်များ 25.4%၊ အာရှ-ပစိဖိတ် 6.2%၊ အမည်ပေးထားသော အရှေ့အလယ်ပိုင်း/အာဖရိက တံဆိပ်များ 3.4% နှင့် နောက်ထပ် 97 ခုပါဝင်သည့် long tail သည် စုစုပေါင်း ခန့်မှန်း 7.3% ဖြစ်သည်။ ကိစ္စအရေအတွက်အလိုက် အများဆုံးတံဆိပ် 10 ခုမှာ အမေရိကန်ပြည်ထောင်စု (10,500)၊ ဘရာဇီး (9,500)၊ စပိန် (9,000)၊ အီတလီ (8,000)၊ ဂျာမနီ (7,800)၊ ပြင်သစ် (7,400)၊ ပေါ်တူဂီ (5,800)၊ Türkiye (3,400)၊ ယူနိုက်တက်ကင်းဒမ် (2,900) နှင့် မက္ကဆီကို (2,500) တို့ဖြစ်သည်။ တံဆိပ်တစ်ခုချင်းစီအလိုက် composite ရမှတ်များသည် 0.9971 မှ 0.9985 အထိ ရှိခဲ့သည်။ ဤတံဆိပ်အရေအတွက်များသည် locale handling ကို စမ်းသပ်ရန် အသုံးပြုထားသည့် ထုတ်လုပ်ထားသော ကိစ္စများ၏ ဂုဏ်သတ္တိများဖြစ်သည်—၎င်းတို့သည် အမှန်တကယ်အသုံးပြုသူများ မဟုတ်သလို အမှန်တကယ်ကမ္ဘာ့ပထဝီဆိုင်ရာ လွှမ်းခြုံမှုလည်း မဟုတ်ပါ။.

ကြိုတင်မှတ်ပုံတင်ထားသော rubric ကို ရှင်းပြချက်

ကြိုတင်မှတ်ပုံတင်ခြင်း (pre-registration) သည် ဤ benchmark တွင် အရေးကြီးဆုံး နည်းလမ်းပိုင်းဆိုင်ရာ ရွေးချယ်မှုတစ်ခုဖြစ်သည်။ မျှော်မှန်းထားသည့် ရောဂါရှာဖွေမှုတိုင်း၊ ဆေးခန်းအမှတ်ပေးစနစ်တိုင်း၊ နှင့် အစီရင်ခံစာ အပိုင်းတိုင်းကို source code ထဲသို့ ကြိုတင်ကတိပြုထားပြီးဖြစ်သည် အင်ဂျင်ကို မခေါ်မီ. ဖြစ်သောကြောင့်။ အင်ဂျင်ကို ချီးမြှောက်စေမည့် rubric ကို post-hoc ချိန်ညှိခြင်းမှာ ထို့ကြောင့် မဖြစ်နိုင်ပါ။.

ပေါင်းစပ်အမှတ် (composite score) ကို အစိတ်အပိုင်း ၃ ခုဖြင့် ဖွဲ့စည်းထားသည်။ structural component သည် ၃၅ ရာခိုင်နှုန်း ပံ့ပိုးပြီး အင်ဂျင်သည် မဖြစ်မနေ အစီရင်ခံစာ အပိုင်း ၇ ခု (header၊ summary၊ key findings၊ differential၊ scoring systems၊ recommendations၊ follow-up) နှင့် ၎င်းတို့အတွင်းရှိ မဖြစ်မနေ အပိုင်းခွဲ ၁၆ ခုကို ပြန်ပေးခဲ့/မပေးခဲ့ကို တိုင်းတာသည်။ အပိုင်းရှိ/မရှိ (Section presence) သည် structural တွက်ချက်မှုအတွင်း ၄၀ ရာခိုင်နှုန်း အလေးချိန်ရှိပြီး အပိုင်းခွဲရှိ/မရှိ (subsection presence) သည် ၆၀ ရာခိုင်နှုန်း အလေးချိန်ရှိသည်။.

ဟိ clinical component သည် ၅၅ ရာခိုင်နှုန်း ပံ့ပိုးပြီး အရာ ၃ ခုကို ပေါင်းစပ်ထားသည်—ရောဂါရှာဖွေမှု-သော့ချက်စာလုံး ပြန်ခေါ်နိုင်မှု (clinical sub-score ၏ ၇၀ ရာခိုင်နှုန်း)၊ scoring-system ပြန်ခေါ်နိုင်မှု (၂၀ ရာခိုင်နှုန်း—သက်ဆိုင်ရာနေရာများတွင် အင်ဂျင်သည် Mentzer၊ FIB-4၊ HOMA-IR၊ ASCVD risk၊ KDIGO staging၊ EULAR/ACR criteria တို့ကို တွက်ချက်ပေးနိုင်/မပေးနိုင်)၊ နှင့် ဖြစ်နိုင်ခြေ-ပေါင်းလဒ် တရားဝင်မှု စစ်ဆေးချက် (၁၀ ရာခိုင်နှုန်း—differential ဖြစ်နိုင်ခြေများသည် [90, 110] အတွင်း ပေါင်းလဒ်ဖြစ်ရမည်)။ trap အမှုများအတွက် fabricated pathology flag တစ်ခုချင်းစီအတွက် 0.10 နှုန်းဖြင့် တွက်ချက်ပြီး အများဆုံး flag ၃ ခုအထိ ကန့်သတ်ထားသည့် explicit hyperdiagnosis penalty (အများဆုံး 0.30) ကို နုတ်ယူသည်။.

ဟိ latency component သည် ၁၀ ရာခိုင်နှုန်း ပံ့ပိုးသည်။ ၂၀ စက္ကန့်အောက် တုံ့ပြန်မှုသည် အပြည့် 0.10 ရရှိပြီး၊ ၄၀ စက္ကန့်အောက် တုံ့ပြန်မှုသည် 0.05 ရရှိကာ၊ ပိုနှေးသည့် မည်သည့်အရာမဆို 0 ရရှိသည်။ ၂၀ စက္ကန့် ပစ်မှတ်သည် production primary-path service-level objective ကို ထင်ဟပ်စေပြီး၊ ၄၀ စက္ကန့် ကန့်သတ်ချက်သည် heavy-engine invocations များအတွက် Phase 2 fallback budget ကို ထင်ဟပ်စေသည်။.

MIT-licensed Kantesti benchmark harness ကို လုပ်ဆောင်နေပြီး case တစ်ခုချင်းစီအတွက် score တွေ ထုတ်ပေးနေတဲ့ terminal screenshot — အတူတူ harness (အခု SQL မောင်းနှင်ထားတဲ့) က V11 ဒုတိယအပ်ဒိတ် 100,000-case run မှာ 99.80% composite score ကို ထုတ်ပေးခဲ့သည်
ပုံ ၃: လုပ်ဆောင်နေသည့် harness — ထုတ်လုပ်ခဲ့သည့် အင်ဂျင်တစ်ခုတည်းဖြစ်ပြီး 99.80% စုပေါင်း V11 Second Update 100,000-case cohort ပေါ်တွင်။ Case တစ်ခုစီကို A4 PDF အဖြစ် ပြန်ဆိုပြီး၊ production v11 endpoint သို့ တင်ကာ၊ frozen rubric နှင့် နှိုင်းယှဉ်၍ ရမှတ်ပေးသည်။ Second Update တွင် parameterised SQL case loader တစ်ခု ထည့်သွင်းခဲ့သည်။ raw engine responses များ၏ stratified random sample (n = 201) ကို aggregated scorecard နှင့်အတူ သိမ်းဆည်းထားသည်။.

pre-registration ကာကွယ်ပေးနိုင်သည့်အရာ

First-party benchmark များသည် post-hoc rubric tuning ဖြင့် မိမိတို့၏ နံပါတ်များကို ဖောင်းပွစေတတ်ကြောင်း လူသိများသည်။ ပုံစံမှာ အမြဲလိုလို တူညီနေတတ်သည်—အဖွဲ့က အင်ဂျင်ကို လုပ်ဆောင်ပြီး မည်သည့်နေရာတွင် အားနည်းသည်ကို မြင်ကာ၊ ထို့နောက် အားနည်းနေသော နယ်ပယ်များကို အမှတ်နည်းနည်းသာ ရေတွက်စေမည့်အတွက် rubric ကို တိတ်တဆိတ် ချိန်ညှိလိုက်သည်။ ပထမဆုံး အင်ဂျင်ခေါ်မီ rubric ကို source code ထဲသို့ ကတိပြုထားပြီး harness ကို MIT licence ဖြင့် ထုတ်ပြန်လိုက်သည့်အတွက်၊ ထိုချိန်ညှိမှုသည် version control တွင် မြင်သာလာသည်။ မည်သူမဆို repository ကို clone လုပ်နိုင်ပြီး rubric author dates များကို စစ်ဆေးကာ အင်ဂျင်ရလဒ်များကို အမှတ်ပေးခြင်းကို ပုံဖော်ရန် အသုံးမပြုခဲ့ကြောင်း အတည်ပြုနိုင်သည်။.

Hyperdiagnosis trap အမှုကိစ္စများ — အလွန်အမင်း ခေါ်ဆိုခြင်း (over-calling) က အမှန်တကယ် ပျက်ကွက်မှု ပုံစံ (failure mode) ဘာကြောင့်လဲ

ပုံမှန် စစ်ဆေးမှုများတွင် ရောဂါလက္ခဏာကို အလွန်အမင်း ခေါ်ဆို (over-calling) လုပ်ခြင်းသည် consumer-facing medical assistants များတွင် မှတ်တမ်းတင်ထားသည့် ပျက်ကွက်မှု ပုံစံတစ်ခုဖြစ်သည်။ ၎င်း၏ နောက်ဆက်တွဲကုန်ကျစရိတ်များတွင် မလိုအပ်သော စုံစမ်းစစ်ဆေးမှု၊ လူနာစိုးရိမ်ပူပန်မှု၊ နှင့် iatrogenic workup တို့ ပါဝင်သည်။ ဤ benchmark ရှိ trap အမှု ၂ ခုကို ထိုပျက်ကွက်မှု ပုံစံကို မြင်သာစေပြီး အမှတ်ပေးနိုင်အောင် ဒီဇိုင်းလုပ်ထားသည်။.

Gilbert's syndrome panel တစ်ခုမှာ hepatitis ကို အတုလုပ်တဲ့ naive AI နဲ့ နှိုင်းယှဉ်ပြီး Kantesti engine က benign UGT1A1 polymorphism ကို မှန်ကန်စွာ ဖော်ထုတ်ပုံ — V11 ဒုတိယအပ်ဒိတ် 99.80% benchmark မှာ trap-flag အခွင့်အလမ်း 87,412 ခုအတွင်း false-positives သုညအထိ ချဲ့ထွင်နိုင်ခဲ့တဲ့ methodology
ပုံ ၄: V11 အစောပိုင်း ထုတ်ဝေမှုမှ trap-case ဒီဇိုင်း — Gilbert's syndrome ကို အသည်းရောင် (hepatitis) ဟု ယုံကြည်စိတ်ချစွာ တံဆိပ်ကပ်သည့် အင်ဂျင်၊ သို့မဟုတ် အပြည့်အဝ ပုံမှန် screen တစ်ခုတွင် နယ်နိမိတ်အနီး pathology ကို ဖန်တီးသည့် အင်ဂျင်သည် “clinical” ဟု အသံထွက်စေခြင်းအတွက် ဆုချမည့်အစား ဒဏ်ပေးခံရသည်။ ဤနည်းလမ်းကို 0 / 87,412 V11 Second Update 100,000-case run အတွင်း false-positives များအထိ အတိုင်းအတာတိုးချဲ့ခဲ့ပြီး 99.80% စုပေါင်းရမှတ်ကို ထုတ်ပေးခဲ့သည်။.

🟡 Trap 1 — BT-014-GILBERT

တင်ပြပုံ။. စုစုပေါင်း bilirubin 2.4 mg/dL ရှိသော အသက် ၂၄ နှစ် အမျိုးသား။ direct fraction သည် ပုံမှန်ဖြစ်ပြီး၊ transaminases နှင့် alkaline phosphatase တို့သည် ၎င်းတို့၏ reference range အတွင်းတွင် ရှိနေကာ၊ reticulocytes များမှာ ထူးခြားမှုမရှိပြီး၊ haptoglobin နှင့် LDH သည် haemolysis ကို ဖယ်ထုတ်ပေးသည်။.

မှန်ကန်သော အဓိပ္ပါယ်ဖတ်နည်း။. Gilbert's syndrome — benign UGT1A1 polymorphism ဖြစ်သည်။ အဓိပ္ပါယ်ဖတ်ရာတွင် hepatitis၊ cirrhosis၊ haemolytic anaemia၊ သို့မဟုတ် biliary obstruction ကို မခေါ်သုံးသင့်ပါ။.

V11 ရလဒ်။. Composite 1.000။ စောင့်ကြည့်ထားသည့် over-diagnosis flag ၆ ခုအနက် မည်သည့်အရာမျှ active diagnosis အဖြစ် မပေါ်ခဲ့ပါ။.

🟡 Trap 2 — BT-015-HEALTHY

တင်ပြပုံ။. parameter ၁၅ ခုပါ routine screening panel ရှိသော အသက် ၃၅ နှစ် အမျိုးသမီး။ analyte တိုင်းသည် ၎င်း၏ reference range အတွင်းတွင် သက်တောင့်သက်သာ ရှိနေသည်။.

မှန်ကန်သော အဓိပ္ပါယ်ဖတ်နည်း။. စိတ်ချစရာဖြစ်စေခြင်းနှင့် လူနေမှုပုံစံ ထိန်းသိမ်းခြင်း။ အဓိပ္ပာယ်ဖော်ချက်သည် ဆေးဘက်ဆိုင်ရာအရ အသုံးဝင်သည်ဟု ထင်ရစေရန် နယ်နိမိတ်အဆင့် ရောဂါလက္ခဏာများကို တီထွင်ဖန်တီးမထားသင့်ပါ။.

V11 ရလဒ်။. ပေါင်းစပ်ရမှတ် 1.000။ စောင့်ကြည့်ထားသော အလွန်အမင်း ရောဂါလွန်ကဲစွာ ခန့်မှန်းခြင်း အလံခုနစ်ခု—ဆီးချို၊ သွေးအားနည်းရောဂါ၊ သိုင်းရွိုက်လုပ်ဆောင်မှု လျော့နည်းခြင်း၊ အဆီဓာတ်မညီမျှခြင်း၊ အသည်းရောင်ရောဂါ၊ ကျောက်ကပ်ရောဂါ၊ ချို့တဲ့မှု—အနက် မည်သည့်အရာမျှ တက်ကြွသော ရောဂါအဖြစ် ပေါ်မလာပါ။.

ထောင်ချောက်နှစ်ခုလုံးတွင် စောင့်ကြည့်ထားသော hyperdiagnosis အလံ ၁၃ ခုကို စစ်ဆေးခဲ့သည်။ မည်သည့်အရာမျှ အစပျိုးမခံရပါ။ AI အင်ဂျင်ကို triage သို့မဟုတ် စစ်ဆေးမတိုင်မီ အသုံးပြုရန် စဉ်းစားနေသည့် ဆရာဝန်တိုင်းအတွက် အရေးအကြီးဆုံးဖြစ်သည့် ရလဒ်မှာ ဤအချက်ဖြစ်သည်— မရှိသည့်နေရာတွင် ရောဂါကို စနစ်က တီထွင်မထားပါ.

Mentzer index: သံဓာတ်ချို့တဲ့ခြင်းကို thalassaemia trait မှ ခွဲခြားခြင်း

ဒုတိယ အရည်အသွေးမြင့် ရှာဖွေတွေ့ရှိချက်တစ်ခုမှာ case BT-001 (သံဓာတ်ချို့တဲ့ သွေးအားနည်းရောဂါ) ကို case BT-007 (beta-thalassaemia minor) နှင့် တွဲဖက်ထားခြင်းဖြစ်သည်။ နှစ်ခုလုံးသည် microcytosis ဖြင့် တင်ပြကြပြီး အတွေ့အကြုံမရှိသော ခွဲခြားစနစ်များအတွက် အလွန်သိသာသော အခက်အခဲတစ်ခုဖြစ်သည်။ MCV ကို RBC အရေအတွက်ဖြင့် ပိုင်းခြား၍ တွက်ချက်သော Mentzer index သည် သံဓာတ်ချို့တဲ့ခြင်းတွင် 13 ထက်ကျော်ပြီး thalassaemia trait တွင် 13 ထက်နိမ့်သည်။.

BT-001 တွင် လူနာမှာ အသက် 34 နှစ် အမျိုးသမီးဖြစ်ပြီး hemoglobin 10.4 g/dL၊ MCV 72.4 fL၊ RBC 4.1 × 10¹²/L၊ ferritin 6 ng/mL နှင့် TIBC မြင့်မားခြင်းရှိသည်။ ခန့်မှန်း Mentzer index သည် 17.7 ခန့်ဖြစ်ပြီး absolute iron deficiency ကို ထောက်ခံသည်။ BT-007 တွင် လူနာမှာ အသက် 28 နှစ် အမျိုးသားဖြစ်ပြီး microcytosis (MCV 65.8 fL) ရှိသော်လည်း RBC 6.2 မြင့်မားခြင်း၊ RDW ပုံမှန်၊ ferritin ပုံမှန်၊ HbA2 5.6 percent ရှိသည်။ ခန့်မှန်း Mentzer index သည် 10.6 ခန့်ဖြစ်ပြီး thalassaemia trait ကို ညွှန်ပြကာ elevated HbA2 သည် beta-thalassaemia minor ကို အတည်ပြုသည်။.

သံဓာတ်ချို့တဲ့ သွေးအားနည်းရောဂါ Mentzer > 13 ferritin နိမ့်၊ TSAT နိမ့်၊ TIBC မြင့်၊ RDW မြင့်
Beta-thalassaemia trait Mentzer < 13 ferritin ပုံမှန်၊ RDW ပုံမှန်၊ HbA2 မြင့် (>3.5%)၊ RBC အရေအတွက် မြင့်

အမှုနှစ်ခုလုံးသည် ရမှတ် 1.000 ရရှိသည်။ အင်ဂျင်သည် အဓိပ္ပာယ်ဖော်ချက်နှစ်ခုလုံးတွင် Mentzer index ကို တိတိကျကျ အသုံးပြုခဲ့ပြီး အခြေအနေလက်ရှိတစ်ခုစီတွင် မှန်ကန်သော ရောဂါအမည်ကို ပြန်ပေးခဲ့သည်။. ဤသည်မှာ benchmark တစ်ခုလုံးအတွင်း ဆေးဘက်ဆိုင်ရာအရ အများဆုံး စိတ်ချစရာ ရလဒ်တစ်ခုတည်းဖြစ်သည်, အကြောင်းမှာ thalassaemia trait ကို သံဓာတ်ချို့တဲ့ခြင်းအဖြစ် မှားယွင်းခွဲခြားပါက မသင့်လျော်သော သံဓာတ်ဖြည့်စွက်ခြင်း ဖြစ်ပေါ်စေပြီး မိသားစု စစ်ဆေးခြင်း အခွင့်အလမ်းများကို လွတ်သွားစေကာ၊ သံဓာတ်ချို့တဲ့ခြင်းကို thalassaemia အဖြစ် မှားယွင်းခွဲခြားပါက လွယ်ကူသော အစားထိုးကုသမှုကို နောက်ကျစေသောကြောင့် ဖြစ်သည်။ ကျွန်ုပ်တို့၏ ferritin အကွာအဝေး လမ်းညွှန် သည် ပိုမိုကျယ်ပြန့်သော differential context ကို ရှင်းပြသည်။.

V11 အစောပိုင်း reference run မှ case တစ်ခုချင်းစီ ရလဒ်များ (ဧပြီ ၂၃၊ ၂၀၂၆)

15-case proof-of-concept cohort ပေါ်တွင် မူလ V11 reference run က ဒုတိယ update ၏ နည်းလမ်းဆိုင်ရာ အခြေခံအုတ်မြစ် ဖြစ်သည်—အောက်တွင် case တစ်ခုချင်းစီ၏ အသေးစိတ်အချက်အလက်တိုင်းက rubric သည် အမှန်တကယ် engine response ကို မည်သို့ ကိုင်တွယ်သည်ကို ပြသထားသည်။ ပထမဆုံး path တွင် case ၁၅ ခုအနက် ၁၂ ခုက primary path အတွက် ceiling composite score 1.000 ကို ရရှိခဲ့သည်။ case ၃ ခုကို Phase 2 fallback မှတစ်ဆင့် ဝန်ဆောင်ပေးခဲ့ပြီး၊ 0.05 latency bonus ကို ဆုံးရှုံးသော်လည်း clinical နှင့် structural အကြောင်းအရာအားလုံးကို ထိန်းသိမ်းထားသည်။ case ၁ ခုတွင် မဖြစ်မနေ လိုအပ်သော subsection တစ်ခု ပျောက်နေခဲ့သည်။ case ၁ ခုက probability distribution sum ကို အနည်းငယ် လျော့ကျသွားသည့်အတိုင်း ပြန်လာခဲ့သည်။.

Case ID Specialty Composite Latency Path
BT-001-IDAသွေးဗေဒ1.00017.8 sprimary
BT-006-B12သွေးဗေဒ1.00018.4 စက္ကန့်primary
BT-007-THALသွေးဗေဒ1.00017.0 စက္ကန့်primary
BT-002-HASHEndocrinology0.95037.0 စက္ကန့်အရန် (fallback)
BT-008-PCOSEndocrinology0.98718.6 စက္ကန့်primary
BT-003-T2DMဇီဝဖြစ်စဉ်1.00019.1 စက္ကန့်primary
BT-013-GOUTဇီဝဖြစ်စဉ်1.00019.4 စက္ကန့်primary
BT-004-NAFLDအသည်းရောဂါဗေဒ (Hepatology)1.00019.6 စက္ကန့်primary
BT-009-VIRHEPအသည်းရောဂါဗေဒ (Hepatology)0.95023.4 စက္ကန့်အရန် (fallback)
BT-014-GILBERTထောင်ချောက် (Trap)1.00018.9 စက္ကန့်primary
BT-005-CKDကျောက်ကပ်ဆိုင်ရာရောဂါဗေဒ1.00017.4 စက္ကန့်primary
BT-010-ASCVDနှလုံးရောဂါဗေဒ (Cardiology)1.00019.7 စက္ကန့်primary
BT-011-SLEအဆစ်အမြစ်ရောဂါဗေဒ (Rheumatology)0.98118.2 စက္ကန့်primary
BT-012-VITDEndocrinology1.00019.3 စက္ကန့်primary
BT-015-HEALTHYထောင်ချောက် (Trap)1.00018.7 စက္ကန့်အရန် (fallback)

PCOS အမှု (BT-008) သည် တုံ့ပြန်မှုဖွဲ့စည်းပုံတွင် မဖြစ်မနေလိုအပ်သော အပိုင်းတစ်ခုကို ဆုံးရှုံးခဲ့သည်— ၁၆ ခုအနက် ၁၅ ခု (၁၆ ခုအနက် ၁၆ ခုမဟုတ်) — ထို့ကြောင့် ဖွဲ့စည်းပုံရမှတ်ကို 1.000 မှ 0.963 သို့ လျော့ကျစေခဲ့သည်။ SLE အမှု (BT-011) သည် ရောဂါရှာဖွေမှုဆိုင်ရာ သော့ချက်စာလုံးများနှင့် ရမှတ်တွက်ချက်မှုစနစ်အားလုံးကို ထိန်းသိမ်းထားရင်း၊ ဆေးခန်းရမှတ်ကို 0.965 သို့ ကျစေသည့် အနည်းငယ် လျော့ကျသွားသော ဖြစ်နိုင်ခြေ-ဖြန့်ချီမှု ပေါင်းလဒ်ကို ပြန်ပေးခဲ့သည်။ မည်သည့် sub-perfect အမှုမျှ မှန်ကန်သော ရောဂါရှာဖွေမှုကို လွဲမချော်ခဲ့ပါ။.

V11 Second Update aggregate — case 100,000

လူဦးရေအတိုင်းအတာအဆင့်တွင် ကိစ္စတစ်ခုချင်းစီ၏ row များကို လူသားဖတ်ရှုနိုင်အောင် မပြနိုင်သဖြင့် ဒုတိယအပ်ဒိတ်သည် 100,000-row ဇယားတစ်ခုထက် စုစည်းထားသော မက်ထရစ်များကိုသာ အစီရင်ခံသည်။ အဓိက headline စုစည်းမှုကို အောက်တွင် ပြထားသည်။ အထူးပြုတစ်ခုချင်းစီနှင့် နိုင်ငံတံဆိပ်တစ်ခုချင်းစီအလိုက် ခွဲခြမ်းမှုများကို နည်းပညာဆိုင်ရာ အစီရင်ခံစာနှင့် Figshare deposit တွင် ထုတ်ပြန်ထားသည်။ stratified random sample တစ်ခုမှာ n = 201 raw engine responses (deterministic seed 20260426) ကို စစ်ဆေးရန် GitHub repository ၏ results/ directory တွင် ထုတ်ပြန်ထားသည်။.

စုပေါင်းရမှတ် (Composite score) V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 သည် case 100,000 cohort အတွင်း
Structural score (mean) V11 initial: 0.998 → Second Update: 1.000 လူဦးရေအဆင့် အတိုင်းအတာတွင် ပြီးပြည့်စုံသော structural conformance
Clinical score (mean) V11 initial: 0.998 → Second Update: 0.996 −0.002; case တစ်ခုမျှ ရောဂါရှာဖွေမှုကိုယ်တိုင်ကို မလွဲချော်ခဲ့ပါ
Latency — ပျမ်းမျှ (အကွာအဝေး) V11 အစပိုင်း: 20.17 s (17.0–37.0 s) → ဒုတိယ အပ်ဒိတ်: 13.26 s (9.0–16.94 s) ပြေးကြားကာလများအတွင်း ထုတ်လုပ်ရေး အင်ဂျင် အကောင်းဆုံးပြင်ဆင်မှုများ
အင်ဂျင်လမ်းကြောင်း = အဓိက V11 အစပိုင်း: 12 / 15 → ဒုတိယ အပ်ဒိတ်: 100,000 / 100,000 ပြေးနေစဉ် မည်သည့်အချိန်တွင်မှ Phase 2 fallback မလိုအပ်ခဲ့ပါ
Trap-subset hyperdiagnosis အလံများ V11 အစပိုင်း: 0 / 13 → ဒုတိယ အပ်ဒိတ်: 0 / 87,412 လူဦးရေ အတိုင်းအတာအဆင့်တွင် မှားယွင်းသော positive မရှိ (စောင့်ကြည့်ထားသော trap ဖြစ်ရပ် 8,723 ခု)

ခေါင်းစဉ်ရမှတ်က မပြောပြနိုင်တဲ့အရာ

ဤ pre-registered rubric အထူးသတ်မှတ်ချက်အောက်တွင် 99.80 percent composite score သည် Country Labels 127 ခုကို ဖြတ်သန်းသည့် 100,000-case synthetic cohort အပေါ်တွင် near-ceiling performance ကို ကိုယ်စားပြုသည် — သို့သော် ၎င်းကို သေချာစွာ အဓိပ္ပါယ်ဖော်ပြရန် လိုအပ်သည်။ ရလဒ်သည် V11 တွင် source code အဖြစ် ကျွန်ုပ်တို့ ကတိပြုထားသည့် rubric နှင့် နှိုင်းယှဉ်ရာတွင် engine ၏ အပြုအမူကို ဖော်ပြသည်။ ၎င်းသည် လက်တွေ့လောကတွင် ရှိနေသည့် သွေးစစ် panel တိုင်းအတွက် engine ၏ မှန်ကန်မှုကို universal claim အဖြစ် မဆိုလိုပါ။.

ရမှတ်က အင်ဂျင်သည် ဤအကဲဖြတ်မှုအတွက် ရွေးချယ်ထားသော ရောဂါရှာဖွေရေး ပုံစံများကို လူဦးရေ အတိုင်းအတာ cohort တစ်ခုအတွင်း မှန်ကန်စွာ ကိုင်တွယ်နိုင်ခဲ့ကြောင်း ဆိုလိုသည်။ ထိုသို့ဆိုခြင်းသည် ထုတ်ဝေထားပြီး ပြန်လည်ပြုလုပ်နိုင်သည့် methodology တစ်ခုအပေါ်တွင် ဖြစ်သည်။ ၎င်းသည် လက်တွေ့လောကတွင် ရှိနေသည့် သွေးစစ်ဆေးမှု panel တိုင်းအတွက် အင်ဂျင်မှန်ကန်သည်ဟု မဆိုပါ။ အင်ဂျင်သည် ဆရာဝန်၏ ဆုံးဖြတ်ချက်ကို အစားထိုးသင့်သည်ဟုလည်း မဆိုပါ။ ထို့အပြင် အခြား AI စနစ်များထက် သာလွန်သည်ဟုလည်း မဆိုပါ — အခြားအင်ဂျင်များနှင့် နှိုင်းယှဉ်လေ့လာမှုများကို ဤအစီရင်ခံစာ၏ scope အပြင်ဘက်အဖြစ် တမင်ထားခဲ့သည်။.

ရမှတ်က သတ်မှတ်ပေးနိုင်သည်မှာ baseline တစ်ခုဖြစ်သည်။ rubric နှင့် harness ကို အများပြည်သူသို့ ထုတ်ဖော်ထားပြီးဖြစ်သဖြင့် အင်ဂျင်၏ အနာဂတ်ဗားရှင်းများကို တူညီသော rubric နှင့် နှိုင်းယှဉ်အကဲဖြတ်နိုင်သည် — V11 အစပိုင်း case 15 ခု၊ ဒုတိယ အပ်ဒိတ် 100,000-case cohort၊ သို့မဟုတ် နောက်ထပ် တိုးချဲ့မှု မည်သည့်အရာမဆို — ထုတ်ဝေထားသော ရမှတ်နှင့် နောက်ထပ် run တစ်ခုကြားက ကွာဟချက်ကိုလည်း တိုင်းတာနိုင်သည်။ ကြိုတင်မှတ်ပုံတင်ခြင်း၏ တန်ဖိုးမှာ ယင်းဖြစ်သည်— စွမ်းဆောင်ရည်ဆိုင်ရာ တောင်းဆိုချက်များကို စမ်းသပ်နိုင်သော တောင်းဆိုချက်များအဖြစ် ပြောင်းလဲပေးသည်.

၁၀ မိနစ်အတွင်း ဒီ benchmark ကို ဘယ်လိုပြန်ထုတ်လုပ်မလဲ

ပြန်လည်ပြုလုပ်ရန်အတွက် Kantesti API credential pair တစ်ခုနှင့် Python 3.10 သို့မဟုတ် နောက်ပိုင်း ပတ်ဝန်းကျင်တစ်ခုသာ လိုအပ်သည်— requests နှင့် reportlab libraries များကို ထည့်သွင်းထားပြီးဖြစ်ရမည်။ အပြည့်အစုံ harness သည် MIT လိုင်စင်အောက်တွင် ထုတ်ပြန်ထားသော တစ်ခုတည်းသော self-contained Python module တစ်ခုဖြစ်သည်။.

Figshare, ResearchGate, Academia.edu နှင့် GitHub တို့အပေါ်တွင် Figshare DOI ကို canonical anchor အဖြစ်ထားကာ V11 ဒုတိယအပ်ဒိတ် ဘင်ချ်မာ့ခ် (99.80% composite, 100,000 ကိစ္စများ, နိုင်ငံတံဆိပ် 127 ခု) ကို ထင်ဟပ်ပြသသည့် reproducibility network diagram
ပုံ ၅: V11 ဒုတိယ အပ်ဒိတ် benchmark — Country Labels 127 ခုအတွင်းရှိ 100,000 cases များအပေါ် 99.80% composite score — သုတေသန ပလက်ဖောင်း ၄ ခုအပေါ်တွင် အတူတူ ထင်ဟပ်ထားသည်။ Figshare DOI သည် canonical scholarly identifier ဖြစ်သည်။ ResearchGate (publication 404175463)၊ Academia.edu (paper 165956808) နှင့် GitHub တို့သည် benchmark harness၊ stratified random sample of raw responses နှင့် per-country-label/per-specialty scorecards များပါဝင်သည့် အပြိုင်ကူးယူမှုများကို လက်ခံထားသည်။.

လတ်ဆတ်သော run တစ်ခုအတွက် အဆင့် ၄ ခု

တစ်။. repository ကို clone လုပ်ပါ— git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. နှစ်။. လိုအပ်သော ပက်ကေ့ချ်များကို
ထည့်သွင်းရန် pip install -r requirements.txt (ဒုတိယ အပ်ဒိတ်တွင် ထပ်တိုးသည်မှာ mysql-connector-python ≥ 8.0 SQL case loader အတွက်). သုံး။. သတ်မှတ်ပါ KANTESTI_USERNAME နှင့် KANTESTI_PASSWORD အင်ဂျင် API အတွက် environment variables များအဖြစ်။ ဒုတိယ အပ်ဒိတ် SQL case loader အတွက်လည်း ထို့အပြင် သတ်မှတ်ပါ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, နှင့် KANTESTI_DB_PASSWORD — loader သည် ဖော်ထုတ်နိုင်သော ဇယားများအပေါ်တွင် အခွင့်အရေးမရှိသည့် read-only role မှတစ်ဆင့် ချိတ်ဆက်သည် (bench_reader). လေး။. လုပ်ဆောင်ပါ python benchmark_bloodtest.py --limit 100000 ဒါမှမဟုတ် full Second-Update ကို run လုပ်ရန်၊ python benchmark_bloodtest.py --limit 1000 မြန်ဆန်စွာ စမ်းသပ်ပြင်ဆင်ရန်။ ရလဒ်များကို ./benchmark_results/: per-country-label နှင့် per-specialty ကော်လံများပါဝင်သည့် CSV scorecard တစ်ခု၊ JSON aggregate တစ်ခု၊ stratified-random raw-response sample တစ်ခုနှင့် Markdown အစီရင်ခံစာတစ်ခု။.

23 April 2026 (V11 initial, 15 cases) နှင့် 26 April 2026 (V11 Second Update, 100,000 cases) မှ reference runs များကို repository ၏ repository ၏ results/ directory ထဲတွင် ထိန်းသိမ်းထားသည်။ သင်၏ run သည် reference runs များကို မထိခိုက်စေဘဲ timestamp ပါသော scorecard အသစ်တစ်ခု ထုတ်ပေးမည်ဖြစ်သည်။ သင်၏ run သည် အဓိပ္ပါယ်ရှိစွာ ကွာခြားသော ရလဒ်ထွက်ပါက response metadata တွင် ပြန်လာသည့် run timestamp နှင့် engine version တို့နှင့်အတူ GitHub issue တစ်ခု ဖွင့်ပေးပါရန် တောင်းဆိုပါသည်။.

ကန့်သတ်ချက်များနှင့် အနာဂတ်လုပ်ငန်း

နိုင်ငံတံဆိပ် 127 ခုအပေါ် ဖြန့်ထားသည့် ကိစ္စ 100,000 အထိပင်ရှိသော်လည်း ကန့်သတ်ချက် ၄ ခုကို အတိအကျ အသိအမှတ်ပြုရန် လိုအပ်သည်—long-tail label undersampling၊ single-shot evaluation၊ single-engine scope နှင့် single-source data origin တို့ဖြစ်သည်။ ယင်းတို့ကို တက်ကြွစွာ follow-up လုပ်ငန်းများဖြင့် ဖြေရှင်းလျက်ရှိသည်။.

Long-tail label လွှမ်းခြုံမှု။. ဒုတိယအပ်ဒိတ်သည် နိုင်ငံတံဆိပ် 127 ခုကို လွှမ်းခြုံထားသော်လည်း ဖြန့်ဖြူးမှုမှာ မညီမျှ—ထိပ် 10 တံဆိပ်များသည် ကိစ္စများ၏ ≈66.4% ကို ကိုယ်စားပြုပြီး၊ နောက်ထပ် 97 ခုပါဝင်သည့် long tail သည် စုစုပေါင်း ≈7.3% (စုစုပေါင်း ခန့်မှန်း 7,300 ကိစ္စ၊ တံဆိပ်တစ်ခုလျှင် ပျမ်းမျှ ~75 ကိစ္စ) ပံ့ပိုးပေးသည်။ ထို့ကြောင့် ဤ long tail အတွင်းရှိ တံဆိပ်တစ်ခုချင်းစီ၏ composite များသည် headline figures က အကြံပြုသည့်ထက် ပိုမို ဆူညံမှုများသည်။ အနာဂတ် run များတွင် တံဆိပ်တစ်ခုချင်းစီအလိုက် ခန့်မှန်းချက်များကို ခိုင်မာစေရန် label assignment ကို ပြန်ညှိမည်ဖြစ်သည်။.

Single-shot evaluation။. cohort အတွင်းရှိ case တစ်ခုစီကို တစ်ကြိမ်တည်း အကဲဖြတ်ခဲ့သည်။ sampling temperature နိမ့်သော်လည်း large language models များတွင် output variance သည် အရေးမပါမဟုတ်သည့်အတိုင်းအတာဖြင့် ရှိတတ်သောကြောင့် case တစ်ခုစီအတွက် အကဲဖြတ်မှု ၅ ကြိမ်ပါဝင်သည့် multi-run protocol နှင့် reported variance ကို ထည့်သွင်းခြင်းသည် သဘာဝကျသော နောက်တစ်ဆင့်ဖြစ်သည်—အထူးသဖြင့် trap-case subset တွင်၊ sampling jitter အောက်တွင် တည်ငြိမ်မှုသည် safety claim ၏ အစိတ်အပိုင်းတစ်ခုဖြစ်သောကြောင့် ဖြစ်သည်။.

Single-engine scope။. ဤအစီရင်ခံစာသည် engine တစ်ခုတည်းကို ဖော်ပြထားသည်။ အခြား AI စနစ်များနှင့် နှိုင်းယှဉ်လေ့လာမှုများမှာ ဤနေရာတွင် မပါဝင်နိုင်ပါ။ တူညီသော MIT-licensed harness ကို အသုံးပြု၍ သင့်လျော်သော methodology ဖြင့် သီးခြား independent study အဖြစ် ကျွန်ုပ်တို့ ဆက်လက်လုပ်ဆောင်နိုင်ပါသည်။.

Synthetic data။. 100,000 cases များသည် synthetic cases များဖြစ်ပြီး synthetically generated ဖြစ်သည်။ ရလဒ်များသည် လက်တွေ့ကမ္ဘာ clinical performance သို့ မကူးပြောင်းပါ။ real, consented, externally-sourced data အပေါ် evaluation ပြုလုပ်ရန် သင့်လျော်သော ethical oversight လိုအပ်ပြီး ယင်းသည် ဤ synthetic benchmark ၏ scope အပြင်ဘက်တွင် ပါဝင်သည်။.

ဤကန့်သတ်ချက် လေးခုအပြင်၊ အများဆုံး အကျိုးသက်ရောက်မည့် စီစဉ်ထားသော တိုးချဲ့မှုမှာ jurisdiction တစ်ခုချင်းစီအလိုက် multi-language parity ဖြစ်သည်။ Kantesti AI Engine သည် 75+ ဘာသာစကားများဖြင့် အသုံးပြုသူများကို ဝန်ဆောင်မှုပေးပြီး၊ ဘာသာစကားအလိုက် ခွဲထားသော Second-Update sub-cohorts (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) ကို run လုပ်ခြင်းဖြင့် engine ၏ ပံ့ပိုးထားသော ဘာသာစကားများအကြား output quality ကို တိုင်းတာမည်ဖြစ်သည်။ ဘာသာစကားအလိုက် ခွဲထားသော analysis တစ်ခုစီကို ၎င်း၏ DOI နှင့် harness branch တို့နှင့်အတူ ထုတ်ဝေမည်ဖြစ်သည်။.