Kantesti AI သွေးစစ်ဆေးခြင်း စံညွှန်း — ဆေးခန်းအတည်ပြုချက်

အလိုအလျောက် Benchmark ကြိုတင်မှတ်ပုံတင်ထားသော စံနှုန်း (Benchmark) V11 ဒုတိယအကြိမ် အပ်ဒိတ် — ၂၀၂၆ ခုနှစ် ဧပြီလ MIT လိုင်စင်ဖြင့် ပြန်လည်ထုတ်လုပ်နိုင်မှု · အဖွင့်ဒေတာ 100K Synthetic Cohort · 127 Country Labels

99.80% Composite Score ကို Pre-Registered Rubric တစ်ခုအပေါ် — V11 ဒုတိယအကြိမ် အပ်ဒိတ်၊ Country Labels 127 ခုအတွက် 100,000-Case Cohort

ကြိုတင်မှတ်ပုံတင်ထားသော၊ ရူဘရစ်အခြေပြု အလိုအလျောက်နည်းပညာဆိုင်ရာ ဘင်ချ်မာ့ခ်တစ်ခုဖြစ်ပြီး Kantesti အင်ဂျင်ကို နိုင်ငံတံဆိပ် 127 ခုဖြင့် တဂ်ထားသည့် အတုသတ်မှတ်ထားသော သွေးစစ်ကိစ္စ 100,000 ခုအပေါ်တွင် စမ်းသပ်ထားသည်။ ၎င်းသည် ရောဂါရှာဖွေတိကျမှုကို မတိုင်းတာဘဲ ထုတ်ကုန်ကိုက်ညီမှုကို တိုင်းတာသည်။ V11 အစောပိုင်းထုတ်လွှတ်မှုမတိုင်မီ ရင်းမြစ်ကုဒ်ထဲတွင် ရူဘရစ်ကို အေးခဲထားပြီး ယခု ဒုတိယအပ်ဒိတ်အတွက်လည်း byte-identical အဖြစ် ထိန်းထားထားသည်။ အကဲဖြတ်မှု harness သည် MIT လိုင်စင်ဖြင့်ဖြစ်သည်။ စစ်ဆေးကြည့်နိုင်ရန် အင်ဂျင်၏ မူရင်းတုံ့ပြန်မှုများမှ stratified random sample ကို ထုတ်ပြန်ထားသည်။ ကိစ္စအားလုံးမှာ အတုဖြစ်ပြီး ကိုယ်ရေးကိုယ်တာဒေတာကို အသုံးမပြုထားပါ။.

📖 ~14 မိနစ် 📅 ၂၀၂၆ ခုနှစ် ဧပြီလ ၂၃ ရက်တွင် ထုတ်ပြန်သည် · ၂၀၂၆ ခုနှစ် ဧပြီလ ၂၆ ရက်တွင် အပ်ဒိတ်လုပ်ထားသည် (V11 ဒုတိယအကြိမ် အပ်ဒိတ်) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 ထုတ်ဝေထားသည်— ဧပြီ 23, 2026 🔄 V11 ဒုတိယအကြိမ် အပ်ဒိတ်- ဧပြီ 26, 2026 🩺 ဆေးဘက်ဆိုင်ရာအရ ပြန်လည်သုံးသပ်ထားသည်— ဧပြီ 26, 2026 ✅ ကြိုတင်မှတ်ပုံတင်ထားသော Rubric (Byte-Identical) 🔓 ဖွင့်ထားသော Code & Data

ဤအလိုအလျောက် benchmark ကို ဒီဇိုင်းရေးဆွဲပြီး လုပ်ဆောင်ခဲ့သည်မှာ Julian Emirhan Bulut, ၊ Senior AI Engineer နှင့် Kantesti Ltd ၏ CEO ဖြစ်သည်။ ရမှတ်ချခြင်းကို source code တွင် လုံးဝ အလိုအလျောက် ပြုလုပ်ထားသည်။ ရမှတ်ချခြင်းဆိုင်ရာ စံသတ်မှတ်ချက် (scoring rubric) နှင့် case panel ကို ဒေါက်တာ သောမတ်စ် ကလိုင်း၊ MD, ၊ Kantesti AI ၏ Chief Medical Officer ထံမှ ဆေးဘက်ဆိုင်ရာ ထည့်သွင်းအကြံပြုချက်များဖြင့် တီထွင်ခဲ့ပြီး Kantesti AI ဆေးဘက်ဆိုင်ရာ အကြံပေးဘုတ်အဖွဲ့. ၎င်းသည် လွတ်လပ်သော သို့မဟုတ် peer-reviewed မဟုတ်သည့် independent automated technical benchmark မဟုတ်ဘဲ ကိုယ်တိုင်လုပ်ဆောင်သည့် internal benchmark တစ်ခုဖြစ်သည်။.

Lead Author & Clinical Oversight

သောမတ်စ် ကလိုင်း၊ MD

အကြီးတန်းဆေးဘက်ဆိုင်ရာအရာရှိ၊ Kantesti AI

ဒေါက်တာ Thomas Klein သည် board-certified clinical hematologist နှင့် internist ဖြစ်ပြီး ဓာတ်ခွဲခန်းဆိုင်ရာ ဆေးပညာတွင် အတွေ့အကြုံ 15 နှစ်ကျော်ရှိသည်။ Kantesti AI တွင် Chief Medical Officer အဖြစ် သူသည် ဤ benchmark အတွက် case panel ကို ရွေးချယ်ခဲ့ပြီး synthetic cases များ၏ clinical content နှင့် မျှော်မှန်းထားသည့် အဖြေများကို ပြန်လည်သုံးသပ်ကာ engine ကို ပထမဆုံး စတင်ခေါ်ယူခြင်းမတိုင်မီ pre-registered rubric ကို အတည်ပြုခဲ့သည်။.

ORCID 0009-0009-1490-1321 သုတေသနဂိတ် ဂူဂယ် စကော်လာ

တွဲဖက်ရေးသားသူ & အကောင်အထည်ဖော်မှု

Julian Emirhan Bulut

Senior AI Engineer & CEO, Kantesti Ltd

Julian Emirhan Bulut သည် Kantesti Ltd ၏ တည်ထောင်သူနှင့် CEO ဖြစ်သည်။ သူသည် evaluation harness ကို ဒီဇိုင်းရေးဆွဲပြီး အကောင်အထည်ဖော်ခဲ့သည်—V11 ဒုတိယအကြိမ် အပ်ဒိတ်အတွက် ထည့်သွင်းထားသော SQL case loader အပါအဝင်—API ပေါင်းစည်းမှုကို လုပ်ဆောင်ခဲ့ပြီး V11 မူလ reference run နှင့် V11 ဒုတိယအကြိမ် အပ်ဒိတ် 100,000-case run နှစ်ခုလုံးကို စီမံဆောင်ရွက်ခဲ့ကာ စာရင်းအင်းဆိုင်ရာ ပေါင်းစည်းမှုကို ပြင်ဆင်ခဲ့သည်။ ၂၀၁၉ ခုနှစ်မှစ၍ ပလက်ဖောင်း၏ တည်ထောင်သူ။.

GitHub Kantesti အကြောင်း

⚡ အကျဉ်းချုပ် V11 ဒုတိယအကြိမ် အပ်ဒိတ် — ဧပြီ 26, 2026

99.80% ပေါင်းစပ်ရမှတ် ဆေးဘက်ဆိုင်ရာ အထူးပြု ၈ ခုနှင့် နိုင်ငံတံဆိပ် 127 ခုကို ဖြတ်ကျော်ထားသည့် အတုသတ်မှတ်ထားသော သွေးစစ်ကိစ္စ 100,000 ခု (V11 ဒုတိယအပ်ဒိတ်)။.
hyperdiagnosis မှားယွင်းသော positive (false-positives) မရှိ စောင့်ကြည့်ထားသော trap-case flag အခွင့်အလမ်း 87,412 ခုအပေါ် — V11 မူလအတိုင်း trap-case နည်းလမ်းတူ၊ လူဦးရေအဆင့်အထိ ချဲ့ထွင်ထားသည်။.
ကြိုတင်မှတ်ပုံတင်ထားသော rubric V11 မူလ run မတိုင်မီ source code ထဲတွင် အေးခဲထားပြီး byte-identical ယခု ဒုတိယအကြိမ်အတွက် — post-hoc tuning မဖြစ်နိုင်ခဲ့ပါ။.
Mentzer index ကို မှန်ကန်စွာ အသုံးချထားသည် V11 မူလထုတ်ပြန်မှုတွင် iron deficiency anaemia ကို beta-thalassaemia minor မှ ခွဲခြားရန်; ကွဲပြားသည့် အပြုအမူကို လူဦးရေအဆင့်အထိ ထိန်းသိမ်းထားသည်။.
Production endpoint သာ — privileged routing မရှိ၊ ပေးဆောင်သုံးစွဲသူတစ်ဦးက ဝင်ရောက်သုံးစွဲသလိုပဲ တိတိကျကျ အကဲဖြတ်ထားသည်။.
ပျမ်းမျှ latency 13.26 စက္ကန့် end-to-end (အကွာအဝေး 9.0–16.94 s)၊ case 100,000 အားလုံးသည် engine ၏ အဓိက path ပေါ်တွင် ပြီးဆုံးသည်။.
Synthetic cohort။. run-time တွင် တင်သွင်းထားသော synthetically generated test cases 100,000 ခု။ Synthetic data မသုံးပါ၊ personal data မသုံးပါ။.
MIT လိုင်စင်ပါ harness GitHub တွင် ထုတ်ပြန်ထားပြီး စစ်ဆေးရန် stratified random sample (n = 201) အဖြစ် full raw engine responses များကို ပါဝင်စေသည်။.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub တွင် mirror လုပ်ထားသည်။.

ဒီ benchmark က ဘာကြောင့်ရှိပြီး ဘာကို စမ်းသပ်တာလဲ

AI-assisted blood test interpretation ကို စားသုံးသူနှင့် ဆေးဘက်ဆိုင်ရာ လုပ်ငန်းစဉ်များတွင် ပိုမိုအသုံးများလာနေသော်လည်း ဓာတ်ခွဲခန်းဆေးပညာနှင့် ကိုက်ညီအောင် ပြန်လည်စမ်းသပ်နိုင်သည့် အကဲဖြတ်ရေးဘောင်များမှာ မကြာခဏ မတွေ့ရသေးပါ။ ဒီအခြေအနေမှာ အရေးကြီးဆုံး မေးခွန်းတွေက အထွေထွေ ဆေးဘက်ဆိုင်ရာ မေးခွန်း-ဖြေကြား benchmark တွေမှာ ပါဝင်ထားတာတွေ မဟုတ်ပါ— mean corpuscular volume တူညီနေချိန်မှာ engine က iron deficiency ကို thalassaemia trait နဲ့ ခွဲနိုင်မလား၊ hepatitis လိုမျိုးနဲ့ Gilbert's syndrome ကို over-diagnose လုပ်မလား၊ ပုံမှန်အပြည့်အဝ screening panel တစ်ခုထဲမှာ pathology ကို ဖန်တီးထုတ်လုပ်မလားဆိုတာလား။

သွေးစစ်ဆေးမှု အကွက်တစ်ခုတည်း (blood test panel) မှာ ပုံမှန်အားဖြင့် အဓိပ္ပာယ်ဖွင့်ဆိုချက် အများအပြားကို ထောက်ပံ့နိုင်လောက်တဲ့ အချက်အလက် (signal) တွေ ပါဝင်တတ်ပြီး၊ အဓိပ္ပာယ်ဖွင့်ဆိုပေးမယ့် ဆေးဘက်ဆိုင်ရာ ကျွမ်းကျင်သူရဲ့ အလုပ်က စာအုပ်ထဲက အဖြေတစ်ခုကို ပြန်ရှာတာထက် အဲဒီအဓိပ္ပာယ်ဖွင့်ဆိုချက်တွေကို တစ်ခုနဲ့တစ်ခု ယှဉ်ပြီး အလေးချိန်ချိန်ရန် ဖြစ်ပါတယ်။ စာအုပ်ထဲက အခြေအနေတွေမှာ ကောင်းကောင်းလုပ်နိုင်တဲ့ အင်ဂျင်တစ်ခုက အရေးကြီးဆုံးဖြစ်တဲ့ အခြေအနေတွေမှာတော့ ပျက်ကွက်နိုင်ပါတယ်—ကွဲပြားရောဂါရှာဖွေမှု (differential-diagnosis) ထောင်ချောက်တွေ၊ တစ်ခုတည်းအနေနဲ့ ကြည့်ရင် စိုးရိမ်စရာလို ထင်ရပေမယ့် အန္တရာယ်မရှိတဲ့ မျိုးကွဲများ (benign variants)၊ နဲ့ အပြည့်အဝ ပုံမှန် (fully normal) အကွက်တွေကနေ ယုံကြည်စိတ်ချစွာ လက်ထောက်တွေကို ရောဂါလက္ခဏာတု (manufacturing pathology) ဖန်တီးစေတဲ့အရာတွေပါဝင်ပါတယ်။.

ဒီ benchmark ကို အဲဒီလို ပျက်ကွက်နိုင်တဲ့ ပုံစံတွေကို အတိအကျ အခြေခံပြီး တည်ဆောက်ထားပါတယ်။ Case (၁၅) ခုစီကို သီးခြား ရောဂါရှာဖွေရေး ဂုဏ်သတ္တိတစ်ခုအတွက် ရွေးချယ်ထားပါတယ်—တူညီတဲ့ mean corpuscular volume (MCV) ရှိတဲ့ beta-thalassaemia trait နဲ့ ခွဲခြားထားရမယ့် iron-deficient microcytosis၊ ပုံမှန်မဟုတ်မှု တစ်ခုတည်းသာ ဖြစ်တဲ့ isolated indirect hyperbilirubinaemia ပါဝင်တဲ့ Gilbert's syndrome ပုံစံ၊ နဲ့ analyte တစ်ခုချင်းစီက reference range အတွင်းမှာပဲ ရှိနေတဲ့ fifteen-parameter screening panel တစ်ခု။ rubric က case တစ်ခုချင်းစီကို ကိုယ်ပိုင်အခြေအနေအရ ဖတ်တတ်တဲ့ engine တွေကို ဆုချပြီး၊ အဲဒီလို ရောဂါရှာဖွေမှုမျိုး မလိုအပ်တဲ့နေရာမှာ ယုံကြည်စိတ်ချစွာ ရောဂါရှာဖွေမှုတစ်ခုကို ဆွဲယူသွားတဲ့ engine တွေကို ဒဏ်ခတ်ပါတယ်။.

MD ဖြစ်သူ Thomas Klein အနေနဲ့၊ ဒီ case panel ကို ကျွန်တော်ရွေးချယ်ခဲ့တာက—laboratory-medicine လက်ထောက်တွေက အများဆုံး မှားတတ်တဲ့ ပုံစံတွေက ဒီလိုပဲ ဖြစ်လို့ပါ။. အကုန်အကျများတဲ့ ပျက်ကွက်မှုက "ရှားပါးရောဂါတစ်ခုကို လွတ်သွားခြင်း" မဟုတ်ပါ—အဲဒီလို မရှိတဲ့ လူနာတွေမှာ ပုံမှန်ဖြစ်တတ်တဲ့ ရောဂါလက္ခဏာ (routine pathology) ကို တီထွင်ဖန်တီးခြင်း (fabricating) ဖြစ်ပါတယ်။. ကျွန်တော်တို့ရဲ့ ဆေးဘက်ဆိုင်ရာအတည်ပြုချက် hub သည် ပိုမိုကျယ်ပြန့်သော framework ကို ဖော်ပြသည်။ ဤစာမျက်နှာသည် V11 မူလ proof-of-concept နှင့် ၎င်းကို Country Labels 127 ခုကို ဖြတ်သန်းသည့် synthetic case set မှ ရယူထားသော synthetic cases 100,000 အထိ ချဲ့ထွင်ထားသည့် V11 ဒုတိယအကြိမ်အပ်ဒိတ်ကို ဖော်ပြသည် — တူညီသော scoring rubric ကို အသုံးပြု၍ byte-identical ဖြစ်ပြီး post-hoc tuning ကို ခွင့်မပြုပါ။.

နောက်ဆုံး reference run — V11 Second Update (ဧပြီ 26၊ 2026)

2026 ခုနှစ် ဧပြီ 26 ရက် V11 Second Update reference run သည် composite score ကို ထုတ်ပေးခဲ့သည် 99.80% V11 initial release တွင် အသုံးပြုခဲ့သည့် အတည်ပြုထားသော (pre-registered) rubric အတိုင်း တူညီစွာ အကဲဖြတ်ခဲ့ပြီး Synthetic cases 100,000 ခု Kantesti synthetic case set မှ ဆင်းသက်ပြီး နိုင်ငံတံဆိပ် 127 ခု နှင့် 75+ ဘာသာစကားများကို ဖြတ်သန်းထားသည်။ case တစ်ခုစီသည် အင်ဂျင်၏ primary path ပေါ်တွင် ပြီးဆုံးခဲ့ပြီး trap-case hyperdiagnosis flag activations သည် 0 / 87,412. တွင်သာ ရှိနေသည်။ 2026 ခုနှစ် ဧပြီ 23 ရက်က မူလ V11 run သည် လက်ဖြင့်ရွေးချယ်ထားသော case 15 ခု (composite 99.12%) ကို လွှမ်းခြုံကာ rubric ကို အတည်ပြုခဲ့သည်။ Second Update သည် ထို rubric ကို byte-identical အတိုင်း ထိန်းထားပြီး evaluation ကို လူဦးရေ-အတိုင်းအတာ cohort အထိ တိုးချဲ့သည်။.

Composite 99.80% case 100,000 အနက် 100,000 ခုသည် အမှတ်ရရှိ

1.000 Structural score

0.996 Clinical score

13.26 s ပျမ်းမျှ latency

0 / 87,412 Trap false-positives

composite ဖော်မြူလာက အစိတ်အပိုင်း (၃) ခုကို ပေါင်းစပ်ထားပါတယ်— structural conformance မဖြစ်မနေ report sections (၇) ခုနဲ့ မဖြစ်မနေ subsections (၁၆) ခုတို့နဲ့ ကိုက်ညီမှု၊, အကြောင်းအရာ တိကျမှု keyword recall + scoring-system recall + probability-distribution validity check အဖြစ် တိုင်းတာထားပြီး၊ response latency primary-path service-level target ကို ဆန့်ကျင်၍ (အောင်မြင်စေသည်)။ အတိအကျ ခွဲထုတ်မှုကို အောက်ပါ rubric formula တွင် ပြထားသည်—Second Update အတွက် အလေးချိန်များ သို့မဟုတ် sub-rubrics မည်သည်ကိုမျှ ပြောင်းလဲမထားပါ။.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

ကျန်ရှိနေသော headroom 0.20 percentage points သည် ဆေးခန်းဆိုင်ရာ sub-score ထဲသို့ အများစုနီးပါး ခွဲထုတ်သွားသည်—case အနည်းငယ် (အဓိကအားဖြင့် Hepatology နှင့် Rheumatology တွင်) တွင် diagnostic content မှန်ကန်နေသော်လည်း အင်ဂျင်၏ interpretation ထဲတွင် မျှော်မှန်းထားသည့် scoring-system keyword တစ်ခု ပျောက်နေခဲ့သည်။. 100,000-case Second-Update cohort အတွင်းရှိ case တစ်ခုမျှ diagnosis ကိုယ်တိုင်ကို လွဲချော်မထားပါ။. latency သည် V11 initial release တွင် ပျမ်းမျှ 20.17 s မှ Second Update တွင် 13.26 s သို့ တိုးတက်လာသည်—ယင်းသည် run နှစ်ခုကြားရှိ production engine optimisations များကို ထင်ဟပ်စေသည်။ rubric၊ scoring code နှင့် API endpoint တို့မှာ မပြောင်းလဲပါ။.

တံဆိပ်တစ်ခုချင်းစီအလိုက် composite ရမှတ်များသည် ကိုယ်စားပြုမှုအများဆုံး နိုင်ငံတံဆိပ် 30 ခုအတွင်း 0.9971 မှ 0.9985 အထိ ရှိခဲ့သည်။ နောက်ထပ် 97 ခုပါဝင်သည့် long tail သည် (စုစုပေါင်း ≈7,300 ကိစ္စ) စနစ်တကျ ယိုယွင်းမှု မပြခဲ့ပါ။ ကိစ္စအရေအတွက်အလိုက် အများဆုံးတံဆိပ်များမှာ အမေရိကန်ပြည်ထောင်စု (10,500)၊ ဘရာဇီး (9,500)၊ စပိန် (9,000)၊ အီတလီ (8,000)၊ ဂျာမနီ (7,800)၊ ပြင်သစ် (7,400)၊ ပေါ်တူဂီ (5,800)၊ Türkiye (3,400)၊ ယူနိုက်တက်ကင်းဒမ် (2,900) နှင့် မက္ကဆီကို (2,500) တို့ဖြစ်သည်။ တံဆိပ်တစ်ခုချင်းစီအလိုက် composite ရမှတ်များသည် 0.9971 မှ 0.9985 အထိ ရှိခဲ့သည်။.

Case 15 ခုမှ Case 100,000 အထိ — Country Labels 127 ခုအတွင်း cohort evolution

မူလ V11 case panel သည် hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — အထူးပြု ခုနစ်ခုကို လွှမ်းခြုံထားပြီး၊ ထို့အပြင် hyperdiagnosis trap case နှစ်ခုကို သီးသန့်ထားကာ case တစ်ခုစီသည် synthetically generated blood-test panel တစ်ခုဖြစ်သည်။ V11 ဒုတိယအကြိမ်အပ်ဒိတ်သည် evaluation ကို Country Labels 127 ခုအတွင်းရှိ synthetic cases 100,000 ခုအထိ တိုးချဲ့သည်, ၊ specialty ရှစ်ခုအတွင်း ဖြန့်ဝေထားသည် (မူလ ခုနစ်ခု plus trap subset ကို စုပ်ယူသည့် သီးသန့် internal-medicine bucket)။ တူညီသော scoring rubric ကို run နှစ်ခုလုံးတွင် byte-identical အတိုင်း အသုံးချထားသည်။.

အားလုံးသော case များသည် synthetic ဖြစ်သောကြောင့် ဖယ်ရှားရန် real identifiers မရှိသလို personal data လည်း မပါဝင်ပါ။ case တစ်ခုစီတွင် benchmark-internal case code တစ်ခု ပါရှိသည် (V11 မူလ set တွင် BT-NNN-LABEL၊ ဒုတိယအကြိမ်အပ်ဒိတ်တွင် တည်ငြိမ်သော case_uid )။ ထုတ်ပြန်ထားသော harness၊ technical report၊ သို့မဟုတ် ထုတ်လွှတ်ထားသော datasets များတွင် personal data မည်သည့်နေရာတွင်မျှ မပေါ်ပါ။.

V11 initial release အတိုင်း ဆောင်ရွက်ခဲ့သည်—လက်ဖြင့်ရွေးချယ်ထားသော case 15 ခု

မူရင်း V11 case panel ကို ဒေါက်တာ Thomas Klein က လက်ဖြင့်ရွေးချယ်တင်ပြထားပြီး ဓာတ်ခွဲခန်း-ဆေးပညာ လက်ထောက်များ အများဆုံး မှားတတ်သည့် ရောဂါရှာဖွေမှုပုံစံများကို လေ့ကျင့်နိုင်ရန် ရည်ရွယ်ထားသည်။ အမှု ၁၅ ခုစီကို အောက်တွင်ဖော်ပြထားသည့် သီးခြား ရောဂါရှာဖွေမှုပိုင်ဆိုင်မှုတစ်ခုစီအတွက် ရွေးချယ်ထားသည်။.

သွေးရောဂါဗေဒ (3) BT-001၊ BT-006၊ BT-007 သံဓာတ်ချို့တဲ့ သွေးအားနည်းခြင်း · B12 ချို့တဲ့ခြင်း · Beta-thalassaemia minor

အတွင်းဂလင်းရောဂါဗေဒ (3) BT-002၊ BT-008၊ BT-012 Hashimoto's thyroiditis · အင်ဆူလင်ခုခံမှုနှင့်အတူ PCOS · ဗီတာမင်ဒီ ပြင်းထန်စွာ ချို့တဲ့ခြင်း

ဇီဝဖြစ်စဉ် (2) BT-003၊ BT-013 metabolic syndrome နှင့်အတူ T2DM · gout အန္တရာယ်နှင့်အတူ Hyperuricaemia

အသည်းရောဂါဗေဒ (2) BT-004၊ BT-009 NAFLD / NASH · စူးရှသော ဗိုင်းရပ်စ်အသည်းရောင်ရောဂါ

ကျောက်ကပ်ရောဂါဗေဒ · နှလုံးရောဂါဗေဒ · အဆစ်အမြစ်ရောင်ရောဂါဗေဒ (3) BT-005၊ BT-010၊ BT-011 CKD အဆင့် 3 · Atherogenic dyslipidaemia · Systemic lupus erythematosus

Trap အမှုများ (2) BT-014၊ BT-015 Gilbert's syndrome (သီးခြား indirect hyperbilirubinaemia) · အရွယ်ရောက်ပြီးသူ screen အပြည့်အဝ ပုံမှန်

ဒီဖြန့်ဝေမှုကို အဘယ်ကြောင့် အထူးသဖြင့် ရွေးချယ်ထားတာလဲ

သွေးဗေဒပညာရပ်တွင် အမှု ၃ ခုရရှိသည်မှာ microcytic ကွဲပြားမှုများနှင့် macrocytic ကွဲပြားမှုများသည် လက်တွေ့ဓာတ်ခွဲခန်းလုပ်ငန်းတွင် အများဆုံး “trap” ဖြစ်သောကြောင့်ဖြစ်သည်။ အာရုံကြောဆိုင်ရာ/ဟော်မုန်းဆိုင်ရာပညာရပ်တွင် အမှု ၃ ခုရရှိသည်မှာ Hashimoto's၊ PCOS နှင့် ဗီတာမင်ဒီ ချို့တဲ့ခြင်း တင်ပြပုံများသည် မတူညီသော ရောဂါရှာဖွေမှုပုံစံများကို လေ့ကျင့်ပေးသောကြောင့်ဖြစ်သည် (autoantibody-driven၊ hormone-ratio-driven၊ single-marker-driven)။ CKD၊ ASCVD risk နှင့် SLE တို့တွင် တစ်ခုစီအတွက် သီးသန့်အမှုတစ်ခုသာရှိသော်လည်း အဓိပ္ပါယ်ရှိနေသေးသည်။ အကြောင်းမှာ အင်ဂျင်က ခေါ်သုံးရမည့် ကိုယ်ပိုင် အမှတ်ပေးစနစ်တစ်ခုစီရှိသောကြောင့်ဖြစ်သည် (အသီးသီး KDIGO staging၊ ASCVD 10-year risk၊ 2019 EULAR/ACR SLE criteria)။.

V11 ဒုတိယအကြိမ်အပ်ဒိတ် — Country Labels 127 ခုအတွင်းရှိ synthetic cases 100,000 ခု

ဒုတိယအကြိမ်အပ်ဒိတ်သည် မူလ V11 hard-coded 15-case Python literal ကို ပိုကြီးသည့်၊ programmatically generated synthetic case set ဖြင့် အစားထိုးသည်။ case set ကို run တစ်ခုစီ၏ အစတွင် တင်သွင်းပြီး transparency အတွက် configuration ကို မှတ်တမ်းတင်ထားသည်။ content area အလိုက် cohort distribution ကို အောက်တွင် ပြထားသည်။.

Endocrinology အမှု ၂၃,၉၀၀ (23.9%) သိုင်းရွိုက်၊ PCOS၊ ဗီတာမင်ဒီ၊ gonadal axis၊ pituitary

ဇီဝဖြစ်စဉ်ဆေးပညာ အမှု ၂၁,၉၀၀ (21.9%) T2DM၊ metabolic syndrome၊ lipid panels၊ hyperuricaemia

သွေးဗေဒ အမှု ၁၅,၄၀၀ (15.4%) Microcytic နှင့် macrocytic ကွဲပြားမှုများ၊ B12/folate၊ iron studies

အသည်းရောဂါဗေဒ (Hepatology) အမှု ၁၂,၄၀၀ (12.4%) NAFLD/NASH၊ viral hepatitis၊ FIB-4၊ cholestasis

အတွင်းဆေးပညာ (trap subset ပါဝင်) အမှု ၉,၀၀၀ (9.0%) ရောနှောတင်ပြမှုများနှင့် 8,723 ခု အထူးပြု hyperdiagnosis trap အမှုများ

နှလုံးရောဂါဗေဒ (Cardiology) အမှု ၇,၅၀၀ (7.5%) ASCVD risk၊ atherogenic dyslipidaemia၊ hs-CRP

အဆစ်အမြစ်ရောဂါဗေဒ (Rheumatology) အမှု ၆,၀၀၀ (6.0%) SLE၊ RA၊ vasculitis၊ autoantibody panels (EULAR/ACR criteria)

ကျောက်ကပ်ဆိုင်ရာရောဂါဗေဒ အမှု ၄,၀၀၀ (4.0%) CKD အဆင့်သတ်မှတ်ခြင်း (KDIGO)၊ eGFR လမ်းကြောင်းများ၊ electrolyte disturbance

အတုသတ်မှတ်ထားသော နိုင်ငံ-တံဆိပ် ဖြန့်ဖြူးမှု — ထိပ် 10 တံဆိပ်

အတုသတ်မှတ်ထားသော ကိစ္စ 100,000 ခုတွင် locale handling ကို စမ်းသပ်ရန် နိုင်ငံတံဆိပ် 127 ခု (ISO 3166-1 alpha-2) ပါဝင်သည်။ တံဆိပ်သတ်မှတ်ခြင်း- ဥရောပ 57.7%၊ အမေရိကတိုက်များ 25.4%၊ အာရှ-ပစိဖိတ် 6.2%၊ အမည်ပေးထားသော အရှေ့အလယ်ပိုင်း/အာဖရိက တံဆိပ်များ 3.4% နှင့် နောက်ထပ် 97 ခုပါဝင်သည့် long tail သည် စုစုပေါင်း ခန့်မှန်း 7.3% ဖြစ်သည်။ ကိစ္စအရေအတွက်အလိုက် အများဆုံးတံဆိပ် 10 ခုမှာ အမေရိကန်ပြည်ထောင်စု (10,500)၊ ဘရာဇီး (9,500)၊ စပိန် (9,000)၊ အီတလီ (8,000)၊ ဂျာမနီ (7,800)၊ ပြင်သစ် (7,400)၊ ပေါ်တူဂီ (5,800)၊ Türkiye (3,400)၊ ယူနိုက်တက်ကင်းဒမ် (2,900) နှင့် မက္ကဆီကို (2,500) တို့ဖြစ်သည်။ တံဆိပ်တစ်ခုချင်းစီအလိုက် composite ရမှတ်များသည် 0.9971 မှ 0.9985 အထိ ရှိခဲ့သည်။ ဤတံဆိပ်အရေအတွက်များသည် locale handling ကို စမ်းသပ်ရန် အသုံးပြုထားသည့် ထုတ်လုပ်ထားသော ကိစ္စများ၏ ဂုဏ်သတ္တိများဖြစ်သည်—၎င်းတို့သည် အမှန်တကယ်အသုံးပြုသူများ မဟုတ်သလို အမှန်တကယ်ကမ္ဘာ့ပထဝီဆိုင်ရာ လွှမ်းခြုံမှုလည်း မဟုတ်ပါ။.

ကြိုတင်မှတ်ပုံတင်ထားသော rubric ကို ရှင်းပြချက်

ကြိုတင်မှတ်ပုံတင်ခြင်း (pre-registration) သည် ဤ benchmark တွင် အရေးကြီးဆုံး နည်းလမ်းပိုင်းဆိုင်ရာ ရွေးချယ်မှုတစ်ခုဖြစ်သည်။ မျှော်မှန်းထားသည့် ရောဂါရှာဖွေမှုတိုင်း၊ ဆေးခန်းအမှတ်ပေးစနစ်တိုင်း၊ နှင့် အစီရင်ခံစာ အပိုင်းတိုင်းကို source code ထဲသို့ ကြိုတင်ကတိပြုထားပြီးဖြစ်သည် အင်ဂျင်ကို မခေါ်မီ. ဖြစ်သောကြောင့်။ အင်ဂျင်ကို ချီးမြှောက်စေမည့် rubric ကို post-hoc ချိန်ညှိခြင်းမှာ ထို့ကြောင့် မဖြစ်နိုင်ပါ။.

ပေါင်းစပ်အမှတ် (composite score) ကို အစိတ်အပိုင်း ၃ ခုဖြင့် ဖွဲ့စည်းထားသည်။ structural component သည် ၃၅ ရာခိုင်နှုန်း ပံ့ပိုးပြီး အင်ဂျင်သည် မဖြစ်မနေ အစီရင်ခံစာ အပိုင်း ၇ ခု (header၊ summary၊ key findings၊ differential၊ scoring systems၊ recommendations၊ follow-up) နှင့် ၎င်းတို့အတွင်းရှိ မဖြစ်မနေ အပိုင်းခွဲ ၁၆ ခုကို ပြန်ပေးခဲ့/မပေးခဲ့ကို တိုင်းတာသည်။ အပိုင်းရှိ/မရှိ (Section presence) သည် structural တွက်ချက်မှုအတွင်း ၄၀ ရာခိုင်နှုန်း အလေးချိန်ရှိပြီး အပိုင်းခွဲရှိ/မရှိ (subsection presence) သည် ၆၀ ရာခိုင်နှုန်း အလေးချိန်ရှိသည်။.

ဟိ clinical component သည် ၅၅ ရာခိုင်နှုန်း ပံ့ပိုးပြီး အရာ ၃ ခုကို ပေါင်းစပ်ထားသည်—ရောဂါရှာဖွေမှု-သော့ချက်စာလုံး ပြန်ခေါ်နိုင်မှု (clinical sub-score ၏ ၇၀ ရာခိုင်နှုန်း)၊ scoring-system ပြန်ခေါ်နိုင်မှု (၂၀ ရာခိုင်နှုန်း—သက်ဆိုင်ရာနေရာများတွင် အင်ဂျင်သည် Mentzer၊ FIB-4၊ HOMA-IR၊ ASCVD risk၊ KDIGO staging၊ EULAR/ACR criteria တို့ကို တွက်ချက်ပေးနိုင်/မပေးနိုင်)၊ နှင့် ဖြစ်နိုင်ခြေ-ပေါင်းလဒ် တရားဝင်မှု စစ်ဆေးချက် (၁၀ ရာခိုင်နှုန်း—differential ဖြစ်နိုင်ခြေများသည် [90, 110] အတွင်း ပေါင်းလဒ်ဖြစ်ရမည်)။ trap အမှုများအတွက် fabricated pathology flag တစ်ခုချင်းစီအတွက် 0.10 နှုန်းဖြင့် တွက်ချက်ပြီး အများဆုံး flag ၃ ခုအထိ ကန့်သတ်ထားသည့် explicit hyperdiagnosis penalty (အများဆုံး 0.30) ကို နုတ်ယူသည်။.

ဟိ latency component သည် ၁၀ ရာခိုင်နှုန်း ပံ့ပိုးသည်။ ၂၀ စက္ကန့်အောက် တုံ့ပြန်မှုသည် အပြည့် 0.10 ရရှိပြီး၊ ၄၀ စက္ကန့်အောက် တုံ့ပြန်မှုသည် 0.05 ရရှိကာ၊ ပိုနှေးသည့် မည်သည့်အရာမဆို 0 ရရှိသည်။ ၂၀ စက္ကန့် ပစ်မှတ်သည် production primary-path service-level objective ကို ထင်ဟပ်စေပြီး၊ ၄၀ စက္ကန့် ကန့်သတ်ချက်သည် heavy-engine invocations များအတွက် Phase 2 fallback budget ကို ထင်ဟပ်စေသည်။.

pre-registration ကာကွယ်ပေးနိုင်သည့်အရာ

First-party benchmark များသည် post-hoc rubric tuning ဖြင့် မိမိတို့၏ နံပါတ်များကို ဖောင်းပွစေတတ်ကြောင်း လူသိများသည်။ ပုံစံမှာ အမြဲလိုလို တူညီနေတတ်သည်—အဖွဲ့က အင်ဂျင်ကို လုပ်ဆောင်ပြီး မည်သည့်နေရာတွင် အားနည်းသည်ကို မြင်ကာ၊ ထို့နောက် အားနည်းနေသော နယ်ပယ်များကို အမှတ်နည်းနည်းသာ ရေတွက်စေမည့်အတွက် rubric ကို တိတ်တဆိတ် ချိန်ညှိလိုက်သည်။ ပထမဆုံး အင်ဂျင်ခေါ်မီ rubric ကို source code ထဲသို့ ကတိပြုထားပြီး harness ကို MIT licence ဖြင့် ထုတ်ပြန်လိုက်သည့်အတွက်၊ ထိုချိန်ညှိမှုသည် version control တွင် မြင်သာလာသည်။ မည်သူမဆို repository ကို clone လုပ်နိုင်ပြီး rubric author dates များကို စစ်ဆေးကာ အင်ဂျင်ရလဒ်များကို အမှတ်ပေးခြင်းကို ပုံဖော်ရန် အသုံးမပြုခဲ့ကြောင်း အတည်ပြုနိုင်သည်။.

Hyperdiagnosis trap အမှုကိစ္စများ — အလွန်အမင်း ခေါ်ဆိုခြင်း (over-calling) က အမှန်တကယ် ပျက်ကွက်မှု ပုံစံ (failure mode) ဘာကြောင့်လဲ

ပုံမှန် စစ်ဆေးမှုများတွင် ရောဂါလက္ခဏာကို အလွန်အမင်း ခေါ်ဆို (over-calling) လုပ်ခြင်းသည် consumer-facing medical assistants များတွင် မှတ်တမ်းတင်ထားသည့် ပျက်ကွက်မှု ပုံစံတစ်ခုဖြစ်သည်။ ၎င်း၏ နောက်ဆက်တွဲကုန်ကျစရိတ်များတွင် မလိုအပ်သော စုံစမ်းစစ်ဆေးမှု၊ လူနာစိုးရိမ်ပူပန်မှု၊ နှင့် iatrogenic workup တို့ ပါဝင်သည်။ ဤ benchmark ရှိ trap အမှု ၂ ခုကို ထိုပျက်ကွက်မှု ပုံစံကို မြင်သာစေပြီး အမှတ်ပေးနိုင်အောင် ဒီဇိုင်းလုပ်ထားသည်။.

🟡 Trap 1 — BT-014-GILBERT

တင်ပြပုံ။. စုစုပေါင်း bilirubin 2.4 mg/dL ရှိသော အသက် ၂၄ နှစ် အမျိုးသား။ direct fraction သည် ပုံမှန်ဖြစ်ပြီး၊ transaminases နှင့် alkaline phosphatase တို့သည် ၎င်းတို့၏ reference range အတွင်းတွင် ရှိနေကာ၊ reticulocytes များမှာ ထူးခြားမှုမရှိပြီး၊ haptoglobin နှင့် LDH သည် haemolysis ကို ဖယ်ထုတ်ပေးသည်။.

မှန်ကန်သော အဓိပ္ပါယ်ဖတ်နည်း။. Gilbert's syndrome — benign UGT1A1 polymorphism ဖြစ်သည်။ အဓိပ္ပါယ်ဖတ်ရာတွင် hepatitis၊ cirrhosis၊ haemolytic anaemia၊ သို့မဟုတ် biliary obstruction ကို မခေါ်သုံးသင့်ပါ။.

V11 ရလဒ်။. Composite 1.000။ စောင့်ကြည့်ထားသည့် over-diagnosis flag ၆ ခုအနက် မည်သည့်အရာမျှ active diagnosis အဖြစ် မပေါ်ခဲ့ပါ။.

🟡 Trap 2 — BT-015-HEALTHY

တင်ပြပုံ။. parameter ၁၅ ခုပါ routine screening panel ရှိသော အသက် ၃၅ နှစ် အမျိုးသမီး။ analyte တိုင်းသည် ၎င်း၏ reference range အတွင်းတွင် သက်တောင့်သက်သာ ရှိနေသည်။.

မှန်ကန်သော အဓိပ္ပါယ်ဖတ်နည်း။. စိတ်ချစရာဖြစ်စေခြင်းနှင့် လူနေမှုပုံစံ ထိန်းသိမ်းခြင်း။ အဓိပ္ပာယ်ဖော်ချက်သည် ဆေးဘက်ဆိုင်ရာအရ အသုံးဝင်သည်ဟု ထင်ရစေရန် နယ်နိမိတ်အဆင့် ရောဂါလက္ခဏာများကို တီထွင်ဖန်တီးမထားသင့်ပါ။.

V11 ရလဒ်။. ပေါင်းစပ်ရမှတ် 1.000။ စောင့်ကြည့်ထားသော အလွန်အမင်း ရောဂါလွန်ကဲစွာ ခန့်မှန်းခြင်း အလံခုနစ်ခု—ဆီးချို၊ သွေးအားနည်းရောဂါ၊ သိုင်းရွိုက်လုပ်ဆောင်မှု လျော့နည်းခြင်း၊ အဆီဓာတ်မညီမျှခြင်း၊ အသည်းရောင်ရောဂါ၊ ကျောက်ကပ်ရောဂါ၊ ချို့တဲ့မှု—အနက် မည်သည့်အရာမျှ တက်ကြွသော ရောဂါအဖြစ် ပေါ်မလာပါ။.

ထောင်ချောက်နှစ်ခုလုံးတွင် စောင့်ကြည့်ထားသော hyperdiagnosis အလံ ၁၃ ခုကို စစ်ဆေးခဲ့သည်။ မည်သည့်အရာမျှ အစပျိုးမခံရပါ။ AI အင်ဂျင်ကို triage သို့မဟုတ် စစ်ဆေးမတိုင်မီ အသုံးပြုရန် စဉ်းစားနေသည့် ဆရာဝန်တိုင်းအတွက် အရေးအကြီးဆုံးဖြစ်သည့် ရလဒ်မှာ ဤအချက်ဖြစ်သည်— မရှိသည့်နေရာတွင် ရောဂါကို စနစ်က တီထွင်မထားပါ.

Mentzer index: သံဓာတ်ချို့တဲ့ခြင်းကို thalassaemia trait မှ ခွဲခြားခြင်း

ဒုတိယ အရည်အသွေးမြင့် ရှာဖွေတွေ့ရှိချက်တစ်ခုမှာ case BT-001 (သံဓာတ်ချို့တဲ့ သွေးအားနည်းရောဂါ) ကို case BT-007 (beta-thalassaemia minor) နှင့် တွဲဖက်ထားခြင်းဖြစ်သည်။ နှစ်ခုလုံးသည် microcytosis ဖြင့် တင်ပြကြပြီး အတွေ့အကြုံမရှိသော ခွဲခြားစနစ်များအတွက် အလွန်သိသာသော အခက်အခဲတစ်ခုဖြစ်သည်။ MCV ကို RBC အရေအတွက်ဖြင့် ပိုင်းခြား၍ တွက်ချက်သော Mentzer index သည် သံဓာတ်ချို့တဲ့ခြင်းတွင် 13 ထက်ကျော်ပြီး thalassaemia trait တွင် 13 ထက်နိမ့်သည်။.

BT-001 တွင် လူနာမှာ အသက် 34 နှစ် အမျိုးသမီးဖြစ်ပြီး hemoglobin 10.4 g/dL၊ MCV 72.4 fL၊ RBC 4.1 × 10¹²/L၊ ferritin 6 ng/mL နှင့် TIBC မြင့်မားခြင်းရှိသည်။ ခန့်မှန်း Mentzer index သည် 17.7 ခန့်ဖြစ်ပြီး absolute iron deficiency ကို ထောက်ခံသည်။ BT-007 တွင် လူနာမှာ အသက် 28 နှစ် အမျိုးသားဖြစ်ပြီး microcytosis (MCV 65.8 fL) ရှိသော်လည်း RBC 6.2 မြင့်မားခြင်း၊ RDW ပုံမှန်၊ ferritin ပုံမှန်၊ HbA2 5.6 percent ရှိသည်။ ခန့်မှန်း Mentzer index သည် 10.6 ခန့်ဖြစ်ပြီး thalassaemia trait ကို ညွှန်ပြကာ elevated HbA2 သည် beta-thalassaemia minor ကို အတည်ပြုသည်။.

သံဓာတ်ချို့တဲ့ သွေးအားနည်းရောဂါ Mentzer > 13 ferritin နိမ့်၊ TSAT နိမ့်၊ TIBC မြင့်၊ RDW မြင့်

Beta-thalassaemia trait Mentzer < 13 ferritin ပုံမှန်၊ RDW ပုံမှန်၊ HbA2 မြင့် (>3.5%)၊ RBC အရေအတွက် မြင့်

အမှုနှစ်ခုလုံးသည် ရမှတ် 1.000 ရရှိသည်။ အင်ဂျင်သည် အဓိပ္ပာယ်ဖော်ချက်နှစ်ခုလုံးတွင် Mentzer index ကို တိတိကျကျ အသုံးပြုခဲ့ပြီး အခြေအနေလက်ရှိတစ်ခုစီတွင် မှန်ကန်သော ရောဂါအမည်ကို ပြန်ပေးခဲ့သည်။. ဤသည်မှာ benchmark တစ်ခုလုံးအတွင်း ဆေးဘက်ဆိုင်ရာအရ အများဆုံး စိတ်ချစရာ ရလဒ်တစ်ခုတည်းဖြစ်သည်, အကြောင်းမှာ thalassaemia trait ကို သံဓာတ်ချို့တဲ့ခြင်းအဖြစ် မှားယွင်းခွဲခြားပါက မသင့်လျော်သော သံဓာတ်ဖြည့်စွက်ခြင်း ဖြစ်ပေါ်စေပြီး မိသားစု စစ်ဆေးခြင်း အခွင့်အလမ်းများကို လွတ်သွားစေကာ၊ သံဓာတ်ချို့တဲ့ခြင်းကို thalassaemia အဖြစ် မှားယွင်းခွဲခြားပါက လွယ်ကူသော အစားထိုးကုသမှုကို နောက်ကျစေသောကြောင့် ဖြစ်သည်။ ကျွန်ုပ်တို့၏ ferritin အကွာအဝေး လမ်းညွှန် သည် ပိုမိုကျယ်ပြန့်သော differential context ကို ရှင်းပြသည်။.

V11 အစောပိုင်း reference run မှ case တစ်ခုချင်းစီ ရလဒ်များ (ဧပြီ ၂၃၊ ၂၀၂၆)

15-case proof-of-concept cohort ပေါ်တွင် မူလ V11 reference run က ဒုတိယ update ၏ နည်းလမ်းဆိုင်ရာ အခြေခံအုတ်မြစ် ဖြစ်သည်—အောက်တွင် case တစ်ခုချင်းစီ၏ အသေးစိတ်အချက်အလက်တိုင်းက rubric သည် အမှန်တကယ် engine response ကို မည်သို့ ကိုင်တွယ်သည်ကို ပြသထားသည်။ ပထမဆုံး path တွင် case ၁၅ ခုအနက် ၁၂ ခုက primary path အတွက် ceiling composite score 1.000 ကို ရရှိခဲ့သည်။ case ၃ ခုကို Phase 2 fallback မှတစ်ဆင့် ဝန်ဆောင်ပေးခဲ့ပြီး၊ 0.05 latency bonus ကို ဆုံးရှုံးသော်လည်း clinical နှင့် structural အကြောင်းအရာအားလုံးကို ထိန်းသိမ်းထားသည်။ case ၁ ခုတွင် မဖြစ်မနေ လိုအပ်သော subsection တစ်ခု ပျောက်နေခဲ့သည်။ case ၁ ခုက probability distribution sum ကို အနည်းငယ် လျော့ကျသွားသည့်အတိုင်း ပြန်လာခဲ့သည်။.

Case ID Specialty Composite Latency Path

BT-001-IDAသွေးဗေဒ1.00017.8 sprimary

BT-006-B12သွေးဗေဒ1.00018.4 စက္ကန့်primary

BT-007-THALသွေးဗေဒ1.00017.0 စက္ကန့်primary

BT-002-HASHEndocrinology0.95037.0 စက္ကန့်အရန် (fallback)

BT-008-PCOSEndocrinology0.98718.6 စက္ကန့်primary

BT-003-T2DMဇီဝဖြစ်စဉ်1.00019.1 စက္ကန့်primary

BT-013-GOUTဇီဝဖြစ်စဉ်1.00019.4 စက္ကန့်primary

BT-004-NAFLDအသည်းရောဂါဗေဒ (Hepatology)1.00019.6 စက္ကန့်primary

BT-009-VIRHEPအသည်းရောဂါဗေဒ (Hepatology)0.95023.4 စက္ကန့်အရန် (fallback)

BT-014-GILBERTထောင်ချောက် (Trap)1.00018.9 စက္ကန့်primary

BT-005-CKDကျောက်ကပ်ဆိုင်ရာရောဂါဗေဒ1.00017.4 စက္ကန့်primary

BT-010-ASCVDနှလုံးရောဂါဗေဒ (Cardiology)1.00019.7 စက္ကန့်primary

BT-011-SLEအဆစ်အမြစ်ရောဂါဗေဒ (Rheumatology)0.98118.2 စက္ကန့်primary

BT-012-VITDEndocrinology1.00019.3 စက္ကန့်primary

BT-015-HEALTHYထောင်ချောက် (Trap)1.00018.7 စက္ကန့်အရန် (fallback)

PCOS အမှု (BT-008) သည် တုံ့ပြန်မှုဖွဲ့စည်းပုံတွင် မဖြစ်မနေလိုအပ်သော အပိုင်းတစ်ခုကို ဆုံးရှုံးခဲ့သည်— ၁၆ ခုအနက် ၁၅ ခု (၁၆ ခုအနက် ၁၆ ခုမဟုတ်) — ထို့ကြောင့် ဖွဲ့စည်းပုံရမှတ်ကို 1.000 မှ 0.963 သို့ လျော့ကျစေခဲ့သည်။ SLE အမှု (BT-011) သည် ရောဂါရှာဖွေမှုဆိုင်ရာ သော့ချက်စာလုံးများနှင့် ရမှတ်တွက်ချက်မှုစနစ်အားလုံးကို ထိန်းသိမ်းထားရင်း၊ ဆေးခန်းရမှတ်ကို 0.965 သို့ ကျစေသည့် အနည်းငယ် လျော့ကျသွားသော ဖြစ်နိုင်ခြေ-ဖြန့်ချီမှု ပေါင်းလဒ်ကို ပြန်ပေးခဲ့သည်။ မည်သည့် sub-perfect အမှုမျှ မှန်ကန်သော ရောဂါရှာဖွေမှုကို လွဲမချော်ခဲ့ပါ။.

V11 Second Update aggregate — case 100,000

လူဦးရေအတိုင်းအတာအဆင့်တွင် ကိစ္စတစ်ခုချင်းစီ၏ row များကို လူသားဖတ်ရှုနိုင်အောင် မပြနိုင်သဖြင့် ဒုတိယအပ်ဒိတ်သည် 100,000-row ဇယားတစ်ခုထက် စုစည်းထားသော မက်ထရစ်များကိုသာ အစီရင်ခံသည်။ အဓိက headline စုစည်းမှုကို အောက်တွင် ပြထားသည်။ အထူးပြုတစ်ခုချင်းစီနှင့် နိုင်ငံတံဆိပ်တစ်ခုချင်းစီအလိုက် ခွဲခြမ်းမှုများကို နည်းပညာဆိုင်ရာ အစီရင်ခံစာနှင့် Figshare deposit တွင် ထုတ်ပြန်ထားသည်။ stratified random sample တစ်ခုမှာ n = 201 raw engine responses (deterministic seed 20260426) ကို စစ်ဆေးရန် GitHub repository ၏ results/ directory တွင် ထုတ်ပြန်ထားသည်။.

စုပေါင်းရမှတ် (Composite score) V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 သည် case 100,000 cohort အတွင်း

Structural score (mean) V11 initial: 0.998 → Second Update: 1.000 လူဦးရေအဆင့် အတိုင်းအတာတွင် ပြီးပြည့်စုံသော structural conformance

Clinical score (mean) V11 initial: 0.998 → Second Update: 0.996 −0.002; case တစ်ခုမျှ ရောဂါရှာဖွေမှုကိုယ်တိုင်ကို မလွဲချော်ခဲ့ပါ

Latency — ပျမ်းမျှ (အကွာအဝေး) V11 အစပိုင်း: 20.17 s (17.0–37.0 s) → ဒုတိယ အပ်ဒိတ်: 13.26 s (9.0–16.94 s) ပြေးကြားကာလများအတွင်း ထုတ်လုပ်ရေး အင်ဂျင် အကောင်းဆုံးပြင်ဆင်မှုများ

အင်ဂျင်လမ်းကြောင်း = အဓိက V11 အစပိုင်း: 12 / 15 → ဒုတိယ အပ်ဒိတ်: 100,000 / 100,000 ပြေးနေစဉ် မည်သည့်အချိန်တွင်မှ Phase 2 fallback မလိုအပ်ခဲ့ပါ

Trap-subset hyperdiagnosis အလံများ V11 အစပိုင်း: 0 / 13 → ဒုတိယ အပ်ဒိတ်: 0 / 87,412 လူဦးရေ အတိုင်းအတာအဆင့်တွင် မှားယွင်းသော positive မရှိ (စောင့်ကြည့်ထားသော trap ဖြစ်ရပ် 8,723 ခု)

ခေါင်းစဉ်ရမှတ်က မပြောပြနိုင်တဲ့အရာ

ဤ pre-registered rubric အထူးသတ်မှတ်ချက်အောက်တွင် 99.80 percent composite score သည် Country Labels 127 ခုကို ဖြတ်သန်းသည့် 100,000-case synthetic cohort အပေါ်တွင် near-ceiling performance ကို ကိုယ်စားပြုသည် — သို့သော် ၎င်းကို သေချာစွာ အဓိပ္ပါယ်ဖော်ပြရန် လိုအပ်သည်။ ရလဒ်သည် V11 တွင် source code အဖြစ် ကျွန်ုပ်တို့ ကတိပြုထားသည့် rubric နှင့် နှိုင်းယှဉ်ရာတွင် engine ၏ အပြုအမူကို ဖော်ပြသည်။ ၎င်းသည် လက်တွေ့လောကတွင် ရှိနေသည့် သွေးစစ် panel တိုင်းအတွက် engine ၏ မှန်ကန်မှုကို universal claim အဖြစ် မဆိုလိုပါ။.

ရမှတ်က အင်ဂျင်သည် ဤအကဲဖြတ်မှုအတွက် ရွေးချယ်ထားသော ရောဂါရှာဖွေရေး ပုံစံများကို လူဦးရေ အတိုင်းအတာ cohort တစ်ခုအတွင်း မှန်ကန်စွာ ကိုင်တွယ်နိုင်ခဲ့ကြောင်း ဆိုလိုသည်။ ထိုသို့ဆိုခြင်းသည် ထုတ်ဝေထားပြီး ပြန်လည်ပြုလုပ်နိုင်သည့် methodology တစ်ခုအပေါ်တွင် ဖြစ်သည်။ ၎င်းသည် လက်တွေ့လောကတွင် ရှိနေသည့် သွေးစစ်ဆေးမှု panel တိုင်းအတွက် အင်ဂျင်မှန်ကန်သည်ဟု မဆိုပါ။ အင်ဂျင်သည် ဆရာဝန်၏ ဆုံးဖြတ်ချက်ကို အစားထိုးသင့်သည်ဟုလည်း မဆိုပါ။ ထို့အပြင် အခြား AI စနစ်များထက် သာလွန်သည်ဟုလည်း မဆိုပါ — အခြားအင်ဂျင်များနှင့် နှိုင်းယှဉ်လေ့လာမှုများကို ဤအစီရင်ခံစာ၏ scope အပြင်ဘက်အဖြစ် တမင်ထားခဲ့သည်။.

ရမှတ်က သတ်မှတ်ပေးနိုင်သည်မှာ baseline တစ်ခုဖြစ်သည်။ rubric နှင့် harness ကို အများပြည်သူသို့ ထုတ်ဖော်ထားပြီးဖြစ်သဖြင့် အင်ဂျင်၏ အနာဂတ်ဗားရှင်းများကို တူညီသော rubric နှင့် နှိုင်းယှဉ်အကဲဖြတ်နိုင်သည် — V11 အစပိုင်း case 15 ခု၊ ဒုတိယ အပ်ဒိတ် 100,000-case cohort၊ သို့မဟုတ် နောက်ထပ် တိုးချဲ့မှု မည်သည့်အရာမဆို — ထုတ်ဝေထားသော ရမှတ်နှင့် နောက်ထပ် run တစ်ခုကြားက ကွာဟချက်ကိုလည်း တိုင်းတာနိုင်သည်။ ကြိုတင်မှတ်ပုံတင်ခြင်း၏ တန်ဖိုးမှာ ယင်းဖြစ်သည်— စွမ်းဆောင်ရည်ဆိုင်ရာ တောင်းဆိုချက်များကို စမ်းသပ်နိုင်သော တောင်းဆိုချက်များအဖြစ် ပြောင်းလဲပေးသည်.

၁၀ မိနစ်အတွင်း ဒီ benchmark ကို ဘယ်လိုပြန်ထုတ်လုပ်မလဲ

ပြန်လည်ပြုလုပ်ရန်အတွက် Kantesti API credential pair တစ်ခုနှင့် Python 3.10 သို့မဟုတ် နောက်ပိုင်း ပတ်ဝန်းကျင်တစ်ခုသာ လိုအပ်သည်— requests နှင့် reportlab libraries များကို ထည့်သွင်းထားပြီးဖြစ်ရမည်။ အပြည့်အစုံ harness သည် MIT လိုင်စင်အောက်တွင် ထုတ်ပြန်ထားသော တစ်ခုတည်းသော self-contained Python module တစ်ခုဖြစ်သည်။.

💻 GitHub MIT-လိုင်စင် harness · raw responses · reference run 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · canonical academic record 🎓 သုတေသနဂိတ် Publication 404175463 · V11 ဒုတိယ အပ်ဒိတ် · academic discovery layer 📄 Academia.edu Paper 165956808 · V11 ဒုတိယ အပ်ဒိတ် · academic discovery layer

လတ်ဆတ်သော run တစ်ခုအတွက် အဆင့် ၄ ခု

တစ်။. repository ကို clone လုပ်ပါ— git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. နှစ်။. လိုအပ်သော ပက်ကေ့ချ်များကို
ထည့်သွင်းရန် pip install -r requirements.txt (ဒုတိယ အပ်ဒိတ်တွင် ထပ်တိုးသည်မှာ mysql-connector-python ≥ 8.0 SQL case loader အတွက်). သုံး။. သတ်မှတ်ပါ KANTESTI_USERNAME နှင့် KANTESTI_PASSWORD အင်ဂျင် API အတွက် environment variables များအဖြစ်။ ဒုတိယ အပ်ဒိတ် SQL case loader အတွက်လည်း ထို့အပြင် သတ်မှတ်ပါ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, နှင့် KANTESTI_DB_PASSWORD — loader သည် ဖော်ထုတ်နိုင်သော ဇယားများအပေါ်တွင် အခွင့်အရေးမရှိသည့် read-only role မှတစ်ဆင့် ချိတ်ဆက်သည် (bench_reader). လေး။. လုပ်ဆောင်ပါ python benchmark_bloodtest.py --limit 100000 ဒါမှမဟုတ် full Second-Update ကို run လုပ်ရန်၊ python benchmark_bloodtest.py --limit 1000 မြန်ဆန်စွာ စမ်းသပ်ပြင်ဆင်ရန်။ ရလဒ်များကို ./benchmark_results/: per-country-label နှင့် per-specialty ကော်လံများပါဝင်သည့် CSV scorecard တစ်ခု၊ JSON aggregate တစ်ခု၊ stratified-random raw-response sample တစ်ခုနှင့် Markdown အစီရင်ခံစာတစ်ခု။.

23 April 2026 (V11 initial, 15 cases) နှင့် 26 April 2026 (V11 Second Update, 100,000 cases) မှ reference runs များကို repository ၏ repository ၏ results/ directory ထဲတွင် ထိန်းသိမ်းထားသည်။ သင်၏ run သည် reference runs များကို မထိခိုက်စေဘဲ timestamp ပါသော scorecard အသစ်တစ်ခု ထုတ်ပေးမည်ဖြစ်သည်။ သင်၏ run သည် အဓိပ္ပါယ်ရှိစွာ ကွာခြားသော ရလဒ်ထွက်ပါက response metadata တွင် ပြန်လာသည့် run timestamp နှင့် engine version တို့နှင့်အတူ GitHub issue တစ်ခု ဖွင့်ပေးပါရန် တောင်းဆိုပါသည်။.

ကန့်သတ်ချက်များနှင့် အနာဂတ်လုပ်ငန်း

နိုင်ငံတံဆိပ် 127 ခုအပေါ် ဖြန့်ထားသည့် ကိစ္စ 100,000 အထိပင်ရှိသော်လည်း ကန့်သတ်ချက် ၄ ခုကို အတိအကျ အသိအမှတ်ပြုရန် လိုအပ်သည်—long-tail label undersampling၊ single-shot evaluation၊ single-engine scope နှင့် single-source data origin တို့ဖြစ်သည်။ ယင်းတို့ကို တက်ကြွစွာ follow-up လုပ်ငန်းများဖြင့် ဖြေရှင်းလျက်ရှိသည်။.

Long-tail label လွှမ်းခြုံမှု။. ဒုတိယအပ်ဒိတ်သည် နိုင်ငံတံဆိပ် 127 ခုကို လွှမ်းခြုံထားသော်လည်း ဖြန့်ဖြူးမှုမှာ မညီမျှ—ထိပ် 10 တံဆိပ်များသည် ကိစ္စများ၏ ≈66.4% ကို ကိုယ်စားပြုပြီး၊ နောက်ထပ် 97 ခုပါဝင်သည့် long tail သည် စုစုပေါင်း ≈7.3% (စုစုပေါင်း ခန့်မှန်း 7,300 ကိစ္စ၊ တံဆိပ်တစ်ခုလျှင် ပျမ်းမျှ ~75 ကိစ္စ) ပံ့ပိုးပေးသည်။ ထို့ကြောင့် ဤ long tail အတွင်းရှိ တံဆိပ်တစ်ခုချင်းစီ၏ composite များသည် headline figures က အကြံပြုသည့်ထက် ပိုမို ဆူညံမှုများသည်။ အနာဂတ် run များတွင် တံဆိပ်တစ်ခုချင်းစီအလိုက် ခန့်မှန်းချက်များကို ခိုင်မာစေရန် label assignment ကို ပြန်ညှိမည်ဖြစ်သည်။.

Single-shot evaluation။. cohort အတွင်းရှိ case တစ်ခုစီကို တစ်ကြိမ်တည်း အကဲဖြတ်ခဲ့သည်။ sampling temperature နိမ့်သော်လည်း large language models များတွင် output variance သည် အရေးမပါမဟုတ်သည့်အတိုင်းအတာဖြင့် ရှိတတ်သောကြောင့် case တစ်ခုစီအတွက် အကဲဖြတ်မှု ၅ ကြိမ်ပါဝင်သည့် multi-run protocol နှင့် reported variance ကို ထည့်သွင်းခြင်းသည် သဘာဝကျသော နောက်တစ်ဆင့်ဖြစ်သည်—အထူးသဖြင့် trap-case subset တွင်၊ sampling jitter အောက်တွင် တည်ငြိမ်မှုသည် safety claim ၏ အစိတ်အပိုင်းတစ်ခုဖြစ်သောကြောင့် ဖြစ်သည်။.

Single-engine scope။. ဤအစီရင်ခံစာသည် engine တစ်ခုတည်းကို ဖော်ပြထားသည်။ အခြား AI စနစ်များနှင့် နှိုင်းယှဉ်လေ့လာမှုများမှာ ဤနေရာတွင် မပါဝင်နိုင်ပါ။ တူညီသော MIT-licensed harness ကို အသုံးပြု၍ သင့်လျော်သော methodology ဖြင့် သီးခြား independent study အဖြစ် ကျွန်ုပ်တို့ ဆက်လက်လုပ်ဆောင်နိုင်ပါသည်။.

Synthetic data။. 100,000 cases များသည် synthetic cases များဖြစ်ပြီး synthetically generated ဖြစ်သည်။ ရလဒ်များသည် လက်တွေ့ကမ္ဘာ clinical performance သို့ မကူးပြောင်းပါ။ real, consented, externally-sourced data အပေါ် evaluation ပြုလုပ်ရန် သင့်လျော်သော ethical oversight လိုအပ်ပြီး ယင်းသည် ဤ synthetic benchmark ၏ scope အပြင်ဘက်တွင် ပါဝင်သည်။.

ဤကန့်သတ်ချက် လေးခုအပြင်၊ အများဆုံး အကျိုးသက်ရောက်မည့် စီစဉ်ထားသော တိုးချဲ့မှုမှာ jurisdiction တစ်ခုချင်းစီအလိုက် multi-language parity ဖြစ်သည်။ Kantesti AI Engine သည် 75+ ဘာသာစကားများဖြင့် အသုံးပြုသူများကို ဝန်ဆောင်မှုပေးပြီး၊ ဘာသာစကားအလိုက် ခွဲထားသော Second-Update sub-cohorts (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) ကို run လုပ်ခြင်းဖြင့် engine ၏ ပံ့ပိုးထားသော ဘာသာစကားများအကြား output quality ကို တိုင်းတာမည်ဖြစ်သည်။ ဘာသာစကားအလိုက် ခွဲထားသော analysis တစ်ခုစီကို ၎င်း၏ DOI နှင့် harness branch တို့နှင့်အတူ ထုတ်ဝေမည်ဖြစ်သည်။.

100,000 Cases တွင် 99.80% Composite Score ရရှိခဲ့သည့် အတူတူ Engine ကို စမ်းကြည့်ပါ

သင်၏ကိုယ်ပိုင် သွေးစစ်ဆေးမှု ပန်နယ်ကို ဤဘင်ချ်မာ့ခ်တွင် အကဲဖြတ်ထားသည့် တူညီသော ထုတ်လုပ်ရေး endpoint သို့ အပ်လုဒ်လုပ်ပါ။ ကမ္ဘာတစ်ဝန်း အသုံးပြုသူ ၂ သန်းကျော်သည် Kantesti AI Engine ကို အသုံးပြုပြီး 75+ ဘာသာစကားများအတွင်း Biomarker 15,000 ကျော်ကို အဓိပ္ပာယ်ဖတ်ရှုရန် အသုံးပြုကြသည်။.

🔬 အခမဲ့ သရုပ်ပြမှုကို စမ်းကြည့်ပါ

Chrome တိုးချဲ့မှု အက်ပ်စတိုး Google Play

📚 ဤဘင်ချ်မာ့ခ်ကို ကိုးကားရန်

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {A Pre-Registered, Rubric-Based Automated Technical  
                 Benchmark of the Kantesti Blood-Test Interpretation  
                 Engine on 100,000 Synthetic Test Cases  
                 --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). ၁TP6T သွေးစစ်ချက် အဓိပ္ပာယ်ဖော်ခြင်း အင်ဂျင်၏ ၁၀၀,၀၀၀ စံပြ စမ်းသပ်မှု အမှုကိစ္စများအပေါ် ၎င်း၏ နည်းပညာဆိုင်ရာ စံနှုန်းတိုင်းတာမှုကို အကြိုမှတ်ပုံတင်ထားသော၊ Rubric-based အလိုအလျောက် Benchmark တစ်ခု — V11 ဒုတိယ အပ်ဒိတ် (Technical Report V11 Second Update)။ Kantesti Ltd။. https://doi.org/10.6084/m9.figshare.32095435

📖 ပြင်ပနည်းလမ်းဆိုင်ရာ ကိုးကားချက်များ

Mentzer, W. C. (1973). သံဓာတ်ချို့တဲ့ခြင်းကို Thalassaemia Trait မှ ခွဲခြားခြင်း. The Lancet, 301(7808), 882။.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology Systemic Lupus Erythematosus အတွက် အမျိုးအစားခွဲခြားရေး စံသတ်မှတ်ချက်များ. Arthritis & Rheumatology, 71(9), 1400–1412။.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: ကြီးမားသော ဘာသာစကားမော်ဒယ်များအတွက် ဆေးဘက်ဆိုင်ရာ Hallucination စမ်းသပ်မှု. Proceedings of CoNLL 2023။.

🔗 ACL Anthology

99.80%ပေါင်းစပ်ရမှတ် (Composite Score)

100,000ရမှတ်ပေးထားသော Case များ (Cases Scored)

127လွှမ်းခြုံထားသော နိုင်ငံတံဆိပ်များ

0 / 87,412Trap False-Positives

အမေးများသောမေးခွန်းများ

Kantesti AI အင်ဂျင်သည် စမ်းသပ်မှုအတု (synthetic test cases) များအပေါ်တွင် မည်မျှတိကျပါသလဲ။

အကြိုမှတ်ပုံတင်ထားသော rubric တစ်ခုအပေါ်တွင်၊ အကြောင်းအရာ နယ်ပယ် ရှစ်ခုနှင့် နိုင်ငံတံဆိပ် ၁၂၇ ခုကို ဖြတ်သန်းထားသည့် စံပြဖြင့် ထုတ်လုပ်ထားသော စမ်းသပ်မှု အမှုကိစ္စ ၁၀၀,၀၀၀ အပေါ် run လုပ်ရာ (V11 ဒုတိယ အပ်ဒိတ်) အင်ဂျင်သည် composite score ၉၉.၈၀ ရာခိုင်နှုန်းသို့ ရောက်ရှိခဲ့ပြီး၊ စောင့်ကြည့်ထားသည့် trap-case အခွင့်အလမ်း ၈၇,၄၁၂ ခုအတွင်း hyperdiagnosis flags မရှိသလို mean response latency ၁၃.၂၆ စက္ကန့် ရှိခဲ့သည်။ ဤ composite သည် စံပြ input များအပေါ် output conformance ကို တိုင်းတာခြင်းဖြစ်ပြီး ရောဂါရှာဖွေမှု တိကျမှုကို မတိုင်းတာပါ။ မူလ V11 ထုတ်ပြန်မှုတွင် အလားတူ rubric ကို လက်ဖြင့် တည်ဆောက်ထားသော case ၁၅ ခု (composite ၉၉.၁၂၁TP54T) အပေါ် အသုံးပြုခဲ့သည်။ ဒုတိယ အပ်ဒိတ်သည် rubric ကို byte-identical အဖြစ် ထိန်းထားပြီး စံပြ cohort ပိုကြီးသို့ တိုးချဲ့ထားသည်။ အပြည့်အစုံ scorecard ကို Figshare တွင် DOI 10.6084/m9.figshare.32095435 အောက်နှင့် GitHub တွင် MIT licence အောက်တွင် ထုတ်ဝေထားသည်။.

Kantesti AI အင်ဂျင်ကို ဆေးခန်းအတည်ပြုထားပြီးပြီလား?

မဟုတ်ပါ။ အင်ဂျင်ကို အလိုအလျောက်နည်းပညာဆိုင်ရာ ဘင်ချ်မာ့ခ် (ဆေးခန်းအတည်ပြုခြင်း မဟုတ်) ဖြင့် V11 အစောပိုင်း run မတိုင်မီ ရင်းမြစ်ကုဒ်ထဲတွင် အေးခဲထားသည့် ရူဘရစ်တစ်ခုကို ဆန့်ကျင်ပြီး အကဲဖြတ်ထားသည်။ V11 ဒုတိယအပ်ဒိတ်အတွက်လည်း byte-identical အဖြစ် ထိန်းထားပြီး၊ သွေးစစ်ကိစ္စ အတု 100,000 ခုကို hematology၊ endocrinology၊ metabolic medicine၊ hepatology၊ nephrology၊ cardiology၊ rheumatology နှင့် internal medicine အထူးပြုများအကြားတွင် နိုင်ငံတံဆိပ် 127 ခုမှ ရယူထားသည်။ ဆေးဘက်ဆိုင်ရာ ကြီးကြပ်မှုကို Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) မှ ပေးအပ်ခဲ့ပြီး၊ Kantesti AI တွင် board-certified clinical hematologist နှင့် Chief Medical Officer ဖြစ်သည်။.

hyperdiagnosis trap case ဆိုတာဘာလဲ?

hyperdiagnosis trap case ဆိုတာ AI အင်ဂျင်တွေမှာ over-diagnosis အပြုအမူကို အထူးသဖြင့် ဖော်ထုတ်ဖို့ ဒီဇိုင်းထုတ်ထားတဲ့ ဆေးခန်းအခြေအနေတစ်ခုပါ။ V11 အစောပိုင်း benchmark မှာ methodological proof-of-concept အဖြစ် ဒီလို case နှစ်ခုကို အသုံးပြုခဲ့ပါတယ်—(၁) Gilbert's syndrome နဲ့ ကိုက်ညီတဲ့ isolated indirect hyperbilirubinaemia (မှန်ကန်တဲ့ အဓိပ္ပာယ်ဖတ်ချက်က hepatitis သို့မဟုတ် haemolysis မဟုတ်ဘဲ benign UGT1A1 polymorphism ဖြစ်ပါတယ်) နဲ့ (၂) အရွယ်ရောက်ပြီးသူ screening panel တစ်ခုလုံးလုံးလုံး ပုံမှန်ဖြစ်နေခြင်း (မှန်ကန်တဲ့ output က borderline pathology ကို “ထုတ်လုပ်” ပြသတာမဟုတ်ဘဲ reassurance ပေးခြင်းဖြစ်ပါတယ်)။ V11 ဒုတိယအပ်ဒိတ်က ဒီ trap-case methodology ကို case 8,723 ပါဝင်တဲ့ သီးသန့် subset တစ်ခုအဖြစ် ချဲ့ထွင်ပြီး 87,412 ခု monitored hyperdiagnosis flag အခွင့်အလမ်းထွက်ရှိစေခဲ့ကာ—အင်ဂျင်ရဲ့ false-positive rate ကတော့ သုညအဖြစ် ဆက်လက်ရှိနေပါတယ်။.

Kantesti AI အင်ဂျင် အကဲဖြတ်မှုသည် ပြန်လည်ထုတ်လုပ်နိုင်ပါသလား။

full evaluation harness ကို MIT လိုင်စင်အောက်မှာ single self-contained Python module တစ်ခုအဖြစ် ထုတ်ပြန်ထားပါတယ်။ V11 အစောပိုင်း run အတွက် Kantesti API credential pair နဲ့ Python 3.10 သို့မဟုတ် နောက်ပိုင်းသာ လိုအပ်ပါတယ်။ V11 ဒုတိယအပ်ဒိတ်က parameterised, read-only SQL case loader တစ်ခု ထပ်တိုးပြီး Kantesti clinical-repository credentials လိုအပ်ပါတယ် (a bench_reader identifying tables တွေကို ခွဲခြားသတ်မှတ်ရာမှာ အခွင့်အရေးမရှိတဲ့ role)။ ကုဒ်၊ case loader SQL၊ rubric (release များအကြား byte-identical) နဲ့ V11 အစောပိုင်းနဲ့ ဒုတိယအပ်ဒိတ် reference run နှစ်ခုစလုံးမှ stratified random sample အဖြစ် raw engine responses တွေကို github.com/emirhanai/kantesti-blood-test-benchmark မှာ ရနိုင်ပြီး Figshare၊ ResearchGate နဲ့ Academia.edu မှာလည်း mirror လုပ်ထားပါတယ်။.

Kantesti AI အင်ဂျင်သည် သံဓာတ်ချို့တဲ့ခြင်းကို beta-thalassaemia trait မှ မည်သို့ ခွဲခြားသတ်မှတ်ပါသလဲ?

အင်ဂျင်က Mentzer index ကို အသုံးချပါတယ်။ Mentzer index ကို mean corpuscular volume ကို red blood cell count နဲ့ ပိုင်းပြီး တွက်ချက်ပါတယ်။ Mentzer index 13 ထက်မြင့်ရင် iron deficiency anaemia ကို ထောက်ခံပြီး 13 ထက်နည်းရင် beta-thalassaemia trait ကို ထောက်ခံပါတယ်။ V11 အစောပိုင်း benchmark မှာ ဒီတင်ပြချက်နှစ်ခုလုံးကို explicit Mentzer index တွက်ချက်မှုနဲ့အတူ မှန်ကန်စွာ ခွဲခြားသတ်မှတ်ခဲ့ပြီး ferritin၊ RDW နဲ့ HbA2 context တွေက ထောက်ပံ့ပေးထားပါတယ်။ V11 ဒုတိယအပ်ဒိတ် 100,000-case cohort အတွင်းမှာတော့ population scale အဆင့်အထိ အတူတူ differential behaviour ကို ထိန်းသိမ်းထားပါတယ်။.

အခြေခံစံနှုန်း (benchmark) မူရင်းဒေတာနှင့် အရင်းအမြစ်ကုဒ်ကို ဘယ်နေရာမှာ ရှာတွေ့နိုင်ပါသလဲ။

နည်းပညာဆိုင်ရာ အစီရင်ခံစာကို Figshare မှာ DOI 10.6084/m9.figshare.32095435 အောက်မှာ တင်ထားပြီး (V11 အစောပိုင်း release နဲ့ V11 ဒုတိယအပ်ဒိတ် နှစ်ခုလုံးကို လွှမ်းခြုံ) ResearchGate publication 404175463 နဲ့ Academia.edu paper 165956808 မှာလည်း mirror လုပ်ထားပါတယ်—နှစ်ခုစလုံးကို V11 ဒုတိယအပ်ဒိတ် ခေါင်းစဉ်နဲ့ 100,000-case ရလဒ်များဖြင့် အပ်ဒိတ်လုပ်ထားပြီး—MIT-licensed Python harness နဲ့ reference run ရလဒ်အားလုံးက github.com/emirhanai/kantesti-blood-test-benchmark မှာ ရှိပါတယ်။ ပလက်ဖောင်းလေးခု mirror network က ရေရှည်ရရှိနိုင်မှုနဲ့ ကိုးကားအသုံးပြုနိုင်မှုကို လိုက်လျောညီထွေဖြစ်စေပါတယ်။.

AI ဆေးဘက်ဆိုင်ရာ benchmark တွေအတွက် pre-registration က ဘာကြောင့် အရေးကြီးတာလဲ?

Pre-registration က post-hoc rubric tuning ကို တားဆီးပါတယ်။ ဒါက ကုမ္ပဏီက လုပ်ဆောင်တဲ့ benchmark တွေက သူတို့ရဲ့ နံပါတ်တွေကို တိုးမြှင့်ဖို့ အသုံးများဆုံး နည်းလမ်းတစ်ခုပါ။ rubric ကို အင်ဂျင်ကို မခေါ်မီ အရင်းအမြစ်ကုဒ်ထဲမှာ ကတိပြုထားပြီး harness ကို အများပြည်သူအတွက် ထုတ်ပြန်လိုက်တဲ့အခါ rubric author ရဲ့ ရက်စွဲတွေကို version control မှာ စစ်ဆေးနိုင်ပါတယ်။ ထို့အပြင် အင်ဂျင်ရလဒ်တွေက scoring criteria ကို ပုံဖော်ထားနိုင်ခြေ မရှိတော့ပါဘူး။.

ဒီ benchmark မှာ အခြား AI အင်ဂျင်တွေနဲ့ နှိုင်းယှဉ်မှုတွေ ပါဝင်ပါသလား?

မဟုတ်ပါ။ V11 အစီရင်ခံစာ—အစောပိုင်း release နဲ့ ဒုတိယအပ်ဒိတ် နှစ်ခုလုံး—ကို မတူညီတဲ့ အခြားသော စီးပွားရေးသုံး စနစ်တွေနဲ့ ယှဉ်ပြိုင်တင်ပြမယ့်အစား သတ်မှတ်ထားတဲ့ fixed rubric တစ်ခုနဲ့ တစ်ခုတည်းသော အင်ဂျင်ကို ရည်ရွယ်ချက်ရှိရှိ ဖော်ပြထားပါတယ်။ harness ကို MIT လိုင်စင်အောက်မှာ open source အဖြစ် ထုတ်ထားပြီး (အခု SQL case loader ပါဝင်ပါတယ်) ဆိုတော့ လွတ်လပ်သော သုတေသီတွေက သူတို့ရွေးချယ်တဲ့ မည်သည့် အင်ဂျင်ကိုမဆို အတူတူ rubric နဲ့ case loader နဲ့ ယှဉ်အကဲဖြတ်ပြီး သူတို့ရဲ့ ရလဒ်တွေကို ထုတ်ဝေနိုင်ပါတယ်။.

လူနာ case တွေက အမှန်တကယ်လား ဒါမှမဟုတ် synthetic လား?

အမှုကိစ္စအားလုံးသည် စံပြဖြင့် ထုတ်လုပ်ထားခြင်းဖြစ်သည် — V11 အစပိုင်း ထုတ်ပြန်မှုတွင် လက်ဖြင့် တည်ဆောက်ထားသော case ၁၅ ခုနှင့် ဒုတိယ အပ်ဒိတ်တွင် ၁၀၀,၀၀၀ ခု။ ၎င်းတို့သည် စံပြ case များမဟုတ်ပါဟု မဆိုလိုပါ — စံပြဒေတာ မရှိ၊ သဘောတူညီချက် လုပ်ငန်းစဉ် မရှိ၊ de-identification မပါဝင်ပါ၊ အကြောင်းမှာ cohort အတွင်းတွင် ကိုယ်ရေးကိုယ်တာဒေတာ မရှိသောကြောင့် ဖြစ်သည်။ ထုတ်ဝေထားသည့် harness၊ နည်းပညာဆိုင်ရာ အစီရင်ခံစာ၊ သို့မဟုတ် ထုတ်လွှတ်ထားသည့် dataset များတွင် ကိုယ်ရေးကိုယ်တာဒေတာ မပါဝင်ပါ။.

⚕️ ဆေးဘက်ဆိုင်ရာ သတိပေးချက် & အကျိုးစီးပွား ပဋိပက္ခ

ဤ benchmark အစီရင်ခံစာသည် သုတေသနနှင့် နည်းလမ်းဆိုင်ရာ ပွင့်လင်းမြင်သာမှု ရည်ရွယ်ချက်များအတွက် ဖြစ်သည်။ ၎င်းသည် ဆေးဘက်ဆိုင်ရာ အကြံဉာဏ် မဟုတ်ပါ၊ ရောဂါရှာဖွေခြင်း မဟုတ်ပါ၊ ပရော်ဖက်ရှင်နယ် ဆေးဘက်ဆိုင်ရာ စောင့်ရှောက်မှုအတွက် အစားထိုးခြင်း မဟုတ်ပါ။ ဤနေရာရှိ ရလဒ်တစ်စုံတစ်ရာကို ဆရာဝန်နှင့် တွေ့ခြင်းကို နှောင့်နှေးစေရန် သို့မဟုတ် ရှောင်ရှားရန် အသုံးမပြုသင့်ပါ။ ရောဂါရှာဖွေခြင်းနှင့် ကုသမှု ဆုံးဖြတ်ချက်များအတွက် အရည်အချင်းပြည့်မီသော ကျန်းမာရေးစောင့်ရှောက်မှုပေးသူနှင့် အမြဲတမ်း တိုင်ပင်ပါ။ ၎င်းသည် ကုမ္ပဏီ၏ ကိုယ်ပိုင် engine ၏ ကိုယ်တိုင်လုပ်ဆောင်သည့် အတွင်းပိုင်း benchmark ဖြစ်ပြီး လွတ်လပ်စွာ အတည်ပြုခြင်း သို့မဟုတ် peer-reviewed ပြုလုပ်ခြင်း မရှိသေးပါ။ ပေါင်းစပ်ရမှတ် (composite score) သည် သတ်မှတ်ထားသော စံသတ်မှတ်ချက်တစ်ခု (အစီရင်ခံစာဖွဲ့စည်းပုံ၊ keyword နှင့် scoring-system recall၊ နှင့် latency) နှင့် ကိုက်ညီမှုကို တိုင်းတာခြင်းဖြစ်ပြီး လက်တွေ့ကမ္ဘာတွင် ရောဂါရှာဖွေတိကျမှု သို့မဟုတ် ဆေးဘက်ဆိုင်ရာ ဘေးကင်းမှုကို တိုင်းတာခြင်း မဟုတ်ပါ။ စာရေးသူနှစ်ဦးစလုံးသည် Kantesti Ltd တွင် အလုပ်လုပ်နေပြီး ရှယ်ယာပိုင်ဆိုင်မှု (equity) ရှိကြပြီး၊ အကဲဖြတ်နေသည့် engine သည် အလားတူ အဖွဲ့အစည်း၏ စီးပွားဖြစ် ထုတ်ကုန်တစ်ခုဖြစ်သည်။ အကျိုးစီးပွား ပဋိပက္ခကို source code တွင် rubric ကို ကြိုတင်မှတ်ပုံတင်ခြင်း (pre-registering)၊ MIT licence အောက်တွင် harness ကို ထုတ်ပြန်ခြင်း၊ နှင့် raw engine responses များ၏ stratified random sample ကို ထုတ်ဝေခြင်းတို့ဖြင့် လျော့ပါးစေထားသည်။.

E-E-A-T ယုံကြည်မှု အချက်ပြများ

⭐

အတွေ့အကြုံ

case panel ရွေးချယ်မှုကို ကြီးကြပ်တဲ့ ဆေးခန်းသွေးရောဂါနှင့် ဓာတ်ခွဲခန်းဆေးပညာ လုပ်ငန်းအတွေ့အကြုံ ၁၅+ နှစ်။.

📋

ကျွမ်းကျင်မှု

pre-registered rubric ဒီဇိုင်း—hyperdiagnosis penalties ကို အတိအကျ ထည့်သွင်းထားပြီး Mentzer၊ FIB-4၊ EULAR/ACR၊ KDIGO စတဲ့ အသိအမှတ်ပြု ဆေးခန်းအမှတ်ပေးစနစ်များ ပါဝင်ပါတယ်။.

👤

အခွင့်အာဏာရှိခြင်း

အဓိကစာရေးသူ Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321)။ အကောင်အထည်ဖော်မှုကို Julian Emirhan Bulut, Kantesti Ltd CEO က လုပ်ဆောင်ပါတယ်။.

🛡️

ယုံကြည်စိတ်ချရမှု

MIT-licensed ပြန်လည်ထုတ်လုပ်နိုင်တဲ့ harness၊ raw engine responses များကို ထုတ်ပြန်ထားခြင်း၊ အကျိုးစီးပွား ပဋိပက္ခကို ပွင့်လင်းစွာ ထုတ်ဖော်ခြင်း၊ ပလက်ဖောင်းလေးခုလုံးပါ သုတေသန mirror network။.

🏢 ကန်တက်စတီ လီမိတက် အင်္ဂလန်နှင့် ဝေလစ်တွင် မှတ်ပုံတင်ထားသည် · ကုမ္ပဏီနံပါတ်။. 17090423 လန်ဒန်၊ ယူနိုက်တက်ကင်းဒမ်း · kantesti.net