តើការវាយតម្លៃម៉ាស៊ីន AI Kantesti អាចធ្វើឡើងវិញបានដោយអាចទទួលលទ្ធផលដូចគ្នាដែរឬទេ?

ឧបករណ៍សាកល្បងពេញលេញត្រូវបានចេញផ្សាយក្រោមអាជ្ញាប័ណ្ណ MIT ជាម៉ូឌុល Python តែមួយដែលមានលក្ខណៈពេញលេញក្នុងខ្លួន។ ការចម្លងត្រូវការតែគូសម្រង់អត្តសញ្ញាណ API Kantesti និង Python 3.10 ឬក្រោយ។ កូដ និយមន័យករណី និងរាល់ការឆ្លើយតបម៉ាស៊ីនឆៅពីការរត់យោងខែមេសា 2026 មាននៅលើ GitHub និង Figshare។.

ការធ្វើតេស្តឈាមដោយ AI Benchmark Kantesti — ការបញ្ជាក់ផ្នែកព្យាបាល

សុពលភាពគ្លីនិក ការបង្កើតស្តង់ដារជាមុន (Pre-Registered Benchmark) V11 — ខែមេសា 2026 អាជ្ញាប័ណ្ណ MIT អាចផ្ទៀងផ្ទាត់ដោយសហការី (Peer-Verifiable)

ម៉ាស៊ីន AI Kantesti — សន្ទស្សន៍ពិនិត្យឈាម: ការធ្វើសុពលភាពផ្នែកព្យាបាលឆ្លងកាត់ឯកទេសវេជ្ជសាស្ត្រចំនួនប្រាំពីរ

ការវាយតម្លៃគ្លីនិកឯករាជ្យដែលបានចុះបញ្ជីជាមុន សម្រាប់ម៉ាស៊ីន AI Kantesti លើករណីពិនិត្យឈាមដែលបានធ្វើឲ្យអនាមិក។ កម្រងវិនិច្ឆ័យ (rubric) ត្រូវបានបង្កកនៅក្នុងកូដប្រភព មុនពេលហៅម៉ាស៊ីនលើកដំបូង ការធ្វើតេស្តសម្របសម្រួល (evaluation harness) មានអាជ្ញាប័ណ្ណ MIT និងរាល់ការឆ្លើយតបដើម (raw response) ត្រូវបានបោះពុម្ពផ្សាយ។.

📖 ~14 នាទី 📅 ថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 បានបោះពុម្ព៖ ថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 🩺 បានពិនិត្យផ្នែកវេជ្ជសាស្ត្រដោយ៖ ថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 ✅ Rubric បានចុះបញ្ជីជាមុន 🔓 កូដ និងទិន្នន័យបើកចំហ

ការសិក្សាវាយតម្លៃគ្លីនិកនេះ ត្រូវបានដឹកនាំដោយ លោកវេជ្ជបណ្ឌិត Thomas Klein, MD, ប្រធានវេជ្ជបណ្ឌិតផ្នែកវេជ្ជសាស្ត្រ (Chief Medical Officer) នៅ Kantesti AI រួមសហការជាមួយ Julian Emirhan Bulut, វិស្វករ AI ជាន់ខ្ពស់ និងជានាយកប្រតិបត្តិ (CEO) នៃ Kantesti Ltd។ វិធីសាស្ត្រ និង rubric ត្រូវបានពិនិត្យដោយ ក្រុមប្រឹក្សាប្រឹក្សាវេជ្ជសាស្ត្រ Kantesti AI.

អ្នកនិពន្ធនាំមុខ & ការត្រួតពិនិត្យផ្នែកគ្លីនិក

ថូម៉ាស គ្លីន, MD

ប្រធានផ្នែកវេជ្ជសាស្ត្រ, Kantesti AI

Dr. Thomas Klein គឺជាគ្រូពេទ្យឯកទេសជំនាញឈាម (clinical hematologist) ដែលមានវិញ្ញាបនបត្រត្រឹមត្រូវ និងជាវេជ្ជបណ្ឌិតផ្នែកជំងឺខាងក្នុង (internist) មានបទពិសោធន៍ជាង 15 ឆ្នាំក្នុងវិស័យវេជ្ជសាស្ត្រមន្ទីរពិសោធន៍។ ក្នុងតួនាទីជា Chief Medical Officer នៅ Kantesti AI លោកបានជ្រើសរើសក្រុមករណី (case panel) សម្រាប់ benchmark នេះ បានពិនិត្យរាល់ការពិតគោលដៅនៃការធ្វើរោគវិនិច្ឆ័យ (diagnostic ground truths) និងបានអនុម័ត rubric ដែលបានចុះបញ្ជីជាមុន មុនពេលហៅម៉ាស៊ីន AI លើកដំបូង។.

ORCID 0009-0009-1490-1321 ច្រកស្រាវជ្រាវ Google Scholar

អ្នកនិពន្ធរួម & ការអនុវត្ត

Julian Emirhan Bulut

វិស្វករ AI ជាន់ខ្ពស់ & CEO, Kantesti Ltd

Julian Emirhan Bulut គឺជាស្ថាបនិក និង CEO នៃ Kantesti Ltd។ លោកបានរចនា និងអនុវត្ត evaluation harness បានធ្វើការរួមបញ្ចូល API បានធ្វើការរត់ benchmark នៅខែមេសា 2026 និងបានរៀបចំការបូកសរុបផ្នែកស្ថិតិ (statistical aggregation)។ ជាស្ថាបនិកនៃវេទិកាតាំងពីឆ្នាំ 2019។.

GitHub អំពី Kantesti

⚡ សេចក្តីសង្ខេបរហ័ស V11 — ថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026

ពិន្ទុសមាសធាតុ 99.12% លើករណីពិនិត្យឈាមពិតដែលបានធ្វើឲ្យអនាមិកចំនួន 15 ករណី ក្នុងឯកទេសវេជ្ជសាស្ត្រចំនួនប្រាំពីរ។.
គ្មានកំហុសវិជ្ជមានវិភាគលើស (hyperdiagnosis) លើករណី trap ទាំងពីរ (រោគសញ្ញា Gilbert និងការពិនិត្យស្គ្រីនមនុស្សពេញវ័យដែលធម្មតាទាំងស្រុង)។.
Rubric ដែលបានចុះបញ្ជីជាមុន ត្រូវបានបង្កកក្នុងកូដប្រភព មុនការហៅម៉ាស៊ីនលើកដំបូង — មិនអាចធ្វើការកែសម្រួលក្រោយពេលពិនិត្យ (post-hoc) បានទេ។.
ការអនុវត្ត Mentzer index ត្រឹមត្រូវ ដើម្បីបែងចែកជំងឺស្លេកស្លាំងដោយកង្វះជាតិដែក (iron deficiency anaemia) ពី beta-thalassaemia minor។.
គោលដៅសម្រាប់ការប្រើប្រាស់ក្នុងផលិតកម្មតែប៉ុណ្ណោះ — គ្មានការបញ្ជូនផ្លូវពិសេស (privileged routing) ត្រូវបានវាយតម្លៃដូចដែលអតិថិជនដែលបង់ប្រាក់នឹងចូលប្រើវា។.
មធ្យម latency 20.17 វិនាទី ពីដើមដល់ចប់ ដោយ 12 ក្នុងចំណោម 15 ករណីស្ថិតក្រោមគោលដៅផ្លូវសំខាន់ 20 វិនាទី។.
ឧបករណ៍ (harness) ដែលអនុញ្ញាតក្រោម MIT បានចេញផ្សាយនៅលើ GitHub ជាមួយរាល់ការឆ្លើយតបឆៅរបស់ម៉ាស៊ីន — គាំទ្រការធ្វើឡើងវិញដោយឯករាជ្យ។.
DOI របស់ Figshare: 10.6084/m9.figshare.32095435 · បានឆ្លុះចម្លងនៅ ResearchGate, Academia.edu, GitHub។.

ហេតុអ្វីបានជា benchmark នេះមាន និងវាតេស្តអ្វី

ការបកស្រាយលទ្ធផលឈាមដោយ AI ត្រូវបានប្រើប្រាស់កាន់តែច្រើនឡើងក្នុងដំណើរការការងារសម្រាប់អ្នកប្រើប្រាស់ និងផ្នែកព្យាបាល ប៉ុន្តែស៊ុមវាយតម្លៃដែលអាចធ្វើឡើងវិញបាន និងត្រូវបានរៀបចំសម្រាប់វិស័យវេជ្ជសាស្ត្រមន្ទីរពិសោធន៍នៅតែមានកម្រិត។ សំណួរដែលសំខាន់បំផុតក្នុងបរិបទនេះ មិនមែនជាសំណួរដែលគ្របដណ្តប់ដោយស្តង់ដារសំណួរ-ចម្លើយវេជ្ជសាស្ត្រទូទៅនោះទេ៖ តើម៉ាស៊ីនអាចបំបែកកង្វះជាតិដែកពីលក្ខណៈ thalassaemia trait បានទេ នៅពេលដែល mean corpuscular volume ដូចគ្នា? តើវាធ្វើឲ្យមានការវិនិច្ឆ័យលើស Gilbert's syndrome ជា hepatitis ដែរឬទេ? ហើយតើវាបង្កើតរោគសាស្ត្រនៅក្នុងបន្ទះស្គ្រីនដែលធម្មតាទាំងស្រុងដែរឬទេ?

ការធ្វើតេស្តឈាមជាបន្ទះតែមួយជាទូទៅមានសញ្ញាគ្រប់គ្រាន់ដើម្បីគាំទ្រការបកស្រាយជាច្រើនដែលអាចប្រកួតប្រជែងគ្នា ហើយភារកិច្ចរបស់គ្រូពេទ្យអ្នកបកស្រាយគឺត្រូវថ្លឹងថ្លែងការបកស្រាយទាំងនោះឲ្យប្រៀបធៀបគ្នា មិនមែនទៅយកចម្លើយតាមសៀវភៅសិក្សាទេ។ ម៉ាស៊ីនដែលធ្វើបានល្អលើករណីតាមសៀវភៅសិក្សា នៅតែអាចបរាជ័យលើករណីដែលសំខាន់បំផុតបាន៖ អន្ទាក់នៃការវិនិច្ឆ័យខុស (differential-diagnosis pitfalls) វ៉ារ្យង់ដែលមិនបង្កគ្រោះថ្នាក់ តែមើលទៅគួរឲ្យព្រួយបារម្ភពេលនៅឯកោ និងបន្ទះដែលធម្មតាទាំងស្រុង ដែលល្បួងជំនួយការដែលមានទំនុកចិត្តឲ្យបង្កើតជំងឺក្លែងក្លាយ។.

ការបenchmark នេះត្រូវបានបង្កើតឡើងជុំវិញរបៀបបរាជ័យទាំងនោះ។ ករណីទាំង ១៥ ត្រូវបានជ្រើសរើសសម្រាប់លក្ខណៈសម្បត្តិវិនិច្ឆ័យជាក់លាក់មួយៗ៖ ភាពមីក្រូស៊ីតូស៊ីសដោយខ្វះជាតិដែក ដែលត្រូវរក្សាឲ្យដាច់ពីលក្ខណៈសម្បត្តិ beta-thalassaemia trait ដែលមាន mean corpuscular volume ដូចគ្នា, ការបង្ហាញរបស់ជំងឺ Gilbert's syndrome ដែលភាពមិនប្រក្រតីតែមួយគត់គឺ indirect hyperbilirubinaemia ដែលនៅឯកោ, និងបន្ទះ screening មានប៉ារ៉ាម៉ែត្រ ១៥ ដែល analyte ទាំងអស់ស្ថិតនៅក្នុងជួរយោងរបស់វា។ Rubric ផ្តល់ពិន្ទុដល់ម៉ាស៊ីនដែលអានករណីនីមួយៗតាមលក្ខខណ្ឌផ្ទាល់របស់វា ហើយដាក់ទណ្ឌកម្មម៉ាស៊ីនដែលទៅរកការវិនិច្ឆ័យដោយមានទំនុកចិត្ត នៅពេលដែលមិនមានការវិនិច្ឆ័យបែបនោះត្រូវបានគាំទ្រ។.

ក្នុងនាមជា Thomas Klein, MD ខ្ញុំបានជ្រើសរើសបន្ទះករណីនេះ ព្រោះនេះជាលំនាំដែលខ្ញុំឃើញជំនួយការផ្នែកវេជ្ជសាស្ត្រមន្ទីរពិសោធន៍ធ្វើខុសញឹកញាប់បំផុត។. របៀបបរាជ័យដែលចំណាយថ្លៃ មិនមែនជា "ខកខានជំងឺកម្រមួយ" ទេ — វាគឺការបង្កើតជំងឺធម្មតា (routine pathology) នៅក្នុងអ្នកជំងឺដែលពួកគេមិនមានវា។. របស់យើង។ សុពលភាពវេជ្ជសាស្រ្ត hub ពិពណ៌នាក្របខណ្ឌទូលំទូលាយ; ទំព័រនេះពិពណ៌នាអំពីលទ្ធផលដែលបានអនុវត្តលើម៉ាស៊ីន V11។.

ការរត់យោងចុងក្រោយ — V11 (ខែមេសា 2026)

ការធ្វើតេស្តយោង (reference run) ប្រចាំខែមេសា ឆ្នាំ ២០២៦ របស់ Kantesti AI Engine V11 បានបង្កើតពិន្ទុរួម (composite score) នៃ 99.12% លើ rubric ករណី ១៥ ដែលបានចុះបញ្ជីជាមុន។ ករណីដែលជាប់អន្ទាក់ hyperdiagnosis ទាំងពីរបានពិន្ទុដល់កម្រិតកំពូល (ceiling)។ Mentzer index ត្រូវបានអនុវត្តត្រឹមត្រូវលើ differential រវាងការខ្វះជាតិដែក និង thalassaemia។.

ពិន្ទុរួម 99.12% ១៥ ក្នុងចំណោម ១៥ ករណី បានពិន្ទុ

0.998 ពិន្ទុរចនាសម្ព័ន្ធ (Structural score)

0.998 ពិន្ទុផ្នែកព្យាបាល (Clinical score)

20.17 វិនាទី មធ្យមនៃពេលយឺត (Mean latency)

0 / 13 អន្ទាក់ false-positives

រូបមន្តពិន្ទុរួមផ្សំឡើងពីសមាសធាតុ ៣៖ ភាពស្របតាមរចនាសម្ព័ន្ធ (structural conformance) ជាមួយនឹងផ្នែករបាយការណ៍ដែលត្រូវមានចាំបាច់ ៧ និងអនុផ្នែកដែលត្រូវមានចាំបាច់ ១៦, ភាពត្រឹមត្រូវផ្នែកព្យាបាល (clinical accuracy) វាស់វែងជា keyword recall បូកនឹង scoring-system recall បូកនឹងការត្រួតពិនិត្យភាពត្រឹមត្រូវនៃ probability-distribution, និង ពេលយឺតនៃការឆ្លើយតប (response latency) ធៀបនឹងគោលដៅ primary service-level ២០ វិនាទី។ ការបំបែកពិតប្រាកដត្រូវបានបង្ហាញក្នុងរូបមន្ត rubric ខាងក្រោម។.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

ចំណុះនៅសល់ 0.88 ភាគរយនៃ headroom ត្រូវបានបំបែកស្ទើរតែទាំងស្រុងទៅជាការបាត់បង់ដោយសារភាពយឺតយ៉ាវ (latency loss) — ការហៅបម្រុង Phase 2 ចំនួនបីលើក ដែលនីមួយៗមានសមាសធាតុ (composite) ប្រហែល -0.05 បានរួមចំណែកប្រហែល 0.60 នៃកង្វះ 0.88 ភាគរយ — មិនមែនទៅក្នុងខ្លឹមសារព្យាបាលទេ។ ម៉ាស៊ីនមិនបានខកខានការធ្វើរោគវិនិច្ឆ័យត្រឹមត្រូវលើករណីទាំង 15 នោះទេ; នៅពេលដែលវាមិនគ្រប់គ្រាន់ វាធ្វើឲ្យយឺតជាងគោលដៅ 20 វិនាទីសម្រាប់ផ្លូវសំខាន់ (primary-path) បន្តិចបន្តួច ក្នុងចំនួនតិចតួចនៃការហៅបម្រុង។.

ករណីចំនួនដប់ប្រាំ (15) លើឯកទេសវេជ្ជសាស្ត្រចំនួនប្រាំពីរ (7)

ក្រុមពិនិត្យករណី (case panel) គ្របដណ្តប់លើជំនាញចំនួនប្រាំពីរ — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — រួមទាំងករណី “hyperdiagnosis trap” ដែលបានកំណត់ជាពិសេសចំនួនពីរ។ ករណីនីមួយៗជាកំណត់ត្រាអ្នកជំងឺពិតដែលបានធ្វើឲ្យអនាមិក (anonymised) ដកចេញពីឃ្លាំងទិន្នន័យព្យាបាល Kantesti (clinical data repository) ក្រោមការយល់ព្រមដោយបានជូនដំណឹងជាលាយលក្ខណ៍អក្សរ (written informed consent)។.

ការធ្វើឲ្យមិនអាចកំណត់អត្តសញ្ញាណបាន (de-identification) ត្រូវបានអនុវត្តតាមវិធីសាស្ត្រ Safe Harbor: អត្តសញ្ញាណផ្ទាល់ទាំងអស់ត្រូវបានដកចេញ ឬជំនួស ហើយកំណត់ត្រានីមួយៗត្រូវបានផ្តល់លេខកូដករណីក្នុងស្តង់ដារសម្រាប់ការវាស់វែង (benchmark-internal case code) ក្នុងទម្រង់ BT-NNN-LABEL។ ដំណើរការត្រូវបានអនុវត្តតាម GDPR មាត្រា 9(2)(j) សម្រាប់ការស្រាវជ្រាវវិទ្យាសាស្ត្រ ដោយមានការការពារសមស្រប និងបទប្បញ្ញត្តិ UK GDPR ដែលស្មើគ្នា។ មិនមានព័ត៌មានដែលអាចកំណត់អត្តសញ្ញាណបុគ្គលបាន (personally identifying information) ទេ នៅគ្រប់ទីកន្លែងក្នុងឧបករណ៍សាកល្បងដែលបានបោះពុម្ព (published harness) របាយការណ៍បច្ចេកទេស (technical report) ឬសំណុំទិន្នន័យដែលបានចេញផ្សាយ (released datasets)។.

Hematology (3) BT-001, BT-006, BT-007 ភាពស្លេកស្លាំងដោយខ្វះជាតិដែក (Iron deficiency anaemia) · កង្វះ B12 (B12 deficiency) · Beta-thalassaemia minor

Endocrinology (3) BT-002, BT-008, BT-012 ជំងឺ Hashimoto's thyroiditis · PCOS ជាមួយនឹងភាពធន់នឹងអាំងស៊ុយលីន · កង្វះវីតាមីន D ធ្ងន់ធ្ងរ

Metabolic (2) BT-003, BT-013 T2DM ជាមួយនឹងរោគសញ្ញាមេតាបូលីក · Hyperuricaemia ជាមួយនឹងហានិភ័យហ្គោត (gout)

Hepatology (2) BT-004, BT-009 NAFLD / NASH · ជំងឺរលាកថ្លើមវីរុសស្រួចស្រាវ

Nephrology · Cardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD ដំណាក់កាលទី 3 · ជំងឺខ្លាញ់ក្នុងឈាមដែលបង្កឲ្យមានជំងឺសរសៃឈាម (atherogenic dyslipidaemia) · ជំងឺលុយពីសប្រព័ន្ធ (systemic lupus erythematosus)

Trap cases (2) BT-014, BT-015 Gilbert's syndrome (hyperbilirubinaemia ដោយប្រយោលតែមួយមុខ) · បន្ទះពិនិត្យមនុស្សពេញវ័យដែលធម្មតាទាំងស្រុង

ហេតុអ្វីបានជាការចែកចាយជាក់លាក់នេះ

ផ្នែកឈាមវិទ្យាទទួលបាន ៣ ករណី ព្រោះថា ការបែងចែកប្រភេទកោសិកាតូច (microcytic differentials) និងការបែងចែកប្រភេទកោសិកាធំ (macrocytic differentials) គឺជាអន្ទាក់ដែលមានបរិមាណខ្ពស់បំផុតក្នុងការអនុវត្តមន្ទីរពិសោធន៍ក្នុងពិភពពិត។ ផ្នែកអរម៉ូនវិទ្យាទទួលបាន ៣ ករណី ព្រោះការបង្ហាញរបស់ Hashimoto's, PCOS និងកង្វះវីតាមីន D ប្រើរូបរាងរោគវិនិច្ឆ័យខុសៗគ្នា (ជំរុញដោយអង្គបដិប្រាណ, ជំរុញដោយសមាមាត្រអ័រម៉ូន, ជំរុញដោយសញ្ញាសម្គាល់តែមួយ)។ ផ្នែកឯកទេសដែលមានតែមួយករណីនៅតែមានន័យ ព្រោះ CKD, ហានិភ័យ ASCVD និង SLE នីមួយៗមានប្រព័ន្ធពិន្ទុរៀងៗខ្លួន ដែលម៉ាស៊ីនគួរតែហៅប្រើ (KDIGO staging, ហានិភ័យ 10 ឆ្នាំរបស់ ASCVD, និងលក្ខណៈវិនិច្ឆ័យ 2019 EULAR/ACR សម្រាប់ SLE រៀងៗខ្លួន)។.

ការពន្យល់អំពី rubric ដែលបានចុះបញ្ជីជាមុន

ការចុះឈ្មោះជាមុន (pre-registration) គឺជាជម្រើសវិធីសាស្ត្រដ៏សំខាន់បំផុតក្នុងការប្រកួតស្តង់ដារនេះ។ រាល់ការធ្វើរោគវិនិច្ឆ័យដែលរំពឹងទុក រាល់ប្រព័ន្ធពិន្ទុគ្លីនិក និងរាល់ផ្នែករបាយការណ៍ ត្រូវបានប្តេជ្ញាទៅនឹងកូដប្រភព មុនពេលម៉ាស៊ីនត្រូវបានហៅប្រើ. ។ ដូច្នេះ ការកែសម្រួលក្រោយ (post-hoc) នៃ rubric ដើម្បីឲ្យលំអៀងទៅម៉ាស៊ីន គឺមិនអាចធ្វើបានទេ។.

សមាសធាតុ ៣ ផ្នែក បង្កើតជាពិន្ទុរួម។ សមាសធាតុរចនាសម្ព័ន្ធ មានចំណែក 35 ភាគរយ និងវាស់ថាតើម៉ាស៊ីនបានត្រឡប់ផ្នែករបាយការណ៍ដែលត្រូវតែមានចាំបាច់ទាំងប្រាំពីរ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) និងផ្នែករងដែលត្រូវតែមានចាំបាច់ចំនួនដប់ប្រាំមួយនៅក្នុងពួកវាឬអត់។ ការមានវត្តមាននៃផ្នែក (section presence) មានទម្ងន់ 40 ភាគរយ និងការមានវត្តមាននៃផ្នែករង (subsection presence) មានទម្ងន់ 60 ភាគរយ ក្នុងការគណនារចនាសម្ព័ន្ធ។.

នេះ។ សមាសធាតុគ្លីនិក មានចំណែក 55 ភាគរយ និងរួមបញ្ចូល ៣ ចំណុច៖ ការចងចាំពាក្យគន្លឹះនៃការធ្វើរោគវិនិច្ឆ័យ (70 ភាគរយនៃពិន្ទុរងផ្នែកគ្លីនិក), ការចងចាំប្រព័ន្ធពិន្ទុ (20 ភាគរយ — តើម៉ាស៊ីនគណនា Mentzer, FIB-4, HOMA-IR, ហានិភ័យ ASCVD, KDIGO staging, លក្ខណៈវិនិច្ឆ័យ EULAR/ACR នៅពេលពាក់ព័ន្ធឬអត់), និងការត្រួតពិនិត្យភាពត្រឹមត្រូវនៃផលបូកប្រូបាប៊ីលីតេ (10 ភាគរយ — ប្រូបាប៊ីលីតេនៃ differential ត្រូវតែបូកសរុបឲ្យស្ថិតក្នុងចន្លោះ [90, 110])។ សម្រាប់ករណីអន្ទាក់ (trap cases) នឹងដកពិន័យ hyperdiagnosis ច្បាស់លាស់រហូតដល់ 0.30 ដែលគណនាជា 0.10 ក្នុងមួយសញ្ញាធាតុ pathology ដែលបង្កើតឡើង (fabricated pathology flag) ហើយកំណត់អតិបរមា ៣ សញ្ញា។.

នេះ។ សមាសធាតុពេលវេលាឆ្លើយតប (latency component) មានចំណែក 10 ភាគរយ។ ការឆ្លើយតបក្រោម 20 វិនាទី ទទួលបានពេញ 0.10, ការឆ្លើយតបក្រោម 40 វិនាទី ទទួលបាន 0.05, និងអ្វីដែលយឺតជាងនោះទទួលបាន 0។ គោលដៅ 20 វិនាទី សំដៅលើគោលបំណងកម្រិតសេវា (service-level objective) សម្រាប់ការផលិត (production) ផ្នែក primary-path; ពិដាន 40 វិនាទី សំដៅលើថវិកាបម្រុងសម្រាប់ Phase 2 ក្នុងករណីហៅម៉ាស៊ីនធ្ងន់ៗ។.

អ្វីដែល pre-registration រារាំង

ការប្រកួតស្តង់ដារដោយខ្លួនឯង (first-party benchmarks) តែងតែមានឈ្មោះល្បីថា ធ្វើឲ្យលេខរបស់ខ្លួនឡើងដោយការកែ rubric ក្រោយ (post-hoc tuning)។ លំនាំនេះស្ទើរតែដូចគ្នាជានិច្ច៖ ក្រុមដំណើរការម៉ាស៊ីន មើលកន្លែងដែលវាធ្វើមិនបានល្អ បន្ទាប់មកក៏កែសម្រួល rubric ដោយស្ងៀមៗ ដើម្បីឲ្យតំបន់ដែលធ្វើមិនបានល្អ មានទម្ងន់តិច។ ដោយប្តេជ្ញា rubric ទៅនឹងកូដប្រភព មុនពេលហៅម៉ាស៊ីនលើកដំបូង និងបោះពុម្ព harness ក្រោមអាជ្ញាប័ណ្ណ MIT ការកែសម្រួលនោះក្លាយជាអាចមើលឃើញនៅក្នុង version control។ អ្នកណាក៏អាច clone repository ពិនិត្យថ្ងៃបង្កើត rubric និងផ្ទៀងផ្ទាត់ថា លទ្ធផលម៉ាស៊ីនមិនត្រូវបានប្រើដើម្បីរៀបចំការវាយពិន្ទុ។.

ករណីជាមួយអន្ទាក់នៃការធ្វើរោគវិនិច្ឆ័យលើស (Hyperdiagnosis trap cases) — ហេតុអ្វីការហៅច្រើនពេក (over-calling) ជារបៀបបរាជ័យពិត

ការហៅ pathology យ៉ាងខ្លាំងលើអេក្រង់ធម្មតា គឺជារបៀបបរាជ័យដែលបានកត់ត្រាទុកសម្រាប់ជំនួយការផ្នែកវេជ្ជសាស្ត្រដែលផ្តល់ជូនដល់អ្នកប្រើប្រាស់។ តម្លៃបន្តបន្ទាប់រួមមាន ការស៊ើបអង្កេតមិនចាំបាច់ ការព្រួយបារម្ភរបស់អ្នកជំងឺ និងការធ្វើការងារព្យាបាលដោយមិនចាំបាច់ (iatrogenic workup)។ ករណីអន្ទាក់ចំនួនពីរនៅក្នុងការប្រកួតស្តង់ដារនេះ ត្រូវបានរចនាឡើងដើម្បីធ្វើឲ្យរបៀបបរាជ័យនោះអាចមើលឃើញ និងអាចវាយពិន្ទុបាន។.

🟡 អន្ទាក់ 1 — BT-014-GILBERT

ការបង្ហាញ (Presentation)។. បុរសអាយុ 24 ឆ្នាំ មាន bilirubin សរុប 2.4 mg/dL។ សមាមាត្រផ្ទាល់ (direct fraction) មានលក្ខណៈធម្មតា, transaminases និង alkaline phosphatase ស្ថិតនៅក្នុងជួរយោងរបស់វា, reticulocytes មិនមានអ្វីគួរឲ្យកត់សម្គាល់, និង haptoglobin និង LDH បដិសេធ haemolysis។.

ការបកស្រាយត្រឹមត្រូវ។. Gilbert's syndrome — polymorphism UGT1A1 ដែលមិនបង្កគ្រោះថ្នាក់។ ការបកស្រាយមិនគួរហៅ hepatitis, cirrhosis, haemolytic anaemia ឬការស្ទះបំពង់ទឹកប្រមាត់ (biliary obstruction)។.

លទ្ធផល V11។. Composite 1.000។ គ្មានសញ្ញាធ្វើរោគវិនិច្ឆ័យលើស (over-diagnosis) ទាំងប្រាំមួយដែលបានតាមដាន បានបង្ហាញជារោគវិនិច្ឆ័យសកម្មទេ។.

🟡 អន្ទាក់ 2 — BT-015-HEALTHY

ការបង្ហាញ (Presentation)។. ស្ត្រីអាយុ 35 ឆ្នាំ ជាមួយនឹងបន្ទះអេក្រង់ស្ក្រីនធម្មតា ១៥ ប៉ារ៉ាម៉ែត្រ។ អ្នកវិភាគ (analyte) ទាំងអស់ ស្ថិតយ៉ាងស្រួលនៅក្នុងជួរយោងរបស់វា។.

ការបកស្រាយត្រឹមត្រូវ។. ការធានាឡើងវិញ និងការថែរក្សារបៀបរស់នៅ។ ការបកស្រាយមិនគួរបង្កើតជំងឺស្ថិតនៅដែនកំណត់ (borderline pathology) ដើម្បីឲ្យមើលទៅមានប្រយោជន៍ខាងវេជ្ជសាស្ត្រតាមបែបគ្លីនិកនោះទេ។.

លទ្ធផល V11។. សមាសធាតុ 1.000។ ក្នុងចំណោមសញ្ញាព្រមាននៃការធ្វើរោគវិនិច្ឆ័យលើស (over-diagnosis) ដែលត្រូវបានតាមដានទាំងប្រាំពីរ — ជំងឺទឹកនោមផ្អែម ភាពស្លេកស្លាំង ក្រពេញធីរ៉ូអ៊ីដទាប (hypothyroidism ជំងឺខ្សោយក្រពេញទីរ៉ូអ៊ីដ) ជំងឺខ្លាញ់ក្នុងឈាមខ្ពស់ (dyslipidaemia ជំងឺខ្លាញ់ក្នុងឈាម) ជំងឺរលាកថ្លើម (hepatitis) ជំងឺតម្រងនោម និងកង្វះ — មិនមានមួយណាលេចឡើងជារោគវិនិច្ឆ័យសកម្មឡើយ។.

នៅទាំងពីរត្រាប់ (traps) មានការត្រួតពិនិត្យសញ្ញាព្រមាននៃការធ្វើរោគវិនិច្ឆ័យលើស (hyperdiagnosis) ចំនួនដប់បី។ មិនមានសញ្ញាណាមួយត្រូវបានបង្កឲ្យសកម្មឡើយ។ នេះជាលទ្ធផលដែលសំខាន់បំផុតសម្រាប់វេជ្ជបណ្ឌិតណាម្នាក់ដែលកំពុងពិចារណាប្រើម៉ាស៊ីន AI ជាឧបករណ៍សម្រាប់ការត្រួតពិនិត្យបឋម (triage) ឬមុនការពិគ្រោះ៖ ប្រព័ន្ធមិនបានបង្កើតជំងឺណាមួយឡើយ នៅពេលដែលមិនមានជំងឺនោះ.

សន្ទស្សន៍ Mentzer: បំបែកការខ្វះជាតិដែក (iron deficiency) ពីលក្ខណៈសម្បត្តិ thalassaemia (thalassaemia trait)

ការរកឃើញដែលមានតម្លៃខ្ពស់ទីពីរ ទាក់ទងនឹងការផ្គូផ្គងរវាង case BT-001 (ភាពស្លេកស្លាំងដោយកង្វះជាតិដែក) ជាមួយ case BT-007 (beta-thalassaemia minor)។ ទាំងពីរមាន microcytosis ហើយជាឧបសគ្គដែលគេស្គាល់ច្បាស់សម្រាប់អ្នកចាត់ថ្នាក់ (classifiers) ដែលមិនទាន់មានបទពិសោធន៍។ សន្ទស្សន៍ Mentzer ដែលគណនាជា MCV ចែកនឹងចំនួន RBC មានតម្លៃលើស 13 ក្នុងកង្វះជាតិដែក និងធ្លាក់ក្រោម 13 ក្នុងលក្ខណៈសម្បត្តិ thalassaemia (thalassaemia trait)។.

នៅ BT-001 អ្នកជំងឺជាស្ត្រីអាយុ 34 ឆ្នាំ មានកម្រិត hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL និង TIBC ខ្ពស់។ សន្ទស្សន៍ Mentzer ប្រហែល 17.7 គាំទ្រកង្វះជាតិដែកពិតប្រាកដ (absolute iron deficiency)។ នៅ BT-007 អ្នកជំងឺជាបុរសអាយុ 28 ឆ្នាំ មាន microcytosis (MCV 65.8 fL) ប៉ុន្តែមានចំនួន RBC ខ្ពស់ 6.2, RDW ធម្មតា, ferritin ធម្មតា និង HbA2 5.6 ភាគរយ។ សន្ទស្សន៍ Mentzer ប្រហែល 10.6 ចង្អុលទៅ thalassaemia trait ហើយ HbA2 ខ្ពស់បញ្ជាក់ beta-thalassaemia minor។.

ភាពស្លេកស្លាំងដោយកង្វះជាតិដែក Mentzer > 13 Ferritin ទាប, TSAT ទាប, TIBC ខ្ពស់, RDW ខ្ពស់

Thalassaemia trait (លក្ខណៈសម្បត្តិ thalassaemia) Mentzer < 13 Ferritin ធម្មតា, RDW ធម្មតា, HbA2 ខ្ពស់ (>3.5%), ចំនួន RBC ខ្ពស់

ករណីទាំងពីរទទួលពិន្ទុ 1.000។ ម៉ាស៊ីនបានហៅសន្ទស្សន៍ Mentzer យ៉ាងច្បាស់នៅក្នុងការបកស្រាយទាំងពីរ ហើយបានត្រឡប់រោគវិនិច្ឆ័យត្រឹមត្រូវក្នុងករណីនីមួយៗ។. នេះជាលទ្ធផលដែលធានាឡើងវិញខាងគ្លីនិកច្រើនបំផុតតែមួយគត់ ក្នុងការប្រកួតវាស់ស្ទង់ទាំងមូល, ព្រោះការចាត់ថ្នាក់ខុស thalassaemia trait ជាកង្វះជាតិដែក នាំឲ្យផ្តល់ថ្នាំបន្ថែមជាតិដែកមិនសមស្រប និងខកខានឱកាសស្វែងរកតាមគ្រួសារ (family-screening) ហើយការចាត់ថ្នាក់ខុសកង្វះជាតិដែក ជា thalassaemia ធ្វើឲ្យពន្យារពេលការព្យាបាលជំនួសដែលងាយស្រួល។ Our កម្រិត ferritin ពន្យល់បរិបទនៃការបែងចែកទូលំទូលាយជាងនេះ។.

លទ្ធផលតាមករណីពីការរត់ខែមេសា ឆ្នាំ 2026

ក្នុងចំណោម 15 ករណី មាន 12 ករណីទទួលបានពិន្ទុសមាសធាតុ (composite) ដល់កម្រិតពិដាន 1.000 លើ path ចម្បង (primary path)។ ករណី 3 ត្រូវបានបម្រើតាមការបម្រុងទុក Phase 2 (Phase 2 fallback) ដោយបាត់បង់ bonus ភាពយឺតយ៉ាវ 0.05 ខណៈដែលរក្សាបានទាំងអស់នូវខ្លឹមសារខាងគ្លីនិក និងរចនាសម្ព័ន្ធ។ ករណីមួយខ្វះផ្នែករង (subsection) ដែលត្រូវតែមានតែមួយ។ មួយទៀតត្រឡប់មកវិញនូវការបែងចែកប្រូបាប៊ីលីតេ (probability distribution) ដែលថយចុះបន្តិចបន្តួច។.

លេខករណី (Case ID) ជំនាញ (Specialty) ពិន្ទុរួម ភាពយឺតយ៉ាវ (Latency) Path

BT-001-IDAឈាមវិទ្យា1.00017.8 sprimary

BT-006-B12ឈាមវិទ្យា1.00018.4 វិនាទីprimary

BT-007-THALឈាមវិទ្យា1.00017.0 វិនាទីprimary

BT-002-HASHរោគវិទ្យា0.95037.0 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របម្រុង (fallback)

BT-008-PCOSរោគវិទ្យា0.98718.6 វិនាទីprimary

BT-003-T2DMមេតាបូលីស1.00019.1 វិនាទីprimary

BT-013-GOUTមេតាបូលីស1.00019.4 វិនាទីprimary

BT-004-NAFLDជំនាញថ្លើម (Hepatology)1.00019.6 វិនាទីprimary

BT-009-VIRHEPជំនាញថ្លើម (Hepatology)0.95023.4 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របម្រុង (fallback)

BT-014-GILBERTអន្ទាក់ (Trap)1.00018.9 វិនាទីprimary

BT-005-CKDវិទ្យាសាស្ត្រតម្រងនោម1.00017.4 វិនាទីprimary

BT-010-ASCVDផ្នែកជំងឺបេះដូង1.00019.7 វិនាទីprimary

BT-011-SLEវិទ្យារោគសន្លាក់ឆ្អឹង0.98118.2 វិនាទីprimary

BT-012-VITDរោគវិទ្យា1.00019.3 វិនាទីprimary

BT-015-HEALTHYអន្ទាក់ (Trap)1.00018.7 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របម្រុង (fallback)

ករណី PCOS (BT-008) បានបាត់បង់ផ្នែករងដែលត្រូវតែមានមួយផ្នែកនៅក្នុងរចនាសម្ព័ន្ធការឆ្លើយតប — ដប់ប្រាំពីរនៃដប់ប្រាំមួយ ជំនួសឲ្យដប់ប្រាំមួយនៃដប់ប្រាំមួយ — ដែលកាត់បន្ថយពិន្ទុរចនាសម្ព័ន្ធពី 1.000 ទៅ 0.963។ ករណី SLE (BT-011) បានត្រឡប់មកវិញនូវផលបូកនៃការចែកចាយប្រូបាប៊ីលីតេ ដែលថយចុះបន្តិច ដោយធ្វើឲ្យពិន្ទុផ្នែកគ្លីនិកធ្លាក់ដល់ 0.965 ខណៈដែលរក្សាបានរាល់ពាក្យគន្លឹះសម្រាប់ការធ្វើរោគវិនិច្ឆ័យ និងប្រព័ន្ធពិន្ទុទាំងអស់។ គ្មានករណីណាមួយដែលមិនល្អទាំងស្រុងនោះ បាត់បង់ការធ្វើរោគវិនិច្ឆ័យត្រឹមត្រូវឡើយ។.

អ្វីដែលពិន្ទុចំណងជើងមិនបានប្រាប់យើង

ពិន្ទុសរុប 99.12 ភាគរយ ក្រោមក្របខណ្ឌដែលបានចុះបញ្ជីជាមុនជាក់លាក់នេះ បង្ហាញពីសមត្ថភាពជិតដល់កម្រិតកំពូល (near-ceiling) ប៉ុន្តែវាគួរតែមានការរៀបចំការពន្យល់ឲ្យបានប្រុងប្រយ័ត្ន។ លទ្ធផលពិពណ៌នាអំពីអាកប្បកិរិយារបស់ម៉ាស៊ីនម៉ូទ័រ (engine) ប្រឆាំងនឹងករណីដែលបានធ្វើជាគំរូអនាមិកចំនួនដប់ប្រាំពីរ ដែលបានជ្រើសយ៉ាងប្រុងប្រយ័ត្ន ត្រូវបានវាយតម្លៃម្តងៗ និងប្រឆាំងនឹងក្របខណ្ឌតែមួយ (single rubric)។ យើងបញ្ជាក់ឲ្យច្បាស់អំពីអ្វីដែលលេខនេះបង្ហាញ និងមិនបង្ហាញ។.

ពិន្ទុនេះនិយាយថា ម៉ាស៊ីន V11 បានដោះស្រាយលំនាំនៃការធ្វើរោគវិនិច្ឆ័យ ដែលត្រូវបានជ្រើសសម្រាប់ការវាយតម្លៃនេះ បានត្រឹមត្រូវ តាមវិធីសាស្ត្រដែលបានបោះពុម្ព និងអាចធ្វើឡើងវិញបាន។ វាមិននិយាយថា ម៉ាស៊ីនត្រឹមត្រូវលើរាល់បន្ទះពិនិត្យឈាម (blood test panel) ដែលមាននៅក្នុងពិភពពិតនោះទេ។ វាមិននិយាយថា ម៉ាស៊ីនគួរតែជំនួសការវិនិច្ឆ័យរបស់គ្រូពេទ្យ (clinician judgment) ទេ។ ហើយវាមិននិយាយថា ម៉ាស៊ីនមានសមត្ថភាពលើសប្រព័ន្ធ AI ផ្សេងទៀតទេ — ការវិភាគប្រៀបធៀបជាមួយម៉ាស៊ីនផ្សេងៗ ត្រូវបានដាក់ចេញពីវិសាលភាពសម្រាប់របាយការណ៍នេះដោយចេតនា។.

អ្វីដែលពិន្ទុនេះបង្ហាញឲ្យច្បាស់ គឺជាមូលដ្ឋាន (baseline)។ នៅពេលដែលក្របខណ្ឌ និងឧបករណ៍សាកល្បង (harness) ត្រូវបានបង្ហាញជាសាធារណៈ កំណែអនាគតនៃម៉ាស៊ីនអាចត្រូវបានវាយតម្លៃធៀបនឹងករណីដប់ប្រាំពីរដដែល ហើយចន្លោះរវាងពិន្ទុដែលបានបោះពុម្ព និងការរត់បន្ទាប់ណាមួយ ក៏អាចវាស់វែងបានដោយខ្លួនឯងផងដែរ។ នេះជាតម្លៃនៃការចុះបញ្ជីជាមុន (pre-registration): វាបម្លែងការអះអាងអំពីសមត្ថភាព ទៅជាការអះអាងដែលអាចធ្វើតេស្តបាន.

របៀបបង្កើតស្តង់ដារនេះឡើងវិញក្នុងរយៈពេល 10 នាទី

ការធ្វើឡើងវិញ (Reproduction) ត្រូវការតែគូសមត្ថភាព API Kantesti និងបរិស្ថាន Python 3.10 ឬក្រោយជាងនេះ ដែលមាន requests និង reportlab libraries ត្រូវបានដំឡើង។ ឧបករណ៍សាកល្បងពេញលេញ (full harness) គឺជាម៉ូឌុល Python តែមួយដែលមានខ្លឹមសារគ្រប់គ្រាន់ (self-contained) ហើយត្រូវបានចេញផ្សាយក្រោមអាជ្ញាប័ណ្ណ MIT។.

💻 GitHub ឧបករណ៍សាកល្បងក្រោមអាជ្ញាប័ណ្ណ MIT · ការឆ្លើយតបដើម · ការរត់យោង (reference run) 🔗 DOI របស់ Figshare 10.6084/m9.figshare.32095435 · កំណត់ត្រាសិក្សាដែលជាស្តង់ដារ (canonical academic record) 🎓 ច្រកស្រាវជ្រាវ ការបោះពុម្ព 404175463 · ស្រទាប់ការរកឃើញសិក្សា (academic discovery layer) 📄 Academia.edu អត្ថបទ 165956808 · ស្រទាប់ការរកឃើញសិក្សា (academic discovery layer)

បួនជំហានសម្រាប់ការរត់ថ្មី (fresh run)

មួយ។. ក្លូនឃ្លាំង (repository): git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ពីរ។. ដំឡើងការពឹងផ្អែកជាមួយ pip install -r requirements.txt. បី។. កំណត់ KANTESTI_USERNAME និង KANTESTI_PASSWORD ជាអថេរបរិស្ថាន — លិខិតសម្គាល់ត្រូវបានអាននៅពេលដំណើរការ ហើយមិនមានការកំណត់បញ្ចូលជាមុននៅក្នុងស្គ្រីបនោះទេ។. បួន។. ដំណើរការ python benchmark_bloodtest.py ហើយពិនិត្យមើលឯកសារផលិតផលចំនួនបួនដែលបង្កើតចេញទៅក្នុងថតការងារ៖ CSV scorecard, JSON scorecard, ការបោះចោល JSON ពេញលេញរួមទាំងការឆ្លើយតបដើមរបស់ម៉ាស៊ីន (raw engine responses) និងរបាយការណ៍ Markdown ដែលអានបានដោយមនុស្ស។.

ការដំណើរការយោងពីថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 ត្រូវបានរក្សាទុកក្នុង results/ ថតនៃឃ្លាំង (repository)។ ការដំណើរការថ្មីនឹងបង្កើត scorecard ថ្មីដែលមានស្លាកពេលវេលា (timestamp) ខណៈដែលការដំណើរការយោងនឹងមិនត្រូវបានប៉ះពាល់។ ប្រសិនបើការដំណើរការរបស់អ្នកបង្កើតលទ្ធផលខុសគ្នាយ៉ាងមានន័យ សូមបើកបញ្ហា (GitHub issue) ជាមួយនឹង timestamp នៃការដំណើរការ និងកំណែម៉ាស៊ីន (engine version) ដែលបានត្រឡប់ក្នុង metadata នៃការឆ្លើយតប។.

ដែនកំណត់ និងការងារនាពេលអនាគត

ដែនកំណត់ចំនួនបួនត្រូវការការទទួលស្គាល់ឲ្យច្បាស់៖ ទំហំគំរូ, ការវាយតម្លៃតែម្តង (single-shot), វិសាលភាពម៉ាស៊ីនតែមួយ (single-engine scope), និងប្រភពទិន្នន័យតែមួយ (single-source data origin)។ នីមួយៗកំពុងត្រូវបានដោះស្រាយក្នុងការងារតាមដានបន្តបន្ទាប់។.

ទំហំគំរូ។. ករណីចំនួនដប់ប្រាំ (fifteen cases) ក្នុងធុងឯកទេសចំនួនប្រាំបី (eight specialty buckets) គ្រប់គ្រាន់សម្រាប់ការបង្ហាញគំនិត (proof of concept) ប៉ុន្តែមិនគ្រប់គ្រាន់សម្រាប់ការវិភាគតាមក្រុមរងក្នុងឯកទេសនោះទេ។ គ្រោងពង្រីកទៅករណីចំនួនហាសិប (fifty cases) ហើយនឹងរួមបញ្ចូលបន្ទះកកឈាម (coagulation panels), ការពិនិត្យរកមហារីកឈាម (haematological malignancy screening), បន្ទះពិនិត្យពេលមានផ្ទៃពោះ (pregnancy panels) និងការបង្ហាញនៅកុមារ (paediatric presentations)។.

ការវាយតម្លៃតែម្តង (single-shot evaluation)។. ករណីនីមួយៗត្រូវបានវាយតម្លៃតែម្តងប៉ុណ្ណោះ។ ម៉ូដែលភាសាធំៗបង្ហាញភាពប្រែប្រួលលទ្ធផលដែលមិនមែនតិចតួច (non-trivial output variance) ទោះបីជាមានការកំណត់សីតុណ្ហភាពគំរូទាបក៏ដោយ ដូច្នេះពិធីសាស្ត្រវាយតម្លៃច្រើនដង (multi-run protocol) ដោយមានការវាយតម្លៃចំនួនប្រាំ (five evaluations) ក្នុងមួយករណី និងការរាយការណ៍អំពីភាពប្រែប្រួល គឺជាជំហានបន្ទាប់ដែលសមហេតុផល។.

វិសាលភាពម៉ាស៊ីនតែមួយ (single-engine scope)។. របាយការណ៍នេះពិពណ៌នាអំពីម៉ាស៊ីនមួយប៉ុណ្ណោះ។ ការវិភាគប្រៀបធៀបជាមួយប្រព័ន្ធ AI ផ្សេងៗ មិនស្ថិតក្នុងវិសាលភាពនៅទីនេះទេ។ យើងអាចធ្វើវាជាការសិក្សាឯករាជ្យដាច់ដោយឡែកជាមួយនឹងវិធីសាស្ត្រសមស្រប។.

ប្រភពទិន្នន័យតែមួយ (single-source data origin)។. ករណីចំនួនដប់ប្រាំ (fifteen cases) គឺជាកំណត់ត្រាអ្នកជំងឺពិតដែលបានធ្វើអនាមិក (anonymised) ដកស្រង់ពីឃ្លាំងគ្លីនិកតែមួយ។ វាតំណាងឲ្យគំរូដែលបានរៀបចំ (curated sample) ហើយមិនមែនជាការចាប់យកដោយចៃដន្យដែលតំណាងប្រជាជនទេ។ ការពង្រីកការវាយតម្លៃទៅទិន្នន័យពីច្រើនមជ្ឈមណ្ឌល (multi-centre data) ស្ថិតក្នុងផែនការផ្លូវ។.

ការពង្រីកដែលមានឥទ្ធិពលខ្លាំងបំផុតដែលបានគ្រោងទុកគឺភាពស្មើគ្នាច្រើនភាសា (multi-language parity)។ ម៉ាស៊ីន AI Kantesti បម្រើអ្នកប្រើប្រាស់ក្នុង 75+ ភាសា ហើយការដំណើរការកម្មវិធីសាកល្បងដូចគ្នា (same fifteen-case harness) ជាភាសាទួរគី (Turkish), អាល្លឺម៉ង់ (German), អេស្ប៉ាញ (Spanish), បារាំង (French) និងអារ៉ាប់ (Arabic) នឹងវាស់គុណភាពលទ្ធផលនៅទូទាំងភាសាដែលម៉ាស៊ីនគាំទ្រ។ យើងនឹងបោះពុម្ពការដំណើរការសម្រាប់ភាសានីមួយៗ ដោយមាន DOI ផ្ទាល់ខ្លួន និងសាខា (harness branch) របស់វា។.

សាកល្បងម៉ាស៊ីនដូចគ្នាដែលសម្រេចបានពិន្ទុសរុប 99.12%

ផ្ទុកបន្ទះពិនិត្យឈាមផ្ទាល់ខ្លួនរបស់អ្នកឡើងទៅកាន់ចំណុចបញ្ចប់ (endpoint) ផលិតកម្មដូចគ្នាដែលត្រូវបានវាយតម្លៃក្នុងការប្រកួតសាកល្បងនេះ។ អ្នកប្រើប្រាស់ជាង 2 លាននាក់នៅទូទាំងពិភពលោកប្រើម៉ាស៊ីន AI Kantesti ដើម្បីបកស្រាយសញ្ញាសម្គាល់ (biomarkers) ជាង 15,000 នៅក្នុងភាសា 75+។.

🔬 សាកល្បងការបង្ហាញដោយឥតគិតថ្លៃ

ផ្នែកបន្ថែម Chrome ហាងកម្មវិធី ហ្គូហ្គល ផេយ

📚 របៀបដកស្រង់ (Cite) ការប្រកួតសាកល្បងនេះ

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {ការធ្វើឱ្យមានសុពលភាពផ្នែកព្យាបាលនៃម៉ាស៊ីន AI Kantesti (2.78T)
                 លើករណីពិនិត្យឈាមដែលបានធ្វើឱ្យអនាមិកចំនួន 15 ករណី៖
                 ការប្រកួតសាកល្បងដែលបានចុះបញ្ជីជាមុន (Pre-Registered)
                 ដោយផ្អែកលើ Rubric រួមទាំងករណី Trap នៃការធ្វើរោគវិនិច្ឆ័យលើស (Hyperdiagnosis Trap)
                 នៅទូទាំងវិជ្ជាជីវៈវេជ្ជសាស្ត្រចំនួនប្រាំពីរ},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). ការធ្វើឱ្យមានសុពលភាពផ្នែកព្យាបាលនៃម៉ាស៊ីន AI Kantesti (2.78T) លើករណីពិនិត្យឈាមដែលបានធ្វើឱ្យអនាមិកចំនួន 15 ករណី៖ ការប្រកួតសាកល្បងដែលបានចុះបញ្ជីជាមុន ដោយផ្អែកលើ Rubric រួមទាំងករណី Trap នៃការធ្វើរោគវិនិច្ឆ័យលើស នៅទូទាំងវិជ្ជាជីវៈវេជ្ជសាស្ត្រចំនួនប្រាំពីរ (របាយការណ៍បច្ចេកទេស V11)។ Kantesti Ltd។. https://doi.org/10.6084/m9.figshare.32095435

📖 ការងារធ្វើឱ្យមានសុពលភាព (Validation) Kantesti ដែលពាក់ព័ន្ធ

Klein, T. (2025)។. ក្របខ័ណ្ឌសុពលភាពគ្លីនិកសម្រាប់ការបកស្រាយតេស្តឈាមដែលដំណើរការដោយ AI៖ វិធីសាស្រ្តផ្ទៀងផ្ទាត់បីដង រង្វាស់ការអនុវត្ត និងពិធីការធានាគុណភាព.។ Kantesti ការស្រាវជ្រាវវេជ្ជសាស្ត្រដោយ AI។.

🎓 ច្រកស្រាវជ្រាវ

📖 ឯកសារយោងវិធីសាស្ត្រខាងក្រៅ

Mentzer, W. C. (1973). ការបែងចែកភាពខ្វះជាតិដែក (Iron Deficiency) ពីលក្ខណៈ Thalassaemia Trait. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). លក្ខណៈវិនិច្ឆ័យ (Classification Criteria) សម្រាប់ Systemic Lupus Erythematosus របស់ European League Against Rheumatism / American College of Rheumatology ឆ្នាំ 2019. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ក្រសួងអប់រំយុវជន និងកីឡា 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: ការធ្វើតេស្តសម្រាប់ការបង្កើតការយល់ច្រឡំផ្នែកវេជ្ជសាស្ត្រ (Medical Domain Hallucination Test) សម្រាប់ម៉ូដែលភាសាធំ (Large Language Models). Proceedings of CoNLL 2023។.

🔗 ACL Anthology

99.12%ពិន្ទុសរុប (Composite Score)

15ចំនួនករណីដែលបានពិន្ទុ (Cases Scored)

7ជំនាញពិសេស (Specialties)

0Trap False-Positives

សំណួរដែលសួរញឹកញាប់

ម៉ាស៊ីន AI Kantesti មានភាពត្រឹមត្រូវប៉ុណ្ណាលើករណីពិនិត្យឈាមពិតៗ?

នៅលើ rubric ដែលបានចុះបញ្ជីជាមុន (pre-registered) សម្រាប់ករណីពិនិត្យឈាមពិតដែលបានធ្វើឱ្យអនាមិកចំនួន 15 ករណី នៅទូទាំងវិជ្ជាជីវៈវេជ្ជសាស្ត្រចំនួនប្រាំពីរ ម៉ាស៊ីន AI Kantesti V11 សម្រេចបានពិន្ទុសរុប 99.12 ភាគរយ ដោយគ្មាន hyperdiagnosis false-positives ទាំងករណី trap និងមានមធ្យមពេលវេលាឆ្លើយតប 20.17 វិនាទី។ សន្លឹកពិន្ទុពេញលេញសម្រាប់ករណីនីមួយៗ ត្រូវបានបោះពុម្ពនៅ Figshare ក្រោម DOI 10.6084/m9.figshare.32095435 និងនៅលើ GitHub ក្រោមអាជ្ញាប័ណ្ណ MIT។.

តើម៉ាស៊ីន AI Kantesti ត្រូវបានបញ្ជាក់ជាផ្នែកវេជ្ជសាស្ត្រដោយការស្រាវជ្រាវជាក់ស្តែងដែរឬទេ?

បាទ/ចាស។ ម៉ាស៊ីននេះត្រូវបានបញ្ជាក់ជាផ្លូវការដោយការធ្វើតេស្តតាមបែបវិទ្យាសាស្ត្រក្នុងលក្ខណៈព្យាបាល ដោយផ្អែកលើ rubic ដែលត្រូវបានបង្កកក្នុងកូដប្រភព មុនពេលម៉ាស៊ីនត្រូវបានដំណើរការ។ វាត្រូវបានវាយតម្លៃលើករណីពិនិត្យឈាមដែលមិនបញ្ចេញអត្តសញ្ញាណចំនួន 15 ករណី ក្នុងវិស័យ hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology និង rheumatology។ ការត្រួតពិនិត្យផ្នែកព្យាបាលត្រូវបានផ្តល់ដោយវេជ្ជបណ្ឌិត Thomas Klein, MD (ORCID 0009-0009-1490-1321) ជាអ្នកឯកទេសជំងឺឈាមផ្នែកព្យាបាលដែលទទួលសញ្ញាបត្រពីក្រុមប្រឹក្សា និងជានាយកផ្នែកវេជ្ជសាស្ត្រកំពូល (Chief Medical Officer) នៅ Kantesti AI។.

តើករណី “អន្ទាក់នៃការធ្វើរោគវិនិច្ឆ័យលើស” (hyperdiagnosis trap) គឺជាអ្វី?

ករណី “hyperdiagnosis trap” គឺជាស្ថានការណ៍ព្យាបាលដែលត្រូវបានរចនាឡើងជាពិសេស ដើម្បីរកឃើញអាកប្បកិរិយាធ្វើរោគវិនិច្ឆ័យលើស (over-diagnosis) នៅក្នុងម៉ាស៊ីន AI។ ការប្រកួតយោង (benchmark) Kantesti V11 ប្រើករណីបែបនេះចំនួនពីរ។ ករណីទីមួយគឺ hyperbilirubinaemia ដោយប្រយោលដែលនៅឯកោ (isolated) ស្របនឹងរោគសញ្ញា Gilbert ដែលការបកស្រាយត្រឹមត្រូវគឺភាពខុសប្រក្រតី UGT1A1 ប្រភេទមិនបង្កគ្រោះថ្នាក់ (benign polymorphism) មិនមែន hepatitis ឬ haemolysis ទេ។ ករណីទីពីរគឺបន្ទះពិនិត្យស្គ្រីនមនុស្សពេញវ័យដែលធម្មតាទាំងស្រុង (fully normal adult screening panel) ដែលលទ្ធផលត្រឹមត្រូវគឺការធានាថាមិនមានអ្វីគួរព្រួយបារម្ភ និងការថែរក្សារបៀបរស់នៅ (lifestyle maintenance) មិនមែនការបង្កើតរោគសញ្ញាខ្សោយកម្រិតព្រំដែន (manufactured borderline pathology) ទេ។.

តើការវាយតម្លៃម៉ាស៊ីន AI Kantesti អាចធ្វើឡើងវិញបានដែរឬទេ?

ឧបករណ៍សម្រាប់វាយតម្លៃពេញលេញ (full evaluation harness) ត្រូវបានចេញផ្សាយក្រោមអាជ្ញាប័ណ្ណ MIT ជា Python module តែមួយដែលមានលក្ខណៈគ្រប់គ្រាន់ក្នុងខ្លួន។ ការចម្លងត្រូវការតែគូសម្រង់អត្តសញ្ញាណ API របស់ Kantesti និង Python 3.10 ឬខ្ពស់ជាងនេះ។ កូដ ការកំណត់ករណី (case definitions) និងរាល់ការឆ្លើយតបឆៅរបស់ម៉ាស៊ីនពីការរត់យោង (reference run) ខែមេសា ឆ្នាំ 2026 មាននៅ github.com/emirhanai/kantesti-blood-test-benchmark ហើយត្រូវបានចម្លង (mirrored) នៅ Figshare, ResearchGate និង Academia.edu។.

តើម៉ាស៊ីន AI Kantesti បែងចែកភាពខ្វះជាតិដែកពីលក្ខណៈសម្បត្តិ beta-thalassaemia យ៉ាងដូចម្តេច?

ម៉ាស៊ីននេះអនុវត្តសន្ទស្សន៍ Mentzer (Mentzer index) ដែលគណនាជា mean corpuscular volume បែងចែកដោយចំនួនកោសិកាឈាមក្រហម (red blood cell count)។ សន្ទស្សន៍ Mentzer លើសពី 13 គាំទ្រការសង្ស័យថាមានភាពស្លេកស្លាំងដោយខ្វះជាតិដែក (iron deficiency anaemia) ខណៈតម្លៃក្រោម 13 គាំទ្រលក្ខណៈសម្បត្តិ beta-thalassaemia trait។ នៅក្នុង benchmark V11 ករណីទាំងពីរត្រូវបានចាត់ថ្នាក់ត្រឹមត្រូវ ដោយមានការគណនាសន្ទស្សន៍ Mentzer យ៉ាងច្បាស់ និងគាំទ្រដោយបរិបទ ferritin, RDW និង HbA2។.

តើខ្ញុំអាចរកឃើញទិន្នន័យមូលដ្ឋានសម្រាប់ការប្រៀបធៀប (raw benchmark data) និងកូដប្រភព (source code) នៅឯណា?

របាយការណ៍បច្ចេកទេស ត្រូវបានដាក់នៅ Figshare ក្រោម DOI 10.6084/m9.figshare.32095435 ហើយត្រូវបានចម្លងនៅ ResearchGate publication 404175463 និង Academia.edu paper 165956808 ហើយឧបករណ៍ Python ដែលមានអាជ្ញាប័ណ្ណ MIT និងមានរាល់លទ្ធផលពីការរត់យោង នៅ github.com/emirhanai/kantesti-blood-test-benchmark។ បណ្តាញចម្លង (mirror) ទាំងបួនវេទិកា ធានាឱ្យមានភាពអាចរកបានយូរអង្វែង និងភាពបត់បែនក្នុងការដកស្រង់ (citation flexibility)។.

ហេតុអ្វីបានជាការចុះបញ្ជីជាមុន (pre-registration) មានសារៈសំខាន់សម្រាប់ benchmark វេជ្ជសាស្ត្រ AI?

ការចុះបញ្ជីជាមុន រារាំងការកែសម្រួល rubric ក្រោយពេល (post-hoc rubric tuning) ដែលជាវិធីសាស្ត្រដ៏ពេញនិយមបំផុតតែមួយ ដែលក្រុមហ៊ុនប្រើដើម្បីធ្វើឱ្យលេខរបស់ខ្លួនឡើងខ្ពស់។ ដោយការប្តេជ្ញាចិត្តដាក់ rubric ទៅក្នុងកូដប្រភព មុនពេលហៅម៉ាស៊ីនណាមួយ និងការបោះពុម្ពឧបករណ៍ (harness) ជាសាធារណៈ អ្នកនិពន្ធ rubric នឹងមានកាលបរិច្ឆេទដែលអាចពិនិត្យបាន (inspectable) នៅក្នុង version control ហើយលទ្ធផលម៉ាស៊ីនមិនអាចធ្វើឱ្យលក្ខណៈវិនិច្ឆ័យសម្រាប់ការឲ្យពិន្ទុ (scoring criteria) ត្រូវបានរៀបចំតាមក្រោយបានឡើយ។.

តើ benchmark នេះមានការប្រៀបធៀបជាមួយម៉ាស៊ីន AI ផ្សេងទៀតដែរឬទេ?

ទេ។ របាយការណ៍ V11 បានរៀបចំឱ្យបង្ហាញជាក់លាក់ថា ម៉ាស៊ីនតែមួយ ត្រូវបានវាយតម្លៃប្រឆាំងនឹង rubric ដែលបានកំណត់ជាមុន ជាជាងដាក់វាទៅក្នុងការប្រៀបធៀបជាមួយប្រព័ន្ធពាណិជ្ជកម្មផ្សេងៗ។ ឧបករណ៍ (harness) គឺ open source ក្រោមអាជ្ញាប័ណ្ណ MIT ដូច្នេះអ្នកស្រាវជ្រាវឯករាជ្យអាចវាយតម្លៃម៉ាស៊ីនណាមួយដែលពួកគេចង់បាន ប្រឆាំងនឹងករណីទាំងដប់ប្រាំ និង rubric ដូចគ្នា ហើយបោះពុម្ពលទ្ធផលរបស់ពួកគេ។.

តើករណីអ្នកជំងឺពិត ឬករណីបង្កើត (synthetic)?

ករណីទាំងដប់ប្រាំ គឺជាកំណត់ត្រាអ្នកជំងឺពិតដែលមិនបញ្ចេញអត្តសញ្ញាណ (anonymised) ដកចេញពីឃ្លាំងទិន្នន័យព្យាបាល Kantesti ក្រោមការយល់ព្រមជាលាយលក្ខណ៍អក្សរ (written informed consent)។ ការលុបអត្តសញ្ញាណ (de-identification) ត្រូវបានអនុវត្តតាមវិធីសាស្ត្រ Safe Harbor ដោយដកចេញ ឬជំនួសអត្តសញ្ញាណផ្ទាល់ទាំងអស់។ ដំណើរការត្រូវបានអនុវត្តតាម GDPR មាត្រា 9(2)(j) និងបទប្បញ្ញត្តិ UK GDPR ដែលស្មើគ្នា។ មិនមានព័ត៌មានដែលអាចកំណត់អត្តសញ្ញាណផ្ទាល់ខ្លួន (personally identifying information) បង្ហាញនៅក្នុង harness ដែលបានបោះពុម្ព របាយការណ៍បច្ចេកទេស ឬសំណុំទិន្នន័យដែលបានចេញផ្សាយឡើយ។.

⚕️ ការបដិសេធផ្នែកវេជ្ជសាស្ត្រ និងជម្លោះផលប្រយោជន៍

របាយការណ៍ benchmark នេះ សម្រាប់គោលបំណងស្រាវជ្រាវ និងតម្លាភាពផ្នែកវិធីសាស្ត្រ។ វាមិនមែនជាការផ្តល់ដំបូន្មានវេជ្ជសាស្ត្រទេ។ សូមពិគ្រោះជាមួយអ្នកផ្តល់សេវាថែទាំសុខភាពដែលមានសមត្ថភាពជានិច្ច សម្រាប់ការសម្រេចចិត្តអំពីការធ្វើរោគវិនិច្ឆ័យ និងការព្យាបាល។ អ្នកនិពន្ធទាំងពីរត្រូវបានជួលឱ្យធ្វើការនៅ និងកាន់កាប់ភាគហ៊ុននៅ Kantesti Ltd ហើយម៉ាស៊ីនដែលកំពុងត្រូវបានវាយតម្លៃ គឺជាផលិតផលពាណិជ្ជកម្មរបស់អង្គការដូចគ្នា។ ជម្លោះផលប្រយោជន៍នេះត្រូវបានកាត់បន្ថយ ដោយការចុះបញ្ជីជាមុន rubric នៅក្នុងកូដប្រភព ការចេញផ្សាយ harness ក្រោមអាជ្ញាប័ណ្ណ MIT និងការបោះពុម្ពរាល់ការឆ្លើយតបឆៅរបស់ម៉ាស៊ីន។.

សញ្ញាទុកចិត្ត E-E-A-T

⭐

បទពិសោធន៍

មានបទពិសោធន៍ជាង 15 ឆ្នាំក្នុងការអនុវត្ត hematology និងវេជ្ជសាស្ត្រមន្ទីរពិសោធន៍ ដោយត្រួតពិនិត្យការជ្រើសរើសបន្ទះករណី។.

📋

ជំនាញ

ការរចនា rubric ដែលបានចុះបញ្ជីជាមុន ជាមួយនឹងការពិន័យច្បាស់លាស់សម្រាប់ hyperdiagnosis និងប្រព័ន្ធវាយពិន្ទុផ្នែកព្យាបាលដែលត្រូវបានទទួលស្គាល់ (Mentzer, FIB-4, EULAR/ACR, KDIGO)។.

👤

ភាពមានសិទ្ធិអំណាច

អ្នកនិពន្ធនាំមុខ វេជ្ជបណ្ឌិត Thomas Klein, MD (ORCID 0009-0009-1490-1321)។ ការអនុវត្ត (Implementation) ដោយ Julian Emirhan Bulut នាយកប្រតិបត្តិ (CEO) នៃ Kantesti Ltd។.

🛡️

ភាពគួរឱ្យទុកចិត្ត

ឧបករណ៍ (harness) ដែលអាចធ្វើឡើងវិញបានក្រោមអាជ្ញាប័ណ្ណ MIT ការបោះពុម្ពការឆ្លើយតបឆៅរបស់ម៉ាស៊ីន ការបង្ហាញជម្លោះផលប្រយោជន៍ដោយបើកចំហ និងបណ្តាញ mirror ស្រាវជ្រាវលើបួនវេទិកា។.

🏢 ក្រុមហ៊ុន Kantesti LTD ចុះឈ្មោះនៅប្រទេសអង់គ្លេស និងវេលស៍ · លេខក្រុមហ៊ុន។. 17090423 ទីក្រុងឡុងដ៍ ចក្រភពអង់គ្លេស · kantesti.net