ការធ្វើតេស្តឈាមដោយ AI Benchmark Kantesti — ការបញ្ជាក់ផ្នែកព្យាបាល

សុពលភាពគ្លីនិក ការប្រៀបធៀបដែលបានចុះឈ្មោះជាមុន V11 — ខែមេសា 2026 អនុញ្ញាតក្រោម MIT អាចផ្ទៀងផ្ទាត់ដោយសហការី

ពិន្ទុសមាសធាតុ 99.12% លើកម្រងការវាយតម្លៃដែលបានចុះបញ្ជីជាមុន ដោយគ្មានការវិនិច្ឆ័យលើសកម្រិត (hyperdiagnosis) និងគ្មាន false-positives

ការវាយតម្លៃផ្នែកព្យាបាលឯករាជ្យដែលបានចុះឈ្មោះជាមុនជាមុនលើ Kantesti AI Engine ដោយប្រើករណីលទ្ធផលឈាមដែលបានធ្វើឲ្យអនាមិក។ សេចក្តីណែនាំវាយតម្លៃ (rubric) ត្រូវបានបង្កកនៅក្នុងកូដប្រភពមុនការហៅម៉ាស៊ីនដំបូង ការធ្វើតេស្តសម្របសម្រួល (evaluation harness) ត្រូវបានអនុញ្ញាតក្រោម MIT ហើយរាល់ការឆ្លើយតបដើម (raw response) ត្រូវបានបោះពុម្ពផ្សាយ។.

📖 ~14 នាទី 📅 ថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 បានបោះពុម្ព៖ ថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 🩺 បានពិនិត្យផ្នែកវេជ្ជសាស្ត្រដោយ៖ ថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 ✅ Rubric បានចុះឈ្មោះជាមុន 🔓 កូដ & ទិន្នន័យបើកចំហ

ការសិក្សាវាយតម្លៃផ្នែកព្យាបាលនេះ ត្រូវបានដឹកនាំដោយ លោកវេជ្ជបណ្ឌិត Thomas Klein, MD, ប្រធានវេជ្ជបណ្ឌិតផ្នែកវេជ្ជសាស្ត្រ (Chief Medical Officer) នៅ Kantesti AI រួមសហការជាមួយ Julian Emirhan Bulut, វិស្វករ AI ជាន់ខ្ពស់ និងនាយកប្រតិបត្តិ (CEO) នៃ Kantesti Ltd។ វិធីសាស្ត្រ និង rubric ត្រូវបានពិនិត្យដោយ ក្រុមប្រឹក្សាប្រឹក្សាវេជ្ជសាស្ត្រ Kantesti AI.

អ្នកនិពន្ធនាំមុខ & ការត្រួតពិនិត្យផ្នែកព្យាបាល

ថូម៉ាស គ្លីន, MD

ប្រធានផ្នែកវេជ្ជសាស្ត្រ, Kantesti AI

Dr. Thomas Klein គឺជាគ្រូពេទ្យឯកទេសជំនាញខាងជំងឺឈាម (clinical hematologist) ដែលមានវិញ្ញាបនបត្រត្រឹមត្រូវ និងជាវេជ្ជបណ្ឌិតផ្នែកជំងឺខាងក្នុង (internist) មានបទពិសោធន៍ជាង 15 ឆ្នាំក្នុងវិស័យវេជ្ជសាស្ត្រមន្ទីរពិសោធន៍។ ក្នុងតួនាទីជា Chief Medical Officer នៅ Kantesti AI លោកបានជ្រើសរើសបន្ទះករណីសម្រាប់ benchmark នេះ បានពិនិត្យការពិតផ្នែករោគវិនិច្ឆ័យ (diagnostic ground truths) ទាំងអស់ និងបានអនុម័ត rubric ដែលបានចុះឈ្មោះជាមុន មុនពេលហៅម៉ាស៊ីន (engine) ដំបូង។.

ORCID 0009-0009-1490-1321 ច្រកស្រាវជ្រាវ Google Scholar

អ្នកនិពន្ធរួម & ការអនុវត្ត

Julian Emirhan Bulut

វិស្វករ AI ជាន់ខ្ពស់ & CEO, Kantesti Ltd

Julian Emirhan Bulut គឺជាស្ថាបនិក និង CEO នៃ Kantesti Ltd។ លោកបានរចនា និងអនុវត្ត evaluation harness បានធ្វើការរួមបញ្ចូល API បានអនុវត្តការរត់ benchmark នៅខែមេសា 2026 និងបានរៀបចំការប្រមូលផ្តុំស្ថិតិ។ ជាស្ថាបនិកនៃវេទិកាតាំងពីឆ្នាំ 2019។.

GitHub អំពី Kantesti

⚡ សេចក្តីសង្ខេបរហ័ស V11 — ថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026

ពិន្ទុសមាសធាតុ 99.12% លើករណីលទ្ធផលឈាមពិតដែលមិនបញ្ចេញអត្តសញ្ញាណចំនួន 15 ករណី ក្នុងវិជ្ជាជីវៈវេជ្ជសាស្ត្រចំនួនប្រាំពីរ។.
គ្មានកំហុសវិជ្ជមានវិភាគលើស (hyperdiagnosis) លើករណី trap ទាំងពីរ (ជំងឺ Gilbert និងសំណុំតេស្តពេញលេញធម្មតារបស់មនុស្សពេញវ័យ)។.
Rubric ដែលបានចុះបញ្ជីជាមុន ត្រូវបានបង្កកក្នុងកូដប្រភព មុនការហៅម៉ាស៊ីនលើកដំបូង — មិនអាចធ្វើការកែសម្រួលក្រោយ (post-hoc) បានទេ។.
ការអនុវត្តសន្ទស្សន៍ Mentzer ឲ្យបានត្រឹមត្រូវ ដើម្បីបែងចែកភាពស្លេកស្លាំងដោយខ្វះជាតិដែក (iron deficiency anaemia) ពី beta-thalassaemia minor។.
ចំណុចបញ្ចប់សម្រាប់ប្រើប្រាស់ក្នុងផលិតកម្មតែប៉ុណ្ណោះ — គ្មានការបញ្ជូនផ្លូវពិសេស (privileged routing) ត្រូវបានវាយតម្លៃដូចដែលអតិថិជនដែលបង់ប្រាក់នឹងចូលប្រើ។.
មធ្យម latency 20.17 វិនាទី ពីដើមដល់ចប់ ដោយ 12 ក្នុងចំណោម 15 ករណីស្ថិតក្រោមគោលដៅផ្លូវសំខាន់ 20 វិនាទី។.
ឧបករណ៍ (harness) ដែលអនុញ្ញាតក្រោម MIT បានចេញផ្សាយនៅលើ GitHub ជាមួយរាល់ការឆ្លើយតបឆៅរបស់ម៉ាស៊ីន — គាំទ្រការធ្វើឲ្យអាចបង្កើតឡើងវិញដោយឯករាជ្យ។.
DOI របស់ Figshare: 10.6084/m9.figshare.32095435 · បានឆ្លុះចម្លងនៅ ResearchGate, Academia.edu, GitHub។.

ហេតុអ្វីបានជា benchmark នេះមាន និងវាតេស្តអ្វី

ការបកស្រាយលទ្ធផលឈាមដោយ AI ត្រូវបានប្រើប្រាស់កាន់តែច្រើនឡើងក្នុងដំណើរការការងារសម្រាប់អ្នកប្រើប្រាស់ និងផ្នែកព្យាបាល ប៉ុន្តែស៊ុមវាយតម្លៃដែលអាចធ្វើឲ្យអាចបង្កើតឡើងវិញបាន និងត្រូវបានរៀបចំសម្រាប់វេជ្ជសាស្ត្រមន្ទីរពិសោធន៍ នៅតែមិនសូវមាន។ សំណួរដែលសំខាន់បំផុតក្នុងបរិបទនេះ មិនមែនជាសំណួរដែលគ្របដណ្តប់ដោយស្តង់ដារសាកល្បងសំណួរ-ចម្លើយវេជ្ជសាស្ត្រទូទៅនោះទេ៖ តើម៉ាស៊ីនអាចបំបែកភាពខ្វះជាតិដែកពីលក្ខណៈ thalassaemia trait បានទេ នៅពេលដែល mean corpuscular volume ដូចគ្នា? តើវាធ្វើឲ្យមានការវិនិច្ឆ័យ Gilbert's syndrome លើស ដូចជាជំងឺរលាកថ្លើម (hepatitis) ដែរឬទេ? និងតើវាបង្កើតរោគសាស្ត្រនៅក្នុងបន្ទះពិនិត្យដែលធម្មតាទាំងស្រុងដែរឬទេ?

ការធ្វើតេស្តឈាមជាបន្ទះតែមួយជាទូទៅមានសញ្ញាគ្រប់គ្រាន់ដើម្បីគាំទ្រការបកស្រាយជាច្រើនដែលអាចប្រកួតប្រជែងគ្នា ហើយភារកិច្ចរបស់គ្រូពេទ្យអ្នកបកស្រាយ គឺត្រូវថ្លឹងថ្លែងការបកស្រាយទាំងនោះឲ្យប្រៀបធៀបគ្នា ជាជាងទៅយកចម្លើយតាមសៀវភៅសិក្សា។ ម៉ាស៊ីនដែលធ្វើបានល្អលើករណីតាមសៀវភៅសិក្សា អាចនៅតែបរាជ័យលើករណីដែលសំខាន់បំផុត៖ អន្ទាក់នៃការវិនិច្ឆ័យខុស (differential-diagnosis pitfalls) វ៉ារ្យង់ដែលមិនបង្កគ្រោះថ្នាក់ តែមើលទៅគួរឲ្យព្រួយបារម្ភនៅពេលពិនិត្យតែម្នាក់ឯង និងបន្ទះដែលធម្មតាទាំងស្រុង ដែលល្បួងជំនួយការដែលមានទំនុកចិត្តឲ្យបង្កើតជំងឺ (manufacturing pathology)។.

ការបenchmark នេះត្រូវបានបង្កើតឡើងជុំវិញរបៀបបរាជ័យទាំងនោះ។ ករណីទាំង ១៥ ត្រូវបានជ្រើសរើសសម្រាប់លក្ខណៈវិនិច្ឆ័យជាក់លាក់មួយៗ៖ ភាពមីក្រូស៊ីតូស៊ីសដោយខ្វះជាតិដែក ដែលត្រូវរក្សាឲ្យដាច់ពីលក្ខណៈ beta-thalassaemia trait ដែលមាន mean corpuscular volume ដូចគ្នា, ការបង្ហាញរបស់ជំងឺ Gilbert's syndrome ដែលភាពមិនប្រក្រតីតែមួយគត់គឺ indirect hyperbilirubinaemia ដាច់ដោយឡែក, និងបន្ទះ screening មាន ១៥ ប៉ារ៉ាម៉ែត្រ ដែល analyte ទាំងអស់ស្ថិតនៅក្នុងជួរយោងរបស់វា។ Rubric ផ្តល់ពិន្ទុឲ្យម៉ាស៊ីនដែលអានករណីនីមួយៗតាមលក្ខខណ្ឌរបស់វា ហើយដាក់ទណ្ឌកម្មម៉ាស៊ីនដែលទៅរកការវិនិច្ឆ័យដោយទំនុកចិត្ត នៅពេលដែលមិនមានការវិនិច្ឆ័យបែបនោះត្រូវបានគាំទ្រ។.

ក្នុងនាមជា Thomas Klein, MD ខ្ញុំបានជ្រើសរើសបន្ទះករណីនេះ ព្រោះនេះជាលំនាំដែលខ្ញុំឃើញជំនួយការផ្នែកមន្ទីរពិសោធន៍-វេជ្ជសាស្ត្រ ធ្វើខុសញឹកញាប់បំផុត។. របៀបបរាជ័យដែលមានតម្លៃថ្លៃ មិនមែនជា "ខកខានជំងឺកម្រមួយ" ទេ — វាគឺការបង្កើត pathology ធម្មតា នៅក្នុងអ្នកជំងឺដែលពួកគេមិនមានវា។. របស់យើង។ សុពលភាពវេជ្ជសាស្រ្ត hub ពិពណ៌នាក្របខណ្ឌទូលំទូលាយ; ទំព័រនេះពិពណ៌នាអំពីលទ្ធផលដែលបានអនុវត្តរបស់វានៅលើម៉ាស៊ីន V11។.

ការរត់យោងចុងក្រោយ — V11 (ខែមេសា 2026)

ការធ្វើ reference run សម្រាប់ខែមេសា ឆ្នាំ ២០២៦ របស់ Kantesti AI Engine V11 បានបង្កើតពិន្ទុរួមមួយជា 99.12% លើ rubric ករណី ១៥ ដែលបានចុះបញ្ជីជាមុន។ ករណីដែលជាប់អន្ទាក់ hyperdiagnosis ទាំងពីរ បានពិន្ទុដល់កម្រិតកំពូល។ Mentzer index ត្រូវបានអនុវត្តត្រឹមត្រូវលើ differential រវាង iron-deficiency និង thalassaemia។.

ពិន្ទុរួម 99.12% ១៥ ក្នុងចំណោម ១៥ ករណី បានពិន្ទុ

0.998 ពិន្ទុរចនាសម្ព័ន្ធ

0.998 ពិន្ទុផ្នែកព្យាបាល

20.17 វិនាទី មធ្យម latency

0 / 13 អន្ទាក់ false-positives

រូបមន្តពិន្ទុរួមផ្សំសមាសភាគចំនួនបី៖ ភាពស្របតាមរចនាសម្ព័ន្ធ ជាមួយនឹងផ្នែករបាយការណ៍ដែលត្រូវតែមានចំនួនប្រាំពីរ និងអនុផ្នែកដែលត្រូវតែមានចំនួនដប់ប្រាំមួយ, ភាពត្រឹមត្រូវផ្នែកព្យាបាល វាស់វែងជា keyword recall បូកនឹង scoring-system recall បូកនឹងការត្រួតពិនិត្យសុពលភាពនៃ probability-distribution latency នៃការឆ្លើយតប ធៀបនឹងគោលដៅ primary service-level ២០ វិនាទី។ ការបំបែកពិតប្រាកដត្រូវបានបង្ហាញក្នុងរូបមន្ត rubric ខាងក្រោម។.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

ចំណុះនៅសល់ 0.88 ភាគរយ ដែលនៅសល់នោះ បំបែកស្ទើរតែទាំងស្រុងទៅជាការបាត់បង់ដោយសារភាពយឺតយ៉ាវ (latency loss) — ការហៅបម្រុង Phase 2 ចំនួនបីលើក ដែលមានការរួមបញ្ចូលគ្នា (composite) ក្នុងកម្រិត -0.05 នីមួយៗ បានរួមចំណែកប្រហែល 0.60 នៃកង្វះ 0.88 ភាគរយ — មិនមែនទៅក្នុងខ្លឹមសារព្យាបាលទេ។ ម៉ាស៊ីនមិនបានខកខានការធ្វើរោគវិនិច្ឆ័យត្រឹមត្រូវលើករណីទាំង 15 នោះទេ; នៅពេលដែលវាខ្វះ វាខ្វះដោយចំណាយពេលយូរជាងគោលដៅ 20 វិនាទីសម្រាប់ផ្លូវសំខាន់ (primary-path) បន្តិច ក្នុងចំនួនតិចតួចនៃការហៅបម្រុង។.

ករណីចំនួនដប់ប្រាំ (fifteen) លើឯកទេសវេជ្ជសាស្ត្រចំនួនប្រាំពីរ

ក្រុមពិនិត្យករណី (case panel) គ្របដណ្តប់លើជំនាញចំនួនប្រាំពីរ — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — រួមទាំងករណី “hyperdiagnosis trap” ដែលបានឧទ្ទិសចំនួនពីរ។ ករណីនីមួយៗជាកំណត់ត្រាអ្នកជំងឺពិត ដែលបានធ្វើឲ្យអនាមិក (anonymised) ដកចេញពីឃ្លាំងទិន្នន័យគ្លីនិក Kantesti ក្រោមការយល់ព្រមដោយបានជូនដំណឹងជាលាយលក្ខណ៍អក្សរ។.

ការដកអត្តសញ្ញាណ (de-identification) ត្រូវបានអនុវត្តតាមវិធីសាស្ត្រ Safe Harbor: អត្តសញ្ញាណផ្ទាល់ទាំងអស់ត្រូវបានដកចេញ ឬជំនួស ហើយកំណត់ត្រានីមួយៗត្រូវបានផ្តល់លេខកូដករណីក្នុងស្តង់ដារផ្ទៃក្នុង (benchmark-internal case code) ក្នុងទម្រង់ BT-NNN-LABEL។ ដំណើរការត្រូវបានអនុវត្តតាម GDPR មាត្រា 9(2)(j) សម្រាប់ការស្រាវជ្រាវវិទ្យាសាស្ត្រ ដោយមានការការពារសមស្រប និងបទប្បញ្ញត្តិ UK GDPR ដែលស្មើគ្នា។ មិនមានព័ត៌មានដែលអាចកំណត់អត្តសញ្ញាណផ្ទាល់ខ្លួន (personally identifying information) បង្ហាញនៅទីណាមួយក្នុងឧបករណ៍សាកល្បងដែលបានបោះពុម្ព (published harness) របាយការណ៍បច្ចេកទេស (technical report) ឬសំណុំទិន្នន័យដែលបានចេញផ្សាយ (released datasets)។.

Hematology (3) BT-001, BT-006, BT-007 ភាពស្លេកស្លាំងដោយខ្វះជាតិដែក · កង្វះ B12 · Beta-thalassaemia minor

Endocrinology (3) BT-002, BT-008, BT-012 ជំងឺ Hashimoto's thyroiditis · PCOS ជាមួយនឹងភាពធន់នឹងអាំងស៊ុlin · កង្វះវីតាមីន D ធ្ងន់ធ្ងរ

Metabolic (2) BT-003, BT-013 T2DM ជាមួយនឹងរោគសញ្ញាមេតាបូលីក · Hyperuricaemia ជាមួយនឹងហានិភ័យហ្គោត

Hepatology (2) BT-004, BT-009 NAFLD / NASH · ជំងឺរលាកថ្លើមវីរុសស្រួចស្រាវ

Nephrology · Cardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD ដំណាក់កាលទី 3 · ជំងឺខ្លាញ់ក្នុងឈាមដែលបង្កើនអាថេរ៉ូជេនីក (atherogenic dyslipidaemia) · ជំងឺប្រព័ន្ធ lupus erythematosus

Trap cases (2) BT-014, BT-015 Gilbert's syndrome (hyperbilirubinaemia អន្តរកាលដោយឯកោ) · បន្ទះពិនិត្យមនុស្សពេញវ័យដែលធម្មតាទាំងស្រុង

ហេតុអ្វីបានជាការចែកចាយជាក់លាក់នេះ

ផ្នែកវិទ្យាឈាមវិទ្យាទទួលបាន ៣ ករណី ព្រោះថា ការបែងចែកតាមទំហំកោសិកាឈាមតូច (microcytic differentials) និងការបែងចែកតាមទំហំកោសិកាឈាមធំ (macrocytic differentials) គឺជាអន្ទាក់ដែលមានបរិមាណខ្ពស់បំផុតក្នុងការអនុវត្តមន្ទីរពិសោធន៍ជាក់ស្តែង។ ផ្នែកអរម៉ូនវិទ្យាទទួលបាន ៣ ករណី ព្រោះការបង្ហាញរបស់ Hashimoto's, PCOS, និងកង្វះវីតាមីន D មានរូបរាងរោគវិនិច្ឆ័យខុសៗគ្នា (ជំរុញដោយអង្គបដិប្រាណ, ជំរុញដោយសមាមាត្រអ័រម៉ូន, ជំរុញដោយសញ្ញាសម្គាល់តែមួយ)។ ផ្នែកឯកទេសដែលមានតែមួយករណីនៅតែមានន័យ ព្រោះ CKD, ហានិភ័យ ASCVD, និង SLE នីមួយៗមានប្រព័ន្ធពិន្ទុរៀងៗខ្លួន ដែលម៉ាស៊ីនគួរតែហៅប្រើ (KDIGO staging, ហានិភ័យ 10 ឆ្នាំរបស់ ASCVD, និងលក្ខណៈវិនិច្ឆ័យ 2019 EULAR/ACR សម្រាប់ SLE រៀងៗខ្លួន)។.

ការពន្យល់អំពី rubric ដែលបានចុះឈ្មោះជាមុន

ការចុះបញ្ជីជាមុន (pre-registration) គឺជាជម្រើសវិធីសាស្ត្រដ៏សំខាន់បំផុតតែមួយគត់ក្នុងការប្រកួតស្តង់ដារនេះ។ រាល់ការធ្វើរោគវិនិច្ឆ័យដែលរំពឹងទុក រាល់ប្រព័ន្ធពិន្ទុគ្លីនិក និងរាល់ផ្នែករបាយការណ៍ ត្រូវបានប្តេជ្ញាចូលទៅក្នុងកូដប្រភព មុនពេលម៉ាស៊ីនត្រូវបានហៅប្រើ. ។ ដូច្នេះ ការកែសម្រួលក្រោយការពិត (post-hoc) នៃ rubric ដើម្បីឲ្យលំអៀងទៅម៉ាស៊ីន គឺមិនអាចធ្វើបានទេ។.

សមាសធាតុ ៣ ផ្នែកបង្កើតជាពិន្ទុរួម។ សមាសធាតុរចនាសម្ព័ន្ធ មានចំនួន ៣៥ ភាគរយ និងវាស់ថាតើម៉ាស៊ីនបានត្រឡប់ផ្នែករបាយការណ៍ដែលត្រូវតែមានចាំបាច់ទាំងប្រាំពីរ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) និងផ្នែករងដែលត្រូវតែមានចាំបាច់ចំនួនដប់ប្រាំមួយនៅក្នុងពួកវាឬអត់។ ការមានវត្តមាននៃផ្នែក (section presence) មានទម្ងន់ ៤០ ភាគរយ និងការមានវត្តមាននៃផ្នែករង (subsection presence) មានទម្ងន់ ៦០ ភាគរយ ក្នុងការគណនារចនាសម្ព័ន្ធ។.

នេះ។ សមាសធាតុគ្លីនិក មានចំនួន ៥៥ ភាគរយ និងរួមបញ្ចូល ៣ ចំណុច៖ ការចងចាំពាក្យគន្លឹះសម្រាប់រោគវិនិច្ឆ័យ (70 ភាគរយ នៃពិន្ទុរងគ្លីនិក), ការចងចាំប្រព័ន្ធពិន្ទុ (20 ភាគរយ — តើម៉ាស៊ីនគណនា Mentzer, FIB-4, HOMA-IR, ហានិភ័យ ASCVD, KDIGO staging, លក្ខណៈវិនិច្ឆ័យ EULAR/ACR នៅពេលពាក់ព័ន្ធឬអត់), និងការត្រួតពិនិត្យភាពត្រឹមត្រូវនៃផលបូកប្រូបាប៊ីលីតេ (10 ភាគរយ — ប្រូបាប៊ីលីតេនៃ differential ត្រូវតែបូកសរុបឲ្យស្ថិតក្នុងចន្លោះ [90, 110])។ សម្រាប់ករណីអន្ទាក់ (trap cases) នឹងដកការពិន័យសម្រាប់ hyperdiagnosis ច្បាស់លាស់ រហូតដល់ 0.30 ដោយគណនាជា 0.10 ក្នុងមួយសញ្ញាធាតុ pathology ដែលបង្កើតឡើង (fabricated pathology flag) ហើយកំណត់អតិបរមា ៣ សញ្ញា។.

នេះ។ សមាសធាតុពេលវេលាយឺត (latency component) មានចំនួន ១០ ភាគរយ។ ការឆ្លើយតបក្រោម ២០ វិនាទី ទទួលបានពេញ 0.10, ក្រោម ៤០ វិនាទី ទទួលបាន 0.05, និងអ្វីដែលយឺតជាងនេះទទួលបាន ០។ គោលដៅ ២០ វិនាទី សំដៅលើគោលបំណងកម្រិតសេវា (service-level objective) សម្រាប់ការផលិត (production primary-path service-level objective); ពិដាន ៤០ វិនាទី សំដៅលើថវិកាបម្រុងសម្រាប់ Phase 2 ក្នុងករណីហៅម៉ាស៊ីនធ្ងន់ៗ។.

អ្វីដែល pre-registration រារាំង

ការប្រកួតស្តង់ដារដោយខ្លួនឯង (first-party benchmarks) តែងតែមានឈ្មោះល្បីថា ធ្វើឲ្យលេខរបស់ខ្លួនហើម ដោយសារការកែ rubric ក្រោយការពិត។ លំនាំនេះស្ទើរតែដូចគ្នាជានិច្ច៖ ក្រុមដំណើរការម៉ាស៊ីន មើលកន្លែងដែលវាធ្វើមិនបានល្អ បន្ទាប់មកក៏កែសម្រួល rubric ដោយស្ងៀមស្ងាត់ ដើម្បីឲ្យផ្នែកដែលធ្វើមិនបានល្អ មានទម្ងន់តិច។ ដោយប្តេជ្ញា rubric ទៅក្នុងកូដប្រភព មុនពេលហៅម៉ាស៊ីនលើកដំបូង និងបោះពុម្ព harness ក្រោមអាជ្ញាប័ណ្ណ MIT ការកែសម្រួលនោះក្លាយជាអាចមើលឃើញនៅក្នុង version control។ អ្នកណាក៏អាច clone repository ពិនិត្យថ្ងៃបង្កើត rubric និងផ្ទៀងផ្ទាត់ថា លទ្ធផលម៉ាស៊ីនមិនត្រូវបានប្រើដើម្បីរៀបចំការវាយពិន្ទុ។.

ករណីជាមួយអន្ទាក់នៃការធ្វើរោគវិនិច្ឆ័យលើស (Hyperdiagnosis) — ហេតុអ្វីការហៅច្រើនពេក (over-calling) ជារបៀបបរាជ័យពិត

ការហៅ pathology យ៉ាងខ្លាំងលើអេក្រង់ធម្មតា គឺជារបៀបបរាជ័យដែលបានកត់ត្រាទុកសម្រាប់ជំនួយការផ្នែកវេជ្ជសាស្ត្រដែលផ្តល់ជូនដល់អ្នកប្រើប្រាស់។ តម្លៃបន្តបន្ទាប់រួមមាន ការស៊ើបអង្កេតមិនចាំបាច់ ការព្រួយបារម្ភរបស់អ្នកជំងឺ និងការពិនិត្យ/ព្យាបាលដោយមិនចាំបាច់ (iatrogenic workup)។ ករណីអន្ទាក់ចំនួនពីរនៅក្នុងការប្រកួតស្តង់ដារនេះ ត្រូវបានរចនាឡើងដើម្បីធ្វើឲ្យរបៀបបរាជ័យនោះអាចមើលឃើញ និងអាចវាយពិន្ទុបាន។.

🟡 អន្ទាក់ 1 — BT-014-GILBERT

ការបង្ហាញ (Presentation)។. បុរសអាយុ ២៤ ឆ្នាំ ដែលមាន bilirubin សរុប 2.4 mg/dL។ សមាមាត្រផ្ទាល់ (direct fraction) មានលក្ខណៈធម្មតា, transaminases និង alkaline phosphatase ស្ថិតនៅក្នុងចន្លោះតម្លៃយោងរបស់ពួកវា, reticulocytes មិនមានអ្វីគួរឲ្យកត់សម្គាល់, និង haptoglobin និង LDH បដិសេធ haemolysis។.

ការបកស្រាយត្រឹមត្រូវ។. Gilbert's syndrome — polymorphism UGT1A1 ដែលជាជំងឺមិនបង្កគ្រោះថ្នាក់។ ការបកស្រាយមិនគួរហៅ hepatitis, cirrhosis, haemolytic anaemia, ឬ biliary obstruction។.

លទ្ធផល V11។. Composite 1.000។ គ្មានសញ្ញា over-diagnosis ដែលតាមដានទាំងប្រាំមួយ បានបង្ហាញជារោគវិនិច្ឆ័យសកម្មទេ។.

🟡 អន្ទាក់ 2 — BT-015-HEALTHY

ការបង្ហាញ (Presentation)។. ស្ត្រីអាយុ ៣៥ ឆ្នាំ ជាមួយនឹងបន្ទះអេក្រង់ស្ដង់ដារ ១៥ ប៉ារ៉ាម៉ែត្រ។ អ្នកវិភាគ (analyte) ទាំងអស់ ស្ថិតយ៉ាងស្រួលនៅក្នុងចន្លោះតម្លៃយោងរបស់វា។.

ការបកស្រាយត្រឹមត្រូវ។. ការធានាឡើងវិញ និងការថែរក្សារបៀបរស់នៅ។ ការបកស្រាយមិនគួរបង្កើតជំងឺស្ថិតនៅដែនកំណត់ (borderline pathology) ដើម្បីឲ្យមើលទៅមានប្រយោជន៍ខាងវេជ្ជសាស្ត្រតាមបែបគ្លីនិកនោះទេ។.

លទ្ធផល V11។. សមាសធាតុ 1.000។ ក្នុងចំណោមសញ្ញាព្រមាននៃការធ្វើរោគវិនិច្ឆ័យលើស (over-diagnosis) ដែលត្រូវបានតាមដានទាំងប្រាំពីរ — ជំងឺទឹកនោមផ្អែម (diabetes), ភាពស្លេកស្លាំង (anaemia), ជំងឺក្រពេញធីរ៉ូអ៊ីដថយ (hypothyroidism), ជំងឺខ្លាញ់ក្នុងឈាមខ្ពស់ (dyslipidaemia), ជំងឺរលាកថ្លើម (hepatitis), ជំងឺតម្រងនោម (kidney disease), កង្វះ (deficiency) — មិនមានមួយណាលេចឡើងជារោគវិនិច្ឆ័យសកម្មឡើយ។.

នៅទាំងពីរត្រាប់ (traps) មានការត្រួតពិនិត្យសញ្ញាព្រមាននៃការធ្វើរោគវិនិច្ឆ័យលើស (hyperdiagnosis) ចំនួនដប់បី។ មិនមានសញ្ញាណាមួយត្រូវបានបង្កឲ្យសកម្មឡើយ។ នេះជាលទ្ធផលដែលសំខាន់បំផុតសម្រាប់វេជ្ជបណ្ឌិតណាម្នាក់ដែលកំពុងពិចារណាប្រើម៉ាស៊ីន AI ជាឧបករណ៍សម្រាប់ការបែងចែកអាទិភាព (triage) ឬមុនការពិគ្រោះ។ ប្រព័ន្ធមិនបានបង្កើតជំងឺណាមួយឡើយ នៅពេលដែលមិនមានជំងឺនោះ.

សន្ទស្សន៍ Mentzer: បំបែកការខ្វះជាតិដែក (iron deficiency) ពីលក្ខណៈ thalassaemia trait

ការរកឃើញដែលមានតម្លៃខ្ពស់ទីពីរ ទាក់ទងនឹងការផ្គូផ្គងរវាង case BT-001 (ភាពស្លេកស្លាំងដោយកង្វះជាតិដែក) ជាមួយ case BT-007 (beta-thalassaemia minor)។ ទាំងពីរមាន microcytosis ហើយជាឧបសគ្គដែលគេស្គាល់ច្បាស់សម្រាប់អ្នកចាត់ថ្នាក់ (classifiers) ដែលមិនទាន់មានបទពិសោធន៍។ សន្ទស្សន៍ Mentzer ដែលគណនាជា MCV ចែកនឹងចំនួន RBC មានតម្លៃលើស 13 ក្នុងកង្វះជាតិដែក ហើយធ្លាក់ក្រោម 13 ក្នុងលក្ខណៈ thalassaemia trait។.

នៅ BT-001 អ្នកជំងឺជាស្ត្រីអាយុ 34 ឆ្នាំ មានកម្រិត hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL និង TIBC ខ្ពស់។ សន្ទស្សន៍ Mentzer ប្រហែល 17.7 គាំទ្រកង្វះជាតិដែកពិតប្រាកដ (absolute iron deficiency)។ នៅ BT-007 អ្នកជំងឺជាបុរសអាយុ 28 ឆ្នាំ មាន microcytosis (MCV 65.8 fL) ប៉ុន្តែមានចំនួន RBC ខ្ពស់ 6.2, RDW ធម្មតា, ferritin ធម្មតា និង HbA2 5.6 ភាគរយ។ សន្ទស្សន៍ Mentzer ប្រហែល 10.6 បង្ហាញ thalassaemia trait ហើយ HbA2 ខ្ពស់បញ្ជាក់ beta-thalassaemia minor។.

ភាពស្លេកស្លាំងដោយកង្វះជាតិដែក Mentzer > 13 Ferritin ទាប, TSAT ទាប, TIBC ខ្ពស់, RDW ខ្ពស់

Thalassaemia trait (លក្ខណៈ thalassaemia) Mentzer < 13 Ferritin ធម្មតា, RDW ធម្មតា, HbA2 ខ្ពស់ (>3.5%), ចំនួន RBC ខ្ពស់

ករណីទាំងពីរទទួលពិន្ទុ 1.000។ ម៉ាស៊ីនបានហៅសន្ទស្សន៍ Mentzer យ៉ាងច្បាស់នៅក្នុងការបកស្រាយទាំងពីរ ហើយបានត្រឡប់រោគវិនិច្ឆ័យត្រឹមត្រូវក្នុងករណីនីមួយៗ។. នេះជាលទ្ធផលដែលធានាឡើងវិញផ្នែកគ្លីនិកច្រើនបំផុតតែមួយ ក្នុងការប្រកួតវាស់ស្ទង់ទាំងមូល, ព្រោះការចាត់ថ្នាក់ខុស thalassaemia trait ជា iron deficiency នាំឲ្យផ្តល់ថ្នាំបន្ថែមជាតិដែកមិនសមស្រប និងខកខានឱកាសស្វែងរកតាមគ្រួសារ (family-screening) ហើយការចាត់ថ្នាក់ខុស iron deficiency ជា thalassaemia ធ្វើឲ្យពន្យារពេលការព្យាបាលជំនួសដែលងាយស្រួលត្រង់ៗ។ Our កម្រិត ferritin ពន្យល់បរិបទនៃការបែងចែកជំងឺទូលំទូលាយជាងនេះ។.

លទ្ធផលតាមករណីពីការប្រតិបត្តិខែមេសា ឆ្នាំ 2026

ក្នុងចំណោម 15 ករណី មាន 12 ករណីទទួលបានពិន្ទុសមាសធាតុ (composite) ដល់កម្រិតពិដាន 1.000 លើ path ចម្បង (primary)។ ករណី 3 ត្រូវបានបម្រើតាមការបម្រុងទុក Phase 2 (Phase 2 fallback) ដោយបាត់បង់ bonus ភាពយឺត (latency) 0.05 ខណៈដែលរក្សាបានទាំងអស់នូវខ្លឹមសារផ្នែកគ្លីនិក និងរចនាសម្ព័ន្ធ។ ករណីមួយខ្វះផ្នែករង (subsection) ដែលត្រូវតែមានតែមួយ។ មួយទៀតត្រឡប់មកវិញនូវសរុបនៃការចែកចាយប្រូបាប៊ីលីតេ (probability distribution) ដែលថយចុះបន្តិចបន្តួច។.

លេខសម្គាល់ករណី (Case ID) ជំនាញ (Specialty) ពិន្ទុរួម Latency Path

BT-001-IDAឈាមវិទ្យា1.00017.8 sprimary

BT-006-B12ឈាមវិទ្យា1.00018.4 វិនាទីprimary

BT-007-THALឈាមវិទ្យា1.00017.0 វិនាទីprimary

BT-002-HASHរោគវិទ្យា0.95037.0 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របន្ទាន់

BT-008-PCOSរោគវិទ្យា0.98718.6 វិនាទីprimary

BT-003-T2DMមេតាបូលីស1.00019.1 វិនាទីprimary

BT-013-GOUTមេតាបូលីស1.00019.4 វិនាទីprimary

BT-004-NAFLDជំនាញថ្លើម1.00019.6 វិនាទីprimary

BT-009-VIRHEPជំនាញថ្លើម0.95023.4 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របន្ទាន់

BT-014-GILBERTអន្ទាក់1.00018.9 វិនាទីprimary

BT-005-CKDវិទ្យាសាស្ត្រតម្រងនោម1.00017.4 វិនាទីprimary

BT-010-ASCVDផ្នែកជំងឺបេះដូង1.00019.7 វិនាទីprimary

BT-011-SLEវិទ្យារោគសន្លាក់ឆ្អឹង0.98118.2 វិនាទីprimary

BT-012-VITDរោគវិទ្យា1.00019.3 វិនាទីprimary

BT-015-HEALTHYអន្ទាក់1.00018.7 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របន្ទាន់

ករណី PCOS (BT-008) បានបាត់បង់ផ្នែករងដែលត្រូវតែមានមួយផ្នែកក្នុងរចនាសម្ព័ន្ធការឆ្លើយតប — ដប់ប្រាំពីរនៃដប់ប្រាំមួយ ជំនួសឲ្យដប់ប្រាំមួយនៃដប់ប្រាំមួយ — ដែលកាត់បន្ថយពិន្ទុរចនាសម្ព័ន្ធពី 1.000 ទៅ 0.963។ ករណី SLE (BT-011) បានត្រឡប់មកវិញនូវផលបូកនៃការចែកចាយប្រូបាប៊ីលីតេដែលថយចុះបន្តិច ដែលធ្វើឲ្យពិន្ទុផ្នែកគ្លីនិកធ្លាក់ដល់ 0.965 ខណៈដែលរក្សាបានរាល់ពាក្យគន្លឹះវិនិច្ឆ័យ និងប្រព័ន្ធពិន្ទុទាំងអស់។ គ្មានករណីណាមួយដែលមិនល្អទាំងស្រុងនោះ បាត់បង់ការវិនិច្ឆ័យត្រឹមត្រូវឡើយ។.

អ្វីដែលពិន្ទុចំណងជើងមិនបានប្រាប់យើង

ពិន្ទុរួម 99.12 ភាគរយ ក្រោមក្របខណ្ឌដែលបានចុះបញ្ជីជាមុនជាក់លាក់នេះ បង្ហាញពីសមត្ថភាពជិតដល់កម្រិតកំពូល ប៉ុន្តែវាសមនឹងការរៀបរាប់ឲ្យបានប្រុងប្រយ័ត្ន។ លទ្ធផលពិពណ៌នាអំពីអាកប្បកិរិយារបស់ម៉ាស៊ីនប្រឆាំងនឹងករណីដែលបានធ្វើអនាមិកចំនួនដប់ប្រាំពីរ ដែលបានជ្រើសយ៉ាងប្រុងប្រយ័ត្ន ត្រូវបានវាយតម្លៃម្តងៗ និងប្រឆាំងនឹងក្របខណ្ឌតែមួយ។ យើងបញ្ជាក់ឲ្យច្បាស់អំពីអ្វីដែលលេខនេះបង្ហាញ និងមិនបង្ហាញ។.

ពិន្ទុនេះបញ្ជាក់ថា ម៉ាស៊ីន V11 ដោះស្រាយបានត្រឹមត្រូវនូវលំនាំវិនិច្ឆ័យដែលបានជ្រើសសម្រាប់ការវាយតម្លៃនេះ ដោយប្រើវិធីសាស្ត្រដែលបានបោះពុម្ព និងអាចធ្វើឡើងវិញបាន។ វាមិនបាននិយាយថា ម៉ាស៊ីនត្រឹមត្រូវលើរាល់បន្ទះពិនិត្យឈាមដែលមាននៅក្នុងពិភពពិតនោះទេ។ វាមិនបាននិយាយថា ម៉ាស៊ីនគួរតែជំនួសការវិនិច្ឆ័យរបស់គ្រូពេទ្យទេ។ ហើយវាមិនបាននិយាយថា ម៉ាស៊ីនមានសមត្ថភាពលើសប្រព័ន្ធ AI ផ្សេងទៀតទេ — ការវិភាគប្រៀបធៀបជាមួយម៉ាស៊ីនផ្សេងៗត្រូវបានដាក់ចេញពីវិសាលភាពសម្រាប់របាយការណ៍នេះដោយចេតនា។.

អ្វីដែលពិន្ទុនេះបង្ហាញច្បាស់គឺជាមូលដ្ឋាន (baseline)។ នៅពេលដែលក្របខណ្ឌ និងឧបករណ៍ (harness) ត្រូវបានបង្ហាញជាសាធារណៈ កំណែអនាគតនៃម៉ាស៊ីនអាចត្រូវបានវាយតម្លៃធៀបនឹងករណីដប់ប្រាំពីរដូចគ្នា ហើយគម្លាតរវាងពិន្ទុដែលបានបោះពុម្ព និងការរត់បន្ទាប់ណាមួយ ក៏អាចវាស់វែងបានផងដែរ។ នេះជាតម្លៃនៃការចុះបញ្ជីជាមុន៖ វាបម្លែងការអះអាងអំពីសមត្ថភាព ទៅជាការអះអាងដែលអាចធ្វើតេស្តបាន.

របៀបធ្វើឲ្យស្រដៀងនឹងស្តង់ដារនេះឡើងវិញក្នុងរយៈពេល 10 នាទី

ការធ្វើឡើងវិញ ត្រូវការតែគូសមត្ថភាព API Kantesti និងបរិស្ថាន Python 3.10 ឬក្រោយជាងនេះ ដែលមាន requests និង reportlab បានដំឡើង។ ឧបករណ៍ពេញលេញ (harness) គឺជាម៉ូឌុល Python តែមួយដែលមានខ្លឹមសារគ្រប់គ្រាន់ក្នុងខ្លួន និងត្រូវបានចេញផ្សាយក្រោមអាជ្ញាប័ណ្ណ MIT។.

💻 GitHub harness ដែលមានអាជ្ញាប័ណ្ណ MIT · ការឆ្លើយតបដើម · ការរត់យោង 🔗 DOI របស់ Figshare 10.6084/m9.figshare.32095435 · កំណត់ត្រាសិក្សាដែលជាស្តង់ដារ (canonical academic record) 🎓 ច្រកស្រាវជ្រាវ Publication 404175463 · ស្រទាប់ការរកឃើញសិក្សា (academic discovery layer) 📄 Academia.edu Paper 165956808 · ស្រទាប់ការរកឃើញសិក្សា (academic discovery layer)

បួនជំហានសម្រាប់ការរត់ថ្មី

មួយ។. ក្លូន (Clone) ឃ្លាំង (repository)៖ git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ពីរ។. ដំឡើងការពឹងផ្អែកជាមួយ pip install -r requirements.txt. បី។. កំណត់ KANTESTI_USERNAME និង KANTESTI_PASSWORD ជាអថេរបរិស្ថាន — លិខិតសម្គាល់ត្រូវបានអាននៅពេលដំណើរការ ហើយមិនមានការកំណត់បែប hard-code នៅក្នុងស្គ្រីប។. បួន។. ដំណើរការ python benchmark_bloodtest.py ហើយពិនិត្យមើលអត្ថបទបង្កើតចំនួនបួនដែលបញ្ចេញទៅកាន់ថតការងារ៖ CSV scorecard, JSON scorecard, ការបោះចោល JSON ពេញលេញរួមទាំងការឆ្លើយតបដើមរបស់ម៉ាស៊ីន (raw engine responses) និងរបាយការណ៍ Markdown ដែលអានបានដោយមនុស្ស។.

លទ្ធផលយោងពីថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 ត្រូវបានរក្សាទុកក្នុង results/ ថតនៃឃ្លាំង (repository)។ ការដំណើរការថ្មីនឹងបង្កើត scorecard ថ្មីដែលមានស្លាកពេលវេលា (timestamp) ខណៈដែលការដំណើរការយោងត្រូវបានទុកឲ្យនៅដដែល។ ប្រសិនបើការដំណើរការរបស់អ្នកបង្កើតលទ្ធផលខុសគ្នាយ៉ាងមានន័យ សូមបើកបញ្ហា (GitHub issue) ជាមួយ timestamp នៃការដំណើរការ និងកំណែម៉ាស៊ីន (engine version) ដែលត្រូវបានត្រឡប់ក្នុង metadata នៃការឆ្លើយតប។.

ដែនកំណត់ និងការងារនាពេលអនាគត

ដែនកំណត់ចំនួនបួនត្រូវការការទទួលស្គាល់ឲ្យច្បាស់៖ ទំហំគំរូ, ការវាយតម្លៃតែម្តង (single-shot), វិសាលភាពម៉ាស៊ីនតែមួយ (single-engine scope), និងប្រភពទិន្នន័យតែមួយ (single-source data origin)។ នីមួយៗកំពុងត្រូវបានដោះស្រាយក្នុងការងារតាមដានបន្តបន្ទាប់។.

ទំហំគំរូ។. ករណីចំនួនដប់ប្រាំ (fifteen) ក្នុងធុងឯកទេសចំនួនប្រាំបី (eight specialty buckets) គ្រប់គ្រាន់សម្រាប់ការបង្ហាញគំនិត (proof of concept) ប៉ុន្តែមិនគ្រប់គ្រាន់សម្រាប់ការវិភាគតាមក្រុមរងក្នុងឯកទេសនីមួយៗទេ។ គ្រោងពង្រីកទៅកាន់ករណីចំនួនហាសិប (fifty) ហើយនឹងរួមបញ្ចូល coagulation panels, ការពិនិត្យរកជំងឺមហារីកឈាម (haematological malignancy screening), pregnancy panels និងការបង្ហាញរបស់កុមារ (paediatric presentations)។.

ការវាយតម្លៃតែម្តង (single-shot evaluation)។. ករណីនីមួយៗត្រូវបានវាយតម្លៃតែម្តង។ ម៉ូដែលភាសាធំៗបង្ហាញភាពប្រែប្រួលលទ្ធផល (output variance) ដែលមិនមែនតិចតួច ទោះបីជាកំណត់សីតុណ្ហភាពគំរូទាបក៏ដោយ ដូច្នេះពិធីសាស្ត្រវាយតម្លៃច្រើនដង (multi-run protocol) ដោយមានការវាយតម្លៃចំនួនប្រាំ (five evaluations) ក្នុងមួយករណី និងការរាយការណ៍អំពីភាពប្រែប្រួល គឺជាជំហានបន្ទាប់ដែលសមហេតុផល។.

វិសាលភាពម៉ាស៊ីនតែមួយ (single-engine scope)។. របាយការណ៍នេះពិពណ៌នាអំពីម៉ាស៊ីនមួយ។ ការវិភាគប្រៀបធៀបជាមួយប្រព័ន្ធ AI ផ្សេងៗ ស្ថិតក្រៅវិសាលភាពនៅទីនេះ។ យើងអាចបន្តវាជាការសិក្សាឯករាជ្យដាច់ដោយឡែកជាមួយនឹងវិធីសាស្ត្រសមស្រប។.

ប្រភពទិន្នន័យតែមួយ (single-source data origin)។. ករណីចំនួនដប់ប្រាំ (fifteen) គឺជាកំណត់ត្រាអ្នកជំងឺពិតដែលបានធ្វើអនាមិក (anonymised) ដកស្រង់ពីឃ្លាំងគ្លីនិកតែមួយ។ វាតំណាងឲ្យគំរូដែលបានរៀបចំ (curated sample) ហើយមិនមែនជាការចាប់យកដោយចៃដន្យដែលតំណាងឲ្យប្រជាជនទាំងមូលទេ។ ការពង្រីកការវាយតម្លៃទៅទិន្នន័យពីច្រើនមជ្ឈមណ្ឌល (multi-centre data) ស្ថិតក្នុងផែនការផ្លូវ (roadmap)។.

ការពង្រីកដែលមានឥទ្ធិពលខ្លាំងបំផុតដែលបានគ្រោងទុកគឺភាពស្មើគ្នាច្រើនភាសា (multi-language parity)។ ម៉ាស៊ីន AI Kantesti បម្រើអ្នកប្រើប្រាស់ក្នុង 75+ ភាសា ហើយការដំណើរការកម្មវិធីសាកល្បង (harness) ដូចគ្នា ដែលមានករណីចំនួនដប់ប្រាំ (fifteen-case) នៅក្នុងទួរគី (Turkish), អាល្លឺម៉ង់ (German), អេស្ប៉ាញ (Spanish), បារាំង (French) និងអារ៉ាប់ (Arabic) នឹងវាស់គុណភាពលទ្ធផលនៅទូទាំងភាសាដែលម៉ាស៊ីនគាំទ្រ។ យើងនឹងបោះពុម្ពការដំណើរការសម្រាប់ភាសានីមួយៗ ដោយមាន DOI ផ្ទាល់ខ្លួន និងសាខា (branch) នៃ harness។.

សាកល្បងម៉ាស៊ីនដូចគ្នាដែលសម្រេចបានពិន្ទុសរុប 99.12%

ផ្ទុកបន្ទះពិនិត្យឈាមផ្ទាល់ខ្លួនរបស់អ្នកឡើងទៅកាន់ចំណុចបញ្ចប់ (endpoint) ផលិតកម្មដូចគ្នាដែលត្រូវបានវាយតម្លៃក្នុងការបenchmark នេះ។ អ្នកប្រើប្រាស់ជាង 2 លាននាក់នៅទូទាំងពិភពលោកប្រើម៉ាស៊ីន AI Kantesti ដើម្បីបកស្រាយសញ្ញាសម្គាល់ (biomarkers) ជាង 15,000 ប្រភេទក្នុង 75+ ភាសា។.

🔬 សាកល្បងការបង្ហាញដោយឥតគិតថ្លៃ

ផ្នែកបន្ថែម Chrome ហាងកម្មវិធី ហ្គូហ្គល ផេយ

📚 របៀបដកស្រង់ (Cite) ការបenchmark នេះ

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {ការធ្វើឱ្យមានសុពលភាពផ្នែកព្យាបាលនៃម៉ាស៊ីន AI Kantesti (2.78T)
                 លើករណីពិនិត្យឈាមដែលបានធ្វើឱ្យអនាមិកចំនួន 15 ករណី៖
                 ការបenchmark ដោយផ្អែកលើ Rubric ដែលបានចុះបញ្ជីជាមុន
                 រួមបញ្ចូលករណី Trap នៃ Hyperdiagnosis
                 នៅទូទាំងវិជ្ជាជីវៈវេជ្ជសាស្ត្រចំនួនប្រាំពីរ},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). ការធ្វើឱ្យមានសុពលភាពផ្នែកព្យាបាលនៃម៉ាស៊ីន AI Kantesti (2.78T) លើករណីពិនិត្យឈាមដែលបានធ្វើឱ្យអនាមិកចំនួន 15 ករណី៖ ការបenchmark ដោយផ្អែកលើ Rubric ដែលបានចុះបញ្ជីជាមុន រួមបញ្ចូលករណី Trap នៃ Hyperdiagnosis នៅទូទាំងវិជ្ជាជីវៈវេជ្ជសាស្ត្រចំនួនប្រាំពីរ (Technical Report V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 ការងារធ្វើឱ្យមានសុពលភាព Kantesti ដែលពាក់ព័ន្ធ

Klein, T. (2025)។. ក្របខ័ណ្ឌសុពលភាពគ្លីនិកសម្រាប់ការបកស្រាយតេស្តឈាមដែលដំណើរការដោយ AI៖ វិធីសាស្រ្តផ្ទៀងផ្ទាត់បីដង រង្វាស់ការអនុវត្ត និងពិធីការធានាគុណភាព.។ Kantesti ការស្រាវជ្រាវវេជ្ជសាស្ត្រដោយ AI។.

🎓 ច្រកស្រាវជ្រាវ

📖 ឯកសារយោងវិធីសាស្ត្រខាងក្រៅ

Mentzer, W. C. (1973). ការបែងចែកភាពខ្វះជាតិដែក (Iron Deficiency) ពីលក្ខណៈ Thalassaemia Trait. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). លក្ខណៈវិនិច្ឆ័យសម្រាប់ Systemic Lupus Erythematosus របស់ European League Against Rheumatism / American College of Rheumatology ឆ្នាំ 2019. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ក្រសួងអប់រំយុវជន និងកីឡា 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test for Large Language Models. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%ពិន្ទុសរុប (Composite Score)

15ករណីដែលបានពិន្ទុ (Cases Scored)

7វិជ្ជាជីវៈ (Specialties)

0Trap False-Positives

សំណួរដែលសួរញឹកញាប់

ម៉ាស៊ីន AI Kantesti មានភាពត្រឹមត្រូវប៉ុណ្ណាលើករណីពិនិត្យឈាមពិតៗ?

នៅលើ rubric ដែលបានចុះបញ្ជីជាមុននៃករណីពិនិត្យឈាមពិតដែលបានធ្វើឱ្យអនាមិកចំនួន 15 ករណី ក្នុងវិជ្ជាជីវៈវេជ្ជសាស្ត្រចំនួនប្រាំពីរ ម៉ាស៊ីន AI Kantesti V11 សម្រេចបានពិន្ទុសរុប 99.12 ភាគរយ ដោយគ្មាន hyperdiagnosis false-positives ទាំងលើករណី trap និងមានមធ្យមពេលវេលាឆ្លើយតប 20.17 វិនាទី។ សន្លឹកពិន្ទុពេញលេញសម្រាប់ករណីនីមួយៗ ត្រូវបានបោះពុម្ពនៅ Figshare ក្រោម DOI 10.6084/m9.figshare.32095435 និងនៅ GitHub ក្រោមអាជ្ញាប័ណ្ណ MIT។.

តើម៉ាស៊ីន AI Kantesti ត្រូវបានបញ្ជាក់ជាផ្នែកវេជ្ជសាស្ត្រដោយការស្រាវជ្រាវជាក់ស្តែងដែរឬទេ?

បាទ/ចាស។ ម៉ាស៊ីននេះត្រូវបានបញ្ជាក់ជាលក្ខណៈគ្លីនិក (clinically validated) ធៀបនឹង rubic ដែលត្រូវបានបង្កកក្នុងកូដប្រភព មុនពេលម៉ាស៊ីនត្រូវបានដំណើរការ ដោយបានវាយតម្លៃលើករណីពិនិត្យឈាមដែលមិនបញ្ចេញអត្តសញ្ញាណចំនួន 15 ករណី ក្នុងវិស័យ hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology និង rheumatology។ ការត្រួតពិនិត្យផ្នែកគ្លីនិកត្រូវបានផ្តល់ដោយវេជ្ជបណ្ឌិត Thomas Klein, MD (ORCID 0009-0009-1490-1321) ជាអ្នកឯកទេសជំងឺឈាមដែលទទួលស្គាល់ដោយក្រុមប្រឹក្សា និងជានាយកវេជ្ជសាស្ត្រកំពូល (Chief Medical Officer) នៅ Kantesti AI។.

តើករណី “អន្ទាក់នៃការធ្វើរោគវិនិច្ឆ័យលើស” (hyperdiagnosis trap) គឺជាអ្វី?

ករណី “hyperdiagnosis trap” គឺជាស្ថានការណ៍គ្លីនិកដែលត្រូវបានរចនាឡើងជាពិសេស ដើម្បីរកឃើញអាកប្បកិរិយាធ្វើរោគវិនិច្ឆ័យលើស (over-diagnosis) នៅក្នុងម៉ាស៊ីន AI។ ការប្រៀបធៀប (benchmark) Kantesti V11 ប្រើករណីបែបនេះចំនួនពីរ។ ករណីទីមួយគឺ “isolated indirect hyperbilirubinaemia” ដែលស្របនឹងរោគសញ្ញា Gilbert ដែលការបកស្រាយត្រឹមត្រូវគឺភាពខុសប្លែកហ្សែន UGT1A1 ដែលមិនបង្កគ្រោះថ្នាក់ (benign polymorphism) មិនមែនជាជំងឺរលាកថ្លើម (hepatitis) ឬការបំផ្លាញកោសិកាឈាមក្រហម (haemolysis) ទេ។ ករណីទីពីរគឺ “fully normal adult screening panel” ដែលលទ្ធផលត្រឹមត្រូវគឺការធានាថាមិនមានអ្វីគួរឱ្យព្រួយបារម្ភ និងការថែរក្សារបៀបរស់នៅ (lifestyle maintenance) មិនមែនជាការបង្កើតរោគសញ្ញា “borderline pathology” ឡើយ។.

តើការវាយតម្លៃម៉ាស៊ីន AI Kantesti អាចធ្វើឡើងវិញបានដែរឬទេ?

ឧបករណ៍សម្រាប់វាយតម្លៃពេញលេញ (full evaluation harness) ត្រូវបានចេញផ្សាយក្រោមអាជ្ញាប័ណ្ណ MIT ជា Python module តែមួយដែលមានលក្ខណៈបិទបាំងខ្លួន (self-contained)។ ការចម្លង (reproduction) ត្រូវការតែគូសម្រង់អត្តសញ្ញាណ API របស់ Kantesti និង Python 3.10 ឬថ្មីជាងនេះ។ កូដ ការកំណត់និយមន័យករណី (case definitions) និងរាល់ការឆ្លើយតបឆៅរបស់ម៉ាស៊ីនពីការរត់យោង (reference run) ខែមេសា 2026 មាននៅ github.com/emirhanai/kantesti-blood-test-benchmark ហើយត្រូវបានចម្លង (mirrored) នៅ Figshare, ResearchGate និង Academia.edu។.

តើម៉ាស៊ីន AI Kantesti បែងចែកភាពខ្វះជាតិដែកពីលក្ខណៈសម្បត្តិ beta-thalassaemia យ៉ាងដូចម្តេច?

ម៉ាស៊ីននេះអនុវត្តសន្ទស្សន៍ Mentzer (Mentzer index) ដែលគណនាជា “mean corpuscular volume” ចែកនឹងចំនួនកោសិកាឈាមក្រហម (red blood cell count)។ សន្ទស្សន៍ Mentzer លើសពី 13 គាំទ្រការខ្វះជាតិដែកបណ្តាលឲ្យស្លេកស្លាំង (iron deficiency anaemia) ខណៈតម្លៃក្រោម 13 គាំទ្រលក្ខណៈ “beta-thalassaemia trait”។ នៅក្នុង benchmark V11 ករណីទាំងពីរត្រូវបានចាត់ថ្នាក់ត្រឹមត្រូវ ដោយមានការគណនាសន្ទស្សន៍ Mentzer យ៉ាងច្បាស់ និងគាំទ្រដោយបរិបទ ferritin, RDW និង HbA2។.

តើខ្ញុំអាចរកឃើញទិន្នន័យមូលដ្ឋានសម្រាប់ការប្រៀបធៀប (raw benchmark data) និងកូដប្រភព (source code) នៅឯណា?

របាយការណ៍បច្ចេកទេស (technical report) ត្រូវបានដាក់នៅ Figshare ក្រោម DOI 10.6084/m9.figshare.32095435 ហើយត្រូវបានចម្លងនៅ ResearchGate publication 404175463 និង Academia.edu paper 165956808 ហើយឧបករណ៍ Python ដែលមានអាជ្ញាប័ណ្ណ MIT និងមានរាល់លទ្ធផលពីការរត់យោង នៅ github.com/emirhanai/kantesti-blood-test-benchmark។ បណ្តាញចម្លង (mirror) ទាំងបួនវេទិកា ធានាបាននូវភាពអាចរកបានយូរអង្វែង និងភាពបត់បែនក្នុងការដកស្រង់ (citation flexibility)។.

ហេតុអ្វីបានជាការចុះបញ្ជីជាមុន (pre-registration) មានសារៈសំខាន់សម្រាប់ benchmark វេជ្ជសាស្ត្រ AI?

ការចុះបញ្ជីជាមុនរារាំងការកែសម្រួល rubric ក្រោយពេល (post-hoc rubric tuning) ដែលជាវិធីសាស្ត្រដ៏ពេញនិយមបំផុតតែមួយ ដែលក្រុមហ៊ុនប្រើដើម្បីធ្វើឲ្យលេខរបស់ខ្លួនកើនឡើង។ ដោយការប្តេជ្ញាចិត្ត rubric ទៅក្នុងកូដប្រភព មុនពេលហៅម៉ាស៊ីនណាមួយ (any engine call) និងការបោះពុម្ព harness ជាសាធារណៈ អ្នកនិពន្ធ rubric នឹងមានកាលបរិច្ឆេទដែលអាចពិនិត្យបាន (inspectable) នៅក្នុង version control ហើយលទ្ធផលម៉ាស៊ីនមិនអាចធ្វើឲ្យលក្ខណៈវិនិច្ឆ័យនៃការឲ្យពិន្ទុ (scoring criteria) ត្រូវបានរៀបចំតាមក្រោយបានឡើយ។.

តើ benchmark នេះមានការប្រៀបធៀបទៅម៉ាស៊ីន AI ផ្សេងទៀតដែរឬទេ?

ទេ។ របាយការណ៍ V11 បានរៀបចំឲ្យបង្ហាញលក្ខណៈម៉ាស៊ីនតែមួយ ដោយធៀបនឹង rubric ដែលបានកំណត់ថេរ (fixed rubric) ជាជាងដាក់វាទៅក្នុងការប្រៀបធៀបជាមួយប្រព័ន្ធពាណិជ្ជកម្មផ្សេងៗ។ harness មានប្រភពបើកចំហ (open source) ក្រោមអាជ្ញាប័ណ្ណ MIT ដូច្នេះអ្នកស្រាវជ្រាវឯករាជ្យអាចវាយតម្លៃម៉ាស៊ីនណាមួយដែលពួកគេចង់បាន ដោយប្រើករណីទាំងដប់ប្រាំ (same fifteen cases) និង rubric ដូចគ្នា ហើយបោះពុម្ពលទ្ធផលរបស់ពួកគេ។.

តើករណីអ្នកជំងឺពិត ឬករណីបង្កើត (synthetic)?

ករណីទាំងដប់ប្រាំ គឺជាកំណត់ត្រាអ្នកជំងឺពិតដែលមិនបញ្ចេញអត្តសញ្ញាណ (anonymised) ដកចេញពីឃ្លាំងទិន្នន័យគ្លីនិក Kantesti ក្រោមការយល់ព្រមជាលាយលក្ខណ៍អក្សរ (written informed consent)។ ការលុបអត្តសញ្ញាណ (de-identification) ត្រូវបានអនុវត្តតាមវិធីសាស្ត្រ Safe Harbor ដោយដកចេញ ឬជំនួសអត្តសញ្ញាណផ្ទាល់ទាំងអស់។ ដំណើរការត្រូវបានអនុវត្តតាម GDPR មាត្រា 9(2)(j) និងបទប្បញ្ញត្តិ UK GDPR ដែលស្មើគ្នា។ មិនមានព័ត៌មានដែលអាចបញ្ជាក់អត្តសញ្ញាណផ្ទាល់ខ្លួន (personally identifying information) លេចឡើងនៅក្នុង harness ដែលបានបោះពុម្ព របាយការណ៍បច្ចេកទេស ឬសំណុំទិន្នន័យដែលបានចេញផ្សាយឡើយ។.

⚕️ ការបដិសេធផ្នែកវេជ្ជសាស្ត្រ & ជម្លោះផលប្រយោជន៍

របាយការណ៍ benchmark នេះសម្រាប់គោលបំណងស្រាវជ្រាវ និងតម្លាភាពផ្នែកវិធីសាស្ត្រ (methodological transparency)។ វាមិនមែនជាការផ្តល់ដំបូន្មានវេជ្ជសាស្ត្រទេ។ សូមពិគ្រោះជាមួយអ្នកផ្តល់សេវាសុខភាពដែលមានសមត្ថភាពជានិច្ច សម្រាប់ការសម្រេចចិត្តអំពីការធ្វើរោគវិនិច្ឆ័យ និងការព្យាបាល។ អ្នកនិពន្ធទាំងពីរត្រូវបានជួលដោយ និងកាន់ភាគហ៊ុន (hold equity) នៅ Kantesti Ltd ហើយម៉ាស៊ីនដែលកំពុងត្រូវបានវាយតម្លៃ គឺជាផលិតផលពាណិជ្ជកម្មរបស់អង្គការដូចគ្នា។ ជម្លោះផលប្រយោជន៍នេះត្រូវបានកាត់បន្ថយ ដោយការចុះបញ្ជីជាមុន rubric នៅក្នុងកូដប្រភព ការចេញផ្សាយ harness ក្រោមអាជ្ញាប័ណ្ណ MIT និងការបោះពុម្ពរាល់ការឆ្លើយតបឆៅរបស់ម៉ាស៊ីន។.

សញ្ញាទុកចិត្ត E-E-A-T

⭐

បទពិសោធន៍

មានបទពិសោធន៍ជាង 15 ឆ្នាំក្នុងការអនុវត្ត hematology គ្លីនិក និងវេជ្ជសាស្ត្រមន្ទីរពិសោធន៍ ដោយត្រួតពិនិត្យការជ្រើសរើសក្រុមករណី។.

📋

ជំនាញ

ការរចនា rubric ដែលបានចុះបញ្ជីជាមុន (pre-registered) ជាមួយនឹងការពិន័យសម្រាប់ hyperdiagnosis យ៉ាងច្បាស់ និងប្រព័ន្ធពិន្ទុគ្លីនិកដែលត្រូវបានទទួលស្គាល់ (Mentzer, FIB-4, EULAR/ACR, KDIGO)។.

👤

ភាពមានសិទ្ធិអំណាច

អ្នកនិពន្ធនាំមុខ វេជ្ជបណ្ឌិត Thomas Klein, MD (ORCID 0009-0009-1490-1321)។ ការអនុវត្ត (Implementation) ដោយ Julian Emirhan Bulut នាយកប្រតិបត្តិ (CEO) នៃ Kantesti Ltd។.

🛡️

ភាពគួរឱ្យទុកចិត្ត

harness ដែលអាចធ្វើឡើងវិញបាន (reproducible) ក្រោមអាជ្ញាប័ណ្ណ MIT ការបោះពុម្ពការឆ្លើយតបឆៅរបស់ម៉ាស៊ីន ការបង្ហាញជម្លោះផលប្រយោជន៍បើកចំហ និងបណ្តាញ mirror ស្រាវជ្រាវលើបួនវេទិកា។.

🏢 ក្រុមហ៊ុន Kantesti LTD ចុះឈ្មោះនៅប្រទេសអង់គ្លេស និងវេលស៍ · លេខក្រុមហ៊ុន។. 17090423 ទីក្រុងឡុងដ៍ ចក្រភពអង់គ្លេស · kantesti.net