ហេតុអ្វីបានជា benchmark នេះមាន និងវាតេស្តអ្វី
ការបកស្រាយលទ្ធផលឈាមដោយ AI ត្រូវបានប្រើប្រាស់កាន់តែច្រើនឡើងក្នុងដំណើរការការងារសម្រាប់អ្នកប្រើប្រាស់ និងផ្នែកព្យាបាល ប៉ុន្តែស៊ុមវាយតម្លៃដែលអាចធ្វើឡើងវិញបាន និងត្រូវបានរៀបចំសម្រាប់វិស័យវេជ្ជសាស្ត្រមន្ទីរពិសោធន៍នៅតែមានកម្រិត។ សំណួរដែលសំខាន់បំផុតក្នុងបរិបទនេះ មិនមែនជាសំណួរដែលគ្របដណ្តប់ដោយស្តង់ដារសំណួរ-ចម្លើយវេជ្ជសាស្ត្រទូទៅនោះទេ៖ តើម៉ាស៊ីនអាចបំបែកកង្វះជាតិដែកពីលក្ខណៈ thalassaemia trait បានទេ នៅពេលដែល mean corpuscular volume ដូចគ្នា? តើវាធ្វើឲ្យមានការវិនិច្ឆ័យលើស Gilbert's syndrome ជា hepatitis ដែរឬទេ? ហើយតើវាបង្កើតរោគសាស្ត្រនៅក្នុងបន្ទះស្គ្រីនដែលធម្មតាទាំងស្រុងដែរឬទេ?
ការធ្វើតេស្តឈាមជាបន្ទះតែមួយជាទូទៅមានសញ្ញាគ្រប់គ្រាន់ដើម្បីគាំទ្រការបកស្រាយជាច្រើនដែលអាចប្រកួតប្រជែងគ្នា ហើយភារកិច្ចរបស់គ្រូពេទ្យអ្នកបកស្រាយគឺត្រូវថ្លឹងថ្លែងការបកស្រាយទាំងនោះឲ្យប្រៀបធៀបគ្នា មិនមែនទៅយកចម្លើយតាមសៀវភៅសិក្សាទេ។ ម៉ាស៊ីនដែលធ្វើបានល្អលើករណីតាមសៀវភៅសិក្សា នៅតែអាចបរាជ័យលើករណីដែលសំខាន់បំផុតបាន៖ អន្ទាក់នៃការវិនិច្ឆ័យខុស (differential-diagnosis pitfalls) វ៉ារ្យង់ដែលមិនបង្កគ្រោះថ្នាក់ តែមើលទៅគួរឲ្យព្រួយបារម្ភពេលនៅឯកោ និងបន្ទះដែលធម្មតាទាំងស្រុង ដែលល្បួងជំនួយការដែលមានទំនុកចិត្តឲ្យបង្កើតជំងឺក្លែងក្លាយ។.
ការបenchmark នេះត្រូវបានបង្កើតឡើងជុំវិញរបៀបបរាជ័យទាំងនោះ។ ករណីទាំង ១៥ ត្រូវបានជ្រើសរើសសម្រាប់លក្ខណៈសម្បត្តិវិនិច្ឆ័យជាក់លាក់មួយៗ៖ ភាពមីក្រូស៊ីតូស៊ីសដោយខ្វះជាតិដែក ដែលត្រូវរក្សាឲ្យដាច់ពីលក្ខណៈសម្បត្តិ beta-thalassaemia trait ដែលមាន mean corpuscular volume ដូចគ្នា, ការបង្ហាញរបស់ជំងឺ Gilbert's syndrome ដែលភាពមិនប្រក្រតីតែមួយគត់គឺ indirect hyperbilirubinaemia ដែលនៅឯកោ, និងបន្ទះ screening មានប៉ារ៉ាម៉ែត្រ ១៥ ដែល analyte ទាំងអស់ស្ថិតនៅក្នុងជួរយោងរបស់វា។ Rubric ផ្តល់ពិន្ទុដល់ម៉ាស៊ីនដែលអានករណីនីមួយៗតាមលក្ខខណ្ឌផ្ទាល់របស់វា ហើយដាក់ទណ្ឌកម្មម៉ាស៊ីនដែលទៅរកការវិនិច្ឆ័យដោយមានទំនុកចិត្ត នៅពេលដែលមិនមានការវិនិច្ឆ័យបែបនោះត្រូវបានគាំទ្រ។.
ក្នុងនាមជា Thomas Klein, MD ខ្ញុំបានជ្រើសរើសបន្ទះករណីនេះ ព្រោះនេះជាលំនាំដែលខ្ញុំឃើញជំនួយការផ្នែកវេជ្ជសាស្ត្រមន្ទីរពិសោធន៍ធ្វើខុសញឹកញាប់បំផុត។. របៀបបរាជ័យដែលចំណាយថ្លៃ មិនមែនជា "ខកខានជំងឺកម្រមួយ" ទេ — វាគឺការបង្កើតជំងឺធម្មតា (routine pathology) នៅក្នុងអ្នកជំងឺដែលពួកគេមិនមានវា។. របស់យើង។ សុពលភាពវេជ្ជសាស្រ្ត hub ពិពណ៌នាក្របខណ្ឌទូលំទូលាយ; ទំព័រនេះពិពណ៌នាអំពីលទ្ធផលដែលបានអនុវត្តលើម៉ាស៊ីន V11។.
ការរត់យោងចុងក្រោយ — V11 (ខែមេសា 2026)
ការធ្វើតេស្តយោង (reference run) ប្រចាំខែមេសា ឆ្នាំ ២០២៦ របស់ Kantesti AI Engine V11 បានបង្កើតពិន្ទុរួម (composite score) នៃ 99.12% លើ rubric ករណី ១៥ ដែលបានចុះបញ្ជីជាមុន។ ករណីដែលជាប់អន្ទាក់ hyperdiagnosis ទាំងពីរបានពិន្ទុដល់កម្រិតកំពូល (ceiling)។ Mentzer index ត្រូវបានអនុវត្តត្រឹមត្រូវលើ differential រវាងការខ្វះជាតិដែក និង thalassaemia។.
រូបមន្តពិន្ទុរួមផ្សំឡើងពីសមាសធាតុ ៣៖ ភាពស្របតាមរចនាសម្ព័ន្ធ (structural conformance) ជាមួយនឹងផ្នែករបាយការណ៍ដែលត្រូវមានចាំបាច់ ៧ និងអនុផ្នែកដែលត្រូវមានចាំបាច់ ១៦, ភាពត្រឹមត្រូវផ្នែកព្យាបាល (clinical accuracy) វាស់វែងជា keyword recall បូកនឹង scoring-system recall បូកនឹងការត្រួតពិនិត្យភាពត្រឹមត្រូវនៃ probability-distribution, និង ពេលយឺតនៃការឆ្លើយតប (response latency) ធៀបនឹងគោលដៅ primary service-level ២០ វិនាទី។ ការបំបែកពិតប្រាកដត្រូវបានបង្ហាញក្នុងរូបមន្ត rubric ខាងក្រោម។.
ចំណុះនៅសល់ 0.88 ភាគរយនៃ headroom ត្រូវបានបំបែកស្ទើរតែទាំងស្រុងទៅជាការបាត់បង់ដោយសារភាពយឺតយ៉ាវ (latency loss) — ការហៅបម្រុង Phase 2 ចំនួនបីលើក ដែលនីមួយៗមានសមាសធាតុ (composite) ប្រហែល -0.05 បានរួមចំណែកប្រហែល 0.60 នៃកង្វះ 0.88 ភាគរយ — មិនមែនទៅក្នុងខ្លឹមសារព្យាបាលទេ។ ម៉ាស៊ីនមិនបានខកខានការធ្វើរោគវិនិច្ឆ័យត្រឹមត្រូវលើករណីទាំង 15 នោះទេ; នៅពេលដែលវាមិនគ្រប់គ្រាន់ វាធ្វើឲ្យយឺតជាងគោលដៅ 20 វិនាទីសម្រាប់ផ្លូវសំខាន់ (primary-path) បន្តិចបន្តួច ក្នុងចំនួនតិចតួចនៃការហៅបម្រុង។.
ករណីចំនួនដប់ប្រាំ (15) លើឯកទេសវេជ្ជសាស្ត្រចំនួនប្រាំពីរ (7)
ក្រុមពិនិត្យករណី (case panel) គ្របដណ្តប់លើជំនាញចំនួនប្រាំពីរ — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — រួមទាំងករណី “hyperdiagnosis trap” ដែលបានកំណត់ជាពិសេសចំនួនពីរ។ ករណីនីមួយៗជាកំណត់ត្រាអ្នកជំងឺពិតដែលបានធ្វើឲ្យអនាមិក (anonymised) ដកចេញពីឃ្លាំងទិន្នន័យព្យាបាល Kantesti (clinical data repository) ក្រោមការយល់ព្រមដោយបានជូនដំណឹងជាលាយលក្ខណ៍អក្សរ (written informed consent)។.
ការធ្វើឲ្យមិនអាចកំណត់អត្តសញ្ញាណបាន (de-identification) ត្រូវបានអនុវត្តតាមវិធីសាស្ត្រ Safe Harbor: អត្តសញ្ញាណផ្ទាល់ទាំងអស់ត្រូវបានដកចេញ ឬជំនួស ហើយកំណត់ត្រានីមួយៗត្រូវបានផ្តល់លេខកូដករណីក្នុងស្តង់ដារសម្រាប់ការវាស់វែង (benchmark-internal case code) ក្នុងទម្រង់ BT-NNN-LABEL។ ដំណើរការត្រូវបានអនុវត្តតាម GDPR មាត្រា 9(2)(j) សម្រាប់ការស្រាវជ្រាវវិទ្យាសាស្ត្រ ដោយមានការការពារសមស្រប និងបទប្បញ្ញត្តិ UK GDPR ដែលស្មើគ្នា។ មិនមានព័ត៌មានដែលអាចកំណត់អត្តសញ្ញាណបុគ្គលបាន (personally identifying information) ទេ នៅគ្រប់ទីកន្លែងក្នុងឧបករណ៍សាកល្បងដែលបានបោះពុម្ព (published harness) របាយការណ៍បច្ចេកទេស (technical report) ឬសំណុំទិន្នន័យដែលបានចេញផ្សាយ (released datasets)។.
ហេតុអ្វីបានជាការចែកចាយជាក់លាក់នេះ
ផ្នែកឈាមវិទ្យាទទួលបាន ៣ ករណី ព្រោះថា ការបែងចែកប្រភេទកោសិកាតូច (microcytic differentials) និងការបែងចែកប្រភេទកោសិកាធំ (macrocytic differentials) គឺជាអន្ទាក់ដែលមានបរិមាណខ្ពស់បំផុតក្នុងការអនុវត្តមន្ទីរពិសោធន៍ក្នុងពិភពពិត។ ផ្នែកអរម៉ូនវិទ្យាទទួលបាន ៣ ករណី ព្រោះការបង្ហាញរបស់ Hashimoto's, PCOS និងកង្វះវីតាមីន D ប្រើរូបរាងរោគវិនិច្ឆ័យខុសៗគ្នា (ជំរុញដោយអង្គបដិប្រាណ, ជំរុញដោយសមាមាត្រអ័រម៉ូន, ជំរុញដោយសញ្ញាសម្គាល់តែមួយ)។ ផ្នែកឯកទេសដែលមានតែមួយករណីនៅតែមានន័យ ព្រោះ CKD, ហានិភ័យ ASCVD និង SLE នីមួយៗមានប្រព័ន្ធពិន្ទុរៀងៗខ្លួន ដែលម៉ាស៊ីនគួរតែហៅប្រើ (KDIGO staging, ហានិភ័យ 10 ឆ្នាំរបស់ ASCVD, និងលក្ខណៈវិនិច្ឆ័យ 2019 EULAR/ACR សម្រាប់ SLE រៀងៗខ្លួន)។.
ការពន្យល់អំពី rubric ដែលបានចុះបញ្ជីជាមុន
ការចុះឈ្មោះជាមុន (pre-registration) គឺជាជម្រើសវិធីសាស្ត្រដ៏សំខាន់បំផុតក្នុងការប្រកួតស្តង់ដារនេះ។ រាល់ការធ្វើរោគវិនិច្ឆ័យដែលរំពឹងទុក រាល់ប្រព័ន្ធពិន្ទុគ្លីនិក និងរាល់ផ្នែករបាយការណ៍ ត្រូវបានប្តេជ្ញាទៅនឹងកូដប្រភព មុនពេលម៉ាស៊ីនត្រូវបានហៅប្រើ. ។ ដូច្នេះ ការកែសម្រួលក្រោយ (post-hoc) នៃ rubric ដើម្បីឲ្យលំអៀងទៅម៉ាស៊ីន គឺមិនអាចធ្វើបានទេ។.
សមាសធាតុ ៣ ផ្នែក បង្កើតជាពិន្ទុរួម។ សមាសធាតុរចនាសម្ព័ន្ធ មានចំណែក 35 ភាគរយ និងវាស់ថាតើម៉ាស៊ីនបានត្រឡប់ផ្នែករបាយការណ៍ដែលត្រូវតែមានចាំបាច់ទាំងប្រាំពីរ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) និងផ្នែករងដែលត្រូវតែមានចាំបាច់ចំនួនដប់ប្រាំមួយនៅក្នុងពួកវាឬអត់។ ការមានវត្តមាននៃផ្នែក (section presence) មានទម្ងន់ 40 ភាគរយ និងការមានវត្តមាននៃផ្នែករង (subsection presence) មានទម្ងន់ 60 ភាគរយ ក្នុងការគណនារចនាសម្ព័ន្ធ។.
នេះ។ សមាសធាតុគ្លីនិក មានចំណែក 55 ភាគរយ និងរួមបញ្ចូល ៣ ចំណុច៖ ការចងចាំពាក្យគន្លឹះនៃការធ្វើរោគវិនិច្ឆ័យ (70 ភាគរយនៃពិន្ទុរងផ្នែកគ្លីនិក), ការចងចាំប្រព័ន្ធពិន្ទុ (20 ភាគរយ — តើម៉ាស៊ីនគណនា Mentzer, FIB-4, HOMA-IR, ហានិភ័យ ASCVD, KDIGO staging, លក្ខណៈវិនិច្ឆ័យ EULAR/ACR នៅពេលពាក់ព័ន្ធឬអត់), និងការត្រួតពិនិត្យភាពត្រឹមត្រូវនៃផលបូកប្រូបាប៊ីលីតេ (10 ភាគរយ — ប្រូបាប៊ីលីតេនៃ differential ត្រូវតែបូកសរុបឲ្យស្ថិតក្នុងចន្លោះ [90, 110])។ សម្រាប់ករណីអន្ទាក់ (trap cases) នឹងដកពិន័យ hyperdiagnosis ច្បាស់លាស់រហូតដល់ 0.30 ដែលគណនាជា 0.10 ក្នុងមួយសញ្ញាធាតុ pathology ដែលបង្កើតឡើង (fabricated pathology flag) ហើយកំណត់អតិបរមា ៣ សញ្ញា។.
នេះ។ សមាសធាតុពេលវេលាឆ្លើយតប (latency component) មានចំណែក 10 ភាគរយ។ ការឆ្លើយតបក្រោម 20 វិនាទី ទទួលបានពេញ 0.10, ការឆ្លើយតបក្រោម 40 វិនាទី ទទួលបាន 0.05, និងអ្វីដែលយឺតជាងនោះទទួលបាន 0។ គោលដៅ 20 វិនាទី សំដៅលើគោលបំណងកម្រិតសេវា (service-level objective) សម្រាប់ការផលិត (production) ផ្នែក primary-path; ពិដាន 40 វិនាទី សំដៅលើថវិកាបម្រុងសម្រាប់ Phase 2 ក្នុងករណីហៅម៉ាស៊ីនធ្ងន់ៗ។.
អ្វីដែល pre-registration រារាំង
ការប្រកួតស្តង់ដារដោយខ្លួនឯង (first-party benchmarks) តែងតែមានឈ្មោះល្បីថា ធ្វើឲ្យលេខរបស់ខ្លួនឡើងដោយការកែ rubric ក្រោយ (post-hoc tuning)។ លំនាំនេះស្ទើរតែដូចគ្នាជានិច្ច៖ ក្រុមដំណើរការម៉ាស៊ីន មើលកន្លែងដែលវាធ្វើមិនបានល្អ បន្ទាប់មកក៏កែសម្រួល rubric ដោយស្ងៀមៗ ដើម្បីឲ្យតំបន់ដែលធ្វើមិនបានល្អ មានទម្ងន់តិច។ ដោយប្តេជ្ញា rubric ទៅនឹងកូដប្រភព មុនពេលហៅម៉ាស៊ីនលើកដំបូង និងបោះពុម្ព harness ក្រោមអាជ្ញាប័ណ្ណ MIT ការកែសម្រួលនោះក្លាយជាអាចមើលឃើញនៅក្នុង version control។ អ្នកណាក៏អាច clone repository ពិនិត្យថ្ងៃបង្កើត rubric និងផ្ទៀងផ្ទាត់ថា លទ្ធផលម៉ាស៊ីនមិនត្រូវបានប្រើដើម្បីរៀបចំការវាយពិន្ទុ។.
ករណីជាមួយអន្ទាក់នៃការធ្វើរោគវិនិច្ឆ័យលើស (Hyperdiagnosis trap cases) — ហេតុអ្វីការហៅច្រើនពេក (over-calling) ជារបៀបបរាជ័យពិត
ការហៅ pathology យ៉ាងខ្លាំងលើអេក្រង់ធម្មតា គឺជារបៀបបរាជ័យដែលបានកត់ត្រាទុកសម្រាប់ជំនួយការផ្នែកវេជ្ជសាស្ត្រដែលផ្តល់ជូនដល់អ្នកប្រើប្រាស់។ តម្លៃបន្តបន្ទាប់រួមមាន ការស៊ើបអង្កេតមិនចាំបាច់ ការព្រួយបារម្ភរបស់អ្នកជំងឺ និងការធ្វើការងារព្យាបាលដោយមិនចាំបាច់ (iatrogenic workup)។ ករណីអន្ទាក់ចំនួនពីរនៅក្នុងការប្រកួតស្តង់ដារនេះ ត្រូវបានរចនាឡើងដើម្បីធ្វើឲ្យរបៀបបរាជ័យនោះអាចមើលឃើញ និងអាចវាយពិន្ទុបាន។.
🟡 អន្ទាក់ 1 — BT-014-GILBERT
ការបង្ហាញ (Presentation)។. បុរសអាយុ 24 ឆ្នាំ មាន bilirubin សរុប 2.4 mg/dL។ សមាមាត្រផ្ទាល់ (direct fraction) មានលក្ខណៈធម្មតា, transaminases និង alkaline phosphatase ស្ថិតនៅក្នុងជួរយោងរបស់វា, reticulocytes មិនមានអ្វីគួរឲ្យកត់សម្គាល់, និង haptoglobin និង LDH បដិសេធ haemolysis។.
ការបកស្រាយត្រឹមត្រូវ។. Gilbert's syndrome — polymorphism UGT1A1 ដែលមិនបង្កគ្រោះថ្នាក់។ ការបកស្រាយមិនគួរហៅ hepatitis, cirrhosis, haemolytic anaemia ឬការស្ទះបំពង់ទឹកប្រមាត់ (biliary obstruction)។.
លទ្ធផល V11។. Composite 1.000។ គ្មានសញ្ញាធ្វើរោគវិនិច្ឆ័យលើស (over-diagnosis) ទាំងប្រាំមួយដែលបានតាមដាន បានបង្ហាញជារោគវិនិច្ឆ័យសកម្មទេ។.
🟡 អន្ទាក់ 2 — BT-015-HEALTHY
ការបង្ហាញ (Presentation)។. ស្ត្រីអាយុ 35 ឆ្នាំ ជាមួយនឹងបន្ទះអេក្រង់ស្ក្រីនធម្មតា ១៥ ប៉ារ៉ាម៉ែត្រ។ អ្នកវិភាគ (analyte) ទាំងអស់ ស្ថិតយ៉ាងស្រួលនៅក្នុងជួរយោងរបស់វា។.
ការបកស្រាយត្រឹមត្រូវ។. ការធានាឡើងវិញ និងការថែរក្សារបៀបរស់នៅ។ ការបកស្រាយមិនគួរបង្កើតជំងឺស្ថិតនៅដែនកំណត់ (borderline pathology) ដើម្បីឲ្យមើលទៅមានប្រយោជន៍ខាងវេជ្ជសាស្ត្រតាមបែបគ្លីនិកនោះទេ។.
លទ្ធផល V11។. សមាសធាតុ 1.000។ ក្នុងចំណោមសញ្ញាព្រមាននៃការធ្វើរោគវិនិច្ឆ័យលើស (over-diagnosis) ដែលត្រូវបានតាមដានទាំងប្រាំពីរ — ជំងឺទឹកនោមផ្អែម ភាពស្លេកស្លាំង ក្រពេញធីរ៉ូអ៊ីដទាប (hypothyroidism ជំងឺខ្សោយក្រពេញទីរ៉ូអ៊ីដ) ជំងឺខ្លាញ់ក្នុងឈាមខ្ពស់ (dyslipidaemia ជំងឺខ្លាញ់ក្នុងឈាម) ជំងឺរលាកថ្លើម (hepatitis) ជំងឺតម្រងនោម និងកង្វះ — មិនមានមួយណាលេចឡើងជារោគវិនិច្ឆ័យសកម្មឡើយ។.
នៅទាំងពីរត្រាប់ (traps) មានការត្រួតពិនិត្យសញ្ញាព្រមាននៃការធ្វើរោគវិនិច្ឆ័យលើស (hyperdiagnosis) ចំនួនដប់បី។ មិនមានសញ្ញាណាមួយត្រូវបានបង្កឲ្យសកម្មឡើយ។ នេះជាលទ្ធផលដែលសំខាន់បំផុតសម្រាប់វេជ្ជបណ្ឌិតណាម្នាក់ដែលកំពុងពិចារណាប្រើម៉ាស៊ីន AI ជាឧបករណ៍សម្រាប់ការត្រួតពិនិត្យបឋម (triage) ឬមុនការពិគ្រោះ៖ ប្រព័ន្ធមិនបានបង្កើតជំងឺណាមួយឡើយ នៅពេលដែលមិនមានជំងឺនោះ.
សន្ទស្សន៍ Mentzer: បំបែកការខ្វះជាតិដែក (iron deficiency) ពីលក្ខណៈសម្បត្តិ thalassaemia (thalassaemia trait)
ការរកឃើញដែលមានតម្លៃខ្ពស់ទីពីរ ទាក់ទងនឹងការផ្គូផ្គងរវាង case BT-001 (ភាពស្លេកស្លាំងដោយកង្វះជាតិដែក) ជាមួយ case BT-007 (beta-thalassaemia minor)។ ទាំងពីរមាន microcytosis ហើយជាឧបសគ្គដែលគេស្គាល់ច្បាស់សម្រាប់អ្នកចាត់ថ្នាក់ (classifiers) ដែលមិនទាន់មានបទពិសោធន៍។ សន្ទស្សន៍ Mentzer ដែលគណនាជា MCV ចែកនឹងចំនួន RBC មានតម្លៃលើស 13 ក្នុងកង្វះជាតិដែក និងធ្លាក់ក្រោម 13 ក្នុងលក្ខណៈសម្បត្តិ thalassaemia (thalassaemia trait)។.
នៅ BT-001 អ្នកជំងឺជាស្ត្រីអាយុ 34 ឆ្នាំ មានកម្រិត hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL និង TIBC ខ្ពស់។ សន្ទស្សន៍ Mentzer ប្រហែល 17.7 គាំទ្រកង្វះជាតិដែកពិតប្រាកដ (absolute iron deficiency)។ នៅ BT-007 អ្នកជំងឺជាបុរសអាយុ 28 ឆ្នាំ មាន microcytosis (MCV 65.8 fL) ប៉ុន្តែមានចំនួន RBC ខ្ពស់ 6.2, RDW ធម្មតា, ferritin ធម្មតា និង HbA2 5.6 ភាគរយ។ សន្ទស្សន៍ Mentzer ប្រហែល 10.6 ចង្អុលទៅ thalassaemia trait ហើយ HbA2 ខ្ពស់បញ្ជាក់ beta-thalassaemia minor។.
ករណីទាំងពីរទទួលពិន្ទុ 1.000។ ម៉ាស៊ីនបានហៅសន្ទស្សន៍ Mentzer យ៉ាងច្បាស់នៅក្នុងការបកស្រាយទាំងពីរ ហើយបានត្រឡប់រោគវិនិច្ឆ័យត្រឹមត្រូវក្នុងករណីនីមួយៗ។. នេះជាលទ្ធផលដែលធានាឡើងវិញខាងគ្លីនិកច្រើនបំផុតតែមួយគត់ ក្នុងការប្រកួតវាស់ស្ទង់ទាំងមូល, ព្រោះការចាត់ថ្នាក់ខុស thalassaemia trait ជាកង្វះជាតិដែក នាំឲ្យផ្តល់ថ្នាំបន្ថែមជាតិដែកមិនសមស្រប និងខកខានឱកាសស្វែងរកតាមគ្រួសារ (family-screening) ហើយការចាត់ថ្នាក់ខុសកង្វះជាតិដែក ជា thalassaemia ធ្វើឲ្យពន្យារពេលការព្យាបាលជំនួសដែលងាយស្រួល។ Our កម្រិត ferritin ពន្យល់បរិបទនៃការបែងចែកទូលំទូលាយជាងនេះ។.
លទ្ធផលតាមករណីពីការរត់ខែមេសា ឆ្នាំ 2026
ក្នុងចំណោម 15 ករណី មាន 12 ករណីទទួលបានពិន្ទុសមាសធាតុ (composite) ដល់កម្រិតពិដាន 1.000 លើ path ចម្បង (primary path)។ ករណី 3 ត្រូវបានបម្រើតាមការបម្រុងទុក Phase 2 (Phase 2 fallback) ដោយបាត់បង់ bonus ភាពយឺតយ៉ាវ 0.05 ខណៈដែលរក្សាបានទាំងអស់នូវខ្លឹមសារខាងគ្លីនិក និងរចនាសម្ព័ន្ធ។ ករណីមួយខ្វះផ្នែករង (subsection) ដែលត្រូវតែមានតែមួយ។ មួយទៀតត្រឡប់មកវិញនូវការបែងចែកប្រូបាប៊ីលីតេ (probability distribution) ដែលថយចុះបន្តិចបន្តួច។.
ករណី PCOS (BT-008) បានបាត់បង់ផ្នែករងដែលត្រូវតែមានមួយផ្នែកនៅក្នុងរចនាសម្ព័ន្ធការឆ្លើយតប — ដប់ប្រាំពីរនៃដប់ប្រាំមួយ ជំនួសឲ្យដប់ប្រាំមួយនៃដប់ប្រាំមួយ — ដែលកាត់បន្ថយពិន្ទុរចនាសម្ព័ន្ធពី 1.000 ទៅ 0.963។ ករណី SLE (BT-011) បានត្រឡប់មកវិញនូវផលបូកនៃការចែកចាយប្រូបាប៊ីលីតេ ដែលថយចុះបន្តិច ដោយធ្វើឲ្យពិន្ទុផ្នែកគ្លីនិកធ្លាក់ដល់ 0.965 ខណៈដែលរក្សាបានរាល់ពាក្យគន្លឹះសម្រាប់ការធ្វើរោគវិនិច្ឆ័យ និងប្រព័ន្ធពិន្ទុទាំងអស់។ គ្មានករណីណាមួយដែលមិនល្អទាំងស្រុងនោះ បាត់បង់ការធ្វើរោគវិនិច្ឆ័យត្រឹមត្រូវឡើយ។.
អ្វីដែលពិន្ទុចំណងជើងមិនបានប្រាប់យើង
ពិន្ទុសរុប 99.12 ភាគរយ ក្រោមក្របខណ្ឌដែលបានចុះបញ្ជីជាមុនជាក់លាក់នេះ បង្ហាញពីសមត្ថភាពជិតដល់កម្រិតកំពូល (near-ceiling) ប៉ុន្តែវាគួរតែមានការរៀបចំការពន្យល់ឲ្យបានប្រុងប្រយ័ត្ន។ លទ្ធផលពិពណ៌នាអំពីអាកប្បកិរិយារបស់ម៉ាស៊ីនម៉ូទ័រ (engine) ប្រឆាំងនឹងករណីដែលបានធ្វើជាគំរូអនាមិកចំនួនដប់ប្រាំពីរ ដែលបានជ្រើសយ៉ាងប្រុងប្រយ័ត្ន ត្រូវបានវាយតម្លៃម្តងៗ និងប្រឆាំងនឹងក្របខណ្ឌតែមួយ (single rubric)។ យើងបញ្ជាក់ឲ្យច្បាស់អំពីអ្វីដែលលេខនេះបង្ហាញ និងមិនបង្ហាញ។.
ពិន្ទុនេះនិយាយថា ម៉ាស៊ីន V11 បានដោះស្រាយលំនាំនៃការធ្វើរោគវិនិច្ឆ័យ ដែលត្រូវបានជ្រើសសម្រាប់ការវាយតម្លៃនេះ បានត្រឹមត្រូវ តាមវិធីសាស្ត្រដែលបានបោះពុម្ព និងអាចធ្វើឡើងវិញបាន។ វាមិននិយាយថា ម៉ាស៊ីនត្រឹមត្រូវលើរាល់បន្ទះពិនិត្យឈាម (blood test panel) ដែលមាននៅក្នុងពិភពពិតនោះទេ។ វាមិននិយាយថា ម៉ាស៊ីនគួរតែជំនួសការវិនិច្ឆ័យរបស់គ្រូពេទ្យ (clinician judgment) ទេ។ ហើយវាមិននិយាយថា ម៉ាស៊ីនមានសមត្ថភាពលើសប្រព័ន្ធ AI ផ្សេងទៀតទេ — ការវិភាគប្រៀបធៀបជាមួយម៉ាស៊ីនផ្សេងៗ ត្រូវបានដាក់ចេញពីវិសាលភាពសម្រាប់របាយការណ៍នេះដោយចេតនា។.
អ្វីដែលពិន្ទុនេះបង្ហាញឲ្យច្បាស់ គឺជាមូលដ្ឋាន (baseline)។ នៅពេលដែលក្របខណ្ឌ និងឧបករណ៍សាកល្បង (harness) ត្រូវបានបង្ហាញជាសាធារណៈ កំណែអនាគតនៃម៉ាស៊ីនអាចត្រូវបានវាយតម្លៃធៀបនឹងករណីដប់ប្រាំពីរដដែល ហើយចន្លោះរវាងពិន្ទុដែលបានបោះពុម្ព និងការរត់បន្ទាប់ណាមួយ ក៏អាចវាស់វែងបានដោយខ្លួនឯងផងដែរ។ នេះជាតម្លៃនៃការចុះបញ្ជីជាមុន (pre-registration): វាបម្លែងការអះអាងអំពីសមត្ថភាព ទៅជាការអះអាងដែលអាចធ្វើតេស្តបាន.
របៀបបង្កើតស្តង់ដារនេះឡើងវិញក្នុងរយៈពេល 10 នាទី
ការធ្វើឡើងវិញ (Reproduction) ត្រូវការតែគូសមត្ថភាព API Kantesti និងបរិស្ថាន Python 3.10 ឬក្រោយជាងនេះ ដែលមាន requests និង reportlab libraries ត្រូវបានដំឡើង។ ឧបករណ៍សាកល្បងពេញលេញ (full harness) គឺជាម៉ូឌុល Python តែមួយដែលមានខ្លឹមសារគ្រប់គ្រាន់ (self-contained) ហើយត្រូវបានចេញផ្សាយក្រោមអាជ្ញាប័ណ្ណ MIT។.
បួនជំហានសម្រាប់ការរត់ថ្មី (fresh run)
មួយ។. ក្លូនឃ្លាំង (repository): git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ពីរ។. ដំឡើងការពឹងផ្អែកជាមួយ pip install -r requirements.txt. បី។. កំណត់ KANTESTI_USERNAME និង KANTESTI_PASSWORD ជាអថេរបរិស្ថាន — លិខិតសម្គាល់ត្រូវបានអាននៅពេលដំណើរការ ហើយមិនមានការកំណត់បញ្ចូលជាមុននៅក្នុងស្គ្រីបនោះទេ។. បួន។. ដំណើរការ python benchmark_bloodtest.py ហើយពិនិត្យមើលឯកសារផលិតផលចំនួនបួនដែលបង្កើតចេញទៅក្នុងថតការងារ៖ CSV scorecard, JSON scorecard, ការបោះចោល JSON ពេញលេញរួមទាំងការឆ្លើយតបដើមរបស់ម៉ាស៊ីន (raw engine responses) និងរបាយការណ៍ Markdown ដែលអានបានដោយមនុស្ស។.
ការដំណើរការយោងពីថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 ត្រូវបានរក្សាទុកក្នុង results/ ថតនៃឃ្លាំង (repository)។ ការដំណើរការថ្មីនឹងបង្កើត scorecard ថ្មីដែលមានស្លាកពេលវេលា (timestamp) ខណៈដែលការដំណើរការយោងនឹងមិនត្រូវបានប៉ះពាល់។ ប្រសិនបើការដំណើរការរបស់អ្នកបង្កើតលទ្ធផលខុសគ្នាយ៉ាងមានន័យ សូមបើកបញ្ហា (GitHub issue) ជាមួយនឹង timestamp នៃការដំណើរការ និងកំណែម៉ាស៊ីន (engine version) ដែលបានត្រឡប់ក្នុង metadata នៃការឆ្លើយតប។.
ដែនកំណត់ និងការងារនាពេលអនាគត
ដែនកំណត់ចំនួនបួនត្រូវការការទទួលស្គាល់ឲ្យច្បាស់៖ ទំហំគំរូ, ការវាយតម្លៃតែម្តង (single-shot), វិសាលភាពម៉ាស៊ីនតែមួយ (single-engine scope), និងប្រភពទិន្នន័យតែមួយ (single-source data origin)។ នីមួយៗកំពុងត្រូវបានដោះស្រាយក្នុងការងារតាមដានបន្តបន្ទាប់។.
ទំហំគំរូ។. ករណីចំនួនដប់ប្រាំ (fifteen cases) ក្នុងធុងឯកទេសចំនួនប្រាំបី (eight specialty buckets) គ្រប់គ្រាន់សម្រាប់ការបង្ហាញគំនិត (proof of concept) ប៉ុន្តែមិនគ្រប់គ្រាន់សម្រាប់ការវិភាគតាមក្រុមរងក្នុងឯកទេសនោះទេ។ គ្រោងពង្រីកទៅករណីចំនួនហាសិប (fifty cases) ហើយនឹងរួមបញ្ចូលបន្ទះកកឈាម (coagulation panels), ការពិនិត្យរកមហារីកឈាម (haematological malignancy screening), បន្ទះពិនិត្យពេលមានផ្ទៃពោះ (pregnancy panels) និងការបង្ហាញនៅកុមារ (paediatric presentations)។.
ការវាយតម្លៃតែម្តង (single-shot evaluation)។. ករណីនីមួយៗត្រូវបានវាយតម្លៃតែម្តងប៉ុណ្ណោះ។ ម៉ូដែលភាសាធំៗបង្ហាញភាពប្រែប្រួលលទ្ធផលដែលមិនមែនតិចតួច (non-trivial output variance) ទោះបីជាមានការកំណត់សីតុណ្ហភាពគំរូទាបក៏ដោយ ដូច្នេះពិធីសាស្ត្រវាយតម្លៃច្រើនដង (multi-run protocol) ដោយមានការវាយតម្លៃចំនួនប្រាំ (five evaluations) ក្នុងមួយករណី និងការរាយការណ៍អំពីភាពប្រែប្រួល គឺជាជំហានបន្ទាប់ដែលសមហេតុផល។.
វិសាលភាពម៉ាស៊ីនតែមួយ (single-engine scope)។. របាយការណ៍នេះពិពណ៌នាអំពីម៉ាស៊ីនមួយប៉ុណ្ណោះ។ ការវិភាគប្រៀបធៀបជាមួយប្រព័ន្ធ AI ផ្សេងៗ មិនស្ថិតក្នុងវិសាលភាពនៅទីនេះទេ។ យើងអាចធ្វើវាជាការសិក្សាឯករាជ្យដាច់ដោយឡែកជាមួយនឹងវិធីសាស្ត្រសមស្រប។.
ប្រភពទិន្នន័យតែមួយ (single-source data origin)។. ករណីចំនួនដប់ប្រាំ (fifteen cases) គឺជាកំណត់ត្រាអ្នកជំងឺពិតដែលបានធ្វើអនាមិក (anonymised) ដកស្រង់ពីឃ្លាំងគ្លីនិកតែមួយ។ វាតំណាងឲ្យគំរូដែលបានរៀបចំ (curated sample) ហើយមិនមែនជាការចាប់យកដោយចៃដន្យដែលតំណាងប្រជាជនទេ។ ការពង្រីកការវាយតម្លៃទៅទិន្នន័យពីច្រើនមជ្ឈមណ្ឌល (multi-centre data) ស្ថិតក្នុងផែនការផ្លូវ។.
ការពង្រីកដែលមានឥទ្ធិពលខ្លាំងបំផុតដែលបានគ្រោងទុកគឺភាពស្មើគ្នាច្រើនភាសា (multi-language parity)។ ម៉ាស៊ីន AI Kantesti បម្រើអ្នកប្រើប្រាស់ក្នុង 75+ ភាសា ហើយការដំណើរការកម្មវិធីសាកល្បងដូចគ្នា (same fifteen-case harness) ជាភាសាទួរគី (Turkish), អាល្លឺម៉ង់ (German), អេស្ប៉ាញ (Spanish), បារាំង (French) និងអារ៉ាប់ (Arabic) នឹងវាស់គុណភាពលទ្ធផលនៅទូទាំងភាសាដែលម៉ាស៊ីនគាំទ្រ។ យើងនឹងបោះពុម្ពការដំណើរការសម្រាប់ភាសានីមួយៗ ដោយមាន DOI ផ្ទាល់ខ្លួន និងសាខា (harness branch) របស់វា។.