ហេតុអ្វីបានជា benchmark នេះមាន និងវាតេស្តអ្វី

ការបកស្រាយលទ្ធផលឈាមដោយ AI ត្រូវបានប្រើប្រាស់កាន់តែច្រើនឡើងក្នុងដំណើរការការងារសម្រាប់អ្នកប្រើប្រាស់ និងផ្នែកព្យាបាល ប៉ុន្តែស៊ុមវាយតម្លៃដែលអាចធ្វើឲ្យអាចបង្កើតឡើងវិញបាន និងត្រូវបានរៀបចំសម្រាប់វេជ្ជសាស្ត្រមន្ទីរពិសោធន៍ នៅតែមិនសូវមាន។ សំណួរដែលសំខាន់បំផុតក្នុងបរិបទនេះ មិនមែនជាសំណួរដែលគ្របដណ្តប់ដោយស្តង់ដារសាកល្បងសំណួរ-ចម្លើយវេជ្ជសាស្ត្រទូទៅនោះទេ៖ តើម៉ាស៊ីនអាចបំបែកភាពខ្វះជាតិដែកពីលក្ខណៈ thalassaemia trait បានទេ នៅពេលដែល mean corpuscular volume ដូចគ្នា? តើវាធ្វើឲ្យមានការវិនិច្ឆ័យ Gilbert's syndrome លើស ដូចជាជំងឺរលាកថ្លើម (hepatitis) ដែរឬទេ? និងតើវាបង្កើតរោគសាស្ត្រនៅក្នុងបន្ទះពិនិត្យដែលធម្មតាទាំងស្រុងដែរឬទេ?

ដ្យាក្រាមលំហូរ rubric ដែលបានចុះឈ្មោះជាមុន បង្ហាញពីរបៀបដែលម៉ាស៊ីន Kantesti AI ត្រូវបានវាយតម្លៃធៀបនឹងលក្ខណៈវិនិច្ឆ័យពិន្ទុដែលបានកក (frozen)
រូបភាពទី 1: ស្ថាបត្យកម្មស្តង់ដារ — រាល់ករណី រាល់ពាក្យគន្លឹះ និងរាល់ប្រព័ន្ធវាយពិន្ទុ ត្រូវបានកំណត់ក្នុងកូដប្រភព មុនពេលម៉ាស៊ីនឃើញ PDF មួយសន្លឹក។ ការកែសម្រួល rubric ក្រោយ (post-hoc) មិនអាចធ្វើបានតាមរយៈការរចនា។.

ការធ្វើតេស្តឈាមជាបន្ទះតែមួយជាទូទៅមានសញ្ញាគ្រប់គ្រាន់ដើម្បីគាំទ្រការបកស្រាយជាច្រើនដែលអាចប្រកួតប្រជែងគ្នា ហើយភារកិច្ចរបស់គ្រូពេទ្យអ្នកបកស្រាយ គឺត្រូវថ្លឹងថ្លែងការបកស្រាយទាំងនោះឲ្យប្រៀបធៀបគ្នា ជាជាងទៅយកចម្លើយតាមសៀវភៅសិក្សា។ ម៉ាស៊ីនដែលធ្វើបានល្អលើករណីតាមសៀវភៅសិក្សា អាចនៅតែបរាជ័យលើករណីដែលសំខាន់បំផុត៖ អន្ទាក់នៃការវិនិច្ឆ័យខុស (differential-diagnosis pitfalls) វ៉ារ្យង់ដែលមិនបង្កគ្រោះថ្នាក់ តែមើលទៅគួរឲ្យព្រួយបារម្ភនៅពេលពិនិត្យតែម្នាក់ឯង និងបន្ទះដែលធម្មតាទាំងស្រុង ដែលល្បួងជំនួយការដែលមានទំនុកចិត្តឲ្យបង្កើតជំងឺ (manufacturing pathology)។.

ការបenchmark នេះត្រូវបានបង្កើតឡើងជុំវិញរបៀបបរាជ័យទាំងនោះ។ ករណីទាំង ១៥ ត្រូវបានជ្រើសរើសសម្រាប់លក្ខណៈវិនិច្ឆ័យជាក់លាក់មួយៗ៖ ភាពមីក្រូស៊ីតូស៊ីសដោយខ្វះជាតិដែក ដែលត្រូវរក្សាឲ្យដាច់ពីលក្ខណៈ beta-thalassaemia trait ដែលមាន mean corpuscular volume ដូចគ្នា, ការបង្ហាញរបស់ជំងឺ Gilbert's syndrome ដែលភាពមិនប្រក្រតីតែមួយគត់គឺ indirect hyperbilirubinaemia ដាច់ដោយឡែក, និងបន្ទះ screening មាន ១៥ ប៉ារ៉ាម៉ែត្រ ដែល analyte ទាំងអស់ស្ថិតនៅក្នុងជួរយោងរបស់វា។ Rubric ផ្តល់ពិន្ទុឲ្យម៉ាស៊ីនដែលអានករណីនីមួយៗតាមលក្ខខណ្ឌរបស់វា ហើយដាក់ទណ្ឌកម្មម៉ាស៊ីនដែលទៅរកការវិនិច្ឆ័យដោយទំនុកចិត្ត នៅពេលដែលមិនមានការវិនិច្ឆ័យបែបនោះត្រូវបានគាំទ្រ។.

ក្នុងនាមជា Thomas Klein, MD ខ្ញុំបានជ្រើសរើសបន្ទះករណីនេះ ព្រោះនេះជាលំនាំដែលខ្ញុំឃើញជំនួយការផ្នែកមន្ទីរពិសោធន៍-វេជ្ជសាស្ត្រ ធ្វើខុសញឹកញាប់បំផុត។. របៀបបរាជ័យដែលមានតម្លៃថ្លៃ មិនមែនជា "ខកខានជំងឺកម្រមួយ" ទេ — វាគឺការបង្កើត pathology ធម្មតា នៅក្នុងអ្នកជំងឺដែលពួកគេមិនមានវា។. របស់យើង។ សុពលភាពវេជ្ជសាស្រ្ត hub ពិពណ៌នាក្របខណ្ឌទូលំទូលាយ; ទំព័រនេះពិពណ៌នាអំពីលទ្ធផលដែលបានអនុវត្តរបស់វានៅលើម៉ាស៊ីន V11។.

ការរត់យោងចុងក្រោយ — V11 (ខែមេសា 2026)

ការធ្វើ reference run សម្រាប់ខែមេសា ឆ្នាំ ២០២៦ របស់ Kantesti AI Engine V11 បានបង្កើតពិន្ទុរួមមួយជា 99.12% លើ rubric ករណី ១៥ ដែលបានចុះបញ្ជីជាមុន។ ករណីដែលជាប់អន្ទាក់ hyperdiagnosis ទាំងពីរ បានពិន្ទុដល់កម្រិតកំពូល។ Mentzer index ត្រូវបានអនុវត្តត្រឹមត្រូវលើ differential រវាង iron-deficiency និង thalassaemia។.

ពិន្ទុរួម 99.12% ១៥ ក្នុងចំណោម ១៥ ករណី បានពិន្ទុ
0.998 ពិន្ទុរចនាសម្ព័ន្ធ
0.998 ពិន្ទុផ្នែកព្យាបាល
20.17 វិនាទី មធ្យម latency
0 / 13 អន្ទាក់ false-positives

រូបមន្តពិន្ទុរួមផ្សំសមាសភាគចំនួនបី៖ ភាពស្របតាមរចនាសម្ព័ន្ធ ជាមួយនឹងផ្នែករបាយការណ៍ដែលត្រូវតែមានចំនួនប្រាំពីរ និងអនុផ្នែកដែលត្រូវតែមានចំនួនដប់ប្រាំមួយ, ភាពត្រឹមត្រូវផ្នែកព្យាបាល វាស់វែងជា keyword recall បូកនឹង scoring-system recall បូកនឹងការត្រួតពិនិត្យសុពលភាពនៃ probability-distribution latency នៃការឆ្លើយតប ធៀបនឹងគោលដៅ primary service-level ២០ វិនាទី។ ការបំបែកពិតប្រាកដត្រូវបានបង្ហាញក្នុងរូបមន្ត rubric ខាងក្រោម។.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

ចំណុះនៅសល់ 0.88 ភាគរយ ដែលនៅសល់នោះ បំបែកស្ទើរតែទាំងស្រុងទៅជាការបាត់បង់ដោយសារភាពយឺតយ៉ាវ (latency loss) — ការហៅបម្រុង Phase 2 ចំនួនបីលើក ដែលមានការរួមបញ្ចូលគ្នា (composite) ក្នុងកម្រិត -0.05 នីមួយៗ បានរួមចំណែកប្រហែល 0.60 នៃកង្វះ 0.88 ភាគរយ — មិនមែនទៅក្នុងខ្លឹមសារព្យាបាលទេ។ ម៉ាស៊ីនមិនបានខកខានការធ្វើរោគវិនិច្ឆ័យត្រឹមត្រូវលើករណីទាំង 15 នោះទេ; នៅពេលដែលវាខ្វះ វាខ្វះដោយចំណាយពេលយូរជាងគោលដៅ 20 វិនាទីសម្រាប់ផ្លូវសំខាន់ (primary-path) បន្តិច ក្នុងចំនួនតិចតួចនៃការហៅបម្រុង។.

ករណីចំនួនដប់ប្រាំ (fifteen) លើឯកទេសវេជ្ជសាស្ត្រចំនួនប្រាំពីរ

ក្រុមពិនិត្យករណី (case panel) គ្របដណ្តប់លើជំនាញចំនួនប្រាំពីរ — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — រួមទាំងករណី “hyperdiagnosis trap” ដែលបានឧទ្ទិសចំនួនពីរ។ ករណីនីមួយៗជាកំណត់ត្រាអ្នកជំងឺពិត ដែលបានធ្វើឲ្យអនាមិក (anonymised) ដកចេញពីឃ្លាំងទិន្នន័យគ្លីនិក Kantesti ក្រោមការយល់ព្រមដោយបានជូនដំណឹងជាលាយលក្ខណ៍អក្សរ។.

ផែនទីគ្របដណ្តប់នៃករណីពិនិត្យឈាមដែលបានធ្វើឲ្យអនាមិកចំនួនដប់ប្រាំ (fifteen) ដែលចែកចាយក្នុងជំនាញវេជ្ជសាស្ត្រចំនួនប្រាំពីរ បូកបញ្ចូលករណីអន្ទាក់ hyperdiagnosis
រូបភាពទី 2: ការចែកចាយករណីក្នុង hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology បូកនឹងករណី trap ចំនួនពីរ — Gilbert's syndrome និងបន្ទះពិនិត្យ (screening panel) ដែលធម្មតាទាំងស្រុង។.

ការដកអត្តសញ្ញាណ (de-identification) ត្រូវបានអនុវត្តតាមវិធីសាស្ត្រ Safe Harbor: អត្តសញ្ញាណផ្ទាល់ទាំងអស់ត្រូវបានដកចេញ ឬជំនួស ហើយកំណត់ត្រានីមួយៗត្រូវបានផ្តល់លេខកូដករណីក្នុងស្តង់ដារផ្ទៃក្នុង (benchmark-internal case code) ក្នុងទម្រង់ BT-NNN-LABEL។ ដំណើរការត្រូវបានអនុវត្តតាម GDPR មាត្រា 9(2)(j) សម្រាប់ការស្រាវជ្រាវវិទ្យាសាស្ត្រ ដោយមានការការពារសមស្រប និងបទប្បញ្ញត្តិ UK GDPR ដែលស្មើគ្នា។ មិនមានព័ត៌មានដែលអាចកំណត់អត្តសញ្ញាណផ្ទាល់ខ្លួន (personally identifying information) បង្ហាញនៅទីណាមួយក្នុងឧបករណ៍សាកល្បងដែលបានបោះពុម្ព (published harness) របាយការណ៍បច្ចេកទេស (technical report) ឬសំណុំទិន្នន័យដែលបានចេញផ្សាយ (released datasets)។.

Hematology (3) BT-001, BT-006, BT-007 ភាពស្លេកស្លាំងដោយខ្វះជាតិដែក · កង្វះ B12 · Beta-thalassaemia minor
Endocrinology (3) BT-002, BT-008, BT-012 ជំងឺ Hashimoto's thyroiditis · PCOS ជាមួយនឹងភាពធន់នឹងអាំងស៊ុlin · កង្វះវីតាមីន D ធ្ងន់ធ្ងរ
Metabolic (2) BT-003, BT-013 T2DM ជាមួយនឹងរោគសញ្ញាមេតាបូលីក · Hyperuricaemia ជាមួយនឹងហានិភ័យហ្គោត
Hepatology (2) BT-004, BT-009 NAFLD / NASH · ជំងឺរលាកថ្លើមវីរុសស្រួចស្រាវ
Nephrology · Cardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD ដំណាក់កាលទី 3 · ជំងឺខ្លាញ់ក្នុងឈាមដែលបង្កើនអាថេរ៉ូជេនីក (atherogenic dyslipidaemia) · ជំងឺប្រព័ន្ធ lupus erythematosus
Trap cases (2) BT-014, BT-015 Gilbert's syndrome (hyperbilirubinaemia អន្តរកាលដោយឯកោ) · បន្ទះពិនិត្យមនុស្សពេញវ័យដែលធម្មតាទាំងស្រុង

ហេតុអ្វីបានជាការចែកចាយជាក់លាក់នេះ

ផ្នែកវិទ្យាឈាមវិទ្យាទទួលបាន ៣ ករណី ព្រោះថា ការបែងចែកតាមទំហំកោសិកាឈាមតូច (microcytic differentials) និងការបែងចែកតាមទំហំកោសិកាឈាមធំ (macrocytic differentials) គឺជាអន្ទាក់ដែលមានបរិមាណខ្ពស់បំផុតក្នុងការអនុវត្តមន្ទីរពិសោធន៍ជាក់ស្តែង។ ផ្នែកអរម៉ូនវិទ្យាទទួលបាន ៣ ករណី ព្រោះការបង្ហាញរបស់ Hashimoto's, PCOS, និងកង្វះវីតាមីន D មានរូបរាងរោគវិនិច្ឆ័យខុសៗគ្នា (ជំរុញដោយអង្គបដិប្រាណ, ជំរុញដោយសមាមាត្រអ័រម៉ូន, ជំរុញដោយសញ្ញាសម្គាល់តែមួយ)។ ផ្នែកឯកទេសដែលមានតែមួយករណីនៅតែមានន័យ ព្រោះ CKD, ហានិភ័យ ASCVD, និង SLE នីមួយៗមានប្រព័ន្ធពិន្ទុរៀងៗខ្លួន ដែលម៉ាស៊ីនគួរតែហៅប្រើ (KDIGO staging, ហានិភ័យ 10 ឆ្នាំរបស់ ASCVD, និងលក្ខណៈវិនិច្ឆ័យ 2019 EULAR/ACR សម្រាប់ SLE រៀងៗខ្លួន)។.

ការពន្យល់អំពី rubric ដែលបានចុះឈ្មោះជាមុន

ការចុះបញ្ជីជាមុន (pre-registration) គឺជាជម្រើសវិធីសាស្ត្រដ៏សំខាន់បំផុតតែមួយគត់ក្នុងការប្រកួតស្តង់ដារនេះ។ រាល់ការធ្វើរោគវិនិច្ឆ័យដែលរំពឹងទុក រាល់ប្រព័ន្ធពិន្ទុគ្លីនិក និងរាល់ផ្នែករបាយការណ៍ ត្រូវបានប្តេជ្ញាចូលទៅក្នុងកូដប្រភព មុនពេលម៉ាស៊ីនត្រូវបានហៅប្រើ. ។ ដូច្នេះ ការកែសម្រួលក្រោយការពិត (post-hoc) នៃ rubric ដើម្បីឲ្យលំអៀងទៅម៉ាស៊ីន គឺមិនអាចធ្វើបានទេ។.

សមាសធាតុ ៣ ផ្នែកបង្កើតជាពិន្ទុរួម។ សមាសធាតុរចនាសម្ព័ន្ធ មានចំនួន ៣៥ ភាគរយ និងវាស់ថាតើម៉ាស៊ីនបានត្រឡប់ផ្នែករបាយការណ៍ដែលត្រូវតែមានចាំបាច់ទាំងប្រាំពីរ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) និងផ្នែករងដែលត្រូវតែមានចាំបាច់ចំនួនដប់ប្រាំមួយនៅក្នុងពួកវាឬអត់។ ការមានវត្តមាននៃផ្នែក (section presence) មានទម្ងន់ ៤០ ភាគរយ និងការមានវត្តមាននៃផ្នែករង (subsection presence) មានទម្ងន់ ៦០ ភាគរយ ក្នុងការគណនារចនាសម្ព័ន្ធ។.

នេះ។ សមាសធាតុគ្លីនិក មានចំនួន ៥៥ ភាគរយ និងរួមបញ្ចូល ៣ ចំណុច៖ ការចងចាំពាក្យគន្លឹះសម្រាប់រោគវិនិច្ឆ័យ (70 ភាគរយ នៃពិន្ទុរងគ្លីនិក), ការចងចាំប្រព័ន្ធពិន្ទុ (20 ភាគរយ — តើម៉ាស៊ីនគណនា Mentzer, FIB-4, HOMA-IR, ហានិភ័យ ASCVD, KDIGO staging, លក្ខណៈវិនិច្ឆ័យ EULAR/ACR នៅពេលពាក់ព័ន្ធឬអត់), និងការត្រួតពិនិត្យភាពត្រឹមត្រូវនៃផលបូកប្រូបាប៊ីលីតេ (10 ភាគរយ — ប្រូបាប៊ីលីតេនៃ differential ត្រូវតែបូកសរុបឲ្យស្ថិតក្នុងចន្លោះ [90, 110])។ សម្រាប់ករណីអន្ទាក់ (trap cases) នឹងដកការពិន័យសម្រាប់ hyperdiagnosis ច្បាស់លាស់ រហូតដល់ 0.30 ដោយគណនាជា 0.10 ក្នុងមួយសញ្ញាធាតុ pathology ដែលបង្កើតឡើង (fabricated pathology flag) ហើយកំណត់អតិបរមា ៣ សញ្ញា។.

នេះ។ សមាសធាតុពេលវេលាយឺត (latency component) មានចំនួន ១០ ភាគរយ។ ការឆ្លើយតបក្រោម ២០ វិនាទី ទទួលបានពេញ 0.10, ក្រោម ៤០ វិនាទី ទទួលបាន 0.05, និងអ្វីដែលយឺតជាងនេះទទួលបាន ០។ គោលដៅ ២០ វិនាទី សំដៅលើគោលបំណងកម្រិតសេវា (service-level objective) សម្រាប់ការផលិត (production primary-path service-level objective); ពិដាន ៤០ វិនាទី សំដៅលើថវិកាបម្រុងសម្រាប់ Phase 2 ក្នុងករណីហៅម៉ាស៊ីនធ្ងន់ៗ។.

រូបថតអេក្រង់ចុងក្រោយនៃឧបករណ៍ benchmark របស់ Kantesti ដែលមានអាជ្ញាប័ណ្ណ MIT កំពុងដំណើរការ និងបញ្ចេញពិន្ទុក្នុងមួយករណី
រូបភាពទី 3: ការធ្វើតេស្តក្នុងការប្រតិបត្តិ (harness)។ ករណីនីមួយៗត្រូវបានបង្ហាញជាឯកសារ A4 PDF, បោះឡើងទៅ endpoint v11 នៃការផលិត (production), ហើយត្រូវបានវាយពិន្ទុធៀបនឹង rubric ដែលបានបង្កក (frozen rubric)។ រាល់ការឆ្លើយតបដើម (raw response) ត្រូវបានរក្សាទុក រួមជាមួយនឹង scorecard ដែលបានបូកសរុប។.

អ្វីដែល pre-registration រារាំង

ការប្រកួតស្តង់ដារដោយខ្លួនឯង (first-party benchmarks) តែងតែមានឈ្មោះល្បីថា ធ្វើឲ្យលេខរបស់ខ្លួនហើម ដោយសារការកែ rubric ក្រោយការពិត។ លំនាំនេះស្ទើរតែដូចគ្នាជានិច្ច៖ ក្រុមដំណើរការម៉ាស៊ីន មើលកន្លែងដែលវាធ្វើមិនបានល្អ បន្ទាប់មកក៏កែសម្រួល rubric ដោយស្ងៀមស្ងាត់ ដើម្បីឲ្យផ្នែកដែលធ្វើមិនបានល្អ មានទម្ងន់តិច។ ដោយប្តេជ្ញា rubric ទៅក្នុងកូដប្រភព មុនពេលហៅម៉ាស៊ីនលើកដំបូង និងបោះពុម្ព harness ក្រោមអាជ្ញាប័ណ្ណ MIT ការកែសម្រួលនោះក្លាយជាអាចមើលឃើញនៅក្នុង version control។ អ្នកណាក៏អាច clone repository ពិនិត្យថ្ងៃបង្កើត rubric និងផ្ទៀងផ្ទាត់ថា លទ្ធផលម៉ាស៊ីនមិនត្រូវបានប្រើដើម្បីរៀបចំការវាយពិន្ទុ។.

ករណីជាមួយអន្ទាក់នៃការធ្វើរោគវិនិច្ឆ័យលើស (Hyperdiagnosis) — ហេតុអ្វីការហៅច្រើនពេក (over-calling) ជារបៀបបរាជ័យពិត

ការហៅ pathology យ៉ាងខ្លាំងលើអេក្រង់ធម្មតា គឺជារបៀបបរាជ័យដែលបានកត់ត្រាទុកសម្រាប់ជំនួយការផ្នែកវេជ្ជសាស្ត្រដែលផ្តល់ជូនដល់អ្នកប្រើប្រាស់។ តម្លៃបន្តបន្ទាប់រួមមាន ការស៊ើបអង្កេតមិនចាំបាច់ ការព្រួយបារម្ភរបស់អ្នកជំងឺ និងការពិនិត្យ/ព្យាបាលដោយមិនចាំបាច់ (iatrogenic workup)។ ករណីអន្ទាក់ចំនួនពីរនៅក្នុងការប្រកួតស្តង់ដារនេះ ត្រូវបានរចនាឡើងដើម្បីធ្វើឲ្យរបៀបបរាជ័យនោះអាចមើលឃើញ និងអាចវាយពិន្ទុបាន។.

ការប្រៀបធៀបជាប់គ្នា៖ AI ដែលមិនមានមូលដ្ឋានបង្កើតជំងឺរលាកថ្លើម (hepatitis) លើបន្ទះរបស់ Gilbert's syndrome ប្រៀបនឹងម៉ាស៊ីន Kantesti ដែលកំណត់បានត្រឹមត្រូវនូវភាពប៉ូលីម័រ UGT1A1 ដែលមិនបង្កគ្រោះថ្នាក់
រូបភាពទី ៤៖ ការរចនាករណីអន្ទាក់ (trap-case design)។ ម៉ាស៊ីនដែលដាក់ស្លាក Gilbert's syndrome ថាជា hepatitis ដោយទំនុកចិត្ត ឬដែលបង្កើត pathology ស្ទើរតែមានព្រំដែន (borderline pathology) នៅលើអេក្រង់ដែលពេញលេញធម្មតា នឹងត្រូវបានពិន័យ — មិនមែនទទួលរង្វាន់សម្រាប់ការស្តាប់ទៅដូចគ្លីនិកនោះទេ។.

🟡 អន្ទាក់ 1 — BT-014-GILBERT

ការបង្ហាញ (Presentation)។. បុរសអាយុ ២៤ ឆ្នាំ ដែលមាន bilirubin សរុប 2.4 mg/dL។ សមាមាត្រផ្ទាល់ (direct fraction) មានលក្ខណៈធម្មតា, transaminases និង alkaline phosphatase ស្ថិតនៅក្នុងចន្លោះតម្លៃយោងរបស់ពួកវា, reticulocytes មិនមានអ្វីគួរឲ្យកត់សម្គាល់, និង haptoglobin និង LDH បដិសេធ haemolysis។.

ការបកស្រាយត្រឹមត្រូវ។. Gilbert's syndrome — polymorphism UGT1A1 ដែលជាជំងឺមិនបង្កគ្រោះថ្នាក់។ ការបកស្រាយមិនគួរហៅ hepatitis, cirrhosis, haemolytic anaemia, ឬ biliary obstruction។.

លទ្ធផល V11។. Composite 1.000។ គ្មានសញ្ញា over-diagnosis ដែលតាមដានទាំងប្រាំមួយ បានបង្ហាញជារោគវិនិច្ឆ័យសកម្មទេ។.

🟡 អន្ទាក់ 2 — BT-015-HEALTHY

ការបង្ហាញ (Presentation)។. ស្ត្រីអាយុ ៣៥ ឆ្នាំ ជាមួយនឹងបន្ទះអេក្រង់ស្ដង់ដារ ១៥ ប៉ារ៉ាម៉ែត្រ។ អ្នកវិភាគ (analyte) ទាំងអស់ ស្ថិតយ៉ាងស្រួលនៅក្នុងចន្លោះតម្លៃយោងរបស់វា។.

ការបកស្រាយត្រឹមត្រូវ។. ការធានាឡើងវិញ និងការថែរក្សារបៀបរស់នៅ។ ការបកស្រាយមិនគួរបង្កើតជំងឺស្ថិតនៅដែនកំណត់ (borderline pathology) ដើម្បីឲ្យមើលទៅមានប្រយោជន៍ខាងវេជ្ជសាស្ត្រតាមបែបគ្លីនិកនោះទេ។.

លទ្ធផល V11។. សមាសធាតុ 1.000។ ក្នុងចំណោមសញ្ញាព្រមាននៃការធ្វើរោគវិនិច្ឆ័យលើស (over-diagnosis) ដែលត្រូវបានតាមដានទាំងប្រាំពីរ — ជំងឺទឹកនោមផ្អែម (diabetes), ភាពស្លេកស្លាំង (anaemia), ជំងឺក្រពេញធីរ៉ូអ៊ីដថយ (hypothyroidism), ជំងឺខ្លាញ់ក្នុងឈាមខ្ពស់ (dyslipidaemia), ជំងឺរលាកថ្លើម (hepatitis), ជំងឺតម្រងនោម (kidney disease), កង្វះ (deficiency) — មិនមានមួយណាលេចឡើងជារោគវិនិច្ឆ័យសកម្មឡើយ។.

នៅទាំងពីរត្រាប់ (traps) មានការត្រួតពិនិត្យសញ្ញាព្រមាននៃការធ្វើរោគវិនិច្ឆ័យលើស (hyperdiagnosis) ចំនួនដប់បី។ មិនមានសញ្ញាណាមួយត្រូវបានបង្កឲ្យសកម្មឡើយ។ នេះជាលទ្ធផលដែលសំខាន់បំផុតសម្រាប់វេជ្ជបណ្ឌិតណាម្នាក់ដែលកំពុងពិចារណាប្រើម៉ាស៊ីន AI ជាឧបករណ៍សម្រាប់ការបែងចែកអាទិភាព (triage) ឬមុនការពិគ្រោះ។ ប្រព័ន្ធមិនបានបង្កើតជំងឺណាមួយឡើយ នៅពេលដែលមិនមានជំងឺនោះ.

សន្ទស្សន៍ Mentzer: បំបែកការខ្វះជាតិដែក (iron deficiency) ពីលក្ខណៈ thalassaemia trait

ការរកឃើញដែលមានតម្លៃខ្ពស់ទីពីរ ទាក់ទងនឹងការផ្គូផ្គងរវាង case BT-001 (ភាពស្លេកស្លាំងដោយកង្វះជាតិដែក) ជាមួយ case BT-007 (beta-thalassaemia minor)។ ទាំងពីរមាន microcytosis ហើយជាឧបសគ្គដែលគេស្គាល់ច្បាស់សម្រាប់អ្នកចាត់ថ្នាក់ (classifiers) ដែលមិនទាន់មានបទពិសោធន៍។ សន្ទស្សន៍ Mentzer ដែលគណនាជា MCV ចែកនឹងចំនួន RBC មានតម្លៃលើស 13 ក្នុងកង្វះជាតិដែក ហើយធ្លាក់ក្រោម 13 ក្នុងលក្ខណៈ thalassaemia trait។.

នៅ BT-001 អ្នកជំងឺជាស្ត្រីអាយុ 34 ឆ្នាំ មានកម្រិត hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL និង TIBC ខ្ពស់។ សន្ទស្សន៍ Mentzer ប្រហែល 17.7 គាំទ្រកង្វះជាតិដែកពិតប្រាកដ (absolute iron deficiency)។ នៅ BT-007 អ្នកជំងឺជាបុរសអាយុ 28 ឆ្នាំ មាន microcytosis (MCV 65.8 fL) ប៉ុន្តែមានចំនួន RBC ខ្ពស់ 6.2, RDW ធម្មតា, ferritin ធម្មតា និង HbA2 5.6 ភាគរយ។ សន្ទស្សន៍ Mentzer ប្រហែល 10.6 បង្ហាញ thalassaemia trait ហើយ HbA2 ខ្ពស់បញ្ជាក់ beta-thalassaemia minor។.

ភាពស្លេកស្លាំងដោយកង្វះជាតិដែក Mentzer > 13 Ferritin ទាប, TSAT ទាប, TIBC ខ្ពស់, RDW ខ្ពស់
Thalassaemia trait (លក្ខណៈ thalassaemia) Mentzer < 13 Ferritin ធម្មតា, RDW ធម្មតា, HbA2 ខ្ពស់ (>3.5%), ចំនួន RBC ខ្ពស់

ករណីទាំងពីរទទួលពិន្ទុ 1.000។ ម៉ាស៊ីនបានហៅសន្ទស្សន៍ Mentzer យ៉ាងច្បាស់នៅក្នុងការបកស្រាយទាំងពីរ ហើយបានត្រឡប់រោគវិនិច្ឆ័យត្រឹមត្រូវក្នុងករណីនីមួយៗ។. នេះជាលទ្ធផលដែលធានាឡើងវិញផ្នែកគ្លីនិកច្រើនបំផុតតែមួយ ក្នុងការប្រកួតវាស់ស្ទង់ទាំងមូល, ព្រោះការចាត់ថ្នាក់ខុស thalassaemia trait ជា iron deficiency នាំឲ្យផ្តល់ថ្នាំបន្ថែមជាតិដែកមិនសមស្រប និងខកខានឱកាសស្វែងរកតាមគ្រួសារ (family-screening) ហើយការចាត់ថ្នាក់ខុស iron deficiency ជា thalassaemia ធ្វើឲ្យពន្យារពេលការព្យាបាលជំនួសដែលងាយស្រួលត្រង់ៗ។ Our កម្រិត ferritin ពន្យល់បរិបទនៃការបែងចែកជំងឺទូលំទូលាយជាងនេះ។.

លទ្ធផលតាមករណីពីការប្រតិបត្តិខែមេសា ឆ្នាំ 2026

ក្នុងចំណោម 15 ករណី មាន 12 ករណីទទួលបានពិន្ទុសមាសធាតុ (composite) ដល់កម្រិតពិដាន 1.000 លើ path ចម្បង (primary)។ ករណី 3 ត្រូវបានបម្រើតាមការបម្រុងទុក Phase 2 (Phase 2 fallback) ដោយបាត់បង់ bonus ភាពយឺត (latency) 0.05 ខណៈដែលរក្សាបានទាំងអស់នូវខ្លឹមសារផ្នែកគ្លីនិក និងរចនាសម្ព័ន្ធ។ ករណីមួយខ្វះផ្នែករង (subsection) ដែលត្រូវតែមានតែមួយ។ មួយទៀតត្រឡប់មកវិញនូវសរុបនៃការចែកចាយប្រូបាប៊ីលីតេ (probability distribution) ដែលថយចុះបន្តិចបន្តួច។.

លេខសម្គាល់ករណី (Case ID) ជំនាញ (Specialty) ពិន្ទុរួម Latency Path
BT-001-IDAឈាមវិទ្យា1.00017.8 sprimary
BT-006-B12ឈាមវិទ្យា1.00018.4 វិនាទីprimary
BT-007-THALឈាមវិទ្យា1.00017.0 វិនាទីprimary
BT-002-HASHរោគវិទ្យា0.95037.0 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របន្ទាន់
BT-008-PCOSរោគវិទ្យា0.98718.6 វិនាទីprimary
BT-003-T2DMមេតាបូលីស1.00019.1 វិនាទីprimary
BT-013-GOUTមេតាបូលីស1.00019.4 វិនាទីprimary
BT-004-NAFLDជំនាញថ្លើម1.00019.6 វិនាទីprimary
BT-009-VIRHEPជំនាញថ្លើម0.95023.4 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របន្ទាន់
BT-014-GILBERTអន្ទាក់1.00018.9 វិនាទីprimary
BT-005-CKDវិទ្យាសាស្ត្រ​តម្រងនោម1.00017.4 វិនាទីprimary
BT-010-ASCVDផ្នែកជំងឺបេះដូង1.00019.7 វិនាទីprimary
BT-011-SLEវិទ្យារោគសន្លាក់ឆ្អឹង0.98118.2 វិនាទីprimary
BT-012-VITDរោគវិទ្យា1.00019.3 វិនាទីprimary
BT-015-HEALTHYអន្ទាក់1.00018.7 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របន្ទាន់

ករណី PCOS (BT-008) បានបាត់បង់ផ្នែករងដែលត្រូវតែមានមួយផ្នែកក្នុងរចនាសម្ព័ន្ធការឆ្លើយតប — ដប់ប្រាំពីរនៃដប់ប្រាំមួយ ជំនួសឲ្យដប់ប្រាំមួយនៃដប់ប្រាំមួយ — ដែលកាត់បន្ថយពិន្ទុរចនាសម្ព័ន្ធពី 1.000 ទៅ 0.963។ ករណី SLE (BT-011) បានត្រឡប់មកវិញនូវផលបូកនៃការចែកចាយប្រូបាប៊ីលីតេដែលថយចុះបន្តិច ដែលធ្វើឲ្យពិន្ទុផ្នែកគ្លីនិកធ្លាក់ដល់ 0.965 ខណៈដែលរក្សាបានរាល់ពាក្យគន្លឹះវិនិច្ឆ័យ និងប្រព័ន្ធពិន្ទុទាំងអស់។ គ្មានករណីណាមួយដែលមិនល្អទាំងស្រុងនោះ បាត់បង់ការវិនិច្ឆ័យត្រឹមត្រូវឡើយ។.

អ្វីដែលពិន្ទុចំណងជើងមិនបានប្រាប់យើង

ពិន្ទុរួម 99.12 ភាគរយ ក្រោមក្របខណ្ឌដែលបានចុះបញ្ជីជាមុនជាក់លាក់នេះ បង្ហាញពីសមត្ថភាពជិតដល់កម្រិតកំពូល ប៉ុន្តែវាសមនឹងការរៀបរាប់ឲ្យបានប្រុងប្រយ័ត្ន។ លទ្ធផលពិពណ៌នាអំពីអាកប្បកិរិយារបស់ម៉ាស៊ីនប្រឆាំងនឹងករណីដែលបានធ្វើអនាមិកចំនួនដប់ប្រាំពីរ ដែលបានជ្រើសយ៉ាងប្រុងប្រយ័ត្ន ត្រូវបានវាយតម្លៃម្តងៗ និងប្រឆាំងនឹងក្របខណ្ឌតែមួយ។ យើងបញ្ជាក់ឲ្យច្បាស់អំពីអ្វីដែលលេខនេះបង្ហាញ និងមិនបង្ហាញ។.

ពិន្ទុនេះបញ្ជាក់ថា ម៉ាស៊ីន V11 ដោះស្រាយបានត្រឹមត្រូវនូវលំនាំវិនិច្ឆ័យដែលបានជ្រើសសម្រាប់ការវាយតម្លៃនេះ ដោយប្រើវិធីសាស្ត្រដែលបានបោះពុម្ព និងអាចធ្វើឡើងវិញបាន។ វាមិនបាននិយាយថា ម៉ាស៊ីនត្រឹមត្រូវលើរាល់បន្ទះពិនិត្យឈាមដែលមាននៅក្នុងពិភពពិតនោះទេ។ វាមិនបាននិយាយថា ម៉ាស៊ីនគួរតែជំនួសការវិនិច្ឆ័យរបស់គ្រូពេទ្យទេ។ ហើយវាមិនបាននិយាយថា ម៉ាស៊ីនមានសមត្ថភាពលើសប្រព័ន្ធ AI ផ្សេងទៀតទេ — ការវិភាគប្រៀបធៀបជាមួយម៉ាស៊ីនផ្សេងៗត្រូវបានដាក់ចេញពីវិសាលភាពសម្រាប់របាយការណ៍នេះដោយចេតនា។.

អ្វីដែលពិន្ទុនេះបង្ហាញច្បាស់គឺជាមូលដ្ឋាន (baseline)។ នៅពេលដែលក្របខណ្ឌ និងឧបករណ៍ (harness) ត្រូវបានបង្ហាញជាសាធារណៈ កំណែអនាគតនៃម៉ាស៊ីនអាចត្រូវបានវាយតម្លៃធៀបនឹងករណីដប់ប្រាំពីរដូចគ្នា ហើយគម្លាតរវាងពិន្ទុដែលបានបោះពុម្ព និងការរត់បន្ទាប់ណាមួយ ក៏អាចវាស់វែងបានផងដែរ។ នេះជាតម្លៃនៃការចុះបញ្ជីជាមុន៖ វាបម្លែងការអះអាងអំពីសមត្ថភាព ទៅជាការអះអាងដែលអាចធ្វើតេស្តបាន.

របៀបធ្វើឲ្យស្រដៀងនឹងស្តង់ដារនេះឡើងវិញក្នុងរយៈពេល 10 នាទី

ការធ្វើឡើងវិញ ត្រូវការតែគូសមត្ថភាព API Kantesti និងបរិស្ថាន Python 3.10 ឬក្រោយជាងនេះ ដែលមាន requests និង reportlab បានដំឡើង។ ឧបករណ៍ពេញលេញ (harness) គឺជាម៉ូឌុល Python តែមួយដែលមានខ្លឹមសារគ្រប់គ្រាន់ក្នុងខ្លួន និងត្រូវបានចេញផ្សាយក្រោមអាជ្ញាប័ណ្ណ MIT។.

ដ្យាក្រាមបណ្តាញភាពអាចធ្វើឡើងវិញ (reproducibility) បង្ហាញថា benchmark ត្រូវបានចម្លងទៅ Figshare, ResearchGate, Academia.edu និង GitHub ដោយប្រើ Figshare DOI ជាចំណុចយោងសំខាន់ (canonical anchor)
រូបភាពទី 5: ការប្រៀបធៀប (benchmark) ត្រូវបានឆ្លុះចម្លងនៅលើវេទិកាស្រាវជ្រាវចំនួនបួន។ លេខ DOI របស់ Figshare គឺជាអត្តសញ្ញាណសិក្សាដែលជាស្តង់ដារ (canonical)។ ResearchGate, Academia.edu និង GitHub ផ្ទុកច្បាប់ចម្លងស្របគ្នា រួមទាំងកូដ និងទិន្នន័យដើម (raw data)។.

បួនជំហានសម្រាប់ការរត់ថ្មី

មួយ។. ក្លូន (Clone) ឃ្លាំង (repository)៖ git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ពីរ។. ដំឡើងការពឹងផ្អែកជាមួយ pip install -r requirements.txt. បី។. កំណត់ KANTESTI_USERNAME និង KANTESTI_PASSWORD ជាអថេរបរិស្ថាន — លិខិតសម្គាល់ត្រូវបានអាននៅពេលដំណើរការ ហើយមិនមានការកំណត់បែប hard-code នៅក្នុងស្គ្រីប។. បួន។. ដំណើរការ python benchmark_bloodtest.py ហើយពិនិត្យមើលអត្ថបទបង្កើតចំនួនបួនដែលបញ្ចេញទៅកាន់ថតការងារ៖ CSV scorecard, JSON scorecard, ការបោះចោល JSON ពេញលេញរួមទាំងការឆ្លើយតបដើមរបស់ម៉ាស៊ីន (raw engine responses) និងរបាយការណ៍ Markdown ដែលអានបានដោយមនុស្ស។.

លទ្ធផលយោងពីថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 ត្រូវបានរក្សាទុកក្នុង results/ ថតនៃឃ្លាំង (repository)។ ការដំណើរការថ្មីនឹងបង្កើត scorecard ថ្មីដែលមានស្លាកពេលវេលា (timestamp) ខណៈដែលការដំណើរការយោងត្រូវបានទុកឲ្យនៅដដែល។ ប្រសិនបើការដំណើរការរបស់អ្នកបង្កើតលទ្ធផលខុសគ្នាយ៉ាងមានន័យ សូមបើកបញ្ហា (GitHub issue) ជាមួយ timestamp នៃការដំណើរការ និងកំណែម៉ាស៊ីន (engine version) ដែលត្រូវបានត្រឡប់ក្នុង metadata នៃការឆ្លើយតប។.

ដែនកំណត់ និងការងារនាពេលអនាគត

ដែនកំណត់ចំនួនបួនត្រូវការការទទួលស្គាល់ឲ្យច្បាស់៖ ទំហំគំរូ, ការវាយតម្លៃតែម្តង (single-shot), វិសាលភាពម៉ាស៊ីនតែមួយ (single-engine scope), និងប្រភពទិន្នន័យតែមួយ (single-source data origin)។ នីមួយៗកំពុងត្រូវបានដោះស្រាយក្នុងការងារតាមដានបន្តបន្ទាប់។.

ទំហំគំរូ។. ករណីចំនួនដប់ប្រាំ (fifteen) ក្នុងធុងឯកទេសចំនួនប្រាំបី (eight specialty buckets) គ្រប់គ្រាន់សម្រាប់ការបង្ហាញគំនិត (proof of concept) ប៉ុន្តែមិនគ្រប់គ្រាន់សម្រាប់ការវិភាគតាមក្រុមរងក្នុងឯកទេសនីមួយៗទេ។ គ្រោងពង្រីកទៅកាន់ករណីចំនួនហាសិប (fifty) ហើយនឹងរួមបញ្ចូល coagulation panels, ការពិនិត្យរកជំងឺមហារីកឈាម (haematological malignancy screening), pregnancy panels និងការបង្ហាញរបស់កុមារ (paediatric presentations)។.

ការវាយតម្លៃតែម្តង (single-shot evaluation)។. ករណីនីមួយៗត្រូវបានវាយតម្លៃតែម្តង។ ម៉ូដែលភាសាធំៗបង្ហាញភាពប្រែប្រួលលទ្ធផល (output variance) ដែលមិនមែនតិចតួច ទោះបីជាកំណត់សីតុណ្ហភាពគំរូទាបក៏ដោយ ដូច្នេះពិធីសាស្ត្រវាយតម្លៃច្រើនដង (multi-run protocol) ដោយមានការវាយតម្លៃចំនួនប្រាំ (five evaluations) ក្នុងមួយករណី និងការរាយការណ៍អំពីភាពប្រែប្រួល គឺជាជំហានបន្ទាប់ដែលសមហេតុផល។.

វិសាលភាពម៉ាស៊ីនតែមួយ (single-engine scope)។. របាយការណ៍នេះពិពណ៌នាអំពីម៉ាស៊ីនមួយ។ ការវិភាគប្រៀបធៀបជាមួយប្រព័ន្ធ AI ផ្សេងៗ ស្ថិតក្រៅវិសាលភាពនៅទីនេះ។ យើងអាចបន្តវាជាការសិក្សាឯករាជ្យដាច់ដោយឡែកជាមួយនឹងវិធីសាស្ត្រសមស្រប។.

ប្រភពទិន្នន័យតែមួយ (single-source data origin)។. ករណីចំនួនដប់ប្រាំ (fifteen) គឺជាកំណត់ត្រាអ្នកជំងឺពិតដែលបានធ្វើអនាមិក (anonymised) ដកស្រង់ពីឃ្លាំងគ្លីនិកតែមួយ។ វាតំណាងឲ្យគំរូដែលបានរៀបចំ (curated sample) ហើយមិនមែនជាការចាប់យកដោយចៃដន្យដែលតំណាងឲ្យប្រជាជនទាំងមូលទេ។ ការពង្រីកការវាយតម្លៃទៅទិន្នន័យពីច្រើនមជ្ឈមណ្ឌល (multi-centre data) ស្ថិតក្នុងផែនការផ្លូវ (roadmap)។.

ការពង្រីកដែលមានឥទ្ធិពលខ្លាំងបំផុតដែលបានគ្រោងទុកគឺភាពស្មើគ្នាច្រើនភាសា (multi-language parity)។ ម៉ាស៊ីន AI Kantesti បម្រើអ្នកប្រើប្រាស់ក្នុង 75+ ភាសា ហើយការដំណើរការកម្មវិធីសាកល្បង (harness) ដូចគ្នា ដែលមានករណីចំនួនដប់ប្រាំ (fifteen-case) នៅក្នុងទួរគី (Turkish), អាល្លឺម៉ង់ (German), អេស្ប៉ាញ (Spanish), បារាំង (French) និងអារ៉ាប់ (Arabic) នឹងវាស់គុណភាពលទ្ធផលនៅទូទាំងភាសាដែលម៉ាស៊ីនគាំទ្រ។ យើងនឹងបោះពុម្ពការដំណើរការសម្រាប់ភាសានីមួយៗ ដោយមាន DOI ផ្ទាល់ខ្លួន និងសាខា (branch) នៃ harness។.