ហេតុអ្វីបានជា benchmark នេះមាន និងវាតេស្តអ្វី
ការបកស្រាយលទ្ធផលឈាមដោយ AI ត្រូវបានប្រើប្រាស់កាន់តែច្រើនឡើងក្នុងដំណើរការការងារសម្រាប់អ្នកប្រើប្រាស់ និងផ្នែកព្យាបាល ប៉ុន្តែស៊ុមវាយតម្លៃដែលអាចធ្វើឲ្យអាចបង្កើតឡើងវិញបាន និងត្រូវបានរៀបចំសម្រាប់វេជ្ជសាស្ត្រមន្ទីរពិសោធន៍ នៅតែមិនសូវមាន។ សំណួរដែលសំខាន់បំផុតក្នុងបរិបទនេះ មិនមែនជាសំណួរដែលគ្របដណ្តប់ដោយស្តង់ដារសាកល្បងសំណួរ-ចម្លើយវេជ្ជសាស្ត្រទូទៅនោះទេ៖ តើម៉ាស៊ីនអាចបំបែកភាពខ្វះជាតិដែកពីលក្ខណៈ thalassaemia trait បានទេ នៅពេលដែល mean corpuscular volume ដូចគ្នា? តើវាធ្វើឲ្យមានការវិនិច្ឆ័យ Gilbert's syndrome លើស ដូចជាជំងឺរលាកថ្លើម (hepatitis) ដែរឬទេ? និងតើវាបង្កើតរោគសាស្ត្រនៅក្នុងបន្ទះពិនិត្យដែលធម្មតាទាំងស្រុងដែរឬទេ?
ការធ្វើតេស្តឈាមជាបន្ទះតែមួយជាទូទៅមានសញ្ញាគ្រប់គ្រាន់ដើម្បីគាំទ្រការបកស្រាយជាច្រើនដែលអាចប្រកួតប្រជែងគ្នា ហើយភារកិច្ចរបស់គ្រូពេទ្យអ្នកបកស្រាយ គឺត្រូវថ្លឹងថ្លែងការបកស្រាយទាំងនោះឲ្យប្រៀបធៀបគ្នា ជាជាងទៅយកចម្លើយតាមសៀវភៅសិក្សា។ ម៉ាស៊ីនដែលធ្វើបានល្អលើករណីតាមសៀវភៅសិក្សា អាចនៅតែបរាជ័យលើករណីដែលសំខាន់បំផុត៖ អន្ទាក់នៃការវិនិច្ឆ័យខុស (differential-diagnosis pitfalls) វ៉ារ្យង់ដែលមិនបង្កគ្រោះថ្នាក់ តែមើលទៅគួរឲ្យព្រួយបារម្ភនៅពេលពិនិត្យតែម្នាក់ឯង និងបន្ទះដែលធម្មតាទាំងស្រុង ដែលល្បួងជំនួយការដែលមានទំនុកចិត្តឲ្យបង្កើតជំងឺ (manufacturing pathology)។.
ការបenchmark នេះត្រូវបានបង្កើតឡើងជុំវិញរបៀបបរាជ័យទាំងនោះ។ ករណីទាំង ១៥ ត្រូវបានជ្រើសរើសសម្រាប់លក្ខណៈវិនិច្ឆ័យជាក់លាក់មួយៗ៖ ភាពមីក្រូស៊ីតូស៊ីសដោយខ្វះជាតិដែក ដែលត្រូវរក្សាឲ្យដាច់ពីលក្ខណៈ beta-thalassaemia trait ដែលមាន mean corpuscular volume ដូចគ្នា, ការបង្ហាញរបស់ជំងឺ Gilbert's syndrome ដែលភាពមិនប្រក្រតីតែមួយគត់គឺ indirect hyperbilirubinaemia ដាច់ដោយឡែក, និងបន្ទះ screening មាន ១៥ ប៉ារ៉ាម៉ែត្រ ដែល analyte ទាំងអស់ស្ថិតនៅក្នុងជួរយោងរបស់វា។ Rubric ផ្តល់ពិន្ទុឲ្យម៉ាស៊ីនដែលអានករណីនីមួយៗតាមលក្ខខណ្ឌរបស់វា ហើយដាក់ទណ្ឌកម្មម៉ាស៊ីនដែលទៅរកការវិនិច្ឆ័យដោយទំនុកចិត្ត នៅពេលដែលមិនមានការវិនិច្ឆ័យបែបនោះត្រូវបានគាំទ្រ។.
ក្នុងនាមជា Thomas Klein, MD ខ្ញុំបានជ្រើសរើសបន្ទះករណីនេះ ព្រោះនេះជាលំនាំដែលខ្ញុំឃើញជំនួយការផ្នែកមន្ទីរពិសោធន៍-វេជ្ជសាស្ត្រ ធ្វើខុសញឹកញាប់បំផុត។. របៀបបរាជ័យដែលមានតម្លៃថ្លៃ មិនមែនជា "ខកខានជំងឺកម្រមួយ" ទេ — វាគឺការបង្កើត pathology ធម្មតា នៅក្នុងអ្នកជំងឺដែលពួកគេមិនមានវា។. របស់យើង។ សុពលភាពវេជ្ជសាស្រ្ត hub ពិពណ៌នាក្របខណ្ឌទូលំទូលាយ; ទំព័រនេះពិពណ៌នាអំពីលទ្ធផលដែលបានអនុវត្តរបស់វានៅលើម៉ាស៊ីន V11។.
ការរត់យោងចុងក្រោយ — V11 (ខែមេសា 2026)
ការធ្វើ reference run សម្រាប់ខែមេសា ឆ្នាំ ២០២៦ របស់ Kantesti AI Engine V11 បានបង្កើតពិន្ទុរួមមួយជា 99.12% លើ rubric ករណី ១៥ ដែលបានចុះបញ្ជីជាមុន។ ករណីដែលជាប់អន្ទាក់ hyperdiagnosis ទាំងពីរ បានពិន្ទុដល់កម្រិតកំពូល។ Mentzer index ត្រូវបានអនុវត្តត្រឹមត្រូវលើ differential រវាង iron-deficiency និង thalassaemia។.
រូបមន្តពិន្ទុរួមផ្សំសមាសភាគចំនួនបី៖ ភាពស្របតាមរចនាសម្ព័ន្ធ ជាមួយនឹងផ្នែករបាយការណ៍ដែលត្រូវតែមានចំនួនប្រាំពីរ និងអនុផ្នែកដែលត្រូវតែមានចំនួនដប់ប្រាំមួយ, ភាពត្រឹមត្រូវផ្នែកព្យាបាល វាស់វែងជា keyword recall បូកនឹង scoring-system recall បូកនឹងការត្រួតពិនិត្យសុពលភាពនៃ probability-distribution latency នៃការឆ្លើយតប ធៀបនឹងគោលដៅ primary service-level ២០ វិនាទី។ ការបំបែកពិតប្រាកដត្រូវបានបង្ហាញក្នុងរូបមន្ត rubric ខាងក្រោម។.
ចំណុះនៅសល់ 0.88 ភាគរយ ដែលនៅសល់នោះ បំបែកស្ទើរតែទាំងស្រុងទៅជាការបាត់បង់ដោយសារភាពយឺតយ៉ាវ (latency loss) — ការហៅបម្រុង Phase 2 ចំនួនបីលើក ដែលមានការរួមបញ្ចូលគ្នា (composite) ក្នុងកម្រិត -0.05 នីមួយៗ បានរួមចំណែកប្រហែល 0.60 នៃកង្វះ 0.88 ភាគរយ — មិនមែនទៅក្នុងខ្លឹមសារព្យាបាលទេ។ ម៉ាស៊ីនមិនបានខកខានការធ្វើរោគវិនិច្ឆ័យត្រឹមត្រូវលើករណីទាំង 15 នោះទេ; នៅពេលដែលវាខ្វះ វាខ្វះដោយចំណាយពេលយូរជាងគោលដៅ 20 វិនាទីសម្រាប់ផ្លូវសំខាន់ (primary-path) បន្តិច ក្នុងចំនួនតិចតួចនៃការហៅបម្រុង។.
ករណីចំនួនដប់ប្រាំ (fifteen) លើឯកទេសវេជ្ជសាស្ត្រចំនួនប្រាំពីរ
ក្រុមពិនិត្យករណី (case panel) គ្របដណ្តប់លើជំនាញចំនួនប្រាំពីរ — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — រួមទាំងករណី “hyperdiagnosis trap” ដែលបានឧទ្ទិសចំនួនពីរ។ ករណីនីមួយៗជាកំណត់ត្រាអ្នកជំងឺពិត ដែលបានធ្វើឲ្យអនាមិក (anonymised) ដកចេញពីឃ្លាំងទិន្នន័យគ្លីនិក Kantesti ក្រោមការយល់ព្រមដោយបានជូនដំណឹងជាលាយលក្ខណ៍អក្សរ។.
ការដកអត្តសញ្ញាណ (de-identification) ត្រូវបានអនុវត្តតាមវិធីសាស្ត្រ Safe Harbor: អត្តសញ្ញាណផ្ទាល់ទាំងអស់ត្រូវបានដកចេញ ឬជំនួស ហើយកំណត់ត្រានីមួយៗត្រូវបានផ្តល់លេខកូដករណីក្នុងស្តង់ដារផ្ទៃក្នុង (benchmark-internal case code) ក្នុងទម្រង់ BT-NNN-LABEL។ ដំណើរការត្រូវបានអនុវត្តតាម GDPR មាត្រា 9(2)(j) សម្រាប់ការស្រាវជ្រាវវិទ្យាសាស្ត្រ ដោយមានការការពារសមស្រប និងបទប្បញ្ញត្តិ UK GDPR ដែលស្មើគ្នា។ មិនមានព័ត៌មានដែលអាចកំណត់អត្តសញ្ញាណផ្ទាល់ខ្លួន (personally identifying information) បង្ហាញនៅទីណាមួយក្នុងឧបករណ៍សាកល្បងដែលបានបោះពុម្ព (published harness) របាយការណ៍បច្ចេកទេស (technical report) ឬសំណុំទិន្នន័យដែលបានចេញផ្សាយ (released datasets)។.
ហេតុអ្វីបានជាការចែកចាយជាក់លាក់នេះ
ផ្នែកវិទ្យាឈាមវិទ្យាទទួលបាន ៣ ករណី ព្រោះថា ការបែងចែកតាមទំហំកោសិកាឈាមតូច (microcytic differentials) និងការបែងចែកតាមទំហំកោសិកាឈាមធំ (macrocytic differentials) គឺជាអន្ទាក់ដែលមានបរិមាណខ្ពស់បំផុតក្នុងការអនុវត្តមន្ទីរពិសោធន៍ជាក់ស្តែង។ ផ្នែកអរម៉ូនវិទ្យាទទួលបាន ៣ ករណី ព្រោះការបង្ហាញរបស់ Hashimoto's, PCOS, និងកង្វះវីតាមីន D មានរូបរាងរោគវិនិច្ឆ័យខុសៗគ្នា (ជំរុញដោយអង្គបដិប្រាណ, ជំរុញដោយសមាមាត្រអ័រម៉ូន, ជំរុញដោយសញ្ញាសម្គាល់តែមួយ)។ ផ្នែកឯកទេសដែលមានតែមួយករណីនៅតែមានន័យ ព្រោះ CKD, ហានិភ័យ ASCVD, និង SLE នីមួយៗមានប្រព័ន្ធពិន្ទុរៀងៗខ្លួន ដែលម៉ាស៊ីនគួរតែហៅប្រើ (KDIGO staging, ហានិភ័យ 10 ឆ្នាំរបស់ ASCVD, និងលក្ខណៈវិនិច្ឆ័យ 2019 EULAR/ACR សម្រាប់ SLE រៀងៗខ្លួន)។.
ការពន្យល់អំពី rubric ដែលបានចុះឈ្មោះជាមុន
ការចុះបញ្ជីជាមុន (pre-registration) គឺជាជម្រើសវិធីសាស្ត្រដ៏សំខាន់បំផុតតែមួយគត់ក្នុងការប្រកួតស្តង់ដារនេះ។ រាល់ការធ្វើរោគវិនិច្ឆ័យដែលរំពឹងទុក រាល់ប្រព័ន្ធពិន្ទុគ្លីនិក និងរាល់ផ្នែករបាយការណ៍ ត្រូវបានប្តេជ្ញាចូលទៅក្នុងកូដប្រភព មុនពេលម៉ាស៊ីនត្រូវបានហៅប្រើ. ។ ដូច្នេះ ការកែសម្រួលក្រោយការពិត (post-hoc) នៃ rubric ដើម្បីឲ្យលំអៀងទៅម៉ាស៊ីន គឺមិនអាចធ្វើបានទេ។.
សមាសធាតុ ៣ ផ្នែកបង្កើតជាពិន្ទុរួម។ សមាសធាតុរចនាសម្ព័ន្ធ មានចំនួន ៣៥ ភាគរយ និងវាស់ថាតើម៉ាស៊ីនបានត្រឡប់ផ្នែករបាយការណ៍ដែលត្រូវតែមានចាំបាច់ទាំងប្រាំពីរ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) និងផ្នែករងដែលត្រូវតែមានចាំបាច់ចំនួនដប់ប្រាំមួយនៅក្នុងពួកវាឬអត់។ ការមានវត្តមាននៃផ្នែក (section presence) មានទម្ងន់ ៤០ ភាគរយ និងការមានវត្តមាននៃផ្នែករង (subsection presence) មានទម្ងន់ ៦០ ភាគរយ ក្នុងការគណនារចនាសម្ព័ន្ធ។.
នេះ។ សមាសធាតុគ្លីនិក មានចំនួន ៥៥ ភាគរយ និងរួមបញ្ចូល ៣ ចំណុច៖ ការចងចាំពាក្យគន្លឹះសម្រាប់រោគវិនិច្ឆ័យ (70 ភាគរយ នៃពិន្ទុរងគ្លីនិក), ការចងចាំប្រព័ន្ធពិន្ទុ (20 ភាគរយ — តើម៉ាស៊ីនគណនា Mentzer, FIB-4, HOMA-IR, ហានិភ័យ ASCVD, KDIGO staging, លក្ខណៈវិនិច្ឆ័យ EULAR/ACR នៅពេលពាក់ព័ន្ធឬអត់), និងការត្រួតពិនិត្យភាពត្រឹមត្រូវនៃផលបូកប្រូបាប៊ីលីតេ (10 ភាគរយ — ប្រូបាប៊ីលីតេនៃ differential ត្រូវតែបូកសរុបឲ្យស្ថិតក្នុងចន្លោះ [90, 110])។ សម្រាប់ករណីអន្ទាក់ (trap cases) នឹងដកការពិន័យសម្រាប់ hyperdiagnosis ច្បាស់លាស់ រហូតដល់ 0.30 ដោយគណនាជា 0.10 ក្នុងមួយសញ្ញាធាតុ pathology ដែលបង្កើតឡើង (fabricated pathology flag) ហើយកំណត់អតិបរមា ៣ សញ្ញា។.
នេះ។ សមាសធាតុពេលវេលាយឺត (latency component) មានចំនួន ១០ ភាគរយ។ ការឆ្លើយតបក្រោម ២០ វិនាទី ទទួលបានពេញ 0.10, ក្រោម ៤០ វិនាទី ទទួលបាន 0.05, និងអ្វីដែលយឺតជាងនេះទទួលបាន ០។ គោលដៅ ២០ វិនាទី សំដៅលើគោលបំណងកម្រិតសេវា (service-level objective) សម្រាប់ការផលិត (production primary-path service-level objective); ពិដាន ៤០ វិនាទី សំដៅលើថវិកាបម្រុងសម្រាប់ Phase 2 ក្នុងករណីហៅម៉ាស៊ីនធ្ងន់ៗ។.
អ្វីដែល pre-registration រារាំង
ការប្រកួតស្តង់ដារដោយខ្លួនឯង (first-party benchmarks) តែងតែមានឈ្មោះល្បីថា ធ្វើឲ្យលេខរបស់ខ្លួនហើម ដោយសារការកែ rubric ក្រោយការពិត។ លំនាំនេះស្ទើរតែដូចគ្នាជានិច្ច៖ ក្រុមដំណើរការម៉ាស៊ីន មើលកន្លែងដែលវាធ្វើមិនបានល្អ បន្ទាប់មកក៏កែសម្រួល rubric ដោយស្ងៀមស្ងាត់ ដើម្បីឲ្យផ្នែកដែលធ្វើមិនបានល្អ មានទម្ងន់តិច។ ដោយប្តេជ្ញា rubric ទៅក្នុងកូដប្រភព មុនពេលហៅម៉ាស៊ីនលើកដំបូង និងបោះពុម្ព harness ក្រោមអាជ្ញាប័ណ្ណ MIT ការកែសម្រួលនោះក្លាយជាអាចមើលឃើញនៅក្នុង version control។ អ្នកណាក៏អាច clone repository ពិនិត្យថ្ងៃបង្កើត rubric និងផ្ទៀងផ្ទាត់ថា លទ្ធផលម៉ាស៊ីនមិនត្រូវបានប្រើដើម្បីរៀបចំការវាយពិន្ទុ។.
ករណីជាមួយអន្ទាក់នៃការធ្វើរោគវិនិច្ឆ័យលើស (Hyperdiagnosis) — ហេតុអ្វីការហៅច្រើនពេក (over-calling) ជារបៀបបរាជ័យពិត
ការហៅ pathology យ៉ាងខ្លាំងលើអេក្រង់ធម្មតា គឺជារបៀបបរាជ័យដែលបានកត់ត្រាទុកសម្រាប់ជំនួយការផ្នែកវេជ្ជសាស្ត្រដែលផ្តល់ជូនដល់អ្នកប្រើប្រាស់។ តម្លៃបន្តបន្ទាប់រួមមាន ការស៊ើបអង្កេតមិនចាំបាច់ ការព្រួយបារម្ភរបស់អ្នកជំងឺ និងការពិនិត្យ/ព្យាបាលដោយមិនចាំបាច់ (iatrogenic workup)។ ករណីអន្ទាក់ចំនួនពីរនៅក្នុងការប្រកួតស្តង់ដារនេះ ត្រូវបានរចនាឡើងដើម្បីធ្វើឲ្យរបៀបបរាជ័យនោះអាចមើលឃើញ និងអាចវាយពិន្ទុបាន។.
🟡 អន្ទាក់ 1 — BT-014-GILBERT
ការបង្ហាញ (Presentation)។. បុរសអាយុ ២៤ ឆ្នាំ ដែលមាន bilirubin សរុប 2.4 mg/dL។ សមាមាត្រផ្ទាល់ (direct fraction) មានលក្ខណៈធម្មតា, transaminases និង alkaline phosphatase ស្ថិតនៅក្នុងចន្លោះតម្លៃយោងរបស់ពួកវា, reticulocytes មិនមានអ្វីគួរឲ្យកត់សម្គាល់, និង haptoglobin និង LDH បដិសេធ haemolysis។.
ការបកស្រាយត្រឹមត្រូវ។. Gilbert's syndrome — polymorphism UGT1A1 ដែលជាជំងឺមិនបង្កគ្រោះថ្នាក់។ ការបកស្រាយមិនគួរហៅ hepatitis, cirrhosis, haemolytic anaemia, ឬ biliary obstruction។.
លទ្ធផល V11។. Composite 1.000។ គ្មានសញ្ញា over-diagnosis ដែលតាមដានទាំងប្រាំមួយ បានបង្ហាញជារោគវិនិច្ឆ័យសកម្មទេ។.
🟡 អន្ទាក់ 2 — BT-015-HEALTHY
ការបង្ហាញ (Presentation)។. ស្ត្រីអាយុ ៣៥ ឆ្នាំ ជាមួយនឹងបន្ទះអេក្រង់ស្ដង់ដារ ១៥ ប៉ារ៉ាម៉ែត្រ។ អ្នកវិភាគ (analyte) ទាំងអស់ ស្ថិតយ៉ាងស្រួលនៅក្នុងចន្លោះតម្លៃយោងរបស់វា។.
ការបកស្រាយត្រឹមត្រូវ។. ការធានាឡើងវិញ និងការថែរក្សារបៀបរស់នៅ។ ការបកស្រាយមិនគួរបង្កើតជំងឺស្ថិតនៅដែនកំណត់ (borderline pathology) ដើម្បីឲ្យមើលទៅមានប្រយោជន៍ខាងវេជ្ជសាស្ត្រតាមបែបគ្លីនិកនោះទេ។.
លទ្ធផល V11។. សមាសធាតុ 1.000។ ក្នុងចំណោមសញ្ញាព្រមាននៃការធ្វើរោគវិនិច្ឆ័យលើស (over-diagnosis) ដែលត្រូវបានតាមដានទាំងប្រាំពីរ — ជំងឺទឹកនោមផ្អែម (diabetes), ភាពស្លេកស្លាំង (anaemia), ជំងឺក្រពេញធីរ៉ូអ៊ីដថយ (hypothyroidism), ជំងឺខ្លាញ់ក្នុងឈាមខ្ពស់ (dyslipidaemia), ជំងឺរលាកថ្លើម (hepatitis), ជំងឺតម្រងនោម (kidney disease), កង្វះ (deficiency) — មិនមានមួយណាលេចឡើងជារោគវិនិច្ឆ័យសកម្មឡើយ។.
នៅទាំងពីរត្រាប់ (traps) មានការត្រួតពិនិត្យសញ្ញាព្រមាននៃការធ្វើរោគវិនិច្ឆ័យលើស (hyperdiagnosis) ចំនួនដប់បី។ មិនមានសញ្ញាណាមួយត្រូវបានបង្កឲ្យសកម្មឡើយ។ នេះជាលទ្ធផលដែលសំខាន់បំផុតសម្រាប់វេជ្ជបណ្ឌិតណាម្នាក់ដែលកំពុងពិចារណាប្រើម៉ាស៊ីន AI ជាឧបករណ៍សម្រាប់ការបែងចែកអាទិភាព (triage) ឬមុនការពិគ្រោះ។ ប្រព័ន្ធមិនបានបង្កើតជំងឺណាមួយឡើយ នៅពេលដែលមិនមានជំងឺនោះ.
សន្ទស្សន៍ Mentzer: បំបែកការខ្វះជាតិដែក (iron deficiency) ពីលក្ខណៈ thalassaemia trait
ការរកឃើញដែលមានតម្លៃខ្ពស់ទីពីរ ទាក់ទងនឹងការផ្គូផ្គងរវាង case BT-001 (ភាពស្លេកស្លាំងដោយកង្វះជាតិដែក) ជាមួយ case BT-007 (beta-thalassaemia minor)។ ទាំងពីរមាន microcytosis ហើយជាឧបសគ្គដែលគេស្គាល់ច្បាស់សម្រាប់អ្នកចាត់ថ្នាក់ (classifiers) ដែលមិនទាន់មានបទពិសោធន៍។ សន្ទស្សន៍ Mentzer ដែលគណនាជា MCV ចែកនឹងចំនួន RBC មានតម្លៃលើស 13 ក្នុងកង្វះជាតិដែក ហើយធ្លាក់ក្រោម 13 ក្នុងលក្ខណៈ thalassaemia trait។.
នៅ BT-001 អ្នកជំងឺជាស្ត្រីអាយុ 34 ឆ្នាំ មានកម្រិត hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL និង TIBC ខ្ពស់។ សន្ទស្សន៍ Mentzer ប្រហែល 17.7 គាំទ្រកង្វះជាតិដែកពិតប្រាកដ (absolute iron deficiency)។ នៅ BT-007 អ្នកជំងឺជាបុរសអាយុ 28 ឆ្នាំ មាន microcytosis (MCV 65.8 fL) ប៉ុន្តែមានចំនួន RBC ខ្ពស់ 6.2, RDW ធម្មតា, ferritin ធម្មតា និង HbA2 5.6 ភាគរយ។ សន្ទស្សន៍ Mentzer ប្រហែល 10.6 បង្ហាញ thalassaemia trait ហើយ HbA2 ខ្ពស់បញ្ជាក់ beta-thalassaemia minor។.
ករណីទាំងពីរទទួលពិន្ទុ 1.000។ ម៉ាស៊ីនបានហៅសន្ទស្សន៍ Mentzer យ៉ាងច្បាស់នៅក្នុងការបកស្រាយទាំងពីរ ហើយបានត្រឡប់រោគវិនិច្ឆ័យត្រឹមត្រូវក្នុងករណីនីមួយៗ។. នេះជាលទ្ធផលដែលធានាឡើងវិញផ្នែកគ្លីនិកច្រើនបំផុតតែមួយ ក្នុងការប្រកួតវាស់ស្ទង់ទាំងមូល, ព្រោះការចាត់ថ្នាក់ខុស thalassaemia trait ជា iron deficiency នាំឲ្យផ្តល់ថ្នាំបន្ថែមជាតិដែកមិនសមស្រប និងខកខានឱកាសស្វែងរកតាមគ្រួសារ (family-screening) ហើយការចាត់ថ្នាក់ខុស iron deficiency ជា thalassaemia ធ្វើឲ្យពន្យារពេលការព្យាបាលជំនួសដែលងាយស្រួលត្រង់ៗ។ Our កម្រិត ferritin ពន្យល់បរិបទនៃការបែងចែកជំងឺទូលំទូលាយជាងនេះ។.
លទ្ធផលតាមករណីពីការប្រតិបត្តិខែមេសា ឆ្នាំ 2026
ក្នុងចំណោម 15 ករណី មាន 12 ករណីទទួលបានពិន្ទុសមាសធាតុ (composite) ដល់កម្រិតពិដាន 1.000 លើ path ចម្បង (primary)។ ករណី 3 ត្រូវបានបម្រើតាមការបម្រុងទុក Phase 2 (Phase 2 fallback) ដោយបាត់បង់ bonus ភាពយឺត (latency) 0.05 ខណៈដែលរក្សាបានទាំងអស់នូវខ្លឹមសារផ្នែកគ្លីនិក និងរចនាសម្ព័ន្ធ។ ករណីមួយខ្វះផ្នែករង (subsection) ដែលត្រូវតែមានតែមួយ។ មួយទៀតត្រឡប់មកវិញនូវសរុបនៃការចែកចាយប្រូបាប៊ីលីតេ (probability distribution) ដែលថយចុះបន្តិចបន្តួច។.
ករណី PCOS (BT-008) បានបាត់បង់ផ្នែករងដែលត្រូវតែមានមួយផ្នែកក្នុងរចនាសម្ព័ន្ធការឆ្លើយតប — ដប់ប្រាំពីរនៃដប់ប្រាំមួយ ជំនួសឲ្យដប់ប្រាំមួយនៃដប់ប្រាំមួយ — ដែលកាត់បន្ថយពិន្ទុរចនាសម្ព័ន្ធពី 1.000 ទៅ 0.963។ ករណី SLE (BT-011) បានត្រឡប់មកវិញនូវផលបូកនៃការចែកចាយប្រូបាប៊ីលីតេដែលថយចុះបន្តិច ដែលធ្វើឲ្យពិន្ទុផ្នែកគ្លីនិកធ្លាក់ដល់ 0.965 ខណៈដែលរក្សាបានរាល់ពាក្យគន្លឹះវិនិច្ឆ័យ និងប្រព័ន្ធពិន្ទុទាំងអស់។ គ្មានករណីណាមួយដែលមិនល្អទាំងស្រុងនោះ បាត់បង់ការវិនិច្ឆ័យត្រឹមត្រូវឡើយ។.
អ្វីដែលពិន្ទុចំណងជើងមិនបានប្រាប់យើង
ពិន្ទុរួម 99.12 ភាគរយ ក្រោមក្របខណ្ឌដែលបានចុះបញ្ជីជាមុនជាក់លាក់នេះ បង្ហាញពីសមត្ថភាពជិតដល់កម្រិតកំពូល ប៉ុន្តែវាសមនឹងការរៀបរាប់ឲ្យបានប្រុងប្រយ័ត្ន។ លទ្ធផលពិពណ៌នាអំពីអាកប្បកិរិយារបស់ម៉ាស៊ីនប្រឆាំងនឹងករណីដែលបានធ្វើអនាមិកចំនួនដប់ប្រាំពីរ ដែលបានជ្រើសយ៉ាងប្រុងប្រយ័ត្ន ត្រូវបានវាយតម្លៃម្តងៗ និងប្រឆាំងនឹងក្របខណ្ឌតែមួយ។ យើងបញ្ជាក់ឲ្យច្បាស់អំពីអ្វីដែលលេខនេះបង្ហាញ និងមិនបង្ហាញ។.
ពិន្ទុនេះបញ្ជាក់ថា ម៉ាស៊ីន V11 ដោះស្រាយបានត្រឹមត្រូវនូវលំនាំវិនិច្ឆ័យដែលបានជ្រើសសម្រាប់ការវាយតម្លៃនេះ ដោយប្រើវិធីសាស្ត្រដែលបានបោះពុម្ព និងអាចធ្វើឡើងវិញបាន។ វាមិនបាននិយាយថា ម៉ាស៊ីនត្រឹមត្រូវលើរាល់បន្ទះពិនិត្យឈាមដែលមាននៅក្នុងពិភពពិតនោះទេ។ វាមិនបាននិយាយថា ម៉ាស៊ីនគួរតែជំនួសការវិនិច្ឆ័យរបស់គ្រូពេទ្យទេ។ ហើយវាមិនបាននិយាយថា ម៉ាស៊ីនមានសមត្ថភាពលើសប្រព័ន្ធ AI ផ្សេងទៀតទេ — ការវិភាគប្រៀបធៀបជាមួយម៉ាស៊ីនផ្សេងៗត្រូវបានដាក់ចេញពីវិសាលភាពសម្រាប់របាយការណ៍នេះដោយចេតនា។.
អ្វីដែលពិន្ទុនេះបង្ហាញច្បាស់គឺជាមូលដ្ឋាន (baseline)។ នៅពេលដែលក្របខណ្ឌ និងឧបករណ៍ (harness) ត្រូវបានបង្ហាញជាសាធារណៈ កំណែអនាគតនៃម៉ាស៊ីនអាចត្រូវបានវាយតម្លៃធៀបនឹងករណីដប់ប្រាំពីរដូចគ្នា ហើយគម្លាតរវាងពិន្ទុដែលបានបោះពុម្ព និងការរត់បន្ទាប់ណាមួយ ក៏អាចវាស់វែងបានផងដែរ។ នេះជាតម្លៃនៃការចុះបញ្ជីជាមុន៖ វាបម្លែងការអះអាងអំពីសមត្ថភាព ទៅជាការអះអាងដែលអាចធ្វើតេស្តបាន.
របៀបធ្វើឲ្យស្រដៀងនឹងស្តង់ដារនេះឡើងវិញក្នុងរយៈពេល 10 នាទី
ការធ្វើឡើងវិញ ត្រូវការតែគូសមត្ថភាព API Kantesti និងបរិស្ថាន Python 3.10 ឬក្រោយជាងនេះ ដែលមាន requests និង reportlab បានដំឡើង។ ឧបករណ៍ពេញលេញ (harness) គឺជាម៉ូឌុល Python តែមួយដែលមានខ្លឹមសារគ្រប់គ្រាន់ក្នុងខ្លួន និងត្រូវបានចេញផ្សាយក្រោមអាជ្ញាប័ណ្ណ MIT។.
បួនជំហានសម្រាប់ការរត់ថ្មី
មួយ។. ក្លូន (Clone) ឃ្លាំង (repository)៖ git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ពីរ។. ដំឡើងការពឹងផ្អែកជាមួយ pip install -r requirements.txt. បី។. កំណត់ KANTESTI_USERNAME និង KANTESTI_PASSWORD ជាអថេរបរិស្ថាន — លិខិតសម្គាល់ត្រូវបានអាននៅពេលដំណើរការ ហើយមិនមានការកំណត់បែប hard-code នៅក្នុងស្គ្រីប។. បួន។. ដំណើរការ python benchmark_bloodtest.py ហើយពិនិត្យមើលអត្ថបទបង្កើតចំនួនបួនដែលបញ្ចេញទៅកាន់ថតការងារ៖ CSV scorecard, JSON scorecard, ការបោះចោល JSON ពេញលេញរួមទាំងការឆ្លើយតបដើមរបស់ម៉ាស៊ីន (raw engine responses) និងរបាយការណ៍ Markdown ដែលអានបានដោយមនុស្ស។.
លទ្ធផលយោងពីថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 ត្រូវបានរក្សាទុកក្នុង results/ ថតនៃឃ្លាំង (repository)។ ការដំណើរការថ្មីនឹងបង្កើត scorecard ថ្មីដែលមានស្លាកពេលវេលា (timestamp) ខណៈដែលការដំណើរការយោងត្រូវបានទុកឲ្យនៅដដែល។ ប្រសិនបើការដំណើរការរបស់អ្នកបង្កើតលទ្ធផលខុសគ្នាយ៉ាងមានន័យ សូមបើកបញ្ហា (GitHub issue) ជាមួយ timestamp នៃការដំណើរការ និងកំណែម៉ាស៊ីន (engine version) ដែលត្រូវបានត្រឡប់ក្នុង metadata នៃការឆ្លើយតប។.
ដែនកំណត់ និងការងារនាពេលអនាគត
ដែនកំណត់ចំនួនបួនត្រូវការការទទួលស្គាល់ឲ្យច្បាស់៖ ទំហំគំរូ, ការវាយតម្លៃតែម្តង (single-shot), វិសាលភាពម៉ាស៊ីនតែមួយ (single-engine scope), និងប្រភពទិន្នន័យតែមួយ (single-source data origin)។ នីមួយៗកំពុងត្រូវបានដោះស្រាយក្នុងការងារតាមដានបន្តបន្ទាប់។.
ទំហំគំរូ។. ករណីចំនួនដប់ប្រាំ (fifteen) ក្នុងធុងឯកទេសចំនួនប្រាំបី (eight specialty buckets) គ្រប់គ្រាន់សម្រាប់ការបង្ហាញគំនិត (proof of concept) ប៉ុន្តែមិនគ្រប់គ្រាន់សម្រាប់ការវិភាគតាមក្រុមរងក្នុងឯកទេសនីមួយៗទេ។ គ្រោងពង្រីកទៅកាន់ករណីចំនួនហាសិប (fifty) ហើយនឹងរួមបញ្ចូល coagulation panels, ការពិនិត្យរកជំងឺមហារីកឈាម (haematological malignancy screening), pregnancy panels និងការបង្ហាញរបស់កុមារ (paediatric presentations)។.
ការវាយតម្លៃតែម្តង (single-shot evaluation)។. ករណីនីមួយៗត្រូវបានវាយតម្លៃតែម្តង។ ម៉ូដែលភាសាធំៗបង្ហាញភាពប្រែប្រួលលទ្ធផល (output variance) ដែលមិនមែនតិចតួច ទោះបីជាកំណត់សីតុណ្ហភាពគំរូទាបក៏ដោយ ដូច្នេះពិធីសាស្ត្រវាយតម្លៃច្រើនដង (multi-run protocol) ដោយមានការវាយតម្លៃចំនួនប្រាំ (five evaluations) ក្នុងមួយករណី និងការរាយការណ៍អំពីភាពប្រែប្រួល គឺជាជំហានបន្ទាប់ដែលសមហេតុផល។.
វិសាលភាពម៉ាស៊ីនតែមួយ (single-engine scope)។. របាយការណ៍នេះពិពណ៌នាអំពីម៉ាស៊ីនមួយ។ ការវិភាគប្រៀបធៀបជាមួយប្រព័ន្ធ AI ផ្សេងៗ ស្ថិតក្រៅវិសាលភាពនៅទីនេះ។ យើងអាចបន្តវាជាការសិក្សាឯករាជ្យដាច់ដោយឡែកជាមួយនឹងវិធីសាស្ត្រសមស្រប។.
ប្រភពទិន្នន័យតែមួយ (single-source data origin)។. ករណីចំនួនដប់ប្រាំ (fifteen) គឺជាកំណត់ត្រាអ្នកជំងឺពិតដែលបានធ្វើអនាមិក (anonymised) ដកស្រង់ពីឃ្លាំងគ្លីនិកតែមួយ។ វាតំណាងឲ្យគំរូដែលបានរៀបចំ (curated sample) ហើយមិនមែនជាការចាប់យកដោយចៃដន្យដែលតំណាងឲ្យប្រជាជនទាំងមូលទេ។ ការពង្រីកការវាយតម្លៃទៅទិន្នន័យពីច្រើនមជ្ឈមណ្ឌល (multi-centre data) ស្ថិតក្នុងផែនការផ្លូវ (roadmap)។.
ការពង្រីកដែលមានឥទ្ធិពលខ្លាំងបំផុតដែលបានគ្រោងទុកគឺភាពស្មើគ្នាច្រើនភាសា (multi-language parity)។ ម៉ាស៊ីន AI Kantesti បម្រើអ្នកប្រើប្រាស់ក្នុង 75+ ភាសា ហើយការដំណើរការកម្មវិធីសាកល្បង (harness) ដូចគ្នា ដែលមានករណីចំនួនដប់ប្រាំ (fifteen-case) នៅក្នុងទួរគី (Turkish), អាល្លឺម៉ង់ (German), អេស្ប៉ាញ (Spanish), បារាំង (French) និងអារ៉ាប់ (Arabic) នឹងវាស់គុណភាពលទ្ធផលនៅទូទាំងភាសាដែលម៉ាស៊ីនគាំទ្រ។ យើងនឹងបោះពុម្ពការដំណើរការសម្រាប់ភាសានីមួយៗ ដោយមាន DOI ផ្ទាល់ខ្លួន និងសាខា (branch) នៃ harness។.