ហេតុអ្វីបានជា benchmark នេះមាន និងវាតេស្តអ្វី

ការបកស្រាយលទ្ធផលឈាមដោយ AI ត្រូវបានប្រើប្រាស់កាន់តែច្រើនឡើងក្នុងដំណើរការការងារសម្រាប់អ្នកប្រើប្រាស់ និងផ្នែកព្យាបាល ប៉ុន្តែស៊ុមវាយតម្លៃដែលអាចធ្វើឲ្យអាចបង្កើតឡើងវិញបាន និងត្រូវបានរៀបចំសម្រាប់វេជ្ជសាស្ត្រមន្ទីរពិសោធន៍ នៅតែមិនសូវមាន។ សំណួរដែលសំខាន់បំផុតក្នុងបរិបទនេះ មិនមែនជាសំណួរដែលគ្របដណ្តប់ដោយស្តង់ដារសាកល្បងសំណួរ-ចម្លើយវេជ្ជសាស្ត្រទូទៅនោះទេ៖ តើម៉ាស៊ីនអាចបំបែកភាពខ្វះជាតិដែកពីលក្ខណៈ thalassaemia trait បានទេ នៅពេលដែល mean corpuscular volume ដូចគ្នា? តើវាធ្វើឲ្យមានការវិនិច្ឆ័យ Gilbert's syndrome លើស ដូចជាជំងឺរលាកថ្លើម (hepatitis) ដែរឬទេ? និងតើវាបង្កើតរោគសាស្ត្រនៅក្នុងបន្ទះពិនិត្យដែលធម្មតាទាំងស្រុងដែរឬទេ?

ដ្យាក្រាមលំហូរ rubic ដែលបានចុះបញ្ជីជាមុន បង្ហាញពីរបៀបដែល Kantesti AI Engine — V11 Second Update, ពិន្ទុ 99.80% composite លើ 100,000 ករណី — ត្រូវបានវាយតម្លៃទល់នឹងលក្ខណៈវិនិច្ឆ័យពិន្ទុដែលបានបង្កក (frozen scoring criteria)
រូបភាពទី 1: ស្ថាបត្យកម្មគោល (benchmark) ដែលនៅពីក្រោយ ពិន្ទុសមាសធាតុ 99.80% នៅលើ V11 Second Update ក្រុមសំណុំ 100,000 ករណី — រាល់ករណី រាល់ពាក្យគន្លឹះ រាល់ប្រព័ន្ធវាយតម្លៃ ត្រូវបានកំណត់ជាកូដប្រភពមុនពេលម៉ាស៊ីនឃើញ PDF មួយសន្លឹក ហើយ rubic មានភាពដូចគ្នា 100% ជាបៃ (byte-identical) ទៅនឹងការចេញផ្សាយដំបូងរបស់ V11។ ការកែសម្រួល rubric ក្រោយពេលធ្វើ (post-hoc) មិនអាចធ្វើបានតាមរចនាបថ។.

ការធ្វើតេស្តឈាមជាបន្ទះតែមួយជាទូទៅមានសញ្ញាគ្រប់គ្រាន់ដើម្បីគាំទ្រការបកស្រាយជាច្រើនដែលអាចប្រកួតប្រជែងគ្នា ហើយភារកិច្ចរបស់គ្រូពេទ្យអ្នកបកស្រាយ គឺត្រូវថ្លឹងថ្លែងការបកស្រាយទាំងនោះឲ្យប្រៀបធៀបគ្នា ជាជាងទៅយកចម្លើយតាមសៀវភៅសិក្សា។ ម៉ាស៊ីនដែលធ្វើបានល្អលើករណីតាមសៀវភៅសិក្សា អាចនៅតែបរាជ័យលើករណីដែលសំខាន់បំផុត៖ អន្ទាក់នៃការវិនិច្ឆ័យខុស (differential-diagnosis pitfalls) វ៉ារ្យង់ដែលមិនបង្កគ្រោះថ្នាក់ តែមើលទៅគួរឲ្យព្រួយបារម្ភនៅពេលពិនិត្យតែម្នាក់ឯង និងបន្ទះដែលធម្មតាទាំងស្រុង ដែលល្បួងជំនួយការដែលមានទំនុកចិត្តឲ្យបង្កើតជំងឺ (manufacturing pathology)។.

ការបenchmark នេះត្រូវបានបង្កើតឡើងជុំវិញរបៀបបរាជ័យទាំងនោះ។ ករណីទាំង ១៥ ត្រូវបានជ្រើសរើសសម្រាប់លក្ខណៈវិនិច្ឆ័យជាក់លាក់មួយៗ៖ ភាពមីក្រូស៊ីតូស៊ីសដោយខ្វះជាតិដែក ដែលត្រូវរក្សាឲ្យដាច់ពីលក្ខណៈ beta-thalassaemia trait ដែលមាន mean corpuscular volume ដូចគ្នា, ការបង្ហាញរបស់ជំងឺ Gilbert's syndrome ដែលភាពមិនប្រក្រតីតែមួយគត់គឺ indirect hyperbilirubinaemia ដាច់ដោយឡែក, និងបន្ទះ screening មាន ១៥ ប៉ារ៉ាម៉ែត្រ ដែល analyte ទាំងអស់ស្ថិតនៅក្នុងជួរយោងរបស់វា។ Rubric ផ្តល់ពិន្ទុឲ្យម៉ាស៊ីនដែលអានករណីនីមួយៗតាមលក្ខខណ្ឌរបស់វា ហើយដាក់ទណ្ឌកម្មម៉ាស៊ីនដែលទៅរកការវិនិច្ឆ័យដោយទំនុកចិត្ត នៅពេលដែលមិនមានការវិនិច្ឆ័យបែបនោះត្រូវបានគាំទ្រ។.

ក្នុងនាមជា Thomas Klein, MD ខ្ញុំបានជ្រើសរើសបន្ទះករណីនេះ ព្រោះនេះជាលំនាំដែលខ្ញុំឃើញជំនួយការផ្នែកមន្ទីរពិសោធន៍-វេជ្ជសាស្ត្រ ធ្វើខុសញឹកញាប់បំផុត។. របៀបបរាជ័យដែលមានតម្លៃថ្លៃ មិនមែនជា "ខកខានជំងឺកម្រមួយ" ទេ — វាគឺការបង្កើត pathology ធម្មតា នៅក្នុងអ្នកជំងឺដែលពួកគេមិនមានវា។. របស់យើង។ សុពលភាពវេជ្ជសាស្រ្ត hub ពិពណ៌នាអំពីក្របខណ្ឌទូលំទូលាយ; ទំព័រនេះពិពណ៌នាអំពីការបង្ហាញគំនិតដំបូង V11 និងការអាប់ដេតទីពីរ V11 ដែលបានពង្រីកវាទៅកាន់ករណីសំយោគចំនួន 100,000 ដែលបានយកចេញពីសំណុំករណីសំយោគមួយដែលគ្របដណ្តប់ស្លាកប្រទេស 127 — ដោយប្រើ rubic វាយពិន្ទុដូចគ្នា, byte-identical, និងមិនអនុញ្ញាតឲ្យមានការកែសម្រួលក្រោយការពិត (post-hoc tuning)។.

ការរត់យោងចុងក្រោយ — V11 Second Update (ថ្ងៃទី 26 ខែមេសា ឆ្នាំ 2026)

ការរត់យោង (reference run) របស់ V11 Second Update នៅថ្ងៃទី 26 ខែមេសា ឆ្នាំ 2026 បានបង្កើតពិន្ទុរួម (composite score) នៃ 99.80% លើ rubric ដែលបានចុះបញ្ជីជាមុនដូចគ្នា (pre-registered) ដែលប្រើក្នុងការចេញផ្សាយដំបូងរបស់ V11 ត្រូវបានវាយតម្លៃលើ ករណីសំយោគ 100,000 បានយកចេញពីសំណុំករណីសំយោគ Kantesti និងគ្របដណ្តប់ ស្លាកប្រទេស 127 និងភាសា 75+។ រាល់ករណីបានបញ្ចប់នៅលើផ្លូវសំខាន់ (primary path) របស់ម៉ាស៊ីន; ការបើកសញ្ញាទង់ (flag) សម្រាប់ hyperdiagnosis trap-case នៅតែមាន 0 / 87,412. ។ ការរត់ដើមរបស់ V11 នៅថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 គ្របដណ្តប់ 15 ករណីដែលបានជ្រើសដោយដៃ (hand-curated) (ពិន្ទុរួម 99.12%) និងបានបញ្ជាក់ rubric; Second Update រក្សា rubric នោះឲ្យដូចគ្នា 100% ជាបៃ (byte-identical) ហើយពង្រីកការវាយតម្លៃទៅក្រុមសំណុំកម្រិតប្រជាជន។.

ពិន្ទុរួម 99.80% 100,000 ក្នុងចំណោម 100,000 ករណី ទទួលពិន្ទុ
1.000 ពិន្ទុរចនាសម្ព័ន្ធ
0.996 ពិន្ទុផ្នែកព្យាបាល
13.26 s មធ្យម latency
0 / 87,412 អន្ទាក់ false-positives

រូបមន្តពិន្ទុរួមផ្សំសមាសភាគចំនួនបី៖ ភាពស្របតាមរចនាសម្ព័ន្ធ ជាមួយនឹងផ្នែករបាយការណ៍ដែលត្រូវតែមានចំនួនប្រាំពីរ និងអនុផ្នែកដែលត្រូវតែមានចំនួនដប់ប្រាំមួយ, ភាពត្រឹមត្រូវនៃខ្លឹមសារ វាស់វែងជា keyword recall បូកនឹង scoring-system recall បូកនឹងការត្រួតពិនិត្យសុពលភាពនៃ probability-distribution latency នៃការឆ្លើយតប ធៀបនឹងគោលដៅកម្រិតសេវាកម្ម (service-level target) សម្រាប់ primary-path។ ការបំបែកពិតប្រាកដ (exact decomposition) ត្រូវបានបង្ហាញក្នុងរូបមន្ត rubric ខាងក្រោម — មិនមានទម្ងន់ ឬ sub-rubric ទាំងនេះណាមួយត្រូវបានកែប្រែសម្រាប់ Second Update។.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

ចំណុះសល់ (headroom) 0.20 ភាគរយដែលនៅសល់ ស្ទើរតែទាំងអស់បំបែកទៅជាពិន្ទុរងផ្នែកព្យាបាល (clinical sub-score) — ភាគតិចនៃករណី (ភាគច្រើននៅក្នុង Hepatology និង Rheumatology) មានពាក្យគន្លឹះមួយដែលរំពឹងថានឹងមានក្នុងប្រព័ន្ធវាយតម្លៃ ប៉ុន្តែមិនមាននៅក្នុងការបកស្រាយរបស់ម៉ាស៊ីន ទោះបីជាខ្លឹមសារវិនិច្ឆ័យ (diagnostic content) ត្រឹមត្រូវក៏ដោយ។. គ្មានករណីណាមួយក្នុងក្រុមសំណុំ Second-Update ចំនួន 100,000 ករណី ខកខានការវិនិច្ឆ័យខ្លួនឯងនោះទេ។. ភាពយឺតយ៉ាវ (latency) បានប្រសើរឡើងពីមធ្យម 20.17 s ក្នុងការចេញផ្សាយដំបូងរបស់ V11 ទៅ 13.26 s ក្នុង Second Update ដែលឆ្លុះបញ្ចាំងពីការកែលម្អម៉ាស៊ីនសម្រាប់ផលិតកម្ម (production engine optimisations) រវាងការរត់ទាំងពីរ; rubric កូដវាយតម្លៃ និង endpoint API មិនផ្លាស់ប្តូរ។.

ពិន្ទុសមាសធាតុតាមស្លាកនីមួយៗ មានចន្លោះពី 0.9971 ដល់ 0.9985 ក្នុងចំណោមស្លាកប្រទេស 30 ដែលត្រូវបានតំណាងច្រើនបំផុត។ ខ្សែវែង (long tail) នៃស្លាកបន្ថែម 97 ផ្សេងទៀត (សរុបប្រហែល 7,300 ករណី) មិនបង្ហាញការធ្លាក់ចុះជាប្រព័ន្ធទេ។ ស្លាកដែលមានចំនួនករណីច្រើនបំផុតតាមលំដាប់គឺ សហរដ្ឋអាមេរិក (10,500), ប្រេស៊ីល (9,500), អេស្ប៉ាញ (9,000), អ៊ីតាលី (8,000), អាល្លឺម៉ង់ (7,800), បារាំង (7,400), ព័រទុយហ្គាល់ (5,800), Türkiye (3,400), ចក្រភពអង់គ្លេស (2,900), និង ម៉ិកស៊ិក (2,500)។.

ពី 15 ករណី ទៅ 100,000: ការវិវត្តន៍សហក្រុមក្នុងចំណោមស្លាកប្រទេស 127

បន្ទះករណីដើម V11 គ្របដណ្តប់ឯកទេស 7 ផ្នែក — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — រួមទាំងករណី trap ដែលបានឧទ្ទិសពីរផ្សេងទៀតសម្រាប់ hyperdiagnosis ដោយផ្ទាល់ ហើយករណីនីមួយៗជាបន្ទះតេស្តឈាមដែលបានបង្កើតសំយោគ។ ការអាប់ដេតទីពីរ V11 ពង្រីកការវាយតម្លៃទៅ ករណីសំយោគ 100,000 ក្នុងចំណោមស្លាកប្រទេស 127, ដែលបានចែកចាយតាម 8 ជំនាញ (7 ជំនាញដើម បូកនឹងប្រអប់ (bucket) ផ្នែកវេជ្ជសាស្ត្រផ្ទៃក្នុងជាក់លាក់មួយ ដែលស្រូបយកផ្នែករង trap)។ rubric វាយតម្លៃដូចគ្នា ត្រូវបានអនុវត្តឲ្យដូចគ្នា 100% ជាបៃ (byte-identically) នៅទូទាំងការរត់ទាំងពីរ។.

ការរចនាបន្ទះករណី (case-panel) ដំបូង V11 — ករណីឈាមសំយោគចំនួន 15 ក្នុងឯកទេសវេជ្ជសាស្ត្រចំនួនប្រាំពីរ បូកនឹងករណី trap hyperdiagnosis ចំនួនពីរ; rubric ដូចគ្នាបានទទួលពិន្ទុសមាសធាតុ 99.80% លើករណីចំនួន 100,000 ក្នុង V11 Second Update
រូបភាពទី 2: ការរចនាក្រុមករណី (case-panel) ដំបូងរបស់ V11 សម្រាប់ hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology បូកនឹងករណី trap ចំនួន 2 — Gilbert's syndrome និងក្រុមពិនិត្យ (screening panel) ដែលធម្មតាទាំងស្រុង។ Second Update រក្សា rubric នេះឲ្យដូចគ្នា 100% ជាបៃ (byte-identically) ខណៈពង្រីកក្រុមសំណុំទៅ 100,000 ករណី ដែលដកស្រង់ពីឃ្លាំងទិន្នន័យ Kantesti SQL។.

ដោយសារករណីទាំងអស់ត្រូវបានបង្កើតសំយោគ មានគ្មានអត្តសញ្ញាណពិតដែលត្រូវដកចេញ និងមិនពាក់ព័ន្ធទិន្នន័យផ្ទាល់ខ្លួនទេ។ ករណីសំយោគនីមួយៗមានលេខកូដករណីដែលស្ថិតក្នុងការប្រៀបធៀបខាងក្នុង (BT-NNN-LABEL ក្នុងសំណុំដំបូង V11, ដែលមានស្ថិរភាព case_uid ក្នុងការអាប់ដេតទីពីរ)។ មិនមានទិន្នន័យផ្ទាល់ខ្លួនបង្ហាញនៅកន្លែងណាមួយក្នុង harness ដែលបានបោះពុម្ព របាយការណ៍បច្ចេកទេស ឬសំណុំទិន្នន័យដែលបានចេញផ្សាយទេ។.

ការចេញផ្សាយដំបូងរបស់ V11 — 15 ករណីដែលបានជ្រើសដោយដៃ (hand-curated)

បន្ទះករណី V11 ដើម ត្រូវបានជ្រើសរើសដោយដៃដោយវេជ្ជបណ្ឌិត Thomas Klein ដើម្បីអនុវត្តលំនាំវិនិច្ឆ័យដែលជំនួយការផ្នែកវេជ្ជសាស្ត្រមន្ទីរពិសោធន៍ ច្រើនតែធ្វើខុសបំផុត។ ក្នុងចំណោមករណីទាំងដប់ប្រាំ ត្រូវបានជ្រើសរើសសម្រាប់លក្ខណៈវិនិច្ឆ័យជាក់លាក់មួយ ដូចបានរាយខាងក្រោម។.

Hematology (3) BT-001, BT-006, BT-007 ភាពស្លេកស្លាំងដោយខ្វះជាតិដែក · កង្វះ B12 · Beta-thalassaemia minor
Endocrinology (3) BT-002, BT-008, BT-012 ជំងឺ Hashimoto's thyroiditis · PCOS ជាមួយនឹងភាពធន់នឹងអាំងស៊ុlin · កង្វះវីតាមីន D ធ្ងន់ធ្ងរ
Metabolic (2) BT-003, BT-013 T2DM ជាមួយនឹងរោគសញ្ញាមេតាបូលីក · Hyperuricaemia ជាមួយនឹងហានិភ័យហ្គោត
Hepatology (2) BT-004, BT-009 NAFLD / NASH · ជំងឺរលាកថ្លើមវីរុសស្រួចស្រាវ
Nephrology · Cardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD ដំណាក់កាលទី 3 · ជំងឺខ្លាញ់ក្នុងឈាមដែលបង្កើនអាថេរ៉ូជេនីក (atherogenic dyslipidaemia) · ជំងឺប្រព័ន្ធ lupus erythematosus
Trap cases (2) BT-014, BT-015 Gilbert's syndrome (hyperbilirubinaemia អន្តរកាលដោយឯកោ) · បន្ទះពិនិត្យមនុស្សពេញវ័យដែលធម្មតាទាំងស្រុង

ហេតុអ្វីបានជាការចែកចាយជាក់លាក់នេះ

ផ្នែកវិទ្យាឈាមវិទ្យាទទួលបាន ៣ ករណី ព្រោះថា ការបែងចែកតាមទំហំកោសិកាឈាមតូច (microcytic differentials) និងការបែងចែកតាមទំហំកោសិកាឈាមធំ (macrocytic differentials) គឺជាអន្ទាក់ដែលមានបរិមាណខ្ពស់បំផុតក្នុងការអនុវត្តមន្ទីរពិសោធន៍ជាក់ស្តែង។ ផ្នែកអរម៉ូនវិទ្យាទទួលបាន ៣ ករណី ព្រោះការបង្ហាញរបស់ Hashimoto's, PCOS, និងកង្វះវីតាមីន D មានរូបរាងរោគវិនិច្ឆ័យខុសៗគ្នា (ជំរុញដោយអង្គបដិប្រាណ, ជំរុញដោយសមាមាត្រអ័រម៉ូន, ជំរុញដោយសញ្ញាសម្គាល់តែមួយ)។ ផ្នែកឯកទេសដែលមានតែមួយករណីនៅតែមានន័យ ព្រោះ CKD, ហានិភ័យ ASCVD, និង SLE នីមួយៗមានប្រព័ន្ធពិន្ទុរៀងៗខ្លួន ដែលម៉ាស៊ីនគួរតែហៅប្រើ (KDIGO staging, ហានិភ័យ 10 ឆ្នាំរបស់ ASCVD, និងលក្ខណៈវិនិច្ឆ័យ 2019 EULAR/ACR សម្រាប់ SLE រៀងៗខ្លួន)។.

ការអាប់ដេតទីពីរ V11 — ករណីសំយោគ 100,000 ក្នុងចំណោមស្លាកប្រទេស 127

ការអាប់ដេតទីពីរ ជំនួស literal Python ដែលបាន hard-code ដើម V11 ចំនួន 15 ករណី ជាមួយសំណុំករណីសំយោគធំជាង ដែលបានបង្កើតដោយកម្មវិធី។ សំណុំករណីត្រូវបានផ្ទុកនៅដើមនៃរាល់ការរត់ ហើយការកំណត់ត្រូវបានកត់ត្រាសម្រាប់តម្លាភាព។ ការចែកចាយសហក្រុមតាមផ្នែកមាតិកាត្រូវបានបង្ហាញខាងក្រោម។.

រោគវិទ្យា 23,900 ករណី (23.9%) ក្រពេញទីរ៉ូអ៊ីដ, PCOS, វីតាមីន D, អ័ក្សហ្គូណាដាល់, ភីតូអ៊ីតារី
វេជ្ជសាស្ត្រមេតាបូលិក 21,900 ករណី (21.9%) T2DM, រោគសញ្ញាមេតាបូលិក, បន្ទះជាតិខ្លាញ់, ជំងឺហាយភើរីសេមៀ
ឈាមវិទ្យា 15,400 ករណី (15.4%) ការប្រែប្រួលមីក្រូស៊ីតិក និងម៉ាក្រូស៊ីតិក, B12/folate, ការសិក្សាអំពីជាតិដែក
ជំនាញថ្លើម 12,400 ករណី (12.4%) NAFLD/NASH, ជំងឺរលាកថ្លើមដោយវីរុស, FIB-4, ជំងឺកកស្ទះទឹកប្រមាត់
វេជ្ជសាស្ត្រផ្ទៃក្នុង (រួមទាំងផ្នែករង trap) 9,000 ករណី (9.0%) ការបង្ហាញចម្រុះ និងករណី trap hyperdiagnosis ដែលបានឧទ្ទិសចំនួន 8,723
ផ្នែកជំងឺបេះដូង 7,500 ករណី (7.5%) ហានិភ័យ ASCVD, dyslipidaemia ដែលបង្កឲ្យមានជំងឺសរសៃឈាម, hs-CRP
វិទ្យារោគសន្លាក់ឆ្អឹង 6,000 ករណី (6.0%) SLE, RA, vasculitis, បន្ទះអង្គបដិប្រាណខ្លួនឯង (លក្ខណៈវិនិច្ឆ័យ EULAR/ACR)
វិទ្យាសាស្ត្រ​តម្រងនោម 4,000 ករណី (4.0%) ការចាត់ថ្នាក់ CKD (KDIGO), និន្នាការ eGFR, ការរំខានអេឡិចត្រូលីត

ការចែកចាយស្លាកប្រទេសសំយោគ — 10 ស្លាកកំពូល

ករណីសំយោគ 100,000 មានស្លាកប្រទេស 127 (ISO 3166-1 alpha-2) ដើម្បីសាកល្បងការគ្រប់គ្រង locale។ ការកំណត់ស្លាក: Europe 57.7%, the Americas 25.4%, Asia-Pacific 6.2%, named Middle-East/Africa labels 3.4%, និង long tail នៃស្លាកបន្ថែម 97 ផ្សេងទៀត ដែលសរុបប្រហែល 7.3%។ ស្លាក 10 ដែលមានចំនួនករណីច្រើនបំផុតគឺ សហរដ្ឋអាមេរិក (10,500), ប្រេស៊ីល (9,500), អេស្ប៉ាញ (9,000), អ៊ីតាលី (8,000), អាល្លឺម៉ង់ (7,800), បារាំង (7,400), ព័រទុយហ្គាល់ (5,800), Türkiye (3,400), ចក្រភពអង់គ្លេស (2,900), និង ម៉ិកស៊ិក (2,500)។ ពិន្ទុសមាសធាតុតាមស្លាកនីមួយៗ មានចន្លោះពី 0.9971 ដល់ 0.9985។ ចំនួនស្លាកទាំងនេះជាលក្ខណៈសម្បត្តិរបស់ករណីដែលបានបង្កើត ដែលប្រើដើម្បីសាកល្បងការគ្រប់គ្រង locale — វាមិនមែនជាអ្នកប្រើប្រាស់ពិត និងមិនមែនជាការគ្របដណ្តប់ភូមិសាស្ត្រនៅក្នុងពិភពពិតទេ។.

ការពន្យល់អំពី rubric ដែលបានចុះឈ្មោះជាមុន

ការចុះបញ្ជីជាមុន (pre-registration) គឺជាជម្រើសវិធីសាស្ត្រដ៏សំខាន់បំផុតតែមួយគត់ក្នុងការប្រកួតស្តង់ដារនេះ។ រាល់ការធ្វើរោគវិនិច្ឆ័យដែលរំពឹងទុក រាល់ប្រព័ន្ធពិន្ទុគ្លីនិក និងរាល់ផ្នែករបាយការណ៍ ត្រូវបានប្តេជ្ញាចូលទៅក្នុងកូដប្រភព មុនពេលម៉ាស៊ីនត្រូវបានហៅប្រើ. ។ ដូច្នេះ ការកែសម្រួលក្រោយការពិត (post-hoc) នៃ rubric ដើម្បីឲ្យលំអៀងទៅម៉ាស៊ីន គឺមិនអាចធ្វើបានទេ។.

សមាសធាតុ ៣ ផ្នែកបង្កើតជាពិន្ទុរួម។ សមាសធាតុរចនាសម្ព័ន្ធ មានចំនួន ៣៥ ភាគរយ និងវាស់ថាតើម៉ាស៊ីនបានត្រឡប់ផ្នែករបាយការណ៍ដែលត្រូវតែមានចាំបាច់ទាំងប្រាំពីរ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) និងផ្នែករងដែលត្រូវតែមានចាំបាច់ចំនួនដប់ប្រាំមួយនៅក្នុងពួកវាឬអត់។ ការមានវត្តមាននៃផ្នែក (section presence) មានទម្ងន់ ៤០ ភាគរយ និងការមានវត្តមាននៃផ្នែករង (subsection presence) មានទម្ងន់ ៦០ ភាគរយ ក្នុងការគណនារចនាសម្ព័ន្ធ។.

នេះ។ សមាសធាតុគ្លីនិក មានចំនួន ៥៥ ភាគរយ និងរួមបញ្ចូល ៣ ចំណុច៖ ការចងចាំពាក្យគន្លឹះសម្រាប់រោគវិនិច្ឆ័យ (70 ភាគរយ នៃពិន្ទុរងគ្លីនិក), ការចងចាំប្រព័ន្ធពិន្ទុ (20 ភាគរយ — តើម៉ាស៊ីនគណនា Mentzer, FIB-4, HOMA-IR, ហានិភ័យ ASCVD, KDIGO staging, លក្ខណៈវិនិច្ឆ័យ EULAR/ACR នៅពេលពាក់ព័ន្ធឬអត់), និងការត្រួតពិនិត្យភាពត្រឹមត្រូវនៃផលបូកប្រូបាប៊ីលីតេ (10 ភាគរយ — ប្រូបាប៊ីលីតេនៃ differential ត្រូវតែបូកសរុបឲ្យស្ថិតក្នុងចន្លោះ [90, 110])។ សម្រាប់ករណីអន្ទាក់ (trap cases) នឹងដកការពិន័យសម្រាប់ hyperdiagnosis ច្បាស់លាស់ រហូតដល់ 0.30 ដោយគណនាជា 0.10 ក្នុងមួយសញ្ញាធាតុ pathology ដែលបង្កើតឡើង (fabricated pathology flag) ហើយកំណត់អតិបរមា ៣ សញ្ញា។.

នេះ។ សមាសធាតុពេលវេលាយឺត (latency component) មានចំនួន ១០ ភាគរយ។ ការឆ្លើយតបក្រោម ២០ វិនាទី ទទួលបានពេញ 0.10, ក្រោម ៤០ វិនាទី ទទួលបាន 0.05, និងអ្វីដែលយឺតជាងនេះទទួលបាន ០។ គោលដៅ ២០ វិនាទី សំដៅលើគោលបំណងកម្រិតសេវា (service-level objective) សម្រាប់ការផលិត (production primary-path service-level objective); ពិដាន ៤០ វិនាទី សំដៅលើថវិកាបម្រុងសម្រាប់ Phase 2 ក្នុងករណីហៅម៉ាស៊ីនធ្ងន់ៗ។.

រូបថតអេក្រង់ចុងក្រោយ (terminal screenshot) នៃ Kantesti benchmark harness ដែលមានអាជ្ញាប័ណ្ណ MIT កំពុងដំណើរការ និងបញ្ចេញពិន្ទុតាមករណី — harness ដូចគ្នា ដែលឥឡូវដំណើរការដោយ SQL បានបង្កើតពិន្ទុ 99.80% composite លើការរត់ 100,000 ករណី ក្នុងការអាប់ដេតទីពីរ V11
រូបភាពទី 3: ការដំណើរការឧបករណ៍ (harness) — ម៉ាស៊ីនដូចគ្នាដែលបានបង្កើត ពិន្ទុសរុប 99.80% នៅលើក្រុមសិក្សា 100,000 ករណី នៃ V11 Second Update។ ករណីនីមួយៗត្រូវបានបង្ហាញជាឯកសារ A4 PDF, បង្ហោះទៅកាន់ចំណុចបញ្ចប់ (endpoint) ផលិតកម្ម v11 ហើយត្រូវបានវាយតម្លៃធៀបនឹង rubric ដែលបានបង្កក (frozen)។ Second Update បានបន្ថែមកម្មវិធីផ្ទុកករណី SQL ដែលអាចកំណត់ប៉ារ៉ាម៉ែត្រ (parameterised SQL case loader); គំរូចៃដន្យដែលបានចែកស្រទាប់នៃការឆ្លើយតបដើមពីម៉ាស៊ីន (n = 201) ត្រូវបានរក្សាទុករួមជាមួយនឹង scorecard ដែលបានបូកសរុប។.

អ្វីដែល pre-registration រារាំង

ការប្រកួតស្តង់ដារដោយខ្លួនឯង (first-party benchmarks) តែងតែមានឈ្មោះល្បីថា ធ្វើឲ្យលេខរបស់ខ្លួនហើម ដោយសារការកែ rubric ក្រោយការពិត។ លំនាំនេះស្ទើរតែដូចគ្នាជានិច្ច៖ ក្រុមដំណើរការម៉ាស៊ីន មើលកន្លែងដែលវាធ្វើមិនបានល្អ បន្ទាប់មកក៏កែសម្រួល rubric ដោយស្ងៀមស្ងាត់ ដើម្បីឲ្យផ្នែកដែលធ្វើមិនបានល្អ មានទម្ងន់តិច។ ដោយប្តេជ្ញា rubric ទៅក្នុងកូដប្រភព មុនពេលហៅម៉ាស៊ីនលើកដំបូង និងបោះពុម្ព harness ក្រោមអាជ្ញាប័ណ្ណ MIT ការកែសម្រួលនោះក្លាយជាអាចមើលឃើញនៅក្នុង version control។ អ្នកណាក៏អាច clone repository ពិនិត្យថ្ងៃបង្កើត rubric និងផ្ទៀងផ្ទាត់ថា លទ្ធផលម៉ាស៊ីនមិនត្រូវបានប្រើដើម្បីរៀបចំការវាយពិន្ទុ។.

ករណីជាមួយអន្ទាក់នៃការធ្វើរោគវិនិច្ឆ័យលើស (Hyperdiagnosis) — ហេតុអ្វីការហៅច្រើនពេក (over-calling) ជារបៀបបរាជ័យពិត

ការហៅ pathology យ៉ាងខ្លាំងលើអេក្រង់ធម្មតា គឺជារបៀបបរាជ័យដែលបានកត់ត្រាទុកសម្រាប់ជំនួយការផ្នែកវេជ្ជសាស្ត្រដែលផ្តល់ជូនដល់អ្នកប្រើប្រាស់។ តម្លៃបន្តបន្ទាប់រួមមាន ការស៊ើបអង្កេតមិនចាំបាច់ ការព្រួយបារម្ភរបស់អ្នកជំងឺ និងការពិនិត្យ/ព្យាបាលដោយមិនចាំបាច់ (iatrogenic workup)។ ករណីអន្ទាក់ចំនួនពីរនៅក្នុងការប្រកួតស្តង់ដារនេះ ត្រូវបានរចនាឡើងដើម្បីធ្វើឲ្យរបៀបបរាជ័យនោះអាចមើលឃើញ និងអាចវាយពិន្ទុបាន។.

ការប្រៀបធៀបជាប់គ្នា (side-by-side) រវាង AI ដែលបង្កើត hepatitis ដោយមិនត្រឹមត្រូវលើបន្ទះ Gilbert's syndrome ទល់នឹងម៉ាស៊ីន Kantesti ដែលកំណត់បានត្រឹមត្រូវនូវ UGT1A1 polymorphism ដែលមិនបង្កគ្រោះថ្នាក់ — វិធីសាស្ត្រដែលត្រូវបានពង្រីកទៅសូន្យ false-positives លើឱកាសសញ្ញា trap ចំនួន 87,412 ក្នុង benchmark 99.80% នៃការអាប់ដេតទីពីរ V11
រូបភាពទី ៤៖ ការរចនាករណីបោកបញ្ឆោត (trap-case) ពីការចេញផ្សាយដំបូង V11 — ម៉ាស៊ីនដែលដាក់ស្លាកយ៉ាងជឿជាក់ថា ជំងឺរបស់ Gilbert ជា hepatitis ឬដែលបង្កើតរោគសាស្ត្រកម្រិតស្ទើរព្រំដែនលើអេក្រង់ដែលពិតជាធម្មតាទាំងស្រុង នឹងត្រូវបានដាក់ទណ្ឌកម្ម មិនមែនទទួលរង្វាន់សម្រាប់ការសំឡេងឲ្យដូចជាគ្លីនិកនោះទេ។ វិធីសាស្ត្រនេះត្រូវបានពង្រីកទៅ 0 / 87,412 false-positives ក្នុងការរត់ក្រុម 100,000 ករណី នៃ V11 Second Update ដែលបានបង្កើតពិន្ទុសរុប 99.80%។.

🟡 អន្ទាក់ 1 — BT-014-GILBERT

ការបង្ហាញ (Presentation)។. បុរសអាយុ ២៤ ឆ្នាំ ដែលមាន bilirubin សរុប 2.4 mg/dL។ សមាមាត្រផ្ទាល់ (direct fraction) មានលក្ខណៈធម្មតា, transaminases និង alkaline phosphatase ស្ថិតនៅក្នុងចន្លោះតម្លៃយោងរបស់ពួកវា, reticulocytes មិនមានអ្វីគួរឲ្យកត់សម្គាល់, និង haptoglobin និង LDH បដិសេធ haemolysis។.

ការបកស្រាយត្រឹមត្រូវ។. Gilbert's syndrome — polymorphism UGT1A1 ដែលជាជំងឺមិនបង្កគ្រោះថ្នាក់។ ការបកស្រាយមិនគួរហៅ hepatitis, cirrhosis, haemolytic anaemia, ឬ biliary obstruction។.

លទ្ធផល V11។. Composite 1.000។ គ្មានសញ្ញា over-diagnosis ដែលតាមដានទាំងប្រាំមួយ បានបង្ហាញជារោគវិនិច្ឆ័យសកម្មទេ។.

🟡 អន្ទាក់ 2 — BT-015-HEALTHY

ការបង្ហាញ (Presentation)។. ស្ត្រីអាយុ ៣៥ ឆ្នាំ ជាមួយនឹងបន្ទះអេក្រង់ស្ដង់ដារ ១៥ ប៉ារ៉ាម៉ែត្រ។ អ្នកវិភាគ (analyte) ទាំងអស់ ស្ថិតយ៉ាងស្រួលនៅក្នុងចន្លោះតម្លៃយោងរបស់វា។.

ការបកស្រាយត្រឹមត្រូវ។. ការធានាឡើងវិញ និងការថែរក្សារបៀបរស់នៅ។ ការបកស្រាយមិនគួរបង្កើតជំងឺស្ថិតនៅដែនកំណត់ (borderline pathology) ដើម្បីឲ្យមើលទៅមានប្រយោជន៍ខាងវេជ្ជសាស្ត្រតាមបែបគ្លីនិកនោះទេ។.

លទ្ធផល V11។. សមាសធាតុ 1.000។ ក្នុងចំណោមសញ្ញាព្រមាននៃការធ្វើរោគវិនិច្ឆ័យលើស (over-diagnosis) ដែលត្រូវបានតាមដានទាំងប្រាំពីរ — ជំងឺទឹកនោមផ្អែម (diabetes), ភាពស្លេកស្លាំង (anaemia), ជំងឺក្រពេញធីរ៉ូអ៊ីដថយ (hypothyroidism), ជំងឺខ្លាញ់ក្នុងឈាមខ្ពស់ (dyslipidaemia), ជំងឺរលាកថ្លើម (hepatitis), ជំងឺតម្រងនោម (kidney disease), កង្វះ (deficiency) — មិនមានមួយណាលេចឡើងជារោគវិនិច្ឆ័យសកម្មឡើយ។.

នៅទាំងពីរត្រាប់ (traps) មានការត្រួតពិនិត្យសញ្ញាព្រមាននៃការធ្វើរោគវិនិច្ឆ័យលើស (hyperdiagnosis) ចំនួនដប់បី។ មិនមានសញ្ញាណាមួយត្រូវបានបង្កឲ្យសកម្មឡើយ។ នេះជាលទ្ធផលដែលសំខាន់បំផុតសម្រាប់វេជ្ជបណ្ឌិតណាម្នាក់ដែលកំពុងពិចារណាប្រើម៉ាស៊ីន AI ជាឧបករណ៍សម្រាប់ការបែងចែកអាទិភាព (triage) ឬមុនការពិគ្រោះ។ ប្រព័ន្ធមិនបានបង្កើតជំងឺណាមួយឡើយ នៅពេលដែលមិនមានជំងឺនោះ.

សន្ទស្សន៍ Mentzer: បំបែកការខ្វះជាតិដែក (iron deficiency) ពីលក្ខណៈ thalassaemia trait

ការរកឃើញដែលមានតម្លៃខ្ពស់ទីពីរ ទាក់ទងនឹងការផ្គូផ្គងរវាង case BT-001 (ភាពស្លេកស្លាំងដោយកង្វះជាតិដែក) ជាមួយ case BT-007 (beta-thalassaemia minor)។ ទាំងពីរមាន microcytosis ហើយជាឧបសគ្គដែលគេស្គាល់ច្បាស់សម្រាប់អ្នកចាត់ថ្នាក់ (classifiers) ដែលមិនទាន់មានបទពិសោធន៍។ សន្ទស្សន៍ Mentzer ដែលគណនាជា MCV ចែកនឹងចំនួន RBC មានតម្លៃលើស 13 ក្នុងកង្វះជាតិដែក ហើយធ្លាក់ក្រោម 13 ក្នុងលក្ខណៈ thalassaemia trait។.

នៅ BT-001 អ្នកជំងឺជាស្ត្រីអាយុ 34 ឆ្នាំ មានកម្រិត hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL និង TIBC ខ្ពស់។ សន្ទស្សន៍ Mentzer ប្រហែល 17.7 គាំទ្រកង្វះជាតិដែកពិតប្រាកដ (absolute iron deficiency)។ នៅ BT-007 អ្នកជំងឺជាបុរសអាយុ 28 ឆ្នាំ មាន microcytosis (MCV 65.8 fL) ប៉ុន្តែមានចំនួន RBC ខ្ពស់ 6.2, RDW ធម្មតា, ferritin ធម្មតា និង HbA2 5.6 ភាគរយ។ សន្ទស្សន៍ Mentzer ប្រហែល 10.6 បង្ហាញ thalassaemia trait ហើយ HbA2 ខ្ពស់បញ្ជាក់ beta-thalassaemia minor។.

ភាពស្លេកស្លាំងដោយកង្វះជាតិដែក Mentzer > 13 Ferritin ទាប, TSAT ទាប, TIBC ខ្ពស់, RDW ខ្ពស់
Thalassaemia trait (លក្ខណៈ thalassaemia) Mentzer < 13 Ferritin ធម្មតា, RDW ធម្មតា, HbA2 ខ្ពស់ (>3.5%), ចំនួន RBC ខ្ពស់

ករណីទាំងពីរទទួលពិន្ទុ 1.000។ ម៉ាស៊ីនបានហៅសន្ទស្សន៍ Mentzer យ៉ាងច្បាស់នៅក្នុងការបកស្រាយទាំងពីរ ហើយបានត្រឡប់រោគវិនិច្ឆ័យត្រឹមត្រូវក្នុងករណីនីមួយៗ។. នេះជាលទ្ធផលដែលធានាឡើងវិញផ្នែកគ្លីនិកច្រើនបំផុតតែមួយ ក្នុងការប្រកួតវាស់ស្ទង់ទាំងមូល, ព្រោះការចាត់ថ្នាក់ខុស thalassaemia trait ជា iron deficiency នាំឲ្យផ្តល់ថ្នាំបន្ថែមជាតិដែកមិនសមស្រប និងខកខានឱកាសស្វែងរកតាមគ្រួសារ (family-screening) ហើយការចាត់ថ្នាក់ខុស iron deficiency ជា thalassaemia ធ្វើឲ្យពន្យារពេលការព្យាបាលជំនួសដែលងាយស្រួលត្រង់ៗ។ Our កម្រិត ferritin ពន្យល់បរិបទនៃការបែងចែកជំងឺទូលំទូលាយជាងនេះ។.

លទ្ធផលតាមករណីពីការរត់យោងដំបូង V11 (ថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026)

ការរត់យោងដើម V11 លើក្រុមសាកល្បង 15 ករណី (proof-of-concept) បម្រើជាមូលដ្ឋាន នៃវិធីសាស្ត្រ នៃ Second Update៖ រាល់ព័ត៌មានលម្អិតតាមករណីខាងក្រោមបង្ហាញពីរបៀបដែល rubric ដោះស្រាយការឆ្លើយតបពិតរបស់ម៉ាស៊ីន។ ក្នុង 15 ករណី មាន 12 ករណីទទួលបានពិន្ទុសរុបកម្រិតពិដាន (ceiling) 1.000 លើ primary path; 3 ករណីត្រូវបានបម្រើតាម Phase 2 fallback ដោយបាត់បង់ bonus ភាពយឺត 0.05 ខណៈដែលរក្សាទុកមាតិកាគ្លីនិក និងរចនាសម្ព័ន្ធទាំងអស់។ ករណីមួយខ្វះផ្នែករង (subsection) ដែលត្រូវតែមានតែមួយ; មួយទៀតត្រឡប់មកវិញនូវការចែកចាយប្រូបាប៊ីលីតេដែលត្រូវបានកាត់បន្ថយបន្តិច (marginally reduced) ដោយសរុប។.

លេខសម្គាល់ករណី (Case ID) ជំនាញ (Specialty) ពិន្ទុរួម Latency Path
BT-001-IDAឈាមវិទ្យា1.00017.8 sprimary
BT-006-B12ឈាមវិទ្យា1.00018.4 វិនាទីprimary
BT-007-THALឈាមវិទ្យា1.00017.0 វិនាទីprimary
BT-002-HASHរោគវិទ្យា0.95037.0 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របន្ទាន់
BT-008-PCOSរោគវិទ្យា0.98718.6 វិនាទីprimary
BT-003-T2DMមេតាបូលីស1.00019.1 វិនាទីprimary
BT-013-GOUTមេតាបូលីស1.00019.4 វិនាទីprimary
BT-004-NAFLDជំនាញថ្លើម1.00019.6 វិនាទីprimary
BT-009-VIRHEPជំនាញថ្លើម0.95023.4 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របន្ទាន់
BT-014-GILBERTអន្ទាក់1.00018.9 វិនាទីprimary
BT-005-CKDវិទ្យាសាស្ត្រ​តម្រងនោម1.00017.4 វិនាទីprimary
BT-010-ASCVDផ្នែកជំងឺបេះដូង1.00019.7 វិនាទីprimary
BT-011-SLEវិទ្យារោគសន្លាក់ឆ្អឹង0.98118.2 វិនាទីprimary
BT-012-VITDរោគវិទ្យា1.00019.3 វិនាទីprimary
BT-015-HEALTHYអន្ទាក់1.00018.7 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របន្ទាន់

ករណី PCOS (BT-008) បានបាត់បង់ផ្នែករងដែលត្រូវតែមានមួយផ្នែកក្នុងរចនាសម្ព័ន្ធការឆ្លើយតប — ដប់ប្រាំពីរនៃដប់ប្រាំមួយ ជំនួសឲ្យដប់ប្រាំមួយនៃដប់ប្រាំមួយ — ដែលកាត់បន្ថយពិន្ទុរចនាសម្ព័ន្ធពី 1.000 ទៅ 0.963។ ករណី SLE (BT-011) បានត្រឡប់មកវិញនូវផលបូកនៃការចែកចាយប្រូបាប៊ីលីតេដែលថយចុះបន្តិច ដែលធ្វើឲ្យពិន្ទុផ្នែកគ្លីនិកធ្លាក់ដល់ 0.965 ខណៈដែលរក្សាបានរាល់ពាក្យគន្លឹះវិនិច្ឆ័យ និងប្រព័ន្ធពិន្ទុទាំងអស់។ គ្មានករណីណាមួយដែលមិនល្អទាំងស្រុងនោះ បាត់បង់ការវិនិច្ឆ័យត្រឹមត្រូវឡើយ។.

V11 Second Update សរុប — 100,000 ករណី

នៅកម្រិតទំហំប្រជាជន (population scale) ជួរករណីនីមួយៗមិនអាចអានបានដោយមនុស្ស ដូចนั้นការអាប់ដេតទីពីរ រាយការណ៍សូចនាករដែលបានប្រមូល (aggregated metrics) ជំនួសតារាង 100,000 ជួរ។ សរុបសំខាន់ (headline aggregate) ត្រូវបានបង្ហាញខាងក្រោម; ការបំបែកតាមឯកទេស និងតាមស្លាកប្រទេស ត្រូវបានបោះពុម្ពនៅក្នុងរបាយការណ៍បច្ចេកទេស និងការដាក់ Figshare។ គំរូចៃដន្យចែកស្រទាប់នៃ n = 201 ការឆ្លើយតបដើមរបស់ម៉ាស៊ីន (seed កំណត់ជាក់លាក់ 20260426) ត្រូវបានបោះពុម្ពនៅក្នុង GitHub results/ directory សម្រាប់ការត្រួតពិនិត្យ។.

ពិន្ទុសរុប (Composite score) V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 ក្នុងក្រុម 100,000 ករណី
ពិន្ទុរចនាសម្ព័ន្ធ (មធ្យម) V11 initial: 0.998 → Second Update: 1.000 ការអនុលោមរចនាសម្ព័ន្ធល្អឥតខ្ចោះនៅកម្រិតទំហំប្រជាជន
ពិន្ទុគ្លីនិក (មធ្យម) V11 initial: 0.998 → Second Update: 0.996 −0.002; គ្មានករណីណាមួយខកខានការធ្វើរោគវិនិច្ឆ័យខ្លួនឯងនោះទេ
ភាពយឺតយ៉ាវ — មធ្យម (ជួរ) ការចាប់ផ្តើម V11 ដំបូង: 20.17 វិនាទី (17.0–37.0 វិនាទី) → ការអាប់ដេតលើកទីពីរ៖ 13.26 វិនាទី (9.0–16.94 វិនាទី) ការបង្កើនប្រសិទ្ធភាពម៉ាស៊ីនផលិតកម្មរវាងការរត់
ផ្លូវម៉ាស៊ីន = មេ V11 ដំបូង: 12 / 15 → ការអាប់ដេតលើកទីពីរ៖ 100,000 / 100,000 មិនចាំបាច់ប្រើការបម្រុង Phase 2 នៅចំណុចណាមួយក្នុងអំឡុងពេលរត់នោះទេ
ទង់សញ្ញា hyperdiagnosis សម្រាប់ trap-subset V11 ដំបូង: 0 / 13 → ការអាប់ដេតលើកទីពីរ៖ 0 / 87,412 គ្មាន false-positives នៅកម្រិតប្រជាជន (មានការតាមដានករណី trap ចំនួន 8,723)

អ្វីដែលពិន្ទុចំណងជើងមិនបានប្រាប់យើង

ពិន្ទុសមាសធាតុ 99.80 ភាគរយ ក្រោម rubic ដែលបានចុះបញ្ជីជាមុនជាក់លាក់នេះ លើសហក្រុមសំយោគ 100,000 ករណី ដែលគ្របដណ្តប់ស្លាកប្រទេស 127 បង្ហាញសមត្ថភាពជិតកម្រិតពិដាន (near-ceiling performance) — ប៉ុន្តែវាត្រូវការការរៀបចំឲ្យបានច្បាស់លាស់។ លទ្ធផលពិពណ៌នាអំពីអាកប្បកិរិយារបស់ម៉ាស៊ីនធៀបនឹង rubic ដែលយើងបានប្តេជ្ញាទៅកូដប្រភពក្នុង V11; វាមិនមែនជាការអះអាងជាសកលអំពីភាពត្រឹមត្រូវរបស់ម៉ាស៊ីនលើបន្ទះតេស្តឈាមគ្រប់ប្រភេទដែលមាននៅក្នុងពិភពពិតទេ។.

ពិន្ទុនេះបង្ហាញថា ម៉ាស៊ីនបានដោះស្រាយលំនាំរោគវិនិច្ឆ័យដែលបានជ្រើសសម្រាប់ការវាយតម្លៃនេះបានត្រឹមត្រូវ នៅទូទាំងក្រុមសំណាកកម្រិតប្រជាជន ដោយប្រើវិធីសាស្ត្រដែលបានបោះពុម្ព និងអាចធ្វើឡើងវិញបាន។ វាមិនបាននិយាយថា ម៉ាស៊ីនត្រឹមត្រូវលើរាល់បន្ទះការពិនិត្យឈាមដែលមាននៅក្នុងពិភពពិតនោះទេ។ វាមិនបាននិយាយថា ម៉ាស៊ីនគួរតែជំនួសការវិនិច្ឆ័យរបស់គ្រូពេទ្យនោះទេ។ ហើយវាមិនបាននិយាយថា ម៉ាស៊ីនលើសប្រព័ន្ធ AI ផ្សេងទៀត — ការវិភាគប្រៀបធៀបជាមួយម៉ាស៊ីនផ្សេងៗត្រូវបានដកចេញដោយចេតនាពីវិសាលភាពនៃរបាយការណ៍នេះ។.

អ្វីដែលពិន្ទុនេះបញ្ជាក់ពិតប្រាកដ គឺជាមូលដ្ឋាន (baseline)។ នៅពេលដែល rubic និង harness ត្រូវបានធ្វើឲ្យសាធារណៈ កំណែអនាគតនៃម៉ាស៊ីនអាចត្រូវបានវាយតម្លៃធៀបនឹង rubic ដូចគ្នា — អនុវត្តលើករណី V11 ដំបូង 15 ករណី ក្រុមសំណាក 100,000 ករណី នៃការអាប់ដេតលើកទីពីរ ឬការពង្រីកបន្តបន្ទាប់ណាមួយ — ហើយគម្លាតរវាងពិន្ទុដែលបានបោះពុម្ព និងការរត់បន្ទាប់ណាមួយ ក៏អាចវាស់វែងបានដោយខ្លួនឯងផងដែរ។ នេះជាតម្លៃនៃការចុះបញ្ជីជាមុន៖ វាបម្លែងការអះអាងអំពីសមត្ថភាព ទៅជាការអះអាងដែលអាចធ្វើតេស្តបាន.

របៀបធ្វើឲ្យស្រដៀងនឹងស្តង់ដារនេះឡើងវិញក្នុងរយៈពេល 10 នាទី

ការធ្វើឡើងវិញ ត្រូវការតែគូសមត្ថភាព API Kantesti និងបរិស្ថាន Python 3.10 ឬក្រោយជាងនេះ ដែលមាន requests និង reportlab បានដំឡើង។ ឧបករណ៍ពេញលេញ (harness) គឺជាម៉ូឌុល Python តែមួយដែលមានខ្លឹមសារគ្រប់គ្រាន់ក្នុងខ្លួន និងត្រូវបានចេញផ្សាយក្រោមអាជ្ញាប័ណ្ណ MIT។.

គំនូសបង្ហាញបណ្តាញសម្រាប់ការធ្វើឡើងវិញ (reproducibility network diagram) ដែលបង្ហាញ benchmark V11 Second Update (99.80% composite, 100,000 cases, 127 country labels) ត្រូវបានឆ្លុះកញ្ចក់ (mirrored) ឆ្លងកាត់ Figshare, ResearchGate, Academia.edu និង GitHub ដោយប្រើ Figshare DOI ជាចំណុចយោងសំខាន់ (canonical anchor)
រូបភាពទី 5: ការប្រៀបធៀប V11 ការអាប់ដេតលើកទីពីរ — ពិន្ទុសមាសធាតុ 99.80% លើករណី 100,000 ក្នុងចំណោមស្លាកប្រទេស 127 — ត្រូវបានឆ្លុះកញ្ចក់ (mirrored) ឆ្លងកាត់វេទិកាស្រាវជ្រាវចំនួនបួន។ លេខ DOI របស់ Figshare គឺជាអត្តសញ្ញាណសិក្សាដែលត្រូវបានចាត់ទុកជាស្តង់ដារ (canonical)។ ResearchGate (publication 404175463), Academia.edu (paper 165956808) និង GitHub ផ្ទុកច្បាប់ចម្លងស្របគ្នា ដែលមាន benchmark harness, គំរូឆ្លើយតបឆ្លងកាត់ដោយការចៃដន្យជាស្រទាប់ (stratified random sample) នៃទិន្នន័យឆ្លើយតបដើម (raw responses) និង per-country-label/per-specialty scorecards។.

បួនជំហានសម្រាប់ការរត់ថ្មី

មួយ។. ក្លូន (Clone) ឃ្លាំង (repository)៖ git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ពីរ។. ដំឡើងការពឹងផ្អែកជាមួយ pip install -r requirements.txt (Second Update បន្ថែម mysql-connector-python ≥ 8.0 សម្រាប់ SQL case loader)។. បី។. កំណត់ KANTESTI_USERNAME និង KANTESTI_PASSWORD ជាអថេរបរិស្ថានសម្រាប់ engine API។ សម្រាប់ SQL case loader នៃ Second Update ក៏ត្រូវកំណត់ផងដែរ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, និង KANTESTI_DB_PASSWORD — ឧបករណ៍ផ្ទុក (loader) ភ្ជាប់តាមរយៈតួនាទីអានតែប៉ុណ្ណោះ (read-only) (bench_reader) ដែលគ្មានសិទ្ធិអំណាចលើការកំណត់អត្តសញ្ញាណតារាង។. បួន។. ដំណើរការ python benchmark_bloodtest.py --limit 100000 សម្រាប់ការរត់ Second-Update ពេញលេញ ឬ python benchmark_bloodtest.py --limit 1000 សម្រាប់ការធ្វើឡើងវិញរហ័ស។ លទ្ធផលត្រូវបានដាក់នៅក្នុង ./benchmark_results/: CSV scorecard ដែលមានជួរឈរ per-country-label និង per-specialty, JSON aggregate, គំរូឆ្លើយតបដើមដែលចៃដន្យជាស្រទាប់, និងរបាយការណ៍ Markdown។.

ការរត់យោង (reference runs) ចាប់ពីថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 (V11 ដំបូង, 15 ករណី) និងថ្ងៃទី 26 ខែមេសា ឆ្នាំ 2026 (V11 Second Update, 100,000 ករណី) ត្រូវបានរក្សាទុកក្នុង results/ ថតនៃឃ្លាំង (repository)។ ការរត់ថ្មីនឹងបង្កើតសន្លឹកពិន្ទុថ្មីដែលមានស្លាកពេលវេលា (timestamp) ខណៈដែលការរត់យោងមិនត្រូវបានប៉ះពាល់។ ប្រសិនបើការរត់របស់អ្នកបង្កើតលទ្ធផលខុសគ្នាយ៉ាងមានន័យ សូមបើកបញ្ហា (GitHub issue) ជាមួយ timestamp នៃការរត់ និងកំណែម៉ាស៊ីន (engine version) ដែលត្រូវបានត្រឡប់ក្នុង metadata នៃការឆ្លើយតប។.

ដែនកំណត់ និងការងារនាពេលអនាគត

ទោះបីជាមាន 100,000 ករណីលើស្លាកប្រទេសចំនួន 127 ក៏ដោយ ក៏មានកម្រិតបួនចំណុចដែលសមនឹងការទទួលស្គាល់ឲ្យច្បាស់៖ ការមិនគ្រប់គ្រាន់នៃការយកគំរូសម្រាប់ស្លាកដែលមានចំនួនតិច (long-tail label undersampling), ការវាយតម្លៃតែម្តង (single-shot evaluation), វិសាលភាពម៉ាស៊ីនតែមួយ (single-engine scope) និងប្រភពទិន្នន័យតែមួយ (single-source data origin)។ នីមួយៗកំពុងត្រូវបានដោះស្រាយនៅក្នុងការងារតាមដានបន្តបន្ទាប់ (active follow-up work)។.

ការគ្របដណ្តប់ស្លាក long-tail។. ការអាប់ដេតទីពីរ (Second Update) មានស្លាកប្រទេសចំនួន 127 ប៉ុន្តែការចែកចាយមិនស្មើគ្នា — ស្លាកកំពូលទាំង 10 គណនាប្រហែល ≈66.4% នៃចំនួនករណី ហើយ long tail នៃស្លាកបន្ថែមចំនួន 97 សរុបរួមគ្នាបង្កើត ≈7.3% (ប្រហែល 7,300 ករណីរួមគ្នា, ~75 ករណីក្នុងមួយស្លាកជាមធ្យម)។ ដូចนั้น សមាសធាតុ (composites) ក្នុង long tail នេះ មានសំឡេងរំខាន (noisier) ជាងអ្វីដែលតួលេខសំខាន់ៗ (headline figures) បង្ហាញ។ ការរត់នាពេលអនាគតនឹងរៀបចំឡើងវិញការចាត់តាំងស្លាក ដើម្បីធ្វើឲ្យការប៉ាន់ប្រមាណក្នុងមួយស្លាក (per-label estimates) កាន់តែរឹងមាំ។.

ការវាយតម្លៃតែម្តង (single-shot evaluation)។. ករណីនីមួយៗក្នុងក្រុម (cohort) ត្រូវបានវាយតម្លៃតែម្តង។ ម៉ូដែលភាសាធំៗបង្ហាញភាពប្រែប្រួលលទ្ធផល (output variance) ដែលមិនតិចសោះ ទោះបីជានៅសីតុណ្ហភាពគំរូទាបក៏ដោយ ដូច្នេះពិធីសាស្ត្ររត់ច្រើន (multi-run protocol) ដោយមានការវាយតម្លៃ 5 ដងក្នុងមួយករណី និងការរាយការណ៍ភាពប្រែប្រួល គឺជាជំហានបន្ទាប់ដែលសមហេតុផល — ជាពិសេសលើផ្នែករង trap-case ដែលភាពស្ថិរភាពក្រោមការញ័រនៃការគំរូ (sampling jitter) ជាផ្នែកមួយនៃការអះអាងអំពីសុវត្ថិភាព។.

វិសាលភាពម៉ាស៊ីនតែមួយ (single-engine scope)។. របាយការណ៍នេះពិពណ៌នាអំពីម៉ាស៊ីនមួយ (one engine)។ ការវិភាគប្រៀបធៀបជាមួយប្រព័ន្ធ AI ផ្សេងៗ មិនស្ថិតក្នុងវិសាលភាពនៅទីនេះទេ។ យើងអាចបន្តវាជាការសិក្សាឯករាជ្យដាច់ដោយឡែក ដោយប្រើវិធីសាស្ត្រសមស្រប ជាមួយ harness ដូចគ្នាដែលមានអាជ្ញាប័ណ្ណ MIT។.

ទិន្នន័យសំយោគ (Synthetic data)។. ករណីចំនួន 100,000 ត្រូវបានបង្កើតសំយោគ (synthetically generated) មិនមែនជាករណីសំយោគ (synthetic cases) នោះទេ ហើយលទ្ធផលមិនផ្ទេរទៅការអនុវត្តក្នុងពិភពពិត (real-world clinical performance)។ ការវាយតម្លៃលើទិន្នន័យពិត ដែលមានការយល់ព្រម និងទទួលបានពីប្រភពខាងក្រៅ (real, consented, externally-sourced data) នឹងត្រូវការការត្រួតពិនិត្យផ្នែកសីលធម៌សមស្រប ហើយមិនស្ថិតក្នុងវិសាលភាពសម្រាប់ benchmark សំយោគនេះទេ។.

លើសពីកម្រិតបួននេះ ការពង្រីកដែលមានឥទ្ធិពលខ្លាំងបំផុតដែលបានគ្រោងទុកគឺភាពស្មើគ្នាតាមភាសាច្រើន (multi-language parity) ក្នុងមួយយុត្តាធិការ។ Kantesti AI Engine បម្រើអ្នកប្រើប្រាស់ក្នុង 75+ ភាសា ហើយការរត់ sub-cohorts Second-Update ដែលចែកតាមភាសា (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) នឹងវាស់គុណភាពលទ្ធផលនៅទូទាំងភាសាដែលម៉ាស៊ីនគាំទ្រ។ ការវិភាគដែលចែកតាមភាសានីមួយៗនឹងត្រូវបានបោះពុម្ពជាមួយ DOI ផ្ទាល់ខ្លួន និង harness branch ផ្ទាល់ខ្លួន។.