ការធ្វើតេស្តឈាមដោយ AI Benchmark Kantesti — ការបញ្ជាក់ផ្នែកព្យាបាល

ការប្រៀបធៀបស្វ័យប្រវត្តិ ការប្រៀបធៀបដែលបានចុះឈ្មោះជាមុន V11 ការអាប់ដេតលើកទីពីរ — ខែមេសា 2026 អនុញ្ញាតក្រោម MIT អាចធ្វើឡើងវិញបាន · ទិន្នន័យបើកចំហ សហក្រុមសំយោគ 100K · ស្លាកប្រទេស 127

ពិន្ទុសមាសធាតុ 99.80% លើ rubic ដែលបានចុះបញ្ជីជាមុន — V11 ការអាប់ដេតទីពីរ, សហក្រុម 100,000 ករណី ក្នុងចំណោមស្លាកប្រទេស 127

ការធ្វើតេស្តបច្ចេកទេសស្វ័យប្រវត្តិដែលបានចុះបញ្ជីជាមុន និងផ្អែកលើ rubic នៃម៉ាស៊ីន Kantesti លើករណីតេស្តឈាមដែលបានបង្កើតសំយោគចំនួន 100,000 ដែលបានដាក់ស្លាកជាមួយស្លាកប្រទេស 127។ វាវាស់ការអនុលោមលទ្ធផល មិនមែនភាពត្រឹមត្រូវក្នុងការធ្វើរោគវិនិច្ឆ័យទេ។ rubic ត្រូវបានបង្កកនៅក្នុងកូដប្រភព មុនការចេញផ្សាយដំបូង V11 ហើយរក្សាឲ្យដូចគ្នា byte-identical សម្រាប់ការអាប់ដេតទីពីរនេះ; ឧបករណ៍វាយតម្លៃត្រូវបានអនុញ្ញាតក្រោមអាជ្ញាប័ណ្ណ MIT; គំរូចៃដន្យចែកស្រទាប់នៃការឆ្លើយតបឆៅរបស់ម៉ាស៊ីនត្រូវបានបោះពុម្ពសម្រាប់ការត្រួតពិនិត្យ។ ករណីទាំងអស់ជាសំយោគ; មិនប្រើទិន្នន័យផ្ទាល់ខ្លួន។.

📖 ~14 នាទី 📅 បោះពុម្ពផ្សាយ ថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 · បានអាប់ដេត ថ្ងៃទី 26 ខែមេសា ឆ្នាំ 2026 (V11 ការអាប់ដេតលើកទីពីរ) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 បានបោះពុម្ព៖ ថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 🔄 V11 ការអាប់ដេតលើកទីពីរ៖ ថ្ងៃទី 26 ខែមេសា ឆ្នាំ 2026 🩺 បានពិនិត្យផ្នែកវេជ្ជសាស្ត្រដោយ៖ ថ្ងៃទី 26 ខែមេសា ឆ្នាំ 2026 ✅ Rubric បានចុះបញ្ជីជាមុន (Byte-Identical) 🔓 កូដ & ទិន្នន័យបើកចំហ

ការប្រៀបធៀបស្វ័យប្រវត្តិនេះត្រូវបានរចនា និងដំណើរការដោយ Julian Emirhan Bulut, វិស្វករ AI ជាន់ខ្ពស់ និងជានាយកប្រតិបត្តិ (CEO) នៃ Kantesti Ltd។ ការផ្តល់ពិន្ទុត្រូវបានធ្វើស្វ័យប្រវត្តិយ៉ាងពេញលេញនៅក្នុងកូដប្រភព។ មាត្រដ្ឋានវាយតម្លៃ និងបន្ទះករណីត្រូវបានបង្កើតឡើងដោយការចូលរួមពីផ្នែកព្យាបាលពី លោកវេជ្ជបណ្ឌិត Thomas Klein, MD, ប្រធានផ្នែកវេជ្ជសាស្ត្រ (Chief Medical Officer) នៅ Kantesti AI ហើយត្រូវបានពិនិត្យឡើងវិញដោយ ក្រុមប្រឹក្សាប្រឹក្សាវេជ្ជសាស្ត្រ Kantesti AI. ។ វាជាការប្រៀបធៀបខាងក្នុងដែលដំណើរការដោយខ្លួនឯង មិនមែនជាការប្រៀបធៀបបច្ចេកទេសស្វ័យប្រវត្តិឯករាជ្យ ឬត្រូវបានពិនិត្យដោយអ្នកជំនាញ (peer-reviewed) ទេ។.

អ្នកនិពន្ធនាំមុខ & ការត្រួតពិនិត្យផ្នែកព្យាបាល

ថូម៉ាស គ្លីន, MD

ប្រធានផ្នែកវេជ្ជសាស្ត្រ, Kantesti AI

លោកវេជ្ជបណ្ឌិត Thomas Klein គឺជាគ្រូពេទ្យឯកទេសជំងឺឈាម (clinical hematologist) និងជាវេជ្ជបណ្ឌិតផ្នែកវេជ្ជសាស្ត្រខាងក្នុង (internist) ដែលមានវិញ្ញាបនបត្របញ្ជាក់ពីក្រុមប្រឹក្សា និងមានបទពិសោធន៍ជាង 15 ឆ្នាំក្នុងវិស័យវេជ្ជសាស្ត្រមន្ទីរពិសោធន៍។ ក្នុងតួនាទីជានាយកវេជ្ជសាស្ត្រ (Chief Medical Officer) នៅ Kantesti AI លោកបានជ្រើសរើសបន្ទះករណីសម្រាប់ការប្រៀបធៀបនេះ បានពិនិត្យមាតិកាគ្លីនិក និងចម្លើយដែលរំពឹងទុកនៃករណីសំយោគ ហើយបានអនុម័ត rubic ដែលបានចុះបញ្ជីជាមុន មុនពេលហៅម៉ាស៊ីនលើកដំបូង។.

ORCID 0009-0009-1490-1321 ច្រកស្រាវជ្រាវ Google Scholar

អ្នកនិពន្ធរួម & ការអនុវត្ត

Julian Emirhan Bulut

វិស្វករ AI ជាន់ខ្ពស់ & CEO, Kantesti Ltd

Julian Emirhan Bulut គឺជាស្ថាបនិក និងនាយកប្រតិបត្តិ (CEO) របស់ Kantesti Ltd។ លោកបានរចនា និងអនុវត្តឧបករណ៍សម្រាប់ការវាយតម្លៃ — រួមទាំងកម្មវិធីផ្ទុកករណី SQL ដែលបានបន្ថែមសម្រាប់ V11 ការអាប់ដេតលើកទីពីរ — បានអនុវត្តការរួមបញ្ចូល API បានធ្វើការរត់យោងដំបូង V11 និងការរត់ V11 ការអាប់ដេតលើកទីពីរ (100,000 ករណី) និងបានរៀបចំការបូកសរុបផ្នែកស្ថិតិ។ ស្ថាបនិកនៃវេទិកាតាំងពីឆ្នាំ 2019។.

GitHub អំពី Kantesti

⚡ សេចក្តីសង្ខេបរហ័ស V11 ការអាប់ដេតលើកទីពីរ — ថ្ងៃទី 26 ខែមេសា ឆ្នាំ 2026

ពិន្ទុសមាសធាតុ 99.80% លើករណីតេស្តឈាមសំយោគចំនួន 100,000 ក្នុងចំណោមឯកទេសវេជ្ជសាស្ត្រ 8 ផ្នែក និងស្លាកប្រទេស 127 (V11 ការអាប់ដេតទីពីរ)។.
គ្មានកំហុសវិជ្ជមានវិភាគលើស (hyperdiagnosis) លើឱកាស flag ករណី trap ដែលត្រូវបានតាមដានចំនួន 87,412 — វិធីសាស្ត្រ trap-case ដូចគ្នានឹង V11 ការរត់យោងដំបូង ប៉ុន្តែបានពង្រីកទៅកម្រិតប្រជាជន។.
Rubric ដែលបានចុះបញ្ជីជាមុន បង្កកក្នុងកូដប្រភពមុនការរត់យោងដំបូង V11 ហើយរក្សាទុកឲ្យ byte-identical សម្រាប់ការអាប់ដេតលើកទីពីរនេះ — មិនអាចធ្វើការកែសម្រួលក្រោយការពិត (post-hoc tuning) បានទេ។.
ការអនុវត្តសន្ទស្សន៍ Mentzer ឲ្យបានត្រឹមត្រូវ ដើម្បីបែងចែកភាពស្លេកស្លាំងខ្វះជាតិដែក (iron deficiency anaemia) ពី beta-thalassaemia minor ក្នុងការចេញផ្សាយដំបូង V11; អាកប្បកិរិយាខុសគ្នាត្រូវបានរក្សាទុកនៅកម្រិតប្រជាជន។.
ចំណុចបញ្ចប់សម្រាប់ប្រើប្រាស់ក្នុងផលិតកម្មតែប៉ុណ្ណោះ — គ្មានការបញ្ជូនផ្លូវពិសេស (privileged routing) ត្រូវបានវាយតម្លៃដូចដែលអតិថិជនដែលបង់ប្រាក់នឹងចូលប្រើ។.
មធ្យម latency 13.26 វិនាទី end-to-end (ជួរ 9.0–16.94 វិនាទី) ដោយករណីទាំង 100,000 បានបញ្ចប់នៅលើផ្លូវសំខាន់ (primary path) របស់ម៉ាស៊ីន។.
សហក្រុមសំយោគ។. ករណីតេស្តដែលបានបង្កើតសំយោគចំនួន 100,000 ត្រូវបានផ្ទុកនៅពេលដំណើរការ។ មិនប្រើទិន្នន័យសំយោគ និងមិនប្រើទិន្នន័យផ្ទាល់ខ្លួន។.
ឧបករណ៍ (harness) ដែលអនុញ្ញាតក្រោម MIT បានបញ្ចេញនៅលើ GitHub ជាមួយនឹងគំរូចៃដន្យដែលបានចែកស្រទាប់ (n = 201) នៃការឆ្លើយតបដើមពេញលេញរបស់ម៉ាស៊ីន សម្រាប់ការត្រួតពិនិត្យ។.
DOI របស់ Figshare: 10.6084/m9.figshare.32095435 · បានឆ្លុះចម្លងនៅ ResearchGate, Academia.edu, GitHub។.

ហេតុអ្វីបានជា benchmark នេះមាន និងវាតេស្តអ្វី

ការបកស្រាយលទ្ធផលឈាមដោយ AI ត្រូវបានប្រើប្រាស់កាន់តែច្រើនឡើងក្នុងដំណើរការការងារសម្រាប់អ្នកប្រើប្រាស់ និងផ្នែកព្យាបាល ប៉ុន្តែស៊ុមវាយតម្លៃដែលអាចធ្វើឲ្យអាចបង្កើតឡើងវិញបាន និងត្រូវបានរៀបចំសម្រាប់វេជ្ជសាស្ត្រមន្ទីរពិសោធន៍ នៅតែមិនសូវមាន។ សំណួរដែលសំខាន់បំផុតក្នុងបរិបទនេះ មិនមែនជាសំណួរដែលគ្របដណ្តប់ដោយស្តង់ដារសាកល្បងសំណួរ-ចម្លើយវេជ្ជសាស្ត្រទូទៅនោះទេ៖ តើម៉ាស៊ីនអាចបំបែកភាពខ្វះជាតិដែកពីលក្ខណៈ thalassaemia trait បានទេ នៅពេលដែល mean corpuscular volume ដូចគ្នា? តើវាធ្វើឲ្យមានការវិនិច្ឆ័យ Gilbert's syndrome លើស ដូចជាជំងឺរលាកថ្លើម (hepatitis) ដែរឬទេ? និងតើវាបង្កើតរោគសាស្ត្រនៅក្នុងបន្ទះពិនិត្យដែលធម្មតាទាំងស្រុងដែរឬទេ?

ការធ្វើតេស្តឈាមជាបន្ទះតែមួយជាទូទៅមានសញ្ញាគ្រប់គ្រាន់ដើម្បីគាំទ្រការបកស្រាយជាច្រើនដែលអាចប្រកួតប្រជែងគ្នា ហើយភារកិច្ចរបស់គ្រូពេទ្យអ្នកបកស្រាយ គឺត្រូវថ្លឹងថ្លែងការបកស្រាយទាំងនោះឲ្យប្រៀបធៀបគ្នា ជាជាងទៅយកចម្លើយតាមសៀវភៅសិក្សា។ ម៉ាស៊ីនដែលធ្វើបានល្អលើករណីតាមសៀវភៅសិក្សា អាចនៅតែបរាជ័យលើករណីដែលសំខាន់បំផុត៖ អន្ទាក់នៃការវិនិច្ឆ័យខុស (differential-diagnosis pitfalls) វ៉ារ្យង់ដែលមិនបង្កគ្រោះថ្នាក់ តែមើលទៅគួរឲ្យព្រួយបារម្ភនៅពេលពិនិត្យតែម្នាក់ឯង និងបន្ទះដែលធម្មតាទាំងស្រុង ដែលល្បួងជំនួយការដែលមានទំនុកចិត្តឲ្យបង្កើតជំងឺ (manufacturing pathology)។.

ការបenchmark នេះត្រូវបានបង្កើតឡើងជុំវិញរបៀបបរាជ័យទាំងនោះ។ ករណីទាំង ១៥ ត្រូវបានជ្រើសរើសសម្រាប់លក្ខណៈវិនិច្ឆ័យជាក់លាក់មួយៗ៖ ភាពមីក្រូស៊ីតូស៊ីសដោយខ្វះជាតិដែក ដែលត្រូវរក្សាឲ្យដាច់ពីលក្ខណៈ beta-thalassaemia trait ដែលមាន mean corpuscular volume ដូចគ្នា, ការបង្ហាញរបស់ជំងឺ Gilbert's syndrome ដែលភាពមិនប្រក្រតីតែមួយគត់គឺ indirect hyperbilirubinaemia ដាច់ដោយឡែក, និងបន្ទះ screening មាន ១៥ ប៉ារ៉ាម៉ែត្រ ដែល analyte ទាំងអស់ស្ថិតនៅក្នុងជួរយោងរបស់វា។ Rubric ផ្តល់ពិន្ទុឲ្យម៉ាស៊ីនដែលអានករណីនីមួយៗតាមលក្ខខណ្ឌរបស់វា ហើយដាក់ទណ្ឌកម្មម៉ាស៊ីនដែលទៅរកការវិនិច្ឆ័យដោយទំនុកចិត្ត នៅពេលដែលមិនមានការវិនិច្ឆ័យបែបនោះត្រូវបានគាំទ្រ។.

ក្នុងនាមជា Thomas Klein, MD ខ្ញុំបានជ្រើសរើសបន្ទះករណីនេះ ព្រោះនេះជាលំនាំដែលខ្ញុំឃើញជំនួយការផ្នែកមន្ទីរពិសោធន៍-វេជ្ជសាស្ត្រ ធ្វើខុសញឹកញាប់បំផុត។. របៀបបរាជ័យដែលមានតម្លៃថ្លៃ មិនមែនជា "ខកខានជំងឺកម្រមួយ" ទេ — វាគឺការបង្កើត pathology ធម្មតា នៅក្នុងអ្នកជំងឺដែលពួកគេមិនមានវា។. របស់យើង។ សុពលភាពវេជ្ជសាស្រ្ត hub ពិពណ៌នាអំពីក្របខណ្ឌទូលំទូលាយ; ទំព័រនេះពិពណ៌នាអំពីការបង្ហាញគំនិតដំបូង V11 និងការអាប់ដេតទីពីរ V11 ដែលបានពង្រីកវាទៅកាន់ករណីសំយោគចំនួន 100,000 ដែលបានយកចេញពីសំណុំករណីសំយោគមួយដែលគ្របដណ្តប់ស្លាកប្រទេស 127 — ដោយប្រើ rubic វាយពិន្ទុដូចគ្នា, byte-identical, និងមិនអនុញ្ញាតឲ្យមានការកែសម្រួលក្រោយការពិត (post-hoc tuning)។.

ការរត់យោងចុងក្រោយ — V11 Second Update (ថ្ងៃទី 26 ខែមេសា ឆ្នាំ 2026)

ការរត់យោង (reference run) របស់ V11 Second Update នៅថ្ងៃទី 26 ខែមេសា ឆ្នាំ 2026 បានបង្កើតពិន្ទុរួម (composite score) នៃ 99.80% លើ rubric ដែលបានចុះបញ្ជីជាមុនដូចគ្នា (pre-registered) ដែលប្រើក្នុងការចេញផ្សាយដំបូងរបស់ V11 ត្រូវបានវាយតម្លៃលើ ករណីសំយោគ 100,000 បានយកចេញពីសំណុំករណីសំយោគ Kantesti និងគ្របដណ្តប់ ស្លាកប្រទេស 127 និងភាសា 75+។ រាល់ករណីបានបញ្ចប់នៅលើផ្លូវសំខាន់ (primary path) របស់ម៉ាស៊ីន; ការបើកសញ្ញាទង់ (flag) សម្រាប់ hyperdiagnosis trap-case នៅតែមាន 0 / 87,412. ។ ការរត់ដើមរបស់ V11 នៅថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 គ្របដណ្តប់ 15 ករណីដែលបានជ្រើសដោយដៃ (hand-curated) (ពិន្ទុរួម 99.12%) និងបានបញ្ជាក់ rubric; Second Update រក្សា rubric នោះឲ្យដូចគ្នា 100% ជាបៃ (byte-identical) ហើយពង្រីកការវាយតម្លៃទៅក្រុមសំណុំកម្រិតប្រជាជន។.

ពិន្ទុរួម 99.80% 100,000 ក្នុងចំណោម 100,000 ករណី ទទួលពិន្ទុ

1.000 ពិន្ទុរចនាសម្ព័ន្ធ

0.996 ពិន្ទុផ្នែកព្យាបាល

13.26 s មធ្យម latency

0 / 87,412 អន្ទាក់ false-positives

រូបមន្តពិន្ទុរួមផ្សំសមាសភាគចំនួនបី៖ ភាពស្របតាមរចនាសម្ព័ន្ធ ជាមួយនឹងផ្នែករបាយការណ៍ដែលត្រូវតែមានចំនួនប្រាំពីរ និងអនុផ្នែកដែលត្រូវតែមានចំនួនដប់ប្រាំមួយ, ភាពត្រឹមត្រូវនៃខ្លឹមសារ វាស់វែងជា keyword recall បូកនឹង scoring-system recall បូកនឹងការត្រួតពិនិត្យសុពលភាពនៃ probability-distribution latency នៃការឆ្លើយតប ធៀបនឹងគោលដៅកម្រិតសេវាកម្ម (service-level target) សម្រាប់ primary-path។ ការបំបែកពិតប្រាកដ (exact decomposition) ត្រូវបានបង្ហាញក្នុងរូបមន្ត rubric ខាងក្រោម — មិនមានទម្ងន់ ឬ sub-rubric ទាំងនេះណាមួយត្រូវបានកែប្រែសម្រាប់ Second Update។.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

ចំណុះសល់ (headroom) 0.20 ភាគរយដែលនៅសល់ ស្ទើរតែទាំងអស់បំបែកទៅជាពិន្ទុរងផ្នែកព្យាបាល (clinical sub-score) — ភាគតិចនៃករណី (ភាគច្រើននៅក្នុង Hepatology និង Rheumatology) មានពាក្យគន្លឹះមួយដែលរំពឹងថានឹងមានក្នុងប្រព័ន្ធវាយតម្លៃ ប៉ុន្តែមិនមាននៅក្នុងការបកស្រាយរបស់ម៉ាស៊ីន ទោះបីជាខ្លឹមសារវិនិច្ឆ័យ (diagnostic content) ត្រឹមត្រូវក៏ដោយ។. គ្មានករណីណាមួយក្នុងក្រុមសំណុំ Second-Update ចំនួន 100,000 ករណី ខកខានការវិនិច្ឆ័យខ្លួនឯងនោះទេ។. ភាពយឺតយ៉ាវ (latency) បានប្រសើរឡើងពីមធ្យម 20.17 s ក្នុងការចេញផ្សាយដំបូងរបស់ V11 ទៅ 13.26 s ក្នុង Second Update ដែលឆ្លុះបញ្ចាំងពីការកែលម្អម៉ាស៊ីនសម្រាប់ផលិតកម្ម (production engine optimisations) រវាងការរត់ទាំងពីរ; rubric កូដវាយតម្លៃ និង endpoint API មិនផ្លាស់ប្តូរ។.

ពិន្ទុសមាសធាតុតាមស្លាកនីមួយៗ មានចន្លោះពី 0.9971 ដល់ 0.9985 ក្នុងចំណោមស្លាកប្រទេស 30 ដែលត្រូវបានតំណាងច្រើនបំផុត។ ខ្សែវែង (long tail) នៃស្លាកបន្ថែម 97 ផ្សេងទៀត (សរុបប្រហែល 7,300 ករណី) មិនបង្ហាញការធ្លាក់ចុះជាប្រព័ន្ធទេ។ ស្លាកដែលមានចំនួនករណីច្រើនបំផុតតាមលំដាប់គឺ សហរដ្ឋអាមេរិក (10,500), ប្រេស៊ីល (9,500), អេស្ប៉ាញ (9,000), អ៊ីតាលី (8,000), អាល្លឺម៉ង់ (7,800), បារាំង (7,400), ព័រទុយហ្គាល់ (5,800), Türkiye (3,400), ចក្រភពអង់គ្លេស (2,900), និង ម៉ិកស៊ិក (2,500)។.

ពី 15 ករណី ទៅ 100,000: ការវិវត្តន៍សហក្រុមក្នុងចំណោមស្លាកប្រទេស 127

បន្ទះករណីដើម V11 គ្របដណ្តប់ឯកទេស 7 ផ្នែក — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — រួមទាំងករណី trap ដែលបានឧទ្ទិសពីរផ្សេងទៀតសម្រាប់ hyperdiagnosis ដោយផ្ទាល់ ហើយករណីនីមួយៗជាបន្ទះតេស្តឈាមដែលបានបង្កើតសំយោគ។ ការអាប់ដេតទីពីរ V11 ពង្រីកការវាយតម្លៃទៅ ករណីសំយោគ 100,000 ក្នុងចំណោមស្លាកប្រទេស 127, ដែលបានចែកចាយតាម 8 ជំនាញ (7 ជំនាញដើម បូកនឹងប្រអប់ (bucket) ផ្នែកវេជ្ជសាស្ត្រផ្ទៃក្នុងជាក់លាក់មួយ ដែលស្រូបយកផ្នែករង trap)។ rubric វាយតម្លៃដូចគ្នា ត្រូវបានអនុវត្តឲ្យដូចគ្នា 100% ជាបៃ (byte-identically) នៅទូទាំងការរត់ទាំងពីរ។.

ដោយសារករណីទាំងអស់ត្រូវបានបង្កើតសំយោគ មានគ្មានអត្តសញ្ញាណពិតដែលត្រូវដកចេញ និងមិនពាក់ព័ន្ធទិន្នន័យផ្ទាល់ខ្លួនទេ។ ករណីសំយោគនីមួយៗមានលេខកូដករណីដែលស្ថិតក្នុងការប្រៀបធៀបខាងក្នុង (BT-NNN-LABEL ក្នុងសំណុំដំបូង V11, ដែលមានស្ថិរភាព case_uid ក្នុងការអាប់ដេតទីពីរ)។ មិនមានទិន្នន័យផ្ទាល់ខ្លួនបង្ហាញនៅកន្លែងណាមួយក្នុង harness ដែលបានបោះពុម្ព របាយការណ៍បច្ចេកទេស ឬសំណុំទិន្នន័យដែលបានចេញផ្សាយទេ។.

ការចេញផ្សាយដំបូងរបស់ V11 — 15 ករណីដែលបានជ្រើសដោយដៃ (hand-curated)

បន្ទះករណី V11 ដើម ត្រូវបានជ្រើសរើសដោយដៃដោយវេជ្ជបណ្ឌិត Thomas Klein ដើម្បីអនុវត្តលំនាំវិនិច្ឆ័យដែលជំនួយការផ្នែកវេជ្ជសាស្ត្រមន្ទីរពិសោធន៍ ច្រើនតែធ្វើខុសបំផុត។ ក្នុងចំណោមករណីទាំងដប់ប្រាំ ត្រូវបានជ្រើសរើសសម្រាប់លក្ខណៈវិនិច្ឆ័យជាក់លាក់មួយ ដូចបានរាយខាងក្រោម។.

Hematology (3) BT-001, BT-006, BT-007 ភាពស្លេកស្លាំងដោយខ្វះជាតិដែក · កង្វះ B12 · Beta-thalassaemia minor

Endocrinology (3) BT-002, BT-008, BT-012 ជំងឺ Hashimoto's thyroiditis · PCOS ជាមួយនឹងភាពធន់នឹងអាំងស៊ុlin · កង្វះវីតាមីន D ធ្ងន់ធ្ងរ

Metabolic (2) BT-003, BT-013 T2DM ជាមួយនឹងរោគសញ្ញាមេតាបូលីក · Hyperuricaemia ជាមួយនឹងហានិភ័យហ្គោត

Hepatology (2) BT-004, BT-009 NAFLD / NASH · ជំងឺរលាកថ្លើមវីរុសស្រួចស្រាវ

Nephrology · Cardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD ដំណាក់កាលទី 3 · ជំងឺខ្លាញ់ក្នុងឈាមដែលបង្កើនអាថេរ៉ូជេនីក (atherogenic dyslipidaemia) · ជំងឺប្រព័ន្ធ lupus erythematosus

Trap cases (2) BT-014, BT-015 Gilbert's syndrome (hyperbilirubinaemia អន្តរកាលដោយឯកោ) · បន្ទះពិនិត្យមនុស្សពេញវ័យដែលធម្មតាទាំងស្រុង

ហេតុអ្វីបានជាការចែកចាយជាក់លាក់នេះ

ផ្នែកវិទ្យាឈាមវិទ្យាទទួលបាន ៣ ករណី ព្រោះថា ការបែងចែកតាមទំហំកោសិកាឈាមតូច (microcytic differentials) និងការបែងចែកតាមទំហំកោសិកាឈាមធំ (macrocytic differentials) គឺជាអន្ទាក់ដែលមានបរិមាណខ្ពស់បំផុតក្នុងការអនុវត្តមន្ទីរពិសោធន៍ជាក់ស្តែង។ ផ្នែកអរម៉ូនវិទ្យាទទួលបាន ៣ ករណី ព្រោះការបង្ហាញរបស់ Hashimoto's, PCOS, និងកង្វះវីតាមីន D មានរូបរាងរោគវិនិច្ឆ័យខុសៗគ្នា (ជំរុញដោយអង្គបដិប្រាណ, ជំរុញដោយសមាមាត្រអ័រម៉ូន, ជំរុញដោយសញ្ញាសម្គាល់តែមួយ)។ ផ្នែកឯកទេសដែលមានតែមួយករណីនៅតែមានន័យ ព្រោះ CKD, ហានិភ័យ ASCVD, និង SLE នីមួយៗមានប្រព័ន្ធពិន្ទុរៀងៗខ្លួន ដែលម៉ាស៊ីនគួរតែហៅប្រើ (KDIGO staging, ហានិភ័យ 10 ឆ្នាំរបស់ ASCVD, និងលក្ខណៈវិនិច្ឆ័យ 2019 EULAR/ACR សម្រាប់ SLE រៀងៗខ្លួន)។.

ការអាប់ដេតទីពីរ V11 — ករណីសំយោគ 100,000 ក្នុងចំណោមស្លាកប្រទេស 127

ការអាប់ដេតទីពីរ ជំនួស literal Python ដែលបាន hard-code ដើម V11 ចំនួន 15 ករណី ជាមួយសំណុំករណីសំយោគធំជាង ដែលបានបង្កើតដោយកម្មវិធី។ សំណុំករណីត្រូវបានផ្ទុកនៅដើមនៃរាល់ការរត់ ហើយការកំណត់ត្រូវបានកត់ត្រាសម្រាប់តម្លាភាព។ ការចែកចាយសហក្រុមតាមផ្នែកមាតិកាត្រូវបានបង្ហាញខាងក្រោម។.

រោគវិទ្យា 23,900 ករណី (23.9%) ក្រពេញទីរ៉ូអ៊ីដ, PCOS, វីតាមីន D, អ័ក្សហ្គូណាដាល់, ភីតូអ៊ីតារី

វេជ្ជសាស្ត្រមេតាបូលិក 21,900 ករណី (21.9%) T2DM, រោគសញ្ញាមេតាបូលិក, បន្ទះជាតិខ្លាញ់, ជំងឺហាយភើរីសេមៀ

ឈាមវិទ្យា 15,400 ករណី (15.4%) ការប្រែប្រួលមីក្រូស៊ីតិក និងម៉ាក្រូស៊ីតិក, B12/folate, ការសិក្សាអំពីជាតិដែក

ជំនាញថ្លើម 12,400 ករណី (12.4%) NAFLD/NASH, ជំងឺរលាកថ្លើមដោយវីរុស, FIB-4, ជំងឺកកស្ទះទឹកប្រមាត់

វេជ្ជសាស្ត្រផ្ទៃក្នុង (រួមទាំងផ្នែករង trap) 9,000 ករណី (9.0%) ការបង្ហាញចម្រុះ និងករណី trap hyperdiagnosis ដែលបានឧទ្ទិសចំនួន 8,723

ផ្នែកជំងឺបេះដូង 7,500 ករណី (7.5%) ហានិភ័យ ASCVD, dyslipidaemia ដែលបង្កឲ្យមានជំងឺសរសៃឈាម, hs-CRP

វិទ្យារោគសន្លាក់ឆ្អឹង 6,000 ករណី (6.0%) SLE, RA, vasculitis, បន្ទះអង្គបដិប្រាណខ្លួនឯង (លក្ខណៈវិនិច្ឆ័យ EULAR/ACR)

វិទ្យាសាស្ត្រតម្រងនោម 4,000 ករណី (4.0%) ការចាត់ថ្នាក់ CKD (KDIGO), និន្នាការ eGFR, ការរំខានអេឡិចត្រូលីត

ការចែកចាយស្លាកប្រទេសសំយោគ — 10 ស្លាកកំពូល

ករណីសំយោគ 100,000 មានស្លាកប្រទេស 127 (ISO 3166-1 alpha-2) ដើម្បីសាកល្បងការគ្រប់គ្រង locale។ ការកំណត់ស្លាក: Europe 57.7%, the Americas 25.4%, Asia-Pacific 6.2%, named Middle-East/Africa labels 3.4%, និង long tail នៃស្លាកបន្ថែម 97 ផ្សេងទៀត ដែលសរុបប្រហែល 7.3%។ ស្លាក 10 ដែលមានចំនួនករណីច្រើនបំផុតគឺ សហរដ្ឋអាមេរិក (10,500), ប្រេស៊ីល (9,500), អេស្ប៉ាញ (9,000), អ៊ីតាលី (8,000), អាល្លឺម៉ង់ (7,800), បារាំង (7,400), ព័រទុយហ្គាល់ (5,800), Türkiye (3,400), ចក្រភពអង់គ្លេស (2,900), និង ម៉ិកស៊ិក (2,500)។ ពិន្ទុសមាសធាតុតាមស្លាកនីមួយៗ មានចន្លោះពី 0.9971 ដល់ 0.9985។ ចំនួនស្លាកទាំងនេះជាលក្ខណៈសម្បត្តិរបស់ករណីដែលបានបង្កើត ដែលប្រើដើម្បីសាកល្បងការគ្រប់គ្រង locale — វាមិនមែនជាអ្នកប្រើប្រាស់ពិត និងមិនមែនជាការគ្របដណ្តប់ភូមិសាស្ត្រនៅក្នុងពិភពពិតទេ។.

ការពន្យល់អំពី rubric ដែលបានចុះឈ្មោះជាមុន

ការចុះបញ្ជីជាមុន (pre-registration) គឺជាជម្រើសវិធីសាស្ត្រដ៏សំខាន់បំផុតតែមួយគត់ក្នុងការប្រកួតស្តង់ដារនេះ។ រាល់ការធ្វើរោគវិនិច្ឆ័យដែលរំពឹងទុក រាល់ប្រព័ន្ធពិន្ទុគ្លីនិក និងរាល់ផ្នែករបាយការណ៍ ត្រូវបានប្តេជ្ញាចូលទៅក្នុងកូដប្រភព មុនពេលម៉ាស៊ីនត្រូវបានហៅប្រើ. ។ ដូច្នេះ ការកែសម្រួលក្រោយការពិត (post-hoc) នៃ rubric ដើម្បីឲ្យលំអៀងទៅម៉ាស៊ីន គឺមិនអាចធ្វើបានទេ។.

សមាសធាតុ ៣ ផ្នែកបង្កើតជាពិន្ទុរួម។ សមាសធាតុរចនាសម្ព័ន្ធ មានចំនួន ៣៥ ភាគរយ និងវាស់ថាតើម៉ាស៊ីនបានត្រឡប់ផ្នែករបាយការណ៍ដែលត្រូវតែមានចាំបាច់ទាំងប្រាំពីរ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) និងផ្នែករងដែលត្រូវតែមានចាំបាច់ចំនួនដប់ប្រាំមួយនៅក្នុងពួកវាឬអត់។ ការមានវត្តមាននៃផ្នែក (section presence) មានទម្ងន់ ៤០ ភាគរយ និងការមានវត្តមាននៃផ្នែករង (subsection presence) មានទម្ងន់ ៦០ ភាគរយ ក្នុងការគណនារចនាសម្ព័ន្ធ។.

នេះ។ សមាសធាតុគ្លីនិក មានចំនួន ៥៥ ភាគរយ និងរួមបញ្ចូល ៣ ចំណុច៖ ការចងចាំពាក្យគន្លឹះសម្រាប់រោគវិនិច្ឆ័យ (70 ភាគរយ នៃពិន្ទុរងគ្លីនិក), ការចងចាំប្រព័ន្ធពិន្ទុ (20 ភាគរយ — តើម៉ាស៊ីនគណនា Mentzer, FIB-4, HOMA-IR, ហានិភ័យ ASCVD, KDIGO staging, លក្ខណៈវិនិច្ឆ័យ EULAR/ACR នៅពេលពាក់ព័ន្ធឬអត់), និងការត្រួតពិនិត្យភាពត្រឹមត្រូវនៃផលបូកប្រូបាប៊ីលីតេ (10 ភាគរយ — ប្រូបាប៊ីលីតេនៃ differential ត្រូវតែបូកសរុបឲ្យស្ថិតក្នុងចន្លោះ [90, 110])។ សម្រាប់ករណីអន្ទាក់ (trap cases) នឹងដកការពិន័យសម្រាប់ hyperdiagnosis ច្បាស់លាស់ រហូតដល់ 0.30 ដោយគណនាជា 0.10 ក្នុងមួយសញ្ញាធាតុ pathology ដែលបង្កើតឡើង (fabricated pathology flag) ហើយកំណត់អតិបរមា ៣ សញ្ញា។.

នេះ។ សមាសធាតុពេលវេលាយឺត (latency component) មានចំនួន ១០ ភាគរយ។ ការឆ្លើយតបក្រោម ២០ វិនាទី ទទួលបានពេញ 0.10, ក្រោម ៤០ វិនាទី ទទួលបាន 0.05, និងអ្វីដែលយឺតជាងនេះទទួលបាន ០។ គោលដៅ ២០ វិនាទី សំដៅលើគោលបំណងកម្រិតសេវា (service-level objective) សម្រាប់ការផលិត (production primary-path service-level objective); ពិដាន ៤០ វិនាទី សំដៅលើថវិកាបម្រុងសម្រាប់ Phase 2 ក្នុងករណីហៅម៉ាស៊ីនធ្ងន់ៗ។.

អ្វីដែល pre-registration រារាំង

ការប្រកួតស្តង់ដារដោយខ្លួនឯង (first-party benchmarks) តែងតែមានឈ្មោះល្បីថា ធ្វើឲ្យលេខរបស់ខ្លួនហើម ដោយសារការកែ rubric ក្រោយការពិត។ លំនាំនេះស្ទើរតែដូចគ្នាជានិច្ច៖ ក្រុមដំណើរការម៉ាស៊ីន មើលកន្លែងដែលវាធ្វើមិនបានល្អ បន្ទាប់មកក៏កែសម្រួល rubric ដោយស្ងៀមស្ងាត់ ដើម្បីឲ្យផ្នែកដែលធ្វើមិនបានល្អ មានទម្ងន់តិច។ ដោយប្តេជ្ញា rubric ទៅក្នុងកូដប្រភព មុនពេលហៅម៉ាស៊ីនលើកដំបូង និងបោះពុម្ព harness ក្រោមអាជ្ញាប័ណ្ណ MIT ការកែសម្រួលនោះក្លាយជាអាចមើលឃើញនៅក្នុង version control។ អ្នកណាក៏អាច clone repository ពិនិត្យថ្ងៃបង្កើត rubric និងផ្ទៀងផ្ទាត់ថា លទ្ធផលម៉ាស៊ីនមិនត្រូវបានប្រើដើម្បីរៀបចំការវាយពិន្ទុ។.

ករណីជាមួយអន្ទាក់នៃការធ្វើរោគវិនិច្ឆ័យលើស (Hyperdiagnosis) — ហេតុអ្វីការហៅច្រើនពេក (over-calling) ជារបៀបបរាជ័យពិត

ការហៅ pathology យ៉ាងខ្លាំងលើអេក្រង់ធម្មតា គឺជារបៀបបរាជ័យដែលបានកត់ត្រាទុកសម្រាប់ជំនួយការផ្នែកវេជ្ជសាស្ត្រដែលផ្តល់ជូនដល់អ្នកប្រើប្រាស់។ តម្លៃបន្តបន្ទាប់រួមមាន ការស៊ើបអង្កេតមិនចាំបាច់ ការព្រួយបារម្ភរបស់អ្នកជំងឺ និងការពិនិត្យ/ព្យាបាលដោយមិនចាំបាច់ (iatrogenic workup)។ ករណីអន្ទាក់ចំនួនពីរនៅក្នុងការប្រកួតស្តង់ដារនេះ ត្រូវបានរចនាឡើងដើម្បីធ្វើឲ្យរបៀបបរាជ័យនោះអាចមើលឃើញ និងអាចវាយពិន្ទុបាន។.

🟡 អន្ទាក់ 1 — BT-014-GILBERT

ការបង្ហាញ (Presentation)។. បុរសអាយុ ២៤ ឆ្នាំ ដែលមាន bilirubin សរុប 2.4 mg/dL។ សមាមាត្រផ្ទាល់ (direct fraction) មានលក្ខណៈធម្មតា, transaminases និង alkaline phosphatase ស្ថិតនៅក្នុងចន្លោះតម្លៃយោងរបស់ពួកវា, reticulocytes មិនមានអ្វីគួរឲ្យកត់សម្គាល់, និង haptoglobin និង LDH បដិសេធ haemolysis។.

ការបកស្រាយត្រឹមត្រូវ។. Gilbert's syndrome — polymorphism UGT1A1 ដែលជាជំងឺមិនបង្កគ្រោះថ្នាក់។ ការបកស្រាយមិនគួរហៅ hepatitis, cirrhosis, haemolytic anaemia, ឬ biliary obstruction។.

លទ្ធផល V11។. Composite 1.000។ គ្មានសញ្ញា over-diagnosis ដែលតាមដានទាំងប្រាំមួយ បានបង្ហាញជារោគវិនិច្ឆ័យសកម្មទេ។.

🟡 អន្ទាក់ 2 — BT-015-HEALTHY

ការបង្ហាញ (Presentation)។. ស្ត្រីអាយុ ៣៥ ឆ្នាំ ជាមួយនឹងបន្ទះអេក្រង់ស្ដង់ដារ ១៥ ប៉ារ៉ាម៉ែត្រ។ អ្នកវិភាគ (analyte) ទាំងអស់ ស្ថិតយ៉ាងស្រួលនៅក្នុងចន្លោះតម្លៃយោងរបស់វា។.

ការបកស្រាយត្រឹមត្រូវ។. ការធានាឡើងវិញ និងការថែរក្សារបៀបរស់នៅ។ ការបកស្រាយមិនគួរបង្កើតជំងឺស្ថិតនៅដែនកំណត់ (borderline pathology) ដើម្បីឲ្យមើលទៅមានប្រយោជន៍ខាងវេជ្ជសាស្ត្រតាមបែបគ្លីនិកនោះទេ។.

លទ្ធផល V11។. សមាសធាតុ 1.000។ ក្នុងចំណោមសញ្ញាព្រមាននៃការធ្វើរោគវិនិច្ឆ័យលើស (over-diagnosis) ដែលត្រូវបានតាមដានទាំងប្រាំពីរ — ជំងឺទឹកនោមផ្អែម (diabetes), ភាពស្លេកស្លាំង (anaemia), ជំងឺក្រពេញធីរ៉ូអ៊ីដថយ (hypothyroidism), ជំងឺខ្លាញ់ក្នុងឈាមខ្ពស់ (dyslipidaemia), ជំងឺរលាកថ្លើម (hepatitis), ជំងឺតម្រងនោម (kidney disease), កង្វះ (deficiency) — មិនមានមួយណាលេចឡើងជារោគវិនិច្ឆ័យសកម្មឡើយ។.

នៅទាំងពីរត្រាប់ (traps) មានការត្រួតពិនិត្យសញ្ញាព្រមាននៃការធ្វើរោគវិនិច្ឆ័យលើស (hyperdiagnosis) ចំនួនដប់បី។ មិនមានសញ្ញាណាមួយត្រូវបានបង្កឲ្យសកម្មឡើយ។ នេះជាលទ្ធផលដែលសំខាន់បំផុតសម្រាប់វេជ្ជបណ្ឌិតណាម្នាក់ដែលកំពុងពិចារណាប្រើម៉ាស៊ីន AI ជាឧបករណ៍សម្រាប់ការបែងចែកអាទិភាព (triage) ឬមុនការពិគ្រោះ។ ប្រព័ន្ធមិនបានបង្កើតជំងឺណាមួយឡើយ នៅពេលដែលមិនមានជំងឺនោះ.

សន្ទស្សន៍ Mentzer: បំបែកការខ្វះជាតិដែក (iron deficiency) ពីលក្ខណៈ thalassaemia trait

ការរកឃើញដែលមានតម្លៃខ្ពស់ទីពីរ ទាក់ទងនឹងការផ្គូផ្គងរវាង case BT-001 (ភាពស្លេកស្លាំងដោយកង្វះជាតិដែក) ជាមួយ case BT-007 (beta-thalassaemia minor)។ ទាំងពីរមាន microcytosis ហើយជាឧបសគ្គដែលគេស្គាល់ច្បាស់សម្រាប់អ្នកចាត់ថ្នាក់ (classifiers) ដែលមិនទាន់មានបទពិសោធន៍។ សន្ទស្សន៍ Mentzer ដែលគណនាជា MCV ចែកនឹងចំនួន RBC មានតម្លៃលើស 13 ក្នុងកង្វះជាតិដែក ហើយធ្លាក់ក្រោម 13 ក្នុងលក្ខណៈ thalassaemia trait។.

នៅ BT-001 អ្នកជំងឺជាស្ត្រីអាយុ 34 ឆ្នាំ មានកម្រិត hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL និង TIBC ខ្ពស់។ សន្ទស្សន៍ Mentzer ប្រហែល 17.7 គាំទ្រកង្វះជាតិដែកពិតប្រាកដ (absolute iron deficiency)។ នៅ BT-007 អ្នកជំងឺជាបុរសអាយុ 28 ឆ្នាំ មាន microcytosis (MCV 65.8 fL) ប៉ុន្តែមានចំនួន RBC ខ្ពស់ 6.2, RDW ធម្មតា, ferritin ធម្មតា និង HbA2 5.6 ភាគរយ។ សន្ទស្សន៍ Mentzer ប្រហែល 10.6 បង្ហាញ thalassaemia trait ហើយ HbA2 ខ្ពស់បញ្ជាក់ beta-thalassaemia minor។.

ភាពស្លេកស្លាំងដោយកង្វះជាតិដែក Mentzer > 13 Ferritin ទាប, TSAT ទាប, TIBC ខ្ពស់, RDW ខ្ពស់

Thalassaemia trait (លក្ខណៈ thalassaemia) Mentzer < 13 Ferritin ធម្មតា, RDW ធម្មតា, HbA2 ខ្ពស់ (>3.5%), ចំនួន RBC ខ្ពស់

ករណីទាំងពីរទទួលពិន្ទុ 1.000។ ម៉ាស៊ីនបានហៅសន្ទស្សន៍ Mentzer យ៉ាងច្បាស់នៅក្នុងការបកស្រាយទាំងពីរ ហើយបានត្រឡប់រោគវិនិច្ឆ័យត្រឹមត្រូវក្នុងករណីនីមួយៗ។. នេះជាលទ្ធផលដែលធានាឡើងវិញផ្នែកគ្លីនិកច្រើនបំផុតតែមួយ ក្នុងការប្រកួតវាស់ស្ទង់ទាំងមូល, ព្រោះការចាត់ថ្នាក់ខុស thalassaemia trait ជា iron deficiency នាំឲ្យផ្តល់ថ្នាំបន្ថែមជាតិដែកមិនសមស្រប និងខកខានឱកាសស្វែងរកតាមគ្រួសារ (family-screening) ហើយការចាត់ថ្នាក់ខុស iron deficiency ជា thalassaemia ធ្វើឲ្យពន្យារពេលការព្យាបាលជំនួសដែលងាយស្រួលត្រង់ៗ។ Our កម្រិត ferritin ពន្យល់បរិបទនៃការបែងចែកជំងឺទូលំទូលាយជាងនេះ។.

លទ្ធផលតាមករណីពីការរត់យោងដំបូង V11 (ថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026)

ការរត់យោងដើម V11 លើក្រុមសាកល្បង 15 ករណី (proof-of-concept) បម្រើជាមូលដ្ឋាន នៃវិធីសាស្ត្រ នៃ Second Update៖ រាល់ព័ត៌មានលម្អិតតាមករណីខាងក្រោមបង្ហាញពីរបៀបដែល rubric ដោះស្រាយការឆ្លើយតបពិតរបស់ម៉ាស៊ីន។ ក្នុង 15 ករណី មាន 12 ករណីទទួលបានពិន្ទុសរុបកម្រិតពិដាន (ceiling) 1.000 លើ primary path; 3 ករណីត្រូវបានបម្រើតាម Phase 2 fallback ដោយបាត់បង់ bonus ភាពយឺត 0.05 ខណៈដែលរក្សាទុកមាតិកាគ្លីនិក និងរចនាសម្ព័ន្ធទាំងអស់។ ករណីមួយខ្វះផ្នែករង (subsection) ដែលត្រូវតែមានតែមួយ; មួយទៀតត្រឡប់មកវិញនូវការចែកចាយប្រូបាប៊ីលីតេដែលត្រូវបានកាត់បន្ថយបន្តិច (marginally reduced) ដោយសរុប។.

លេខសម្គាល់ករណី (Case ID) ជំនាញ (Specialty) ពិន្ទុរួម Latency Path

BT-001-IDAឈាមវិទ្យា1.00017.8 sprimary

BT-006-B12ឈាមវិទ្យា1.00018.4 វិនាទីprimary

BT-007-THALឈាមវិទ្យា1.00017.0 វិនាទីprimary

BT-002-HASHរោគវិទ្យា0.95037.0 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របន្ទាន់

BT-008-PCOSរោគវិទ្យា0.98718.6 វិនាទីprimary

BT-003-T2DMមេតាបូលីស1.00019.1 វិនាទីprimary

BT-013-GOUTមេតាបូលីស1.00019.4 វិនាទីprimary

BT-004-NAFLDជំនាញថ្លើម1.00019.6 វិនាទីprimary

BT-009-VIRHEPជំនាញថ្លើម0.95023.4 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របន្ទាន់

BT-014-GILBERTអន្ទាក់1.00018.9 វិនាទីprimary

BT-005-CKDវិទ្យាសាស្ត្រតម្រងនោម1.00017.4 វិនាទីprimary

BT-010-ASCVDផ្នែកជំងឺបេះដូង1.00019.7 វិនាទីprimary

BT-011-SLEវិទ្យារោគសន្លាក់ឆ្អឹង0.98118.2 វិនាទីprimary

BT-012-VITDរោគវិទ្យា1.00019.3 វិនាទីprimary

BT-015-HEALTHYអន្ទាក់1.00018.7 វិនាទីត្រឡប់ទៅវិធីសាស្ត្របន្ទាន់

ករណី PCOS (BT-008) បានបាត់បង់ផ្នែករងដែលត្រូវតែមានមួយផ្នែកក្នុងរចនាសម្ព័ន្ធការឆ្លើយតប — ដប់ប្រាំពីរនៃដប់ប្រាំមួយ ជំនួសឲ្យដប់ប្រាំមួយនៃដប់ប្រាំមួយ — ដែលកាត់បន្ថយពិន្ទុរចនាសម្ព័ន្ធពី 1.000 ទៅ 0.963។ ករណី SLE (BT-011) បានត្រឡប់មកវិញនូវផលបូកនៃការចែកចាយប្រូបាប៊ីលីតេដែលថយចុះបន្តិច ដែលធ្វើឲ្យពិន្ទុផ្នែកគ្លីនិកធ្លាក់ដល់ 0.965 ខណៈដែលរក្សាបានរាល់ពាក្យគន្លឹះវិនិច្ឆ័យ និងប្រព័ន្ធពិន្ទុទាំងអស់។ គ្មានករណីណាមួយដែលមិនល្អទាំងស្រុងនោះ បាត់បង់ការវិនិច្ឆ័យត្រឹមត្រូវឡើយ។.

V11 Second Update សរុប — 100,000 ករណី

នៅកម្រិតទំហំប្រជាជន (population scale) ជួរករណីនីមួយៗមិនអាចអានបានដោយមនុស្ស ដូចนั้นការអាប់ដេតទីពីរ រាយការណ៍សូចនាករដែលបានប្រមូល (aggregated metrics) ជំនួសតារាង 100,000 ជួរ។ សរុបសំខាន់ (headline aggregate) ត្រូវបានបង្ហាញខាងក្រោម; ការបំបែកតាមឯកទេស និងតាមស្លាកប្រទេស ត្រូវបានបោះពុម្ពនៅក្នុងរបាយការណ៍បច្ចេកទេស និងការដាក់ Figshare។ គំរូចៃដន្យចែកស្រទាប់នៃ n = 201 ការឆ្លើយតបដើមរបស់ម៉ាស៊ីន (seed កំណត់ជាក់លាក់ 20260426) ត្រូវបានបោះពុម្ពនៅក្នុង GitHub results/ directory សម្រាប់ការត្រួតពិនិត្យ។.

ពិន្ទុសរុប (Composite score) V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 ក្នុងក្រុម 100,000 ករណី

ពិន្ទុរចនាសម្ព័ន្ធ (មធ្យម) V11 initial: 0.998 → Second Update: 1.000 ការអនុលោមរចនាសម្ព័ន្ធល្អឥតខ្ចោះនៅកម្រិតទំហំប្រជាជន

ពិន្ទុគ្លីនិក (មធ្យម) V11 initial: 0.998 → Second Update: 0.996 −0.002; គ្មានករណីណាមួយខកខានការធ្វើរោគវិនិច្ឆ័យខ្លួនឯងនោះទេ

ភាពយឺតយ៉ាវ — មធ្យម (ជួរ) ការចាប់ផ្តើម V11 ដំបូង: 20.17 វិនាទី (17.0–37.0 វិនាទី) → ការអាប់ដេតលើកទីពីរ៖ 13.26 វិនាទី (9.0–16.94 វិនាទី) ការបង្កើនប្រសិទ្ធភាពម៉ាស៊ីនផលិតកម្មរវាងការរត់

ផ្លូវម៉ាស៊ីន = មេ V11 ដំបូង: 12 / 15 → ការអាប់ដេតលើកទីពីរ៖ 100,000 / 100,000 មិនចាំបាច់ប្រើការបម្រុង Phase 2 នៅចំណុចណាមួយក្នុងអំឡុងពេលរត់នោះទេ

ទង់សញ្ញា hyperdiagnosis សម្រាប់ trap-subset V11 ដំបូង: 0 / 13 → ការអាប់ដេតលើកទីពីរ៖ 0 / 87,412 គ្មាន false-positives នៅកម្រិតប្រជាជន (មានការតាមដានករណី trap ចំនួន 8,723)

អ្វីដែលពិន្ទុចំណងជើងមិនបានប្រាប់យើង

ពិន្ទុសមាសធាតុ 99.80 ភាគរយ ក្រោម rubic ដែលបានចុះបញ្ជីជាមុនជាក់លាក់នេះ លើសហក្រុមសំយោគ 100,000 ករណី ដែលគ្របដណ្តប់ស្លាកប្រទេស 127 បង្ហាញសមត្ថភាពជិតកម្រិតពិដាន (near-ceiling performance) — ប៉ុន្តែវាត្រូវការការរៀបចំឲ្យបានច្បាស់លាស់។ លទ្ធផលពិពណ៌នាអំពីអាកប្បកិរិយារបស់ម៉ាស៊ីនធៀបនឹង rubic ដែលយើងបានប្តេជ្ញាទៅកូដប្រភពក្នុង V11; វាមិនមែនជាការអះអាងជាសកលអំពីភាពត្រឹមត្រូវរបស់ម៉ាស៊ីនលើបន្ទះតេស្តឈាមគ្រប់ប្រភេទដែលមាននៅក្នុងពិភពពិតទេ។.

ពិន្ទុនេះបង្ហាញថា ម៉ាស៊ីនបានដោះស្រាយលំនាំរោគវិនិច្ឆ័យដែលបានជ្រើសសម្រាប់ការវាយតម្លៃនេះបានត្រឹមត្រូវ នៅទូទាំងក្រុមសំណាកកម្រិតប្រជាជន ដោយប្រើវិធីសាស្ត្រដែលបានបោះពុម្ព និងអាចធ្វើឡើងវិញបាន។ វាមិនបាននិយាយថា ម៉ាស៊ីនត្រឹមត្រូវលើរាល់បន្ទះការពិនិត្យឈាមដែលមាននៅក្នុងពិភពពិតនោះទេ។ វាមិនបាននិយាយថា ម៉ាស៊ីនគួរតែជំនួសការវិនិច្ឆ័យរបស់គ្រូពេទ្យនោះទេ។ ហើយវាមិនបាននិយាយថា ម៉ាស៊ីនលើសប្រព័ន្ធ AI ផ្សេងទៀត — ការវិភាគប្រៀបធៀបជាមួយម៉ាស៊ីនផ្សេងៗត្រូវបានដកចេញដោយចេតនាពីវិសាលភាពនៃរបាយការណ៍នេះ។.

អ្វីដែលពិន្ទុនេះបញ្ជាក់ពិតប្រាកដ គឺជាមូលដ្ឋាន (baseline)។ នៅពេលដែល rubic និង harness ត្រូវបានធ្វើឲ្យសាធារណៈ កំណែអនាគតនៃម៉ាស៊ីនអាចត្រូវបានវាយតម្លៃធៀបនឹង rubic ដូចគ្នា — អនុវត្តលើករណី V11 ដំបូង 15 ករណី ក្រុមសំណាក 100,000 ករណី នៃការអាប់ដេតលើកទីពីរ ឬការពង្រីកបន្តបន្ទាប់ណាមួយ — ហើយគម្លាតរវាងពិន្ទុដែលបានបោះពុម្ព និងការរត់បន្ទាប់ណាមួយ ក៏អាចវាស់វែងបានដោយខ្លួនឯងផងដែរ។ នេះជាតម្លៃនៃការចុះបញ្ជីជាមុន៖ វាបម្លែងការអះអាងអំពីសមត្ថភាព ទៅជាការអះអាងដែលអាចធ្វើតេស្តបាន.

របៀបធ្វើឲ្យស្រដៀងនឹងស្តង់ដារនេះឡើងវិញក្នុងរយៈពេល 10 នាទី

ការធ្វើឡើងវិញ ត្រូវការតែគូសមត្ថភាព API Kantesti និងបរិស្ថាន Python 3.10 ឬក្រោយជាងនេះ ដែលមាន requests និង reportlab បានដំឡើង។ ឧបករណ៍ពេញលេញ (harness) គឺជាម៉ូឌុល Python តែមួយដែលមានខ្លឹមសារគ្រប់គ្រាន់ក្នុងខ្លួន និងត្រូវបានចេញផ្សាយក្រោមអាជ្ញាប័ណ្ណ MIT។.

💻 GitHub harness ដែលមានអាជ្ញាប័ណ្ណ MIT · ការឆ្លើយតបដើម · ការរត់យោង 🔗 DOI របស់ Figshare 10.6084/m9.figshare.32095435 · កំណត់ត្រាសិក្សាដែលជាស្តង់ដារ (canonical academic record) 🎓 ច្រកស្រាវជ្រាវ Publication 404175463 · V11 Second Update · ស្រទាប់ស្វែងរកសិក្សា 📄 Academia.edu Paper 165956808 · V11 Second Update · ស្រទាប់ស្វែងរកសិក្សា

បួនជំហានសម្រាប់ការរត់ថ្មី

មួយ។. ក្លូន (Clone) ឃ្លាំង (repository)៖ git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ពីរ។. ដំឡើងការពឹងផ្អែកជាមួយ pip install -r requirements.txt (Second Update បន្ថែម mysql-connector-python ≥ 8.0 សម្រាប់ SQL case loader)។. បី។. កំណត់ KANTESTI_USERNAME និង KANTESTI_PASSWORD ជាអថេរបរិស្ថានសម្រាប់ engine API។ សម្រាប់ SQL case loader នៃ Second Update ក៏ត្រូវកំណត់ផងដែរ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, និង KANTESTI_DB_PASSWORD — ឧបករណ៍ផ្ទុក (loader) ភ្ជាប់តាមរយៈតួនាទីអានតែប៉ុណ្ណោះ (read-only) (bench_reader) ដែលគ្មានសិទ្ធិអំណាចលើការកំណត់អត្តសញ្ញាណតារាង។. បួន។. ដំណើរការ python benchmark_bloodtest.py --limit 100000 សម្រាប់ការរត់ Second-Update ពេញលេញ ឬ python benchmark_bloodtest.py --limit 1000 សម្រាប់ការធ្វើឡើងវិញរហ័ស។ លទ្ធផលត្រូវបានដាក់នៅក្នុង ./benchmark_results/: CSV scorecard ដែលមានជួរឈរ per-country-label និង per-specialty, JSON aggregate, គំរូឆ្លើយតបដើមដែលចៃដន្យជាស្រទាប់, និងរបាយការណ៍ Markdown។.

ការរត់យោង (reference runs) ចាប់ពីថ្ងៃទី 23 ខែមេសា ឆ្នាំ 2026 (V11 ដំបូង, 15 ករណី) និងថ្ងៃទី 26 ខែមេសា ឆ្នាំ 2026 (V11 Second Update, 100,000 ករណី) ត្រូវបានរក្សាទុកក្នុង results/ ថតនៃឃ្លាំង (repository)។ ការរត់ថ្មីនឹងបង្កើតសន្លឹកពិន្ទុថ្មីដែលមានស្លាកពេលវេលា (timestamp) ខណៈដែលការរត់យោងមិនត្រូវបានប៉ះពាល់។ ប្រសិនបើការរត់របស់អ្នកបង្កើតលទ្ធផលខុសគ្នាយ៉ាងមានន័យ សូមបើកបញ្ហា (GitHub issue) ជាមួយ timestamp នៃការរត់ និងកំណែម៉ាស៊ីន (engine version) ដែលត្រូវបានត្រឡប់ក្នុង metadata នៃការឆ្លើយតប។.

ដែនកំណត់ និងការងារនាពេលអនាគត

ទោះបីជាមាន 100,000 ករណីលើស្លាកប្រទេសចំនួន 127 ក៏ដោយ ក៏មានកម្រិតបួនចំណុចដែលសមនឹងការទទួលស្គាល់ឲ្យច្បាស់៖ ការមិនគ្រប់គ្រាន់នៃការយកគំរូសម្រាប់ស្លាកដែលមានចំនួនតិច (long-tail label undersampling), ការវាយតម្លៃតែម្តង (single-shot evaluation), វិសាលភាពម៉ាស៊ីនតែមួយ (single-engine scope) និងប្រភពទិន្នន័យតែមួយ (single-source data origin)។ នីមួយៗកំពុងត្រូវបានដោះស្រាយនៅក្នុងការងារតាមដានបន្តបន្ទាប់ (active follow-up work)។.

ការគ្របដណ្តប់ស្លាក long-tail។. ការអាប់ដេតទីពីរ (Second Update) មានស្លាកប្រទេសចំនួន 127 ប៉ុន្តែការចែកចាយមិនស្មើគ្នា — ស្លាកកំពូលទាំង 10 គណនាប្រហែល ≈66.4% នៃចំនួនករណី ហើយ long tail នៃស្លាកបន្ថែមចំនួន 97 សរុបរួមគ្នាបង្កើត ≈7.3% (ប្រហែល 7,300 ករណីរួមគ្នា, ~75 ករណីក្នុងមួយស្លាកជាមធ្យម)។ ដូចนั้น សមាសធាតុ (composites) ក្នុង long tail នេះ មានសំឡេងរំខាន (noisier) ជាងអ្វីដែលតួលេខសំខាន់ៗ (headline figures) បង្ហាញ។ ការរត់នាពេលអនាគតនឹងរៀបចំឡើងវិញការចាត់តាំងស្លាក ដើម្បីធ្វើឲ្យការប៉ាន់ប្រមាណក្នុងមួយស្លាក (per-label estimates) កាន់តែរឹងមាំ។.

ការវាយតម្លៃតែម្តង (single-shot evaluation)។. ករណីនីមួយៗក្នុងក្រុម (cohort) ត្រូវបានវាយតម្លៃតែម្តង។ ម៉ូដែលភាសាធំៗបង្ហាញភាពប្រែប្រួលលទ្ធផល (output variance) ដែលមិនតិចសោះ ទោះបីជានៅសីតុណ្ហភាពគំរូទាបក៏ដោយ ដូច្នេះពិធីសាស្ត្ររត់ច្រើន (multi-run protocol) ដោយមានការវាយតម្លៃ 5 ដងក្នុងមួយករណី និងការរាយការណ៍ភាពប្រែប្រួល គឺជាជំហានបន្ទាប់ដែលសមហេតុផល — ជាពិសេសលើផ្នែករង trap-case ដែលភាពស្ថិរភាពក្រោមការញ័រនៃការគំរូ (sampling jitter) ជាផ្នែកមួយនៃការអះអាងអំពីសុវត្ថិភាព។.

វិសាលភាពម៉ាស៊ីនតែមួយ (single-engine scope)។. របាយការណ៍នេះពិពណ៌នាអំពីម៉ាស៊ីនមួយ (one engine)។ ការវិភាគប្រៀបធៀបជាមួយប្រព័ន្ធ AI ផ្សេងៗ មិនស្ថិតក្នុងវិសាលភាពនៅទីនេះទេ។ យើងអាចបន្តវាជាការសិក្សាឯករាជ្យដាច់ដោយឡែក ដោយប្រើវិធីសាស្ត្រសមស្រប ជាមួយ harness ដូចគ្នាដែលមានអាជ្ញាប័ណ្ណ MIT។.

ទិន្នន័យសំយោគ (Synthetic data)។. ករណីចំនួន 100,000 ត្រូវបានបង្កើតសំយោគ (synthetically generated) មិនមែនជាករណីសំយោគ (synthetic cases) នោះទេ ហើយលទ្ធផលមិនផ្ទេរទៅការអនុវត្តក្នុងពិភពពិត (real-world clinical performance)។ ការវាយតម្លៃលើទិន្នន័យពិត ដែលមានការយល់ព្រម និងទទួលបានពីប្រភពខាងក្រៅ (real, consented, externally-sourced data) នឹងត្រូវការការត្រួតពិនិត្យផ្នែកសីលធម៌សមស្រប ហើយមិនស្ថិតក្នុងវិសាលភាពសម្រាប់ benchmark សំយោគនេះទេ។.

លើសពីកម្រិតបួននេះ ការពង្រីកដែលមានឥទ្ធិពលខ្លាំងបំផុតដែលបានគ្រោងទុកគឺភាពស្មើគ្នាតាមភាសាច្រើន (multi-language parity) ក្នុងមួយយុត្តាធិការ។ Kantesti AI Engine បម្រើអ្នកប្រើប្រាស់ក្នុង 75+ ភាសា ហើយការរត់ sub-cohorts Second-Update ដែលចែកតាមភាសា (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) នឹងវាស់គុណភាពលទ្ធផលនៅទូទាំងភាសាដែលម៉ាស៊ីនគាំទ្រ។ ការវិភាគដែលចែកតាមភាសានីមួយៗនឹងត្រូវបានបោះពុម្ពជាមួយ DOI ផ្ទាល់ខ្លួន និង harness branch ផ្ទាល់ខ្លួន។.

សាកល្បងម៉ាស៊ីនដូចគ្នាដែលទទួលបានពិន្ទុសមាសធាតុ 99.80% លើ 100,000 ករណី

ផ្ទុកបន្ទះពិនិត្យឈាមផ្ទាល់ខ្លួនរបស់អ្នកឡើងទៅកាន់ចំណុចបញ្ចប់ (endpoint) ផលិតកម្មដូចគ្នាដែលត្រូវបានវាយតម្លៃក្នុងការបenchmark នេះ។ អ្នកប្រើប្រាស់ជាង 2 លាននាក់នៅទូទាំងពិភពលោកប្រើម៉ាស៊ីន AI Kantesti ដើម្បីបកស្រាយសញ្ញាសម្គាល់ (biomarkers) ជាង 15,000 ប្រភេទក្នុង 75+ ភាសា។.

🔬 សាកល្បងការបង្ហាញដោយឥតគិតថ្លៃ

ផ្នែកបន្ថែម Chrome ហាងកម្មវិធី ហ្គូហ្គល ផេយ

📚 របៀបដកស្រង់ (Cite) ការបenchmark នេះ

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (របាយការណ៍បច្ចេកទេស V11 Second Update)។ Kantesti Ltd។. https://doi.org/10.6084/m9.figshare.32095435

📖 ឯកសារយោងវិធីសាស្ត្រខាងក្រៅ

Mentzer, W. C. (1973). ការបែងចែកភាពខ្វះជាតិដែក (Iron Deficiency) ពីលក្ខណៈ Thalassaemia Trait. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). លក្ខណៈវិនិច្ឆ័យសម្រាប់ Systemic Lupus Erythematosus របស់ European League Against Rheumatism / American College of Rheumatology ឆ្នាំ 2019. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ក្រសួងអប់រំយុវជន និងកីឡា 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test for Large Language Models. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%ពិន្ទុសរុប (Composite Score)

100,000ករណីដែលបានពិន្ទុ (Cases Scored)

127ស្លាកប្រទេសដែលបានគ្របដណ្តប់

0 / 87,412Trap False-Positives

សំណួរដែលសួរញឹកញាប់

ម៉ាស៊ីន AI Kantesti មានភាពត្រឹមត្រូវប៉ុណ្ណា លើករណីសាកល្បងសំយោគ?

នៅលើ rubric ដែលបានចុះបញ្ជីជាមុន (pre-registered) ដំណើរការលើករណីសាកល្បងដែលបង្កើតសំយោគចំនួន 100,000 ក្នុង 8 ផ្នែកមាតិកា និងស្លាកប្រទេសចំនួន 127 (V11 Second Update) ម៉ាស៊ីនបានឈានដល់ពិន្ទុសមាសធាតុ (composite score) 99.80 ភាគរយ ដោយគ្មានសញ្ញាធ្វើ hyperdiagnosis (hyperdiagnosis flags) សោះក្នុងឱកាស trap-case ដែលត្រូវបានតាមដានចំនួន 87,412 និងមានមធ្យមពេលយឺតនៃការឆ្លើយតប (mean response latency) 13.26 វិនាទី។ សមាសធាតុនេះវាស់ការអនុលោមលទ្ធផល (output conformance) លើការបញ្ចូលសំយោគ មិនមែនភាពត្រឹមត្រូវក្នុងការធ្វើរោគវិនិច្ឆ័យ (diagnostic accuracy) ទេ។ ការចេញផ្សាយ V11 ដើមបានប្រើ rubric ដូចគ្នាលើករណីដែលបានសាងសង់ដោយដៃចំនួន 15 (composite 99.12%)។ ការអាប់ដេតទីពីរ រក្សា rubric ឲ្យដូចគ្នា byte-identical និងពង្រីកវាទៅក្រុមសំយោគធំជាងមុន។ scorecard ពេញលេញត្រូវបានបោះពុម្ពនៅលើ Figshare ក្រោម DOI 10.6084/m9.figshare.32095435 និងនៅលើ GitHub ក្រោមអាជ្ញាប័ណ្ណ MIT។.

តើម៉ាស៊ីន AI Kantesti ត្រូវបានបញ្ជាក់ជាផ្នែកវេជ្ជសាស្ត្រដោយការស្រាវជ្រាវជាក់ស្តែងដែរឬទេ?

ទេ។ ម៉ាស៊ីនត្រូវបានវាយតម្លៃជាមួយ automated technical benchmark (មិនមែន clinical validation) ដោយប្រើ rubric ដែលត្រូវបានបង្កក (frozen) នៅក្នុង source code មុនការរត់ដំបូង V11 ហើយរក្សាឲ្យ byte-identical សម្រាប់ V11 Second Update។ វាយតម្លៃលើករណីឈាមសាកល្បងសំយោគចំនួន 100,000 ក្នុងផ្នែក hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology និង internal medicine ដែលបានយកពីស្លាកប្រទេសចំនួន 127។ ការត្រួតពិនិត្យផ្នែកព្យាបាល (Clinical oversight) ត្រូវបានផ្តល់ដោយវេជ្ជបណ្ឌិត Thomas Klein, MD (ORCID 0009-0009-1490-1321) ជាអ្នកឯកទេស hematology ផ្នែកព្យាបាលដែលទទួលស្គាល់ដោយក្រុមប្រឹក្សា (board-certified) និងជានាយកវេជ្ជសាស្ត្រកំពូល (Chief Medical Officer) នៅ Kantesti AI។.

តើករណី “អន្ទាក់នៃការធ្វើរោគវិនិច្ឆ័យលើស” (hyperdiagnosis trap) គឺជាអ្វី?

ករណី “hyperdiagnosis trap” គឺជាស្ថានការណ៍ព្យាបាលដែលត្រូវបានរចនាឡើងជាពិសេស ដើម្បីរកឃើញអាកប្បកិរិយាធ្វើរោគវិនិច្ឆ័យលើស (over-diagnosis) នៅក្នុងម៉ាស៊ីន AI។ ការប្រកួតវាស់ស្ទង់ដំបូង V11 បានប្រើករណីបែបនេះចំនួនពីរ ជាភស្តុតាងបែបវិធីសាស្ត្រ (methodological proof-of-concept)៖ ករណីមួយជាការកើនឡើង indirect hyperbilirubinaemia តែមួយមុខ ដែលត្រូវនឹងជំងឺ Gilbert's syndrome (ដែលការបកស្រាយត្រឹមត្រូវគឺភាពខុសប្រក្រតី UGT1A1 ប្រភេទ polymorphism ដែលមិនបង្កគ្រោះថ្នាក់ ជាជាង hepatitis ឬ haemolysis) និងករណីមួយទៀតជាបន្ទះស្កេនមនុស្សពេញវ័យដែលធម្មតាទាំងស្រុង (ដែលលទ្ធផលត្រឹមត្រូវគឺការធានាថាមិនមានបញ្ហា ជាជាងការបង្កើត pathology កម្រិតព្រំដែន)។ ការអាប់ដេតទីពីរ V11 បានពង្រីកវិធីសាស្ត្រករណី trap នេះ ទៅជាសំណុំរងឯកទេសចំនួន 8,723 ករណី ដោយបង្កើតឱកាសសញ្ញា hyperdiagnosis ដែលត្រូវតាមដានបានចំនួន 87,412 — ហើយអត្រា false-positive របស់ម៉ាស៊ីននៅតែសូន្យ។.

តើការវាយតម្លៃម៉ាស៊ីន AI Kantesti អាចធ្វើឡើងវិញបានដែរឬទេ?

ឧបករណ៍សម្រាប់វាយតម្លៃពេញលេញ (full evaluation harness) ត្រូវបានចេញផ្សាយក្រោមអាជ្ញាប័ណ្ណ MIT ជា Python module តែមួយដែលរួមបញ្ចូលខ្លួនឯង (single self-contained)។ ការរត់ដំបូង V11 ត្រូវការតែគូសម្រង់អត្តសញ្ញាណ API របស់ Kantesti និង Python 3.10 ឬខ្ពស់ជាងនេះ។ ការអាប់ដេតទីពីរ V11 បន្ថែមកម្មវិធីផ្ទុកករណី SQL ដែលអាចកំណត់ប៉ារ៉ាម៉ែត្រ និងអានបានតែ (parameterised, read-only) ដែលត្រូវការអត្តសញ្ញាណសម្រាប់ clinical-repository របស់ Kantesti (a bench_reader តួនាទីដែលគ្មានសិទ្ធិលើការកំណត់អត្តសញ្ញាណតារាង)។ កូដ, SQL សម្រាប់ case loader, rubic (byte-identical រវាងការចេញផ្សាយ), និងគំរូចៃដន្យដែលបានចាត់ស្រទាប់ (stratified random sample) នៃការឆ្លើយតបឆៅរបស់ម៉ាស៊ីនពីការរត់យោងទាំងការរត់ដំបូង V11 និងការអាប់ដេតទីពីរ មាននៅ github.com/emirhanai/kantesti-blood-test-benchmark ហើយត្រូវបានចម្លង (mirrored) នៅ Figshare, ResearchGate និង Academia.edu។.

តើម៉ាស៊ីន AI Kantesti បែងចែកភាពខ្វះជាតិដែកពីលក្ខណៈសម្បត្តិ beta-thalassaemia យ៉ាងដូចម្តេច?

ម៉ាស៊ីនអនុវត្ត Mentzer index ដែលគណនាជា mean corpuscular volume ចែកនឹងចំនួនកោសិកាឈាមក្រហម (red blood cell count)។ Mentzer index លើសពី 13 គាំទ្រការសង្ស័យ iron deficiency anaemia ខណៈដែលតម្លៃក្រោម 13 គាំទ្រលក្ខណៈ beta-thalassaemia trait។ ក្នុងការប្រកួតវាស់ស្ទង់ដំបូង V11 ករណីបង្ហាញទាំងពីរត្រូវបានចាត់ថ្នាក់ត្រឹមត្រូវ ដោយមានការគណនា Mentzer index យ៉ាងច្បាស់ និងគាំទ្រដោយ ferritin, RDW និង HbA2 context។ ក្នុងការអាប់ដេតទីពីរ V11 (cohort 100,000 ករណី) អាកប្បកិរិយាដូចគ្នានេះត្រូវបានរក្សាទុកនៅកម្រិតប្រជាជន (population scale)។.

តើខ្ញុំអាចរកឃើញទិន្នន័យមូលដ្ឋានសម្រាប់ការប្រៀបធៀប (raw benchmark data) និងកូដប្រភព (source code) នៅឯណា?

របាយការណ៍បច្ចេកទេស ត្រូវបានដាក់នៅ Figshare ក្រោម DOI 10.6084/m9.figshare.32095435 (គ្របដណ្តប់ទាំងការចេញផ្សាយដំបូង V11 និងការអាប់ដេតទីពីរ V11) ហើយត្រូវបានចម្លងនៅ ResearchGate publication 404175463 និង Academia.edu paper 165956808 — ទាំងពីរត្រូវបានអាប់ដេតជាមួយចំណងជើងការអាប់ដេតទីពីរ V11 និងលទ្ធផល 100,000 ករណី — និង harness Python ដែលមានអាជ្ញាប័ណ្ណ MIT ជាមួយនឹងលទ្ធផលការរត់យោងទាំងអស់ នៅ github.com/emirhanai/kantesti-blood-test-benchmark។ បណ្តាញចម្លង (mirror) ទាំងបួនវេទិកា ធានាបាននូវភាពអាចរកបានយូរអង្វែង និងភាពបត់បែនក្នុងការដកស្រង់ (citation flexibility)។.

ហេតុអ្វីបានជាការចុះបញ្ជីជាមុន (pre-registration) មានសារៈសំខាន់សម្រាប់ benchmark វេជ្ជសាស្ត្រ AI?

ការចុះបញ្ជីជាមុនរារាំងការកែសម្រួល rubric ក្រោយពេល (post-hoc rubric tuning) ដែលជាវិធីសាស្ត្រដ៏ពេញនិយមបំផុតតែមួយ ដែលក្រុមហ៊ុនប្រើដើម្បីធ្វើឲ្យលេខរបស់ខ្លួនកើនឡើង។ ដោយការប្តេជ្ញាចិត្ត rubric ទៅក្នុងកូដប្រភព មុនពេលហៅម៉ាស៊ីនណាមួយ (any engine call) និងការបោះពុម្ព harness ជាសាធារណៈ អ្នកនិពន្ធ rubric នឹងមានកាលបរិច្ឆេទដែលអាចពិនិត្យបាន (inspectable) នៅក្នុង version control ហើយលទ្ធផលម៉ាស៊ីនមិនអាចធ្វើឲ្យលក្ខណៈវិនិច្ឆ័យនៃការឲ្យពិន្ទុ (scoring criteria) ត្រូវបានរៀបចំតាមក្រោយបានឡើយ។.

តើ benchmark នេះមានការប្រៀបធៀបទៅម៉ាស៊ីន AI ផ្សេងទៀតដែរឬទេ?

ទេ។ របាយការណ៍ V11 — ទាំងការចេញផ្សាយដំបូង និងការអាប់ដេតទីពីរ — បានរៀបរាប់ដោយចេតនាថា វាយតម្លៃម៉ាស៊ីនតែមួយទល់នឹង rubic ដែលបានបង្កក (fixed rubric) ជាជាងដាក់វាទល់នឹងប្រព័ន្ធពាណិជ្ជកម្មជំនួស។ harness គឺ open source ក្រោមអាជ្ញាប័ណ្ណ MIT (ឥឡូវរួមទាំង SQL case loader) ដូច្នេះអ្នកស្រាវជ្រាវឯករាជ្យអាចវាយតម្លៃម៉ាស៊ីនណាមួយដែលពួកគេចង់បាន ទល់នឹង rubic និង case loader ដូចគ្នា ហើយបោះពុម្ពលទ្ធផលរបស់ពួកគេ។.

តើករណីអ្នកជំងឺពិត ឬករណីបង្កើត (synthetic)?

ករណីទាំងអស់ត្រូវបានបង្កើតសំយោគ — ករណីដែលសាងសង់ដោយដៃចំនួន 15 នៅក្នុងការចេញផ្សាយដំបូង V11 និង 100,000 នៅក្នុង Second Update។ វាមិនមែនជាករណីសំយោគ (synthetic cases) ទេ៖ មិនមានទិន្នន័យសំយោគ (synthetic data) មិនមានដំណើរការយល់ព្រម (consent process) និងមិនមានការធ្វើ de-identification ព្រោះមិនមានទិន្នន័យផ្ទាល់ខ្លួន (personal data) នៅក្នុងក្រុមសំណាក (cohort)។ មិនមានទិន្នន័យផ្ទាល់ខ្លួនណាមួយបង្ហាញនៅក្នុង harness ដែលបានបោះពុម្ព, របាយការណ៍បច្ចេកទេស ឬ datasets ដែលបានចេញផ្សាយ។.

⚕️ ការបដិសេធផ្នែកវេជ្ជសាស្ត្រ & ជម្លោះផលប្រយោជន៍

របាយការណ៍ការប្រៀបធៀបនេះធ្វើឡើងសម្រាប់គោលបំណងស្រាវជ្រាវ និងតម្លាភាពផ្នែកវិធីសាស្ត្រ។ វាមិនមែនជាការណែនាំផ្នែកវេជ្ជសាស្ត្រ មិនមែនជាការធ្វើរោគវិនិច្ឆ័យ និងមិនមែនជាការជំនួសសម្រាប់ការថែទាំសុខភាពប្រកបដោយវិជ្ជាជីវៈឡើយ។ លទ្ធផលណាមួយនៅទីនេះមិនគួរត្រូវបានប្រើដើម្បីពន្យារពេល ឬជៀសវាងការទៅជួបវេជ្ជបណ្ឌិត។ សូមពិគ្រោះជាមួយអ្នកផ្តល់សេវាថែទាំសុខភាពដែលមានសមត្ថភាពជានិច្ចសម្រាប់ការសម្រេចចិត្តអំពីការធ្វើរោគវិនិច្ឆ័យ និងការព្យាបាល។ នេះជាការប្រៀបធៀបខាងក្នុងដែលដំណើរការដោយខ្លួនឯងរបស់ម៉ាស៊ីនផ្ទាល់ខ្លួនរបស់ក្រុមហ៊ុន ហើយមិនត្រូវបានធ្វើសុពលភាពឯករាជ្យ ឬពិនិត្យដោយអ្នកជំនាញ (peer-reviewed) ឡើយ។ ពិន្ទុសរុបវាស់វែងការអនុលោមតាមមាត្រដ្ឋានថេរ (រចនាសម្ព័ន្ធរបាយការណ៍ ការចងចាំពាក្យគន្លឹះ និងប្រព័ន្ធផ្តល់ពិន្ទុ និងភាពយឺត/latency)។ វាមិនមែនជារង្វាស់នៃភាពត្រឹមត្រូវនៃការធ្វើរោគវិនិច្ឆ័យក្នុងពិភពពិត ឬសុវត្ថិភាពផ្នែកព្យាបាលនោះទេ។ អ្នកនិពន្ធទាំងពីរត្រូវបានជួលដោយ និងកាន់ភាគហ៊ុននៅក្នុង Kantesti Ltd ហើយម៉ាស៊ីនដែលកំពុងត្រូវបានវាយតម្លៃគឺជាផលិតផលពាណិជ្ជកម្មរបស់អង្គការដូចគ្នា។ ជម្លោះផលប្រយោជន៍នេះត្រូវបានកាត់បន្ថយដោយការចុះបញ្ជីមុននូវមាត្រដ្ឋាននៅក្នុងកូដប្រភព ការចេញផ្សាយ harness ក្រោមអាជ្ញាប័ណ្ណ MIT និងការបោះគំរូចៃដន្យជាស្រទាប់នៃការឆ្លើយតបឆៅរបស់ម៉ាស៊ីន។.

សញ្ញាទុកចិត្ត E-E-A-T

⭐

បទពិសោធន៍

មានបទពិសោធន៍ជាង 15 ឆ្នាំក្នុងការអនុវត្ត hematology គ្លីនិក និងវេជ្ជសាស្ត្រមន្ទីរពិសោធន៍ ដោយត្រួតពិនិត្យការជ្រើសរើសក្រុមករណី។.

📋

ជំនាញ

ការរចនា rubric ដែលបានចុះបញ្ជីជាមុន (pre-registered) ជាមួយនឹងការពិន័យសម្រាប់ hyperdiagnosis យ៉ាងច្បាស់ និងប្រព័ន្ធពិន្ទុគ្លីនិកដែលត្រូវបានទទួលស្គាល់ (Mentzer, FIB-4, EULAR/ACR, KDIGO)។.

👤

ភាពមានសិទ្ធិអំណាច

អ្នកនិពន្ធនាំមុខ វេជ្ជបណ្ឌិត Thomas Klein, MD (ORCID 0009-0009-1490-1321)។ ការអនុវត្ត (Implementation) ដោយ Julian Emirhan Bulut នាយកប្រតិបត្តិ (CEO) នៃ Kantesti Ltd។.

🛡️

ភាពគួរឱ្យទុកចិត្ត

harness ដែលអាចធ្វើឡើងវិញបាន (reproducible) ក្រោមអាជ្ញាប័ណ្ណ MIT ការបោះពុម្ពការឆ្លើយតបឆៅរបស់ម៉ាស៊ីន ការបង្ហាញជម្លោះផលប្រយោជន៍បើកចំហ និងបណ្តាញ mirror ស្រាវជ្រាវលើបួនវេទិកា។.

🏢 ក្រុមហ៊ុន Kantesti LTD ចុះឈ្មោះនៅប្រទេសអង់គ្លេស និងវេលស៍ · លេខក្រុមហ៊ុន។. 17090423 ទីក្រុងឡុងដ៍ ចក្រភពអង់គ្លេស · kantesti.net