ເປັນຫຍັງ benchmark ນີ້ຈຶ່ງມີ ແລະມັນທົດສອບຫຍັງ
ການວິເຄາະເລືອດດ້ວຍ AI ຖືກນໍາໃຊ້ຫຼາຍຂຶ້ນໃນການໃຊ້ງານຂອງຜູ້ບໍລິໂພກ ແລະ ດ້ານການແພດ, ແຕ່ກອບການປະເມີນທີ່ສາມາດທົດຊ້ໍາໄດ້ ທີ່ຖືກປັບໃຫ້ເໝາະກັບການແພດທາງຫ້ອງທົດລອງ ຍັງບໍ່ຄ່ອຍມີ. ຄໍາຖາມທີ່ສໍາຄັນທີ່ສຸດໃນສະພາບນີ້ ບໍ່ແມ່ນຄໍາຖາມທີ່ຖືກຄອບຄຸມໂດຍ benchmark ການຕອບຄໍາຖາມທາງການແພດທົ່ວໄປ: ເຄື່ອງຈັກ (engine) ສາມາດແຍກ iron deficiency ອອກຈາກ thalassaemia trait ໄດ້ບໍ ເມື່ອ MCV ມີຄ່າຄືກັນ, ມັນຈະ over-diagnose Gilbert's syndrome ເປັນ hepatitis ບໍ, ແລະ ມັນສ້າງພະຍາດຂຶ້ນໃນແຜນກວດທີ່ປົກກະຕິສົມບູນບໍ?
ການກວດເລືອດແບບກຸ່ມດຽວມັກຈະມີຂໍ້ມູນພຽງພໍທີ່ສາມາດຮອງຮັບການຕີຄວາມໄດ້ຫຼາຍຢ່າງທີ່ແຂ່ງກັນ, ແລະວຽກຂອງແພດຜູ້ຕີຄວາມແມ່ນການຊັ່ງນ້ຳໜັກການຕີຄວາມເຫຼົ່ານັ້ນທຽບກັນ ບໍ່ແມ່ນການຄົ້ນຫາຄຳຕອບຈາກປຶ້ມຕຳລາ. ເຄື່ອງຈັກທີ່ເຮັດໄດ້ດີໃນກໍລະນີຕົວຢ່າງຈາກຕຳລາ ຍັງສາມາດລົ້ມເຫຼວໃນກໍລະນີທີ່ສຳຄັນທີ່ສຸດ: ກັບດັກການວິນິດໄຈແຍກພະຍາດ, ຕົວແປທີ່ບໍ່ເປັນອັນຕະລາຍທີ່ເບິ່ງອັນຕະລາຍເມື່ອເບິ່ງແບບດຽວ, ແລະ ກຸ່ມການກວດທີ່ປົກກະຕິຢ່າງສົມບູນ ທີ່ລໍ້ໃຫ້ຜູ້ຊ່ວຍທີ່ໝັ້ນໃຈສ້າງພະຍາດຂຶ້ນມາ.
ເກນມາດຕະຖານນີ້ຖືກສ້າງຂຶ້ນໂດຍອີງໃສ່ຮູບແບບຄວາມລົ້ມເຫຼວເຫຼົ່ານັ້ນໂດຍກົງ. ທັງ 15 ກໍລະນີ ຖືກເລືອກເພື່ອຄຸນສົມບັດການວິນິດໄຈທີ່ສະເພາະ: microcytosis ທີ່ຂາດເຫຼັກ ທີ່ຕ້ອງແຍກໃຫ້ຊັດຈາກ beta-thalassaemia trait ທີ່ມີ mean corpuscular volume ຄ້າຍກັນ, ການສະແດງຂອງ Gilbert's syndrome ທີ່ຄວາມຜິດປົກກະຕິພຽງແຕ່ແມ່ນ isolated indirect hyperbilirubinaemia, ແລະ ກຸ່ມການກວດຄັດກອງ 15 ພາລາມິເຕີ ທີ່ທຸກຕົວວິເຄາະຢູ່ໃນຊ່ວງອ້າງອີງຂອງຕົນ. ເກນການປະເມີນຈະໃຫ້ຄະແນນແກ່ເຄື່ອງຈັກທີ່ອ່ານແຕ່ລະກໍລະນີຕາມເງື່ອນໄຂຂອງມັນເອງ ແລະຈະຫັກຄະແນນໃຫ້ເຄື່ອງຈັກທີ່ພະຍາຍາມສະຫຼຸບການວິນິດໄຈຢ່າງໝັ້ນໃຈ ໃນບ່ອນທີ່ບໍ່ມີການວິນິດໄຈແນວນັ້ນທີ່ຄວນຈະຮອງຮັບ.
ໃນນາມຂອງ Thomas Klein, MD, ຂ້າພະເຈົ້າເລືອກຊຸດກໍລະນີນີ້ ເພາະວ່ານີ້ແມ່ນຮູບແບບທີ່ຂ້າພະເຈົ້າເຫັນຜູ້ຊ່ວຍດ້ານການແພດ-ຫ້ອງທົດລອງ ເຮັດຜິດພາດບໍ່ເລືອກຫຼາຍທີ່ສຸດ. ຄວາມລົ້ມເຫຼວທີ່ແພງ ບໍ່ແມ່ນ "ພາດພະຍາດທີ່ຫາຍາກ" — ແຕ່ແມ່ນການປະດິດພະຍາດປົກກະຕິໃນຄົນເຈັບທີ່ບໍ່ໄດ້ມີພະຍາດນັ້ນ. ຂອງພວກເຮົາ ການກວດສອບທາງການແພດ ອະທິບາຍກອບລວມທີ່ກວ້າງກວ່າ; ໜ້ານີ້ອະທິບາຍ V11 ການພິສູດແນວຄວາມຄິດ (proof-of-concept) ເບື້ອງຕົ້ນ ແລະ V11 ການອັບເດດຄັ້ງທີ 2 ທີ່ຂະຫຍາຍມັນໄປສູ່ 100,000 ກໍລະນີທີ່ບໍ່ລະບຸຕົວຕົນ (anonymised) ທີ່ດຶງມາຈາກຄັງຂໍ້ມູນທາງການແພດທີ່ໃຊ້ SQL ຊຶ່ງຄອບຄຸມ 127 ປະເທດ — ໂດຍໃຊ້ rubric ການໃຫ້ຄະແນນດຽວກັນ, ຄືກັນທຸກໄບດ໌, ແລະ ບໍ່ອະນຸຍາດໃຫ້ປັບຄ່າພາຍຫຼັງ (post-hoc).
ການທົດລອງອ້າງອີງລ່າສຸດ — V11 ການອັບເດດຄັ້ງທີ 2 (26 ເມສາ 2026)
ການທົດລອງອ້າງອີງຂອງ V11 ການອັບເດດຄັ້ງທີ 2 ວັນທີ 26 ເມສາ 2026 ໄດ້ຜະລິດຄະແນນລວມ (composite score) ຂອງ 99.80% ໃນ rubric ທີ່ລົງທະບຽນໄວ້ກ່ອນດຽວກັນກັບການປ່ອຍເລີ່ມຕົ້ນຂອງ V11, ປະເມີນໃນ 100,000 ກໍລະນີທີ່ບໍ່ລະບຸຕົວຕົນ ທີ່ດຶງມາຈາກຄັງຂໍ້ມູນທາງການແພດ Kantesti ທີ່ໃຊ້ SQL ແລະຄອບຄຸມ 127 ປະເທດ ແລະ 75+ ພາສາ. ທຸກກໍລະນີສຳເລັດໃນເສັ້ນທາງຫຼັກຂອງເຄື່ອງຈັກ; ການເປີດໃຊ້ທຸງ (flag) ການວິນິດໄສເກີນຈຳເປັນ (trap-case hyperdiagnosis) ຍັງຢູ່ທີ່ 0 / 87,412. ການທົດລອງເດີມຂອງ V11 ວັນທີ 23 ເມສາ 2026 ຄອບຄຸມ 15 ກໍລະນີທີ່ຄັດເລືອກໂດຍມື (hand-curated) (ຄະແນນລວມ 99.12%) ແລະ ຢືນຢັນ rubric; ການອັບເດດຄັ້ງທີ 2 ຮັກສາ rubric ໃຫ້ຄືກັນທຸກໄບດ໌ ແລະ ຂະຫຍາຍການປະເມີນໄປສູ່ກຸ່ມປະຊາກອນຂະໜາດໃຫຍ່.
ສູດຄະແນນລວມປະກອບດ້ວຍ 3 ສ່ວນ: ຄວາມສອດຄ່ອງດ້ານໂຄງສ້າງ ກັບ 7 ພາກສ່ວນລາຍງານທີ່ຕ້ອງມີ ແລະ 16 ພາກສ່ວນຍ່ອຍທີ່ຕ້ອງມີ, ຄວາມຖືກຕ້ອງທາງຄລີນິກ ວັດແທກເປັນ keyword recall ບວກກັບ scoring-system recall ບວກກັບການກວດຄວາມຖືກຕ້ອງຂອງ probability-distribution, ແລະ ເວລາຕອບກັບ ຕໍ່ເປົ້າໝາຍລະດັບການບໍລິການ (service-level) ຂອງເສັ້ນທາງຫຼັກ. ການແຍກຢ່າງຖືກຕ້ອງຖືກສະແດງໄວ້ໃນສູດ rubric ດ້ານລຸ່ມ — ບໍ່ມີນ້ຳໜັກ ຫຼື sub-rubric ອັນໃດໜຶ່ງຖືກປ່ຽນແປງສຳລັບການອັບເດດຄັ້ງທີ 2.
ສ່ວນທີ່ເຫຼືອ 0.20 ຈຸດເປີເຊັນຂອງຊ່ອງຫຼືອ (headroom) ແມ່ນແຍກລົງໄປເກືອບທັງໝົດໃນຄະແນນຍ່ອຍດ້ານການແພດ (clinical sub-score) — ສ່ວນນ້ອຍຂອງກໍລະນີ (ສ່ວນໃຫຍ່ຢູ່ໃນ Hepatology ແລະ Rheumatology) ມີຄຳສຳຄັນຂອງລະບົບການໃຫ້ຄະແນນທີ່ຄາດໄວ້ວ່າຈະມີ ແຕ່ບໍ່ຖືກພົບໃນການຕີຄວາມຂອງເຄື່ອງຈັກ ເຖິງແມ່ນວ່າເນື້ອຫາດ້ານການວິນິດໄສຖືກຕ້ອງ. ບໍ່ມີກໍລະນີໃດໃນກຸ່ມກໍລະນີ 100,000 ຂອງການອັບເດດຄັ້ງທີ 2 ທີ່ພາດການວິນິດໄສຕົວມັນເອງ. ຄວາມຊ້າ (latency) ດີຂຶ້ນຈາກຄ່າສະເລ່ຍ 20.17 s ໃນການປ່ອຍເລີ່ມຕົ້ນຂອງ V11 ໄປເປັນ 13.26 s ໃນການອັບເດດຄັ້ງທີ 2, ສະທ້ອນການປັບປຸງເຄື່ອງຈັກສຳລັບການນຳໃຊ້ຈິງ (production engine optimisations) ລະຫວ່າງສອງການທົດລອງ; rubric, ລະຫັດການໃຫ້ຄະແນນ, ແລະ endpoint ຂອງ API ບໍ່ປ່ຽນແປງ.
ຄະແນນລວມຕາມປະເທດ (per-country composite scores) ຢູ່ລະຫວ່າງ 0.9971 (ອິນເດຍ) ຫາ 0.9985 (ສະວິດເຊີແລນ) ໃນ 30 ປະເທດທີ່ມີກໍລະນີຖືກຕົວແທນຫຼາຍທີ່ສຸດ. ສ່ວນທ້າຍຍາວຂອງ 97 ປະເທດເພີ່ມ (≈7,300 ກໍລະນີລວມກັນ) ບໍ່ສະແດງການເສື່ອມໂຊມແບບເປັນລະບົບ. ຜູ້ສະໜັບສະໜູນອັນດັບຕົ້ນຕາມຈຳນວນກໍລະນີ ແມ່ນ ສະຫະລັດ (10,500), ບຣາຊິນ (9,500), ສະເປນ (9,000), ອິຕາລີ (8,000), ເຢຍລະມັນ (7,800), ຝຣັ່ງ (7,400), ໂປຕຸເກັດ (5,800), Türkiye (3,400), ສະຫະອານາຈັກ (2,900), ແລະ ເມັກຊິໂກ (2,500).
ຈາກ 15 ກໍລະນີ ເຖິງ 100,000: ການພັດທະນາຂອງກຸ່ມຕົວຢ່າງຂ້າມ 127 ປະເທດ
ກຸ່ມກໍລະນີ (case panel) ເດີມຂອງ V11 ຄອບຄຸມ 7 ສາຂາ — ເຮມາໂຕລອຈີ (hematology), ເອນໂດຄຣິໂນໂລຈີ (endocrinology), ຢາດ້ານການເມຕາໂບລິຊຶມ (metabolic medicine), ເຮປາໂຕໂລຈີ (hepatology), ເນຟໂຟໂລຈີ (nephrology), ຄາດຕິໂອໂລຈີ (cardiology), ຣີມາໂຕໂລຈີ (rheumatology) — ແລະ ກໍລະນີ trap ສຳລັບການວິນິດໄສເກີນຈຳເປັນ (hyperdiagnosis) ສອງກໍລະນີໂດດສະເພາະ, ໂດຍແຕ່ລະກໍລະນີເປັນບັນທຶກຂອງຄົນເຈັບຈິງທີ່ບໍ່ລະບຸຕົວຕົນ (anonymised) ທີ່ດຶງມາຈາກຄັງຂໍ້ມູນການແພດ Kantesti ພາຍໃຕ້ຄຳຍິນຍອມທີ່ໄດ້ຮັບຢ່າງເປັນລາຍລັກອັກສອນ. ການອັບເດດຄັ້ງທີ 2 ຂອງ V11 ຂະຫຍາຍການປະເມີນໄປສູ່ 100,000 ກໍລະນີທີ່ບໍ່ລະບຸຕົວຕົນ ທົ່ວ 127 ປະເທດ, ຈັດກະຈາຍໃນ 8 ສາຂາ (ເຈັດສາຂາເດີມ ບວກກັບກຸ່ມພາຍໃນທີ່ອຸດຊອບສ່ວນ trap). ນຳໃຊ້ rubric ການໃຫ້ຄະແນນດຽວກັນ ຄືກັນທຸກໄບດ໌ ໃນທັງສອງການທົດລອງ.
ການບໍ່ລະບຸຕົວຕົນ (De-identification) ໄດ້ດຳເນີນພາຍໃຕ້ວິທີ Safe Harbor: ຕົວລະບຸຕົວຕົນໂດຍກົງທັງໝົດຖືກລົບອອກ ຫຼື ທົດແທນ, ແລະ ແຕ່ລະບັນທຶກຖືກກຳນົດໃຫ້ເປັນລະຫັດກໍລະນີພາຍໃນມາດຕະຖານ (benchmark-internal case code) ໃນຮູບແບບ BT-NNN-LABEL (V11 initial) ຫຼື ລະຫັດກໍລະນີທີ່ບໍ່ລະບຸຕົວຕົນທີ່ຄົງທີ່ case_uid ສຳລັບການອັບເດດຄັ້ງທີ 2. ການປະມວນຜົນໄດ້ດຳເນີນຕາມ GDPR ມາດຕາ 9(2)(j) ສຳລັບການຄົ້ນຄວ້າທາງວິທະຍາສາດ ພ້ອມກັບມາດຕະການປົກປ້ອງທີ່ເໝາະສົມ, ແລະ ຂໍ້ກຳນົດ UK GDPR ທີ່ເທົ່າທຽມກັນ. ບໍ່ມີຂໍ້ມູນທີ່ລະບຸຕົວບຸກຄົນ (personally identifying information) ປາກົດຢູ່ບ່ອນໃດໃນ harness ທີ່ຖືກເຜີຍແຜ່, ລາຍງານທາງວິຊາການ, ຫຼື ຊຸດຂໍ້ມູນທີ່ປ່ອຍອອກ.
ການປ່ອຍເລີ່ມຕົ້ນຂອງ V11 — 15 ກໍລະນີທີ່ຄັດເລືອກໂດຍມື
ກະດານກໍລະນີ V11 ເດີມ ໄດ້ຖືກຄັດເລືອກດ້ວຍມືໂດຍທ່ານດຣ. Thomas Klein ເພື່ອຝຶກຮູບແບບການວິນິດໄສທີ່ຜູ້ຊ່ວຍດ້ານການແພດທາງຫ້ອງທົດລອງມັກຈະເຮັດຜິດພາດຫຼາຍທີ່ສຸດ. ທັງ 15 ກໍລະນີ ໄດ້ຖືກເລືອກເພື່ອຄຸນສົມບັດການວິນິດໄສສະເພາະ ດັ່ງທີ່ລະບຸຂ້າງລຸ່ມນີ້.
ເປັນຫຍັງການແຈກຈ່າຍນີ້ຈຶ່ງເປັນພິເສດ
ວິຊາການເລືອດ (Hematology) ໄດ້ສາມກໍລະນີ ເພາະວ່າການຈຳແນກແບບ microcytic ແລະ macrocytic ແມ່ນກັບດັກທີ່ມີປະລິມານສູງສຸດໃນການປະຕິບັດງານຫ້ອງທົດລອງຕົວຈິງ. ວິຊາຕໍ່ມະນຸດ (Endocrinology) ໄດ້ສາມກໍລະນີ ເພາະວ່າການສະແດງອາການຂອງ Hashimoto's, PCOS, ແລະ ຂາດວິຕາມິນດີ ມີຮູບແບບການວິນິດໄຊທີ່ແຕກຕ່າງກັນ (ຂັບເຄື່ອນໂດຍ autoantibody, ຂັບເຄື່ອນໂດຍອັດຕາຮໍໂມນ, ແລະ ຂັບເຄື່ອນໂດຍຕົວຊີ້ດຽວ). ສາຂາທີ່ມີພຽງກໍລະນີດຽວຍັງມີຄວາມໝາຍ ເພາະແຕ່ລະຢ່າງຂອງ CKD, ຄວາມສ່ຽງ ASCVD, ແລະ SLE ມີລະບົບຄະແນນຂອງຕົນເອງ ທີ່ເຄື່ອງຈະຕ້ອງເອີ້ນໃຊ້ (KDIGO staging, ຄວາມສ່ຽງ 10 ປີຂອງ ASCVD, ແລະ ເກນ SLE 2019 EULAR/ACR ຕາມລຳດັບ).
ການອັບເດດ V11 ຄັ້ງທີ 2 — 100,000 ກໍລະນີທີ່ບໍ່ລະບຸຕົວຕົນ ທົ່ວ 127 ປະເທດ
ການອັບເດດຄັ້ງທີ 2 ແທນທີ່ການກໍານົດຄ່າຕາຍ V11 ເດີມ 15-case Python literal ດ້ວຍຄໍາສັ່ງ SQL ທີ່ປັບພາລາມິເຕີໄດ້ ແລະ ອ່ານໄດ້ຢ່າງດຽວ ທຽບໃສ່ຄັງຂໍ້ມູນທາງຄລີນິກ Kantesti (anonymised_blood_panels). ຄໍາສັ່ງຈະກັ່ນຕອງໂດຍ consent_research = 1 AND released_for_benchmark = 1 ແລະຈະຖືກພິມຢູ່ດ້ານເທິງຂອງທຸກການທົດສອບ benchmark ເພື່ອຄວາມໂປ່ງໃສ. ການແຈກຢາຍຂອງກຸ່ມຕົວຢ່າງຕາມສາຂາວິຊາ ສະແດງດັ່ງລຸ່ມນີ້.
ການກະຈາຍທາງພູມສາດ — 10 ປະເທດອັນດັບຕົ້ນ
ກຸ່ມຕົວຢ່າງຄອບຄຸມ 127 ປະເທດ (ISO 3166-1 alpha-2) ໂດຍຢູ່ໃນເອີຣົບ 57.7%, ອາເມລິກາ 25.4%, ອາຊີ-ແປຊິຟິກ 6.2%, ລາຍການຊື່ກາງ-ອາຟຣິກາ 3.4%, ແລະ ຊຸດຍາວຂອງ 97 ປະເທດເພີ່ມອີກລວມກັນປະມານ 7.3%. ຜູ້ສະໜອດໃຫຍ່ສິບອັນດັບທຳອິດແມ່ນ ສະຫະລັດ (10,500), ບຣາຊິລ (9,500), ສະເປນ (9,000), ອິຕາລີ (8,000), ເຢຍລະມັນ (7,800), ຝຣັ່ງ (7,400), ໂປຕຸເກັດ (5,800), Türkiye (3,400), ສະຫະອານາຈັກ (2,900), ແລະ ເມັກຊິໂກ (2,500). ຄະແນນລວມຕໍ່ປະເທດມີຊ່ວງຈາກ 0.9971 (ອິນເດຍ) ຫາ 0.9985 (ສະວິດເຊີແລນ).
ກຳນົດເກນທີ່ລົງທະບຽນໄວ້ (pre-registered rubric), ອະທິບາຍ
ການລົງທະບຽນກ່ອນການດຳເນີນການ (pre-registration) ແມ່ນການຕັດສິນໃຈດ້ານວິທີການ (methodological) ທີ່ສຳຄັນທີ່ສຸດໃນແບັນມາກນີ້. ທຸກການວິນິດໄຊທີ່ຄາດໄວ້, ທຸກລະບົບຄະແນນທາງຄລີນິກ, ແລະ ທຸກສ່ວນຂອງລາຍງານ ໄດ້ຖືກກຳນົດໄວ້ໃນ source code ກ່ອນທີ່ເຄື່ອງຈະຖືກເອີ້ນໃຊ້. ດັດແກ້ພາຍຫຼັງ (post-hoc) ຂອງ rubric ເພື່ອໃຫ້ອອກມາດີກັບເຄື່ອງ ຈຶ່ງເປັນໄປບໍ່ໄດ້.
ອົງປະກອບສາມຢ່າງ ປະກອບເປັນຄະແນນລວມ. ສ່ວນ ດ້ານໂຄງສ້າງ (structural component) ມີຄ່າ 35 ເປີເຊັນ ແລະວັດວ່າເຄື່ອງໄດ້ສົ່ງຄືນ 7 ສ່ວນລາຍງານທີ່ຕ້ອງມີ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) ແລະ 16 ສ່ວນຍ່ອຍທີ່ຕ້ອງມີພາຍໃນພວກມັນ. ການມີຢູ່ຂອງສ່ວນ (Section presence) ມີນ້ຳໜັກ 40 ເປີເຊັນ ແລະ ການມີຢູ່ຂອງສ່ວນຍ່ອຍ (subsection presence) ມີນ້ຳໜັກ 60 ເປີເຊັນ ພາຍໃນການຄຳນວນດ້ານໂຄງສ້າງ.
ໄດ້ ສ່ວນດ້ານຄລີນິກ (clinical component) ມີຄ່າ 55 ເປີເຊັນ ແລະລວມ 3 ຢ່າງ: ການຈື່ຄຳສຳຄັນການວິນິດໄຊ (diagnosis-keyword recall) (70 ເປີເຊັນຂອງຄະແນນຍ່ອຍດ້ານຄລີນິກ), ການຈື່ລະບົບຄະແນນ (scoring-system recall) (20 ເປີເຊັນ — ເຄື່ອງຄຳນວນ Mentzer, FIB-4, HOMA-IR, ຄວາມສ່ຽງ ASCVD, KDIGO staging, ເກນ EULAR/ACR ບ່ອນທີ່ເໝາະສົມບໍ), ແລະ ການກວດຄວາມຖືກຕ້ອງດ້ານຄວາມເປັນໄປໄດ້ລວມ (probability-sum validity check) (10 ເປີເຊັນ — ຄວາມເປັນໄປໄດ້ຂອງ differential ຄວນລວມໄດ້ພາຍໃນຊ່ວງ [90, 110]). ສຳລັບກໍລະນີກັບດັກ (trap cases) ຈະຫັກໂທດການ hyperdiagnosis ຢ່າງຊັດເຈນ ເຖິງ 0.30 ໂດຍຄຳນວນເປັນ 0.10 ຕໍ່ປ້າຍສະແດງພະຍາດທີ່ປອມ (fabricated pathology flag), ຈຳກັດບໍ່ໃຫ້ເກີນສາມປ້າຍ.
ໄດ້ ສ່ວນດ້ານເວລາລ່າຊ້າ (latency component) ມີຄ່າ 10 ເປີເຊັນ. ການຕອບທີ່ຕ່ຳກວ່າ 20 ວິນາທີ ໄດ້ຄົບເຕັມ 0.10, ການຕອບທີ່ຕ່ຳກວ່າ 40 ວິນາທີ ໄດ້ 0.05, ແລະ ສິ່ງໃດທີ່ຊ້າກວ່ານັ້ນ ໄດ້ສູນ. ເປົ້າໝາຍ 20 ວິນາທີ ສະທ້ອນວັດຖຸປະສົງລະດັບການບໍລິການ (production primary-path service-level objective); ຂອບເຂດ 40 ວິນາທີ ສະທ້ອນງົບສຳຮອງສຳລັບ Phase 2 ສຳລັບການເອີ້ນໃຊ້ເຄື່ອງຢ່າງໜັກ.
ສິ່ງທີ່ pre-registration ປ້ອງກັນ
ແບັນມາກຂອງຜູ້ສ້າງເອງ (first-party benchmarks) ເປັນທີ່ຮູ້ກັນດີວ່າມັກຈະເພີ່ມຕົວເລກຂອງຕົນເອງຜ່ານການດັດແກ້ rubric ພາຍຫຼັງ (post-hoc). ຮູບແບບເກືອບຈະເປັນແນວນີ້ສະເໝີ: ທີມງານເອີ້ນໃຊ້ເຄື່ອງ, ເຫັນວ່າບ່ອນໃດທີ່ຕົກຕ່ຳ, ຈາກນັ້ນກໍປັບ rubric ຢ່າງງຽບໆ ເພື່ອໃຫ້ບ່ອນທີ່ຕົກຕ່ຳນັ້ນນັບໜ້ອຍລົງ. ໂດຍການກຳນົດ rubric ໃຫ້ເປັນ source code ກ່ອນການເອີ້ນເຄື່ອງຄັ້ງທຳອິດ ແລະ ເຜີຍແຜ່ harness ພາຍໃຕ້ລິຂະສິດ MIT, ການປັບນັ້ນຈະປາກົດໃຫ້ເຫັນໃນ version control. ຜູ້ໃດກໍສາມາດ clone ຮີໂປຊິຕໍຣີ (repository), ກວດສອບວັນທີຜູ້ຂຽນ rubric, ແລະ ຢືນຢັນວ່າຜົນຂອງເຄື່ອງບໍ່ໄດ້ຖືກນຳໄປໃຊ້ເພື່ອປັ້ນຄະແນນ.
ກໍລະນີກັບດັກ hyperdiagnosis — ເປັນຫຍັງການເອີ້ນຜິດຫຼາຍ (over-calling) ຈຶ່ງເປັນຮູບແບບຄວາມລົ້ມເຫຼວທີ່ແທ້
ການເອີ້ນພະຍາດ (pathology) ຢ່າງຮຸກຮານເກີນໄປໃນໜ້າຈໍປົກກະຕິ ແມ່ນຮູບແບບຄວາມລົ້ມເຫຼວ (failure mode) ທີ່ຖືກບັນທຶກໄວ້ສຳລັບຜູ້ຊ່ວຍທາງການແພດທີ່ສຳລັບຜູ້ໃຊ້ (consumer-facing medical assistants). ຄ່າໃຊ້ຈ່າຍຕໍ່ເນື່ອງ (downstream costs) ລວມມີການສືບສວນທີ່ບໍ່ຈຳເປັນ, ຄວາມກັງວົນຂອງຄົນເຈັບ, ແລະ ການກວດປິ່ນປົວທີ່ເກີດຈາກການຮັກສາແບບບໍ່ຈຳເປັນ (iatrogenic workup). ສອງກໍລະນີກັບດັກ (trap cases) ໃນແບັນມາກນີ້ ຖືກອອກແບບເພື່ອໃຫ້ຮູບແບບຄວາມລົ້ມເຫຼວນັ້ນ ປາກົດໃຫ້ເຫັນ ແລະ ຖືກຄະແນນໄດ້.
🟡 ກໍລະນີກັບດັກ 1 — BT-014-GILBERT
ການສະແດງອາການ (Presentation). ຊາຍອາຍຸ 24 ປີ ມີ bilirubin ທັງໝົດ 2.4 mg/dL. ສ່ວນທີ່ໂດຍກົງ (direct fraction) ແມ່ນປົກກະຕິ, transaminases ແລະ alkaline phosphatase ຢູ່ໃນຂອບເຂດອ້າງອີງຂອງມັນ, reticulocytes ບໍ່ເປັນຫຍັງ, ແລະ haptoglobin ແລະ LDH ຕັດອອກ haemolysis.
ການອ່ານທີ່ຖືກຕ້ອງ (Correct interpretation). Gilbert's syndrome — ຄວາມປ່ຽນແປງທີ່ບໍ່ເປັນອັນຕະລາຍຂອງ UGT1A1. ການອ່ານບໍ່ຄວນເອີ້ນ hepatitis, cirrhosis, haemolytic anaemia, ຫຼື biliary obstruction.
ຜົນ V11. ຄະແນນລວມ 1.000. ບໍ່ມີໜຶ່ງໃນ 6 ສັນຍານການວິນິດໄຊເກີນໄປ (over-diagnosis flags) ທີ່ຖືກຕິດຕາມ ປາກົດຂຶ້ນເປັນການວິນິດໄຊທີ່ເປັນຢູ່ (active diagnoses).
🟡 ກໍລະນີກັບດັກ 2 — BT-015-HEALTHY
ການສະແດງອາການ (Presentation). ແມ່ຍິງອາຍຸ 35 ປີ ກັບຊຸດກວດຄັດກອງປະຈຳວັນ 15 ພາລາມິເຕີ. ທຸກຕົວວັດ (analyte) ຢູ່ໃນຂອບເຂດອ້າງອີງຂອງມັນຢ່າງສະບາຍ.
ການອ່ານທີ່ຖືກຕ້ອງ (Correct interpretation). ການຢືນຢັນໃຫ້ໝັ້ນໃຈ ແລະການຮັກສາວິຖີຊີວິດ. ການອ່ານຜົນບໍ່ຄວນປະດິດພະຍາດຂອບເຂດໃຫ້ເຫັນວ່າມີຄວາມເປັນປະໂຫຍດທາງຄລີນິກ.
ຜົນ V11. ຄະແນນລວມ 1.000. ບໍ່ມີໜຶ່ງໃນເຈັດສັນຍານການກວດພົບເກີນ (over-diagnosis) ທີ່ຕິດຕາມ — ໂລກເບົາຫວານ, ໂລກຈາງ (anaemia), ໂລກຕ່ອມໄທຣອຍຕໍ່າ (hypothyroidism), ພະຍາດໄຂມັນໃນເລືອດຜິດປົກກະຕິ (dyslipidaemia), ຕັບອັກເສບ (hepatitis), ພະຍາດໝາກໄຂ່ຫຼັງ, ການຂາດແຄນ — ປາກົດເປັນການວິນິດໄສທີ່ເປັນຢູ່.
ໃນທັງສອງກັບດັກ (traps), ໄດ້ກວດສອບສັນຍານການວິນິດໄສເກີນ (hyperdiagnosis) ທີ່ຕິດຕາມຈຳນວນ 13 ຢ່າງ. ບໍ່ມີອັນໃດຖືກກະຕຸ້ນ. ນີ້ແມ່ນຜົນທີ່ສຳຄັນທີ່ສຸດສຳລັບແພດທຸກຄົນທີ່ກຳລັງພິຈາລະນານຳໃຊ້ລະບົບ AI ເປັນເຄື່ອງມືຄັດກອງ (triage) ຫຼືກ່ອນການປຶກສາ: ລະບົບບໍ່ໄດ້ປະດິດພະຍາດຂຶ້ນມາຖ້າບໍ່ມີຢູ່.
ດັດຊະນີ Mentzer: ແຍກຄວາມຂາດເຫຼັກ (iron deficiency) ອອກຈາກລັກສະນະ thalassaemia trait
ພົບຄັ້ງທີ່ມີຄຸນຄ່າສູງອີກຢ່າງໜຶ່ງ ກ່ຽວກັບການຈັບຄູ່ຂອງ case BT-001 (ພາວະຈາງຈາກການຂາດເຫຼັກ) ກັບ case BT-007 (beta-thalassaemia minor). ທັງສອງຢ່າງມີ microcytosis ແລະເປັນອຸປະສັກທີ່ຮູ້ຈັກດີສຳລັບຕົວຈຳແນກ (classifiers) ທີ່ຍັງບໍ່ຊຳນານ. ດັດຊະນີ Mentzer ທີ່ຄຳນວນເປັນ MCV ຫານດ້ວຍຈຳນວນ RBC ເກີນ 13 ໃນການຂາດເຫຼັກ ແລະຕ່ຳກວ່າ 13 ໃນລັກສະນະ thalassaemia.
ໃນ BT-001, ຄົນເຈັບເປັນແມ່ຍິງອາຍຸ 34 ປີ ມີ hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, ແລະ TIBC ສູງ. ດັດຊະນີ Mentzer ປະມານ 17.7 ສະໜັບສະໜູນການຂາດເຫຼັກແບບຈຳເພາະ (absolute iron deficiency). ໃນ BT-007, ຄົນເຈັບເປັນຊາຍອາຍຸ 28 ປີ ມີ microcytosis (MCV 65.8 fL) ແຕ່ມີ RBC ສູງ 6.2, RDW ປົກກະຕິ, ferritin ປົກກະຕິ, ແລະ HbA2 5.6 ເປີເຊັນ. ດັດຊະນີ Mentzer ປະມານ 10.6 ຊີ້ໄປທາງ thalassaemia trait ແລະ HbA2 ທີ່ສູງຢືນຢັນ beta-thalassaemia minor.
ທັງສອງກໍລະນີໄດ້ຄະແນນ 1.000. ເຄື່ອງຈັກໄດ້ເອີ້ນໃຊ້ດັດຊະນີ Mentzer ຢ່າງຊັດເຈນໃນທັງສອງການອ່ານ ແລະໄດ້ສົ່ງການວິນິດໄສທີ່ຖືກຕ້ອງໃນແຕ່ລະກໍລະນີ. ນີ້ແມ່ນຜົນທີ່ເຮັດໃຫ້ໝັ້ນໃຈທາງຄລີນິກທີ່ສຸດພຽງອັນດຽວໃນທັງໝົດການທົດສອບ (benchmark), ເພາະການຈັດຜິດ thalassaemia trait ເປັນການຂາດເຫຼັກ ຈະນຳໄປສູ່ການໃຫ້ເສີມເຫຼັກທີ່ບໍ່ເໝາະສົມ ແລະເສຍໂອກາດໃນການຄັດກອງຄອບຄົວ, ແລະການຈັດຜິດການຂາດເຫຼັກເປັນ thalassaemia ຈະຊັກຊ້າການປິ່ນປົວທົດແທນທີ່ງ່າຍດາຍ. ພວກເຮົາ ຄູ່ມືຊ່ວງ ferritin ອະທິບາຍບັນບັນທຶກບຣິບົດການແຍກຄວາມເປັນໄປໄດ້ (differential) ທີ່ກວ້າງຂຶ້ນ.
ຜົນຕໍ່ກໍລະນີຈາກການອ້າງອີງເບື້ອງຕົ້ນ V11 (23 ເມສາ 2026)
ການອ້າງອີງ V11 ເດີມໃນກຸ່ມ proof-of-concept 15 ກໍລະນີ ເປັນ ພື້ນຖານດ້ານວິທີການ ຂອງ Second Update: ລາຍລະອຽດຕໍ່ກໍລະນີທີ່ຢູ່ດ້ານລຸ່ມນີ້ສະແດງວ່າ rubric ຈັດການກັບຄຳຕອບຂອງເຄື່ອງຈັກຈິງແນວໃດ. ຈາກ 15 ກໍລະນີ, 12 ກໍລະນີໄດ້ຄະແນນລວມສູງສຸດ 1.000 ໃນ primary path; 3 ກໍລະນີຖືກຮັບໃຊ້ຜ່ານ Phase 2 fallback, ເສຍຄະແນນ bonus ຄວາມຊ້າ 0.05 ໃນຂະນະທີ່ຮັກສາທຸກເນື້ອຫາດ້ານຄລິນິກ ແລະ ໂຄງສ້າງໄວ້ຄົບຖ້ວນ. ມີ 1 ກໍລະນີຂາດຍ່ອຍບັງຄັບທີ່ຈຳເປັນພຽງໜຶ່ງສ່ວນ; ແລະ 1 ກໍລະນີສົ່ງຄືນຜົນລວມຂອງການຈັດກຸ່ມຄວາມເປັນໄປໄດ້ທີ່ຫຼຸດລົງເລັກນ້ອຍ.
ກໍລະນີ PCOS (BT-008) ໄດ້ສູນເສຍພາຍຍ່ອຍທີ່ຈຳເປັນອັນໜຶ່ງໃນໂຄງສ້າງຄຳຕອບ — ສິບຫ້າຈາກສິບຫົກ ແທນທີ່ຈະເປັນສິບຫົກຈາກສິບຫົກ — ເຊິ່ງໄດ້ຫັກຄະແນນໂຄງສ້າງຈາກ 1.000 ເປັນ 0.963. ກໍລະນີ SLE (BT-011) ສົ່ງຄືນຜົນລວມຂອງຄວາມເປັນໄປໄດ້ທີ່ຖືກຫຼຸດລົງແບບພຽງເລັກນ້ອຍ ຊຶ່ງເຮັດໃຫ້ຄະແນນດ້ານຄລີນິກຫຼຸດລົງເປັນ 0.965 ໃນຂະນະທີ່ຍັງຮັກສາຄຳສັບການວິນິດໄຊແລະລະບົບການໃຫ້ຄະແນນທຸກອັນໄວ້. ບໍ່ມີກໍລະນີທີ່ບໍ່ສົມບູນທັງສອງກໍລະນີທີ່ພາດການວິນິດໄຊທີ່ຖືກຕ້ອງ.
V11 Second Update aggregate — 100,000 ກໍລະນີ
ໃນຂະໜາດລະດັບປະຊາກອນ, ແຖວຂອງແຕ່ລະກໍລະນີບໍ່ສາມາດອ່ານໄດ້ໂດຍມະນຸດ, ດັ່ງນັ້ນ Second Update ລາຍງານຕົວຊີ້ວັດທີ່ຖືກລວມລວມ ແທນທີ່ຈະເປັນຕາຕະລາງ 100,000 ແຖວ. ຄະແນນລວມຫຼັກສະແດງຢູ່ດ້ານລຸ່ມນີ້; ການແຍກຕາມສາຂາຊ່ຽວຊານ ແລະ ຕາມປະເທດ ຖືກເຜີຍແຜ່ໃນລາຍງານທາງວິຊາການ ແລະ ການຝາກ Figshare. ການສຸ່ມແບບຊັ້ນຊັ້ນຂອງ n = 201 ຄຳຕອບດິບຈາກເຄື່ອງຈັກ (ເມັດກຳນົດທີ່ກຳນົດໄດ້ 20260426) ຖືກເຜີຍແຜ່ໃນ GitHub results/ ເພື່ອກວດສອບ.
ຄະແນນຫົວຂ່າວບໍ່ໄດ້ບອກພວກເຮົາຫຍັງ
ຄະແນນລວມ 99.80 ເປີເຊັນ ພາຍໃຕ້ກອບການປະເມີນທີ່ລົງທະບຽນໄວ້ກ່ອນໂດຍສະເພາະນີ້, ໃນກຸ່ມຕົວຢ່າງທີ່ບໍ່ລະບຸຕົວຈຳນວນ 100,000 ກໍລະນີ ຂະໜາດ 127 ປະເທດ, ສະແດງຜົນໃກ້ຂອບສູງສຸດ — ແຕ່ມັນຄວນຖືກວາງກອບຢ່າງລະມັດລະວັງ. ຜົນລັບອະທິບາຍພຶດຕິກຳຂອງເຄື່ອງຈັກຕໍ່ກັບກອບການປະເມີນທີ່ພວກເຮົາສັນຍາວ່າຈະອ້າງອີງໃນຊອດໂຄດໃນ V11; ບໍ່ແມ່ນການອ້າງທົ່ວໄປວ່າເຄື່ອງຈັກຖືກຕ້ອງທຸກກະດານກວດເລືອດທີ່ມີຢູ່ໃນໂລກຈິງ.
ຄະແນນບອກວ່າເຄື່ອງຈັກຈັດການຮູບແບບການວິນິດໄຊທີ່ເລືອກສຳລັບການປະເມີນນີ້ໄດ້ຢ່າງຖືກຕ້ອງ ຂະໜາດກຸ່ມຕົວຢ່າງລະດັບປະຊາກອນ, ດ້ວຍວິທີການທີ່ເຜີຍແຜ່ແລະສາມາດທົດຊ້ຳໄດ້. ມັນບໍ່ໄດ້ບອກວ່າເຄື່ອງຈັກຖືກຕ້ອງທຸກກະດານກວດເລືອດທີ່ມີຢູ່ໃນໂລກຈິງ. ມັນບໍ່ໄດ້ບອກວ່າເຄື່ອງຈັກຄວນມາແທນການຕັດສິນໃຈຂອງແພດຜູ້ຊ່ຽວຊານ. ແລະມັນບໍ່ໄດ້ບອກວ່າເຄື່ອງຈັກມີຜົນດີກວ່າລະບົບ AI ອື່ນ — ການວິເຄາະປຽບທຽບກັບເຄື່ອງຈັກອື່ນໆແມ່ນຈົດໄວ້ວ່າບໍ່ຢູ່ໃນຂອບເຂດຂອງລາຍງານນີ້.
ສິ່ງທີ່ຄະແນນຢືນຢັນແມ່ນຄ່າພື້ນຖານ. ດ້ວຍກອບການປະເມີນແລະຊຸດທົດລອງທີ່ເປີດເຜີຍ, ລຸ້ນຕໍ່ໄປຂອງເຄື່ອງຈັກສາມາດຖືກປະເມີນທຽບກັບກອບການດຽວກັນ — ນຳໃຊ້ກັບກໍລະນີເລີ່ມຕົ້ນ V11 15 ກໍລະນີ, ກຸ່ມຕົວຢ່າງ 100,000 ກໍລະນີຂອງອັບເດດຄັ້ງທີ 2, ຫຼືການຂະຫຍາຍຕໍ່ມາໃດໆ — ແລະຊ່ອງຫ່າງລະຫວ່າງຄະແນນທີ່ເຜີຍແຜ່ ແລະການທົດລອງຄັ້ງຕໍ່ມາໃດໆ ກໍສາມາດວັດໄດ້ເອງ. ນີ້ແມ່ນຄຸນຄ່າຂອງການລົງທະບຽນໄວ້ກ່ອນ: ມັນປ່ຽນຄຳກ່າວດ້ານຄວາມສາມາດ (performance claims) ໃຫ້ເປັນຄຳກ່າວທີ່ສາມາດທົດສອບໄດ້.
ວິທີການທົດລອງເກณฑ໌ມາດຕະຖານນີ້ຄືນໃນ 10 ນາທີ
ການທົດລອງຊ້ຳຕ້ອງການພຽງຄູ່ໃບຢັ້ງຢືນ API Kantesti ແລະສະພາບແວດລ້ອມ Python 3.10 ຫຼືຕໍ່ມາ ພ້ອມກັບ requests ແລະ reportlab ຕິດຕັ້ງຫ້ອງສະໝຸດ (libraries) ແລ້ວ. ຊຸດທົດສອບທັງໝົດແມ່ນໂມດູນ Python ດຽວທີ່ບັນຈຸຕົວເອງ (self-contained) ທີ່ປ່ອຍອອກພາຍໃຕ້ລິຂະສິດ MIT.
ສີ່ຂັ້ນຕອນສຳລັບການຮັນໃໝ່ (fresh run)
ອັນໜຶ່ງ. ໂຄນໂປຣເຈັກ (Clone the repository): git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ສອງ. ຕິດຕັ້ງການພຶ່ງພາອາໄສດ້ວຍ pip install -r requirements.txt (ອັບເດດຄັ້ງທີ 2 ເພີ່ມ mysql-connector-python ≥ 8.0 ສຳລັບ SQL case loader). ສາມ. ຕັ້ງ KANTESTI_USERNAME ແລະ KANTESTI_PASSWORD ເປັນຕົວແປສະພາບສຳລັບ engine API. ສຳລັບ SQL case loader ຂອງອັບເດດຄັ້ງທີ 2, ກໍ່ຕ້ອງຕັ້ງ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ແລະ KANTESTI_DB_PASSWORD — ໂຫຼດເຊື່ອມຕໍ່ຜ່ານບົດບາດສິດອ່ານເທົ່ານັ້ນ (bench_reader) ທີ່ບໍ່ມີສິດພິເສດໃນການລະບຸຕາຕະລາງ. ສີ່. ແລ່ນ python benchmark_bloodtest.py --limit 100000 ສຳລັບການຮັນ Second-Update ທັງໝົດ, ຫຼື python benchmark_bloodtest.py --limit 1000 ສຳລັບການທົດລອງຢ່າງໄວ. ຜົນອອກຈະໄປທີ່ ./benchmark_results/: ເປັນ CSV scorecard ທີ່ມີຖັນຕໍ່ປະເທດ ແລະ ຕໍ່ສາຂາຊ່ຽວຊານ, ເປັນ JSON ລວມ, ຕົວຢ່າງດິບແບບສຸ່ມຈັດຊັ້ນ, ແລະ ລາຍງານ Markdown.
ການຮັນອ້າງອີງຈາກ 23 ເມສາ 2026 (V11 ເລີ່ມຕົ້ນ, 15 ກໍລະນີ) ແລະ 26 ເມສາ 2026 (V11 Second Update, 100,000 ກໍລະນີ) ຖືກຮັກສາໄວ້ໃນ results/ ໂຟນເດີຂອງຄັງໂປຣເຈັກ. ການຮັນໃໝ່ຈະສ້າງ scorecard ທີ່ມີ timestamp ໃໝ່ ໂດຍບໍ່ໄປປ່ຽນການຮັນອ້າງອີງ. ຖ້າການຮັນຂອງທ່ານສ້າງຜົນທີ່ແຕກຕ່າງຢ່າງມີນັຍສຳຄັນ, ກະລຸນາເປີດ GitHub issue ພ້ອມດ້ວຍ timestamp ຂອງການຮັນ ແລະ ລຸ້ນ engine ທີ່ສົ່ງຄືນໃນ metadata ຂອງຄຳຕອບ.
ຂໍ້ຈໍາກັດ ແລະ ວຽກງານໃນອະນາຄົດ
ເຖິງແມ່ນຈະມີ 100,000 ກໍລະນີຂ້າມ 127 ປະເທດ, ຂໍ້ຈຳກັດສີ່ຢ່າງຄວນຖືກຮັບຮູ້ແບບຊັດເຈນ: ການສຸ່ມຕ່ຳສຳລັບປະເທດກຸ່ມທ້າຍ (long-tail), ການປະເມີນແບບຄັ້ງດຽວ, ຂອບເຂດຂອງ engine ດຽວ, ແລະ ທີ່ມາຂໍ້ມູນຈາກແຫຼ່ງດຽວ. ແຕ່ລະຢ່າງກຳລັງຖືກແກ້ໄຂໃນວຽກຕິດຕາມຢ່າງເປັນການ.
ການຄຸ້ມຄອງປະເທດກຸ່ມທ້າຍ (long-tail). Second Update ຄອບຄຸມ 127 ປະເທດ, ແຕ່ການແຈກຢາຍບໍ່ສົມດຸນ — ຜູ້ສະໜອງ 10 ອັນດັບທຳອິດຄິດເປັນ ≈66.4% ຂອງກໍລະນີ, ແລະ long tail ຂອງ 97 ປະເທດທີ່ເຫຼືອລວມກັນສ້າງ ≈7.3% (ປະມານ 7,300 ກໍລະນີລວມ, ~75 ກໍລະນີຕໍ່ປະເທດໂດຍສະເລ່ຍ). ດັ່ງນັ້ນ composite ຕໍ່ປະເທດໃນ long tail ຈຶ່ງມີສຽງລົບກວນ (noise) ຫຼາຍກວ່າທີ່ຕົວເລກຫົວຂໍ້ (headline figures) ສະແດງ. ການຮັນໃນອະນາຄົດຈະຈັດສรรຈາກປະເທດທີ່ຖືກສຸ່ມຕ່ຳເປັນພິເສດ ເພື່ອໃຫ້ການປະເມີນຕາມເຂດອຳນາດ (jurisdiction) ມີຄວາມແນ່ນອນຂຶ້ນ.
ການປະເມີນແບບຄັ້ງດຽວ. ແຕ່ລະ case ໃນກຸ່ມຕົວຢ່າງ (cohort) ຖືກປະເມີນພຽງຄັ້ງດຽວ. ໂມເດວພາສາຂະໜາດໃຫຍ່ມີຄວາມແປປ່ຽນຂອງຜົນອອກທີ່ບໍ່ເລັກນ້ອຍ ເຖິງອຸນຫະພູມການສຸ່ມຕ່ຳ, ດັ່ງນັ້ນ ຂັ້ນຕອນຫຼາຍຄັ້ງກັບການປະເມີນ 5 ຄັ້ງຕໍ່ case ແລະລາຍງານຄວາມແປປ່ຽນ (variance) ແມ່ນຂັ້ນຕໍ່ໄປທີ່ເປັນທຳມະຊາດ — ໂດຍສະເພາະໃນຊຸບຊັບກຸ່ມ trap-case, ບ່ອນທີ່ຄວາມສອດຄ່ອງພາຍໃຕ້ການສັ່ນສະເທືອນຈາກການສຸ່ມ (sampling jitter) ແມ່ນສ່ວນໜຶ່ງຂອງຂໍ້ອ້າງດ້ານຄວາມປອດໄພ.
ຂອບເຂດຂອງເຄື່ອງຈັກດຽວ. ລາຍງານນີ້ອະທິບາຍ engine ໜຶ່ງ. ການວິເຄາະປຽບທຽບກັບລະບົບ AI ອື່ນແມ່ນຢູ່ນອກຂອບເຂດທີ່ນີ້; ພວກເຮົາອາດຈະດຳເນີນການເປັນການສຶກສາແບບອິດສະຫຼະຕ່າງຫາກ ດ້ວຍວິທີການທີ່ເໝາະສົມ, ຕໍ່ກັບ harness ດຽວກັນທີ່ອະນຸຍາດໂດຍ MIT.
ຕົ້ນກໍາເນີດຂໍ້ມູນຈາກແຫຼ່ງດຽວ. 100,000 ກໍລະນີແມ່ນບັນທຶກຂໍ້ມູນຜູ້ປ່ວຍຈິງທີ່ຖືກປົກປິດຊື່ (anonymised) ທີ່ດຶງມາຈາກຄັງຂໍ້ມູນທາງການແພດແຫ່ງດຽວ (ຄັງຂໍ້ມູນຂໍ້ມູນທາງການແພດ SQL-backed ຂອງ Kantesti). ພວກມັນສະແດງແຫຼ່ງການຜະລິດ (production stream) ທີ່ຖືກຄັດສັນ ແລະບໍ່ແມ່ນການສຸ່ມຕົວແທນປະຊາກອນທົ່ວໂລກ. ການຂະຫຍາຍການປະເມີນໄປສູ່ຂໍ້ມູນຫຼາຍສູນທີ່ມາຈາກພາຍນອກ ຢູ່ໃນແຜນງານລ່ວງໜ້າ.
ນອກຈາກສີ່ຢ່າງນີ້, ການຂະຫຍາຍທີ່ມີຜົນກະທົບຫຼາຍທີ່ວາງແຜນໄວ້ແມ່ນຄວາມທຽບເທົ່າທຽມຫຼາຍພາສາຕາມເຂດອຳນາດ. ເຄື່ອງຈັກ AI Engine ຂອງ Kantesti ໃຫ້ບໍລິການຜູ້ໃຊ້ໃນ 75+ ພາສາ, ແລະການຮັນຍ່ອຍ Second-Update ແບ່ງຕາມພາສາ (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) ຈະວັດຄຸນນະພາບຜົນອອກຂ້າມພາສາທີ່ engine ຮອງຮັບ. ການວິເຄາະແຕ່ລະພາສາທີ່ແບ່ງຕາມພາສາຈະຖືກເຜີຍແຜ່ພ້ອມ DOI ຂອງຕົນເອງ ແລະສາຂາ harness.