ເປັນຫຍັງ benchmark ນີ້ຈຶ່ງມີ ແລະມັນທົດສອບຫຍັງ
ການວິເຄາະເລືອດດ້ວຍ AI ຖືກນໍາໃຊ້ຫຼາຍຂຶ້ນໃນການໃຊ້ງານຂອງຜູ້ບໍລິໂພກ ແລະ ດ້ານການແພດ, ແຕ່ກອບການປະເມີນທີ່ສາມາດທົດຊ້ໍາໄດ້ ທີ່ຖືກປັບໃຫ້ເໝາະກັບການແພດທາງຫ້ອງທົດລອງ ຍັງບໍ່ຄ່ອຍມີ. ຄໍາຖາມທີ່ສໍາຄັນທີ່ສຸດໃນສະພາບນີ້ ບໍ່ແມ່ນຄໍາຖາມທີ່ຖືກຄອບຄຸມໂດຍ benchmark ການຕອບຄໍາຖາມທາງການແພດທົ່ວໄປ: ເຄື່ອງຈັກ (engine) ສາມາດແຍກ iron deficiency ອອກຈາກ thalassaemia trait ໄດ້ບໍ ເມື່ອ MCV ມີຄ່າຄືກັນ, ມັນຈະ over-diagnose Gilbert's syndrome ເປັນ hepatitis ບໍ, ແລະ ມັນສ້າງພະຍາດຂຶ້ນໃນແຜນກວດທີ່ປົກກະຕິສົມບູນບໍ?
ການກວດເລືອດແບບກຸ່ມດຽວມັກຈະມີຂໍ້ມູນພຽງພໍທີ່ສາມາດຮອງຮັບການຕີຄວາມໄດ້ຫຼາຍຢ່າງທີ່ແຂ່ງກັນ, ແລະວຽກຂອງແພດຜູ້ຕີຄວາມແມ່ນການຊັ່ງນ້ຳໜັກການຕີຄວາມເຫຼົ່ານັ້ນທຽບກັນ ບໍ່ແມ່ນການຄົ້ນຫາຄຳຕອບຈາກປຶ້ມຕຳລາ. ເຄື່ອງຈັກທີ່ເຮັດໄດ້ດີໃນກໍລະນີຕົວຢ່າງຈາກຕຳລາ ຍັງສາມາດລົ້ມເຫຼວໃນກໍລະນີທີ່ສຳຄັນທີ່ສຸດ: ກັບດັກການວິນິດໄຈແຍກພະຍາດ, ຕົວແປທີ່ບໍ່ເປັນອັນຕະລາຍທີ່ເບິ່ງອັນຕະລາຍເມື່ອເບິ່ງແບບດຽວ, ແລະ ກຸ່ມການກວດທີ່ປົກກະຕິຢ່າງສົມບູນ ທີ່ລໍ້ໃຫ້ຜູ້ຊ່ວຍທີ່ໝັ້ນໃຈສ້າງພະຍາດຂຶ້ນມາ.
ເກນມາດຕະຖານນີ້ຖືກສ້າງຂຶ້ນໂດຍອີງໃສ່ຮູບແບບຄວາມລົ້ມເຫຼວເຫຼົ່ານັ້ນໂດຍກົງ. ທັງ 15 ກໍລະນີ ຖືກເລືອກເພື່ອຄຸນສົມບັດການວິນິດໄຈທີ່ສະເພາະ: microcytosis ທີ່ຂາດເຫຼັກ ທີ່ຕ້ອງແຍກໃຫ້ຊັດຈາກ beta-thalassaemia trait ທີ່ມີ mean corpuscular volume ຄ້າຍກັນ, ການສະແດງຂອງ Gilbert's syndrome ທີ່ຄວາມຜິດປົກກະຕິພຽງແຕ່ແມ່ນ isolated indirect hyperbilirubinaemia, ແລະ ກຸ່ມການກວດຄັດກອງ 15 ພາລາມິເຕີ ທີ່ທຸກຕົວວິເຄາະຢູ່ໃນຊ່ວງອ້າງອີງຂອງຕົນ. ເກນການປະເມີນຈະໃຫ້ຄະແນນແກ່ເຄື່ອງຈັກທີ່ອ່ານແຕ່ລະກໍລະນີຕາມເງື່ອນໄຂຂອງມັນເອງ ແລະຈະຫັກຄະແນນໃຫ້ເຄື່ອງຈັກທີ່ພະຍາຍາມສະຫຼຸບການວິນິດໄຈຢ່າງໝັ້ນໃຈ ໃນບ່ອນທີ່ບໍ່ມີການວິນິດໄຈແນວນັ້ນທີ່ຄວນຈະຮອງຮັບ.
ໃນນາມຂອງ Thomas Klein, MD, ຂ້າພະເຈົ້າເລືອກຊຸດກໍລະນີນີ້ ເພາະວ່ານີ້ແມ່ນຮູບແບບທີ່ຂ້າພະເຈົ້າເຫັນຜູ້ຊ່ວຍດ້ານການແພດ-ຫ້ອງທົດລອງ ເຮັດຜິດພາດບໍ່ເລືອກຫຼາຍທີ່ສຸດ. ຄວາມລົ້ມເຫຼວທີ່ແພງ ບໍ່ແມ່ນ "ພາດພະຍາດທີ່ຫາຍາກ" — ແຕ່ແມ່ນການປະດິດພະຍາດປົກກະຕິໃນຄົນເຈັບທີ່ບໍ່ໄດ້ມີພະຍາດນັ້ນ. ຂອງພວກເຮົາ ການກວດສອບທາງການແພດ hub ອະທິບາຍກອບລວມທີ່ກວ້າງກວ່າ; ໜ້ານີ້ອະທິບາຍການພິສູດແນວຄວາມຄິດເບື້ອງຕົ້ນຂອງ V11 ແລະ V11 Second Update ທີ່ຂະຫຍາຍມັນໄປສູ່ 100,000 ກໍລະນີສັງເຄາະ ທີ່ດຶງມາຈາກຊຸດກໍລະນີສັງເຄາະທີ່ຄອບຄຸມ 127 ປ້າຍປະເທດ — ໂດຍໃຊ້ rubric ການໃຫ້ຄະແນນດຽວກັນ, byte-identical, ແລະບໍ່ອະນຸຍາດໃຫ້ປັບປຸງພາຍຫຼັງ (no post-hoc tuning).
ການທົດລອງອ້າງອີງລ່າສຸດ — V11 ການອັບເດດຄັ້ງທີ 2 (26 ເມສາ 2026)
ການທົດລອງອ້າງອີງຂອງ V11 ການອັບເດດຄັ້ງທີ 2 ວັນທີ 26 ເມສາ 2026 ໄດ້ຜະລິດຄະແນນລວມ (composite score) ຂອງ 99.80% ໃນ rubric ທີ່ລົງທະບຽນໄວ້ກ່ອນດຽວກັນກັບການປ່ອຍເລີ່ມຕົ້ນຂອງ V11, ປະເມີນໃນ ກໍລະນີສັງເຄາະ 100,000 ກໍລະນີ ດຶງມາຈາກຊຸດກໍລະນີສັງເຄາະ Kantesti ແລະຄອບຄຸມ 127 ປ້າຍປະເທດ ແລະ 75+ ພາສາ. ທຸກກໍລະນີສຳເລັດໃນເສັ້ນທາງຫຼັກຂອງເຄື່ອງຈັກ; ການເປີດໃຊ້ທຸງ (flag) ການວິນິດໄສເກີນຈຳເປັນ (trap-case hyperdiagnosis) ຍັງຢູ່ທີ່ 0 / 87,412. ການທົດລອງເດີມຂອງ V11 ວັນທີ 23 ເມສາ 2026 ຄອບຄຸມ 15 ກໍລະນີທີ່ຄັດເລືອກໂດຍມື (hand-curated) (ຄະແນນລວມ 99.12%) ແລະ ຢືນຢັນ rubric; ການອັບເດດຄັ້ງທີ 2 ຮັກສາ rubric ໃຫ້ຄືກັນທຸກໄບດ໌ ແລະ ຂະຫຍາຍການປະເມີນໄປສູ່ກຸ່ມປະຊາກອນຂະໜາດໃຫຍ່.
ສູດຄະແນນລວມປະກອບດ້ວຍ 3 ສ່ວນ: ຄວາມສອດຄ່ອງດ້ານໂຄງສ້າງ ກັບ 7 ພາກສ່ວນລາຍງານທີ່ຕ້ອງມີ ແລະ 16 ພາກສ່ວນຍ່ອຍທີ່ຕ້ອງມີ, ຄວາມຖືກຕ້ອງຂອງເນື້ອຫາ ວັດແທກເປັນ keyword recall ບວກກັບ scoring-system recall ບວກກັບການກວດຄວາມຖືກຕ້ອງຂອງ probability-distribution, ແລະ ເວລາຕອບກັບ ຕໍ່ເປົ້າໝາຍລະດັບການບໍລິການ (service-level) ຂອງເສັ້ນທາງຫຼັກ. ການແຍກຢ່າງຖືກຕ້ອງຖືກສະແດງໄວ້ໃນສູດ rubric ດ້ານລຸ່ມ — ບໍ່ມີນ້ຳໜັກ ຫຼື sub-rubric ອັນໃດໜຶ່ງຖືກປ່ຽນແປງສຳລັບການອັບເດດຄັ້ງທີ 2.
ສ່ວນທີ່ເຫຼືອ 0.20 ຈຸດເປີເຊັນຂອງຊ່ອງຫຼືອ (headroom) ແມ່ນແຍກລົງໄປເກືອບທັງໝົດໃນຄະແນນຍ່ອຍດ້ານການແພດ (clinical sub-score) — ສ່ວນນ້ອຍຂອງກໍລະນີ (ສ່ວນໃຫຍ່ຢູ່ໃນ Hepatology ແລະ Rheumatology) ມີຄຳສຳຄັນຂອງລະບົບການໃຫ້ຄະແນນທີ່ຄາດໄວ້ວ່າຈະມີ ແຕ່ບໍ່ຖືກພົບໃນການຕີຄວາມຂອງເຄື່ອງຈັກ ເຖິງແມ່ນວ່າເນື້ອຫາດ້ານການວິນິດໄສຖືກຕ້ອງ. ບໍ່ມີກໍລະນີໃດໃນກຸ່ມກໍລະນີ 100,000 ຂອງການອັບເດດຄັ້ງທີ 2 ທີ່ພາດການວິນິດໄສຕົວມັນເອງ. ຄວາມຊ້າ (latency) ດີຂຶ້ນຈາກຄ່າສະເລ່ຍ 20.17 s ໃນການປ່ອຍເລີ່ມຕົ້ນຂອງ V11 ໄປເປັນ 13.26 s ໃນການອັບເດດຄັ້ງທີ 2, ສະທ້ອນການປັບປຸງເຄື່ອງຈັກສຳລັບການນຳໃຊ້ຈິງ (production engine optimisations) ລະຫວ່າງສອງການທົດລອງ; rubric, ລະຫັດການໃຫ້ຄະແນນ, ແລະ endpoint ຂອງ API ບໍ່ປ່ຽນແປງ.
ຄະແນນລວມຕາມປ້າຍ (per-label composite scores) ຢູ່ລະຫວ່າງ 0.9971 ຫາ 0.9985 ຂ້າມ 30 ປ້າຍປະເທດທີ່ມີກໍລະນີຕົວແທນຫຼາຍສຸດ. ສ່ວນທ້າຍຍາວ (long tail) ຂອງ 97 ປ້າຍອື່ນໆ (ລວມປະມານ ≈7,300 ກໍລະນີ) ບໍ່ເຫັນການຫຼຸດລົງແບບເປັນລະບົບ. ປ້າຍທີ່ພົບຫຼາຍສຸດຕາມຈຳນວນກໍລະນີແມ່ນ ສະຫະລັດ (10,500), ບຣາຊິນ (9,500), ສະເປນ (9,000), ອິຕາລີ (8,000), ເຢຍລະມັນ (7,800), ຝຣັ່ງ (7,400), ໂປຕຸເກັດ (5,800), Türkiye (3,400), ສະຫະອານາຈັກສະຫະລັດອັງກິດ) (2,900), ແລະ ເມັກຊິໂກ (2,500).
ຈາກ 15 ກໍລະນີ ຫາ 100,000: ການພັດທະນາຂອງກຸ່ມຕົວຢ່າງ ຂ້າມ 127 ປ້າຍປະເທດ
ຊຸດກໍລະນີ (case panel) ເດີມຂອງ V11 ຄອບຄຸມ 7 ສາຂາ — ພະຍາດເລືອດ (hematology), ຕ່ອມໃນລະບົບຕໍ່ມະນຸດ (endocrinology), ຢາດ້ານການແພດດ້ານການເຜົາຜານ (metabolic medicine), ພະຍາດຕັບ (hepatology), ພະຍາດໄຕ (nephrology), ພະຍາດຫົວໃຈ (cardiology), ພະຍາດກ່ຽວກັບພູມຕ້ານທານ/รูມາຕິສ (rheumatology) — ແລະມີ 2 ກໍລະນີກັບກັນການວິນິດໄຊ (hyperdiagnosis trap) ທີ່ອຸທິດສອນເຉພາະ, ໂດຍແຕ່ລະກໍລະນີແມ່ນຊຸດການກວດເລືອດທີ່ສ້າງຂຶ້ນຢ່າງສັງເຄາະ. V11 Second Update ຂະຫຍາຍການປະເມີນໄປສູ່ ກໍລະນີສັງເຄາະ 100,000 ກໍລະນີ ຂ້າມ 127 ປ້າຍປະເທດ, ຈັດກະຈາຍໃນ 8 ສາຂາ (ເຈັດສາຂາເດີມ ບວກກັບກຸ່ມພາຍໃນທີ່ອຸດຊອບສ່ວນ trap). ນຳໃຊ້ rubric ການໃຫ້ຄະແນນດຽວກັນ ຄືກັນທຸກໄບດ໌ ໃນທັງສອງການທົດລອງ.
ເນື່ອງຈາກທຸກກໍລະນີຖືກສ້າງຂຶ້ນຢ່າງສັງເຄາະ, ຈຶ່ງບໍ່ມີຕົວລະບຸຈິງທີ່ຕ້ອງລົບ ແລະບໍ່ມີຂໍ້ມູນສ່ວນບຸກຄົນ. ແຕ່ລະກໍລະນີສັງເຄາະມີລະຫັດກໍລະນີພາຍໃນສຳລັບ benchmark (benchmark-internal case code) (BT-NNN-LABEL ໃນຊຸດເບື້ອງຕົ້ນ V11, ຄົງທີ່ case_uid ໃນ Second Update). ບໍ່ມີຂໍ້ມູນສ່ວນບຸກຄົນປາກົດຢູ່ບ່ອນໃດໃນ harness ທີ່ເຜີຍແຜ່, ລາຍງານດ້ານເຕັກນິກ, ຫຼື ຊຸດຂໍ້ມູນ (datasets) ທີ່ປ່ອຍອອກ.
ການປ່ອຍເລີ່ມຕົ້ນຂອງ V11 — 15 ກໍລະນີທີ່ຄັດເລືອກໂດຍມື
ກະດານກໍລະນີ V11 ເດີມ ໄດ້ຖືກຄັດເລືອກດ້ວຍມືໂດຍທ່ານດຣ. Thomas Klein ເພື່ອຝຶກຮູບແບບການວິນິດໄສທີ່ຜູ້ຊ່ວຍດ້ານການແພດທາງຫ້ອງທົດລອງມັກຈະເຮັດຜິດພາດຫຼາຍທີ່ສຸດ. ທັງ 15 ກໍລະນີ ໄດ້ຖືກເລືອກເພື່ອຄຸນສົມບັດການວິນິດໄສສະເພາະ ດັ່ງທີ່ລະບຸຂ້າງລຸ່ມນີ້.
ເປັນຫຍັງການແຈກຈ່າຍນີ້ຈຶ່ງເປັນພິເສດ
ວິຊາການເລືອດ (Hematology) ໄດ້ສາມກໍລະນີ ເພາະວ່າການຈຳແນກແບບ microcytic ແລະ macrocytic ແມ່ນກັບດັກທີ່ມີປະລິມານສູງສຸດໃນການປະຕິບັດງານຫ້ອງທົດລອງຕົວຈິງ. ວິຊາຕໍ່ມະນຸດ (Endocrinology) ໄດ້ສາມກໍລະນີ ເພາະວ່າການສະແດງອາການຂອງ Hashimoto's, PCOS, ແລະ ຂາດວິຕາມິນດີ ມີຮູບແບບການວິນິດໄຊທີ່ແຕກຕ່າງກັນ (ຂັບເຄື່ອນໂດຍ autoantibody, ຂັບເຄື່ອນໂດຍອັດຕາຮໍໂມນ, ແລະ ຂັບເຄື່ອນໂດຍຕົວຊີ້ດຽວ). ສາຂາທີ່ມີພຽງກໍລະນີດຽວຍັງມີຄວາມໝາຍ ເພາະແຕ່ລະຢ່າງຂອງ CKD, ຄວາມສ່ຽງ ASCVD, ແລະ SLE ມີລະບົບຄະແນນຂອງຕົນເອງ ທີ່ເຄື່ອງຈະຕ້ອງເອີ້ນໃຊ້ (KDIGO staging, ຄວາມສ່ຽງ 10 ປີຂອງ ASCVD, ແລະ ເກນ SLE 2019 EULAR/ACR ຕາມລຳດັບ).
V11 Second Update — ກໍລະນີສັງເຄາະ 100,000 ກໍລະນີ ຂ້າມ 127 ປ້າຍປະເທດ
Second Update ແທນທີ່ການຂຽນຄ່າຮາດໂຄດ 15-case ຂອງ V11 ເດີມດ້ວຍຊຸດກໍລະນີສັງເຄາະຂະໜາດໃຫຍ່ທີ່ຖືກສ້າງຂຶ້ນແບບອັດຕະໂນມັດດ້ວຍໂປຣແກຣມ (programmatically generated). ຊຸດກໍລະນີຖືກໂຫຼດໃນຕອນເລີ່ມຕົ້ນຂອງທຸກການແລ່ນ (run) ແລະບັນທຶກຄ່າການຕັ້ງຄ່າ (configuration) ເພື່ອຄວາມໂປ່ງໃສ. ການແຈກຢາຍຂອງ cohort ຕາມພື້ນທີ່ເນື້ອຫາ (content area) ສະແດງຢູ່ດ້ານລຸ່ມ.
ການແຈກຢາຍປະເທດ-ປ້າຍສັງເຄາະ (Synthetic country-label distribution) — 10 ປ້າຍອັນດັບຕົ້ນ
ກໍລະນີສັງເຄາະ 100,000 ກໍລະນີ ມີ 127 ປ້າຍປະເທດ (ISO 3166-1 alpha-2) ເພື່ອທົດສອບການຈັດການ locale. ການກຳນົດປ້າຍ: ເອີຣົບ 57.7%, ອາເມລິກາ 25.4%, ອາຊີ-ແປຊິຟິກ 6.2%, ປ້າຍທີ່ຕັ້ງຊື່ Middle-East/Africa 3.4%, ແລະ ສ່ວນທ້າຍຍາວຂອງ 97 ປ້າຍອື່ນໆ ລວມປະມານ 7.3%. ປ້າຍ 10 ອັນທີ່ພົບຫຼາຍສຸດຕາມຈຳນວນກໍລະນີແມ່ນ ສະຫະລັດ (10,500), ບຣາຊິນ (9,500), ສະເປນ (9,000), ອິຕາລີ (8,000), ເຢຍລະມັນ (7,800), ຝຣັ່ງ (7,400), ໂປຕຸເກັດ (5,800), Türkiye (3,400), ສະຫະອານາຈັກສະຫະລັດອັງກິດ) (2,900), ແລະ ເມັກຊິໂກ (2,500). ຄະແນນລວມຕາມປ້າຍ (per-label composite scores) ຢູ່ລະຫວ່າງ 0.9971 ຫາ 0.9985. ຈຳນວນປ້າຍເຫຼົ່ານີ້ແມ່ນຄຸນສົມບັດຂອງກໍລະນີທີ່ຖືກສ້າງຂຶ້ນ ເພື່ອໃຊ້ທົດສອບການຈັດການ locale — ບໍ່ແມ່ນຜູ້ໃຊ້ຈິງ ແລະບໍ່ແມ່ນການຄອບຄຸມທາງພູມສາດໃນໂລກຈິງ.
ກຳນົດເກນທີ່ລົງທະບຽນໄວ້ (pre-registered rubric), ອະທິບາຍ
ການລົງທະບຽນກ່ອນການດຳເນີນການ (pre-registration) ແມ່ນການຕັດສິນໃຈດ້ານວິທີການ (methodological) ທີ່ສຳຄັນທີ່ສຸດໃນແບັນມາກນີ້. ທຸກການວິນິດໄຊທີ່ຄາດໄວ້, ທຸກລະບົບຄະແນນທາງຄລີນິກ, ແລະ ທຸກສ່ວນຂອງລາຍງານ ໄດ້ຖືກກຳນົດໄວ້ໃນ source code ກ່ອນທີ່ເຄື່ອງຈະຖືກເອີ້ນໃຊ້. ດັດແກ້ພາຍຫຼັງ (post-hoc) ຂອງ rubric ເພື່ອໃຫ້ອອກມາດີກັບເຄື່ອງ ຈຶ່ງເປັນໄປບໍ່ໄດ້.
ອົງປະກອບສາມຢ່າງ ປະກອບເປັນຄະແນນລວມ. ສ່ວນ ດ້ານໂຄງສ້າງ (structural component) ມີຄ່າ 35 ເປີເຊັນ ແລະວັດວ່າເຄື່ອງໄດ້ສົ່ງຄືນ 7 ສ່ວນລາຍງານທີ່ຕ້ອງມີ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) ແລະ 16 ສ່ວນຍ່ອຍທີ່ຕ້ອງມີພາຍໃນພວກມັນ. ການມີຢູ່ຂອງສ່ວນ (Section presence) ມີນ້ຳໜັກ 40 ເປີເຊັນ ແລະ ການມີຢູ່ຂອງສ່ວນຍ່ອຍ (subsection presence) ມີນ້ຳໜັກ 60 ເປີເຊັນ ພາຍໃນການຄຳນວນດ້ານໂຄງສ້າງ.
ໄດ້ ສ່ວນດ້ານຄລີນິກ (clinical component) ມີຄ່າ 55 ເປີເຊັນ ແລະລວມ 3 ຢ່າງ: ການຈື່ຄຳສຳຄັນການວິນິດໄຊ (diagnosis-keyword recall) (70 ເປີເຊັນຂອງຄະແນນຍ່ອຍດ້ານຄລີນິກ), ການຈື່ລະບົບຄະແນນ (scoring-system recall) (20 ເປີເຊັນ — ເຄື່ອງຄຳນວນ Mentzer, FIB-4, HOMA-IR, ຄວາມສ່ຽງ ASCVD, KDIGO staging, ເກນ EULAR/ACR ບ່ອນທີ່ເໝາະສົມບໍ), ແລະ ການກວດຄວາມຖືກຕ້ອງດ້ານຄວາມເປັນໄປໄດ້ລວມ (probability-sum validity check) (10 ເປີເຊັນ — ຄວາມເປັນໄປໄດ້ຂອງ differential ຄວນລວມໄດ້ພາຍໃນຊ່ວງ [90, 110]). ສຳລັບກໍລະນີກັບດັກ (trap cases) ຈະຫັກໂທດການ hyperdiagnosis ຢ່າງຊັດເຈນ ເຖິງ 0.30 ໂດຍຄຳນວນເປັນ 0.10 ຕໍ່ປ້າຍສະແດງພະຍາດທີ່ປອມ (fabricated pathology flag), ຈຳກັດບໍ່ໃຫ້ເກີນສາມປ້າຍ.
ໄດ້ ສ່ວນດ້ານເວລາລ່າຊ້າ (latency component) ມີຄ່າ 10 ເປີເຊັນ. ການຕອບທີ່ຕ່ຳກວ່າ 20 ວິນາທີ ໄດ້ຄົບເຕັມ 0.10, ການຕອບທີ່ຕ່ຳກວ່າ 40 ວິນາທີ ໄດ້ 0.05, ແລະ ສິ່ງໃດທີ່ຊ້າກວ່ານັ້ນ ໄດ້ສູນ. ເປົ້າໝາຍ 20 ວິນາທີ ສະທ້ອນວັດຖຸປະສົງລະດັບການບໍລິການ (production primary-path service-level objective); ຂອບເຂດ 40 ວິນາທີ ສະທ້ອນງົບສຳຮອງສຳລັບ Phase 2 ສຳລັບການເອີ້ນໃຊ້ເຄື່ອງຢ່າງໜັກ.
ສິ່ງທີ່ pre-registration ປ້ອງກັນ
ແບັນມາກຂອງຜູ້ສ້າງເອງ (first-party benchmarks) ເປັນທີ່ຮູ້ກັນດີວ່າມັກຈະເພີ່ມຕົວເລກຂອງຕົນເອງຜ່ານການດັດແກ້ rubric ພາຍຫຼັງ (post-hoc). ຮູບແບບເກືອບຈະເປັນແນວນີ້ສະເໝີ: ທີມງານເອີ້ນໃຊ້ເຄື່ອງ, ເຫັນວ່າບ່ອນໃດທີ່ຕົກຕ່ຳ, ຈາກນັ້ນກໍປັບ rubric ຢ່າງງຽບໆ ເພື່ອໃຫ້ບ່ອນທີ່ຕົກຕ່ຳນັ້ນນັບໜ້ອຍລົງ. ໂດຍການກຳນົດ rubric ໃຫ້ເປັນ source code ກ່ອນການເອີ້ນເຄື່ອງຄັ້ງທຳອິດ ແລະ ເຜີຍແຜ່ harness ພາຍໃຕ້ລິຂະສິດ MIT, ການປັບນັ້ນຈະປາກົດໃຫ້ເຫັນໃນ version control. ຜູ້ໃດກໍສາມາດ clone ຮີໂປຊິຕໍຣີ (repository), ກວດສອບວັນທີຜູ້ຂຽນ rubric, ແລະ ຢືນຢັນວ່າຜົນຂອງເຄື່ອງບໍ່ໄດ້ຖືກນຳໄປໃຊ້ເພື່ອປັ້ນຄະແນນ.
ກໍລະນີກັບດັກ hyperdiagnosis — ເປັນຫຍັງການເອີ້ນຜິດຫຼາຍ (over-calling) ຈຶ່ງເປັນຮູບແບບຄວາມລົ້ມເຫຼວທີ່ແທ້
ການເອີ້ນພະຍາດ (pathology) ຢ່າງຮຸກຮານເກີນໄປໃນໜ້າຈໍປົກກະຕິ ແມ່ນຮູບແບບຄວາມລົ້ມເຫຼວ (failure mode) ທີ່ຖືກບັນທຶກໄວ້ສຳລັບຜູ້ຊ່ວຍທາງການແພດທີ່ສຳລັບຜູ້ໃຊ້ (consumer-facing medical assistants). ຄ່າໃຊ້ຈ່າຍຕໍ່ເນື່ອງ (downstream costs) ລວມມີການສືບສວນທີ່ບໍ່ຈຳເປັນ, ຄວາມກັງວົນຂອງຄົນເຈັບ, ແລະ ການກວດປິ່ນປົວທີ່ເກີດຈາກການຮັກສາແບບບໍ່ຈຳເປັນ (iatrogenic workup). ສອງກໍລະນີກັບດັກ (trap cases) ໃນແບັນມາກນີ້ ຖືກອອກແບບເພື່ອໃຫ້ຮູບແບບຄວາມລົ້ມເຫຼວນັ້ນ ປາກົດໃຫ້ເຫັນ ແລະ ຖືກຄະແນນໄດ້.
🟡 ກໍລະນີກັບດັກ 1 — BT-014-GILBERT
ການສະແດງອາການ (Presentation). ຊາຍອາຍຸ 24 ປີ ມີ bilirubin ທັງໝົດ 2.4 mg/dL. ສ່ວນທີ່ໂດຍກົງ (direct fraction) ແມ່ນປົກກະຕິ, transaminases ແລະ alkaline phosphatase ຢູ່ໃນຂອບເຂດອ້າງອີງຂອງມັນ, reticulocytes ບໍ່ເປັນຫຍັງ, ແລະ haptoglobin ແລະ LDH ຕັດອອກ haemolysis.
ການອ່ານທີ່ຖືກຕ້ອງ (Correct interpretation). Gilbert's syndrome — ຄວາມປ່ຽນແປງທີ່ບໍ່ເປັນອັນຕະລາຍຂອງ UGT1A1. ການອ່ານບໍ່ຄວນເອີ້ນ hepatitis, cirrhosis, haemolytic anaemia, ຫຼື biliary obstruction.
ຜົນ V11. ຄະແນນລວມ 1.000. ບໍ່ມີໜຶ່ງໃນ 6 ສັນຍານການວິນິດໄຊເກີນໄປ (over-diagnosis flags) ທີ່ຖືກຕິດຕາມ ປາກົດຂຶ້ນເປັນການວິນິດໄຊທີ່ເປັນຢູ່ (active diagnoses).
🟡 ກໍລະນີກັບດັກ 2 — BT-015-HEALTHY
ການສະແດງອາການ (Presentation). ແມ່ຍິງອາຍຸ 35 ປີ ກັບຊຸດກວດຄັດກອງປະຈຳວັນ 15 ພາລາມິເຕີ. ທຸກຕົວວັດ (analyte) ຢູ່ໃນຂອບເຂດອ້າງອີງຂອງມັນຢ່າງສະບາຍ.
ການອ່ານທີ່ຖືກຕ້ອງ (Correct interpretation). ການຢືນຢັນໃຫ້ໝັ້ນໃຈ ແລະການຮັກສາວິຖີຊີວິດ. ການອ່ານຜົນບໍ່ຄວນປະດິດພະຍາດຂອບເຂດໃຫ້ເຫັນວ່າມີຄວາມເປັນປະໂຫຍດທາງຄລີນິກ.
ຜົນ V11. ຄະແນນລວມ 1.000. ບໍ່ມີໜຶ່ງໃນເຈັດສັນຍານການກວດພົບເກີນ (over-diagnosis) ທີ່ຕິດຕາມ — ໂລກເບົາຫວານ, ໂລກຈາງ (anaemia), ໂລກຕ່ອມໄທຣອຍຕໍ່າ (hypothyroidism), ພະຍາດໄຂມັນໃນເລືອດຜິດປົກກະຕິ (dyslipidaemia), ຕັບອັກເສບ (hepatitis), ພະຍາດໝາກໄຂ່ຫຼັງ, ການຂາດແຄນ — ປາກົດເປັນການວິນິດໄສທີ່ເປັນຢູ່.
ໃນທັງສອງກັບດັກ (traps), ໄດ້ກວດສອບສັນຍານການວິນິດໄສເກີນ (hyperdiagnosis) ທີ່ຕິດຕາມຈຳນວນ 13 ຢ່າງ. ບໍ່ມີອັນໃດຖືກກະຕຸ້ນ. ນີ້ແມ່ນຜົນທີ່ສຳຄັນທີ່ສຸດສຳລັບແພດທຸກຄົນທີ່ກຳລັງພິຈາລະນານຳໃຊ້ລະບົບ AI ເປັນເຄື່ອງມືຄັດກອງ (triage) ຫຼືກ່ອນການປຶກສາ: ລະບົບບໍ່ໄດ້ປະດິດພະຍາດຂຶ້ນມາຖ້າບໍ່ມີຢູ່.
ດັດຊະນີ Mentzer: ແຍກຄວາມຂາດເຫຼັກ (iron deficiency) ອອກຈາກລັກສະນະ thalassaemia trait
ພົບຄັ້ງທີ່ມີຄຸນຄ່າສູງອີກຢ່າງໜຶ່ງ ກ່ຽວກັບການຈັບຄູ່ຂອງ case BT-001 (ພາວະຈາງຈາກການຂາດເຫຼັກ) ກັບ case BT-007 (beta-thalassaemia minor). ທັງສອງຢ່າງມີ microcytosis ແລະເປັນອຸປະສັກທີ່ຮູ້ຈັກດີສຳລັບຕົວຈຳແນກ (classifiers) ທີ່ຍັງບໍ່ຊຳນານ. ດັດຊະນີ Mentzer ທີ່ຄຳນວນເປັນ MCV ຫານດ້ວຍຈຳນວນ RBC ເກີນ 13 ໃນການຂາດເຫຼັກ ແລະຕ່ຳກວ່າ 13 ໃນລັກສະນະ thalassaemia.
ໃນ BT-001, ຄົນເຈັບເປັນແມ່ຍິງອາຍຸ 34 ປີ ມີ hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, ແລະ TIBC ສູງ. ດັດຊະນີ Mentzer ປະມານ 17.7 ສະໜັບສະໜູນການຂາດເຫຼັກແບບຈຳເພາະ (absolute iron deficiency). ໃນ BT-007, ຄົນເຈັບເປັນຊາຍອາຍຸ 28 ປີ ມີ microcytosis (MCV 65.8 fL) ແຕ່ມີ RBC ສູງ 6.2, RDW ປົກກະຕິ, ferritin ປົກກະຕິ, ແລະ HbA2 5.6 ເປີເຊັນ. ດັດຊະນີ Mentzer ປະມານ 10.6 ຊີ້ໄປທາງ thalassaemia trait ແລະ HbA2 ທີ່ສູງຢືນຢັນ beta-thalassaemia minor.
ທັງສອງກໍລະນີໄດ້ຄະແນນ 1.000. ເຄື່ອງຈັກໄດ້ເອີ້ນໃຊ້ດັດຊະນີ Mentzer ຢ່າງຊັດເຈນໃນທັງສອງການອ່ານ ແລະໄດ້ສົ່ງການວິນິດໄສທີ່ຖືກຕ້ອງໃນແຕ່ລະກໍລະນີ. ນີ້ແມ່ນຜົນທີ່ເຮັດໃຫ້ໝັ້ນໃຈທາງຄລີນິກທີ່ສຸດພຽງອັນດຽວໃນທັງໝົດການທົດສອບ (benchmark), ເພາະການຈັດຜິດ thalassaemia trait ເປັນການຂາດເຫຼັກ ຈະນຳໄປສູ່ການໃຫ້ເສີມເຫຼັກທີ່ບໍ່ເໝາະສົມ ແລະເສຍໂອກາດໃນການຄັດກອງຄອບຄົວ, ແລະການຈັດຜິດການຂາດເຫຼັກເປັນ thalassaemia ຈະຊັກຊ້າການປິ່ນປົວທົດແທນທີ່ງ່າຍດາຍ. ພວກເຮົາ ຄູ່ມືຊ່ວງ ferritin ອະທິບາຍບັນບັນທຶກບຣິບົດການແຍກຄວາມເປັນໄປໄດ້ (differential) ທີ່ກວ້າງຂຶ້ນ.
ຜົນຕໍ່ກໍລະນີຈາກການອ້າງອີງເບື້ອງຕົ້ນ V11 (23 ເມສາ 2026)
ການອ້າງອີງ V11 ເດີມໃນກຸ່ມ proof-of-concept 15 ກໍລະນີ ເປັນ ພື້ນຖານດ້ານວິທີການ ຂອງ Second Update: ລາຍລະອຽດຕໍ່ກໍລະນີທີ່ຢູ່ດ້ານລຸ່ມນີ້ສະແດງວ່າ rubric ຈັດການກັບຄຳຕອບຂອງເຄື່ອງຈັກຈິງແນວໃດ. ຈາກ 15 ກໍລະນີ, 12 ກໍລະນີໄດ້ຄະແນນລວມສູງສຸດ 1.000 ໃນ primary path; 3 ກໍລະນີຖືກຮັບໃຊ້ຜ່ານ Phase 2 fallback, ເສຍຄະແນນ bonus ຄວາມຊ້າ 0.05 ໃນຂະນະທີ່ຮັກສາທຸກເນື້ອຫາດ້ານຄລິນິກ ແລະ ໂຄງສ້າງໄວ້ຄົບຖ້ວນ. ມີ 1 ກໍລະນີຂາດຍ່ອຍບັງຄັບທີ່ຈຳເປັນພຽງໜຶ່ງສ່ວນ; ແລະ 1 ກໍລະນີສົ່ງຄືນຜົນລວມຂອງການຈັດກຸ່ມຄວາມເປັນໄປໄດ້ທີ່ຫຼຸດລົງເລັກນ້ອຍ.
ກໍລະນີ PCOS (BT-008) ໄດ້ສູນເສຍພາຍຍ່ອຍທີ່ຈຳເປັນອັນໜຶ່ງໃນໂຄງສ້າງຄຳຕອບ — ສິບຫ້າຈາກສິບຫົກ ແທນທີ່ຈະເປັນສິບຫົກຈາກສິບຫົກ — ເຊິ່ງໄດ້ຫັກຄະແນນໂຄງສ້າງຈາກ 1.000 ເປັນ 0.963. ກໍລະນີ SLE (BT-011) ສົ່ງຄືນຜົນລວມຂອງຄວາມເປັນໄປໄດ້ທີ່ຖືກຫຼຸດລົງແບບພຽງເລັກນ້ອຍ ຊຶ່ງເຮັດໃຫ້ຄະແນນດ້ານຄລີນິກຫຼຸດລົງເປັນ 0.965 ໃນຂະນະທີ່ຍັງຮັກສາຄຳສັບການວິນິດໄຊແລະລະບົບການໃຫ້ຄະແນນທຸກອັນໄວ້. ບໍ່ມີກໍລະນີທີ່ບໍ່ສົມບູນທັງສອງກໍລະນີທີ່ພາດການວິນິດໄຊທີ່ຖືກຕ້ອງ.
V11 Second Update aggregate — 100,000 ກໍລະນີ
ໃນຂະໜາດລະດັບປະຊາກອນ, ແຖວຂອງກໍລະນີລາຍບຸກຄົນບໍ່ສາມາດອ່ານໄດ້ແບບມະນຸດ, ດັ່ງນັ້ນ Second Update ຈຶ່ງລາຍງານຕົວຊີ້ວັດລວມ (aggregated metrics) ແທນຕາຕະລາງ 100,000 ແຖວ. ຄະແນນລວມຫຼັກ (headline aggregate) ສະແດງຢູ່ດ້ານລຸ່ມ; ການແຍກຕາມສາຂາ ແລະຕາມປະເທດ-ປ້າຍ ຖືກເຜີຍແຜ່ໃນລາຍງານດ້ານເຕັກນິກ ແລະ ການຝາກ Figshare. ການສຸ່ມແບບສະຫຼຽງ (stratified random sample) ຂອງ n = 201 ຄຳຕອບດິບຈາກເຄື່ອງຈັກ (ເມັດກຳນົດທີ່ກຳນົດໄດ້ 20260426) ຖືກເຜີຍແຜ່ໃນ GitHub results/ ເພື່ອກວດສອບ.
ຄະແນນຫົວຂ່າວບໍ່ໄດ້ບອກພວກເຮົາຫຍັງ
ຄະແນນລວມ 99.80 ເປີເຊັນ ພາຍໃຕ້ rubric ທີ່ລົງທະບຽນໄວ້ສະເພາະນີ້, ສຳລັບ cohort ສັງເຄາະ 100,000 ກໍລະນີ ທີ່ຄອບຄຸມ 127 ປ້າຍປະເທດ, ສະແດງຜົນໃກ້ຂອບເພດານ (near-ceiling performance) — ແຕ່ມັນຄວນຈັດວາງບອບແບບຢ່າງລະມັດລະວັງ. ຜົນລັບລະບຸພຶດຕິກຳຂອງເຄື່ອງຈັກ ຕໍ່ກັບ rubric ທີ່ພວກເຮົາຢືນຢັນຈະຜູກມັດໄວ້ໃນ source code ຂອງ V11; ບໍ່ແມ່ນການອ້າງທົ່ວໄປວ່າເຄື່ອງຈັກຖືກຕ້ອງທຸກກໍລະນີການກວດເລືອດ (blood test panel) ທີ່ມີຢູ່ໃນໂລກຈິງ.
ຄະແນນບອກວ່າເຄື່ອງຈັກຈັດການຮູບແບບການວິນິດໄຊທີ່ເລືອກສຳລັບການປະເມີນນີ້ໄດ້ຢ່າງຖືກຕ້ອງ ຂະໜາດກຸ່ມຕົວຢ່າງລະດັບປະຊາກອນ, ດ້ວຍວິທີການທີ່ເຜີຍແຜ່ແລະສາມາດທົດຊ້ຳໄດ້. ມັນບໍ່ໄດ້ບອກວ່າເຄື່ອງຈັກຖືກຕ້ອງທຸກກະດານກວດເລືອດທີ່ມີຢູ່ໃນໂລກຈິງ. ມັນບໍ່ໄດ້ບອກວ່າເຄື່ອງຈັກຄວນມາແທນການຕັດສິນໃຈຂອງແພດຜູ້ຊ່ຽວຊານ. ແລະມັນບໍ່ໄດ້ບອກວ່າເຄື່ອງຈັກມີຜົນດີກວ່າລະບົບ AI ອື່ນ — ການວິເຄາະປຽບທຽບກັບເຄື່ອງຈັກອື່ນໆແມ່ນຈົດໄວ້ວ່າບໍ່ຢູ່ໃນຂອບເຂດຂອງລາຍງານນີ້.
ສິ່ງທີ່ຄະແນນຢືນຢັນແມ່ນຄ່າພື້ນຖານ. ດ້ວຍກອບການປະເມີນແລະຊຸດທົດລອງທີ່ເປີດເຜີຍ, ລຸ້ນຕໍ່ໄປຂອງເຄື່ອງຈັກສາມາດຖືກປະເມີນທຽບກັບກອບການດຽວກັນ — ນຳໃຊ້ກັບກໍລະນີເລີ່ມຕົ້ນ V11 15 ກໍລະນີ, ກຸ່ມຕົວຢ່າງ 100,000 ກໍລະນີຂອງອັບເດດຄັ້ງທີ 2, ຫຼືການຂະຫຍາຍຕໍ່ມາໃດໆ — ແລະຊ່ອງຫ່າງລະຫວ່າງຄະແນນທີ່ເຜີຍແຜ່ ແລະການທົດລອງຄັ້ງຕໍ່ມາໃດໆ ກໍສາມາດວັດໄດ້ເອງ. ນີ້ແມ່ນຄຸນຄ່າຂອງການລົງທະບຽນໄວ້ກ່ອນ: ມັນປ່ຽນຄຳກ່າວດ້ານຄວາມສາມາດ (performance claims) ໃຫ້ເປັນຄຳກ່າວທີ່ສາມາດທົດສອບໄດ້.
ວິທີການທົດລອງເກณฑ໌ມາດຕະຖານນີ້ຄືນໃນ 10 ນາທີ
ການທົດລອງຊ້ຳຕ້ອງການພຽງຄູ່ໃບຢັ້ງຢືນ API Kantesti ແລະສະພາບແວດລ້ອມ Python 3.10 ຫຼືຕໍ່ມາ ພ້ອມກັບ requests ແລະ reportlab ຕິດຕັ້ງຫ້ອງສະໝຸດ (libraries) ແລ້ວ. ຊຸດທົດສອບທັງໝົດແມ່ນໂມດູນ Python ດຽວທີ່ບັນຈຸຕົວເອງ (self-contained) ທີ່ປ່ອຍອອກພາຍໃຕ້ລິຂະສິດ MIT.
ສີ່ຂັ້ນຕອນສຳລັບການຮັນໃໝ່ (fresh run)
ອັນໜຶ່ງ. ໂຄນໂປຣເຈັກ (Clone the repository): git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ສອງ. ຕິດຕັ້ງການພຶ່ງພາອາໄສດ້ວຍ pip install -r requirements.txt (ອັບເດດຄັ້ງທີ 2 ເພີ່ມ mysql-connector-python ≥ 8.0 ສຳລັບ SQL case loader). ສາມ. ຕັ້ງ KANTESTI_USERNAME ແລະ KANTESTI_PASSWORD ເປັນຕົວແປສະພາບສຳລັບ engine API. ສຳລັບ SQL case loader ຂອງອັບເດດຄັ້ງທີ 2, ກໍ່ຕ້ອງຕັ້ງ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ແລະ KANTESTI_DB_PASSWORD — ໂຫຼດເຊື່ອມຕໍ່ຜ່ານບົດບາດສິດອ່ານເທົ່ານັ້ນ (bench_reader) ທີ່ບໍ່ມີສິດພິເສດໃນການລະບຸຕາຕະລາງ. ສີ່. ແລ່ນ python benchmark_bloodtest.py --limit 100000 ສຳລັບການຮັນ Second-Update ທັງໝົດ, ຫຼື python benchmark_bloodtest.py --limit 1000 ສຳລັບການທົດລອງຢ່າງໄວ. ຜົນອອກຈະໄປທີ່ ./benchmark_results/: ເປັນ CSV scorecard ທີ່ມີຖັນ per-country-label ແລະ per-specialty, ເປັນ JSON aggregate, ຕົວຢ່າງຄຳຕອບດິບແບບ stratified-random, ແລະລາຍງານ Markdown.
ການຮັນອ້າງອີງຈາກ 23 ເມສາ 2026 (V11 ເລີ່ມຕົ້ນ, 15 ກໍລະນີ) ແລະ 26 ເມສາ 2026 (V11 Second Update, 100,000 ກໍລະນີ) ຖືກຮັກສາໄວ້ໃນ results/ ໂຟນເດີຂອງຄັງໂປຣເຈັກ. ການຮັນໃໝ່ຈະສ້າງ scorecard ທີ່ມີ timestamp ໃໝ່ ໂດຍບໍ່ໄປປ່ຽນການຮັນອ້າງອີງ. ຖ້າການຮັນຂອງທ່ານສ້າງຜົນທີ່ແຕກຕ່າງຢ່າງມີນັຍສຳຄັນ, ກະລຸນາເປີດ GitHub issue ພ້ອມດ້ວຍ timestamp ຂອງການຮັນ ແລະ ລຸ້ນ engine ທີ່ສົ່ງຄືນໃນ metadata ຂອງຄຳຕອບ.
ຂໍ້ຈໍາກັດ ແລະ ວຽກງານໃນອະນາຄົດ
ເຖິງຈຳນວນ 100,000 ກໍລະນີຂ້າມ 127 country labels, ມີຂໍ້ຈຳກັດສີ່ຢ່າງທີ່ຄວນກ່າວແຈ້ງແບບຊັດເຈນ: ການສຸ່ມຕົວຢ່າງຂອງ label ສ່ວນທ້າຍ (long-tail) ທີ່ບໍ່ພຽງພໍ, ການປະເມີນແບບ single-shot, ຂອບເຂດຂອງ single-engine, ແລະທີ່ມາຂອງຂໍ້ມູນຈາກແຫຼ່ງດຽວ (single-source). ແຕ່ລະຢ່າງກຳລັງຖືກແກ້ໄຂໃນວຽກຕິດຕາມຢ່າງເຄື່ອນໄຫວ.
ການຄອບຄຸມ long-tail label. ການ Second Update ຄອບຄຸມ 127 country labels, ແຕ່ການແຈກຢາຍບໍ່ສົມດຸນ — 10 labels ອັນດັບສູງສຸດຄິດເປັນ ≈66.4% ຂອງຈຳນວນກໍລະນີ, ແລະ long tail ຂອງ 97 labels ທີ່ເຫຼືອລວມກັນສ້າງ ≈7.3% (ປະມານ 7,300 ກໍລະນີລວມ, ~75 ກໍລະນີຕໍ່ label ໂດຍສະເລ່ຍ). ດັ່ງນັ້ນ per-label composites ໃນ long tail ນີ້ຈຶ່ງມີສຽງລົບກວນ (noisier) ຫຼາຍກວ່າທີ່ຕົວເລກຫົວຂໍ້ (headline figures) ສະແດງ. ການວິ່ງຄັ້ງຕໍ່ໄປຈະປັບສົມດຸນການກຳນົດ label ໃໝ່ເພື່ອຢືນຢັນຄ່າປະເມີນ per-label ໃຫ້ແນ່ນອນຂຶ້ນ.
ການປະເມີນແບບຄັ້ງດຽວ. ແຕ່ລະ case ໃນກຸ່ມຕົວຢ່າງ (cohort) ຖືກປະເມີນພຽງຄັ້ງດຽວ. ໂມເດວພາສາຂະໜາດໃຫຍ່ມີຄວາມແປປ່ຽນຂອງຜົນອອກທີ່ບໍ່ເລັກນ້ອຍ ເຖິງອຸນຫະພູມການສຸ່ມຕ່ຳ, ດັ່ງນັ້ນ ຂັ້ນຕອນຫຼາຍຄັ້ງກັບການປະເມີນ 5 ຄັ້ງຕໍ່ case ແລະລາຍງານຄວາມແປປ່ຽນ (variance) ແມ່ນຂັ້ນຕໍ່ໄປທີ່ເປັນທຳມະຊາດ — ໂດຍສະເພາະໃນຊຸບຊັບກຸ່ມ trap-case, ບ່ອນທີ່ຄວາມສອດຄ່ອງພາຍໃຕ້ການສັ່ນສະເທືອນຈາກການສຸ່ມ (sampling jitter) ແມ່ນສ່ວນໜຶ່ງຂອງຂໍ້ອ້າງດ້ານຄວາມປອດໄພ.
ຂອບເຂດຂອງເຄື່ອງຈັກດຽວ. ລາຍງານນີ້ອະທິບາຍ engine ໜຶ່ງ. ການວິເຄາະປຽບທຽບກັບລະບົບ AI ອື່ນແມ່ນຢູ່ນອກຂອບເຂດທີ່ນີ້; ພວກເຮົາອາດຈະດຳເນີນການເປັນການສຶກສາແບບອິດສະຫຼະຕ່າງຫາກ ດ້ວຍວິທີການທີ່ເໝາະສົມ, ຕໍ່ກັບ harness ດຽວກັນທີ່ອະນຸຍາດໂດຍ MIT.
ຂໍ້ມູນສັງເຄາະ (Synthetic data). ຈຳນວນ 100,000 ກໍລະນີຖືກສ້າງຂຶ້ນແບບສັງເຄາະ (synthetically generated), ບໍ່ແມ່ນ “synthetic cases” ແບບກໍລະນີສັງເຄາະ, ແລະຜົນບໍ່ສາມາດຖ່າຍໂອນໄປສູ່ການປະຕິບັດທາງຄລິນິກໃນໂລກຈິງໄດ້. ການປະເມີນດ້ວຍຂໍ້ມູນຈິງ (real), ທີ່ໄດ້ຮັບຄວາມຍິນຍອມ (consented), ແລະມາຈາກແຫຼ່ງພາຍນອກ (externally-sourced) ຈະຕ້ອງການກຳກັບດ້ານຈັນທະທຳ (ethical oversight) ທີ່ເໝາະສົມ ແລະຢູ່ນອກຂອບເຂດ (out of scope) ຂອງ benchmark ສັງເຄາະນີ້.
ນອກຈາກສີ່ຢ່າງນີ້, ການຂະຫຍາຍທີ່ມີຜົນກະທົບຫຼາຍທີ່ວາງແຜນໄວ້ແມ່ນຄວາມທຽບເທົ່າທຽມຫຼາຍພາສາຕາມເຂດອຳນາດ. ເຄື່ອງຈັກ AI Engine ຂອງ Kantesti ໃຫ້ບໍລິການຜູ້ໃຊ້ໃນ 75+ ພາສາ, ແລະການຮັນຍ່ອຍ Second-Update ແບ່ງຕາມພາສາ (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) ຈະວັດຄຸນນະພາບຜົນອອກຂ້າມພາສາທີ່ engine ຮອງຮັບ. ການວິເຄາະແຕ່ລະພາສາທີ່ແບ່ງຕາມພາສາຈະຖືກເຜີຍແຜ່ພ້ອມ DOI ຂອງຕົນເອງ ແລະສາຂາ harness.