ການກວດເລືອດດ້ວຍ AI ລະດັບມາດຕະຖານ Kantesti

ການປຽບທຽບອັດຕະໂນມັດ ການກຳນົດມາດຕະຖານທີ່ລົງທະບຽນໄວ້ (Pre-Registered Benchmark) ອັບເດດທີ 2 ຂອງ V11 — ເດືອນເມສາ 2026 ອະນຸຍາດໃຫ້ໃຊ້ຕາມ MIT (MIT-Licensed) ສາມາດທົດຊ້ຳໄດ້ · ຂໍ້ມູນເປີດ 100K ກຸ່ມຕົວຢ່າງສັງເຄາະ · 127 ປ້າຍປະເທດ

99.80% ຄະແນນລວມຕາມລະບົບກຳນົດທີ່ລົງທະບຽນໄວ້ — V11 ອັບເດດຄັ້ງທີ 2, ກຸ່ມ 100,000 ກໍລະນີ ຂ້າມ 127 ປ້າຍປະເທດ

ການທົດສອບດ້ານເຕັກນິກອັດຕະໂນມັດທີ່ລົງທະບຽນໄວ້ ແລະອີງໃສ່ rubric ສຳລັບເຄື່ອງຈັກ Kantesti ທີ່ວັດແທກຜົນອອກຕາມ 100,000 ກໍລະນີການກວດເລືອດທີ່ສ້າງຂຶ້ນຢ່າງສັງເຄາະ ທີ່ຕິດປ້າຍ 127 ປ້າຍປະເທດ. ມັນວັດຄວາມສອດຄ່ອງຂອງຜົນອອກ, ບໍ່ແມ່ນຄວາມຖືກຕ້ອງດ້ານການວິນິດໄຊ. rubric ຖືກລັອກໄວ້ໃນ source code ກ່ອນການປ່ອຍເປີດຄັ້ງທຳອິດຂອງ V11 ແລະຖືກຮັກສາໃຫ້ byte-identical ສຳລັບ Second Update ນີ້; ຊຸດການປະເມີນ (evaluation harness) ແມ່ນລິຂະສິດ MIT; ມີການເຜີຍແຜ່ການສຸ່ມແບບສະຫຼຽງ (stratified random sample) ຂອງຄຳຕອບດິບຈາກເຄື່ອງຈັກ ເພື່ອໃຫ້ກວດສອບ. ທຸກກໍລະນີແມ່ນສັງເຄາະ; ບໍ່ໃຊ້ຂໍ້ມູນສ່ວນບຸກຄົນ.

📖 ~14 ນາທີ 📅 ເຜີຍແຜ່ 23 ເມສາ 2026 · ອັບເດດ 26 ເມສາ 2026 (V11 Second Update) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 ຈັດພິ. I need to provide translations for all items; continue. ເມສາ 23, 2026 🔄 ອັບເດດທີ 2 ຂອງ V11: ເມສາ 26, 2026 🩺 Medically Reviewed: ເມສາ 26, 2026 ✅ ກອບການປະເມີນທີ່ລົງທະບຽນໄວ້ກ່ອນ (Byte-Identical) 🔓 ເປີດຊອດໂຄດ ແລະຂໍ້ມູນ (Open Code & Data)

ການປຽບທຽບອັດຕະໂນມັດນີ້ຖືກອອກແບບ ແລະ ດຳເນີນການໂດຍ Julian Emirhan Bulut, ວິສະວະກອນ AI ອາວຸໂສ ແລະ CEO ຂອງ Kantesti Ltd. ການໃຫ້ຄະແນນຖືກອັດຕະໂນມັດຢ່າງສົມບູນໃນຊອດຕ໌ໂຄດ; ເກນການໃຫ້ຄະແນນ ແລະ ຄະນະກໍລະນີຖືກພັດທະນາດ້ວຍການໃຫ້ຂໍ້ມູນຈາກທາງດ້ານຄລີນິກຈາກ ດຣ. ທອມັສ ໄຄລນ໌, MD, Chief Medical Officer ຂອງ Kantesti AI, ແລະ ຖືກທົບທວນໂດຍ ຄະນະທີ່ປຶກສາດ້ານການແພດ Kantesti AI. ເປັນການທົດສອບພາຍໃນທີ່ແລ່ນເອງ (self-run) ບໍ່ແມ່ນການທົດສອບດ້ານເຕັກນິກອັດຕະໂນມັດທີ່ເປັນອິດສະຫຼະ ຫຼື ຜ່ານການທົບທວນໂດຍຜູ້ຊ່ຽວຊານ (peer-reviewed).

ຜູ້ຂຽນຫຼັກ & ການກຳກັບດູແລທາງຄລີນິກ (Clinical Oversight)

ທອມັສ ໄຄລນ໌, MD

ຫົວໜ້າເຈົ້າໜ້າທີ່ແພດ, Kantesti AI

ທ່ານດຣ. Thomas Klein ເປັນແພດໝໍທາງດ້ານເລືອດ (clinical hematologist) ແລະອາຍຸລະບົບພາຍໃນ (internist) ທີ່ຜ່ານການຢັ້ງຢືນຈາກສະພາ (board-certified) ແລະມີປະສົບການກວ່າ 15 ປີໃນວິຊາການແພດຫ້ອງທົດລອງ. ໃນຖານະ Chief Medical Officer ຂອງ Kantesti AI, ທ່ານໄດ້ເລືອກຊຸດກໍລະນີ (case panel) ສຳລັບ benchmark ນີ້, ທົບທວນເນື້ອຫາທາງຄລີນິກ ແລະຄຳຕອບທີ່ຄາດຫວັງຂອງກໍລະນີສັງເຄາະ, ແລະອະນຸມັດ rubric ທີ່ລົງທະບຽນໄວ້ກ່ອນການເອີ້ນໃຊ້ເຄື່ອງຈັກຄັ້ງທຳອິດ.

ORCID 0009-0009-1490-1321 ປະຕູຄົ້ນຄວ້າ Google Scholar

ຜູ້ຂຽນຮ່ວມ & ການນຳໃຊ້ (Implementation)

Julian Emirhan Bulut

ວິສະວະກອນ AI ລະດັບສູງ & CEO, Kantesti Ltd

Julian Emirhan Bulut ແມ່ນຜູ້ກໍ່ຕັ້ງ ແລະ CEO ຂອງ Kantesti Ltd. ລາວໄດ້ອອກແບບ ແລະ ນໍາໃຊ້ evaluation harness — ລວມທັງ SQL case loader ທີ່ເພີ່ມເຂົ້າໃນ V11 Second Update — ໄດ້ດໍາເນີນການປະສານ API, ດໍາເນີນທັງການທົດສອບອ້າງອີງເລີ່ມຕົ້ນຂອງ V11 ແລະການທົດສອບ V11 Second Update ຈໍານວນ 100,000 ກໍລະນີ, ແລະ ກຽມການລວບລວມທາງສະຖິຕິ. ຜູ້ກໍ່ຕັ້ງຂອງແພລດຟອມຕັ້ງແຕ່ປີ 2019.

GitHub ກ່ຽວກັບ Kantesti

⚡ ສະຫຼຸບໂດຍຫຍໍ້ ອັບເດດທີ 2 ຂອງ V11 — ເມສາ 26, 2026

ຄະແນນລວມ 99.80% ໃນກໍລະນີການກວດເລືອດສັງເຄາະ 100,000 ກໍລະນີ ຂ້າມ 8 ສາຂາທາງການແພດ ແລະ 127 ປ້າຍປະເທດ (V11 Second Update).
ບໍ່ມີ false-positive ຂອງ hyperdiagnosis ຂ້າມໂອກາດທຸງກັບກັນ (trap-case flag opportunities) ທີ່ຖືກຕິດຕາມ 87,412 — ວິທີການ trap-case ດຽວກັນກັບ V11 initial, ຂະຫຍາຍໄປສູ່ລະດັບປະຊາກອນ.
ກໍານົດ rubric ລ່ວງໜ້າ (pre-registered) ຖືກລັອກໄວ້ໃນ source code ກ່ອນການທົດສອບເລີ່ມຕົ້ນຂອງ V11 ແລະຖືກຮັກສາໄວ້ byte-identical ສໍາລັບອັບເດດທີ 2 ນີ້ — ບໍ່ສາມາດປັບແກ້ພາຍຫຼັງ (post-hoc tuning) ໄດ້.
ນໍາໃຊ້ Mentzer index ຢ່າງຖືກຕ້ອງ ເພື່ອແຍກຄວາມແຕກຕ່າງລະຫວ່າງ ພາວະເລືອດຈາງຂາດເຫຼັກ (iron deficiency anaemia) ແລະ beta-thalassaemia minor ໃນການປ່ອຍເລີ່ມຕົ້ນຂອງ V11; ພຶດຕິກໍາທີ່ແຕກຕ່າງກັນນັ້ນຖືກຮັກສາໄວ້ໃນລະດັບປະຊາກອນ.
ປາຍທາງສໍາລັບ production ເທົ່ານັ້ນ — ບໍ່ມີ privileged routing, ຖືກປະເມີນແມ່ນຢ່າງດຽວກັບທີ່ລູກຄ້າຈ່າຍເຂົ້າເຖິງ.
ຄ່າ latency ສະເລ່ຍ 13.26 ວິນາທີ end-to-end (ຊ່ວງ 9.0–16.94 ວິນາທີ), ໂດຍທັງ 100,000 ກໍລະນີສໍາເລັດຜ່ານເສັ້ນທາງຫຼັກ (primary path) ຂອງ engine.
ກຸ່ມຕົວຢ່າງສັງເຄາະ. ກໍລະນີທົດສອບສັງເຄາະ 100,000 ກໍລະນີ ຖືກໂຫຼດໃນເວລາແລ່ນ (run-time). ບໍ່ໃຊ້ຂໍ້ມູນສັງເຄາະ ແລະບໍ່ໃຊ້ຂໍ້ມູນສ່ວນບຸກຄົນ.
ຊຸດທົດລອງ (harness) ລິຂະສິດ MIT ເຜີຍແຜ່ໃນ GitHub ພ້ອມຕົວຢ່າງສຸ່ມແບບຈັດຊັ້ນ (n = 201) ຂອງຄໍາຕອບດິບທັງໝົດຈາກ engine ເພື່ອໃຫ້ກວດສອບ.
Figshare DOI: 10.6084/m9.figshare.32095435 · ສະແດງຄືນ (mirrored) ໃນ ResearchGate, Academia.edu, GitHub.

ເປັນຫຍັງ benchmark ນີ້ຈຶ່ງມີ ແລະມັນທົດສອບຫຍັງ

ການວິເຄາະເລືອດດ້ວຍ AI ຖືກນໍາໃຊ້ຫຼາຍຂຶ້ນໃນການໃຊ້ງານຂອງຜູ້ບໍລິໂພກ ແລະ ດ້ານການແພດ, ແຕ່ກອບການປະເມີນທີ່ສາມາດທົດຊ້ໍາໄດ້ ທີ່ຖືກປັບໃຫ້ເໝາະກັບການແພດທາງຫ້ອງທົດລອງ ຍັງບໍ່ຄ່ອຍມີ. ຄໍາຖາມທີ່ສໍາຄັນທີ່ສຸດໃນສະພາບນີ້ ບໍ່ແມ່ນຄໍາຖາມທີ່ຖືກຄອບຄຸມໂດຍ benchmark ການຕອບຄໍາຖາມທາງການແພດທົ່ວໄປ: ເຄື່ອງຈັກ (engine) ສາມາດແຍກ iron deficiency ອອກຈາກ thalassaemia trait ໄດ້ບໍ ເມື່ອ MCV ມີຄ່າຄືກັນ, ມັນຈະ over-diagnose Gilbert's syndrome ເປັນ hepatitis ບໍ, ແລະ ມັນສ້າງພະຍາດຂຶ້ນໃນແຜນກວດທີ່ປົກກະຕິສົມບູນບໍ?

ການກວດເລືອດແບບກຸ່ມດຽວມັກຈະມີຂໍ້ມູນພຽງພໍທີ່ສາມາດຮອງຮັບການຕີຄວາມໄດ້ຫຼາຍຢ່າງທີ່ແຂ່ງກັນ, ແລະວຽກຂອງແພດຜູ້ຕີຄວາມແມ່ນການຊັ່ງນ້ຳໜັກການຕີຄວາມເຫຼົ່ານັ້ນທຽບກັນ ບໍ່ແມ່ນການຄົ້ນຫາຄຳຕອບຈາກປຶ້ມຕຳລາ. ເຄື່ອງຈັກທີ່ເຮັດໄດ້ດີໃນກໍລະນີຕົວຢ່າງຈາກຕຳລາ ຍັງສາມາດລົ້ມເຫຼວໃນກໍລະນີທີ່ສຳຄັນທີ່ສຸດ: ກັບດັກການວິນິດໄຈແຍກພະຍາດ, ຕົວແປທີ່ບໍ່ເປັນອັນຕະລາຍທີ່ເບິ່ງອັນຕະລາຍເມື່ອເບິ່ງແບບດຽວ, ແລະ ກຸ່ມການກວດທີ່ປົກກະຕິຢ່າງສົມບູນ ທີ່ລໍ້ໃຫ້ຜູ້ຊ່ວຍທີ່ໝັ້ນໃຈສ້າງພະຍາດຂຶ້ນມາ.

ເກນມາດຕະຖານນີ້ຖືກສ້າງຂຶ້ນໂດຍອີງໃສ່ຮູບແບບຄວາມລົ້ມເຫຼວເຫຼົ່ານັ້ນໂດຍກົງ. ທັງ 15 ກໍລະນີ ຖືກເລືອກເພື່ອຄຸນສົມບັດການວິນິດໄຈທີ່ສະເພາະ: microcytosis ທີ່ຂາດເຫຼັກ ທີ່ຕ້ອງແຍກໃຫ້ຊັດຈາກ beta-thalassaemia trait ທີ່ມີ mean corpuscular volume ຄ້າຍກັນ, ການສະແດງຂອງ Gilbert's syndrome ທີ່ຄວາມຜິດປົກກະຕິພຽງແຕ່ແມ່ນ isolated indirect hyperbilirubinaemia, ແລະ ກຸ່ມການກວດຄັດກອງ 15 ພາລາມິເຕີ ທີ່ທຸກຕົວວິເຄາະຢູ່ໃນຊ່ວງອ້າງອີງຂອງຕົນ. ເກນການປະເມີນຈະໃຫ້ຄະແນນແກ່ເຄື່ອງຈັກທີ່ອ່ານແຕ່ລະກໍລະນີຕາມເງື່ອນໄຂຂອງມັນເອງ ແລະຈະຫັກຄະແນນໃຫ້ເຄື່ອງຈັກທີ່ພະຍາຍາມສະຫຼຸບການວິນິດໄຈຢ່າງໝັ້ນໃຈ ໃນບ່ອນທີ່ບໍ່ມີການວິນິດໄຈແນວນັ້ນທີ່ຄວນຈະຮອງຮັບ.

ໃນນາມຂອງ Thomas Klein, MD, ຂ້າພະເຈົ້າເລືອກຊຸດກໍລະນີນີ້ ເພາະວ່ານີ້ແມ່ນຮູບແບບທີ່ຂ້າພະເຈົ້າເຫັນຜູ້ຊ່ວຍດ້ານການແພດ-ຫ້ອງທົດລອງ ເຮັດຜິດພາດບໍ່ເລືອກຫຼາຍທີ່ສຸດ. ຄວາມລົ້ມເຫຼວທີ່ແພງ ບໍ່ແມ່ນ "ພາດພະຍາດທີ່ຫາຍາກ" — ແຕ່ແມ່ນການປະດິດພະຍາດປົກກະຕິໃນຄົນເຈັບທີ່ບໍ່ໄດ້ມີພະຍາດນັ້ນ. ຂອງພວກເຮົາ ການກວດສອບທາງການແພດ hub ອະທິບາຍກອບລວມທີ່ກວ້າງກວ່າ; ໜ້ານີ້ອະທິບາຍການພິສູດແນວຄວາມຄິດເບື້ອງຕົ້ນຂອງ V11 ແລະ V11 Second Update ທີ່ຂະຫຍາຍມັນໄປສູ່ 100,000 ກໍລະນີສັງເຄາະ ທີ່ດຶງມາຈາກຊຸດກໍລະນີສັງເຄາະທີ່ຄອບຄຸມ 127 ປ້າຍປະເທດ — ໂດຍໃຊ້ rubric ການໃຫ້ຄະແນນດຽວກັນ, byte-identical, ແລະບໍ່ອະນຸຍາດໃຫ້ປັບປຸງພາຍຫຼັງ (no post-hoc tuning).

ການທົດລອງອ້າງອີງລ່າສຸດ — V11 ການອັບເດດຄັ້ງທີ 2 (26 ເມສາ 2026)

ການທົດລອງອ້າງອີງຂອງ V11 ການອັບເດດຄັ້ງທີ 2 ວັນທີ 26 ເມສາ 2026 ໄດ້ຜະລິດຄະແນນລວມ (composite score) ຂອງ 99.80% ໃນ rubric ທີ່ລົງທະບຽນໄວ້ກ່ອນດຽວກັນກັບການປ່ອຍເລີ່ມຕົ້ນຂອງ V11, ປະເມີນໃນ ກໍລະນີສັງເຄາະ 100,000 ກໍລະນີ ດຶງມາຈາກຊຸດກໍລະນີສັງເຄາະ Kantesti ແລະຄອບຄຸມ 127 ປ້າຍປະເທດ ແລະ 75+ ພາສາ. ທຸກກໍລະນີສຳເລັດໃນເສັ້ນທາງຫຼັກຂອງເຄື່ອງຈັກ; ການເປີດໃຊ້ທຸງ (flag) ການວິນິດໄສເກີນຈຳເປັນ (trap-case hyperdiagnosis) ຍັງຢູ່ທີ່ 0 / 87,412. ການທົດລອງເດີມຂອງ V11 ວັນທີ 23 ເມສາ 2026 ຄອບຄຸມ 15 ກໍລະນີທີ່ຄັດເລືອກໂດຍມື (hand-curated) (ຄະແນນລວມ 99.12%) ແລະ ຢືນຢັນ rubric; ການອັບເດດຄັ້ງທີ 2 ຮັກສາ rubric ໃຫ້ຄືກັນທຸກໄບດ໌ ແລະ ຂະຫຍາຍການປະເມີນໄປສູ່ກຸ່ມປະຊາກອນຂະໜາດໃຫຍ່.

ຄະແນນລວມ 99.80% 100,000 ຈາກ 100,000 ກໍລະນີ ໄດ້ຄະແນນ

1.000 ຄະແນນດ້ານໂຄງສ້າງ

0.996 ຄະແນນດ້ານຄວາມຖືກຕ້ອງທາງຄລີນິກ

13.26 s ຄ່າເວລາລ່າຊ້າສະເລ່ຍ

0 / 87,412 ການກວດຜິດແບບ false-positives ຂອງກັບດັກ

ສູດຄະແນນລວມປະກອບດ້ວຍ 3 ສ່ວນ: ຄວາມສອດຄ່ອງດ້ານໂຄງສ້າງ ກັບ 7 ພາກສ່ວນລາຍງານທີ່ຕ້ອງມີ ແລະ 16 ພາກສ່ວນຍ່ອຍທີ່ຕ້ອງມີ, ຄວາມຖືກຕ້ອງຂອງເນື້ອຫາ ວັດແທກເປັນ keyword recall ບວກກັບ scoring-system recall ບວກກັບການກວດຄວາມຖືກຕ້ອງຂອງ probability-distribution, ແລະ ເວລາຕອບກັບ ຕໍ່ເປົ້າໝາຍລະດັບການບໍລິການ (service-level) ຂອງເສັ້ນທາງຫຼັກ. ການແຍກຢ່າງຖືກຕ້ອງຖືກສະແດງໄວ້ໃນສູດ rubric ດ້ານລຸ່ມ — ບໍ່ມີນ້ຳໜັກ ຫຼື sub-rubric ອັນໃດໜຶ່ງຖືກປ່ຽນແປງສຳລັບການອັບເດດຄັ້ງທີ 2.

ຄະແນນລວມ = 0.35 × ດ້ານໂຄງສ້າງ + 0.55 × ດ້ານຄລີນິກ + 0.10 × ດ້ານເວລາລ່າຊ້າ

ສ່ວນທີ່ເຫຼືອ 0.20 ຈຸດເປີເຊັນຂອງຊ່ອງຫຼືອ (headroom) ແມ່ນແຍກລົງໄປເກືອບທັງໝົດໃນຄະແນນຍ່ອຍດ້ານການແພດ (clinical sub-score) — ສ່ວນນ້ອຍຂອງກໍລະນີ (ສ່ວນໃຫຍ່ຢູ່ໃນ Hepatology ແລະ Rheumatology) ມີຄຳສຳຄັນຂອງລະບົບການໃຫ້ຄະແນນທີ່ຄາດໄວ້ວ່າຈະມີ ແຕ່ບໍ່ຖືກພົບໃນການຕີຄວາມຂອງເຄື່ອງຈັກ ເຖິງແມ່ນວ່າເນື້ອຫາດ້ານການວິນິດໄສຖືກຕ້ອງ. ບໍ່ມີກໍລະນີໃດໃນກຸ່ມກໍລະນີ 100,000 ຂອງການອັບເດດຄັ້ງທີ 2 ທີ່ພາດການວິນິດໄສຕົວມັນເອງ. ຄວາມຊ້າ (latency) ດີຂຶ້ນຈາກຄ່າສະເລ່ຍ 20.17 s ໃນການປ່ອຍເລີ່ມຕົ້ນຂອງ V11 ໄປເປັນ 13.26 s ໃນການອັບເດດຄັ້ງທີ 2, ສະທ້ອນການປັບປຸງເຄື່ອງຈັກສຳລັບການນຳໃຊ້ຈິງ (production engine optimisations) ລະຫວ່າງສອງການທົດລອງ; rubric, ລະຫັດການໃຫ້ຄະແນນ, ແລະ endpoint ຂອງ API ບໍ່ປ່ຽນແປງ.

ຄະແນນລວມຕາມປ້າຍ (per-label composite scores) ຢູ່ລະຫວ່າງ 0.9971 ຫາ 0.9985 ຂ້າມ 30 ປ້າຍປະເທດທີ່ມີກໍລະນີຕົວແທນຫຼາຍສຸດ. ສ່ວນທ້າຍຍາວ (long tail) ຂອງ 97 ປ້າຍອື່ນໆ (ລວມປະມານ ≈7,300 ກໍລະນີ) ບໍ່ເຫັນການຫຼຸດລົງແບບເປັນລະບົບ. ປ້າຍທີ່ພົບຫຼາຍສຸດຕາມຈຳນວນກໍລະນີແມ່ນ ສະຫະລັດ (10,500), ບຣາຊິນ (9,500), ສະເປນ (9,000), ອິຕາລີ (8,000), ເຢຍລະມັນ (7,800), ຝຣັ່ງ (7,400), ໂປຕຸເກັດ (5,800), Türkiye (3,400), ສະຫະອານາຈັກສະຫະລັດອັງກິດ) (2,900), ແລະ ເມັກຊິໂກ (2,500).

ຈາກ 15 ກໍລະນີ ຫາ 100,000: ການພັດທະນາຂອງກຸ່ມຕົວຢ່າງ ຂ້າມ 127 ປ້າຍປະເທດ

ຊຸດກໍລະນີ (case panel) ເດີມຂອງ V11 ຄອບຄຸມ 7 ສາຂາ — ພະຍາດເລືອດ (hematology), ຕ່ອມໃນລະບົບຕໍ່ມະນຸດ (endocrinology), ຢາດ້ານການແພດດ້ານການເຜົາຜານ (metabolic medicine), ພະຍາດຕັບ (hepatology), ພະຍາດໄຕ (nephrology), ພະຍາດຫົວໃຈ (cardiology), ພະຍາດກ່ຽວກັບພູມຕ້ານທານ/รูມາຕິສ (rheumatology) — ແລະມີ 2 ກໍລະນີກັບກັນການວິນິດໄຊ (hyperdiagnosis trap) ທີ່ອຸທິດສອນເຉພາະ, ໂດຍແຕ່ລະກໍລະນີແມ່ນຊຸດການກວດເລືອດທີ່ສ້າງຂຶ້ນຢ່າງສັງເຄາະ. V11 Second Update ຂະຫຍາຍການປະເມີນໄປສູ່ ກໍລະນີສັງເຄາະ 100,000 ກໍລະນີ ຂ້າມ 127 ປ້າຍປະເທດ, ຈັດກະຈາຍໃນ 8 ສາຂາ (ເຈັດສາຂາເດີມ ບວກກັບກຸ່ມພາຍໃນທີ່ອຸດຊອບສ່ວນ trap). ນຳໃຊ້ rubric ການໃຫ້ຄະແນນດຽວກັນ ຄືກັນທຸກໄບດ໌ ໃນທັງສອງການທົດລອງ.

ເນື່ອງຈາກທຸກກໍລະນີຖືກສ້າງຂຶ້ນຢ່າງສັງເຄາະ, ຈຶ່ງບໍ່ມີຕົວລະບຸຈິງທີ່ຕ້ອງລົບ ແລະບໍ່ມີຂໍ້ມູນສ່ວນບຸກຄົນ. ແຕ່ລະກໍລະນີສັງເຄາະມີລະຫັດກໍລະນີພາຍໃນສຳລັບ benchmark (benchmark-internal case code) (BT-NNN-LABEL ໃນຊຸດເບື້ອງຕົ້ນ V11, ຄົງທີ່ case_uid ໃນ Second Update). ບໍ່ມີຂໍ້ມູນສ່ວນບຸກຄົນປາກົດຢູ່ບ່ອນໃດໃນ harness ທີ່ເຜີຍແຜ່, ລາຍງານດ້ານເຕັກນິກ, ຫຼື ຊຸດຂໍ້ມູນ (datasets) ທີ່ປ່ອຍອອກ.

ການປ່ອຍເລີ່ມຕົ້ນຂອງ V11 — 15 ກໍລະນີທີ່ຄັດເລືອກໂດຍມື

ກະດານກໍລະນີ V11 ເດີມ ໄດ້ຖືກຄັດເລືອກດ້ວຍມືໂດຍທ່ານດຣ. Thomas Klein ເພື່ອຝຶກຮູບແບບການວິນິດໄສທີ່ຜູ້ຊ່ວຍດ້ານການແພດທາງຫ້ອງທົດລອງມັກຈະເຮັດຜິດພາດຫຼາຍທີ່ສຸດ. ທັງ 15 ກໍລະນີ ໄດ້ຖືກເລືອກເພື່ອຄຸນສົມບັດການວິນິດໄສສະເພາະ ດັ່ງທີ່ລະບຸຂ້າງລຸ່ມນີ້.

ເຮມາໂຕໂລຢີ (3) BT-001, BT-006, BT-007 ພາວະເລືອດຈາງຈາກຂາດເຫຼັກ (Iron deficiency anaemia) · ຂາດວິຕາມິນ B12 · ເບຕ້າ-ธາລັດຊີເມຍສ໌ ຂັ້ນນ້ອຍ (Beta-thalassaemia minor)

ເອນໂດຄຣິໂນໂລຢີ (3) BT-002, BT-008, BT-012 ໂຣກ Hashimoto's thyroiditis · PCOS ພ້ອມການຕ້ານອິນຊູລິນ · ຂາດວິຕາມິນດີຮ້າຍແຮງ

Metabolic (2) BT-003, BT-013 T2DM ພ້ອມໂຣກ metabolic syndrome · Hyperuricaemia ພ້ອມຄວາມສ່ຽງຂອງ gout

ເຮປາໂຕໂລຢີ (2) BT-004, BT-009 NAFLD / NASH · ຕັບອັກເສບໄວຣັດສຸກເສີນ

ເນຟໂຟໂລຢີ · ຄາດິໂອໂລຢີ · ຣູມາໂຕໂລຢີ (3) BT-005, BT-010, BT-011 CKD ຂັ້ນທີ 3 · ໄຂມັນໃນເລືອດທີ່ກໍ່ໃຫ້ເກີດ atherogenic dyslipidaemia · Systemic lupus erythematosus

ກໍລະນີກັກກັນ (2) BT-014, BT-015 Gilbert's syndrome (isolated indirect hyperbilirubinaemia) · ແຜງກວດຄັດກອງຜູ້ໃຫຍ່ທີ່ປົກກະຕິສົມບູນ

ເປັນຫຍັງການແຈກຈ່າຍນີ້ຈຶ່ງເປັນພິເສດ

ວິຊາການເລືອດ (Hematology) ໄດ້ສາມກໍລະນີ ເພາະວ່າການຈຳແນກແບບ microcytic ແລະ macrocytic ແມ່ນກັບດັກທີ່ມີປະລິມານສູງສຸດໃນການປະຕິບັດງານຫ້ອງທົດລອງຕົວຈິງ. ວິຊາຕໍ່ມະນຸດ (Endocrinology) ໄດ້ສາມກໍລະນີ ເພາະວ່າການສະແດງອາການຂອງ Hashimoto's, PCOS, ແລະ ຂາດວິຕາມິນດີ ມີຮູບແບບການວິນິດໄຊທີ່ແຕກຕ່າງກັນ (ຂັບເຄື່ອນໂດຍ autoantibody, ຂັບເຄື່ອນໂດຍອັດຕາຮໍໂມນ, ແລະ ຂັບເຄື່ອນໂດຍຕົວຊີ້ດຽວ). ສາຂາທີ່ມີພຽງກໍລະນີດຽວຍັງມີຄວາມໝາຍ ເພາະແຕ່ລະຢ່າງຂອງ CKD, ຄວາມສ່ຽງ ASCVD, ແລະ SLE ມີລະບົບຄະແນນຂອງຕົນເອງ ທີ່ເຄື່ອງຈະຕ້ອງເອີ້ນໃຊ້ (KDIGO staging, ຄວາມສ່ຽງ 10 ປີຂອງ ASCVD, ແລະ ເກນ SLE 2019 EULAR/ACR ຕາມລຳດັບ).

V11 Second Update — ກໍລະນີສັງເຄາະ 100,000 ກໍລະນີ ຂ້າມ 127 ປ້າຍປະເທດ

Second Update ແທນທີ່ການຂຽນຄ່າຮາດໂຄດ 15-case ຂອງ V11 ເດີມດ້ວຍຊຸດກໍລະນີສັງເຄາະຂະໜາດໃຫຍ່ທີ່ຖືກສ້າງຂຶ້ນແບບອັດຕະໂນມັດດ້ວຍໂປຣແກຣມ (programmatically generated). ຊຸດກໍລະນີຖືກໂຫຼດໃນຕອນເລີ່ມຕົ້ນຂອງທຸກການແລ່ນ (run) ແລະບັນທຶກຄ່າການຕັ້ງຄ່າ (configuration) ເພື່ອຄວາມໂປ່ງໃສ. ການແຈກຢາຍຂອງ cohort ຕາມພື້ນທີ່ເນື້ອຫາ (content area) ສະແດງຢູ່ດ້ານລຸ່ມ.

endocrinology 23,900 ກໍລະນີ (23.9%) ຕ່ອມໄທລອຍ, PCOS, ຂາດວິຕາມິນດີ, ລະບົບກຳເນີດທາງເພດ, pituitary

ຢາດ້ານການແພດທາງກາຍະພາບ (Metabolic medicine) 21,900 ກໍລະນີ (21.9%) T2DM, metabolic syndrome, lipid panels, hyperuricaemia

Hematology 15,400 ກໍລະນີ (15.4%) ການແຍກຄວາມແຕກຕ່າງຂອງເມັດເລືອດຂະໜາດນ້ອຍແລະໃຫຍ່ (microcytic ແລະ macrocytic), B12/folate, ການກວດການສຶກສາທາດເຫຼັກ

ການສຶກສາດ້ານຕັບ 12,400 ກໍລະນີ (12.4%) NAFLD/NASH, ໄວຣັດຕັບອັກເສບ, FIB-4, cholestasis

ອາຍຸວິຊາພາຍໃນ (incl. trap subset) 9,000 ກໍລະນີ (9.0%) ການນຳສະເໜີປະສົມ ແລະ ກໍລະນີ trap ສຳລັບ hyperdiagnosis ໂດຍສະເພາະ 8,723 ກໍລະນີ

ດ້ານການກວດຫົວໃຈ (Cardiology) 7,500 ກໍລະນີ (7.5%) ຄວາມສ່ຽງ ASCVD, atherogenic dyslipidaemia, hs-CRP

ການຮັກສາພະຍາດຂໍ້ແລະພູມຕ້ານທານ (Rheumatology) 6,000 ກໍລະນີ (6.0%) SLE, RA, vasculitis, ຊຸດການກວດ autoantibody (ເງື່ອນໄຂ EULAR/ACR)

ພະຍາດໝາກໄຂ່ຫຼັງ 4,000 ກໍລະນີ (4.0%) ການຈັດລະດັບ CKD (KDIGO), ແນວໂນ້ມ eGFR, ຄວາມຜິດປົກກະຕິຂອງ electrolyte

ການແຈກຢາຍປະເທດ-ປ້າຍສັງເຄາະ (Synthetic country-label distribution) — 10 ປ້າຍອັນດັບຕົ້ນ

ກໍລະນີສັງເຄາະ 100,000 ກໍລະນີ ມີ 127 ປ້າຍປະເທດ (ISO 3166-1 alpha-2) ເພື່ອທົດສອບການຈັດການ locale. ການກຳນົດປ້າຍ: ເອີຣົບ 57.7%, ອາເມລິກາ 25.4%, ອາຊີ-ແປຊິຟິກ 6.2%, ປ້າຍທີ່ຕັ້ງຊື່ Middle-East/Africa 3.4%, ແລະ ສ່ວນທ້າຍຍາວຂອງ 97 ປ້າຍອື່ນໆ ລວມປະມານ 7.3%. ປ້າຍ 10 ອັນທີ່ພົບຫຼາຍສຸດຕາມຈຳນວນກໍລະນີແມ່ນ ສະຫະລັດ (10,500), ບຣາຊິນ (9,500), ສະເປນ (9,000), ອິຕາລີ (8,000), ເຢຍລະມັນ (7,800), ຝຣັ່ງ (7,400), ໂປຕຸເກັດ (5,800), Türkiye (3,400), ສະຫະອານາຈັກສະຫະລັດອັງກິດ) (2,900), ແລະ ເມັກຊິໂກ (2,500). ຄະແນນລວມຕາມປ້າຍ (per-label composite scores) ຢູ່ລະຫວ່າງ 0.9971 ຫາ 0.9985. ຈຳນວນປ້າຍເຫຼົ່ານີ້ແມ່ນຄຸນສົມບັດຂອງກໍລະນີທີ່ຖືກສ້າງຂຶ້ນ ເພື່ອໃຊ້ທົດສອບການຈັດການ locale — ບໍ່ແມ່ນຜູ້ໃຊ້ຈິງ ແລະບໍ່ແມ່ນການຄອບຄຸມທາງພູມສາດໃນໂລກຈິງ.

ກຳນົດເກນທີ່ລົງທະບຽນໄວ້ (pre-registered rubric), ອະທິບາຍ

ການລົງທະບຽນກ່ອນການດຳເນີນການ (pre-registration) ແມ່ນການຕັດສິນໃຈດ້ານວິທີການ (methodological) ທີ່ສຳຄັນທີ່ສຸດໃນແບັນມາກນີ້. ທຸກການວິນິດໄຊທີ່ຄາດໄວ້, ທຸກລະບົບຄະແນນທາງຄລີນິກ, ແລະ ທຸກສ່ວນຂອງລາຍງານ ໄດ້ຖືກກຳນົດໄວ້ໃນ source code ກ່ອນທີ່ເຄື່ອງຈະຖືກເອີ້ນໃຊ້. ດັດແກ້ພາຍຫຼັງ (post-hoc) ຂອງ rubric ເພື່ອໃຫ້ອອກມາດີກັບເຄື່ອງ ຈຶ່ງເປັນໄປບໍ່ໄດ້.

ອົງປະກອບສາມຢ່າງ ປະກອບເປັນຄະແນນລວມ. ສ່ວນ ດ້ານໂຄງສ້າງ (structural component) ມີຄ່າ 35 ເປີເຊັນ ແລະວັດວ່າເຄື່ອງໄດ້ສົ່ງຄືນ 7 ສ່ວນລາຍງານທີ່ຕ້ອງມີ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) ແລະ 16 ສ່ວນຍ່ອຍທີ່ຕ້ອງມີພາຍໃນພວກມັນ. ການມີຢູ່ຂອງສ່ວນ (Section presence) ມີນ້ຳໜັກ 40 ເປີເຊັນ ແລະ ການມີຢູ່ຂອງສ່ວນຍ່ອຍ (subsection presence) ມີນ້ຳໜັກ 60 ເປີເຊັນ ພາຍໃນການຄຳນວນດ້ານໂຄງສ້າງ.

ໄດ້ ສ່ວນດ້ານຄລີນິກ (clinical component) ມີຄ່າ 55 ເປີເຊັນ ແລະລວມ 3 ຢ່າງ: ການຈື່ຄຳສຳຄັນການວິນິດໄຊ (diagnosis-keyword recall) (70 ເປີເຊັນຂອງຄະແນນຍ່ອຍດ້ານຄລີນິກ), ການຈື່ລະບົບຄະແນນ (scoring-system recall) (20 ເປີເຊັນ — ເຄື່ອງຄຳນວນ Mentzer, FIB-4, HOMA-IR, ຄວາມສ່ຽງ ASCVD, KDIGO staging, ເກນ EULAR/ACR ບ່ອນທີ່ເໝາະສົມບໍ), ແລະ ການກວດຄວາມຖືກຕ້ອງດ້ານຄວາມເປັນໄປໄດ້ລວມ (probability-sum validity check) (10 ເປີເຊັນ — ຄວາມເປັນໄປໄດ້ຂອງ differential ຄວນລວມໄດ້ພາຍໃນຊ່ວງ [90, 110]). ສຳລັບກໍລະນີກັບດັກ (trap cases) ຈະຫັກໂທດການ hyperdiagnosis ຢ່າງຊັດເຈນ ເຖິງ 0.30 ໂດຍຄຳນວນເປັນ 0.10 ຕໍ່ປ້າຍສະແດງພະຍາດທີ່ປອມ (fabricated pathology flag), ຈຳກັດບໍ່ໃຫ້ເກີນສາມປ້າຍ.

ໄດ້ ສ່ວນດ້ານເວລາລ່າຊ້າ (latency component) ມີຄ່າ 10 ເປີເຊັນ. ການຕອບທີ່ຕ່ຳກວ່າ 20 ວິນາທີ ໄດ້ຄົບເຕັມ 0.10, ການຕອບທີ່ຕ່ຳກວ່າ 40 ວິນາທີ ໄດ້ 0.05, ແລະ ສິ່ງໃດທີ່ຊ້າກວ່ານັ້ນ ໄດ້ສູນ. ເປົ້າໝາຍ 20 ວິນາທີ ສະທ້ອນວັດຖຸປະສົງລະດັບການບໍລິການ (production primary-path service-level objective); ຂອບເຂດ 40 ວິນາທີ ສະທ້ອນງົບສຳຮອງສຳລັບ Phase 2 ສຳລັບການເອີ້ນໃຊ້ເຄື່ອງຢ່າງໜັກ.

ສິ່ງທີ່ pre-registration ປ້ອງກັນ

ແບັນມາກຂອງຜູ້ສ້າງເອງ (first-party benchmarks) ເປັນທີ່ຮູ້ກັນດີວ່າມັກຈະເພີ່ມຕົວເລກຂອງຕົນເອງຜ່ານການດັດແກ້ rubric ພາຍຫຼັງ (post-hoc). ຮູບແບບເກືອບຈະເປັນແນວນີ້ສະເໝີ: ທີມງານເອີ້ນໃຊ້ເຄື່ອງ, ເຫັນວ່າບ່ອນໃດທີ່ຕົກຕ່ຳ, ຈາກນັ້ນກໍປັບ rubric ຢ່າງງຽບໆ ເພື່ອໃຫ້ບ່ອນທີ່ຕົກຕ່ຳນັ້ນນັບໜ້ອຍລົງ. ໂດຍການກຳນົດ rubric ໃຫ້ເປັນ source code ກ່ອນການເອີ້ນເຄື່ອງຄັ້ງທຳອິດ ແລະ ເຜີຍແຜ່ harness ພາຍໃຕ້ລິຂະສິດ MIT, ການປັບນັ້ນຈະປາກົດໃຫ້ເຫັນໃນ version control. ຜູ້ໃດກໍສາມາດ clone ຮີໂປຊິຕໍຣີ (repository), ກວດສອບວັນທີຜູ້ຂຽນ rubric, ແລະ ຢືນຢັນວ່າຜົນຂອງເຄື່ອງບໍ່ໄດ້ຖືກນຳໄປໃຊ້ເພື່ອປັ້ນຄະແນນ.

ກໍລະນີກັບດັກ hyperdiagnosis — ເປັນຫຍັງການເອີ້ນຜິດຫຼາຍ (over-calling) ຈຶ່ງເປັນຮູບແບບຄວາມລົ້ມເຫຼວທີ່ແທ້

ການເອີ້ນພະຍາດ (pathology) ຢ່າງຮຸກຮານເກີນໄປໃນໜ້າຈໍປົກກະຕິ ແມ່ນຮູບແບບຄວາມລົ້ມເຫຼວ (failure mode) ທີ່ຖືກບັນທຶກໄວ້ສຳລັບຜູ້ຊ່ວຍທາງການແພດທີ່ສຳລັບຜູ້ໃຊ້ (consumer-facing medical assistants). ຄ່າໃຊ້ຈ່າຍຕໍ່ເນື່ອງ (downstream costs) ລວມມີການສືບສວນທີ່ບໍ່ຈຳເປັນ, ຄວາມກັງວົນຂອງຄົນເຈັບ, ແລະ ການກວດປິ່ນປົວທີ່ເກີດຈາກການຮັກສາແບບບໍ່ຈຳເປັນ (iatrogenic workup). ສອງກໍລະນີກັບດັກ (trap cases) ໃນແບັນມາກນີ້ ຖືກອອກແບບເພື່ອໃຫ້ຮູບແບບຄວາມລົ້ມເຫຼວນັ້ນ ປາກົດໃຫ້ເຫັນ ແລະ ຖືກຄະແນນໄດ້.

🟡 ກໍລະນີກັບດັກ 1 — BT-014-GILBERT

ການສະແດງອາການ (Presentation). ຊາຍອາຍຸ 24 ປີ ມີ bilirubin ທັງໝົດ 2.4 mg/dL. ສ່ວນທີ່ໂດຍກົງ (direct fraction) ແມ່ນປົກກະຕິ, transaminases ແລະ alkaline phosphatase ຢູ່ໃນຂອບເຂດອ້າງອີງຂອງມັນ, reticulocytes ບໍ່ເປັນຫຍັງ, ແລະ haptoglobin ແລະ LDH ຕັດອອກ haemolysis.

ການອ່ານທີ່ຖືກຕ້ອງ (Correct interpretation). Gilbert's syndrome — ຄວາມປ່ຽນແປງທີ່ບໍ່ເປັນອັນຕະລາຍຂອງ UGT1A1. ການອ່ານບໍ່ຄວນເອີ້ນ hepatitis, cirrhosis, haemolytic anaemia, ຫຼື biliary obstruction.

ຜົນ V11. ຄະແນນລວມ 1.000. ບໍ່ມີໜຶ່ງໃນ 6 ສັນຍານການວິນິດໄຊເກີນໄປ (over-diagnosis flags) ທີ່ຖືກຕິດຕາມ ປາກົດຂຶ້ນເປັນການວິນິດໄຊທີ່ເປັນຢູ່ (active diagnoses).

🟡 ກໍລະນີກັບດັກ 2 — BT-015-HEALTHY

ການສະແດງອາການ (Presentation). ແມ່ຍິງອາຍຸ 35 ປີ ກັບຊຸດກວດຄັດກອງປະຈຳວັນ 15 ພາລາມິເຕີ. ທຸກຕົວວັດ (analyte) ຢູ່ໃນຂອບເຂດອ້າງອີງຂອງມັນຢ່າງສະບາຍ.

ການອ່ານທີ່ຖືກຕ້ອງ (Correct interpretation). ການຢືນຢັນໃຫ້ໝັ້ນໃຈ ແລະການຮັກສາວິຖີຊີວິດ. ການອ່ານຜົນບໍ່ຄວນປະດິດພະຍາດຂອບເຂດໃຫ້ເຫັນວ່າມີຄວາມເປັນປະໂຫຍດທາງຄລີນິກ.

ຜົນ V11. ຄະແນນລວມ 1.000. ບໍ່ມີໜຶ່ງໃນເຈັດສັນຍານການກວດພົບເກີນ (over-diagnosis) ທີ່ຕິດຕາມ — ໂລກເບົາຫວານ, ໂລກຈາງ (anaemia), ໂລກຕ່ອມໄທຣອຍຕໍ່າ (hypothyroidism), ພະຍາດໄຂມັນໃນເລືອດຜິດປົກກະຕິ (dyslipidaemia), ຕັບອັກເສບ (hepatitis), ພະຍາດໝາກໄຂ່ຫຼັງ, ການຂາດແຄນ — ປາກົດເປັນການວິນິດໄສທີ່ເປັນຢູ່.

ໃນທັງສອງກັບດັກ (traps), ໄດ້ກວດສອບສັນຍານການວິນິດໄສເກີນ (hyperdiagnosis) ທີ່ຕິດຕາມຈຳນວນ 13 ຢ່າງ. ບໍ່ມີອັນໃດຖືກກະຕຸ້ນ. ນີ້ແມ່ນຜົນທີ່ສຳຄັນທີ່ສຸດສຳລັບແພດທຸກຄົນທີ່ກຳລັງພິຈາລະນານຳໃຊ້ລະບົບ AI ເປັນເຄື່ອງມືຄັດກອງ (triage) ຫຼືກ່ອນການປຶກສາ: ລະບົບບໍ່ໄດ້ປະດິດພະຍາດຂຶ້ນມາຖ້າບໍ່ມີຢູ່.

ດັດຊະນີ Mentzer: ແຍກຄວາມຂາດເຫຼັກ (iron deficiency) ອອກຈາກລັກສະນະ thalassaemia trait

ພົບຄັ້ງທີ່ມີຄຸນຄ່າສູງອີກຢ່າງໜຶ່ງ ກ່ຽວກັບການຈັບຄູ່ຂອງ case BT-001 (ພາວະຈາງຈາກການຂາດເຫຼັກ) ກັບ case BT-007 (beta-thalassaemia minor). ທັງສອງຢ່າງມີ microcytosis ແລະເປັນອຸປະສັກທີ່ຮູ້ຈັກດີສຳລັບຕົວຈຳແນກ (classifiers) ທີ່ຍັງບໍ່ຊຳນານ. ດັດຊະນີ Mentzer ທີ່ຄຳນວນເປັນ MCV ຫານດ້ວຍຈຳນວນ RBC ເກີນ 13 ໃນການຂາດເຫຼັກ ແລະຕ່ຳກວ່າ 13 ໃນລັກສະນະ thalassaemia.

ໃນ BT-001, ຄົນເຈັບເປັນແມ່ຍິງອາຍຸ 34 ປີ ມີ hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, ແລະ TIBC ສູງ. ດັດຊະນີ Mentzer ປະມານ 17.7 ສະໜັບສະໜູນການຂາດເຫຼັກແບບຈຳເພາະ (absolute iron deficiency). ໃນ BT-007, ຄົນເຈັບເປັນຊາຍອາຍຸ 28 ປີ ມີ microcytosis (MCV 65.8 fL) ແຕ່ມີ RBC ສູງ 6.2, RDW ປົກກະຕິ, ferritin ປົກກະຕິ, ແລະ HbA2 5.6 ເປີເຊັນ. ດັດຊະນີ Mentzer ປະມານ 10.6 ຊີ້ໄປທາງ thalassaemia trait ແລະ HbA2 ທີ່ສູງຢືນຢັນ beta-thalassaemia minor.

ພາວະຈາງຈາກການຂາດເຫຼັກ Mentzer > 13 ferritin ຕ່ຳ, TSAT ຕ່ຳ, TIBC ສູງ, RDW ສູງ

thalassaemia trait Mentzer < 13 ferritin ປົກກະຕິ, RDW ປົກກະຕິ, HbA2 ສູງ (>3.5%), RBC ສູງ

ທັງສອງກໍລະນີໄດ້ຄະແນນ 1.000. ເຄື່ອງຈັກໄດ້ເອີ້ນໃຊ້ດັດຊະນີ Mentzer ຢ່າງຊັດເຈນໃນທັງສອງການອ່ານ ແລະໄດ້ສົ່ງການວິນິດໄສທີ່ຖືກຕ້ອງໃນແຕ່ລະກໍລະນີ. ນີ້ແມ່ນຜົນທີ່ເຮັດໃຫ້ໝັ້ນໃຈທາງຄລີນິກທີ່ສຸດພຽງອັນດຽວໃນທັງໝົດການທົດສອບ (benchmark), ເພາະການຈັດຜິດ thalassaemia trait ເປັນການຂາດເຫຼັກ ຈະນຳໄປສູ່ການໃຫ້ເສີມເຫຼັກທີ່ບໍ່ເໝາະສົມ ແລະເສຍໂອກາດໃນການຄັດກອງຄອບຄົວ, ແລະການຈັດຜິດການຂາດເຫຼັກເປັນ thalassaemia ຈະຊັກຊ້າການປິ່ນປົວທົດແທນທີ່ງ່າຍດາຍ. ພວກເຮົາ ຄູ່ມືຊ່ວງ ferritin ອະທິບາຍບັນບັນທຶກບຣິບົດການແຍກຄວາມເປັນໄປໄດ້ (differential) ທີ່ກວ້າງຂຶ້ນ.

ຜົນຕໍ່ກໍລະນີຈາກການອ້າງອີງເບື້ອງຕົ້ນ V11 (23 ເມສາ 2026)

ການອ້າງອີງ V11 ເດີມໃນກຸ່ມ proof-of-concept 15 ກໍລະນີ ເປັນ ພື້ນຖານດ້ານວິທີການ ຂອງ Second Update: ລາຍລະອຽດຕໍ່ກໍລະນີທີ່ຢູ່ດ້ານລຸ່ມນີ້ສະແດງວ່າ rubric ຈັດການກັບຄຳຕອບຂອງເຄື່ອງຈັກຈິງແນວໃດ. ຈາກ 15 ກໍລະນີ, 12 ກໍລະນີໄດ້ຄະແນນລວມສູງສຸດ 1.000 ໃນ primary path; 3 ກໍລະນີຖືກຮັບໃຊ້ຜ່ານ Phase 2 fallback, ເສຍຄະແນນ bonus ຄວາມຊ້າ 0.05 ໃນຂະນະທີ່ຮັກສາທຸກເນື້ອຫາດ້ານຄລິນິກ ແລະ ໂຄງສ້າງໄວ້ຄົບຖ້ວນ. ມີ 1 ກໍລະນີຂາດຍ່ອຍບັງຄັບທີ່ຈຳເປັນພຽງໜຶ່ງສ່ວນ; ແລະ 1 ກໍລະນີສົ່ງຄືນຜົນລວມຂອງການຈັດກຸ່ມຄວາມເປັນໄປໄດ້ທີ່ຫຼຸດລົງເລັກນ້ອຍ.

ລະຫັດກໍລະນີ (Case ID) ສາຂາຊ່ຽວຊານ (Specialty) ຄະແນນລວມ ເວລາລ່າຊ້າ (Latency) ເສັ້ນທາງ (Path)

BT-001-IDAHematology1.00017.8 sprimary

BT-006-B12Hematology1.00018.4 ວິນາທີprimary

BT-007-THALHematology1.00017.0 ວິນາທີprimary

BT-002-HASHendocrinology0.95037.0 ວິນາທີການກັບຄືນໄປໃຊ້ຄ່າເລີ່ມຕົ້ນ

BT-008-PCOSendocrinology0.98718.6 ວິນາທີprimary

BT-003-T2DMເມຕາໂບລິກ1.00019.1 ວິນາທີprimary

BT-013-GOUTເມຕາໂບລິກ1.00019.4 ວິນາທີprimary

BT-004-NAFLDການສຶກສາດ້ານຕັບ1.00019.6 ວິນາທີprimary

BT-009-VIRHEPການສຶກສາດ້ານຕັບ0.95023.4 ວິນາທີການກັບຄືນໄປໃຊ້ຄ່າເລີ່ມຕົ້ນ

BT-014-GILBERTກັບດັກ1.00018.9 ວິນາທີprimary

BT-005-CKDພະຍາດໝາກໄຂ່ຫຼັງ1.00017.4 ວິນາທີprimary

BT-010-ASCVDດ້ານການກວດຫົວໃຈ (Cardiology)1.00019.7 ວິນາທີprimary

BT-011-SLEການຮັກສາພະຍາດຂໍ້ແລະພູມຕ້ານທານ (Rheumatology)0.98118.2 ວິນາທີprimary

BT-012-VITDendocrinology1.00019.3 ວິນາທີprimary

BT-015-HEALTHYກັບດັກ1.00018.7 ວິນາທີການກັບຄືນໄປໃຊ້ຄ່າເລີ່ມຕົ້ນ

ກໍລະນີ PCOS (BT-008) ໄດ້ສູນເສຍພາຍຍ່ອຍທີ່ຈຳເປັນອັນໜຶ່ງໃນໂຄງສ້າງຄຳຕອບ — ສິບຫ້າຈາກສິບຫົກ ແທນທີ່ຈະເປັນສິບຫົກຈາກສິບຫົກ — ເຊິ່ງໄດ້ຫັກຄະແນນໂຄງສ້າງຈາກ 1.000 ເປັນ 0.963. ກໍລະນີ SLE (BT-011) ສົ່ງຄືນຜົນລວມຂອງຄວາມເປັນໄປໄດ້ທີ່ຖືກຫຼຸດລົງແບບພຽງເລັກນ້ອຍ ຊຶ່ງເຮັດໃຫ້ຄະແນນດ້ານຄລີນິກຫຼຸດລົງເປັນ 0.965 ໃນຂະນະທີ່ຍັງຮັກສາຄຳສັບການວິນິດໄຊແລະລະບົບການໃຫ້ຄະແນນທຸກອັນໄວ້. ບໍ່ມີກໍລະນີທີ່ບໍ່ສົມບູນທັງສອງກໍລະນີທີ່ພາດການວິນິດໄຊທີ່ຖືກຕ້ອງ.

V11 Second Update aggregate — 100,000 ກໍລະນີ

ໃນຂະໜາດລະດັບປະຊາກອນ, ແຖວຂອງກໍລະນີລາຍບຸກຄົນບໍ່ສາມາດອ່ານໄດ້ແບບມະນຸດ, ດັ່ງນັ້ນ Second Update ຈຶ່ງລາຍງານຕົວຊີ້ວັດລວມ (aggregated metrics) ແທນຕາຕະລາງ 100,000 ແຖວ. ຄະແນນລວມຫຼັກ (headline aggregate) ສະແດງຢູ່ດ້ານລຸ່ມ; ການແຍກຕາມສາຂາ ແລະຕາມປະເທດ-ປ້າຍ ຖືກເຜີຍແຜ່ໃນລາຍງານດ້ານເຕັກນິກ ແລະ ການຝາກ Figshare. ການສຸ່ມແບບສະຫຼຽງ (stratified random sample) ຂອງ n = 201 ຄຳຕອບດິບຈາກເຄື່ອງຈັກ (ເມັດກຳນົດທີ່ກຳນົດໄດ້ 20260426) ຖືກເຜີຍແຜ່ໃນ GitHub results/ ເພື່ອກວດສອບ.

ຄະແນນລວມ V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 ທົ່ວກຸ່ມຕົວຢ່າງ 100,000 ກໍລະນີ

ຄະແນນດ້ານໂຄງສ້າງ (ຄ່າສະເລ່ຍ) V11 initial: 0.998 → Second Update: 1.000 ການສອດຄ່ອງດ້ານໂຄງສ້າງທີ່ສົມບູນໃນຂະໜາດປະຊາກອນ

ຄະແນນດ້ານຄລິນິກ (ຄ່າສະເລ່ຍ) V11 initial: 0.998 → Second Update: 0.996 −0.002; ບໍ່ມີກໍລະນີໃດພາດການວິນິດໄຊ້ເອງ

ຄວາມຊັກຊ້າ — ຄ່າສະເລ່ຍ (ຊ່ວງ) ເລີ່ມຕົ້ນ V11: 20.17 ວິນາທີ (17.0–37.0 ວິນາທີ) → ອັບເດດຄັ້ງທີ 2: 13.26 ວິນາທີ (9.0–16.94 ວິນາທີ) ການປັບປຸງປະສິດທິພາບຂອງເຄື່ອງຈັກການຜະລິດລະຫວ່າງການທົດລອງ

ເສັ້ນທາງຂອງເຄື່ອງຈັກ = ຕົ້ນຕໍ ເລີ່ມຕົ້ນ V11: 12 / 15 → ອັບເດດຄັ້ງທີ 2: 100,000 / 100,000 ບໍ່ຈຳເປັນຕ້ອງໃຊ້ການສຳຮອງ Phase 2 ໃນຈຸດໃດໜຶ່ງຂະນະທີ່ທົດລອງ

ທຸງກຳກັບ hyperdiagnosis ຂອງຊຸບແບບ subset ເລີ່ມຕົ້ນ V11: 0 / 13 → ອັບເດດຄັ້ງທີ 2: 0 / 87,412 ບໍ່ມີ false-positive ທີ່ສູນລະດັບປະຊາກອນ (ຕິດຕາມ 8,723 ກໍລະນີ trap)

ຄະແນນຫົວຂ່າວບໍ່ໄດ້ບອກພວກເຮົາຫຍັງ

ຄະແນນລວມ 99.80 ເປີເຊັນ ພາຍໃຕ້ rubric ທີ່ລົງທະບຽນໄວ້ສະເພາະນີ້, ສຳລັບ cohort ສັງເຄາະ 100,000 ກໍລະນີ ທີ່ຄອບຄຸມ 127 ປ້າຍປະເທດ, ສະແດງຜົນໃກ້ຂອບເພດານ (near-ceiling performance) — ແຕ່ມັນຄວນຈັດວາງບອບແບບຢ່າງລະມັດລະວັງ. ຜົນລັບລະບຸພຶດຕິກຳຂອງເຄື່ອງຈັກ ຕໍ່ກັບ rubric ທີ່ພວກເຮົາຢືນຢັນຈະຜູກມັດໄວ້ໃນ source code ຂອງ V11; ບໍ່ແມ່ນການອ້າງທົ່ວໄປວ່າເຄື່ອງຈັກຖືກຕ້ອງທຸກກໍລະນີການກວດເລືອດ (blood test panel) ທີ່ມີຢູ່ໃນໂລກຈິງ.

ຄະແນນບອກວ່າເຄື່ອງຈັກຈັດການຮູບແບບການວິນິດໄຊທີ່ເລືອກສຳລັບການປະເມີນນີ້ໄດ້ຢ່າງຖືກຕ້ອງ ຂະໜາດກຸ່ມຕົວຢ່າງລະດັບປະຊາກອນ, ດ້ວຍວິທີການທີ່ເຜີຍແຜ່ແລະສາມາດທົດຊ້ຳໄດ້. ມັນບໍ່ໄດ້ບອກວ່າເຄື່ອງຈັກຖືກຕ້ອງທຸກກະດານກວດເລືອດທີ່ມີຢູ່ໃນໂລກຈິງ. ມັນບໍ່ໄດ້ບອກວ່າເຄື່ອງຈັກຄວນມາແທນການຕັດສິນໃຈຂອງແພດຜູ້ຊ່ຽວຊານ. ແລະມັນບໍ່ໄດ້ບອກວ່າເຄື່ອງຈັກມີຜົນດີກວ່າລະບົບ AI ອື່ນ — ການວິເຄາະປຽບທຽບກັບເຄື່ອງຈັກອື່ນໆແມ່ນຈົດໄວ້ວ່າບໍ່ຢູ່ໃນຂອບເຂດຂອງລາຍງານນີ້.

ສິ່ງທີ່ຄະແນນຢືນຢັນແມ່ນຄ່າພື້ນຖານ. ດ້ວຍກອບການປະເມີນແລະຊຸດທົດລອງທີ່ເປີດເຜີຍ, ລຸ້ນຕໍ່ໄປຂອງເຄື່ອງຈັກສາມາດຖືກປະເມີນທຽບກັບກອບການດຽວກັນ — ນຳໃຊ້ກັບກໍລະນີເລີ່ມຕົ້ນ V11 15 ກໍລະນີ, ກຸ່ມຕົວຢ່າງ 100,000 ກໍລະນີຂອງອັບເດດຄັ້ງທີ 2, ຫຼືການຂະຫຍາຍຕໍ່ມາໃດໆ — ແລະຊ່ອງຫ່າງລະຫວ່າງຄະແນນທີ່ເຜີຍແຜ່ ແລະການທົດລອງຄັ້ງຕໍ່ມາໃດໆ ກໍສາມາດວັດໄດ້ເອງ. ນີ້ແມ່ນຄຸນຄ່າຂອງການລົງທະບຽນໄວ້ກ່ອນ: ມັນປ່ຽນຄຳກ່າວດ້ານຄວາມສາມາດ (performance claims) ໃຫ້ເປັນຄຳກ່າວທີ່ສາມາດທົດສອບໄດ້.

ວິທີການທົດລອງເກณฑ໌ມາດຕະຖານນີ້ຄືນໃນ 10 ນາທີ

ການທົດລອງຊ້ຳຕ້ອງການພຽງຄູ່ໃບຢັ້ງຢືນ API Kantesti ແລະສະພາບແວດລ້ອມ Python 3.10 ຫຼືຕໍ່ມາ ພ້ອມກັບ requests ແລະ reportlab ຕິດຕັ້ງຫ້ອງສະໝຸດ (libraries) ແລ້ວ. ຊຸດທົດສອບທັງໝົດແມ່ນໂມດູນ Python ດຽວທີ່ບັນຈຸຕົວເອງ (self-contained) ທີ່ປ່ອຍອອກພາຍໃຕ້ລິຂະສິດ MIT.

💻 GitHub harness ທີ່ອະນຸຍາດໃຫ້ໃຊ້ພາຍໃຕ້ MIT · ຄຳຕອບດິບ (raw responses) · ການຮັນອ້າງອີງ (reference run) 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · ບັນທຶກທາງວິຊາການທີ່ເປັນມາດຕະຖານ (canonical academic record) 🎓 ປະຕູຄົ້ນຄວ້າ Publication 404175463 · V11 Second Update · ຊັ້ນຄົ້ນພົບທາງວິຊາການ 📄 Academia.edu Paper 165956808 · V11 Second Update · ຊັ້ນຄົ້ນພົບທາງວິຊາການ

ສີ່ຂັ້ນຕອນສຳລັບການຮັນໃໝ່ (fresh run)

ອັນໜຶ່ງ. ໂຄນໂປຣເຈັກ (Clone the repository): git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ສອງ. ຕິດຕັ້ງການພຶ່ງພາອາໄສດ້ວຍ pip install -r requirements.txt (ອັບເດດຄັ້ງທີ 2 ເພີ່ມ mysql-connector-python ≥ 8.0 ສຳລັບ SQL case loader). ສາມ. ຕັ້ງ KANTESTI_USERNAME ແລະ KANTESTI_PASSWORD ເປັນຕົວແປສະພາບສຳລັບ engine API. ສຳລັບ SQL case loader ຂອງອັບເດດຄັ້ງທີ 2, ກໍ່ຕ້ອງຕັ້ງ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ແລະ KANTESTI_DB_PASSWORD — ໂຫຼດເຊື່ອມຕໍ່ຜ່ານບົດບາດສິດອ່ານເທົ່ານັ້ນ (bench_reader) ທີ່ບໍ່ມີສິດພິເສດໃນການລະບຸຕາຕະລາງ. ສີ່. ແລ່ນ python benchmark_bloodtest.py --limit 100000 ສຳລັບການຮັນ Second-Update ທັງໝົດ, ຫຼື python benchmark_bloodtest.py --limit 1000 ສຳລັບການທົດລອງຢ່າງໄວ. ຜົນອອກຈະໄປທີ່ ./benchmark_results/: ເປັນ CSV scorecard ທີ່ມີຖັນ per-country-label ແລະ per-specialty, ເປັນ JSON aggregate, ຕົວຢ່າງຄຳຕອບດິບແບບ stratified-random, ແລະລາຍງານ Markdown.

ການຮັນອ້າງອີງຈາກ 23 ເມສາ 2026 (V11 ເລີ່ມຕົ້ນ, 15 ກໍລະນີ) ແລະ 26 ເມສາ 2026 (V11 Second Update, 100,000 ກໍລະນີ) ຖືກຮັກສາໄວ້ໃນ results/ ໂຟນເດີຂອງຄັງໂປຣເຈັກ. ການຮັນໃໝ່ຈະສ້າງ scorecard ທີ່ມີ timestamp ໃໝ່ ໂດຍບໍ່ໄປປ່ຽນການຮັນອ້າງອີງ. ຖ້າການຮັນຂອງທ່ານສ້າງຜົນທີ່ແຕກຕ່າງຢ່າງມີນັຍສຳຄັນ, ກະລຸນາເປີດ GitHub issue ພ້ອມດ້ວຍ timestamp ຂອງການຮັນ ແລະ ລຸ້ນ engine ທີ່ສົ່ງຄືນໃນ metadata ຂອງຄຳຕອບ.

ຂໍ້ຈໍາກັດ ແລະ ວຽກງານໃນອະນາຄົດ

ເຖິງຈຳນວນ 100,000 ກໍລະນີຂ້າມ 127 country labels, ມີຂໍ້ຈຳກັດສີ່ຢ່າງທີ່ຄວນກ່າວແຈ້ງແບບຊັດເຈນ: ການສຸ່ມຕົວຢ່າງຂອງ label ສ່ວນທ້າຍ (long-tail) ທີ່ບໍ່ພຽງພໍ, ການປະເມີນແບບ single-shot, ຂອບເຂດຂອງ single-engine, ແລະທີ່ມາຂອງຂໍ້ມູນຈາກແຫຼ່ງດຽວ (single-source). ແຕ່ລະຢ່າງກຳລັງຖືກແກ້ໄຂໃນວຽກຕິດຕາມຢ່າງເຄື່ອນໄຫວ.

ການຄອບຄຸມ long-tail label. ການ Second Update ຄອບຄຸມ 127 country labels, ແຕ່ການແຈກຢາຍບໍ່ສົມດຸນ — 10 labels ອັນດັບສູງສຸດຄິດເປັນ ≈66.4% ຂອງຈຳນວນກໍລະນີ, ແລະ long tail ຂອງ 97 labels ທີ່ເຫຼືອລວມກັນສ້າງ ≈7.3% (ປະມານ 7,300 ກໍລະນີລວມ, ~75 ກໍລະນີຕໍ່ label ໂດຍສະເລ່ຍ). ດັ່ງນັ້ນ per-label composites ໃນ long tail ນີ້ຈຶ່ງມີສຽງລົບກວນ (noisier) ຫຼາຍກວ່າທີ່ຕົວເລກຫົວຂໍ້ (headline figures) ສະແດງ. ການວິ່ງຄັ້ງຕໍ່ໄປຈະປັບສົມດຸນການກຳນົດ label ໃໝ່ເພື່ອຢືນຢັນຄ່າປະເມີນ per-label ໃຫ້ແນ່ນອນຂຶ້ນ.

ການປະເມີນແບບຄັ້ງດຽວ. ແຕ່ລະ case ໃນກຸ່ມຕົວຢ່າງ (cohort) ຖືກປະເມີນພຽງຄັ້ງດຽວ. ໂມເດວພາສາຂະໜາດໃຫຍ່ມີຄວາມແປປ່ຽນຂອງຜົນອອກທີ່ບໍ່ເລັກນ້ອຍ ເຖິງອຸນຫະພູມການສຸ່ມຕ່ຳ, ດັ່ງນັ້ນ ຂັ້ນຕອນຫຼາຍຄັ້ງກັບການປະເມີນ 5 ຄັ້ງຕໍ່ case ແລະລາຍງານຄວາມແປປ່ຽນ (variance) ແມ່ນຂັ້ນຕໍ່ໄປທີ່ເປັນທຳມະຊາດ — ໂດຍສະເພາະໃນຊຸບຊັບກຸ່ມ trap-case, ບ່ອນທີ່ຄວາມສອດຄ່ອງພາຍໃຕ້ການສັ່ນສະເທືອນຈາກການສຸ່ມ (sampling jitter) ແມ່ນສ່ວນໜຶ່ງຂອງຂໍ້ອ້າງດ້ານຄວາມປອດໄພ.

ຂອບເຂດຂອງເຄື່ອງຈັກດຽວ. ລາຍງານນີ້ອະທິບາຍ engine ໜຶ່ງ. ການວິເຄາະປຽບທຽບກັບລະບົບ AI ອື່ນແມ່ນຢູ່ນອກຂອບເຂດທີ່ນີ້; ພວກເຮົາອາດຈະດຳເນີນການເປັນການສຶກສາແບບອິດສະຫຼະຕ່າງຫາກ ດ້ວຍວິທີການທີ່ເໝາະສົມ, ຕໍ່ກັບ harness ດຽວກັນທີ່ອະນຸຍາດໂດຍ MIT.

ຂໍ້ມູນສັງເຄາະ (Synthetic data). ຈຳນວນ 100,000 ກໍລະນີຖືກສ້າງຂຶ້ນແບບສັງເຄາະ (synthetically generated), ບໍ່ແມ່ນ “synthetic cases” ແບບກໍລະນີສັງເຄາະ, ແລະຜົນບໍ່ສາມາດຖ່າຍໂອນໄປສູ່ການປະຕິບັດທາງຄລິນິກໃນໂລກຈິງໄດ້. ການປະເມີນດ້ວຍຂໍ້ມູນຈິງ (real), ທີ່ໄດ້ຮັບຄວາມຍິນຍອມ (consented), ແລະມາຈາກແຫຼ່ງພາຍນອກ (externally-sourced) ຈະຕ້ອງການກຳກັບດ້ານຈັນທະທຳ (ethical oversight) ທີ່ເໝາະສົມ ແລະຢູ່ນອກຂອບເຂດ (out of scope) ຂອງ benchmark ສັງເຄາະນີ້.

ນອກຈາກສີ່ຢ່າງນີ້, ການຂະຫຍາຍທີ່ມີຜົນກະທົບຫຼາຍທີ່ວາງແຜນໄວ້ແມ່ນຄວາມທຽບເທົ່າທຽມຫຼາຍພາສາຕາມເຂດອຳນາດ. ເຄື່ອງຈັກ AI Engine ຂອງ Kantesti ໃຫ້ບໍລິການຜູ້ໃຊ້ໃນ 75+ ພາສາ, ແລະການຮັນຍ່ອຍ Second-Update ແບ່ງຕາມພາສາ (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) ຈະວັດຄຸນນະພາບຜົນອອກຂ້າມພາສາທີ່ engine ຮອງຮັບ. ການວິເຄາະແຕ່ລະພາສາທີ່ແບ່ງຕາມພາສາຈະຖືກເຜີຍແຜ່ພ້ອມ DOI ຂອງຕົນເອງ ແລະສາຂາ harness.

ລອງໃຊ້ Same Engine ທີ່ບັນລຸຄະແນນລວມ 99.80% ໃນ 100,000 ກໍລະນີ

ອັບໂຫຼດຊຸດກວດເລືອດຂອງທ່ານເອງໄປຍັງ endpoint ການຜະລິດດຽວກັນທີ່ໄດ້ຖືກປະເມີນໃນ benchmark ນີ້. ຫຼາຍກວ່າ 2 ລ້ານຜູ້ໃຊ້ທົ່ວໂລກໃຊ້ Kantesti AI Engine ເພື່ອຕີຄວາມໝາຍຜົນກວດເລືອດຫຼາຍກວ່າ 15,000 ຕົວຊີ້ວັດ (biomarkers) ໃນ 75+ ພາສາ.

🔬 ລອງໃຊ້ສາທິດຟຣີ

ສ່ວນຂະຫຍາຍ Chrome ຮ້ານແອັບ Google Play

📚 ວິທີອ້າງອີງ Benchmark ນີ້

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (ລາຍງານທາງວິຊາການ V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 ເອກະສານອ້າງອີງດ້ານວິທີການຈາກພາຍນອກ

Mentzer, W. C. (1973). ການແຍກຄວາມຂາດເຫຼັກອອກຈາກພາວະ Thalassaemia Trait. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). ເກນການຈັດປະເພດ 2019 ຂອງ European League Against Rheumatism / American College of Rheumatology ສຳລັບ Systemic Lupus Erythematosus. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ດອຍ 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: ການທົດສອບການປະດິດຂອງໂດເມນການແພດສຳລັບ Large Language Models. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%ຄະແນນລວມ (Composite Score)

100,000ກໍລະນີທີ່ໄດ້ຄະແນນ (Cases Scored)

127ປົກຄຸມ Country Labels ທີ່ກ່າວເຖິງ

0 / 87,412ການຜິດພາດແບບບວກຜິດ (Trap False-Positives)

ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ

Kantesti AI Engine ມີຄວາມຖືກຕ້ອງປານໃດໃນກໍລະນີທົດສອບສັງເຄາະ?

ໃນ rubric ທີ່ລົງທະບຽນໄວ້ກ່ອນ (pre-registered) ແລະດຳເນີນການກັບ 100,000 ກໍລະນີທົດສອບທີ່ຖືກສ້າງຂຶ້ນແບບສັງເຄາະ (synthetically generated) ຂ້າມແປດຂົງເນື້ອຫາ (content areas) ແລະ 127 country labels (V11 Second Update), ເຄື່ອງຈັກ (engine) ບັນລຸຄະແນນລວມ (composite score) 99.80 ເປີເຊັນ, ໂດຍບໍ່ມີສັນຍານ hyperdiagnosis ຈຳນວນສູນ ໃນໂອກາດ trap-case ທີ່ຖືກຕິດຕາມ 87,412 ແລະມີຄ່າຄວາມຊັກຊ້າຂອງຄຳຕອບ (mean response latency) 13.26 ວິນາທີ. composite ນີ້ວັດແທກຄວາມສອດຄ່ອງຂອງ output ກັບຂໍ້ປ້ອນທີ່ສັງເຄາະ (synthetic inputs), ບໍ່ແມ່ນຄວາມຖືກຕ້ອງດ້ານການວິນິດໄຊ (diagnostic accuracy). ການປ່ອຍ V11 ດັ້ງເດີມໄດ້ທົດສອບ rubric ດຽວກັນນີ້ກັບ 15 ກໍລະນີທີ່ຖືກສ້າງຂຶ້ນເອງ (hand-constructed cases) (composite 99.12%); Second Update ຮັກສາ rubric ໃຫ້ຄືກັນ byte-identical ແລະຂະຫຍາຍໄປສູ່ cohort ສັງເຄາະຂະໜາດໃຫຍ່ຂຶ້ນ. scorecard ເຕັມຖືກເຜີຍແຜ່ຢູ່ Figshare ພາຍໃຕ້ DOI 10.6084/m9.figshare.32095435 ແລະຢູ່ GitHub ພາຍໃຕ້ລິຊະສິດ MIT.

ເຄື່ອງຈັກ AI Kantesti ໄດ້ຮັບການຢັ້ງຢືນທາງການແພດບໍ?

ບໍ່. ເຄື່ອງຈັກ (engine) ໄດ້ຖືກປະເມີນດ້ວຍ automated technical benchmark (ບໍ່ແມ່ນ clinical validation), ຕໍ່ກັບ rubric ທີ່ຖືກລັອກໄວ້ໃນ source code ກ່ອນການວິ່ງເລີ່ມຕົ້ນຂອງ V11 ແລະຮັກສາໃຫ້ byte-identical ສຳລັບ V11 Second Update, ປະເມີນກັບ 100,000 ກໍລະນີທົດສອບເລືອດທີ່ສັງເຄາະ (synthetic blood-test cases) ຂ້າມ hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology, ແລະ internal medicine, ດຶງມາຈາກ 127 country labels. ການກຳກັບດ້ານຄລິນິກ (clinical oversight) ໄດ້ຮັບໂດຍ ທ່ານດຣ. Thomas Klein, MD (ORCID 0009-0009-1490-1321), ແພດຫມໍກວດພະຍາດດ້ານເລືອດ (hematologist) ທີ່ຜ່ານການຮັບຮອງຈາກຄະນະ (board-certified) ແລະເປັນ Chief Medical Officer ຢູ່ Kantesti AI.

ກໍລະນີ “ການຕິດກັບການວິນິດໄຊແບບເກີນຈິງ” ແມ່ນຫຍັງ?

ກໍລະນີກັບດັກ hyperdiagnosis ແມ່ນສະຖານະການທາງຄລິນິກທີ່ຖືກອອກແບບໂດຍສະເພາະເພື່ອກວດຈັບພຶດຕິກຳການວິນິດໄວເກີນ (over-diagnosis) ໃນເຄື່ອງຈັກ AI. ການທົດລອງມາດຕະຖານເບື້ອງຕົ້ນ V11 ໄດ້ໃຊ້ກໍລະນີດັ່ງກ່າວ 2 ກໍລະນີເປັນຫຼັກຖານດ້ານວິທີການ (methodological proof-of-concept): ກໍລະນີມີ hyperbilirubinaemia ທາງອ້ອມຢ່າງດຽວ ທີ່ສອດຄ່ອງກັບ Gilbert's syndrome (ຊຶ່ງການອ່ານທີ່ຖືກຕ້ອງແມ່ນ polymorphism UGT1A1 ທີ່ບໍ່ເປັນອັນຕະລາຍ ບໍ່ແມ່ນ hepatitis ຫຼື haemolysis) ແລະ ແຜງກວດຄັດກອງຜູ້ໃຫຍ່ທີ່ປົກກະຕິທັງໝົດ (ຊຶ່ງຜົນອອກທີ່ຖືກຕ້ອງແມ່ນການຢືນຢັນຄວາມສະບາຍໃຈ ບໍ່ແມ່ນການສ້າງພະຍາດທີ່ກຳລັງຢູ່ໃນຂອບເຂດ). ການອັບເດດຄັ້ງທີ 2 ຂອງ V11 ໄດ້ຂະຫຍາຍວິທີການກັບດັກນີ້ໄປສູ່ຊຸດຍ່ອຍທີ່ຈຳເພາະ 8,723 ກໍລະນີ ໄດ້ 87,412 ໂອກາດການກວດພົບ hyperdiagnosis ທີ່ຖືກຕິດຕາມ — ແລະອັດຕາ false-positive ຂອງເຄື່ອງຈັກຍັງຄົງຢູ່ທີ່ສູນ.

ການປະເມີນກົນໄກ AI Kantesti ສາມາດທົດລອງຊ້ຳໄດ້ບໍ?

ຊຸດການປະເມີນທັງໝົດ (full evaluation harness) ຖືກປ່ອຍອອກພາຍໃຕ້ລິຂະສິດ MIT ເປັນໂມດູນ Python ດຽວທີ່ບັນຈຸຕົວເອງ (self-contained). ການທົດລອງເບື້ອງຕົ້ນ V11 ຕ້ອງການພຽງຄູ່ຂໍ້ມູນຢັ້ງຕົວ API Kantesti ແລະ Python 3.10 ຫຼືສູງກວ່າ. ການອັບເດດຄັ້ງທີ 2 ຂອງ V11 ເພີ່ມຕົວໂຫຼດກໍລະນີ SQL ທີ່ສາມາດກຳນົດພາລາມິເຕີ ແລະອ່ານໄດ້ຢ່າງດຽວ (read-only) ທີ່ຕ້ອງການຂໍ້ມູນຢັ້ງຕົວ Kantesti clinical-repository (a bench_reader ບົດບາດທີ່ບໍ່ມີສິດໃນການລະບຸຕາຕະລາງ). ລະຫັດ, SQL ຂອງ case loader, rubric (byte-identical ລະຫວ່າງການປ່ອຍ), ແລະ ຕົວຢ່າງສຸ່ມແບບຈັດຊັ້ນ (stratified random sample) ຂອງຄຳຕອບດິບຈາກເຄື່ອງຈັກທັງສອງຮອບອ້າງອີງ (V11 initial ແລະ Second Update) ມີໃຫ້ທີ່ github.com/emirhanai/kantesti-blood-test-benchmark ແລະຖືກສຳເນົາຢູ່ Figshare, ResearchGate, ແລະ Academia.edu.

ເຄື່ອງຈັກ AI Kantesti ແຍກແຍະພາວະຂາດເຫຼັກອອກຈາກພາວະພົບພັນທະລັດຂອງ beta-thalassaemia ແນວໃດ?

ເຄື່ອງຈັກໃຊ້ Mentzer index ຊຶ່ງຄຳນວນໂດຍນຳ MCV (mean corpuscular volume) ຫານດ້ວຍຈຳນວນເມັດເລືອດແດງ (red blood cell count). Mentzer index ທີ່ສູງກວ່າ 13 ສະໜັບສະໜູນ iron deficiency anaemia, ໃນຂະນະທີ່ຄ່າຕ່ຳກວ່າ 13 ສະໜັບສະໜູນ beta-thalassaemia trait. ໃນການທົດລອງມາດຕະຖານເບື້ອງຕົ້ນ V11 ທັງສອງການນຳສະເໜີ (presentations) ຖືກຈັດປະເພດຢ່າງຖືກຕ້ອງດ້ວຍການຄຳນວນ Mentzer index ຢ່າງຊັດເຈນ ໂດຍອີງກັບ ferritin, RDW, ແລະ HbA2. ຕະຫຼອດການອັບເດດຄັ້ງທີ 2 ຂອງ V11 ຊຸດຄົນ 100,000 ກໍລະນີ ພຶດຕິກຳທີ່ແຕກຕ່າງກັນດຽວກັນນີ້ ຖືກຮັກສາໄວ້ໃນລະດັບປະຊາກອນ.

ຂ້ອຍສາມາດຊອກຫາຂໍ້ມູນຕົ້ນສະບັບສໍາລັບການທຽບຄຽງ (raw benchmark data) ແລະຊອດໂຄດຕົ້ນສະບັບ (source code) ໄດ້ຢູ່ໃສ?

ລາຍງານທາງວິຊາການ (technical report) ຖືກຝາກໄວ້ໃນ Figshare ພາຍໃຕ້ DOI 10.6084/m9.figshare.32095435 (ຄອບຄຸມທັງການປ່ອຍເບື້ອງຕົ້ນ V11 ແລະການອັບເດດຄັ້ງທີ 2 ຂອງ V11), ຖືກສຳເນົາຢູ່ ResearchGate publication 404175463 ແລະ Academia.edu paper 165956808 — ທັງສອງຖືກອັບເດດດ້ວຍຊື່ການອັບເດດຄັ້ງທີ 2 ຂອງ V11 ແລະຜົນຂອງ 100,000-case — ແລະຊຸດການທົດລອງ Python ທີ່ມີລິຂະສິດ MIT ພ້ອມຜົນການທົດລອງອ້າງອີງທັງໝົດ ຢູ່ github.com/emirhanai/kantesti-blood-test-benchmark. ເຄືອຂ່າຍສຳເນົາສີ່ແພລດຟອມ ຮັບປະກັນຄວາມມີຢູ່ໃນລະຍະຍາວ ແລະຄວາມຍືດຫຍຸ່ນໃນການອ້າງອີງ.

ເປັນຫຍັງການລົງທະບຽນລ່ວງໜ້າ (pre-registration) ຈຶ່ງສຳຄັນສຳລັບເກນມາດຕະຖານທາງການແພດຂອງ AI?

ການລົງທະບຽນລ່ວງໜ້າ ປ້ອງກັນການປັບ rubric ຫຼັງເຫດ (post-hoc rubric tuning) ຊຶ່ງເປັນວິທີທີ່ພົບເລື້ອຍທີ່ສຸດທີ່ບໍລິສັດໃຊ້ເກນມາດຕະຖານທີ່ດຳເນີນໂດຍຕົນເອງ ເພີ່ມຕົວເລກຂອງຕົນເອງ. ໂດຍການກຳນົດ rubric ໃຫ້ຢູ່ໃນ source code ກ່ອນການເອີ້ນເຄື່ອງຈັກທຸກຄັ້ງ ແລະປະກາດ harness ຕໍ່ສາທາລະນະ, ວັນທີຂອງຜູ້ຂຽນ rubric ຈຶ່ງສາມາດກວດສອບໄດ້ໃນ version control, ແລະຜົນຂອງເຄື່ອງຈັກບໍ່ສາມາດປັ້ນກຳນົດເກນການໃຫ້ຄະແນນໄດ້.

ເກນມາດຕະຖານນີ້ມີການປຽບທຽບກັບເຄື່ອງຈັກ AI ອື່ນບໍ?

ບໍ່. ລາຍງານ V11 — ທັງການປ່ອຍເບື້ອງຕົ້ນ ແລະການອັບເດດຄັ້ງທີ 2 — ຈົງໃຈອະທິບາຍເຄື່ອງຈັກດຽວຕໍ່ກັບ rubric ທີ່ຄົງທີ່ ແທນທີ່ຈະຈັດວາງເຄື່ອງຈັກນັ້ນໄປທຽບກັບລະບົບການຄ້າອື່ນ. harness ເປັນ open source ພາຍໃຕ້ລິຂະສິດ MIT (ດຽວນີ້ລວມເອົາ SQL case loader ດ້ວຍ), ດັ່ງນັ້ນນັກຄົ້ນຄວ້າອິດສະຫຼະສາມາດປະເມີນເຄື່ອງຈັກໃດໆທີ່ເຂົາເລືອກ ຕໍ່ກັບ rubric ແລະ case loader ດຽວກັນ ແລະ ເຜີຍແຜ່ຜົນຂອງເຂົາ.

ກໍລະນີຂອງຄົນເຈັບເປັນຂໍ້ມູນຈິງຫຼືຂໍ້ມູນສ້າງຂຶ້ນ?

ທຸກກໍລະນີຖືກສ້າງຂຶ້ນແບບສັງເຄາະ — 15 ກໍລະນີທີ່ຖືກສ້າງຂຶ້ນເອງ (hand-constructed) ໃນ V11 initial release ແລະ 100,000 ໃນ Second Update. ບໍ່ແມ່ນ “synthetic cases”: ບໍ່ມີ synthetic data, ບໍ່ມີຂັ້ນຕອນການໃຫ້ຄວາມຍິນຍອມ (consent process), ແລະບໍ່ມີການ de-identification, ເພາະບໍ່ມີຂໍ້ມູນສ່ວນບຸກຄົນ (personal data) ຢູ່ໃນ cohort. ບໍ່ມີ personal data ປາກົດໃນ harness ທີ່ເຜີຍແຜ່, ລາຍງານທາງວິຊາການ (technical report), ຫຼື datasets ທີ່ປ່ອຍອອກມາ.

⚕️ ຄຳເຕືອນທາງການແພດ & ຄວາມຂັດກັນທາງຜົນປະໂຫຍດ

ລາຍງານການປຽບທຽບນີ້ແມ່ນສຳລັບການຄົ້ນຄວ້າ ແລະ ຄວາມໂປ່ງໃສດ້ານວິທີການ. ມັນບໍ່ແມ່ນຄຳແນະນຳທາງການແພດ, ບໍ່ແມ່ນການວິນິດໄຊ, ແລະ ບໍ່ແມ່ນການທົດແທນການດູແລທາງການແພດຢ່າງມືອາຊີບ; ບໍ່ຄວນນຳຜົນໃດໆທີ່ຢູ່ນີ້ໄປໃຊ້ເພື່ອຊັກຊ້າ ຫຼື ຫຼີກລ່ຽງການໄປພົບແພດ. ຈົ່ງປຶກສາຜູ້ໃຫ້ບໍລິການດ້ານສຸຂະພາບທີ່ມີຄຸນວຸດທິສະເໝີສຳລັບການວິນິດໄຊ ແລະ ການຕັດສິນໃຈດ້ານການຮັກສາ. ນີ້ແມ່ນການປຽບທຽບພາຍໃນທີ່ດຳເນີນເອງຂອງບໍລິສັດສຳລັບ engine ຂອງຕົນເອງ ແລະ ບໍ່ໄດ້ຖືກຢືນຢັນຢ່າງເປັນອິດສະຫຼະ ຫຼື ຜ່ານການທົບທວນໂດຍຜູ້ຊ່ຽວຊານ (peer-reviewed). ຄະແນນລວມວັດແທກການສອດຄ່ອງກັບເກນທີ່ກຳນົດໄວ້ (ໂຄງສ້າງລາຍງານ, ການຄືນຄ່າຄຳສຳຄັນ ແລະ ລະບົບການໃຫ້ຄະແນນ, ແລະ ເວລາຕອບສະໜອງ); ມັນບໍ່ແມ່ນການວັດແທກຄວາມຖືກຕ້ອງດ້ານການວິນິດໄຊໃນໂລກຈິງ ຫຼື ຄວາມປອດໄພທາງຄລີນິກ. ທັງສອງຜູ້ຂຽນແມ່ນຖືກຈ້າງໂດຍ ແລະ ຖືຄອງຮຸ້ນໃນ Kantesti Ltd, ແລະ engine ທີ່ຖືກປະເມີນແມ່ນຜະລິດຕະພັນການຄ້າຂອງອົງກອນດຽວກັນ. ຄວາມຂັດກັນທາງຜົນປະໂຫຍດນີ້ຖືກຫຼຸດຜ່ອນໂດຍການລົງທະບຽນເກນລ່ວງໜ້າໃນ source code, ປ່ອຍ harness ພາຍໃຕ້ລິຊະສິດ MIT, ແລະ ຈັດພິມຕົວຢ່າງສຸ່ມແບບຊັ້ນ (stratified random sample) ຂອງຄຳຕອບດິບຂອງ engine.

ສັນຍານຄວາມໄວ້ໃຈ E-E-A-T

⭐

ປະສົບການ

ມີປະສົບການດ້ານຄລິນິກ hematology ແລະການແພດຫ້ອງທົດລອງ 15+ ປີ ໃນການກຳກັບການເລືອກຊຸດກໍລະນີ.

📋

ຄວາມຊ່ຽວຊານ

ອອກແບບ rubric ທີ່ລົງທະບຽນລ່ວງໜ້າ (pre-registered) ພ້ອມການລົງໂທດການວິນິດໄວເກີນ (hyperdiagnosis penalties) ຢ່າງຊັດເຈນ ແລະລະບົບການໃຫ້ຄະແນນທາງຄລິນິກທີ່ຖືກຮັບຮູ້ (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

ຄວາມເປັນອຳນາດ

ຜູ້ນຳພາຂຽນ ທ່ານດຣ. Thomas Klein, MD (ORCID 0009-0009-1490-1321). ການປະຕິບັດໂດຍ Julian Emirhan Bulut, CEO ຂອງ Kantesti Ltd.

🛡️

ຄວາມໜ້າເຊື່ອຖື

harness ທີ່ສາມາດທຳຊ້ຳໄດ້ (reproducible) ພາຍໃຕ້ MIT, ການຕອບຂອງເຄື່ອງຈັກດິບຖືກປະກາດ, ການເປີດເຜີຍຄວາມຂັດກັນທາງຜົນປະໂຫຍດຢ່າງເປີດກວ້າງ, ເຄືອຂ່າຍສຳເນົາງານຄົ້ນຄວ້າສີ່ແພລດຟອມ.

🏢 ບໍລິສັດ ແຄນເທສຕິ ຈຳກັດ ຈົດທະບຽນໃນປະເທດອັງກິດ ແລະ ເວວ (England & Wales) · ເລກທີບໍລິສັດ. 17090423 ລອນດອນ, ສະຫະລາຊະອານາຈັກ · kantesti.net