ເປັນຫຍັງ benchmark ນີ້ຈຶ່ງມີ ແລະມັນທົດສອບຫຍັງ

ການວິເຄາະເລືອດດ້ວຍ AI ຖືກນໍາໃຊ້ຫຼາຍຂຶ້ນໃນການໃຊ້ງານຂອງຜູ້ບໍລິໂພກ ແລະ ດ້ານການແພດ, ແຕ່ກອບການປະເມີນທີ່ສາມາດທົດຊ້ໍາໄດ້ ທີ່ຖືກປັບໃຫ້ເໝາະກັບການແພດທາງຫ້ອງທົດລອງ ຍັງບໍ່ຄ່ອຍມີ. ຄໍາຖາມທີ່ສໍາຄັນທີ່ສຸດໃນສະພາບນີ້ ບໍ່ແມ່ນຄໍາຖາມທີ່ຖືກຄອບຄຸມໂດຍ benchmark ການຕອບຄໍາຖາມທາງການແພດທົ່ວໄປ: ເຄື່ອງຈັກ (engine) ສາມາດແຍກ iron deficiency ອອກຈາກ thalassaemia trait ໄດ້ບໍ ເມື່ອ MCV ມີຄ່າຄືກັນ, ມັນຈະ over-diagnose Gilbert's syndrome ເປັນ hepatitis ບໍ, ແລະ ມັນສ້າງພະຍາດຂຶ້ນໃນແຜນກວດທີ່ປົກກະຕິສົມບູນບໍ?

ແຜນວາດການໄຫຼຂອງ rubric ທີ່ລົງທະບຽນໄວ້ກ່ອນ ສະແດງວ່າ Kantesti AI Engine — V11 Second Update, ຄະແນນ 99.80% composite ໃນ 100,000 cases — ຖືກປະເມີນທຽບກັບເກຣດການໃຫ້ຄະແນນ (scoring criteria) ທີ່ຖືກລັອກໄວ້
ຮູບທີ 1: ສະຖາປັດຕະຍະກຳມາດຕະຖານທີ່ຢູ່ຫຼັງຂອງ ຄະແນນລວມ 99.80% ໃນ V11 ການອັບເດດຄັ້ງທີ 2 ຊຸດຄົນ 100,000 ກໍລະນີ — ທຸກກໍລະນີ, ທຸກຄຳສຳຄັນ, ທຸກລະບົບການໃຫ້ຄະແນນ ຖືກກຳນົດຕາຍໃນຊອດໂທດກ່ອນທີ່ເຄື່ອງຈະເຫັນ PDF ສະບັບໃດໜຶ່ງ, ແລະ ກຳນົດມາດຖານ (rubric) ຖືກຄືກັນທຸກໄບດ໌ກັບການປ່ອຍເລີ່ມຕົ້ນຂອງ V11. ການປັບຄ່າ rubric ພາຍຫຼັງ (post-hoc) ແມ່ນບໍ່ສາມາດເຮັດໄດ້ຕາມການອອກແບບ.

ການກວດເລືອດແບບກຸ່ມດຽວມັກຈະມີຂໍ້ມູນພຽງພໍທີ່ສາມາດຮອງຮັບການຕີຄວາມໄດ້ຫຼາຍຢ່າງທີ່ແຂ່ງກັນ, ແລະວຽກຂອງແພດຜູ້ຕີຄວາມແມ່ນການຊັ່ງນ້ຳໜັກການຕີຄວາມເຫຼົ່ານັ້ນທຽບກັນ ບໍ່ແມ່ນການຄົ້ນຫາຄຳຕອບຈາກປຶ້ມຕຳລາ. ເຄື່ອງຈັກທີ່ເຮັດໄດ້ດີໃນກໍລະນີຕົວຢ່າງຈາກຕຳລາ ຍັງສາມາດລົ້ມເຫຼວໃນກໍລະນີທີ່ສຳຄັນທີ່ສຸດ: ກັບດັກການວິນິດໄຈແຍກພະຍາດ, ຕົວແປທີ່ບໍ່ເປັນອັນຕະລາຍທີ່ເບິ່ງອັນຕະລາຍເມື່ອເບິ່ງແບບດຽວ, ແລະ ກຸ່ມການກວດທີ່ປົກກະຕິຢ່າງສົມບູນ ທີ່ລໍ້ໃຫ້ຜູ້ຊ່ວຍທີ່ໝັ້ນໃຈສ້າງພະຍາດຂຶ້ນມາ.

ເກນມາດຕະຖານນີ້ຖືກສ້າງຂຶ້ນໂດຍອີງໃສ່ຮູບແບບຄວາມລົ້ມເຫຼວເຫຼົ່ານັ້ນໂດຍກົງ. ທັງ 15 ກໍລະນີ ຖືກເລືອກເພື່ອຄຸນສົມບັດການວິນິດໄຈທີ່ສະເພາະ: microcytosis ທີ່ຂາດເຫຼັກ ທີ່ຕ້ອງແຍກໃຫ້ຊັດຈາກ beta-thalassaemia trait ທີ່ມີ mean corpuscular volume ຄ້າຍກັນ, ການສະແດງຂອງ Gilbert's syndrome ທີ່ຄວາມຜິດປົກກະຕິພຽງແຕ່ແມ່ນ isolated indirect hyperbilirubinaemia, ແລະ ກຸ່ມການກວດຄັດກອງ 15 ພາລາມິເຕີ ທີ່ທຸກຕົວວິເຄາະຢູ່ໃນຊ່ວງອ້າງອີງຂອງຕົນ. ເກນການປະເມີນຈະໃຫ້ຄະແນນແກ່ເຄື່ອງຈັກທີ່ອ່ານແຕ່ລະກໍລະນີຕາມເງື່ອນໄຂຂອງມັນເອງ ແລະຈະຫັກຄະແນນໃຫ້ເຄື່ອງຈັກທີ່ພະຍາຍາມສະຫຼຸບການວິນິດໄຈຢ່າງໝັ້ນໃຈ ໃນບ່ອນທີ່ບໍ່ມີການວິນິດໄຈແນວນັ້ນທີ່ຄວນຈະຮອງຮັບ.

ໃນນາມຂອງ Thomas Klein, MD, ຂ້າພະເຈົ້າເລືອກຊຸດກໍລະນີນີ້ ເພາະວ່ານີ້ແມ່ນຮູບແບບທີ່ຂ້າພະເຈົ້າເຫັນຜູ້ຊ່ວຍດ້ານການແພດ-ຫ້ອງທົດລອງ ເຮັດຜິດພາດບໍ່ເລືອກຫຼາຍທີ່ສຸດ. ຄວາມລົ້ມເຫຼວທີ່ແພງ ບໍ່ແມ່ນ "ພາດພະຍາດທີ່ຫາຍາກ" — ແຕ່ແມ່ນການປະດິດພະຍາດປົກກະຕິໃນຄົນເຈັບທີ່ບໍ່ໄດ້ມີພະຍາດນັ້ນ. ຂອງພວກເຮົາ ການກວດສອບທາງການແພດ hub ອະທິບາຍກອບລວມທີ່ກວ້າງກວ່າ; ໜ້ານີ້ອະທິບາຍການພິສູດແນວຄວາມຄິດເບື້ອງຕົ້ນຂອງ V11 ແລະ V11 Second Update ທີ່ຂະຫຍາຍມັນໄປສູ່ 100,000 ກໍລະນີສັງເຄາະ ທີ່ດຶງມາຈາກຊຸດກໍລະນີສັງເຄາະທີ່ຄອບຄຸມ 127 ປ້າຍປະເທດ — ໂດຍໃຊ້ rubric ການໃຫ້ຄະແນນດຽວກັນ, byte-identical, ແລະບໍ່ອະນຸຍາດໃຫ້ປັບປຸງພາຍຫຼັງ (no post-hoc tuning).

ການທົດລອງອ້າງອີງລ່າສຸດ — V11 ການອັບເດດຄັ້ງທີ 2 (26 ເມສາ 2026)

ການທົດລອງອ້າງອີງຂອງ V11 ການອັບເດດຄັ້ງທີ 2 ວັນທີ 26 ເມສາ 2026 ໄດ້ຜະລິດຄະແນນລວມ (composite score) ຂອງ 99.80% ໃນ rubric ທີ່ລົງທະບຽນໄວ້ກ່ອນດຽວກັນກັບການປ່ອຍເລີ່ມຕົ້ນຂອງ V11, ປະເມີນໃນ ກໍລະນີສັງເຄາະ 100,000 ກໍລະນີ ດຶງມາຈາກຊຸດກໍລະນີສັງເຄາະ Kantesti ແລະຄອບຄຸມ 127 ປ້າຍປະເທດ ແລະ 75+ ພາສາ. ທຸກກໍລະນີສຳເລັດໃນເສັ້ນທາງຫຼັກຂອງເຄື່ອງຈັກ; ການເປີດໃຊ້ທຸງ (flag) ການວິນິດໄສເກີນຈຳເປັນ (trap-case hyperdiagnosis) ຍັງຢູ່ທີ່ 0 / 87,412. ການທົດລອງເດີມຂອງ V11 ວັນທີ 23 ເມສາ 2026 ຄອບຄຸມ 15 ກໍລະນີທີ່ຄັດເລືອກໂດຍມື (hand-curated) (ຄະແນນລວມ 99.12%) ແລະ ຢືນຢັນ rubric; ການອັບເດດຄັ້ງທີ 2 ຮັກສາ rubric ໃຫ້ຄືກັນທຸກໄບດ໌ ແລະ ຂະຫຍາຍການປະເມີນໄປສູ່ກຸ່ມປະຊາກອນຂະໜາດໃຫຍ່.

ຄະແນນລວມ 99.80% 100,000 ຈາກ 100,000 ກໍລະນີ ໄດ້ຄະແນນ
1.000 ຄະແນນດ້ານໂຄງສ້າງ
0.996 ຄະແນນດ້ານຄວາມຖືກຕ້ອງທາງຄລີນິກ
13.26 s ຄ່າເວລາລ່າຊ້າສະເລ່ຍ
0 / 87,412 ການກວດຜິດແບບ false-positives ຂອງກັບດັກ

ສູດຄະແນນລວມປະກອບດ້ວຍ 3 ສ່ວນ: ຄວາມສອດຄ່ອງດ້ານໂຄງສ້າງ ກັບ 7 ພາກສ່ວນລາຍງານທີ່ຕ້ອງມີ ແລະ 16 ພາກສ່ວນຍ່ອຍທີ່ຕ້ອງມີ, ຄວາມຖືກຕ້ອງຂອງເນື້ອຫາ ວັດແທກເປັນ keyword recall ບວກກັບ scoring-system recall ບວກກັບການກວດຄວາມຖືກຕ້ອງຂອງ probability-distribution, ແລະ ເວລາຕອບກັບ ຕໍ່ເປົ້າໝາຍລະດັບການບໍລິການ (service-level) ຂອງເສັ້ນທາງຫຼັກ. ການແຍກຢ່າງຖືກຕ້ອງຖືກສະແດງໄວ້ໃນສູດ rubric ດ້ານລຸ່ມ — ບໍ່ມີນ້ຳໜັກ ຫຼື sub-rubric ອັນໃດໜຶ່ງຖືກປ່ຽນແປງສຳລັບການອັບເດດຄັ້ງທີ 2.

ຄະແນນລວມ = 0.35 × ດ້ານໂຄງສ້າງ + 0.55 × ດ້ານຄລີນິກ + 0.10 × ດ້ານເວລາລ່າຊ້າ

ສ່ວນທີ່ເຫຼືອ 0.20 ຈຸດເປີເຊັນຂອງຊ່ອງຫຼືອ (headroom) ແມ່ນແຍກລົງໄປເກືອບທັງໝົດໃນຄະແນນຍ່ອຍດ້ານການແພດ (clinical sub-score) — ສ່ວນນ້ອຍຂອງກໍລະນີ (ສ່ວນໃຫຍ່ຢູ່ໃນ Hepatology ແລະ Rheumatology) ມີຄຳສຳຄັນຂອງລະບົບການໃຫ້ຄະແນນທີ່ຄາດໄວ້ວ່າຈະມີ ແຕ່ບໍ່ຖືກພົບໃນການຕີຄວາມຂອງເຄື່ອງຈັກ ເຖິງແມ່ນວ່າເນື້ອຫາດ້ານການວິນິດໄສຖືກຕ້ອງ. ບໍ່ມີກໍລະນີໃດໃນກຸ່ມກໍລະນີ 100,000 ຂອງການອັບເດດຄັ້ງທີ 2 ທີ່ພາດການວິນິດໄສຕົວມັນເອງ. ຄວາມຊ້າ (latency) ດີຂຶ້ນຈາກຄ່າສະເລ່ຍ 20.17 s ໃນການປ່ອຍເລີ່ມຕົ້ນຂອງ V11 ໄປເປັນ 13.26 s ໃນການອັບເດດຄັ້ງທີ 2, ສະທ້ອນການປັບປຸງເຄື່ອງຈັກສຳລັບການນຳໃຊ້ຈິງ (production engine optimisations) ລະຫວ່າງສອງການທົດລອງ; rubric, ລະຫັດການໃຫ້ຄະແນນ, ແລະ endpoint ຂອງ API ບໍ່ປ່ຽນແປງ.

ຄະແນນລວມຕາມປ້າຍ (per-label composite scores) ຢູ່ລະຫວ່າງ 0.9971 ຫາ 0.9985 ຂ້າມ 30 ປ້າຍປະເທດທີ່ມີກໍລະນີຕົວແທນຫຼາຍສຸດ. ສ່ວນທ້າຍຍາວ (long tail) ຂອງ 97 ປ້າຍອື່ນໆ (ລວມປະມານ ≈7,300 ກໍລະນີ) ບໍ່ເຫັນການຫຼຸດລົງແບບເປັນລະບົບ. ປ້າຍທີ່ພົບຫຼາຍສຸດຕາມຈຳນວນກໍລະນີແມ່ນ ສະຫະລັດ (10,500), ບຣາຊິນ (9,500), ສະເປນ (9,000), ອິຕາລີ (8,000), ເຢຍລະມັນ (7,800), ຝຣັ່ງ (7,400), ໂປຕຸເກັດ (5,800), Türkiye (3,400), ສະຫະອານາຈັກສະຫະລັດອັງກິດ) (2,900), ແລະ ເມັກຊິໂກ (2,500).

ຈາກ 15 ກໍລະນີ ຫາ 100,000: ການພັດທະນາຂອງກຸ່ມຕົວຢ່າງ ຂ້າມ 127 ປ້າຍປະເທດ

ຊຸດກໍລະນີ (case panel) ເດີມຂອງ V11 ຄອບຄຸມ 7 ສາຂາ — ພະຍາດເລືອດ (hematology), ຕ່ອມໃນລະບົບຕໍ່ມະນຸດ (endocrinology), ຢາດ້ານການແພດດ້ານການເຜົາຜານ (metabolic medicine), ພະຍາດຕັບ (hepatology), ພະຍາດໄຕ (nephrology), ພະຍາດຫົວໃຈ (cardiology), ພະຍາດກ່ຽວກັບພູມຕ້ານທານ/รูມາຕິສ (rheumatology) — ແລະມີ 2 ກໍລະນີກັບກັນການວິນິດໄຊ (hyperdiagnosis trap) ທີ່ອຸທິດສອນເຉພາະ, ໂດຍແຕ່ລະກໍລະນີແມ່ນຊຸດການກວດເລືອດທີ່ສ້າງຂຶ້ນຢ່າງສັງເຄາະ. V11 Second Update ຂະຫຍາຍການປະເມີນໄປສູ່ ກໍລະນີສັງເຄາະ 100,000 ກໍລະນີ ຂ້າມ 127 ປ້າຍປະເທດ, ຈັດກະຈາຍໃນ 8 ສາຂາ (ເຈັດສາຂາເດີມ ບວກກັບກຸ່ມພາຍໃນທີ່ອຸດຊອບສ່ວນ trap). ນຳໃຊ້ rubric ການໃຫ້ຄະແນນດຽວກັນ ຄືກັນທຸກໄບດ໌ ໃນທັງສອງການທົດລອງ.

ອອກແບບ case-panel ເບື້ອງຕົ້ນ V11 — ກໍລະນີທົດສອບເລືອດສັງເຄາະຈຳນວນສິບຫ້າ (fifteen synthetic blood-test cases) ຂ້າມເຈັດສາຂາທາງການແພດ (medical specialties) ພ້ອມກັບ hyperdiagnosis trap cases ສອງກໍລະນີ; rubric ດຽວກັນໄດ້ຮັບຄະແນນ composite 99.80% ໃນ 100,000 cases ຂອງ V11 Second Update
ຮູບທີ 2: ອອກແບບກຸ່ມກໍລະນີ (case-panel) ເດີມຂອງ V11 ທົ່ວ hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology, ພ້ອມກັບກໍລະນີ trap ສອງກໍລະນີ — Gilbert's syndrome ແລະ ກຸ່ມກວດຄັດກອງທີ່ປົກກະຕິສົມບູນ. ການອັບເດດຄັ້ງທີ 2 ຮັກສາ rubric ນີ້ໃຫ້ຄືກັນທຸກໄບດ໌ ໃນຂະນະທີ່ຂະຫຍາຍກຸ່ມໄປສູ່ 100,000 ກໍລະນີ ທີ່ດຶງມາຈາກຄັງ Kantesti SQL.

ເນື່ອງຈາກທຸກກໍລະນີຖືກສ້າງຂຶ້ນຢ່າງສັງເຄາະ, ຈຶ່ງບໍ່ມີຕົວລະບຸຈິງທີ່ຕ້ອງລົບ ແລະບໍ່ມີຂໍ້ມູນສ່ວນບຸກຄົນ. ແຕ່ລະກໍລະນີສັງເຄາະມີລະຫັດກໍລະນີພາຍໃນສຳລັບ benchmark (benchmark-internal case code) (BT-NNN-LABEL ໃນຊຸດເບື້ອງຕົ້ນ V11, ຄົງທີ່ case_uid ໃນ Second Update). ບໍ່ມີຂໍ້ມູນສ່ວນບຸກຄົນປາກົດຢູ່ບ່ອນໃດໃນ harness ທີ່ເຜີຍແຜ່, ລາຍງານດ້ານເຕັກນິກ, ຫຼື ຊຸດຂໍ້ມູນ (datasets) ທີ່ປ່ອຍອອກ.

ການປ່ອຍເລີ່ມຕົ້ນຂອງ V11 — 15 ກໍລະນີທີ່ຄັດເລືອກໂດຍມື

ກະດານກໍລະນີ V11 ເດີມ ໄດ້ຖືກຄັດເລືອກດ້ວຍມືໂດຍທ່ານດຣ. Thomas Klein ເພື່ອຝຶກຮູບແບບການວິນິດໄສທີ່ຜູ້ຊ່ວຍດ້ານການແພດທາງຫ້ອງທົດລອງມັກຈະເຮັດຜິດພາດຫຼາຍທີ່ສຸດ. ທັງ 15 ກໍລະນີ ໄດ້ຖືກເລືອກເພື່ອຄຸນສົມບັດການວິນິດໄສສະເພາະ ດັ່ງທີ່ລະບຸຂ້າງລຸ່ມນີ້.

ເຮມາໂຕໂລຢີ (3) BT-001, BT-006, BT-007 ພາວະເລືອດຈາງຈາກຂາດເຫຼັກ (Iron deficiency anaemia) · ຂາດວິຕາມິນ B12 · ເບຕ້າ-ธາລັດຊີເມຍສ໌ ຂັ້ນນ້ອຍ (Beta-thalassaemia minor)
ເອນໂດຄຣິໂນໂລຢີ (3) BT-002, BT-008, BT-012 ໂຣກ Hashimoto's thyroiditis · PCOS ພ້ອມການຕ້ານອິນຊູລິນ · ຂາດວິຕາມິນດີຮ້າຍແຮງ
Metabolic (2) BT-003, BT-013 T2DM ພ້ອມໂຣກ metabolic syndrome · Hyperuricaemia ພ້ອມຄວາມສ່ຽງຂອງ gout
ເຮປາໂຕໂລຢີ (2) BT-004, BT-009 NAFLD / NASH · ຕັບອັກເສບໄວຣັດສຸກເສີນ
ເນຟໂຟໂລຢີ · ຄາດິໂອໂລຢີ · ຣູມາໂຕໂລຢີ (3) BT-005, BT-010, BT-011 CKD ຂັ້ນທີ 3 · ໄຂມັນໃນເລືອດທີ່ກໍ່ໃຫ້ເກີດ atherogenic dyslipidaemia · Systemic lupus erythematosus
ກໍລະນີກັກກັນ (2) BT-014, BT-015 Gilbert's syndrome (isolated indirect hyperbilirubinaemia) · ແຜງກວດຄັດກອງຜູ້ໃຫຍ່ທີ່ປົກກະຕິສົມບູນ

ເປັນຫຍັງການແຈກຈ່າຍນີ້ຈຶ່ງເປັນພິເສດ

ວິຊາການເລືອດ (Hematology) ໄດ້ສາມກໍລະນີ ເພາະວ່າການຈຳແນກແບບ microcytic ແລະ macrocytic ແມ່ນກັບດັກທີ່ມີປະລິມານສູງສຸດໃນການປະຕິບັດງານຫ້ອງທົດລອງຕົວຈິງ. ວິຊາຕໍ່ມະນຸດ (Endocrinology) ໄດ້ສາມກໍລະນີ ເພາະວ່າການສະແດງອາການຂອງ Hashimoto's, PCOS, ແລະ ຂາດວິຕາມິນດີ ມີຮູບແບບການວິນິດໄຊທີ່ແຕກຕ່າງກັນ (ຂັບເຄື່ອນໂດຍ autoantibody, ຂັບເຄື່ອນໂດຍອັດຕາຮໍໂມນ, ແລະ ຂັບເຄື່ອນໂດຍຕົວຊີ້ດຽວ). ສາຂາທີ່ມີພຽງກໍລະນີດຽວຍັງມີຄວາມໝາຍ ເພາະແຕ່ລະຢ່າງຂອງ CKD, ຄວາມສ່ຽງ ASCVD, ແລະ SLE ມີລະບົບຄະແນນຂອງຕົນເອງ ທີ່ເຄື່ອງຈະຕ້ອງເອີ້ນໃຊ້ (KDIGO staging, ຄວາມສ່ຽງ 10 ປີຂອງ ASCVD, ແລະ ເກນ SLE 2019 EULAR/ACR ຕາມລຳດັບ).

V11 Second Update — ກໍລະນີສັງເຄາະ 100,000 ກໍລະນີ ຂ້າມ 127 ປ້າຍປະເທດ

Second Update ແທນທີ່ການຂຽນຄ່າຮາດໂຄດ 15-case ຂອງ V11 ເດີມດ້ວຍຊຸດກໍລະນີສັງເຄາະຂະໜາດໃຫຍ່ທີ່ຖືກສ້າງຂຶ້ນແບບອັດຕະໂນມັດດ້ວຍໂປຣແກຣມ (programmatically generated). ຊຸດກໍລະນີຖືກໂຫຼດໃນຕອນເລີ່ມຕົ້ນຂອງທຸກການແລ່ນ (run) ແລະບັນທຶກຄ່າການຕັ້ງຄ່າ (configuration) ເພື່ອຄວາມໂປ່ງໃສ. ການແຈກຢາຍຂອງ cohort ຕາມພື້ນທີ່ເນື້ອຫາ (content area) ສະແດງຢູ່ດ້ານລຸ່ມ.

endocrinology 23,900 ກໍລະນີ (23.9%) ຕ່ອມໄທລອຍ, PCOS, ຂາດວິຕາມິນດີ, ລະບົບກຳເນີດທາງເພດ, pituitary
ຢາດ້ານການແພດທາງກາຍະພາບ (Metabolic medicine) 21,900 ກໍລະນີ (21.9%) T2DM, metabolic syndrome, lipid panels, hyperuricaemia
Hematology 15,400 ກໍລະນີ (15.4%) ການແຍກຄວາມແຕກຕ່າງຂອງເມັດເລືອດຂະໜາດນ້ອຍແລະໃຫຍ່ (microcytic ແລະ macrocytic), B12/folate, ການກວດການສຶກສາທາດເຫຼັກ
ການສຶກສາດ້ານຕັບ 12,400 ກໍລະນີ (12.4%) NAFLD/NASH, ໄວຣັດຕັບອັກເສບ, FIB-4, cholestasis
ອາຍຸວິຊາພາຍໃນ (incl. trap subset) 9,000 ກໍລະນີ (9.0%) ການນຳສະເໜີປະສົມ ແລະ ກໍລະນີ trap ສຳລັບ hyperdiagnosis ໂດຍສະເພາະ 8,723 ກໍລະນີ
ດ້ານການກວດຫົວໃຈ (Cardiology) 7,500 ກໍລະນີ (7.5%) ຄວາມສ່ຽງ ASCVD, atherogenic dyslipidaemia, hs-CRP
ການຮັກສາພະຍາດຂໍ້ແລະພູມຕ້ານທານ (Rheumatology) 6,000 ກໍລະນີ (6.0%) SLE, RA, vasculitis, ຊຸດການກວດ autoantibody (ເງື່ອນໄຂ EULAR/ACR)
ພະຍາດໝາກໄຂ່ຫຼັງ 4,000 ກໍລະນີ (4.0%) ການຈັດລະດັບ CKD (KDIGO), ແນວໂນ້ມ eGFR, ຄວາມຜິດປົກກະຕິຂອງ electrolyte

ການແຈກຢາຍປະເທດ-ປ້າຍສັງເຄາະ (Synthetic country-label distribution) — 10 ປ້າຍອັນດັບຕົ້ນ

ກໍລະນີສັງເຄາະ 100,000 ກໍລະນີ ມີ 127 ປ້າຍປະເທດ (ISO 3166-1 alpha-2) ເພື່ອທົດສອບການຈັດການ locale. ການກຳນົດປ້າຍ: ເອີຣົບ 57.7%, ອາເມລິກາ 25.4%, ອາຊີ-ແປຊິຟິກ 6.2%, ປ້າຍທີ່ຕັ້ງຊື່ Middle-East/Africa 3.4%, ແລະ ສ່ວນທ້າຍຍາວຂອງ 97 ປ້າຍອື່ນໆ ລວມປະມານ 7.3%. ປ້າຍ 10 ອັນທີ່ພົບຫຼາຍສຸດຕາມຈຳນວນກໍລະນີແມ່ນ ສະຫະລັດ (10,500), ບຣາຊິນ (9,500), ສະເປນ (9,000), ອິຕາລີ (8,000), ເຢຍລະມັນ (7,800), ຝຣັ່ງ (7,400), ໂປຕຸເກັດ (5,800), Türkiye (3,400), ສະຫະອານາຈັກສະຫະລັດອັງກິດ) (2,900), ແລະ ເມັກຊິໂກ (2,500). ຄະແນນລວມຕາມປ້າຍ (per-label composite scores) ຢູ່ລະຫວ່າງ 0.9971 ຫາ 0.9985. ຈຳນວນປ້າຍເຫຼົ່ານີ້ແມ່ນຄຸນສົມບັດຂອງກໍລະນີທີ່ຖືກສ້າງຂຶ້ນ ເພື່ອໃຊ້ທົດສອບການຈັດການ locale — ບໍ່ແມ່ນຜູ້ໃຊ້ຈິງ ແລະບໍ່ແມ່ນການຄອບຄຸມທາງພູມສາດໃນໂລກຈິງ.

ກຳນົດເກນທີ່ລົງທະບຽນໄວ້ (pre-registered rubric), ອະທິບາຍ

ການລົງທະບຽນກ່ອນການດຳເນີນການ (pre-registration) ແມ່ນການຕັດສິນໃຈດ້ານວິທີການ (methodological) ທີ່ສຳຄັນທີ່ສຸດໃນແບັນມາກນີ້. ທຸກການວິນິດໄຊທີ່ຄາດໄວ້, ທຸກລະບົບຄະແນນທາງຄລີນິກ, ແລະ ທຸກສ່ວນຂອງລາຍງານ ໄດ້ຖືກກຳນົດໄວ້ໃນ source code ກ່ອນທີ່ເຄື່ອງຈະຖືກເອີ້ນໃຊ້. ດັດແກ້ພາຍຫຼັງ (post-hoc) ຂອງ rubric ເພື່ອໃຫ້ອອກມາດີກັບເຄື່ອງ ຈຶ່ງເປັນໄປບໍ່ໄດ້.

ອົງປະກອບສາມຢ່າງ ປະກອບເປັນຄະແນນລວມ. ສ່ວນ ດ້ານໂຄງສ້າງ (structural component) ມີຄ່າ 35 ເປີເຊັນ ແລະວັດວ່າເຄື່ອງໄດ້ສົ່ງຄືນ 7 ສ່ວນລາຍງານທີ່ຕ້ອງມີ (header, summary, key findings, differential, scoring systems, recommendations, follow-up) ແລະ 16 ສ່ວນຍ່ອຍທີ່ຕ້ອງມີພາຍໃນພວກມັນ. ການມີຢູ່ຂອງສ່ວນ (Section presence) ມີນ້ຳໜັກ 40 ເປີເຊັນ ແລະ ການມີຢູ່ຂອງສ່ວນຍ່ອຍ (subsection presence) ມີນ້ຳໜັກ 60 ເປີເຊັນ ພາຍໃນການຄຳນວນດ້ານໂຄງສ້າງ.

ໄດ້ ສ່ວນດ້ານຄລີນິກ (clinical component) ມີຄ່າ 55 ເປີເຊັນ ແລະລວມ 3 ຢ່າງ: ການຈື່ຄຳສຳຄັນການວິນິດໄຊ (diagnosis-keyword recall) (70 ເປີເຊັນຂອງຄະແນນຍ່ອຍດ້ານຄລີນິກ), ການຈື່ລະບົບຄະແນນ (scoring-system recall) (20 ເປີເຊັນ — ເຄື່ອງຄຳນວນ Mentzer, FIB-4, HOMA-IR, ຄວາມສ່ຽງ ASCVD, KDIGO staging, ເກນ EULAR/ACR ບ່ອນທີ່ເໝາະສົມບໍ), ແລະ ການກວດຄວາມຖືກຕ້ອງດ້ານຄວາມເປັນໄປໄດ້ລວມ (probability-sum validity check) (10 ເປີເຊັນ — ຄວາມເປັນໄປໄດ້ຂອງ differential ຄວນລວມໄດ້ພາຍໃນຊ່ວງ [90, 110]). ສຳລັບກໍລະນີກັບດັກ (trap cases) ຈະຫັກໂທດການ hyperdiagnosis ຢ່າງຊັດເຈນ ເຖິງ 0.30 ໂດຍຄຳນວນເປັນ 0.10 ຕໍ່ປ້າຍສະແດງພະຍາດທີ່ປອມ (fabricated pathology flag), ຈຳກັດບໍ່ໃຫ້ເກີນສາມປ້າຍ.

ໄດ້ ສ່ວນດ້ານເວລາລ່າຊ້າ (latency component) ມີຄ່າ 10 ເປີເຊັນ. ການຕອບທີ່ຕ່ຳກວ່າ 20 ວິນາທີ ໄດ້ຄົບເຕັມ 0.10, ການຕອບທີ່ຕ່ຳກວ່າ 40 ວິນາທີ ໄດ້ 0.05, ແລະ ສິ່ງໃດທີ່ຊ້າກວ່ານັ້ນ ໄດ້ສູນ. ເປົ້າໝາຍ 20 ວິນາທີ ສະທ້ອນວັດຖຸປະສົງລະດັບການບໍລິການ (production primary-path service-level objective); ຂອບເຂດ 40 ວິນາທີ ສະທ້ອນງົບສຳຮອງສຳລັບ Phase 2 ສຳລັບການເອີ້ນໃຊ້ເຄື່ອງຢ່າງໜັກ.

ພາບຈໍສຸດທ້າຍ (terminal screenshot) ຂອງ Kantesti benchmark harness ທີ່ມີລິຂະສິດ MIT ກຳລັງແລ່ນ ແລະສົ່ງຄະແນນຕໍ່ກໍລະນີ — harness ດຽວກັນນີ້ ທີ່ຕອນນີ້ຂັບເຄື່ອນດ້ວຍ SQL — ໄດ້ຄະແນນ 99.80% composite ໃນການແລ່ນ 100,000-case ຂອງ V11 Second Update
ຮູບທີ 3: ການທົດສອບໃນການປະຕິບັດ — ເຄື່ອງຈັກດຽວກັນທີ່ສ້າງ 99.80% ຄະແນນລວມ ໃນ V11 Second Update ກຸ່ມຕົວຢ່າງ 100,000 ກໍລະນີ. ແຕ່ລະກໍລະນີຖືກສະແດງເປັນ A4 PDF, ອັບໂພສໄປຍັງປາຍທາງ v11 ສຳລັບການຜະລິດ, ແລະ ຖືກຄະແນນທຽບກັບ rubric ທີ່ຖືກແຊ່ແຂງ. Second Update ເພີ່ມໂຕກຳນົດ SQL ສຳລັບການໂຫຼດກໍລະນີ; ການສຸ່ມແບບຊັ້ນຊັ້ນຂອງຄຳຕອບດິບຈາກເຄື່ອງຈັກ (n = 201) ຖືກບັນທຶກໄວ້ຄຽງກັບ scorecard ທີ່ຖືກລວມລວມ.

ສິ່ງທີ່ pre-registration ປ້ອງກັນ

ແບັນມາກຂອງຜູ້ສ້າງເອງ (first-party benchmarks) ເປັນທີ່ຮູ້ກັນດີວ່າມັກຈະເພີ່ມຕົວເລກຂອງຕົນເອງຜ່ານການດັດແກ້ rubric ພາຍຫຼັງ (post-hoc). ຮູບແບບເກືອບຈະເປັນແນວນີ້ສະເໝີ: ທີມງານເອີ້ນໃຊ້ເຄື່ອງ, ເຫັນວ່າບ່ອນໃດທີ່ຕົກຕ່ຳ, ຈາກນັ້ນກໍປັບ rubric ຢ່າງງຽບໆ ເພື່ອໃຫ້ບ່ອນທີ່ຕົກຕ່ຳນັ້ນນັບໜ້ອຍລົງ. ໂດຍການກຳນົດ rubric ໃຫ້ເປັນ source code ກ່ອນການເອີ້ນເຄື່ອງຄັ້ງທຳອິດ ແລະ ເຜີຍແຜ່ harness ພາຍໃຕ້ລິຂະສິດ MIT, ການປັບນັ້ນຈະປາກົດໃຫ້ເຫັນໃນ version control. ຜູ້ໃດກໍສາມາດ clone ຮີໂປຊິຕໍຣີ (repository), ກວດສອບວັນທີຜູ້ຂຽນ rubric, ແລະ ຢືນຢັນວ່າຜົນຂອງເຄື່ອງບໍ່ໄດ້ຖືກນຳໄປໃຊ້ເພື່ອປັ້ນຄະແນນ.

ກໍລະນີກັບດັກ hyperdiagnosis — ເປັນຫຍັງການເອີ້ນຜິດຫຼາຍ (over-calling) ຈຶ່ງເປັນຮູບແບບຄວາມລົ້ມເຫຼວທີ່ແທ້

ການເອີ້ນພະຍາດ (pathology) ຢ່າງຮຸກຮານເກີນໄປໃນໜ້າຈໍປົກກະຕິ ແມ່ນຮູບແບບຄວາມລົ້ມເຫຼວ (failure mode) ທີ່ຖືກບັນທຶກໄວ້ສຳລັບຜູ້ຊ່ວຍທາງການແພດທີ່ສຳລັບຜູ້ໃຊ້ (consumer-facing medical assistants). ຄ່າໃຊ້ຈ່າຍຕໍ່ເນື່ອງ (downstream costs) ລວມມີການສືບສວນທີ່ບໍ່ຈຳເປັນ, ຄວາມກັງວົນຂອງຄົນເຈັບ, ແລະ ການກວດປິ່ນປົວທີ່ເກີດຈາກການຮັກສາແບບບໍ່ຈຳເປັນ (iatrogenic workup). ສອງກໍລະນີກັບດັກ (trap cases) ໃນແບັນມາກນີ້ ຖືກອອກແບບເພື່ອໃຫ້ຮູບແບບຄວາມລົ້ມເຫຼວນັ້ນ ປາກົດໃຫ້ເຫັນ ແລະ ຖືກຄະແນນໄດ້.

ການປຽບທຽບຂ້າງຄຽງ (side-by-side) ຂອງ AI ທີ່ຄິດສ້າງ hepatitis ແບບງ່າຍໆ ໃນແຜງກວດ Gilbert's syndrome ທຽບກັບເຄື່ອງຈັກ Kantesti ທີ່ລະບຸ polymorphism UGT1A1 ທີ່ບໍ່ເປັນອັນຕະລາຍ ຢ່າງຖືກຕ້ອງ — ວິທີການທີ່ຂະຫຍາຍໄປສູ່ false-positives ສູນ ທົ່ວໂອກາດການກັບດັກ 87,412 ໃນ benchmark 99.80% ຂອງ V11 Second Update
ຮູບທີ 4: ການອອກແບບ trap-case ຈາກການປ່ອຍເບື້ອງຕົ້ນ V11 — ເຄື່ອງຈັກທີ່ຕິດປ້າຍ Gilbert's syndrome ວ່າເປັນ hepatitis ຢ່າງໝັ້ນໃຈ, ຫຼື ທີ່ສ້າງພະຍາດຂອບເຂດຢູ່ໃນໜ້າຈໍປົກກະຕິທັງໝົດ, ຈະຖືກລົງໂທດ ບໍ່ແມ່ນຖືກໃຫ້ຄະແນນສຳລັບການຟັງຄືນທາງຄລິນິກ. ວິທີການນີ້ຖືກຂະຫຍາຍໄປສູ່ 0 / 87,412 false-positives ໃນການດຳເນີນ V11 Second Update ກຸ່ມຕົວຢ່າງ 100,000 ກໍລະນີ ທີ່ສ້າງຄະແນນລວມ 99.80%.

🟡 ກໍລະນີກັບດັກ 1 — BT-014-GILBERT

ການສະແດງອາການ (Presentation). ຊາຍອາຍຸ 24 ປີ ມີ bilirubin ທັງໝົດ 2.4 mg/dL. ສ່ວນທີ່ໂດຍກົງ (direct fraction) ແມ່ນປົກກະຕິ, transaminases ແລະ alkaline phosphatase ຢູ່ໃນຂອບເຂດອ້າງອີງຂອງມັນ, reticulocytes ບໍ່ເປັນຫຍັງ, ແລະ haptoglobin ແລະ LDH ຕັດອອກ haemolysis.

ການອ່ານທີ່ຖືກຕ້ອງ (Correct interpretation). Gilbert's syndrome — ຄວາມປ່ຽນແປງທີ່ບໍ່ເປັນອັນຕະລາຍຂອງ UGT1A1. ການອ່ານບໍ່ຄວນເອີ້ນ hepatitis, cirrhosis, haemolytic anaemia, ຫຼື biliary obstruction.

ຜົນ V11. ຄະແນນລວມ 1.000. ບໍ່ມີໜຶ່ງໃນ 6 ສັນຍານການວິນິດໄຊເກີນໄປ (over-diagnosis flags) ທີ່ຖືກຕິດຕາມ ປາກົດຂຶ້ນເປັນການວິນິດໄຊທີ່ເປັນຢູ່ (active diagnoses).

🟡 ກໍລະນີກັບດັກ 2 — BT-015-HEALTHY

ການສະແດງອາການ (Presentation). ແມ່ຍິງອາຍຸ 35 ປີ ກັບຊຸດກວດຄັດກອງປະຈຳວັນ 15 ພາລາມິເຕີ. ທຸກຕົວວັດ (analyte) ຢູ່ໃນຂອບເຂດອ້າງອີງຂອງມັນຢ່າງສະບາຍ.

ການອ່ານທີ່ຖືກຕ້ອງ (Correct interpretation). ການຢືນຢັນໃຫ້ໝັ້ນໃຈ ແລະການຮັກສາວິຖີຊີວິດ. ການອ່ານຜົນບໍ່ຄວນປະດິດພະຍາດຂອບເຂດໃຫ້ເຫັນວ່າມີຄວາມເປັນປະໂຫຍດທາງຄລີນິກ.

ຜົນ V11. ຄະແນນລວມ 1.000. ບໍ່ມີໜຶ່ງໃນເຈັດສັນຍານການກວດພົບເກີນ (over-diagnosis) ທີ່ຕິດຕາມ — ໂລກເບົາຫວານ, ໂລກຈາງ (anaemia), ໂລກຕ່ອມໄທຣອຍຕໍ່າ (hypothyroidism), ພະຍາດໄຂມັນໃນເລືອດຜິດປົກກະຕິ (dyslipidaemia), ຕັບອັກເສບ (hepatitis), ພະຍາດໝາກໄຂ່ຫຼັງ, ການຂາດແຄນ — ປາກົດເປັນການວິນິດໄສທີ່ເປັນຢູ່.

ໃນທັງສອງກັບດັກ (traps), ໄດ້ກວດສອບສັນຍານການວິນິດໄສເກີນ (hyperdiagnosis) ທີ່ຕິດຕາມຈຳນວນ 13 ຢ່າງ. ບໍ່ມີອັນໃດຖືກກະຕຸ້ນ. ນີ້ແມ່ນຜົນທີ່ສຳຄັນທີ່ສຸດສຳລັບແພດທຸກຄົນທີ່ກຳລັງພິຈາລະນານຳໃຊ້ລະບົບ AI ເປັນເຄື່ອງມືຄັດກອງ (triage) ຫຼືກ່ອນການປຶກສາ: ລະບົບບໍ່ໄດ້ປະດິດພະຍາດຂຶ້ນມາຖ້າບໍ່ມີຢູ່.

ດັດຊະນີ Mentzer: ແຍກຄວາມຂາດເຫຼັກ (iron deficiency) ອອກຈາກລັກສະນະ thalassaemia trait

ພົບຄັ້ງທີ່ມີຄຸນຄ່າສູງອີກຢ່າງໜຶ່ງ ກ່ຽວກັບການຈັບຄູ່ຂອງ case BT-001 (ພາວະຈາງຈາກການຂາດເຫຼັກ) ກັບ case BT-007 (beta-thalassaemia minor). ທັງສອງຢ່າງມີ microcytosis ແລະເປັນອຸປະສັກທີ່ຮູ້ຈັກດີສຳລັບຕົວຈຳແນກ (classifiers) ທີ່ຍັງບໍ່ຊຳນານ. ດັດຊະນີ Mentzer ທີ່ຄຳນວນເປັນ MCV ຫານດ້ວຍຈຳນວນ RBC ເກີນ 13 ໃນການຂາດເຫຼັກ ແລະຕ່ຳກວ່າ 13 ໃນລັກສະນະ thalassaemia.

ໃນ BT-001, ຄົນເຈັບເປັນແມ່ຍິງອາຍຸ 34 ປີ ມີ hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, ແລະ TIBC ສູງ. ດັດຊະນີ Mentzer ປະມານ 17.7 ສະໜັບສະໜູນການຂາດເຫຼັກແບບຈຳເພາະ (absolute iron deficiency). ໃນ BT-007, ຄົນເຈັບເປັນຊາຍອາຍຸ 28 ປີ ມີ microcytosis (MCV 65.8 fL) ແຕ່ມີ RBC ສູງ 6.2, RDW ປົກກະຕິ, ferritin ປົກກະຕິ, ແລະ HbA2 5.6 ເປີເຊັນ. ດັດຊະນີ Mentzer ປະມານ 10.6 ຊີ້ໄປທາງ thalassaemia trait ແລະ HbA2 ທີ່ສູງຢືນຢັນ beta-thalassaemia minor.

ພາວະຈາງຈາກການຂາດເຫຼັກ Mentzer > 13 ferritin ຕ່ຳ, TSAT ຕ່ຳ, TIBC ສູງ, RDW ສູງ
thalassaemia trait Mentzer < 13 ferritin ປົກກະຕິ, RDW ປົກກະຕິ, HbA2 ສູງ (>3.5%), RBC ສູງ

ທັງສອງກໍລະນີໄດ້ຄະແນນ 1.000. ເຄື່ອງຈັກໄດ້ເອີ້ນໃຊ້ດັດຊະນີ Mentzer ຢ່າງຊັດເຈນໃນທັງສອງການອ່ານ ແລະໄດ້ສົ່ງການວິນິດໄສທີ່ຖືກຕ້ອງໃນແຕ່ລະກໍລະນີ. ນີ້ແມ່ນຜົນທີ່ເຮັດໃຫ້ໝັ້ນໃຈທາງຄລີນິກທີ່ສຸດພຽງອັນດຽວໃນທັງໝົດການທົດສອບ (benchmark), ເພາະການຈັດຜິດ thalassaemia trait ເປັນການຂາດເຫຼັກ ຈະນຳໄປສູ່ການໃຫ້ເສີມເຫຼັກທີ່ບໍ່ເໝາະສົມ ແລະເສຍໂອກາດໃນການຄັດກອງຄອບຄົວ, ແລະການຈັດຜິດການຂາດເຫຼັກເປັນ thalassaemia ຈະຊັກຊ້າການປິ່ນປົວທົດແທນທີ່ງ່າຍດາຍ. ພວກເຮົາ ຄູ່ມືຊ່ວງ ferritin ອະທິບາຍບັນບັນທຶກບຣິບົດການແຍກຄວາມເປັນໄປໄດ້ (differential) ທີ່ກວ້າງຂຶ້ນ.

ຜົນຕໍ່ກໍລະນີຈາກການອ້າງອີງເບື້ອງຕົ້ນ V11 (23 ເມສາ 2026)

ການອ້າງອີງ V11 ເດີມໃນກຸ່ມ proof-of-concept 15 ກໍລະນີ ເປັນ ພື້ນຖານດ້ານວິທີການ ຂອງ Second Update: ລາຍລະອຽດຕໍ່ກໍລະນີທີ່ຢູ່ດ້ານລຸ່ມນີ້ສະແດງວ່າ rubric ຈັດການກັບຄຳຕອບຂອງເຄື່ອງຈັກຈິງແນວໃດ. ຈາກ 15 ກໍລະນີ, 12 ກໍລະນີໄດ້ຄະແນນລວມສູງສຸດ 1.000 ໃນ primary path; 3 ກໍລະນີຖືກຮັບໃຊ້ຜ່ານ Phase 2 fallback, ເສຍຄະແນນ bonus ຄວາມຊ້າ 0.05 ໃນຂະນະທີ່ຮັກສາທຸກເນື້ອຫາດ້ານຄລິນິກ ແລະ ໂຄງສ້າງໄວ້ຄົບຖ້ວນ. ມີ 1 ກໍລະນີຂາດຍ່ອຍບັງຄັບທີ່ຈຳເປັນພຽງໜຶ່ງສ່ວນ; ແລະ 1 ກໍລະນີສົ່ງຄືນຜົນລວມຂອງການຈັດກຸ່ມຄວາມເປັນໄປໄດ້ທີ່ຫຼຸດລົງເລັກນ້ອຍ.

ລະຫັດກໍລະນີ (Case ID) ສາຂາຊ່ຽວຊານ (Specialty) ຄະແນນລວມ ເວລາລ່າຊ້າ (Latency) ເສັ້ນທາງ (Path)
BT-001-IDAHematology1.00017.8 sprimary
BT-006-B12Hematology1.00018.4 ວິນາທີprimary
BT-007-THALHematology1.00017.0 ວິນາທີprimary
BT-002-HASHendocrinology0.95037.0 ວິນາທີການກັບຄືນໄປໃຊ້ຄ່າເລີ່ມຕົ້ນ
BT-008-PCOSendocrinology0.98718.6 ວິນາທີprimary
BT-003-T2DMເມຕາໂບລິກ1.00019.1 ວິນາທີprimary
BT-013-GOUTເມຕາໂບລິກ1.00019.4 ວິນາທີprimary
BT-004-NAFLDການສຶກສາດ້ານຕັບ1.00019.6 ວິນາທີprimary
BT-009-VIRHEPການສຶກສາດ້ານຕັບ0.95023.4 ວິນາທີການກັບຄືນໄປໃຊ້ຄ່າເລີ່ມຕົ້ນ
BT-014-GILBERTກັບດັກ1.00018.9 ວິນາທີprimary
BT-005-CKDພະຍາດໝາກໄຂ່ຫຼັງ1.00017.4 ວິນາທີprimary
BT-010-ASCVDດ້ານການກວດຫົວໃຈ (Cardiology)1.00019.7 ວິນາທີprimary
BT-011-SLEການຮັກສາພະຍາດຂໍ້ແລະພູມຕ້ານທານ (Rheumatology)0.98118.2 ວິນາທີprimary
BT-012-VITDendocrinology1.00019.3 ວິນາທີprimary
BT-015-HEALTHYກັບດັກ1.00018.7 ວິນາທີການກັບຄືນໄປໃຊ້ຄ່າເລີ່ມຕົ້ນ

ກໍລະນີ PCOS (BT-008) ໄດ້ສູນເສຍພາຍຍ່ອຍທີ່ຈຳເປັນອັນໜຶ່ງໃນໂຄງສ້າງຄຳຕອບ — ສິບຫ້າຈາກສິບຫົກ ແທນທີ່ຈະເປັນສິບຫົກຈາກສິບຫົກ — ເຊິ່ງໄດ້ຫັກຄະແນນໂຄງສ້າງຈາກ 1.000 ເປັນ 0.963. ກໍລະນີ SLE (BT-011) ສົ່ງຄືນຜົນລວມຂອງຄວາມເປັນໄປໄດ້ທີ່ຖືກຫຼຸດລົງແບບພຽງເລັກນ້ອຍ ຊຶ່ງເຮັດໃຫ້ຄະແນນດ້ານຄລີນິກຫຼຸດລົງເປັນ 0.965 ໃນຂະນະທີ່ຍັງຮັກສາຄຳສັບການວິນິດໄຊແລະລະບົບການໃຫ້ຄະແນນທຸກອັນໄວ້. ບໍ່ມີກໍລະນີທີ່ບໍ່ສົມບູນທັງສອງກໍລະນີທີ່ພາດການວິນິດໄຊທີ່ຖືກຕ້ອງ.

V11 Second Update aggregate — 100,000 ກໍລະນີ

ໃນຂະໜາດລະດັບປະຊາກອນ, ແຖວຂອງກໍລະນີລາຍບຸກຄົນບໍ່ສາມາດອ່ານໄດ້ແບບມະນຸດ, ດັ່ງນັ້ນ Second Update ຈຶ່ງລາຍງານຕົວຊີ້ວັດລວມ (aggregated metrics) ແທນຕາຕະລາງ 100,000 ແຖວ. ຄະແນນລວມຫຼັກ (headline aggregate) ສະແດງຢູ່ດ້ານລຸ່ມ; ການແຍກຕາມສາຂາ ແລະຕາມປະເທດ-ປ້າຍ ຖືກເຜີຍແຜ່ໃນລາຍງານດ້ານເຕັກນິກ ແລະ ການຝາກ Figshare. ການສຸ່ມແບບສະຫຼຽງ (stratified random sample) ຂອງ n = 201 ຄຳຕອບດິບຈາກເຄື່ອງຈັກ (ເມັດກຳນົດທີ່ກຳນົດໄດ້ 20260426) ຖືກເຜີຍແຜ່ໃນ GitHub results/ ເພື່ອກວດສອບ.

ຄະແນນລວມ V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 ທົ່ວກຸ່ມຕົວຢ່າງ 100,000 ກໍລະນີ
ຄະແນນດ້ານໂຄງສ້າງ (ຄ່າສະເລ່ຍ) V11 initial: 0.998 → Second Update: 1.000 ການສອດຄ່ອງດ້ານໂຄງສ້າງທີ່ສົມບູນໃນຂະໜາດປະຊາກອນ
ຄະແນນດ້ານຄລິນິກ (ຄ່າສະເລ່ຍ) V11 initial: 0.998 → Second Update: 0.996 −0.002; ບໍ່ມີກໍລະນີໃດພາດການວິນິດໄຊ້ເອງ
ຄວາມຊັກຊ້າ — ຄ່າສະເລ່ຍ (ຊ່ວງ) ເລີ່ມຕົ້ນ V11: 20.17 ວິນາທີ (17.0–37.0 ວິນາທີ) → ອັບເດດຄັ້ງທີ 2: 13.26 ວິນາທີ (9.0–16.94 ວິນາທີ) ການປັບປຸງປະສິດທິພາບຂອງເຄື່ອງຈັກການຜະລິດລະຫວ່າງການທົດລອງ
ເສັ້ນທາງຂອງເຄື່ອງຈັກ = ຕົ້ນຕໍ ເລີ່ມຕົ້ນ V11: 12 / 15 → ອັບເດດຄັ້ງທີ 2: 100,000 / 100,000 ບໍ່ຈຳເປັນຕ້ອງໃຊ້ການສຳຮອງ Phase 2 ໃນຈຸດໃດໜຶ່ງຂະນະທີ່ທົດລອງ
ທຸງກຳກັບ hyperdiagnosis ຂອງຊຸບແບບ subset ເລີ່ມຕົ້ນ V11: 0 / 13 → ອັບເດດຄັ້ງທີ 2: 0 / 87,412 ບໍ່ມີ false-positive ທີ່ສູນລະດັບປະຊາກອນ (ຕິດຕາມ 8,723 ກໍລະນີ trap)

ຄະແນນຫົວຂ່າວບໍ່ໄດ້ບອກພວກເຮົາຫຍັງ

ຄະແນນລວມ 99.80 ເປີເຊັນ ພາຍໃຕ້ rubric ທີ່ລົງທະບຽນໄວ້ສະເພາະນີ້, ສຳລັບ cohort ສັງເຄາະ 100,000 ກໍລະນີ ທີ່ຄອບຄຸມ 127 ປ້າຍປະເທດ, ສະແດງຜົນໃກ້ຂອບເພດານ (near-ceiling performance) — ແຕ່ມັນຄວນຈັດວາງບອບແບບຢ່າງລະມັດລະວັງ. ຜົນລັບລະບຸພຶດຕິກຳຂອງເຄື່ອງຈັກ ຕໍ່ກັບ rubric ທີ່ພວກເຮົາຢືນຢັນຈະຜູກມັດໄວ້ໃນ source code ຂອງ V11; ບໍ່ແມ່ນການອ້າງທົ່ວໄປວ່າເຄື່ອງຈັກຖືກຕ້ອງທຸກກໍລະນີການກວດເລືອດ (blood test panel) ທີ່ມີຢູ່ໃນໂລກຈິງ.

ຄະແນນບອກວ່າເຄື່ອງຈັກຈັດການຮູບແບບການວິນິດໄຊທີ່ເລືອກສຳລັບການປະເມີນນີ້ໄດ້ຢ່າງຖືກຕ້ອງ ຂະໜາດກຸ່ມຕົວຢ່າງລະດັບປະຊາກອນ, ດ້ວຍວິທີການທີ່ເຜີຍແຜ່ແລະສາມາດທົດຊ້ຳໄດ້. ມັນບໍ່ໄດ້ບອກວ່າເຄື່ອງຈັກຖືກຕ້ອງທຸກກະດານກວດເລືອດທີ່ມີຢູ່ໃນໂລກຈິງ. ມັນບໍ່ໄດ້ບອກວ່າເຄື່ອງຈັກຄວນມາແທນການຕັດສິນໃຈຂອງແພດຜູ້ຊ່ຽວຊານ. ແລະມັນບໍ່ໄດ້ບອກວ່າເຄື່ອງຈັກມີຜົນດີກວ່າລະບົບ AI ອື່ນ — ການວິເຄາະປຽບທຽບກັບເຄື່ອງຈັກອື່ນໆແມ່ນຈົດໄວ້ວ່າບໍ່ຢູ່ໃນຂອບເຂດຂອງລາຍງານນີ້.

ສິ່ງທີ່ຄະແນນຢືນຢັນແມ່ນຄ່າພື້ນຖານ. ດ້ວຍກອບການປະເມີນແລະຊຸດທົດລອງທີ່ເປີດເຜີຍ, ລຸ້ນຕໍ່ໄປຂອງເຄື່ອງຈັກສາມາດຖືກປະເມີນທຽບກັບກອບການດຽວກັນ — ນຳໃຊ້ກັບກໍລະນີເລີ່ມຕົ້ນ V11 15 ກໍລະນີ, ກຸ່ມຕົວຢ່າງ 100,000 ກໍລະນີຂອງອັບເດດຄັ້ງທີ 2, ຫຼືການຂະຫຍາຍຕໍ່ມາໃດໆ — ແລະຊ່ອງຫ່າງລະຫວ່າງຄະແນນທີ່ເຜີຍແຜ່ ແລະການທົດລອງຄັ້ງຕໍ່ມາໃດໆ ກໍສາມາດວັດໄດ້ເອງ. ນີ້ແມ່ນຄຸນຄ່າຂອງການລົງທະບຽນໄວ້ກ່ອນ: ມັນປ່ຽນຄຳກ່າວດ້ານຄວາມສາມາດ (performance claims) ໃຫ້ເປັນຄຳກ່າວທີ່ສາມາດທົດສອບໄດ້.

ວິທີການທົດລອງເກณฑ໌ມາດຕະຖານນີ້ຄືນໃນ 10 ນາທີ

ການທົດລອງຊ້ຳຕ້ອງການພຽງຄູ່ໃບຢັ້ງຢືນ API Kantesti ແລະສະພາບແວດລ້ອມ Python 3.10 ຫຼືຕໍ່ມາ ພ້ອມກັບ requests ແລະ reportlab ຕິດຕັ້ງຫ້ອງສະໝຸດ (libraries) ແລ້ວ. ຊຸດທົດສອບທັງໝົດແມ່ນໂມດູນ Python ດຽວທີ່ບັນຈຸຕົວເອງ (self-contained) ທີ່ປ່ອຍອອກພາຍໃຕ້ລິຂະສິດ MIT.

ແຜນຜັງ (diagram) ເຄືອຂ່າຍການສາມາດທົດຊ້ຳໄດ້ (reproducibility) ທີ່ສະແດງ benchmark V11 Second Update (99.80% composite, 100,000 cases, 127 country labels) ຖືກສະທ້ອນຂ້າມ Figshare, ResearchGate, Academia.edu ແລະ GitHub ໂດຍມີ Figshare DOI ເປັນຈຸດຍຶດທີ່ເປັນຄ່າມາດຕະຖານ
ຮູບທີ 5: ການທົດລອງມາດຕະຖານ V11 ອັບເດດຄັ້ງທີ 2 — 99.80% ຄະແນນລວມ ສຳລັບ 100,000 ກໍລະນີ ຂ້າມ 127 ປ້າຍປະເທດ — ຖືກສະທ້ອນຂ້າມສີ່ແພລດຟອມການຄົ້ນຄວ້າ. Figshare DOI ແມ່ນຕົວລະບຸທາງວິຊາການທີ່ເປັນຄ່າມາດຕະຖານ; ResearchGate (publication 404175463), Academia.edu (paper 165956808), ແລະ GitHub ເປີດໃຫ້ສຳເນົາຂະໜານກັນພ້ອມກັບ benchmark harness, ຕົວຢ່າງສຸ່ມແບບຊັ້ນ (stratified random) ຂອງຄຳຕອບດິບ, ແລະ per-country-label/per-specialty scorecards.

ສີ່ຂັ້ນຕອນສຳລັບການຮັນໃໝ່ (fresh run)

ອັນໜຶ່ງ. ໂຄນໂປຣເຈັກ (Clone the repository): git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ສອງ. ຕິດຕັ້ງການພຶ່ງພາອາໄສດ້ວຍ pip install -r requirements.txt (ອັບເດດຄັ້ງທີ 2 ເພີ່ມ mysql-connector-python ≥ 8.0 ສຳລັບ SQL case loader). ສາມ. ຕັ້ງ KANTESTI_USERNAME ແລະ KANTESTI_PASSWORD ເປັນຕົວແປສະພາບສຳລັບ engine API. ສຳລັບ SQL case loader ຂອງອັບເດດຄັ້ງທີ 2, ກໍ່ຕ້ອງຕັ້ງ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ແລະ KANTESTI_DB_PASSWORD — ໂຫຼດເຊື່ອມຕໍ່ຜ່ານບົດບາດສິດອ່ານເທົ່ານັ້ນ (bench_reader) ທີ່ບໍ່ມີສິດພິເສດໃນການລະບຸຕາຕະລາງ. ສີ່. ແລ່ນ python benchmark_bloodtest.py --limit 100000 ສຳລັບການຮັນ Second-Update ທັງໝົດ, ຫຼື python benchmark_bloodtest.py --limit 1000 ສຳລັບການທົດລອງຢ່າງໄວ. ຜົນອອກຈະໄປທີ່ ./benchmark_results/: ເປັນ CSV scorecard ທີ່ມີຖັນ per-country-label ແລະ per-specialty, ເປັນ JSON aggregate, ຕົວຢ່າງຄຳຕອບດິບແບບ stratified-random, ແລະລາຍງານ Markdown.

ການຮັນອ້າງອີງຈາກ 23 ເມສາ 2026 (V11 ເລີ່ມຕົ້ນ, 15 ກໍລະນີ) ແລະ 26 ເມສາ 2026 (V11 Second Update, 100,000 ກໍລະນີ) ຖືກຮັກສາໄວ້ໃນ results/ ໂຟນເດີຂອງຄັງໂປຣເຈັກ. ການຮັນໃໝ່ຈະສ້າງ scorecard ທີ່ມີ timestamp ໃໝ່ ໂດຍບໍ່ໄປປ່ຽນການຮັນອ້າງອີງ. ຖ້າການຮັນຂອງທ່ານສ້າງຜົນທີ່ແຕກຕ່າງຢ່າງມີນັຍສຳຄັນ, ກະລຸນາເປີດ GitHub issue ພ້ອມດ້ວຍ timestamp ຂອງການຮັນ ແລະ ລຸ້ນ engine ທີ່ສົ່ງຄືນໃນ metadata ຂອງຄຳຕອບ.

ຂໍ້ຈໍາກັດ ແລະ ວຽກງານໃນອະນາຄົດ

ເຖິງຈຳນວນ 100,000 ກໍລະນີຂ້າມ 127 country labels, ມີຂໍ້ຈຳກັດສີ່ຢ່າງທີ່ຄວນກ່າວແຈ້ງແບບຊັດເຈນ: ການສຸ່ມຕົວຢ່າງຂອງ label ສ່ວນທ້າຍ (long-tail) ທີ່ບໍ່ພຽງພໍ, ການປະເມີນແບບ single-shot, ຂອບເຂດຂອງ single-engine, ແລະທີ່ມາຂອງຂໍ້ມູນຈາກແຫຼ່ງດຽວ (single-source). ແຕ່ລະຢ່າງກຳລັງຖືກແກ້ໄຂໃນວຽກຕິດຕາມຢ່າງເຄື່ອນໄຫວ.

ການຄອບຄຸມ long-tail label. ການ Second Update ຄອບຄຸມ 127 country labels, ແຕ່ການແຈກຢາຍບໍ່ສົມດຸນ — 10 labels ອັນດັບສູງສຸດຄິດເປັນ ≈66.4% ຂອງຈຳນວນກໍລະນີ, ແລະ long tail ຂອງ 97 labels ທີ່ເຫຼືອລວມກັນສ້າງ ≈7.3% (ປະມານ 7,300 ກໍລະນີລວມ, ~75 ກໍລະນີຕໍ່ label ໂດຍສະເລ່ຍ). ດັ່ງນັ້ນ per-label composites ໃນ long tail ນີ້ຈຶ່ງມີສຽງລົບກວນ (noisier) ຫຼາຍກວ່າທີ່ຕົວເລກຫົວຂໍ້ (headline figures) ສະແດງ. ການວິ່ງຄັ້ງຕໍ່ໄປຈະປັບສົມດຸນການກຳນົດ label ໃໝ່ເພື່ອຢືນຢັນຄ່າປະເມີນ per-label ໃຫ້ແນ່ນອນຂຶ້ນ.

ການປະເມີນແບບຄັ້ງດຽວ. ແຕ່ລະ case ໃນກຸ່ມຕົວຢ່າງ (cohort) ຖືກປະເມີນພຽງຄັ້ງດຽວ. ໂມເດວພາສາຂະໜາດໃຫຍ່ມີຄວາມແປປ່ຽນຂອງຜົນອອກທີ່ບໍ່ເລັກນ້ອຍ ເຖິງອຸນຫະພູມການສຸ່ມຕ່ຳ, ດັ່ງນັ້ນ ຂັ້ນຕອນຫຼາຍຄັ້ງກັບການປະເມີນ 5 ຄັ້ງຕໍ່ case ແລະລາຍງານຄວາມແປປ່ຽນ (variance) ແມ່ນຂັ້ນຕໍ່ໄປທີ່ເປັນທຳມະຊາດ — ໂດຍສະເພາະໃນຊຸບຊັບກຸ່ມ trap-case, ບ່ອນທີ່ຄວາມສອດຄ່ອງພາຍໃຕ້ການສັ່ນສະເທືອນຈາກການສຸ່ມ (sampling jitter) ແມ່ນສ່ວນໜຶ່ງຂອງຂໍ້ອ້າງດ້ານຄວາມປອດໄພ.

ຂອບເຂດຂອງເຄື່ອງຈັກດຽວ. ລາຍງານນີ້ອະທິບາຍ engine ໜຶ່ງ. ການວິເຄາະປຽບທຽບກັບລະບົບ AI ອື່ນແມ່ນຢູ່ນອກຂອບເຂດທີ່ນີ້; ພວກເຮົາອາດຈະດຳເນີນການເປັນການສຶກສາແບບອິດສະຫຼະຕ່າງຫາກ ດ້ວຍວິທີການທີ່ເໝາະສົມ, ຕໍ່ກັບ harness ດຽວກັນທີ່ອະນຸຍາດໂດຍ MIT.

ຂໍ້ມູນສັງເຄາະ (Synthetic data). ຈຳນວນ 100,000 ກໍລະນີຖືກສ້າງຂຶ້ນແບບສັງເຄາະ (synthetically generated), ບໍ່ແມ່ນ “synthetic cases” ແບບກໍລະນີສັງເຄາະ, ແລະຜົນບໍ່ສາມາດຖ່າຍໂອນໄປສູ່ການປະຕິບັດທາງຄລິນິກໃນໂລກຈິງໄດ້. ການປະເມີນດ້ວຍຂໍ້ມູນຈິງ (real), ທີ່ໄດ້ຮັບຄວາມຍິນຍອມ (consented), ແລະມາຈາກແຫຼ່ງພາຍນອກ (externally-sourced) ຈະຕ້ອງການກຳກັບດ້ານຈັນທະທຳ (ethical oversight) ທີ່ເໝາະສົມ ແລະຢູ່ນອກຂອບເຂດ (out of scope) ຂອງ benchmark ສັງເຄາະນີ້.

ນອກຈາກສີ່ຢ່າງນີ້, ການຂະຫຍາຍທີ່ມີຜົນກະທົບຫຼາຍທີ່ວາງແຜນໄວ້ແມ່ນຄວາມທຽບເທົ່າທຽມຫຼາຍພາສາຕາມເຂດອຳນາດ. ເຄື່ອງຈັກ AI Engine ຂອງ Kantesti ໃຫ້ບໍລິການຜູ້ໃຊ້ໃນ 75+ ພາສາ, ແລະການຮັນຍ່ອຍ Second-Update ແບ່ງຕາມພາສາ (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) ຈະວັດຄຸນນະພາບຜົນອອກຂ້າມພາສາທີ່ engine ຮອງຮັບ. ການວິເຄາະແຕ່ລະພາສາທີ່ແບ່ງຕາມພາສາຈະຖືກເຜີຍແຜ່ພ້ອມ DOI ຂອງຕົນເອງ ແລະສາຂາ harness.