เกณฑ์มาตรฐานการตรวจเลือดด้วย AI Kantesti

เกณฑ์มาตรฐานอัตโนมัติ เกณฑ์มาตรฐานที่ลงทะเบียนไว้ล่วงหน้า V11 อัปเดตครั้งที่ 2 — เมษายน 2026 ได้รับอนุญาตแบบ MIT ทำซ้ำได้ · ข้อมูลเปิด ชุดข้อมูลสังเคราะห์ 100K · ป้ายกำกับ 127 ประเทศ

คะแนนรวม 99.80% ตามเกณฑ์การให้คะแนนที่ลงทะเบียนไว้ล่วงหน้า — V11 อัปเดตครั้งที่สอง, กลุ่มตัวอย่าง 100,000 เคส ครอบคลุมป้ายกำกับ 127 ประเทศ

เกณฑ์มาตรฐานทางเทคนิคแบบอัตโนมัติที่ลงทะเบียนไว้ล่วงหน้าและยึดตามรูบริก โดยทดสอบเครื่องยนต์ Kantesti บนเคสการตรวจเลือดที่สร้างขึ้นสังเคราะห์จำนวน 100,000 เคส ซึ่งติดแท็กด้วยป้ายประเทศ 127 รายการ วัดความสอดคล้องของผลลัพธ์ ไม่ใช่ความแม่นยำในการวินิจฉัย รูบริกถูกตรึงไว้ในซอร์สโค้ดก่อนการเผยแพร่ครั้งแรกของ V11 และคงไว้แบบเหมือนกันทุกไบต์สำหรับการอัปเดตครั้งที่สองนี้ ชุดเครื่องมือสำหรับการประเมินได้รับอนุญาตแบบ MIT; มีการเผยแพร่กลุ่มตัวอย่างแบบสุ่มแบบแบ่งชั้นของคำตอบดิบของเครื่องยนต์เพื่อให้ตรวจสอบได้ ทุกเคสเป็นข้อมูลสังเคราะห์ ไม่มีการใช้ข้อมูลส่วนบุคคล.

📖 ~14 นาที 📅 เผยแพร่เมื่อ 23 เมษายน 2026 · อัปเดตเมื่อ 26 เมษายน 2026 (V11 อัปเดตครั้งที่ 2) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 เผยแพร่: 23 เมษายน 2026 🔄 V11 อัปเดตครั้งที่ 2: 26 เมษายน 2026 🩺 ตรวจทานโดยแพทย์: 26 เมษายน 2026 ✅ รูบริกที่ลงทะเบียนไว้ล่วงหน้า (เหมือนกันทุกไบต์) 🔓 โค้ด & ข้อมูลแบบเปิด

เกณฑ์มาตรฐานอัตโนมัตินี้ได้รับการออกแบบและดำเนินการโดย จูเลียน เอมิฮาน บูลุต, วิศวกร AI ระดับอาวุโสและประธานเจ้าหน้าที่บริหาร (CEO) ของ Kantesti Ltd การให้คะแนนเป็นแบบอัตโนมัติทั้งหมดในซอร์สโค้ด; เกณฑ์การให้คะแนนและคณะกรรมการพิจารณาคดีได้รับการพัฒนาด้วยข้อมูลจากทางคลินิกโดย นายแพทย์โทมัส ไคลน์, ประธานเจ้าหน้าที่การแพทย์ (Chief Medical Officer) ของ Kantesti AI และได้รับการทบทวนโดย คณะกรรมการที่ปรึกษาทางการแพทย์ของ Kantesti AI. เป็นการทดสอบภายในที่รันเอง ไม่ใช่การทดสอบเชิงเทคนิคอัตโนมัติที่เป็นอิสระหรือผ่านการทบทวนโดยผู้เชี่ยวชาญ.

ผู้เขียนหลัก & การกำกับดูแลทางคลินิก

โทมัส ไคลน์, แพทย์

หัวหน้าเจ้าหน้าที่ทางการแพทย์ บริษัท Kantesti AI

ดร. โธมัส ไคลน์ เป็นแพทย์โลหิตวิทยาและอายุรศาสตร์ที่ได้รับการรับรองจากคณะกรรมการ มีประสบการณ์มากกว่า 15 ปีด้านเวชศาสตร์ห้องปฏิบัติการ ในฐานะ Chief Medical Officer ของ Kantesti AI เขาเป็นผู้คัดเลือกชุดพาเนลเคสสำหรับการทดสอบนี้ ตรวจทานเนื้อหาทางคลินิกและคำตอบที่คาดหวังของเคสสังเคราะห์ และอนุมัติรูบริกที่ลงทะเบียนไว้ล่วงหน้าก่อนการเรียกใช้งานเครื่องยนต์ครั้งแรก.

ORCID 0009-0009-1490-1321 รีเสิร์ชเกต Google Scholar

ผู้เขียนร่วม & การนำไปใช้งาน

จูเลียน เอมิฮาน บูลุต

Senior AI Engineer & CEO, Kantesti Ltd

Julian Emirhan Bulut เป็นผู้ก่อตั้งและประธานเจ้าหน้าที่บริหาร (CEO) ของ Kantesti Ltd เขาออกแบบและนำไปปฏิบัติชุดเครื่องมือสำหรับการประเมิน — รวมถึงตัวโหลดเคส SQL ที่เพิ่มเข้ามาสำหรับ V11 อัปเดตครั้งที่ 2 — ดำเนินการบูรณาการกับ API ทำการรันอ้างอิงครั้งแรกของ V11 และรัน V11 อัปเดตครั้งที่ 2 แบบ 100,000 เคส และจัดทำการรวมผลทางสถิติ ผู้ก่อตั้งแพลตฟอร์มตั้งแต่ปี 2019.

GitHub เกี่ยวกับคันเตสตี

⚡ สรุปด่วน V11 อัปเดตครั้งที่ 2 — 26 เมษายน 2026

คะแนนรวม 99.80% บนเคสการตรวจเลือดที่สร้างขึ้นสังเคราะห์จำนวน 100,000 เคส ครอบคลุมสาขาการแพทย์แปดด้าน และป้ายประเทศ 127 รายการ (V11 การอัปเดตครั้งที่สอง).
ไม่มีผลบวกลวงจากการวินิจฉัยเกิน (hyperdiagnosis) ครอบคลุมโอกาสสำหรับแฟล็กเคสกับดักที่ถูกเฝ้าติดตาม 87,412 รายการ — ใช้วิธีการเคสกับดักแบบเดียวกับการรันอ้างอิงครั้งแรกของ V11 ปรับขยายสู่ระดับประชากร.
รูบริกที่ลงทะเบียนไว้ล่วงหน้า ถูกตรึงไว้ในซอร์สโค้ดก่อนการรันครั้งแรกของ V11 และคงไว้ เหมือนกันทุกไบต์ สำหรับอัปเดตครั้งที่ 2 นี้ — ไม่สามารถปรับจูนภายหลังได้.
ใช้ดัชนี Mentzer อย่างถูกต้อง เพื่อแยกภาวะโลหิตจางจากการขาดธาตุเหล็กออกจากเบต้า-ธาลัสซีเมียชนิดย่อยใน V11 เวอร์ชันเริ่มต้น พฤติกรรมที่แตกต่างกันถูกคงไว้ในระดับประชากร.
ใช้เฉพาะปลายทางการใช้งานจริง (production endpoint) — ไม่มีการกำหนดเส้นทางแบบพิเศษ ได้รับการประเมินอย่างตรงตามที่ลูกค้าที่ชำระเงินจะเข้าถึง.
ค่าเฉลี่ยความหน่วง (latency) 13.26 วินาที แบบ end-to-end (ช่วง 9.0–16.94 วินาที) โดยเคสทั้ง 100,000 เคสเสร็จสิ้นบนเส้นทางหลักของเครื่องมือ.
กลุ่มตัวอย่างสังเคราะห์. เคสทดสอบที่สร้างขึ้นสังเคราะห์ 100,000 เคส ถูกโหลดระหว่างรันไทม์ ไม่ใช้ข้อมูลสังเคราะห์ และไม่ใช้ข้อมูลส่วนบุคคล.
ชุดเครื่องมือ (harness) อนุญาตแบบ MIT เผยแพร่บน GitHub พร้อมกลุ่มตัวอย่างแบบสุ่มแบบแบ่งชั้น (n = 201) ของคำตอบดิบเต็มรูปแบบจากเครื่องมือเพื่อให้ตรวจสอบได้.
DOI ของ Figshare: 10.6084/m9.figshare.32095435 · สะท้อนบน ResearchGate, Academia.edu, GitHub.

เหตุผลที่มีเกณฑ์มาตรฐานนี้และสิ่งที่มันตรวจสอบ

การอ่านผลตรวจเลือดด้วยความช่วยเหลือของ AI ถูกนำมาใช้มากขึ้นทั้งในงานผู้บริโภคและงานทางคลินิก อย่างไรก็ตาม กรอบการประเมินที่ทำซ้ำได้ซึ่งออกแบบเฉพาะสำหรับเวชศาสตร์ห้องปฏิบัติการยังพบไม่บ่อย คำถามที่สำคัญที่สุดในบริบทนี้ไม่ใช่คำถามที่ครอบคลุมโดยเกณฑ์มาตรฐานทั่วไปสำหรับการตอบคำถามทางการแพทย์: เอนจิ้นจะแยกภาวะขาดธาตุเหล็กออกจากลักษณะธาลัสซีเมียได้หรือไม่เมื่อค่า mean corpuscular volume เท่ากัน จะวินิจฉัย Gilbert's syndrome ผิดเป็นตับอักเสบหรือไม่ และจะสร้างผลพยาธิสภาพในแผงคัดกรองที่ปกติสมบูรณ์หรือไม่?

ชุดตรวจเลือดแบบแผงเดียวมักมีสัญญาณเพียงพอที่จะรองรับการตีความได้หลายแบบ และหน้าที่ของแพทย์ผู้ทำการตีความคือการชั่งน้ำหนักการตีความเหล่านั้นเทียบกัน มากกว่าการดึงคำตอบแบบตำราออกมา เครื่องยนต์ที่ทำได้ดีในเคสแบบตำราอาจยังล้มเหลวในเคสที่สำคัญที่สุด ได้แก่กับดักของการวินิจฉัยแยกโรค ความผิดปกติแบบไม่ร้ายแรงที่ดูน่ากังวลเมื่อพิจารณาเพียงลำพัง และแผงผลที่ปกติอย่างสมบูรณ์ซึ่งทำให้ผู้ช่วยที่มั่นใจเผลอ “สร้าง” พยาธิสภาพขึ้นมาเอง.

เกณฑ์มาตรฐานนี้ถูกสร้างขึ้นมาเพื่อความล้มเหลวลักษณะเหล่านั้นโดยเฉพาะ แต่ละใน 15 เคสถูกคัดเลือกด้วยคุณสมบัติทางการวินิจฉัยเฉพาะอย่าง: ภาวะเม็ดเลือดแดงเล็กกว่าปกติจากการขาดธาตุเหล็กที่ต้องแยกให้ออกจากภาวะพาหะธาลัสซีเมียชนิดเบตาที่มีค่า MCV เฉลี่ยเท่ากัน, เคสที่นำเสนอแบบโรคกิลเบิร์ตซึ่งความผิดปกติเพียงอย่างเดียวคือภาวะบิลิรูบินทางอ้อมสูงแบบแยกเดี่ยว, และแผงคัดกรอง 15 พารามิเตอร์ที่สารวิเคราะห์ทุกตัวอยู่ในช่วงค่าปกติของตัวเอง เกณฑ์ให้รางวัลกับเครื่องยนต์ที่อ่านแต่ละเคสตามเงื่อนไขของมันเอง และลงโทษเครื่องยนต์ที่พยายามสรุปการวินิจฉัยอย่างมั่นใจทั้งที่ไม่มีการวินิจฉัยแบบนั้นที่ควรจะเป็น.

ในฐานะ Thomas Klein, MD ผมเลือกชุดเคสนี้เพราะเป็นรูปแบบที่ผู้ช่วยด้านเวชศาสตร์ห้องปฏิบัติการมักทำผิดพลาดมากที่สุด. ความล้มเหลวที่มีค่าใช้จ่ายสูงไม่ใช่ "พลาดโรคหายาก" แต่คือการประดิษฐ์พยาธิสภาพที่เป็นเรื่องปกติในผู้ป่วยที่ไม่ได้มีภาวะนั้น. ของเรา การตรวจสอบทางการแพทย์ hub อธิบายกรอบงานที่กว้างกว่า หน้านี้อธิบายหลักฐานแนวคิดเริ่มต้นของ V11 และ V11 อัปเดตครั้งที่สองที่ขยายไปสู่เคสสังเคราะห์ 100,000 เคส ที่ดึงมาจากชุดเคสสังเคราะห์ซึ่งครอบคลุมป้ายกำกับ 127 ประเทศ — โดยใช้รูบริกการให้คะแนนเดียวกัน เหมือนกันทุกไบต์ และไม่อนุญาตให้ปรับแต่งภายหลัง.

การรันอ้างอิงล่าสุด — V11 Second Update (26 เมษายน 2026)

การรันอ้างอิงของ V11 Second Update เมื่อวันที่ 26 เมษายน 2026 ให้คะแนนรวมเป็น 99.80% จากรูบริกที่ลงทะเบียนไว้ล่วงหน้าแบบเดียวกับที่ใช้ในการเปิดตัวครั้งแรกของ V11 ประเมินบน เคสสังเคราะห์ 100,000 เคส ดึงมาจากชุดเคสสังเคราะห์ของ Kantesti และครอบคลุม ป้ายประเทศ 127 รายการ และภาษา 75+ ทุกเคสเสร็จสิ้นบนเส้นทางหลักของเอนจิน; การเปิดใช้งานแฟล็ก hyperdiagnosis ในเคสที่เป็นกับดักยังคงอยู่ที่ 0 / 87,412. การรันเดิมของ V11 เมื่อวันที่ 23 เมษายน 2026 ครอบคลุม 15 เคสที่คัดเลือกด้วยมือ (คะแนนรวม 99.12%) และยืนยันรูบริก; Second Update ยังคงรูบริกเดิมแบบไบต์ต่อไบต์ และขยายการประเมินไปสู่กลุ่มตัวอย่างระดับประชากร.

คะแนนรวม 99.80% 100,000 จาก 100,000 เคส ได้คะแนน

1.000 คะแนนด้านโครงสร้าง

0.996 คะแนนด้านคลินิก

13.26 s ค่าเฉลี่ยความหน่วง

0 / 87,412 กับดักผลบวกลวง

สูตรคะแนนรวมประกอบด้วยสามส่วน: ความสอดคล้องด้านโครงสร้าง กับรายงานที่บังคับทั้งหมด 7 ส่วน และส่วนย่อยที่บังคับ 16 ส่วน, ความถูกต้องของเนื้อหา วัดจากการเรียกคืนคำหลัก (keyword recall) บวกกับการเรียกคืนจากระบบการให้คะแนน (scoring-system recall) และการตรวจสอบความถูกต้องของการกระจายความน่าจะเป็น (probability-distribution validity check) และ ความหน่วงในการตอบกลับ เทียบกับเป้าหมายระดับบริการของเส้นทางหลัก เวลาที่แยกย่อยอย่างแน่นอนแสดงไว้ในสูตรรูบริกด้านล่าง — ไม่มีน้ำหนักหรือรูบริกย่อยใดถูกเปลี่ยนแปลงสำหรับ Second Update.

คะแนนรวม = 0.35 × ด้านโครงสร้าง + 0.55 × ด้านคลินิก + 0.10 × ด้านความหน่วง

ส่วนที่เหลืออีก 0.20 จุดเปอร์เซ็นต์ของพื้นที่เผื่อ (headroom) แทบทั้งหมดแยกไปอยู่ในคะแนนย่อยทางคลินิก — มีเพียงส่วนน้อยของเคส (ส่วนใหญ่ในสาขาอายุรศาสตร์ระบบทางเดินอาหาร/ตับ (Hepatology) และรูมาติสซั่ม (Rheumatology)) ที่คีย์เวิร์ดของระบบการให้คะแนนที่คาดไว้หนึ่งรายการไม่ปรากฏในการตีความของเอนจิน ทั้งที่เนื้อหาทางการวินิจฉัยถูกต้อง. ไม่มีเคสใดในชุดข้อมูล Second-Update จำนวน 100,000 เคสที่พลาด “การวินิจฉัย” เอง. ความหน่วงลดลงจากค่าเฉลี่ย 20.17 s ในการเปิดตัวครั้งแรกของ V11 เหลือ 13.26 s ใน Second Update สะท้อนถึงการปรับปรุงเอนจินสำหรับใช้งานจริงระหว่างการรันทั้งสองครั้ง; รูบริก โค้ดการให้คะแนน และปลายทาง API ไม่เปลี่ยนแปลง.

คะแนนรวมรายป้าย (composite) ต่อป้ายอยู่ระหว่าง 0.9971 ถึง 0.9985 ใน 30 ป้ายประเทศที่มีจำนวนเคสมากที่สุด ช่วงหางยาวของป้ายเพิ่มเติมอีก 97 รายการ (รวมประมาณ 7,300 เคส) ไม่พบการเสื่อมสภาพอย่างเป็นระบบ ป้ายที่พบบ่อยที่สุดตามจำนวนเคส ได้แก่ สหรัฐอเมริกา (10,500), บราซิล (9,500), สเปน (9,000), อิตาลี (8,000), เยอรมนี (7,800), ฝรั่งเศส (7,400), โปรตุเกส (5,800), Türkiye (3,400), สหราชอาณาจักร (2,900) และเม็กซิโก (2,500).

จาก 15 เคสสู่ 100,000: วิวัฒนาการของกลุ่มตัวอย่างข้ามป้ายกำกับ 127 ประเทศ

พาเนลเคสเดิมของ V11 ครอบคลุมเจ็ดสาขา — โลหิตวิทยา ต่อมไร้ท่อ เวชศาสตร์เมตาบอลิซึม ตับวิทยา ไตวิทยา โรคหัวใจ และรูมาติสซั่ม — รวมถึงเคสกับดักสำหรับการวินิจฉัยเกินความจำเป็น (hyperdiagnosis) โดยเฉพาะอีกสองเคส โดยแต่ละเคสเป็นพาเนลตรวจเลือดที่สร้างขึ้นสังเคราะห์ การอัปเดตครั้งที่สองของ V11 ขยายการประเมินไปสู่ เคสสังเคราะห์ 100,000 เคส ครอบคลุมป้ายกำกับ 127 ประเทศ, กระจายตามแปดสาขา (เจ็ดสาขาเดิมบวกกับหมวดอายุรศาสตร์ภายในเฉพาะที่ดูดซับชุดย่อยของเคสกับดัก) ใช้รูบริกการให้คะแนนชุดเดียวกันแบบไบต์ต่อไบต์ในทั้งสองการรัน.

เนื่องจากเคสทั้งหมดถูกสร้างขึ้นสังเคราะห์ จึงไม่มีตัวระบุจริงให้ต้องลบ และไม่มีข้อมูลส่วนบุคคลที่เกี่ยวข้อง เคสสังเคราะห์แต่ละเคสมีรหัสเคสภายในสำหรับการทดสอบ (BT-NNN-LABEL ในชุดเริ่มต้นของ V11 ซึ่งเป็นรหัสที่คงที่ case_uid ในการอัปเดตครั้งที่สอง) ไม่มีข้อมูลส่วนบุคคลปรากฏที่ใดในชุดเครื่องมือที่เผยแพร่ รายงานทางเทคนิค หรือชุดข้อมูลที่เผยแพร่.

การเปิดตัวครั้งแรกของ V11 — 15 เคสที่คัดเลือกด้วยมือ

แผงเคส V11 เดิมได้รับการคัดเลือกด้วยมือโดย ดร. โธมัส ไคลน์ เพื่อฝึกรูปแบบการวินิจฉัยที่ผู้ช่วยด้านเวชศาสตร์ห้องปฏิบัติการมักทำผิดมากที่สุด แต่ละในทั้งหมด 15 เคสถูกเลือกมาเพื่อคุณสมบัติการวินิจฉัยเฉพาะอย่าง โดยระบุไว้ด้านล่าง.

โลหิตวิทยา (3) BT-001, BT-006, BT-007 ภาวะโลหิตจางจากการขาดธาตุเหล็ก · ขาดวิตามิน B12 · เบต้า-ธาลัสซีเมียชนิดย่อย

ต่อมไร้ท่อ (3) BT-002, BT-008, BT-012 ไทรอยด์อักเสบของฮาชิโมโตะ · PCOS ร่วมกับภาวะดื้อต่ออินซูลิน · ขาดวิตามินดีอย่างรุนแรง

เมตาบอลิก (2) BT-003, BT-013 T2DM ร่วมกับกลุ่มอาการเมตาบอลิก · ภาวะกรดยูริกสูงร่วมกับความเสี่ยงโรคเกาต์

ตับวิทยา (2) BT-004, BT-009 NAFLD / NASH · ตับอักเสบไวรัสเฉียบพลัน

ไตวิทยา · โรคหัวใจ · รูมาติสซั่ม (3) BT-005, BT-010, BT-011 CKD ระยะที่ 3 · ภาวะไขมันผิดปกติที่ก่อหลอดเลือดแดงแข็ง · โรคลูปัสอีริทีมาโตซัสระบบ

เคสกับดัก (2) BT-014, BT-015 โรคกิลเบิร์ต (ภาวะบิลิรูบินทางอ้อมสูงเดี่ยว) · การคัดกรองผู้ใหญ่ที่ปกติสมบูรณ์

ทำไมจึงเลือกการกระจายชุดนี้โดยเฉพาะ

โลหิตวิทยาได้สามเคส เพราะตัวแปรจำแนกแบบไมโครไซติกและแบบมาโครไซติกเป็น “กับดัก” ที่มีปริมาณเคสสูงที่สุดในงานปฏิบัติจริงของห้องปฏิบัติการ ส่วนต่อมไร้ท่อได้สามเคส เพราะรูปแบบการนำเสนอของ Hashimoto, PCOS และขาดวิตามินดี มี “รูปร่าง” การวินิจฉัยที่แตกต่างกัน (ขับเคลื่อนด้วยแอนติบอดี, ขับเคลื่อนด้วยอัตราส่วนฮอร์โมน, ขับเคลื่อนด้วยตัวบ่งชี้เดี่ยว) ส่วนสาขาที่เหลือเป็นเคสเดี่ยวก็ยังมีความหมาย เพราะ CKD, ความเสี่ยงของ ASCVD และ SLE ต่างก็มีระบบการให้คะแนนของตัวเองที่เอนจินควรเรียกใช้ (การจัดระยะ KDIGO, ความเสี่ยง ASCVD 10 ปี, และเกณฑ์ SLE ของ 2019 EULAR/ACR ตามลำดับ).

V11 อัปเดตครั้งที่สอง — เคสสังเคราะห์ 100,000 เคส ครอบคลุมป้ายกำกับ 127 ประเทศ

การอัปเดตครั้งที่สองแทนที่ลิเทอรัล Python แบบฮาร์ดโค้ด 15 เคสเดิมของ V11 ด้วยชุดเคสสังเคราะห์ที่ใหญ่ขึ้นซึ่งถูกสร้างขึ้นแบบโปรแกรม ชุดเคสจะถูกโหลดเมื่อเริ่มต้นการรันทุกครั้ง และมีการบันทึกค่าคอนฟิกเพื่อความโปร่งใส มีการแสดงการกระจายของกลุ่มตัวอย่างตามหมวดเนื้อหาด้านล่าง.

ต่อมไร้ท่อ 23,900 เคส (23.9%) ไทรอยด์, PCOS, ขาดวิตามินดี, แกนสืบพันธุ์เพศ, ต่อมใต้สมอง

เวชศาสตร์เมตาบอลิก 21,900 เคส (21.9%) T2DM, กลุ่มอาการเมตาบอลิก, แผงไขมัน, ภาวะกรดยูริกสูง

โลหิตวิทยา 15,400 เคส (15.4%) การแยกความต่างแบบเม็ดเลือดแดงเล็กและใหญ่, B12/โฟเลต, การตรวจการศึกษาเกี่ยวกับธาตุเหล็ก

สาขาตับวิทยา 12,400 เคส (12.4%) NAFLD/NASH, ตับอักเสบจากไวรัส, FIB-4, ภาวะน้ำดีคั่ง

อายุรศาสตร์ (รวมถึงกลุ่มย่อย trap) 9,000 เคส (9.0%) การแสดงอาการแบบผสม และเคส trap สำหรับการวินิจฉัยเกินจำเป็นโดยเฉพาะจำนวน 8,723 เคส

โรคหัวใจและหลอดเลือด 7,500 เคส (7.5%) ความเสี่ยง ASCVD, ภาวะไขมันผิดปกติที่ก่อหลอดเลือดแดงแข็ง, hs-CRP

สาขารูมาติวิทยา 6,000 เคส (6.0%) SLE, RA, หลอดเลือดอักเสบ, แผงแอนติบอดีอัตโนมัติ (เกณฑ์ EULAR/ACR)

โรคไต 4,000 เคส (4.0%) การแบ่งระยะ CKD (KDIGO), แนวโน้ม eGFR, ความผิดปกติของเกลือแร่

การกระจายของป้ายประเทศแบบสังเคราะห์ — 10 ป้ายแรก

เคสสังเคราะห์จำนวน 100,000 เคสมีป้ายประเทศ 127 รายการ (ISO 3166-1 alpha-2) เพื่อทดสอบการจัดการโลแคล การกำหนดป้าย: ยุโรป 57.7%, อเมริกา 25.4%, เอเชียแปซิฟิก 6.2%, ป้ายตะวันออกกลาง/แอฟริกาที่ระบุ 3.4% และช่วงหางยาวของป้ายเพิ่มเติมอีก 97 รายการรวมกันประมาณ 7.3% ป้าย 10 อันดับแรกที่พบบ่อยที่สุดตามจำนวนเคส ได้แก่ สหรัฐอเมริกา (10,500), บราซิล (9,500), สเปน (9,000), อิตาลี (8,000), เยอรมนี (7,800), ฝรั่งเศส (7,400), โปรตุเกส (5,800), Türkiye (3,400), สหราชอาณาจักร (2,900) และเม็กซิโก (2,500) คะแนนรวมต่อป้ายอยู่ระหว่าง 0.9971 ถึง 0.9985 จำนวนป้ายเหล่านี้เป็นคุณสมบัติของเคสที่ถูกสร้างขึ้นซึ่งใช้เพื่อทดสอบการจัดการโลแคล — ไม่ใช่ผู้ใช้งานจริง และไม่ใช่การครอบคลุมทางภูมิศาสตร์ในโลกจริง.

รูบริกที่ลงทะเบียนไว้ล่วงหน้า อธิบายแล้ว

การลงทะเบียนล่วงหน้า (pre-registration) คือการตัดสินใจเชิงระเบียบวิธีที่สำคัญที่สุดในเบนช์มาร์กนี้ ทุกการวินิจฉัยที่คาดหวัง ทุกระบบการให้คะแนนทางคลินิก และทุกส่วนของรายงาน ถูกผูกไว้กับซอร์สโค้ด ก่อนที่จะเรียกใช้งานเอนจิน. ดังนั้นการปรับแต่งรูบริกย้อนหลังเพื่อเอื้อให้เอนจินจึงเป็นไปไม่ได้.

องค์ประกอบสามส่วนประกอบเป็นคะแนนรวม โดย ส่วนเชิงโครงสร้าง (structural component) มีส่วนคิด 35 เปอร์เซ็นต์ และวัดว่าเอนจินส่งคืน “เจ็ดส่วนบังคับ” ของรายงานหรือไม่ (ส่วนหัว, สรุป, ข้อค้นพบสำคัญ, การวินิจฉัยแยกโรค, ระบบการให้คะแนน, ข้อเสนอแนะ, การติดตามผล) รวมถึง “สิบหกส่วนย่อยบังคับ” ภายในแต่ละส่วนดังกล่าว การมีอยู่ของส่วน (section presence) มีน้ำหนัก 40 เปอร์เซ็นต์ และการมีอยู่ของส่วนย่อย (subsection presence) มีน้ำหนัก 60 เปอร์เซ็นต์ ภายในการคำนวณเชิงโครงสร้าง.

การ ส่วนเชิงคลินิก (clinical component) มีส่วนคิด 55 เปอร์เซ็นต์ และรวมสามอย่างเข้าด้วยกัน: การระลึกคำสำคัญของการวินิจฉัย (70 เปอร์เซ็นต์ของคะแนนย่อยเชิงคลินิก), การระลึกระบบการให้คะแนน (20 เปอร์เซ็นต์ — เอนจินคำนวณ Mentzer, FIB-4, HOMA-IR, ความเสี่ยง ASCVD, การจัดระยะ KDIGO, เกณฑ์ EULAR/ACR หรือไม่ เมื่อเกี่ยวข้อง), และการตรวจความถูกต้องด้วยผลรวมความน่าจะเป็น (10 เปอร์เซ็นต์ — ความน่าจะเป็นของการวินิจฉัยแยกโรคควรรวมกันให้อยู่ในช่วง [90, 110]) สำหรับเคสกับดัก จะหัก “บทลงโทษสำหรับการวินิจฉัยเกินอย่างชัดเจน” ได้สูงสุด 0.30 ซึ่งคำนวณเป็น 0.10 ต่อการตั้งธงพยาธิสภาพที่ประดิษฐ์ขึ้นหนึ่งรายการ โดยจำกัดไว้ไม่เกินสามธง.

การ ส่วนเชิงเวลาแฝง (latency component) มีส่วนคิด 10 เปอร์เซ็นต์ การตอบสนองที่ต่ำกว่า 20 วินาทีได้คะแนนเต็ม 0.10 ตอบสนองต่ำกว่า 40 วินาทีได้ 0.05 และสิ่งที่ช้ากว่านั้นได้ศูนย์ เป้าหมาย 20 วินาทีสะท้อนวัตถุประสงค์ระดับบริการ (service-level objective) ของการให้บริการ primary-path ในการผลิต ส่วนเพดาน 40 วินาทีสะท้อนงบประมาณสำรองสำหรับการเรียกเอนจินหนักใน Phase 2.

สิ่งที่ pre-registration ป้องกันได้

เบนช์มาร์กที่ทำโดยผู้จัดทำเอง (first-party benchmarks) มักมีชื่อเสียงในการพองตัวตัวเลขของตนเองด้วยการปรับรูบริกย้อนหลัง (post-hoc rubric tuning) รูปแบบมักจะเหมือนเดิมเกือบทุกครั้ง: ทีมรันเอนจิน ดูว่าตรงไหนทำได้ไม่ดี แล้วจึงปรับรูบริกอย่างเงียบ ๆ เพื่อให้พื้นที่ที่ทำได้ไม่ดีมีค่าน้อยลง เมื่อผูกรูบริกไว้กับซอร์สโค้ดก่อนการเรียกเอนจินครั้งแรก และเผยแพร่ชุดทดสอบภายใต้ไลเซนส์ MIT การปรับนั้นจะมองเห็นได้ในระบบควบคุมเวอร์ชัน ใครก็สามารถโคลนรีโพสิทอรี ตรวจสอบวันเวลาผู้เขียนรูบริก และยืนยันได้ว่าไม่ได้ใช้ผลลัพธ์ของเอนจินเพื่อกำหนดคะแนน.

เคสกับดักการวินิจฉัยเกินจริง — ทำไมการเรียกเกิน (over-calling) จึงเป็นโหมดความล้มเหลวที่แท้จริง

การเรียกพยาธิสภาพอย่างรุนแรงเกินไปบนหน้าจอที่ปกติ เป็นรูปแบบความล้มเหลวที่มีการบันทึกไว้ของผู้ช่วยทางการแพทย์สำหรับผู้บริโภค (consumer-facing medical assistants) ค่าใช้จ่ายปลายทางรวมถึงการสืบค้นที่ไม่จำเป็น ความกังวลของผู้ป่วย และการตรวจรักษาที่ก่อให้เกิดอันตรายโดยไม่จำเป็น (iatrogenic workup) เคสกับดักสองเคสในเบนช์มาร์กนี้ถูกออกแบบมาเพื่อทำให้ความล้มเหลวแบบนั้นมองเห็นได้และให้คะแนนได้.

🟡 กับดัก 1 — BT-014-GILBERT

การนำเสนอ (Presentation). ชายอายุ 24 ปี มีบิลิรูบินรวม 2.4 mg/dL สัดส่วนทางตรงปกติ เอนไซม์ทรานส์อะมิเนสและอัลคาไลน์ฟอสฟาเตสอยู่ในช่วงค่ามาตรฐาน เรติคูโลไซต์ไม่พบความผิดปกติ และ haptoglobin กับ LDH ตัดภาวะเม็ดเลือดแดงแตก (haemolysis) ออก.

การอ่านผลอย่างถูกต้อง (Correct interpretation). Gilbert's syndrome — ความหลากหลายทางพันธุกรรม (polymorphism) ของ UGT1A1 ที่ไม่เป็นอันตราย การตีความไม่ควรเรียกใช้ตับอักเสบ โรคตับแข็ง ภาวะโลหิตจางจากเม็ดเลือดแดงแตก หรือการอุดตันทางเดินน้ำดี.

ผลลัพธ์ V11. คะแนนรวม 1.000 ไม่มีธงบ่งชี้การวินิจฉัยเกิน (over-diagnosis) ที่ถูกเฝ้าติดตามทั้งหกรายการปรากฏเป็นการวินิจฉัยที่ “ทำงานอยู่” (active diagnoses).

🟡 กับดัก 2 — BT-015-HEALTHY

การนำเสนอ (Presentation). หญิงอายุ 35 ปี กับแผงคัดกรองประจำที่มีพารามิเตอร์ 15 รายการ (routine screening panel) ตัววิเคราะห์ทุกตัว (analyte) อยู่ในช่วงค่าปกติอ้างอิงอย่างสบายใจ.

การอ่านผลอย่างถูกต้อง (Correct interpretation). การให้ความมั่นใจและการดูแลรักษาวิถีชีวิต การแปลผลไม่ควรสร้างภาวะผิดปกติระดับก้ำกึ่งขึ้นมาเพื่อให้ดูมีประโยชน์ทางคลินิก.

ผลลัพธ์ V11. คอมโพสิต 1.000 ไม่มีธงสัญญาณการวินิจฉัยเกินที่ถูกติดตามทั้งเจ็ดรายการ—เบาหวาน โลหิตจาง ภาวะไทรอยด์ทำงานต่ำ ไขมันในเลือดผิดปกติ ตับอักเสบ โรคไต และภาวะขาด—ปรากฏเป็นการวินิจฉัยที่กำลังเป็นอยู่.

ในทั้งสองกับดัก มีการตรวจธงสัญญาณการวินิจฉัยเกินที่ถูกติดตามทั้งหมด 13 รายการ ไม่มีรายการใดถูกกระตุ้น นี่คือผลลัพธ์ที่สำคัญที่สุดสำหรับแพทย์คนใดก็ตามที่กำลังพิจารณาใช้เครื่องมือ AI เป็นเครื่องมือคัดกรองหรือก่อนเข้าพบแพทย์: ระบบไม่ได้คิดค้นโรคขึ้นมาเมื่อไม่มีโรคนั้นอยู่.

ดัชนี Mentzer: แยกภาวะขาดธาตุเหล็กออกจากภาวะพาหะธาลัสซีเมีย

อีกหนึ่งผลการค้นพบที่มีมูลค่าสูงเกี่ยวกับการจับคู่เคส BT-001 (โลหิตจางจากการขาดธาตุเหล็ก) กับเคส BT-007 (เบต้า-ธาลัสซีเมียชนิดย่อย) ทั้งสองภาวะมีภาวะเม็ดเลือดแดงเล็ก (microcytosis) และเป็นอุปสรรคที่รู้จักกันดีสำหรับตัวจำแนกแบบมือใหม่ ดัชนี Mentzer คำนวณเป็น MCV หารด้วยจำนวนเม็ดเลือดแดง (RBC) จะมากกว่า 13 ในภาวะขาดธาตุเหล็ก และจะต่ำกว่า 13 ในภาวะธาลัสซีเมียแฝง.

ใน BT-001 ผู้ป่วยเป็นเพศหญิงอายุ 34 ปี มีค่าเฮโมโกลบิน 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, เฟอร์ริติน 6 ng/mL และมีค่า TIBC สูง ดัชนี Mentzer ประมาณ 17.7 สนับสนุนภาวะขาดธาตุเหล็กแบบแน่นอน ใน BT-007 ผู้ป่วยเป็นเพศชายอายุ 28 ปี มีภาวะเม็ดเลือดแดงเล็ก (MCV 65.8 fL) แต่มีจำนวน RBC สูง 6.2, RDW ปกติ, เฟอร์ริตินปกติ และ HbA2 5.6 เปอร์เซ็นต์ ดัชนี Mentzer ประมาณ 10.6 ชี้ไปที่ภาวะธาลัสซีเมียแฝง และ HbA2 ที่สูงยืนยันเบต้า-ธาลัสซีเมียชนิดย่อย.

โลหิตจางจากการขาดธาตุเหล็ก Mentzer > 13 เฟอร์ริตินต่ำ, TSAT ต่ำ, TIBC สูง, RDW สูง

ภาวะเบต้า-ธาลัสซีเมียแฝง Mentzer < 13 เฟอร์ริตินปกติ, RDW ปกติ, HbA2 สูง (>3.5%), จำนวน RBC สูง

ทั้งสองเคสได้คะแนน 1.000 เครื่องยนต์เรียกใช้ดัชนี Mentzer อย่างชัดเจนในการแปลผลทั้งสองครั้ง และให้การวินิจฉัยที่ถูกต้องในแต่ละครั้ง. นี่คือผลลัพธ์ที่ให้ความมั่นใจทางคลินิกมากที่สุดเพียงผลเดียวในบรรดาการทดสอบทั้งหมด, เพราะการจำแนกภาวะธาลัสซีเมียแฝงผิดเป็นภาวะขาดธาตุเหล็กจะนำไปสู่การเสริมธาตุเหล็กอย่างไม่เหมาะสมและพลาดโอกาสในการคัดกรองสุขภาพครอบครัว และการจำแนกภาวะขาดธาตุเหล็กผิดเป็นธาลัสซีเมียจะทำให้การรักษาทดแทนที่ตรงไปตรงมาล่าช้า Our ช่วงเฟอร์ริตินเป็นแนวทาง อธิบายบริบทการพิจารณาแยกโรคที่กว้างขึ้น.

ผลลัพธ์รายเคสจากการรันอ้างอิงเริ่มต้นของ V11 (23 เมษายน 2026)

การรันอ้างอิง V11 ดั้งเดิมบนกลุ่มตัวอย่างพิสูจน์แนวคิด 15 เคส ทำหน้าที่เป็น ฐานรากเชิงวิธีวิทยา ของ Second Update: รายละเอียดรายเคสทั้งหมดด้านล่างแสดงให้เห็นว่ารูบริกจัดการการตอบกลับของเครื่องมือจริงอย่างไร จาก 15 เคส มี 12 เคสที่ทำคะแนนคอมโพสิตเพดาน 1.000 บน primary path; อีก 3 เคสถูกให้บริการผ่านตัวสำรอง Phase 2 โดยเสียโบนัสความหน่วง 0.05 ขณะเดียวกันยังคงเนื้อหาเชิงคลินิกและโครงสร้างทั้งหมดไว้ เคสหนึ่งขาดซับเซกชันที่จำเป็นเพียงหนึ่งรายการ; อีกเคสหนึ่งส่งคืนผลรวมการแจกแจงความน่าจะเป็นที่ลดลงเล็กน้อย.

รหัสเคส สาขาเฉพาะทาง คะแนนรวม ความหน่วง พาธ

BT-001-IDAโลหิตวิทยา1.00017.8 sprimary

BT-006-B12โลหิตวิทยา1.00018.4 วินาทีprimary

BT-007-THALโลหิตวิทยา1.00017.0 วินาทีprimary

BT-002-HASHต่อมไร้ท่อ0.95037.0 วินาทีกลับไปใช้ค่าเริ่มต้น

BT-008-PCOSต่อมไร้ท่อ0.98718.6 วินาทีprimary

BT-003-T2DMการเผาผลาญ1.00019.1 วินาทีprimary

BT-013-GOUTการเผาผลาญ1.00019.4 วินาทีprimary

BT-004-NAFLDสาขาตับวิทยา1.00019.6 วินาทีprimary

BT-009-VIRHEPสาขาตับวิทยา0.95023.4 วินาทีกลับไปใช้ค่าเริ่มต้น

BT-014-GILBERTกับดัก1.00018.9 วินาทีprimary

BT-005-CKDโรคไต1.00017.4 วินาทีprimary

BT-010-ASCVDโรคหัวใจและหลอดเลือด1.00019.7 วินาทีprimary

BT-011-SLEสาขารูมาติวิทยา0.98118.2 วินาทีprimary

BT-012-VITDต่อมไร้ท่อ1.00019.3 วินาทีprimary

BT-015-HEALTHYกับดัก1.00018.7 วินาทีกลับไปใช้ค่าเริ่มต้น

กรณี PCOS (BT-008) สูญเสียส่วนย่อยที่บังคับหนึ่งรายการในโครงสร้างการตอบกลับ — สิบห้าจากสิบหก แทนที่จะเป็นสิบหกจากสิบหก — ซึ่งทำให้คะแนนด้านโครงสร้างลดลงจาก 1.000 เป็น 0.963 กรณี SLE (BT-011) ส่งคืนผลรวมของการแจกแจงความน่าจะเป็นที่ลดลงเล็กน้อย ซึ่งทำให้คะแนนด้านคลินิกลดลงเหลือ 0.965 ขณะเดียวกันยังคงรักษาคีย์เวิร์ดการวินิจฉัยและระบบการให้คะแนนทุกอย่างไว้ ไม่มีกรณีที่ต่ำกว่ามาตรฐานเล็กน้อยกรณีใดพลาดการวินิจฉัยที่ถูกต้อง.

V11 Second Update แบบรวม — 100,000 เคส

ในระดับประชากร แถวของเคสแต่ละรายการไม่สามารถอ่านได้โดยมนุษย์ ดังนั้นการอัปเดตครั้งที่สองจึงรายงานตัวชี้วัดที่ถูกรวม (aggregated) แทนตาราง 100,000 แถว ส่วนสรุปหลักจะแสดงด้านล่าง; การแจกแจงตามสาขาเฉพาะทางและตามป้ายประเทศเผยแพร่ในรายงานทางเทคนิคและที่ฝากข้อมูล Figshare มีการเผยแพร่กลุ่มตัวอย่างแบบสุ่มแบบแบ่งชั้นของ n = 201 การตอบกลับดิบจากเครื่องมือ (seed แบบกำหนดค่า 20260426) เผยแพร่ในไดเรกทอรีของ GitHub results/ เพื่อการตรวจสอบ.

คะแนนคอมโพสิต V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 ในกลุ่มตัวอย่าง 100,000 เคส

คะแนนเชิงโครงสร้าง (ค่าเฉลี่ย) V11 initial: 0.998 → Second Update: 1.000 การสอดคล้องเชิงโครงสร้างที่สมบูรณ์แบบในระดับประชากร

คะแนนเชิงคลินิก (ค่าเฉลี่ย) V11 initial: 0.998 → Second Update: 0.996 −0.002; ไม่มีเคสใดพลาดการวินิจฉัยเอง

ความหน่วง — ค่าเฉลี่ย (ช่วง) V11 เริ่มต้น: 20.17 วินาที (17.0–37.0 วินาที) → อัปเดตครั้งที่สอง: 13.26 วินาที (9.0–16.94 วินาที) การปรับแต่งประสิทธิภาพของเอนจินระหว่างรอบการทำงาน

เส้นทางของเอนจิน = หลัก V11 เริ่มต้น: 12 / 15 → อัปเดตครั้งที่สอง: 100,000 / 100,000 ไม่จำเป็นต้องมีการสำรอง Phase 2 ในจุดใดๆ ระหว่างการรัน

แฟล็กการวินิจฉัยเกินขอบเขต (hyperdiagnosis) สำหรับชุดย่อยของกับดัก V11 เริ่มต้น: 0 / 13 → อัปเดตครั้งที่สอง: 0 / 87,412 ไม่มีผลบวกลวง (false-positive) ที่ระดับประชากร (ติดตามเคสกับดัก 8,723 เคส)

คะแนนหัวข้อไม่ได้บอกอะไรเราบ้าง

คะแนนรวม 99.80 เปอร์เซ็นต์ภายใต้รูบริกที่ลงทะเบียนไว้ล่วงหน้าเฉพาะนี้ บนกลุ่มตัวอย่างสังเคราะห์ 100,000 เคสที่ครอบคลุมป้ายกำกับ 127 ประเทศ สะท้อนประสิทธิภาพใกล้ระดับเพดาน — แต่ควรจัดกรอบอย่างรอบคอบ ผลลัพธ์นี้อธิบายพฤติกรรมของเครื่องยนต์เทียบกับรูบริกที่เรายึดมั่นในซอร์สโค้ดใน V11; ไม่ใช่ข้ออ้างสากลเกี่ยวกับความถูกต้องของเครื่องยนต์สำหรับทุกพาเนลตรวจเลือดที่มีอยู่ในโลกจริง.

คะแนนนี้บอกว่าเอนจินจัดการรูปแบบการวินิจฉัยที่เลือกสำหรับการประเมินครั้งนี้ได้อย่างถูกต้องทั่วทั้งกลุ่มตัวอย่างระดับประชากร ด้วยระเบียบวิธีที่เผยแพร่และทำซ้ำได้ ไม่ได้บอกว่าเอนจินถูกต้องกับแผงผลตรวจเลือดทุกแบบที่มีอยู่ในโลกจริง ไม่ได้บอกว่าเอนจินควรมาแทนการใช้ดุลยพินิจของแพทย์ และไม่ได้บอกว่าเอนจินทำได้ดีกว่า AI ระบบทางเลือก — การวิเคราะห์เปรียบเทียบกับเอนจินอื่นๆ ถูกกำหนดไว้อย่างจงใจว่าอยู่นอกขอบเขตของรายงานฉบับนี้.

สิ่งที่คะแนนนี้ยืนยันได้จริงคือเป็น “เส้นฐาน” ด้วยรูบริกและชุดเครื่องมือ (harness) ที่เปิดเผย เวอร์ชันในอนาคตของเอนจินสามารถประเมินเทียบกับรูบริกเดียวกันได้ — โดยนำไปใช้กับเคสเริ่มต้นของ V11 จำนวน 15 เคส, กลุ่มตัวอย่าง 100,000 เคสของอัปเดตครั้งที่สอง หรือการขยายเพิ่มเติมใดๆ — และช่องว่างระหว่างคะแนนที่เผยแพร่กับการรันครั้งถัดไปใดๆ ก็สามารถวัดได้ด้วยตัวมันเอง นี่คือคุณค่าของการลงทะเบียนไว้ล่วงหน้า: มันแปลงข้อกล่าวอ้างด้านประสิทธิภาพให้เป็นข้อกล่าวอ้างที่ทดสอบได้.

วิธีทำซ้ำเกณฑ์มาตรฐานนี้ใน 10 นาที

การทำซ้ำต้องใช้เพียงคู่ข้อมูลรับรอง API Kantesti และสภาพแวดล้อมที่เป็น Python 3.10 หรือใหม่กว่า โดยมี requests และ reportlab ติดตั้งไลบรารีครบถ้วน ชุดเครื่องมือทั้งหมดเป็นโมดูล Python เดี่ยวที่มีในตัวเองและเผยแพร่ภายใต้สัญญาอนุญาต MIT.

💻 GitHub ชุดเครื่องมือภายใต้สัญญาอนุญาต MIT · การตอบกลับดิบ · การรันอ้างอิง 🔗 DOI ของ Figshare 10.6084/m9.figshare.32095435 · บันทึกทางวิชาการที่เป็นมาตรฐาน 🎓 รีเสิร์ชเกต Publication 404175463 · V11 Second Update · ชั้นการค้นพบทางวิชาการ 📄 Academia.edu Paper 165956808 · V11 Second Update · ชั้นการค้นพบทางวิชาการ

สี่ขั้นตอนสำหรับการรันครั้งใหม่

หนึ่ง. โคลนที่เก็บข้อมูล: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. สอง. ติดตั้งทรัพยากรที่จำเป็นด้วย pip install -r requirements.txt (อัปเดตครั้งที่สองเพิ่ม mysql-connector-python ≥ 8.0 สำหรับตัวโหลดเคสของ SQL). สาม. ตั้งค่า KANTESTI_USERNAME และ KANTESTI_PASSWORD เป็นตัวแปรสภาพแวดล้อมสำหรับ API ของเอนจิน สำหรับตัวโหลดเคสของ SQL ในอัปเดตครั้งที่สอง ให้ตั้งค่าเพิ่มเติมด้วย KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, และ KANTESTI_DB_PASSWORD — ตัวโหลดเชื่อมต่อผ่านบทบาทแบบอ่านอย่างเดียว (bench_reader) ที่ไม่มีสิทธิ์ในการระบุชื่อตาราง. สี่. รัน python benchmark_bloodtest.py --limit 100000 สำหรับการรัน Second-Update แบบเต็ม หรือ python benchmark_bloodtest.py --limit 1000 สำหรับการทำซ้ำอย่างรวดเร็ว ผลลัพธ์จะถูกบันทึกไว้ที่ ./benchmark_results/: สกอร์การ์ดแบบ CSV ที่มีคอลัมน์ต่อป้ายประเทศและต่อสาขาเฉพาะทาง, อะกรีเกตแบบ JSON, กลุ่มตัวอย่างคำตอบดิบแบบสุ่มแบบแบ่งชั้น และรายงานแบบ Markdown.

การรันอ้างอิงตั้งแต่ 23 เมษายน 2026 (V11 เริ่มต้น, 15 เคส) และ 26 เมษายน 2026 (V11 Second Update, 100,000 เคส) ได้ถูกเก็บรักษาไว้ใน results/ ไดเรกทอรีของที่เก็บ (repository) การรันใหม่จะสร้างแผ่นสรุปคะแนนพร้อมเวลาประทับใหม่ ขณะที่ยังคงการรันอ้างอิงไว้ไม่เปลี่ยนแปลง หากการรันของคุณให้ผลลัพธ์ที่แตกต่างอย่างมีนัยสำคัญ โปรดเปิดปัญหา (GitHub issue) พร้อมเวลาประทับของการรันและเวอร์ชันของเอนจินที่ส่งกลับมาในข้อมูลเมตาของคำตอบ.

ข้อจำกัดและงานในอนาคต

แม้จะมี 100,000 เคสและป้ายประเทศ 127 รายการ แต่มีข้อจำกัดสี่ประการที่ควรรับทราบอย่างชัดเจน ได้แก่ การสุ่มตัวอย่างแบบหางยาวที่น้อยเกินไป การประเมินแบบครั้งเดียว ขอบเขตของเครื่องยนต์แบบเดียว และแหล่งที่มาของข้อมูลแบบแหล่งเดียว แต่ละประเด็นกำลังได้รับการจัดการในงานติดตามผลที่กำลังดำเนินอยู่.

การครอบคลุมป้ายช่วงหางยาว. การอัปเดตครั้งที่สองครอบคลุมป้ายประเทศ 127 รายการ แต่การกระจายไม่สมดุล — 10 ป้ายแรกคิดเป็นประมาณ 66.4% ของจำนวนเคส และช่วงหางยาวของป้ายเพิ่มเติมอีก 97 รายการรวมกันมีส่วนประมาณ 7.3% (รวมประมาณ 7,300 เคส, เฉลี่ย ~75 เคสต่อป้าย) ดังนั้น composite ต่อป้ายในช่วงหางยาวนี้จึงมีสัญญาณรบกวน (noise) มากกว่าที่ตัวเลขสรุปหลักบ่งชี้ การรันในอนาคตจะปรับสมดุลการกำหนดป้ายเพื่อทำให้การประมาณค่าต่อป้ายมีความแน่นขึ้น.

การประเมินแบบครั้งเดียว. แต่ละเคสในกลุ่มตัวอย่างถูกประเมินเพียงครั้งเดียว โมเดลภาษาขนาดใหญ่แสดงความแปรปรวนของผลลัพธ์ที่ไม่เล็กน้อย แม้ที่อุณหภูมิการสุ่มตัวอย่างต่ำ ดังนั้นโปรโตคอลแบบรันหลายครั้งโดยประเมิน 5 ครั้งต่อเคส และรายงานความแปรปรวน จึงเป็นขั้นตอนถัดไปที่เป็นธรรมชาติ — โดยเฉพาะในชุดย่อยของเคสกับดัก (trap-case subset) ซึ่งความสอดคล้องภายใต้ความสั่นไหวจากการสุ่มตัวอย่างเป็นส่วนหนึ่งของข้ออ้างด้านความปลอดภัย.

ขอบเขตเอ็นจินเดียว. รายงานฉบับนี้อธิบายเอนจินเพียงหนึ่งตัว การวิเคราะห์เชิงเปรียบเทียบกับระบบ AI อื่นอยู่นอกขอบเขตที่นี่ เราอาจดำเนินการเป็นการศึกษาที่เป็นอิสระต่างหาก โดยใช้ระเบียบวิธีที่เหมาะสม ภายใต้ชุดเครื่องมือ (harness) เดียวกันที่ได้รับอนุญาตแบบ MIT.

ข้อมูลสังเคราะห์. ทั้ง 100,000 เคสถูกสร้างขึ้นสังเคราะห์ ไม่ใช่ “เคสสังเคราะห์” และผลลัพธ์ไม่สามารถถ่ายโอนไปสู่ประสิทธิภาพทางคลินิกในโลกจริงได้ การประเมินบนข้อมูลจริงที่ได้รับความยินยอมและได้มาจากแหล่งภายนอก จะต้องมีการกำกับดูแลด้านจริยธรรมที่เหมาะสม และอยู่นอกขอบเขตของการทดสอบเชิงสังเคราะห์นี้.

นอกเหนือจาก 4 ข้อนี้ การขยายที่วางแผนไว้ซึ่งมีผลกระทบมากที่สุดคือความเท่าเทียมกันหลายภาษาในแต่ละเขตอำนาจ (jurisdiction) เอนจิน Kantesti AI ให้บริการผู้ใช้ใน 75+ ภาษา และการรันกลุ่มย่อย Second-Update ที่แบ่งตามภาษา (ตุรกี เยอรมัน สเปน ฝรั่งเศส อิตาลี โปรตุเกส อาหรับ จีนแมนดาริน) จะช่วยวัดคุณภาพผลลัพธ์ในภาษาที่เอนจินรองรับแต่ละภาษา การวิเคราะห์ที่แบ่งตามภาษาแต่ละชุดจะเผยแพร่พร้อม DOI ของตนเองและสาขา harness ของตนเอง.

ลองใช้เอนจินเดียวกับที่ทำคะแนนคอมโพสิตได้ 99.80% จาก 100,000 เคส

อัปโหลดแผงผลตรวจเลือดของคุณเองไปยังปลายทางการผลิต (production endpoint) เดียวกับที่ถูกประเมินในเกณฑ์มาตรฐานนี้ ผู้ใช้งานมากกว่า 2 ล้านคนทั่วโลกใช้เครื่องมือ AI Engine ของ Kantesti เพื่อแปลความหมายผลตรวจตัวบ่งชี้ทางชีวภาพ (biomarkers) มากกว่า 15,000 รายการใน 75+ ภาษา.

🔬 ทดลองใช้เดโมฟรี

ส่วนขยาย Chrome แอปสโตร์ กูเกิลเพลย์

📚 วิธีอ้างอิงเกณฑ์มาตรฐานนี้

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). การประเมินเชิงเทคนิคอัตโนมัติแบบลงทะเบียนล่วงหน้าและยึดตามรูบริกของเครื่องมือการตีความผลตรวจเลือด Kantesti บนเคสทดสอบสังเคราะห์ 100,000 เคส — V11 อัปเดตครั้งที่สอง (รายงานทางเทคนิค V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 เอกสารอ้างอิงเชิงวิธีการจากภายนอก

Mentzer, W. C. (1973). การแยกภาวะขาดธาตุเหล็กออกจากภาวะธาลัสซีเมียแฝง. The Lancet, 301(7808), 882.

🏥 พับเมด

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). เกณฑ์การจำแนกโรค Systemic Lupus Erythematosus ของ European League Against Rheumatism / American College of Rheumatology ประจำปี 2019. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 โดอิ 🏥 พับเมด

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: แบบทดสอบการหลอนในโดเมนการแพทย์สำหรับโมเดลภาษาขนาดใหญ่. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%คะแนนรวม (Composite Score)

100,000จำนวนเคสที่ให้คะแนน (Cases Scored)

127ป้ายประเทศที่ครอบคลุม

0 / 87,412กับดักผลบวกลวง (Trap False-Positives)

คำถามที่พบบ่อย

เครื่องยนต์ AI Kantesti มีความแม่นยำเพียงใดในการทดสอบด้วยเคสสังเคราะห์?

บนรูบริกลงทะเบียนล่วงหน้า ดำเนินการกับเคสทดสอบที่สร้างขึ้นแบบสังเคราะห์ 100,000 เคส ครอบคลุมแปดสาขาเนื้อหาและป้ายกำกับประเทศ 127 รายการ (V11 อัปเดตครั้งที่สอง) เครื่องมือดังกล่าวทำคะแนนรวมได้ 99.80 เปอร์เซ็นต์ โดยไม่มีการตั้งค่าสัญญาณเตือนภาวะวินิจฉัยเกิน (hyperdiagnosis) ในโอกาสกับดักที่ถูกเฝ้าติดตาม 87,412 โอกาส และมีค่าเฉลี่ยความหน่วงของการตอบสนอง 13.26 วินาที ตัวชี้วัดคะแนนรวมนี้วัดความสอดคล้องของผลลัพธ์กับอินพุตสังเคราะห์ ไม่ใช่ความแม่นยำทางการวินิจฉัย การเปิดตัว V11 ดั้งเดิมได้ใช้รูบริกเดียวกันกับเคสที่สร้างขึ้นเองด้วยมือ 15 เคส (คะแนนรวม 99.12%) ขณะที่อัปเดตครั้งที่สองยังคงรูบริกให้เหมือนเดิมแบบไบต์ต่อไบต์ และขยายไปสู่กลุ่มตัวอย่างสังเคราะห์ที่ใหญ่ขึ้น ชุดสรุปคะแนนฉบับเต็มเผยแพร่บน Figshare ภายใต้ DOI 10.6084/m9.figshare.32095435 และบน GitHub ภายใต้ใบอนุญาต MIT.

เครื่องมือ AI Engine Kantesti ได้รับการยืนยันทางคลินิกหรือไม่?

ไม่ใช่ เครื่องยนต์ได้รับการประเมินด้วยเกณฑ์มาตรฐานทางเทคนิคแบบอัตโนมัติ (ไม่ใช่การยืนยันทางคลินิก) เทียบกับรูบริกที่ถูกตรึงไว้ในซอร์สโค้ดก่อนการรันครั้งแรกของ V11 และคงไว้แบบเหมือนกันทุกไบต์สำหรับการอัปเดตครั้งที่สองของ V11 ประเมินบนเคสการตรวจเลือดที่สร้างขึ้นสังเคราะห์จำนวน 100,000 เคส ครอบคลุมสาขาโลหิตวิทยา (hematology), ต่อมไร้ท่อ (endocrinology), เวชศาสตร์เมตาบอลิก (metabolic medicine), ตับวิทยา (hepatology), ไตวิทยา (nephrology), โรคหัวใจ (cardiology), รูมาตวิทยา (rheumatology) และเวชศาสตร์อายุรกรรม (internal medicine) ซึ่งดึงมาจากป้ายประเทศ 127 รายการ การกำกับดูแลทางคลินิกจัดทำโดย Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) แพทย์โลหิตวิทยาเชิงคลินิกที่ได้รับการรับรองจากคณะกรรมการ และเป็น Chief Medical Officer ที่ Kantesti AI.

เคส “กับดักการวินิจฉัยเกิน” คืออะไร?

เคสกับดักการวินิจฉัยเกิน (hyperdiagnosis trap case) คือสถานการณ์ทางคลินิกที่ออกแบบมาโดยเฉพาะเพื่อจับพฤติกรรมการวินิจฉัยเกินในเครื่องยนต์ AI การประเมินมาตรฐานเริ่มต้นของ V11 ใช้เคสลักษณะนี้ 2 เคสเป็นหลักฐานเชิงวิธีวิทยา: ภาวะตัวเหลืองทางอ้อมที่แยกเดี่ยว (isolated indirect hyperbilirubinaemia) ที่สอดคล้องกับโรค Gilbert (ซึ่งการตีความที่ถูกต้องคือความหลากหลายของยีน UGT1A1 แบบไม่เป็นอันตราย ไม่ใช่ตับอักเสบหรือเม็ดเลือดแดงแตก) และชุดคัดกรองผู้ใหญ่ที่ปกติสมบูรณ์ (ซึ่งผลลัพธ์ที่ถูกต้องคือการให้ความมั่นใจ ไม่ใช่การสร้างพยาธิสภาพที่ดูเหมือนเส้นแบ่ง) การอัปเดตครั้งที่สองของ V11 ได้ขยายวิธีการกับดักนี้ไปยังชุดย่อยเฉพาะจำนวน 8,723 เคส ให้โอกาสในการตั้งธงการวินิจฉัยเกินที่ถูกติดตาม 87,412 ครั้ง — และอัตราผลบวกลวงของเครื่องยนต์ยังคงอยู่ที่ศูนย์.

การประเมินผลของเครื่องมือ AI Engine Kantesti ทำซ้ำได้หรือไม่?

ชุดเครื่องมือประเมินผลฉบับเต็มเผยแพร่ภายใต้สัญญาอนุญาต MIT เป็นโมดูล Python เดี่ยวที่ประกอบตัวเองได้ (self-contained) การรันเริ่มต้นของ V11 ต้องใช้เพียงคู่ข้อมูลรับรอง API ของ Kantesti และ Python 3.10 หรือใหม่กว่า การอัปเดตครั้งที่สองของ V11 เพิ่มตัวโหลดเคส SQL แบบอ่านอย่างเดียวที่กำหนดพารามิเตอร์ได้ ซึ่งต้องใช้ข้อมูลรับรองของคลังเก็บทางคลินิกของ Kantesti (a bench_reader บทบาทที่ไม่มีสิทธิ์ในการระบุชื่อของตาราง) โค้ด SQL ของตัวโหลดเคส เกณฑ์ (rubric) (เหมือนกันแบบไบต์ต่อไบต์ระหว่างการเผยแพร่) และตัวอย่างแบบสุ่มแบบแบ่งชั้นของการตอบสนองดิบจากเครื่องยนต์ทั้งในการรันอ้างอิงเริ่มต้นของ V11 และการอัปเดตครั้งที่สอง มีให้ที่ github.com/emirhanai/kantesti-blood-test-benchmark และมีสำเนา (mirrored) บน Figshare, ResearchGate และ Academia.edu.

เครื่องยนต์ AI Kantesti แยกแยะภาวะขาดธาตุเหล็กออกจากภาวะพาหะเบต้า-ธาลัสซีเมียได้อย่างไร?

เครื่องยนต์ใช้ดัชนี Mentzer ซึ่งคำนวณจากปริมาตรเม็ดเลือดแดงเฉลี่ย (mean corpuscular volume) หารด้วยจำนวนเม็ดเลือดแดง (red blood cell count) ดัชนี Mentzer ที่สูงกว่า 13 สนับสนุนภาวะโลหิตจางจากการขาดธาตุเหล็ก (iron deficiency anaemia) ขณะที่ค่าที่ต่ำกว่า 13 สนับสนุนภาวะพาหะธาลัสซีเมียเบต้า (beta-thalassaemia trait) ในการประเมินมาตรฐานเริ่มต้นของ V11 ทั้งสองภาวะถูกจัดประเภทได้อย่างถูกต้องด้วยการคำนวณดัชนี Mentzer อย่างชัดเจน โดยมีบริบทจากเฟอร์ริติน (ferritin), RDW และ HbA2 ในการอัปเดตครั้งที่สองของ V11 กลุ่มตัวอย่าง 100,000 เคส พฤติกรรมการแยกความแตกต่างแบบเดียวกันยังคงอยู่ในระดับประชากร.

ฉันสามารถหาข้อมูลเกณฑ์มาตรฐานดิบและซอร์สโค้ดได้ที่ไหน?

รายงานทางเทคนิคถูกฝากไว้บน Figshare ภายใต้ DOI 10.6084/m9.figshare.32095435 (ครอบคลุมทั้งการเผยแพร่เริ่มต้นของ V11 และการอัปเดตครั้งที่สองของ V11) มีสำเนาบน ResearchGate publication 404175463 และบทความ Academia.edu 165956808 — ทั้งสองอัปเดตด้วยชื่อเรื่องของการอัปเดตครั้งที่สองของ V11 และผลลัพธ์ของ 100,000 เคส — และชุดเครื่องมือ Python ภายใต้สัญญาอนุญาต MIT พร้อมผลการรันอ้างอิงทั้งหมดที่ github.com/emirhanai/kantesti-blood-test-benchmark เครือข่ายสำเนา 4 แพลตฟอร์มช่วยให้มั่นใจถึงการเข้าถึงได้ในระยะยาวและความยืดหยุ่นในการอ้างอิง.

เหตุใดการลงทะเบียนล่วงหน้าจึงมีความสำคัญสำหรับเกณฑ์มาตรฐานทางการแพทย์ของ AI?

การลงทะเบียนล่วงหน้าป้องกันการปรับแต่งเกณฑ์ (rubric) แบบย้อนหลัง (post-hoc) ซึ่งเป็นวิธีที่พบบ่อยที่สุดที่บริษัทใช้เพื่อทำให้ตัวเลขของตนเองดูสูงขึ้น ด้วยการยึดเกณฑ์ไว้ในซอร์สโค้ดก่อนเรียกใช้งานเครื่องยนต์ใด ๆ และเผยแพร่ชุดเครื่องมือสู่สาธารณะ ทำให้วันเวลาที่ผู้เขียนเกณฑ์กำหนดสามารถตรวจสอบได้ในระบบควบคุมเวอร์ชัน และผลลัพธ์ของเครื่องยนต์ไม่สามารถไปกำหนดเกณฑ์การให้คะแนนได้.

เกณฑ์มาตรฐานนี้มีการเปรียบเทียบกับเครื่องยนต์ AI อื่นหรือไม่?

ไม่ รายงาน V11 — ทั้งการเผยแพร่เริ่มต้นและการอัปเดตครั้งที่สอง — ตั้งใจอธิบายเครื่องยนต์เดี่ยวเทียบกับเกณฑ์ (rubric) ที่ตรึงไว้ โดยไม่ใช่การวางตำแหน่งเทียบกับระบบเชิงพาณิชย์ทางเลือกอื่น ชุดเครื่องมือเป็นโอเพนซอร์สภายใต้สัญญาอนุญาต MIT (ขณะนี้รวมถึงตัวโหลดเคส SQL) ดังนั้นนักวิจัยอิสระสามารถประเมินเครื่องยนต์ใดๆ ที่ตนเลือก เทียบกับเกณฑ์และตัวโหลดเคสชุดเดียวกัน และเผยแพร่ผลลัพธ์ของตนได้.

เคสผู้ป่วยเป็นของจริงหรือสังเคราะห์?

ทุกเคสถูกสร้างขึ้นแบบสังเคราะห์ — 15 เคสที่สร้างขึ้นเองด้วยมือในการเปิดตัวครั้งแรกของ V11 และ 100,000 เคสในการอัปเดตครั้งที่สอง ไม่ใช่เคสสังเคราะห์: ไม่มีข้อมูลสังเคราะห์ ไม่มีขั้นตอนการขอความยินยอม และไม่มีการทำให้ไม่สามารถระบุตัวตน (de-identification) เกี่ยวข้อง เพราะไม่มีข้อมูลส่วนบุคคลอยู่ในกลุ่มตัวอย่าง ไม่มีข้อมูลส่วนบุคคลปรากฏในชุดเครื่องมือที่เผยแพร่ (harness) รายงานทางเทคนิค หรือชุดข้อมูลที่เผยแพร่.

⚕️ คำปฏิเสธทางการแพทย์ & ข้อขัดแย้งทางผลประโยชน์

รายงานเกณฑ์มาตรฐานฉบับนี้จัดทำขึ้นเพื่อการวิจัยและความโปร่งใสด้านระเบียบวิธี ไม่ถือเป็นคำแนะนำทางการแพทย์ ไม่ใช่การวินิจฉัย และไม่ใช่สิ่งทดแทนการดูแลทางการแพทย์โดยผู้เชี่ยวชาญ; ผลลัพธ์ใดๆ ที่นี่ไม่ควรถูกนำไปใช้เพื่อชะลอหรือหลีกเลี่ยงการพบแพทย์ โปรดปรึกษาผู้ให้บริการด้านสุขภาพที่มีคุณสมบัติเหมาะสมเสมอสำหรับการตัดสินใจด้านการวินิจฉัยและการรักษา นี่คือเกณฑ์มาตรฐานภายในที่รันเองของเอนจินของบริษัท และยังไม่ได้รับการยืนยันอย่างอิสระหรือผ่านการทบทวนโดยผู้เชี่ยวชาญ คะแนนรวมวัดระดับการสอดคล้องกับเกณฑ์คงที่ (โครงสร้างรายงาน การเรียกคืนคำหลักและระบบการให้คะแนน และความหน่วง); ไม่ใช่การวัดความถูกต้องในการวินิจฉัยในโลกจริงหรือความปลอดภัยทางคลินิก ผู้เขียนทั้งสองทำงานให้กับและถือหุ้นใน Kantesti Ltd และเอนจินที่อยู่ระหว่างการประเมินเป็นผลิตภัณฑ์เชิงพาณิชย์ขององค์กรเดียวกัน ความขัดแย้งทางผลประโยชน์นี้ได้รับการบรรเทาด้วยการลงทะเบียนเกณฑ์ล่วงหน้าในซอร์สโค้ด การเผยแพร่ชุดเครื่องมือ (harness) ภายใต้ใบอนุญาต MIT และการเผยแพร่กลุ่มตัวอย่างแบบสุ่มที่แบ่งชั้นของคำตอบดิบจากเอนจิน.

สัญญาณความน่าเชื่อถือ E-E-A-T

⭐

ประสบการณ์

มีประสบการณ์ด้านโลหิตวิทยาและเวชศาสตร์ห้องปฏิบัติการทางคลินิกมากกว่า 15 ปี ในการกำกับดูแลการคัดเลือกชุดเคส.

📋

ความเชี่ยวชาญ

ออกแบบเกณฑ์มาตรฐานที่ลงทะเบียนล่วงหน้า พร้อมบทลงโทษสำหรับการวินิจฉัยเกินอย่างชัดเจน และระบบการให้คะแนนทางคลินิกที่ได้รับการยอมรับ (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

อำนาจ

ผู้เขียนหลัก ดร. Thomas Klein, MD (ORCID 0009-0009-1490-1321) การนำไปใช้งานโดย Julian Emirhan Bulut, CEO ของ Kantesti Ltd.

🛡️

ความน่าเชื่อถือ

ชุดเครื่องมือที่ทำซ้ำได้ภายใต้สัญญาอนุญาต MIT เผยแพร่การตอบกลับดิบของเครื่องยนต์ เปิดเผยข้อขัดแย้งทางผลประโยชน์อย่างโปร่งใส เครือข่ายมิเรอร์งานวิจัย 4 แพลตฟอร์ม.

🏢 บริษัท คานเทสตี จำกัด จดทะเบียนในอังกฤษและเวลส์ · เลขที่บริษัท. 17090423 ลอนดอน สหราชอาณาจักร · kantesti.net