เหตุผลที่มีเกณฑ์มาตรฐานนี้และสิ่งที่มันตรวจสอบ

การอ่านผลตรวจเลือดด้วยความช่วยเหลือของ AI ถูกนำมาใช้มากขึ้นทั้งในงานผู้บริโภคและงานทางคลินิก อย่างไรก็ตาม กรอบการประเมินที่ทำซ้ำได้ซึ่งออกแบบเฉพาะสำหรับเวชศาสตร์ห้องปฏิบัติการยังพบไม่บ่อย คำถามที่สำคัญที่สุดในบริบทนี้ไม่ใช่คำถามที่ครอบคลุมโดยเกณฑ์มาตรฐานทั่วไปสำหรับการตอบคำถามทางการแพทย์: เอนจิ้นจะแยกภาวะขาดธาตุเหล็กออกจากลักษณะธาลัสซีเมียได้หรือไม่เมื่อค่า mean corpuscular volume เท่ากัน จะวินิจฉัย Gilbert's syndrome ผิดเป็นตับอักเสบหรือไม่ และจะสร้างผลพยาธิสภาพในแผงคัดกรองที่ปกติสมบูรณ์หรือไม่?

แผนภาพผังการไหลของรูบริกที่ลงทะเบียนไว้ล่วงหน้า แสดงว่าเครื่องยนต์ Kantesti AI ได้รับการประเมินเทียบกับเกณฑ์การให้คะแนนที่แช่แข็งอย่างไร
รูปที่ 1: สถาปัตยกรรมของเกณฑ์มาตรฐาน — ทุกเคส ทุกคีย์เวิร์ด ทุกระบบการให้คะแนน ถูกกำหนดตายตัวในซอร์สโค้ดก่อนที่เอนจิ้นจะเห็น PDF เพียงไฟล์เดียว ตามหลักการแล้วไม่สามารถปรับจูนรูบริกภายหลังได้.

ชุดตรวจเลือดแบบแผงเดียวมักมีสัญญาณเพียงพอที่จะรองรับการตีความได้หลายแบบ และหน้าที่ของแพทย์ผู้ทำการตีความคือการชั่งน้ำหนักการตีความเหล่านั้นเทียบกัน มากกว่าการดึงคำตอบแบบตำราออกมา เครื่องยนต์ที่ทำได้ดีในเคสแบบตำราอาจยังล้มเหลวในเคสที่สำคัญที่สุด ได้แก่กับดักของการวินิจฉัยแยกโรค ความผิดปกติแบบไม่ร้ายแรงที่ดูน่ากังวลเมื่อพิจารณาเพียงลำพัง และแผงผลที่ปกติอย่างสมบูรณ์ซึ่งทำให้ผู้ช่วยที่มั่นใจเผลอ “สร้าง” พยาธิสภาพขึ้นมาเอง.

เกณฑ์มาตรฐานนี้ถูกสร้างขึ้นมาเพื่อความล้มเหลวลักษณะเหล่านั้นโดยเฉพาะ แต่ละใน 15 เคสถูกคัดเลือกด้วยคุณสมบัติทางการวินิจฉัยเฉพาะอย่าง: ภาวะเม็ดเลือดแดงเล็กกว่าปกติจากการขาดธาตุเหล็กที่ต้องแยกให้ออกจากภาวะพาหะธาลัสซีเมียชนิดเบตาที่มีค่า MCV เฉลี่ยเท่ากัน, เคสที่นำเสนอแบบโรคกิลเบิร์ตซึ่งความผิดปกติเพียงอย่างเดียวคือภาวะบิลิรูบินทางอ้อมสูงแบบแยกเดี่ยว, และแผงคัดกรอง 15 พารามิเตอร์ที่สารวิเคราะห์ทุกตัวอยู่ในช่วงค่าปกติของตัวเอง เกณฑ์ให้รางวัลกับเครื่องยนต์ที่อ่านแต่ละเคสตามเงื่อนไขของมันเอง และลงโทษเครื่องยนต์ที่พยายามสรุปการวินิจฉัยอย่างมั่นใจทั้งที่ไม่มีการวินิจฉัยแบบนั้นที่ควรจะเป็น.

ในฐานะ Thomas Klein, MD ผมเลือกชุดเคสนี้เพราะเป็นรูปแบบที่ผู้ช่วยด้านเวชศาสตร์ห้องปฏิบัติการมักทำผิดพลาดมากที่สุด. ความล้มเหลวที่มีค่าใช้จ่ายสูงไม่ใช่ "พลาดโรคหายาก" แต่คือการประดิษฐ์พยาธิสภาพที่เป็นเรื่องปกติในผู้ป่วยที่ไม่ได้มีภาวะนั้น. ของเรา การตรวจสอบทางการแพทย์ hub อธิบายกรอบภาพรวมที่กว้างขึ้น; หน้านี้อธิบายผลลัพธ์ที่นำไปใช้กับเครื่องยนต์ V11.

การรันอ้างอิงล่าสุด — V11 (เมษายน 2026)

การทดสอบอ้างอิงรอบเดือนเมษายน 2026 ของ Kantesti AI Engine V11 ให้คะแนนรวมเท่ากับ 99.12% ตามเกณฑ์รูบริก 15 เคสที่ลงทะเบียนไว้ล่วงหน้า ทั้งสองเคสที่เป็นกับดักของการวินิจฉัยเกิน (hyperdiagnosis) ได้คะแนนถึงเพดาน มีการใช้ดัชนี Mentzer อย่างถูกต้องในการแยกความแตกต่างระหว่างภาวะขาดธาตุเหล็กกับธาลัสซีเมีย.

คะแนนรวม 99.12% 15 จาก 15 เคสได้คะแนน
0.998 คะแนนด้านโครงสร้าง
0.998 คะแนนด้านคลินิก
20.17 วินาที ค่าเฉลี่ยความหน่วง
0 / 13 กับดักผลบวกลวง

สูตรคะแนนรวมประกอบด้วยสามส่วน: ความสอดคล้องด้านโครงสร้าง กับรายงานที่บังคับทั้งหมด 7 ส่วน และส่วนย่อยที่บังคับ 16 ส่วน, ความถูกต้องด้านคลินิก วัดจากการเรียกคืนคำหลัก (keyword recall) บวกกับการเรียกคืนจากระบบการให้คะแนน (scoring-system recall) และการตรวจสอบความถูกต้องของการกระจายความน่าจะเป็น (probability-distribution validity check) และ ความหน่วงในการตอบกลับ เทียบกับเป้าหมายระดับบริการหลัก 20 วินาที (primary service-level target) การแยกองค์ประกอบที่แน่นอนแสดงไว้ในสูตรรูบริกด้านล่าง.

คะแนนรวม = 0.35 × ด้านโครงสร้าง + 0.55 × ด้านคลินิก + 0.10 × ด้านความหน่วง

คะแนนเผื่อที่เหลืออีก 0.88 เปอร์เซ็นต์ของ headroom ถูกแยกสลายเกือบทั้งหมดเป็นการสูญเสียจากความหน่วงเวลา—การเรียกใช้งาน fallback ระยะที่ 2 จำนวน 3 ครั้ง แต่ละครั้งมีส่วนทำให้ composite ลดลงประมาณ 0.05 รวมกันคิดเป็นราว 0.60 ของส่วนขาด 0.88 คะแนน—แทนที่จะเป็นเนื้อหาทางคลินิก เครื่องยนต์ไม่พลาดการวินิจฉัยที่ถูกต้องในทั้ง 15 กรณี; ในกรณีที่ทำได้ไม่ถึง มันเกิดจากการใช้เวลานานกว่าค่าเป้าหมายหลัก 20 วินาทีเล็กน้อย ในส่วนน้อยของการเรียกใช้งานเท่านั้น.

จำนวน 15 เคส ครอบคลุม 7 สาขาการแพทย์

ชุดข้อมูลกรณีศึกษาครอบคลุม 7 สาขา—โลหิตวิทยา, ต่อมไร้ท่อ, เวชศาสตร์เมตาบอลิก, ตับวิทยา, ไตวิทยา, โรคหัวใจ, รูมาติสซั่ม—รวมถึงเคสกับดัก hyperdiagnosis เฉพาะทางอีก 2 เคส แต่ละเคสเป็นเวชระเบียนผู้ป่วยจริงที่ถูกทำให้ไม่ระบุตัวตน โดยดึงมาจากคลังข้อมูลทางคลินิก Kantesti ภายใต้ความยินยอมโดยได้รับแจ้งอย่างเป็นลายลักษณ์อักษร.

แผนที่ความครอบคลุมของเคสตรวจเลือดที่ไม่ระบุตัวตนจำนวน 15 เคส ซึ่งกระจายไปตามสาขาการแพทย์ 7 สาขา รวมถึงเคสกับดักเพื่อการวินิจฉัยเกิน (hyperdiagnosis)
รูปที่ 2: การกระจายเคสในโลหิตวิทยา, ต่อมไร้ท่อ, เวชศาสตร์เมตาบอลิก, ตับวิทยา, ไตวิทยา, โรคหัวใจ, รูมาติสซั่ม รวมถึงเคสกับดักอีก 2 เคส—โรคกิลเบิร์ต และชุดคัดกรองที่ปกติสมบูรณ์.

การทำให้ไม่ระบุตัวตนดำเนินการภายใต้วิธี Safe Harbor: ตัวระบุโดยตรงทั้งหมดถูกลบออกหรือแทนที่ และแต่ละระเบียนถูกกำหนดรหัสเคสภายในเป็นมาตรฐานในรูปแบบ BT-NNN-LABEL การประมวลผลดำเนินการตาม GDPR มาตรา 9(2)(j) สำหรับการวิจัยทางวิทยาศาสตร์พร้อมมาตรการป้องกันที่เหมาะสม และบทบัญญัติที่เทียบเท่าของ UK GDPR ไม่มีข้อมูลที่สามารถระบุตัวบุคคลได้ปรากฏที่ใดในชุดทดสอบที่เผยแพร่ รายงานทางเทคนิค หรือชุดข้อมูลที่เผยแพร่.

โลหิตวิทยา (3) BT-001, BT-006, BT-007 ภาวะโลหิตจางจากการขาดธาตุเหล็ก · ขาดวิตามิน B12 · เบต้า-ธาลัสซีเมียชนิดย่อย
ต่อมไร้ท่อ (3) BT-002, BT-008, BT-012 ไทรอยด์อักเสบของฮาชิโมโตะ · PCOS ร่วมกับภาวะดื้อต่ออินซูลิน · ขาดวิตามินดีอย่างรุนแรง
เมตาบอลิก (2) BT-003, BT-013 T2DM ร่วมกับกลุ่มอาการเมตาบอลิก · ภาวะกรดยูริกสูงร่วมกับความเสี่ยงโรคเกาต์
ตับวิทยา (2) BT-004, BT-009 NAFLD / NASH · ตับอักเสบไวรัสเฉียบพลัน
ไตวิทยา · โรคหัวใจ · รูมาติสซั่ม (3) BT-005, BT-010, BT-011 CKD ระยะที่ 3 · ภาวะไขมันผิดปกติที่ก่อหลอดเลือดแดงแข็ง · โรคลูปัสอีริทีมาโตซัสระบบ
เคสกับดัก (2) BT-014, BT-015 โรคกิลเบิร์ต (ภาวะบิลิรูบินทางอ้อมสูงเดี่ยว) · การคัดกรองผู้ใหญ่ที่ปกติสมบูรณ์

ทำไมจึงเลือกการกระจายชุดนี้โดยเฉพาะ

โลหิตวิทยาได้สามเคส เพราะตัวแปรจำแนกแบบไมโครไซติกและแบบมาโครไซติกเป็น “กับดัก” ที่มีปริมาณเคสสูงที่สุดในงานปฏิบัติจริงของห้องปฏิบัติการ ส่วนต่อมไร้ท่อได้สามเคส เพราะรูปแบบการนำเสนอของ Hashimoto, PCOS และขาดวิตามินดี มี “รูปร่าง” การวินิจฉัยที่แตกต่างกัน (ขับเคลื่อนด้วยแอนติบอดี, ขับเคลื่อนด้วยอัตราส่วนฮอร์โมน, ขับเคลื่อนด้วยตัวบ่งชี้เดี่ยว) ส่วนสาขาที่เหลือเป็นเคสเดี่ยวก็ยังมีความหมาย เพราะ CKD, ความเสี่ยงของ ASCVD และ SLE ต่างก็มีระบบการให้คะแนนของตัวเองที่เอนจินควรเรียกใช้ (การจัดระยะ KDIGO, ความเสี่ยง ASCVD 10 ปี, และเกณฑ์ SLE ของ 2019 EULAR/ACR ตามลำดับ).

รูบริกที่ลงทะเบียนไว้ล่วงหน้า อธิบายแล้ว

การลงทะเบียนล่วงหน้า (pre-registration) คือการตัดสินใจเชิงระเบียบวิธีที่สำคัญที่สุดในเบนช์มาร์กนี้ ทุกการวินิจฉัยที่คาดหวัง ทุกระบบการให้คะแนนทางคลินิก และทุกส่วนของรายงาน ถูกผูกไว้กับซอร์สโค้ด ก่อนที่จะเรียกใช้งานเอนจิน. ดังนั้นการปรับแต่งรูบริกย้อนหลังเพื่อเอื้อให้เอนจินจึงเป็นไปไม่ได้.

องค์ประกอบสามส่วนประกอบเป็นคะแนนรวม โดย ส่วนเชิงโครงสร้าง (structural component) มีส่วนคิด 35 เปอร์เซ็นต์ และวัดว่าเอนจินส่งคืน “เจ็ดส่วนบังคับ” ของรายงานหรือไม่ (ส่วนหัว, สรุป, ข้อค้นพบสำคัญ, การวินิจฉัยแยกโรค, ระบบการให้คะแนน, ข้อเสนอแนะ, การติดตามผล) รวมถึง “สิบหกส่วนย่อยบังคับ” ภายในแต่ละส่วนดังกล่าว การมีอยู่ของส่วน (section presence) มีน้ำหนัก 40 เปอร์เซ็นต์ และการมีอยู่ของส่วนย่อย (subsection presence) มีน้ำหนัก 60 เปอร์เซ็นต์ ภายในการคำนวณเชิงโครงสร้าง.

การ ส่วนเชิงคลินิก (clinical component) มีส่วนคิด 55 เปอร์เซ็นต์ และรวมสามอย่างเข้าด้วยกัน: การระลึกคำสำคัญของการวินิจฉัย (70 เปอร์เซ็นต์ของคะแนนย่อยเชิงคลินิก), การระลึกระบบการให้คะแนน (20 เปอร์เซ็นต์ — เอนจินคำนวณ Mentzer, FIB-4, HOMA-IR, ความเสี่ยง ASCVD, การจัดระยะ KDIGO, เกณฑ์ EULAR/ACR หรือไม่ เมื่อเกี่ยวข้อง), และการตรวจความถูกต้องด้วยผลรวมความน่าจะเป็น (10 เปอร์เซ็นต์ — ความน่าจะเป็นของการวินิจฉัยแยกโรคควรรวมกันให้อยู่ในช่วง [90, 110]) สำหรับเคสกับดัก จะหัก “บทลงโทษสำหรับการวินิจฉัยเกินอย่างชัดเจน” ได้สูงสุด 0.30 ซึ่งคำนวณเป็น 0.10 ต่อการตั้งธงพยาธิสภาพที่ประดิษฐ์ขึ้นหนึ่งรายการ โดยจำกัดไว้ไม่เกินสามธง.

การ ส่วนเชิงเวลาแฝง (latency component) มีส่วนคิด 10 เปอร์เซ็นต์ การตอบสนองที่ต่ำกว่า 20 วินาทีได้คะแนนเต็ม 0.10 ตอบสนองต่ำกว่า 40 วินาทีได้ 0.05 และสิ่งที่ช้ากว่านั้นได้ศูนย์ เป้าหมาย 20 วินาทีสะท้อนวัตถุประสงค์ระดับบริการ (service-level objective) ของการให้บริการ primary-path ในการผลิต ส่วนเพดาน 40 วินาทีสะท้อนงบประมาณสำรองสำหรับการเรียกเอนจินหนักใน Phase 2.

ภาพหน้าจอปลายทางของชุดทดสอบมาตรฐาน (benchmark harness) ของ Kantesti ที่ได้รับอนุญาตแบบ MIT กำลังทำงานและแสดงคะแนนรายเคส
รูปที่ 3: ชุดทดสอบในการรัน (harness) ระหว่างการทำงาน แต่ละเคสถูกเรนเดอร์เป็นไฟล์ PDF ขนาด A4 อัปโหลดไปยัง endpoint v11 ของการผลิต และให้คะแนนเทียบกับรูบริกที่ถูกตรึงไว้ (frozen rubric) การตอบกลับดิบทุกครั้งจะถูกบันทึกไว้ควบคู่กับสรุปคะแนนรวม (aggregated scorecard).

สิ่งที่ pre-registration ป้องกันได้

เบนช์มาร์กที่ทำโดยผู้จัดทำเอง (first-party benchmarks) มักมีชื่อเสียงในการพองตัวตัวเลขของตนเองด้วยการปรับรูบริกย้อนหลัง (post-hoc rubric tuning) รูปแบบมักจะเหมือนเดิมเกือบทุกครั้ง: ทีมรันเอนจิน ดูว่าตรงไหนทำได้ไม่ดี แล้วจึงปรับรูบริกอย่างเงียบ ๆ เพื่อให้พื้นที่ที่ทำได้ไม่ดีมีค่าน้อยลง เมื่อผูกรูบริกไว้กับซอร์สโค้ดก่อนการเรียกเอนจินครั้งแรก และเผยแพร่ชุดทดสอบภายใต้ไลเซนส์ MIT การปรับนั้นจะมองเห็นได้ในระบบควบคุมเวอร์ชัน ใครก็สามารถโคลนรีโพสิทอรี ตรวจสอบวันเวลาผู้เขียนรูบริก และยืนยันได้ว่าไม่ได้ใช้ผลลัพธ์ของเอนจินเพื่อกำหนดคะแนน.

เคสกับดักการวินิจฉัยเกินจริง — ทำไมการเรียกเกิน (over-calling) จึงเป็นโหมดความล้มเหลวที่แท้จริง

การเรียกพยาธิสภาพอย่างรุนแรงเกินไปบนหน้าจอที่ปกติ เป็นรูปแบบความล้มเหลวที่มีการบันทึกไว้ของผู้ช่วยทางการแพทย์สำหรับผู้บริโภค (consumer-facing medical assistants) ค่าใช้จ่ายปลายทางรวมถึงการสืบค้นที่ไม่จำเป็น ความกังวลของผู้ป่วย และการตรวจรักษาที่ก่อให้เกิดอันตรายโดยไม่จำเป็น (iatrogenic workup) เคสกับดักสองเคสในเบนช์มาร์กนี้ถูกออกแบบมาเพื่อทำให้ความล้มเหลวแบบนั้นมองเห็นได้และให้คะแนนได้.

การเปรียบเทียบเคียงกัน: AI แบบไร้เดียงสาสร้างการติดเชื้อไวรัสตับอักเสบ (hepatitis) ในแผงตรวจของโรค Gilbert's syndrome เทียบกับเครื่องยนต์ Kantesti ที่ระบุความหลากหลายทางพันธุกรรมของ UGT1A1 ที่ไม่เป็นอันตรายได้อย่างถูกต้อง
รูปที่ 4: การออกแบบเคสกับดัก (trap-case design) เอนจินที่ติดป้าย Gilbert's syndrome ว่าเป็นตับอักเสบอย่างมั่นใจ หรือที่ “สร้าง” พยาธิสภาพระดับก้ำกึ่งบนหน้าจอที่ปกติเต็มที่ จะถูกลงโทษ — ไม่ใช่ให้รางวัลจากการฟังดูเหมือนทางคลินิก.

🟡 กับดัก 1 — BT-014-GILBERT

การนำเสนอ (Presentation). ชายอายุ 24 ปี มีบิลิรูบินรวม 2.4 mg/dL สัดส่วนทางตรงปกติ เอนไซม์ทรานส์อะมิเนสและอัลคาไลน์ฟอสฟาเตสอยู่ในช่วงค่ามาตรฐาน เรติคูโลไซต์ไม่พบความผิดปกติ และ haptoglobin กับ LDH ตัดภาวะเม็ดเลือดแดงแตก (haemolysis) ออก.

การอ่านผลอย่างถูกต้อง (Correct interpretation). Gilbert's syndrome — ความหลากหลายทางพันธุกรรม (polymorphism) ของ UGT1A1 ที่ไม่เป็นอันตราย การตีความไม่ควรเรียกใช้ตับอักเสบ โรคตับแข็ง ภาวะโลหิตจางจากเม็ดเลือดแดงแตก หรือการอุดตันทางเดินน้ำดี.

ผลลัพธ์ V11. คะแนนรวม 1.000 ไม่มีธงบ่งชี้การวินิจฉัยเกิน (over-diagnosis) ที่ถูกเฝ้าติดตามทั้งหกรายการปรากฏเป็นการวินิจฉัยที่ “ทำงานอยู่” (active diagnoses).

🟡 กับดัก 2 — BT-015-HEALTHY

การนำเสนอ (Presentation). หญิงอายุ 35 ปี กับแผงคัดกรองประจำที่มีพารามิเตอร์ 15 รายการ (routine screening panel) ตัววิเคราะห์ทุกตัว (analyte) อยู่ในช่วงค่าปกติอ้างอิงอย่างสบายใจ.

การอ่านผลอย่างถูกต้อง (Correct interpretation). การให้ความมั่นใจและการดูแลรักษาวิถีชีวิต การแปลผลไม่ควรสร้างภาวะผิดปกติระดับก้ำกึ่งขึ้นมาเพื่อให้ดูมีประโยชน์ทางคลินิก.

ผลลัพธ์ V11. คอมโพสิต 1.000 ไม่มีธงสัญญาณการวินิจฉัยเกินที่ถูกติดตามทั้งเจ็ดรายการ—เบาหวาน โลหิตจาง ภาวะไทรอยด์ทำงานต่ำ ไขมันในเลือดผิดปกติ ตับอักเสบ โรคไต และภาวะขาด—ปรากฏเป็นการวินิจฉัยที่กำลังเป็นอยู่.

ในทั้งสองกับดัก มีการตรวจธงสัญญาณการวินิจฉัยเกินที่ถูกติดตามทั้งหมด 13 รายการ ไม่มีรายการใดถูกกระตุ้น นี่คือผลลัพธ์ที่สำคัญที่สุดสำหรับแพทย์คนใดก็ตามที่กำลังพิจารณาใช้เครื่องมือ AI เป็นเครื่องมือคัดกรองหรือก่อนเข้าพบแพทย์: ระบบไม่ได้คิดค้นโรคขึ้นมาเมื่อไม่มีโรคนั้นอยู่.

ดัชนี Mentzer: แยกภาวะขาดธาตุเหล็กออกจากภาวะพาหะธาลัสซีเมีย

อีกหนึ่งผลการค้นพบที่มีมูลค่าสูงเกี่ยวกับการจับคู่เคส BT-001 (โลหิตจางจากการขาดธาตุเหล็ก) กับเคส BT-007 (เบต้า-ธาลัสซีเมียชนิดย่อย) ทั้งสองภาวะมีภาวะเม็ดเลือดแดงเล็ก (microcytosis) และเป็นอุปสรรคที่รู้จักกันดีสำหรับตัวจำแนกแบบมือใหม่ ดัชนี Mentzer คำนวณเป็น MCV หารด้วยจำนวนเม็ดเลือดแดง (RBC) จะมากกว่า 13 ในภาวะขาดธาตุเหล็ก และจะต่ำกว่า 13 ในภาวะธาลัสซีเมียแฝง.

ใน BT-001 ผู้ป่วยเป็นเพศหญิงอายุ 34 ปี มีค่าเฮโมโกลบิน 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, เฟอร์ริติน 6 ng/mL และมีค่า TIBC สูง ดัชนี Mentzer ประมาณ 17.7 สนับสนุนภาวะขาดธาตุเหล็กแบบแน่นอน ใน BT-007 ผู้ป่วยเป็นเพศชายอายุ 28 ปี มีภาวะเม็ดเลือดแดงเล็ก (MCV 65.8 fL) แต่มีจำนวน RBC สูง 6.2, RDW ปกติ, เฟอร์ริตินปกติ และ HbA2 5.6 เปอร์เซ็นต์ ดัชนี Mentzer ประมาณ 10.6 ชี้ไปที่ภาวะธาลัสซีเมียแฝง และ HbA2 ที่สูงยืนยันเบต้า-ธาลัสซีเมียชนิดย่อย.

โลหิตจางจากการขาดธาตุเหล็ก Mentzer > 13 เฟอร์ริตินต่ำ, TSAT ต่ำ, TIBC สูง, RDW สูง
ภาวะเบต้า-ธาลัสซีเมียแฝง Mentzer < 13 เฟอร์ริตินปกติ, RDW ปกติ, HbA2 สูง (>3.5%), จำนวน RBC สูง

ทั้งสองเคสได้คะแนน 1.000 เครื่องยนต์เรียกใช้ดัชนี Mentzer อย่างชัดเจนในการแปลผลทั้งสองครั้ง และให้การวินิจฉัยที่ถูกต้องในแต่ละครั้ง. นี่คือผลลัพธ์ที่ให้ความมั่นใจทางคลินิกมากที่สุดเพียงผลเดียวในบรรดาการทดสอบทั้งหมด, เพราะการจำแนกภาวะธาลัสซีเมียแฝงผิดเป็นภาวะขาดธาตุเหล็กจะนำไปสู่การเสริมธาตุเหล็กอย่างไม่เหมาะสมและพลาดโอกาสในการคัดกรองสุขภาพครอบครัว และการจำแนกภาวะขาดธาตุเหล็กผิดเป็นธาลัสซีเมียจะทำให้การรักษาทดแทนที่ตรงไปตรงมาล่าช้า Our ช่วงเฟอร์ริตินเป็นแนวทาง อธิบายบริบทการพิจารณาแยกโรคที่กว้างขึ้น.

ผลลัพธ์รายเคสจากรันเดือนเมษายน 2026

12 จาก 15 เคส ได้คะแนนคอมโพสิตสูงสุด 1.000 ในพาธหลัก 3 เคสถูกให้บริการผ่านการสำรองใน Phase 2 โดยเสียโบนัสความหน่วง 0.05 ขณะเดียวกันยังคงเนื้อหาเชิงคลินิกและโครงสร้างทั้งหมดไว้ เคสหนึ่งขาดหัวข้อย่อยที่จำเป็นเพียงหัวข้อเดียว อีกหนึ่งเคสได้ผลรวมการแจกแจงความน่าจะเป็นที่ลดลงเล็กน้อย.

รหัสเคส สาขาเฉพาะทาง คะแนนรวม ความหน่วง พาธ
BT-001-IDAโลหิตวิทยา1.00017.8 sprimary
BT-006-B12โลหิตวิทยา1.00018.4 วินาทีprimary
BT-007-THALโลหิตวิทยา1.00017.0 วินาทีprimary
BT-002-HASHต่อมไร้ท่อ0.95037.0 วินาทีกลับไปใช้ค่าเริ่มต้น
BT-008-PCOSต่อมไร้ท่อ0.98718.6 วินาทีprimary
BT-003-T2DMการเผาผลาญ1.00019.1 วินาทีprimary
BT-013-GOUTการเผาผลาญ1.00019.4 วินาทีprimary
BT-004-NAFLDสาขาตับวิทยา1.00019.6 วินาทีprimary
BT-009-VIRHEPสาขาตับวิทยา0.95023.4 วินาทีกลับไปใช้ค่าเริ่มต้น
BT-014-GILBERTกับดัก1.00018.9 วินาทีprimary
BT-005-CKDโรคไต1.00017.4 วินาทีprimary
BT-010-ASCVDโรคหัวใจและหลอดเลือด1.00019.7 วินาทีprimary
BT-011-SLEสาขารูมาติวิทยา0.98118.2 วินาทีprimary
BT-012-VITDต่อมไร้ท่อ1.00019.3 วินาทีprimary
BT-015-HEALTHYกับดัก1.00018.7 วินาทีกลับไปใช้ค่าเริ่มต้น

กรณี PCOS (BT-008) สูญเสียส่วนย่อยที่บังคับหนึ่งรายการในโครงสร้างการตอบกลับ — สิบห้าจากสิบหก แทนที่จะเป็นสิบหกจากสิบหก — ซึ่งทำให้คะแนนด้านโครงสร้างลดลงจาก 1.000 เป็น 0.963 กรณี SLE (BT-011) ส่งคืนผลรวมของการแจกแจงความน่าจะเป็นที่ลดลงเล็กน้อย ซึ่งทำให้คะแนนด้านคลินิกลดลงเหลือ 0.965 ขณะเดียวกันยังคงรักษาคีย์เวิร์ดการวินิจฉัยและระบบการให้คะแนนทุกอย่างไว้ ไม่มีกรณีที่ต่ำกว่ามาตรฐานเล็กน้อยกรณีใดพลาดการวินิจฉัยที่ถูกต้อง.

คะแนนหัวข้อไม่ได้บอกอะไรเราบ้าง

คะแนนรวม 99.12 เปอร์เซ็นต์ภายใต้รูบริกที่ลงทะเบียนไว้ล่วงหน้านี้โดยเฉพาะ แสดงถึงประสิทธิภาพใกล้ระดับเพดาน แต่ควรจัดกรอบอย่างรอบคอบ ผลลัพธ์อธิบายพฤติกรรมของเครื่องมือเทียบกับเคสที่ไม่ระบุตัวตนจำนวนสิบห้ารายที่คัดเลือกอย่างตั้งใจ ประเมินครั้งละครั้ง ภายใต้รูบริกเดียว เราระบุอย่างชัดเจนว่าตัวเลขนั้นบอกอะไรและไม่ได้บอกอะไร.

คะแนนบอกว่าเอนจิน V11 จัดการรูปแบบการวินิจฉัยที่เลือกไว้สำหรับการประเมินนี้ได้อย่างถูกต้อง ภายใต้วิธีการที่เผยแพร่และทำซ้ำได้ แต่มันไม่ได้บอกว่าเอนจินถูกต้องสำหรับแผงผลตรวจเลือดทุกแบบที่มีอยู่ในโลกจริง มันไม่ได้บอกว่าเอนจินควรมาแทนที่ดุลยพินิจของแพทย์ และไม่ได้บอกว่าเอนจินทำได้ดีกว่าระบบ AI ทางเลือก — การวิเคราะห์เปรียบเทียบกับเอนจินอื่นถูกกำหนดไว้อย่างจงใจว่าอยู่นอกขอบเขตของรายงานฉบับนี้.

สิ่งที่คะแนนทำให้ยืนยันได้คือเป็นค่าพื้นฐาน ด้วยรูบริกและชุดเครื่องมือที่เผยแพร่ เวอร์ชันในอนาคตของเอนจินสามารถประเมินเทียบกับเคสเดิมทั้งสิบห้ารายได้ และช่องว่างระหว่างคะแนนที่เผยแพร่กับการรันครั้งถัดไปใดๆ ก็สามารถวัดได้ด้วยตัวมันเอง นี่คือคุณค่าของการลงทะเบียนไว้ล่วงหน้า: มันแปลงข้อกล่าวอ้างด้านประสิทธิภาพให้เป็นข้อกล่าวอ้างที่ทดสอบได้.

วิธีทำซ้ำเกณฑ์มาตรฐานนี้ใน 10 นาที

การทำซ้ำต้องใช้เพียงคู่ข้อมูลรับรอง API Kantesti และสภาพแวดล้อมที่เป็น Python 3.10 หรือใหม่กว่า โดยมี requests และ reportlab ติดตั้งไลบรารีครบถ้วน ชุดเครื่องมือทั้งหมดเป็นโมดูล Python เดี่ยวที่มีในตัวเองและเผยแพร่ภายใต้สัญญาอนุญาต MIT.

แผนภาพเครือข่ายความสามารถในการทำซ้ำ (reproducibility) แสดงว่า benchmark ถูกสะท้อน (mirrored) ไปยัง Figshare, ResearchGate, Academia.edu และ GitHub โดยมี Figshare DOI เป็นจุดยึดหลัก (canonical anchor)
รูปที่ 5: ชุดเกณฑ์มาตรฐานถูกสะท้อนไปยังแพลตฟอร์มวิจัยสี่แห่ง DOI ของ Figshare คือรหัสระบุตัวตนทางวิชาการที่เป็นมาตรฐาน ResearchGate, Academia.edu และ GitHub โฮสต์สำเนาที่ขนานกันพร้อมทั้งโค้ดและข้อมูลดิบ.

สี่ขั้นตอนสำหรับการรันครั้งใหม่

หนึ่ง. โคลนที่เก็บข้อมูล: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. สอง. ติดตั้งทรัพยากรที่จำเป็นด้วย pip install -r requirements.txt. สาม. ตั้งค่า KANTESTI_USERNAME และ KANTESTI_PASSWORD เป็นตัวแปรสภาพแวดล้อม — ข้อมูลรับรองจะถูกอ่านขณะรัน และไม่มีการฝังโค้ดไว้ในสคริปต์. สี่. รัน python benchmark_bloodtest.py และตรวจสอบไฟล์ผลลัพธ์ 4 ชิ้นที่ถูกสร้างในไดเรกทอรีทำงาน: แผ่นสรุปคะแนนแบบ CSV, แผ่นสรุปคะแนนแบบ JSON, การดัมพ์ JSON แบบเต็มรวมถึงการตอบกลับดิบจากเอ็นจิน และรายงาน Markdown ที่อ่านได้ด้วยมนุษย์.

การรันอ้างอิงจากวันที่ 23 เมษายน 2026 ถูกเก็บไว้ใน results/ ภายในไดเรกทอรีของที่เก็บโค้ด (repository) การรันใหม่จะสร้างแผ่นสรุปคะแนนพร้อมเวลาประทับใหม่ ขณะที่การรันอ้างอิงจะไม่ถูกแตะต้อง หากการรันของคุณให้ผลลัพธ์ที่แตกต่างอย่างมีนัยสำคัญ โปรดเปิดปัญหาใน GitHub พร้อมเวลาประทับของการรันและเวอร์ชันของเอ็นจินที่ส่งกลับในข้อมูลเมตาของการตอบกลับ.

ข้อจำกัดและงานในอนาคต

มีข้อจำกัด 4 ประการที่ควรรับทราบอย่างชัดเจน ได้แก่ ขนาดกลุ่มตัวอย่าง การประเมินแบบครั้งเดียว ขอบเขตเอ็นจินเดียว และแหล่งที่มาของข้อมูลจากแหล่งเดียว แต่ละประเด็นกำลังได้รับการจัดการในงานติดตามผลอย่างต่อเนื่อง.

ขนาดกลุ่มตัวอย่าง. จำนวน 15 เคสใน 8 กลุ่มเฉพาะทางเพียงพอสำหรับการพิสูจน์แนวคิด แต่ไม่เพียงพอสำหรับการวิเคราะห์ย่อยภายในแต่ละสาขา มีแผนขยายเป็น 50 เคส และจะรวมแผงการแข็งตัวของเลือด การคัดกรองมะเร็งทางโลหิตวิทยา แผงการตั้งครรภ์ และเคสในเด็ก.

การประเมินแบบครั้งเดียว. แต่ละเคสถูกประเมินเพียงครั้งเดียว โมเดลภาษาขนาดใหญ่มีความแปรปรวนของผลลัพธ์ที่ไม่เล็กน้อย แม้ที่อุณหภูมิการสุ่มต่ำ ดังนั้นขั้นตอนถัดไปที่เป็นธรรมชาติคือใช้โปรโตคอลแบบรันหลายครั้ง โดยประเมิน 5 ครั้งต่อเคส และรายงานความแปรปรวนที่ได้.

ขอบเขตเอ็นจินเดียว. รายงานฉบับนี้อธิบายเอ็นจินเพียงหนึ่งตัว การวิเคราะห์เชิงเปรียบเทียบกับระบบ AI อื่นอยู่นอกขอบเขตที่นี่ เราอาจดำเนินการเป็นการศึกษาที่แยกต่างหากโดยใช้ระเบียบวิธีที่เหมาะสม.

แหล่งที่มาของข้อมูลจากแหล่งเดียว. ทั้ง 15 เคสเป็นเวชระเบียนผู้ป่วยจริงที่ถูกทำให้ไม่ระบุตัวตน โดยดึงมาจากคลังข้อมูลทางคลินิกแห่งเดียว ซึ่งเป็นกลุ่มตัวอย่างที่คัดสรรแล้ว ไม่ใช่การสุ่มที่เป็นตัวแทนของประชากร การขยายการประเมินไปยังหลายศูนย์กำลังอยู่ในแผนงาน.

ส่วนขยายที่มีผลกระทบมากที่สุดที่วางแผนไว้คือความเท่าเทียมหลายภาษา เอ็นจิน AI Kantesti ให้บริการผู้ใช้ใน 75+ ภาษา และการรันชุดทดสอบเดิมที่มี 15 เคสในภาษาตุรกี เยอรมัน สเปน ฝรั่งเศส และอาหรับ จะช่วยวัดคุณภาพผลลัพธ์ในแต่ละภาษาที่เอ็นจินรองรับ เราจะเผยแพร่การรันของแต่ละภาษาโดยมี DOI ของตัวเองและสาขา harness ของตัวเอง.