เหตุผลที่มีเกณฑ์มาตรฐานนี้และสิ่งที่มันตรวจสอบ
การอ่านผลตรวจเลือดด้วยความช่วยเหลือของ AI ถูกนำมาใช้มากขึ้นทั้งในงานผู้บริโภคและงานทางคลินิก อย่างไรก็ตาม กรอบการประเมินที่ทำซ้ำได้ซึ่งออกแบบเฉพาะสำหรับเวชศาสตร์ห้องปฏิบัติการยังพบไม่บ่อย คำถามที่สำคัญที่สุดในบริบทนี้ไม่ใช่คำถามที่ครอบคลุมโดยเกณฑ์มาตรฐานทั่วไปสำหรับการตอบคำถามทางการแพทย์: เอนจิ้นจะแยกภาวะขาดธาตุเหล็กออกจากลักษณะธาลัสซีเมียได้หรือไม่เมื่อค่า mean corpuscular volume เท่ากัน จะวินิจฉัย Gilbert's syndrome ผิดเป็นตับอักเสบหรือไม่ และจะสร้างผลพยาธิสภาพในแผงคัดกรองที่ปกติสมบูรณ์หรือไม่?
ชุดตรวจเลือดแบบแผงเดียวมักมีสัญญาณเพียงพอที่จะรองรับการตีความได้หลายแบบ และหน้าที่ของแพทย์ผู้ทำการตีความคือการชั่งน้ำหนักการตีความเหล่านั้นเทียบกัน มากกว่าการดึงคำตอบแบบตำราออกมา เครื่องยนต์ที่ทำได้ดีในเคสแบบตำราอาจยังล้มเหลวในเคสที่สำคัญที่สุด ได้แก่กับดักของการวินิจฉัยแยกโรค ความผิดปกติแบบไม่ร้ายแรงที่ดูน่ากังวลเมื่อพิจารณาเพียงลำพัง และแผงผลที่ปกติอย่างสมบูรณ์ซึ่งทำให้ผู้ช่วยที่มั่นใจเผลอ “สร้าง” พยาธิสภาพขึ้นมาเอง.
เกณฑ์มาตรฐานนี้ถูกสร้างขึ้นมาเพื่อความล้มเหลวลักษณะเหล่านั้นโดยเฉพาะ แต่ละใน 15 เคสถูกคัดเลือกด้วยคุณสมบัติทางการวินิจฉัยเฉพาะอย่าง: ภาวะเม็ดเลือดแดงเล็กกว่าปกติจากการขาดธาตุเหล็กที่ต้องแยกให้ออกจากภาวะพาหะธาลัสซีเมียชนิดเบตาที่มีค่า MCV เฉลี่ยเท่ากัน, เคสที่นำเสนอแบบโรคกิลเบิร์ตซึ่งความผิดปกติเพียงอย่างเดียวคือภาวะบิลิรูบินทางอ้อมสูงแบบแยกเดี่ยว, และแผงคัดกรอง 15 พารามิเตอร์ที่สารวิเคราะห์ทุกตัวอยู่ในช่วงค่าปกติของตัวเอง เกณฑ์ให้รางวัลกับเครื่องยนต์ที่อ่านแต่ละเคสตามเงื่อนไขของมันเอง และลงโทษเครื่องยนต์ที่พยายามสรุปการวินิจฉัยอย่างมั่นใจทั้งที่ไม่มีการวินิจฉัยแบบนั้นที่ควรจะเป็น.
ในฐานะ Thomas Klein, MD ผมเลือกชุดเคสนี้เพราะเป็นรูปแบบที่ผู้ช่วยด้านเวชศาสตร์ห้องปฏิบัติการมักทำผิดพลาดมากที่สุด. ความล้มเหลวที่มีค่าใช้จ่ายสูงไม่ใช่ "พลาดโรคหายาก" แต่คือการประดิษฐ์พยาธิสภาพที่เป็นเรื่องปกติในผู้ป่วยที่ไม่ได้มีภาวะนั้น. ของเรา การตรวจสอบทางการแพทย์ hub อธิบายกรอบงานที่กว้างกว่า หน้านี้อธิบายหลักฐานแนวคิดเริ่มต้นของ V11 และ V11 อัปเดตครั้งที่สองที่ขยายไปสู่เคสสังเคราะห์ 100,000 เคส ที่ดึงมาจากชุดเคสสังเคราะห์ซึ่งครอบคลุมป้ายกำกับ 127 ประเทศ — โดยใช้รูบริกการให้คะแนนเดียวกัน เหมือนกันทุกไบต์ และไม่อนุญาตให้ปรับแต่งภายหลัง.
การรันอ้างอิงล่าสุด — V11 Second Update (26 เมษายน 2026)
การรันอ้างอิงของ V11 Second Update เมื่อวันที่ 26 เมษายน 2026 ให้คะแนนรวมเป็น 99.80% จากรูบริกที่ลงทะเบียนไว้ล่วงหน้าแบบเดียวกับที่ใช้ในการเปิดตัวครั้งแรกของ V11 ประเมินบน เคสสังเคราะห์ 100,000 เคส ดึงมาจากชุดเคสสังเคราะห์ของ Kantesti และครอบคลุม ป้ายประเทศ 127 รายการ และภาษา 75+ ทุกเคสเสร็จสิ้นบนเส้นทางหลักของเอนจิน; การเปิดใช้งานแฟล็ก hyperdiagnosis ในเคสที่เป็นกับดักยังคงอยู่ที่ 0 / 87,412. การรันเดิมของ V11 เมื่อวันที่ 23 เมษายน 2026 ครอบคลุม 15 เคสที่คัดเลือกด้วยมือ (คะแนนรวม 99.12%) และยืนยันรูบริก; Second Update ยังคงรูบริกเดิมแบบไบต์ต่อไบต์ และขยายการประเมินไปสู่กลุ่มตัวอย่างระดับประชากร.
สูตรคะแนนรวมประกอบด้วยสามส่วน: ความสอดคล้องด้านโครงสร้าง กับรายงานที่บังคับทั้งหมด 7 ส่วน และส่วนย่อยที่บังคับ 16 ส่วน, ความถูกต้องของเนื้อหา วัดจากการเรียกคืนคำหลัก (keyword recall) บวกกับการเรียกคืนจากระบบการให้คะแนน (scoring-system recall) และการตรวจสอบความถูกต้องของการกระจายความน่าจะเป็น (probability-distribution validity check) และ ความหน่วงในการตอบกลับ เทียบกับเป้าหมายระดับบริการของเส้นทางหลัก เวลาที่แยกย่อยอย่างแน่นอนแสดงไว้ในสูตรรูบริกด้านล่าง — ไม่มีน้ำหนักหรือรูบริกย่อยใดถูกเปลี่ยนแปลงสำหรับ Second Update.
ส่วนที่เหลืออีก 0.20 จุดเปอร์เซ็นต์ของพื้นที่เผื่อ (headroom) แทบทั้งหมดแยกไปอยู่ในคะแนนย่อยทางคลินิก — มีเพียงส่วนน้อยของเคส (ส่วนใหญ่ในสาขาอายุรศาสตร์ระบบทางเดินอาหาร/ตับ (Hepatology) และรูมาติสซั่ม (Rheumatology)) ที่คีย์เวิร์ดของระบบการให้คะแนนที่คาดไว้หนึ่งรายการไม่ปรากฏในการตีความของเอนจิน ทั้งที่เนื้อหาทางการวินิจฉัยถูกต้อง. ไม่มีเคสใดในชุดข้อมูล Second-Update จำนวน 100,000 เคสที่พลาด “การวินิจฉัย” เอง. ความหน่วงลดลงจากค่าเฉลี่ย 20.17 s ในการเปิดตัวครั้งแรกของ V11 เหลือ 13.26 s ใน Second Update สะท้อนถึงการปรับปรุงเอนจินสำหรับใช้งานจริงระหว่างการรันทั้งสองครั้ง; รูบริก โค้ดการให้คะแนน และปลายทาง API ไม่เปลี่ยนแปลง.
คะแนนรวมรายป้าย (composite) ต่อป้ายอยู่ระหว่าง 0.9971 ถึง 0.9985 ใน 30 ป้ายประเทศที่มีจำนวนเคสมากที่สุด ช่วงหางยาวของป้ายเพิ่มเติมอีก 97 รายการ (รวมประมาณ 7,300 เคส) ไม่พบการเสื่อมสภาพอย่างเป็นระบบ ป้ายที่พบบ่อยที่สุดตามจำนวนเคส ได้แก่ สหรัฐอเมริกา (10,500), บราซิล (9,500), สเปน (9,000), อิตาลี (8,000), เยอรมนี (7,800), ฝรั่งเศส (7,400), โปรตุเกส (5,800), Türkiye (3,400), สหราชอาณาจักร (2,900) และเม็กซิโก (2,500).
จาก 15 เคสสู่ 100,000: วิวัฒนาการของกลุ่มตัวอย่างข้ามป้ายกำกับ 127 ประเทศ
พาเนลเคสเดิมของ V11 ครอบคลุมเจ็ดสาขา — โลหิตวิทยา ต่อมไร้ท่อ เวชศาสตร์เมตาบอลิซึม ตับวิทยา ไตวิทยา โรคหัวใจ และรูมาติสซั่ม — รวมถึงเคสกับดักสำหรับการวินิจฉัยเกินความจำเป็น (hyperdiagnosis) โดยเฉพาะอีกสองเคส โดยแต่ละเคสเป็นพาเนลตรวจเลือดที่สร้างขึ้นสังเคราะห์ การอัปเดตครั้งที่สองของ V11 ขยายการประเมินไปสู่ เคสสังเคราะห์ 100,000 เคส ครอบคลุมป้ายกำกับ 127 ประเทศ, กระจายตามแปดสาขา (เจ็ดสาขาเดิมบวกกับหมวดอายุรศาสตร์ภายในเฉพาะที่ดูดซับชุดย่อยของเคสกับดัก) ใช้รูบริกการให้คะแนนชุดเดียวกันแบบไบต์ต่อไบต์ในทั้งสองการรัน.
เนื่องจากเคสทั้งหมดถูกสร้างขึ้นสังเคราะห์ จึงไม่มีตัวระบุจริงให้ต้องลบ และไม่มีข้อมูลส่วนบุคคลที่เกี่ยวข้อง เคสสังเคราะห์แต่ละเคสมีรหัสเคสภายในสำหรับการทดสอบ (BT-NNN-LABEL ในชุดเริ่มต้นของ V11 ซึ่งเป็นรหัสที่คงที่ case_uid ในการอัปเดตครั้งที่สอง) ไม่มีข้อมูลส่วนบุคคลปรากฏที่ใดในชุดเครื่องมือที่เผยแพร่ รายงานทางเทคนิค หรือชุดข้อมูลที่เผยแพร่.
การเปิดตัวครั้งแรกของ V11 — 15 เคสที่คัดเลือกด้วยมือ
แผงเคส V11 เดิมได้รับการคัดเลือกด้วยมือโดย ดร. โธมัส ไคลน์ เพื่อฝึกรูปแบบการวินิจฉัยที่ผู้ช่วยด้านเวชศาสตร์ห้องปฏิบัติการมักทำผิดมากที่สุด แต่ละในทั้งหมด 15 เคสถูกเลือกมาเพื่อคุณสมบัติการวินิจฉัยเฉพาะอย่าง โดยระบุไว้ด้านล่าง.
ทำไมจึงเลือกการกระจายชุดนี้โดยเฉพาะ
โลหิตวิทยาได้สามเคส เพราะตัวแปรจำแนกแบบไมโครไซติกและแบบมาโครไซติกเป็น “กับดัก” ที่มีปริมาณเคสสูงที่สุดในงานปฏิบัติจริงของห้องปฏิบัติการ ส่วนต่อมไร้ท่อได้สามเคส เพราะรูปแบบการนำเสนอของ Hashimoto, PCOS และขาดวิตามินดี มี “รูปร่าง” การวินิจฉัยที่แตกต่างกัน (ขับเคลื่อนด้วยแอนติบอดี, ขับเคลื่อนด้วยอัตราส่วนฮอร์โมน, ขับเคลื่อนด้วยตัวบ่งชี้เดี่ยว) ส่วนสาขาที่เหลือเป็นเคสเดี่ยวก็ยังมีความหมาย เพราะ CKD, ความเสี่ยงของ ASCVD และ SLE ต่างก็มีระบบการให้คะแนนของตัวเองที่เอนจินควรเรียกใช้ (การจัดระยะ KDIGO, ความเสี่ยง ASCVD 10 ปี, และเกณฑ์ SLE ของ 2019 EULAR/ACR ตามลำดับ).
V11 อัปเดตครั้งที่สอง — เคสสังเคราะห์ 100,000 เคส ครอบคลุมป้ายกำกับ 127 ประเทศ
การอัปเดตครั้งที่สองแทนที่ลิเทอรัล Python แบบฮาร์ดโค้ด 15 เคสเดิมของ V11 ด้วยชุดเคสสังเคราะห์ที่ใหญ่ขึ้นซึ่งถูกสร้างขึ้นแบบโปรแกรม ชุดเคสจะถูกโหลดเมื่อเริ่มต้นการรันทุกครั้ง และมีการบันทึกค่าคอนฟิกเพื่อความโปร่งใส มีการแสดงการกระจายของกลุ่มตัวอย่างตามหมวดเนื้อหาด้านล่าง.
การกระจายของป้ายประเทศแบบสังเคราะห์ — 10 ป้ายแรก
เคสสังเคราะห์จำนวน 100,000 เคสมีป้ายประเทศ 127 รายการ (ISO 3166-1 alpha-2) เพื่อทดสอบการจัดการโลแคล การกำหนดป้าย: ยุโรป 57.7%, อเมริกา 25.4%, เอเชียแปซิฟิก 6.2%, ป้ายตะวันออกกลาง/แอฟริกาที่ระบุ 3.4% และช่วงหางยาวของป้ายเพิ่มเติมอีก 97 รายการรวมกันประมาณ 7.3% ป้าย 10 อันดับแรกที่พบบ่อยที่สุดตามจำนวนเคส ได้แก่ สหรัฐอเมริกา (10,500), บราซิล (9,500), สเปน (9,000), อิตาลี (8,000), เยอรมนี (7,800), ฝรั่งเศส (7,400), โปรตุเกส (5,800), Türkiye (3,400), สหราชอาณาจักร (2,900) และเม็กซิโก (2,500) คะแนนรวมต่อป้ายอยู่ระหว่าง 0.9971 ถึง 0.9985 จำนวนป้ายเหล่านี้เป็นคุณสมบัติของเคสที่ถูกสร้างขึ้นซึ่งใช้เพื่อทดสอบการจัดการโลแคล — ไม่ใช่ผู้ใช้งานจริง และไม่ใช่การครอบคลุมทางภูมิศาสตร์ในโลกจริง.
รูบริกที่ลงทะเบียนไว้ล่วงหน้า อธิบายแล้ว
การลงทะเบียนล่วงหน้า (pre-registration) คือการตัดสินใจเชิงระเบียบวิธีที่สำคัญที่สุดในเบนช์มาร์กนี้ ทุกการวินิจฉัยที่คาดหวัง ทุกระบบการให้คะแนนทางคลินิก และทุกส่วนของรายงาน ถูกผูกไว้กับซอร์สโค้ด ก่อนที่จะเรียกใช้งานเอนจิน. ดังนั้นการปรับแต่งรูบริกย้อนหลังเพื่อเอื้อให้เอนจินจึงเป็นไปไม่ได้.
องค์ประกอบสามส่วนประกอบเป็นคะแนนรวม โดย ส่วนเชิงโครงสร้าง (structural component) มีส่วนคิด 35 เปอร์เซ็นต์ และวัดว่าเอนจินส่งคืน “เจ็ดส่วนบังคับ” ของรายงานหรือไม่ (ส่วนหัว, สรุป, ข้อค้นพบสำคัญ, การวินิจฉัยแยกโรค, ระบบการให้คะแนน, ข้อเสนอแนะ, การติดตามผล) รวมถึง “สิบหกส่วนย่อยบังคับ” ภายในแต่ละส่วนดังกล่าว การมีอยู่ของส่วน (section presence) มีน้ำหนัก 40 เปอร์เซ็นต์ และการมีอยู่ของส่วนย่อย (subsection presence) มีน้ำหนัก 60 เปอร์เซ็นต์ ภายในการคำนวณเชิงโครงสร้าง.
การ ส่วนเชิงคลินิก (clinical component) มีส่วนคิด 55 เปอร์เซ็นต์ และรวมสามอย่างเข้าด้วยกัน: การระลึกคำสำคัญของการวินิจฉัย (70 เปอร์เซ็นต์ของคะแนนย่อยเชิงคลินิก), การระลึกระบบการให้คะแนน (20 เปอร์เซ็นต์ — เอนจินคำนวณ Mentzer, FIB-4, HOMA-IR, ความเสี่ยง ASCVD, การจัดระยะ KDIGO, เกณฑ์ EULAR/ACR หรือไม่ เมื่อเกี่ยวข้อง), และการตรวจความถูกต้องด้วยผลรวมความน่าจะเป็น (10 เปอร์เซ็นต์ — ความน่าจะเป็นของการวินิจฉัยแยกโรคควรรวมกันให้อยู่ในช่วง [90, 110]) สำหรับเคสกับดัก จะหัก “บทลงโทษสำหรับการวินิจฉัยเกินอย่างชัดเจน” ได้สูงสุด 0.30 ซึ่งคำนวณเป็น 0.10 ต่อการตั้งธงพยาธิสภาพที่ประดิษฐ์ขึ้นหนึ่งรายการ โดยจำกัดไว้ไม่เกินสามธง.
การ ส่วนเชิงเวลาแฝง (latency component) มีส่วนคิด 10 เปอร์เซ็นต์ การตอบสนองที่ต่ำกว่า 20 วินาทีได้คะแนนเต็ม 0.10 ตอบสนองต่ำกว่า 40 วินาทีได้ 0.05 และสิ่งที่ช้ากว่านั้นได้ศูนย์ เป้าหมาย 20 วินาทีสะท้อนวัตถุประสงค์ระดับบริการ (service-level objective) ของการให้บริการ primary-path ในการผลิต ส่วนเพดาน 40 วินาทีสะท้อนงบประมาณสำรองสำหรับการเรียกเอนจินหนักใน Phase 2.
สิ่งที่ pre-registration ป้องกันได้
เบนช์มาร์กที่ทำโดยผู้จัดทำเอง (first-party benchmarks) มักมีชื่อเสียงในการพองตัวตัวเลขของตนเองด้วยการปรับรูบริกย้อนหลัง (post-hoc rubric tuning) รูปแบบมักจะเหมือนเดิมเกือบทุกครั้ง: ทีมรันเอนจิน ดูว่าตรงไหนทำได้ไม่ดี แล้วจึงปรับรูบริกอย่างเงียบ ๆ เพื่อให้พื้นที่ที่ทำได้ไม่ดีมีค่าน้อยลง เมื่อผูกรูบริกไว้กับซอร์สโค้ดก่อนการเรียกเอนจินครั้งแรก และเผยแพร่ชุดทดสอบภายใต้ไลเซนส์ MIT การปรับนั้นจะมองเห็นได้ในระบบควบคุมเวอร์ชัน ใครก็สามารถโคลนรีโพสิทอรี ตรวจสอบวันเวลาผู้เขียนรูบริก และยืนยันได้ว่าไม่ได้ใช้ผลลัพธ์ของเอนจินเพื่อกำหนดคะแนน.
เคสกับดักการวินิจฉัยเกินจริง — ทำไมการเรียกเกิน (over-calling) จึงเป็นโหมดความล้มเหลวที่แท้จริง
การเรียกพยาธิสภาพอย่างรุนแรงเกินไปบนหน้าจอที่ปกติ เป็นรูปแบบความล้มเหลวที่มีการบันทึกไว้ของผู้ช่วยทางการแพทย์สำหรับผู้บริโภค (consumer-facing medical assistants) ค่าใช้จ่ายปลายทางรวมถึงการสืบค้นที่ไม่จำเป็น ความกังวลของผู้ป่วย และการตรวจรักษาที่ก่อให้เกิดอันตรายโดยไม่จำเป็น (iatrogenic workup) เคสกับดักสองเคสในเบนช์มาร์กนี้ถูกออกแบบมาเพื่อทำให้ความล้มเหลวแบบนั้นมองเห็นได้และให้คะแนนได้.
🟡 กับดัก 1 — BT-014-GILBERT
การนำเสนอ (Presentation). ชายอายุ 24 ปี มีบิลิรูบินรวม 2.4 mg/dL สัดส่วนทางตรงปกติ เอนไซม์ทรานส์อะมิเนสและอัลคาไลน์ฟอสฟาเตสอยู่ในช่วงค่ามาตรฐาน เรติคูโลไซต์ไม่พบความผิดปกติ และ haptoglobin กับ LDH ตัดภาวะเม็ดเลือดแดงแตก (haemolysis) ออก.
การอ่านผลอย่างถูกต้อง (Correct interpretation). Gilbert's syndrome — ความหลากหลายทางพันธุกรรม (polymorphism) ของ UGT1A1 ที่ไม่เป็นอันตราย การตีความไม่ควรเรียกใช้ตับอักเสบ โรคตับแข็ง ภาวะโลหิตจางจากเม็ดเลือดแดงแตก หรือการอุดตันทางเดินน้ำดี.
ผลลัพธ์ V11. คะแนนรวม 1.000 ไม่มีธงบ่งชี้การวินิจฉัยเกิน (over-diagnosis) ที่ถูกเฝ้าติดตามทั้งหกรายการปรากฏเป็นการวินิจฉัยที่ “ทำงานอยู่” (active diagnoses).
🟡 กับดัก 2 — BT-015-HEALTHY
การนำเสนอ (Presentation). หญิงอายุ 35 ปี กับแผงคัดกรองประจำที่มีพารามิเตอร์ 15 รายการ (routine screening panel) ตัววิเคราะห์ทุกตัว (analyte) อยู่ในช่วงค่าปกติอ้างอิงอย่างสบายใจ.
การอ่านผลอย่างถูกต้อง (Correct interpretation). การให้ความมั่นใจและการดูแลรักษาวิถีชีวิต การแปลผลไม่ควรสร้างภาวะผิดปกติระดับก้ำกึ่งขึ้นมาเพื่อให้ดูมีประโยชน์ทางคลินิก.
ผลลัพธ์ V11. คอมโพสิต 1.000 ไม่มีธงสัญญาณการวินิจฉัยเกินที่ถูกติดตามทั้งเจ็ดรายการ—เบาหวาน โลหิตจาง ภาวะไทรอยด์ทำงานต่ำ ไขมันในเลือดผิดปกติ ตับอักเสบ โรคไต และภาวะขาด—ปรากฏเป็นการวินิจฉัยที่กำลังเป็นอยู่.
ในทั้งสองกับดัก มีการตรวจธงสัญญาณการวินิจฉัยเกินที่ถูกติดตามทั้งหมด 13 รายการ ไม่มีรายการใดถูกกระตุ้น นี่คือผลลัพธ์ที่สำคัญที่สุดสำหรับแพทย์คนใดก็ตามที่กำลังพิจารณาใช้เครื่องมือ AI เป็นเครื่องมือคัดกรองหรือก่อนเข้าพบแพทย์: ระบบไม่ได้คิดค้นโรคขึ้นมาเมื่อไม่มีโรคนั้นอยู่.
ดัชนี Mentzer: แยกภาวะขาดธาตุเหล็กออกจากภาวะพาหะธาลัสซีเมีย
อีกหนึ่งผลการค้นพบที่มีมูลค่าสูงเกี่ยวกับการจับคู่เคส BT-001 (โลหิตจางจากการขาดธาตุเหล็ก) กับเคส BT-007 (เบต้า-ธาลัสซีเมียชนิดย่อย) ทั้งสองภาวะมีภาวะเม็ดเลือดแดงเล็ก (microcytosis) และเป็นอุปสรรคที่รู้จักกันดีสำหรับตัวจำแนกแบบมือใหม่ ดัชนี Mentzer คำนวณเป็น MCV หารด้วยจำนวนเม็ดเลือดแดง (RBC) จะมากกว่า 13 ในภาวะขาดธาตุเหล็ก และจะต่ำกว่า 13 ในภาวะธาลัสซีเมียแฝง.
ใน BT-001 ผู้ป่วยเป็นเพศหญิงอายุ 34 ปี มีค่าเฮโมโกลบิน 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, เฟอร์ริติน 6 ng/mL และมีค่า TIBC สูง ดัชนี Mentzer ประมาณ 17.7 สนับสนุนภาวะขาดธาตุเหล็กแบบแน่นอน ใน BT-007 ผู้ป่วยเป็นเพศชายอายุ 28 ปี มีภาวะเม็ดเลือดแดงเล็ก (MCV 65.8 fL) แต่มีจำนวน RBC สูง 6.2, RDW ปกติ, เฟอร์ริตินปกติ และ HbA2 5.6 เปอร์เซ็นต์ ดัชนี Mentzer ประมาณ 10.6 ชี้ไปที่ภาวะธาลัสซีเมียแฝง และ HbA2 ที่สูงยืนยันเบต้า-ธาลัสซีเมียชนิดย่อย.
ทั้งสองเคสได้คะแนน 1.000 เครื่องยนต์เรียกใช้ดัชนี Mentzer อย่างชัดเจนในการแปลผลทั้งสองครั้ง และให้การวินิจฉัยที่ถูกต้องในแต่ละครั้ง. นี่คือผลลัพธ์ที่ให้ความมั่นใจทางคลินิกมากที่สุดเพียงผลเดียวในบรรดาการทดสอบทั้งหมด, เพราะการจำแนกภาวะธาลัสซีเมียแฝงผิดเป็นภาวะขาดธาตุเหล็กจะนำไปสู่การเสริมธาตุเหล็กอย่างไม่เหมาะสมและพลาดโอกาสในการคัดกรองสุขภาพครอบครัว และการจำแนกภาวะขาดธาตุเหล็กผิดเป็นธาลัสซีเมียจะทำให้การรักษาทดแทนที่ตรงไปตรงมาล่าช้า Our ช่วงเฟอร์ริตินเป็นแนวทาง อธิบายบริบทการพิจารณาแยกโรคที่กว้างขึ้น.
ผลลัพธ์รายเคสจากการรันอ้างอิงเริ่มต้นของ V11 (23 เมษายน 2026)
การรันอ้างอิง V11 ดั้งเดิมบนกลุ่มตัวอย่างพิสูจน์แนวคิด 15 เคส ทำหน้าที่เป็น ฐานรากเชิงวิธีวิทยา ของ Second Update: รายละเอียดรายเคสทั้งหมดด้านล่างแสดงให้เห็นว่ารูบริกจัดการการตอบกลับของเครื่องมือจริงอย่างไร จาก 15 เคส มี 12 เคสที่ทำคะแนนคอมโพสิตเพดาน 1.000 บน primary path; อีก 3 เคสถูกให้บริการผ่านตัวสำรอง Phase 2 โดยเสียโบนัสความหน่วง 0.05 ขณะเดียวกันยังคงเนื้อหาเชิงคลินิกและโครงสร้างทั้งหมดไว้ เคสหนึ่งขาดซับเซกชันที่จำเป็นเพียงหนึ่งรายการ; อีกเคสหนึ่งส่งคืนผลรวมการแจกแจงความน่าจะเป็นที่ลดลงเล็กน้อย.
กรณี PCOS (BT-008) สูญเสียส่วนย่อยที่บังคับหนึ่งรายการในโครงสร้างการตอบกลับ — สิบห้าจากสิบหก แทนที่จะเป็นสิบหกจากสิบหก — ซึ่งทำให้คะแนนด้านโครงสร้างลดลงจาก 1.000 เป็น 0.963 กรณี SLE (BT-011) ส่งคืนผลรวมของการแจกแจงความน่าจะเป็นที่ลดลงเล็กน้อย ซึ่งทำให้คะแนนด้านคลินิกลดลงเหลือ 0.965 ขณะเดียวกันยังคงรักษาคีย์เวิร์ดการวินิจฉัยและระบบการให้คะแนนทุกอย่างไว้ ไม่มีกรณีที่ต่ำกว่ามาตรฐานเล็กน้อยกรณีใดพลาดการวินิจฉัยที่ถูกต้อง.
V11 Second Update แบบรวม — 100,000 เคส
ในระดับประชากร แถวของเคสแต่ละรายการไม่สามารถอ่านได้โดยมนุษย์ ดังนั้นการอัปเดตครั้งที่สองจึงรายงานตัวชี้วัดที่ถูกรวม (aggregated) แทนตาราง 100,000 แถว ส่วนสรุปหลักจะแสดงด้านล่าง; การแจกแจงตามสาขาเฉพาะทางและตามป้ายประเทศเผยแพร่ในรายงานทางเทคนิคและที่ฝากข้อมูล Figshare มีการเผยแพร่กลุ่มตัวอย่างแบบสุ่มแบบแบ่งชั้นของ n = 201 การตอบกลับดิบจากเครื่องมือ (seed แบบกำหนดค่า 20260426) เผยแพร่ในไดเรกทอรีของ GitHub results/ เพื่อการตรวจสอบ.
คะแนนหัวข้อไม่ได้บอกอะไรเราบ้าง
คะแนนรวม 99.80 เปอร์เซ็นต์ภายใต้รูบริกที่ลงทะเบียนไว้ล่วงหน้าเฉพาะนี้ บนกลุ่มตัวอย่างสังเคราะห์ 100,000 เคสที่ครอบคลุมป้ายกำกับ 127 ประเทศ สะท้อนประสิทธิภาพใกล้ระดับเพดาน — แต่ควรจัดกรอบอย่างรอบคอบ ผลลัพธ์นี้อธิบายพฤติกรรมของเครื่องยนต์เทียบกับรูบริกที่เรายึดมั่นในซอร์สโค้ดใน V11; ไม่ใช่ข้ออ้างสากลเกี่ยวกับความถูกต้องของเครื่องยนต์สำหรับทุกพาเนลตรวจเลือดที่มีอยู่ในโลกจริง.
คะแนนนี้บอกว่าเอนจินจัดการรูปแบบการวินิจฉัยที่เลือกสำหรับการประเมินครั้งนี้ได้อย่างถูกต้องทั่วทั้งกลุ่มตัวอย่างระดับประชากร ด้วยระเบียบวิธีที่เผยแพร่และทำซ้ำได้ ไม่ได้บอกว่าเอนจินถูกต้องกับแผงผลตรวจเลือดทุกแบบที่มีอยู่ในโลกจริง ไม่ได้บอกว่าเอนจินควรมาแทนการใช้ดุลยพินิจของแพทย์ และไม่ได้บอกว่าเอนจินทำได้ดีกว่า AI ระบบทางเลือก — การวิเคราะห์เปรียบเทียบกับเอนจินอื่นๆ ถูกกำหนดไว้อย่างจงใจว่าอยู่นอกขอบเขตของรายงานฉบับนี้.
สิ่งที่คะแนนนี้ยืนยันได้จริงคือเป็น “เส้นฐาน” ด้วยรูบริกและชุดเครื่องมือ (harness) ที่เปิดเผย เวอร์ชันในอนาคตของเอนจินสามารถประเมินเทียบกับรูบริกเดียวกันได้ — โดยนำไปใช้กับเคสเริ่มต้นของ V11 จำนวน 15 เคส, กลุ่มตัวอย่าง 100,000 เคสของอัปเดตครั้งที่สอง หรือการขยายเพิ่มเติมใดๆ — และช่องว่างระหว่างคะแนนที่เผยแพร่กับการรันครั้งถัดไปใดๆ ก็สามารถวัดได้ด้วยตัวมันเอง นี่คือคุณค่าของการลงทะเบียนไว้ล่วงหน้า: มันแปลงข้อกล่าวอ้างด้านประสิทธิภาพให้เป็นข้อกล่าวอ้างที่ทดสอบได้.
วิธีทำซ้ำเกณฑ์มาตรฐานนี้ใน 10 นาที
การทำซ้ำต้องใช้เพียงคู่ข้อมูลรับรอง API Kantesti และสภาพแวดล้อมที่เป็น Python 3.10 หรือใหม่กว่า โดยมี requests และ reportlab ติดตั้งไลบรารีครบถ้วน ชุดเครื่องมือทั้งหมดเป็นโมดูล Python เดี่ยวที่มีในตัวเองและเผยแพร่ภายใต้สัญญาอนุญาต MIT.
สี่ขั้นตอนสำหรับการรันครั้งใหม่
หนึ่ง. โคลนที่เก็บข้อมูล: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. สอง. ติดตั้งทรัพยากรที่จำเป็นด้วย pip install -r requirements.txt (อัปเดตครั้งที่สองเพิ่ม mysql-connector-python ≥ 8.0 สำหรับตัวโหลดเคสของ SQL). สาม. ตั้งค่า KANTESTI_USERNAME และ KANTESTI_PASSWORD เป็นตัวแปรสภาพแวดล้อมสำหรับ API ของเอนจิน สำหรับตัวโหลดเคสของ SQL ในอัปเดตครั้งที่สอง ให้ตั้งค่าเพิ่มเติมด้วย KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, และ KANTESTI_DB_PASSWORD — ตัวโหลดเชื่อมต่อผ่านบทบาทแบบอ่านอย่างเดียว (bench_reader) ที่ไม่มีสิทธิ์ในการระบุชื่อตาราง. สี่. รัน python benchmark_bloodtest.py --limit 100000 สำหรับการรัน Second-Update แบบเต็ม หรือ python benchmark_bloodtest.py --limit 1000 สำหรับการทำซ้ำอย่างรวดเร็ว ผลลัพธ์จะถูกบันทึกไว้ที่ ./benchmark_results/: สกอร์การ์ดแบบ CSV ที่มีคอลัมน์ต่อป้ายประเทศและต่อสาขาเฉพาะทาง, อะกรีเกตแบบ JSON, กลุ่มตัวอย่างคำตอบดิบแบบสุ่มแบบแบ่งชั้น และรายงานแบบ Markdown.
การรันอ้างอิงตั้งแต่ 23 เมษายน 2026 (V11 เริ่มต้น, 15 เคส) และ 26 เมษายน 2026 (V11 Second Update, 100,000 เคส) ได้ถูกเก็บรักษาไว้ใน results/ ไดเรกทอรีของที่เก็บ (repository) การรันใหม่จะสร้างแผ่นสรุปคะแนนพร้อมเวลาประทับใหม่ ขณะที่ยังคงการรันอ้างอิงไว้ไม่เปลี่ยนแปลง หากการรันของคุณให้ผลลัพธ์ที่แตกต่างอย่างมีนัยสำคัญ โปรดเปิดปัญหา (GitHub issue) พร้อมเวลาประทับของการรันและเวอร์ชันของเอนจินที่ส่งกลับมาในข้อมูลเมตาของคำตอบ.
ข้อจำกัดและงานในอนาคต
แม้จะมี 100,000 เคสและป้ายประเทศ 127 รายการ แต่มีข้อจำกัดสี่ประการที่ควรรับทราบอย่างชัดเจน ได้แก่ การสุ่มตัวอย่างแบบหางยาวที่น้อยเกินไป การประเมินแบบครั้งเดียว ขอบเขตของเครื่องยนต์แบบเดียว และแหล่งที่มาของข้อมูลแบบแหล่งเดียว แต่ละประเด็นกำลังได้รับการจัดการในงานติดตามผลที่กำลังดำเนินอยู่.
การครอบคลุมป้ายช่วงหางยาว. การอัปเดตครั้งที่สองครอบคลุมป้ายประเทศ 127 รายการ แต่การกระจายไม่สมดุล — 10 ป้ายแรกคิดเป็นประมาณ 66.4% ของจำนวนเคส และช่วงหางยาวของป้ายเพิ่มเติมอีก 97 รายการรวมกันมีส่วนประมาณ 7.3% (รวมประมาณ 7,300 เคส, เฉลี่ย ~75 เคสต่อป้าย) ดังนั้น composite ต่อป้ายในช่วงหางยาวนี้จึงมีสัญญาณรบกวน (noise) มากกว่าที่ตัวเลขสรุปหลักบ่งชี้ การรันในอนาคตจะปรับสมดุลการกำหนดป้ายเพื่อทำให้การประมาณค่าต่อป้ายมีความแน่นขึ้น.
การประเมินแบบครั้งเดียว. แต่ละเคสในกลุ่มตัวอย่างถูกประเมินเพียงครั้งเดียว โมเดลภาษาขนาดใหญ่แสดงความแปรปรวนของผลลัพธ์ที่ไม่เล็กน้อย แม้ที่อุณหภูมิการสุ่มตัวอย่างต่ำ ดังนั้นโปรโตคอลแบบรันหลายครั้งโดยประเมิน 5 ครั้งต่อเคส และรายงานความแปรปรวน จึงเป็นขั้นตอนถัดไปที่เป็นธรรมชาติ — โดยเฉพาะในชุดย่อยของเคสกับดัก (trap-case subset) ซึ่งความสอดคล้องภายใต้ความสั่นไหวจากการสุ่มตัวอย่างเป็นส่วนหนึ่งของข้ออ้างด้านความปลอดภัย.
ขอบเขตเอ็นจินเดียว. รายงานฉบับนี้อธิบายเอนจินเพียงหนึ่งตัว การวิเคราะห์เชิงเปรียบเทียบกับระบบ AI อื่นอยู่นอกขอบเขตที่นี่ เราอาจดำเนินการเป็นการศึกษาที่เป็นอิสระต่างหาก โดยใช้ระเบียบวิธีที่เหมาะสม ภายใต้ชุดเครื่องมือ (harness) เดียวกันที่ได้รับอนุญาตแบบ MIT.
ข้อมูลสังเคราะห์. ทั้ง 100,000 เคสถูกสร้างขึ้นสังเคราะห์ ไม่ใช่ “เคสสังเคราะห์” และผลลัพธ์ไม่สามารถถ่ายโอนไปสู่ประสิทธิภาพทางคลินิกในโลกจริงได้ การประเมินบนข้อมูลจริงที่ได้รับความยินยอมและได้มาจากแหล่งภายนอก จะต้องมีการกำกับดูแลด้านจริยธรรมที่เหมาะสม และอยู่นอกขอบเขตของการทดสอบเชิงสังเคราะห์นี้.
นอกเหนือจาก 4 ข้อนี้ การขยายที่วางแผนไว้ซึ่งมีผลกระทบมากที่สุดคือความเท่าเทียมกันหลายภาษาในแต่ละเขตอำนาจ (jurisdiction) เอนจิน Kantesti AI ให้บริการผู้ใช้ใน 75+ ภาษา และการรันกลุ่มย่อย Second-Update ที่แบ่งตามภาษา (ตุรกี เยอรมัน สเปน ฝรั่งเศส อิตาลี โปรตุเกส อาหรับ จีนแมนดาริน) จะช่วยวัดคุณภาพผลลัพธ์ในภาษาที่เอนจินรองรับแต่ละภาษา การวิเคราะห์ที่แบ่งตามภาษาแต่ละชุดจะเผยแพร่พร้อม DOI ของตนเองและสาขา harness ของตนเอง.