Vì sao chuẩn đánh giá này tồn tại và nó kiểm tra điều gì

Phân tích xét nghiệm máu AI có hỗ trợ đang ngày càng được sử dụng trong các quy trình làm việc cho người tiêu dùng và trong lâm sàng, tuy nhiên các khung đánh giá có thể tái lập được thiết kế riêng cho y học xét nghiệm vẫn còn hiếm. Những câu hỏi quan trọng nhất trong bối cảnh này không phải là những câu hỏi được bao phủ bởi các chuẩn đánh giá chung về hỏi-đáp y khoa: liệu một động cơ có thể tách thiếu sắt khỏi đặc điểm thalassemia khi thể tích trung bình hồng cầu là giống nhau hay không, có chẩn đoán quá mức hội chứng Gilbert như viêm gan hay không, và có tạo ra bệnh lý trong một bảng sàng lọc hoàn toàn bình thường hay không?

Sơ đồ luồng thang đo đã đăng ký trước cho thấy cách Động cơ AI Kantesti — Bản cập nhật thứ hai V11, điểm tổng hợp 99.80% trên 100.000 ca — được đánh giá dựa trên các tiêu chí chấm điểm đã “đóng băng”
Hình 1: Kiến trúc chuẩn hóa (benchmark) đứng sau Điểm tổng hợp 99.80% trong bản cập nhật thứ hai V11 — trên 100.000 ca — mọi ca, mọi từ khóa, mọi hệ thống chấm điểm đều được cố định trong mã nguồn trước khi động cơ nhìn thấy bất kỳ PDF nào, và thang chấm điểm (rubric) là đồng nhất theo từng byte với bản phát hành ban đầu V11. Việc tinh chỉnh thang chấm điểm sau (post-hoc) là không thể theo thiết kế.

Một bảng xét nghiệm máu đơn lẻ thường chứa đủ tín hiệu để hỗ trợ nhiều cách diễn giải cạnh tranh, và nhiệm vụ của bác sĩ lâm sàng đọc kết quả là cân nhắc các cách diễn giải đó với nhau thay vì tìm một câu trả lời “chuẩn theo sách giáo khoa”. Một “động cơ” làm tốt trên các ca mẫu theo sách vẫn có thể thất bại ở những ca quan trọng nhất: các bẫy trong chẩn đoán phân biệt, các biến thể lành tính trông có vẻ đáng lo nếu chỉ nhìn riêng lẻ, và những bảng xét nghiệm hoàn toàn bình thường khiến các trợ lý tự tin đi đến việc “tự chế” ra bệnh lý.

Chuẩn đánh giá này được xây dựng đúng dựa trên các kiểu thất bại đó. Mỗi trong số mười lăm ca được chọn cho một đặc tính chẩn đoán cụ thể: tình trạng hồng cầu nhỏ do thiếu sắt cần được phân biệt rõ với thể mang beta-thalassemia có cùng thể tích trung bình hồng cầu (MCV), một biểu hiện của hội chứng Gilbert trong đó bất thường duy nhất là tăng bilirubin gián tiếp đơn độc, và một bảng sàng lọc gồm mười lăm thông số trong đó mọi chỉ số phân tích đều nằm trong khoảng tham chiếu. Thang chấm thưởng cho các động cơ đọc từng ca theo đúng ngữ cảnh của nó và phạt các động cơ đưa ra chẩn đoán tự tin khi không có cơ sở cho chẩn đoán như vậy.

Với tư cách là Thomas Klein, MD, tôi đã chọn bộ ca này vì đây là những mẫu mà các trợ lý y học xét nghiệm thường sai nhất. Kiểu thất bại tốn kém không phải là "bỏ sót một bệnh hiếm" — mà là bịa đặt bệnh lý thường quy ở những bệnh nhân không hề mắc bệnh đó. Của chúng tôi Xác nhận y tế hub mô tả khung tổng thể; trang này mô tả bằng chứng khái niệm ban đầu V11 và Bản cập nhật lần thứ 2 V11 đã mở rộng nó lên 100.000 ca tổng hợp rút ra từ một bộ ca tổng hợp trải rộng 127 nhãn quốc gia — sử dụng cùng thang đo chấm điểm, giống hệt theo từng byte, không cho phép tinh chỉnh hậu kỳ (post-hoc).

Lần chạy tham chiếu mới nhất — Bản cập nhật thứ hai V11 (ngày 26 tháng 4 năm 2026)

Lần chạy tham chiếu của Bản cập nhật thứ hai V11 vào ngày 26 tháng 4 năm 2026 tạo ra điểm tổng hợp là 99.80% trên cùng thang chấm điểm đã đăng ký trước (pre-registered) được dùng trong bản phát hành ban đầu V11, được đánh giá trên 100.000 ca tổng hợp rút ra từ bộ ca tổng hợp Kantesti và trải rộng 127 nhãn quốc gia và các ngôn ngữ 75+. Mọi ca đều hoàn tất theo đường dẫn chính của động cơ; các lần kích hoạt cờ (flag) siêu chẩn đoán ở tình huống bẫy (trap-case) vẫn ở 0 / 87,412. Lần chạy V11 ban đầu vào ngày 23 tháng 4 năm 2026 bao phủ 15 ca được chọn lọc thủ công (composite 99.12%) và xác thực thang chấm điểm; Bản cập nhật thứ hai giữ nguyên thang chấm điểm đó đồng nhất theo từng byte và mở rộng việc đánh giá sang một nhóm quy mô quần thể.

Tổng hợp 99.80% 100.000 trên 100.000 ca được chấm điểm
1.000 Điểm cấu trúc
0.996 Điểm lâm sàng
13.26 s Độ trễ trung bình
0 / 87,412 Bẫy dương tính giả

Công thức tổng hợp kết hợp ba thành phần: phù hợp cấu trúc với bảy mục báo cáo bắt buộc và mười sáu mục con bắt buộc, độ chính xác nội dung được đo bằng khả năng ghi nhớ từ khóa cộng với khả năng ghi nhớ theo hệ thống chấm điểm, cùng với kiểm tra tính hợp lệ của phân phối xác suất, và độ trễ phản hồi so với mục tiêu mức dịch vụ (service-level) của đường dẫn chính. Phân rã chính xác được thể hiện trong công thức thang chấm điểm bên dưới — không có trọng số hay thang con (sub-rubrics) nào bị thay đổi cho Bản cập nhật thứ hai.

Tổng hợp = 0.35 × Cấu trúc + 0.55 × Lâm sàng + 0.10 × Độ trễ

Phần còn lại 0.20 điểm phần trăm “dư địa” (headroom) gần như hoàn toàn phân rã vào điểm phụ lâm sàng — một phần nhỏ các ca (chủ yếu ở Huyết học gan và Thấp khớp) có một từ khóa trong hệ thống chấm điểm kỳ vọng bị thiếu trong phần diễn giải của động cơ, dù nội dung chẩn đoán là đúng. Không có ca nào trong nhóm 100.000 ca của Bản cập nhật thứ hai bỏ sót chính chẩn đoán. Độ trễ (latency) được cải thiện từ mức trung bình 20.17 s ở bản phát hành ban đầu V11 xuống 13.26 s ở Bản cập nhật thứ hai, phản ánh các tối ưu hóa động cơ phục vụ sản xuất giữa hai lần chạy; thang chấm điểm, mã chấm điểm và điểm cuối API không thay đổi.

Điểm tổng hợp theo từng nhãn dao động từ 0.9971 đến 0.9985 trên 30 nhãn quốc gia được đại diện nhiều nhất. “Đuôi dài” của 97 nhãn bổ sung (tổng cộng ≈7.300 ca) không cho thấy sự suy giảm có hệ thống. Các nhãn xuất hiện thường xuyên nhất theo số lượng ca là Hoa Kỳ (10.500), Brazil (9.500), Tây Ban Nha (9.000), Ý (8.000), Đức (7.800), Pháp (7.400), Bồ Đào Nha (5.800), Türkiye (3.400), Vương quốc Anh (2.900) và Mexico (2.500).

Từ 15 ca đến 100.000: sự tiến hóa của tập đoàn trên 127 nhãn quốc gia

Bộ ca ban đầu của V11 bao phủ bảy chuyên khoa — huyết học, nội tiết, y học chuyển hóa, gan mật (hepatology), thận học, tim mạch, thấp khớp — cộng thêm hai ca “bẫy” chuyên biệt về tăng chẩn đoán (hyperdiagnosis), với mỗi ca là một bảng xét nghiệm máu được tạo tổng hợp. Bản cập nhật lần thứ 2 V11 mở rộng đánh giá đến 100.000 ca tổng hợp trên 127 nhãn quốc gia, được phân bổ qua tám chuyên khoa (bảy chuyên khoa ban đầu cộng thêm một nhóm nội khoa nội bộ chuyên biệt hấp thụ phần tập con bẫy). Cùng một thang chấm điểm được áp dụng đồng nhất theo từng byte cho cả hai lần chạy.

Thiết kế bảng ca (case-panel) ban đầu của V11 — mười lăm ca xét nghiệm máu tổng hợp trên bảy chuyên khoa y học, cộng với hai ca bẫy chẩn đoán quá mức; cùng một rubric đạt điểm tổng hợp 99,80% trên 100.000 ca trong V11 Second Update
Hình 2: Thiết kế bảng ca ban đầu V11 cho huyết học, nội tiết, y học chuyển hóa, gan mật, thận học, tim mạch, thấp khớp, cộng thêm hai ca bẫy — hội chứng Gilbert và một bảng sàng lọc hoàn toàn bình thường. Bản cập nhật thứ hai giữ nguyên thang chấm điểm này đồng nhất theo từng byte trong khi mở rộng nhóm lên 100.000 ca được rút ra từ kho lưu trữ SQL Kantesti.

Vì tất cả các ca đều được tạo tổng hợp, không có định danh thực để loại bỏ và không liên quan dữ liệu cá nhân. Mỗi ca tổng hợp mang một mã ca nội bộ cho chuẩn (BT-NNN-LABEL trong bộ ban đầu V11, một mã ổn định case_uid trong Bản cập nhật lần thứ 2). Không có dữ liệu cá nhân xuất hiện ở bất kỳ nơi nào trong bộ khung công bố, báo cáo kỹ thuật, hoặc các bộ dữ liệu đã phát hành.

bản phát hành ban đầu V11 — 15 ca được chọn lọc thủ công

Bảng ca V11 ban đầu được bác sĩ Thomas Klein tuyển chọn thủ công để khai thác các mẫu chẩn đoán mà các trợ lý y học xét nghiệm thường sai nhất. Mỗi trong số mười lăm ca được chọn cho một thuộc tính chẩn đoán cụ thể, được liệt kê bên dưới.

Huyết học (3) BT-001, BT-006, BT-007 Thiếu máu do thiếu sắt · Thiếu vitamin B12 · Thalassemia beta thể nhẹ
Nội tiết (3) BT-002, BT-008, BT-012 Viêm tuyến giáp Hashimoto · PCOS kèm đề kháng insulin · Thiếu vitamin D nặng
Chuyển hóa (2) BT-003, BT-013 T2DM kèm hội chứng chuyển hóa · Tăng acid uric máu kèm nguy cơ gout
Gan mật (2) BT-004, BT-009 NAFLD / NASH · Viêm gan siêu vi cấp
Thận học · Tim mạch · Thấp khớp (3) BT-005, BT-010, BT-011 Bệnh thận mạn giai đoạn 3 · Rối loạn lipid máu gây xơ vữa (atherogenic dyslipidaemia) · Lupus ban đỏ hệ thống
Các ca bẫy (2) BT-014, BT-015 Hội chứng Gilbert (tăng bilirubin gián tiếp đơn độc) · Sàng lọc người trưởng thành hoàn toàn bình thường

Vì sao lại có phân bố cụ thể này

Huyết học có ba trường hợp vì các chẩn đoán phân biệt kiểu vi hồng cầu (microcytic) và kiểu đại hồng cầu (macrocytic) là những “bẫy” có khối lượng công việc cao nhất trong thực hành xét nghiệm trong thế giới thực. Nội tiết có ba trường hợp vì các biểu hiện của bệnh Hashimoto, PCOS và thiếu vitamin D có các “dạng” chẩn đoán khác nhau (do tự kháng thể chi phối, do tỷ lệ hormone chi phối, do một dấu ấn đơn lẻ chi phối). Các chuyên khoa chỉ có một trường hợp vẫn có ý nghĩa vì mỗi tình trạng như CKD, nguy cơ ASCVD và SLE đều có hệ thống tính điểm riêng mà động cơ cần gọi (lần lượt là phân giai đoạn KDIGO, nguy cơ 10 năm ASCVD, và tiêu chí SLE EULAR/ACR năm 2019).

Bản cập nhật lần thứ 2 V11 — 100.000 ca tổng hợp trên 127 nhãn quốc gia

Bản cập nhật lần thứ 2 thay thế literal Python 15 ca được mã hóa cứng của V11 ban đầu bằng một bộ ca tổng hợp lớn hơn được tạo ra theo chương trình. Bộ ca được nạp ở đầu mỗi lần chạy và cấu hình được ghi log để minh bạch. Phân bố tập đoàn theo lĩnh vực nội dung được trình bày bên dưới.

Nội tiết học 23.900 ca (23.9%) Tuyến giáp, PCOS, vitamin D, trục sinh dục, tuyến yên
Y học chuyển hoá 21.900 ca (21.9%) T2DM, hội chứng chuyển hoá, bảng lipid, tăng acid uric máu
Huyết học 15.400 ca (15.4%) Phân loại vi hồng cầu và đại hồng cầu, B12/folate, các xét nghiệm về sắt
Chuyên khoa gan mật 12.400 ca (12.4%) NAFLD/NASH, viêm gan do virus, FIB-4, ứ mật
Nội khoa (bao gồm phân nhóm trap) 9.000 ca (9.0%) Biểu hiện hỗn hợp và 8.723 ca trap tăng chẩn đoán chuyên biệt
Tim mạch 7.500 ca (7.5%) Nguy cơ ASCVD, rối loạn lipid gây xơ vữa, hs-CRP
Chuyên khoa Thấp khớp 6.000 ca (6.0%) SLE, RA, viêm mạch, bảng tự kháng thể (tiêu chí EULAR/ACR)
Thận học 4.000 ca (4.0%) Phân giai đoạn CKD (KDIGO), xu hướng eGFR, rối loạn điện giải

Phân bố nhãn quốc gia tổng hợp — top 10 nhãn

100.000 ca tổng hợp mang 127 nhãn quốc gia (ISO 3166-1 alpha-2) để kiểm tra xử lý theo địa phương (locale handling). Gán nhãn: Châu Âu 57.7%, châu Mỹ 25.4%, châu Á-Thái Bình Dương 6.2%, các nhãn Trung Đông/Châu Phi được đặt tên 3.4%, và một “đuôi dài” gồm 97 nhãn bổ sung khác tổng cộng xấp xỉ 7.3%. Mười nhãn xuất hiện thường xuyên nhất theo số lượng ca là Hoa Kỳ (10.500), Brazil (9.500), Tây Ban Nha (9.000), Ý (8.000), Đức (7.800), Pháp (7.400), Bồ Đào Nha (5.800), Türkiye (3.400), Vương quốc Anh (2.900) và Mexico (2.500). Điểm tổng hợp theo từng nhãn dao động từ 0.9971 đến 0.9985. Các số lượng nhãn này là thuộc tính của các ca được tạo ra dùng để kiểm tra xử lý theo địa phương — chúng không phải người dùng thực và không phải phạm vi địa lý ngoài đời thực.

Rubric đã đăng ký trước, được giải thích

Đăng ký trước (pre-registration) là lựa chọn phương pháp luận quan trọng nhất trong chuẩn đánh giá này. Mọi chẩn đoán kỳ vọng, mọi hệ thống tính điểm lâm sàng và mọi mục trong báo cáo đều được cam kết vào mã nguồn trước khi động cơ được kích hoạt. Do đó, việc tinh chỉnh hậu kiểm (post-hoc) thang đo để “làm đẹp” cho động cơ là không thể.

Ba thành phần tạo nên điểm tổng hợp. Thành phần cấu trúc đóng góp 35% và đo việc động cơ có trả về bảy mục báo cáo bắt buộc hay không (tiêu đề, tóm tắt, phát hiện chính, chẩn đoán phân biệt, hệ thống tính điểm, khuyến nghị, theo dõi) và mười sáu mục con bắt buộc nằm trong đó. Sự hiện diện của mục chiếm 40% và sự hiện diện của mục con chiếm 60% trong phép tính cấu trúc.

Các thành phần lâm sàng đóng góp 55% và kết hợp ba yếu tố: ghi nhớ từ khóa chẩn đoán (70% điểm phụ lâm sàng), ghi nhớ hệ thống tính điểm (20% — động cơ có tính Mentzer, FIB-4, HOMA-IR, nguy cơ ASCVD, phân giai đoạn KDIGO, tiêu chí EULAR/ACR khi phù hợp hay không), và kiểm tra tính hợp lệ tổng xác suất (10% — các xác suất trong chẩn đoán phân biệt phải cộng lại nằm trong khoảng [90, 110]). Với các ca “bẫy”, sẽ trừ một hình phạt siêu chẩn đoán (hyperdiagnosis) rõ ràng lên đến 0,30, được tính là 0,10 cho mỗi cờ bệnh lý được bịa ra, tối đa ba cờ.

Các thành phần độ trễ đóng góp 10%. Phản hồi dưới 20 giây nhận toàn bộ 0,10; dưới 40 giây nhận 0,05; và bất kỳ phản hồi nào chậm hơn nhận 0. Mốc 20 giây phản ánh mục tiêu mức dịch vụ (service-level objective) cho phần sản xuất dịch vụ đường chính; trần 40 giây phản ánh ngân sách dự phòng cho Giai đoạn 2 đối với các lần gọi động cơ nặng.

Ảnh chụp màn hình cuối cùng của bộ khung chuẩn đánh giá Kantesti theo giấy phép MIT đang chạy và phát ra điểm theo từng ca — cùng bộ khung, hiện do SQL điều khiển, đã tạo ra điểm tổng hợp 99.80% trong lần chạy 100.000 ca của Bản cập nhật thứ hai V11
Hình 3: Hệ thống chạy trong thực thi — cùng một động cơ đã tạo ra điểm tổng hợp 99.80% trong đoàn hệ 100,000 ca của V11 Second Update. Mỗi ca được kết xuất thành tệp PDF A4, đăng lên endpoint sản xuất v11, và được chấm dựa trên bộ tiêu chí đã “đóng băng”. Second Update bổ sung bộ nạp trường hợp SQL có tham số; một mẫu ngẫu nhiên phân tầng các phản hồi thô của động cơ (n = 201) được lưu cùng với bảng tổng hợp điểm.

Điều mà đăng ký trước ngăn chặn

Các chuẩn đánh giá do chính bên thứ nhất (first-party) thực hiện nổi tiếng vì có thể thổi phồng số liệu của họ thông qua tinh chỉnh thang đo hậu kiểm. Mẫu hình gần như luôn giống nhau: nhóm chạy động cơ, xem chỗ nào kém, rồi lặng lẽ điều chỉnh thang đo để các khu vực kém đó được tính ít hơn. Bằng cách cam kết thang đo vào mã nguồn trước lần gọi động cơ đầu tiên và công bố bộ khung dưới giấy phép MIT, sự điều chỉnh này trở nên nhìn thấy được trong hệ thống quản lý phiên bản. Bất kỳ ai cũng có thể clone kho mã, kiểm tra ngày tác giả của thang đo, và xác minh rằng kết quả của động cơ không được dùng để định hình việc chấm điểm.

Các ca “bẫy chẩn đoán quá mức” — vì sao việc gọi quá nhiều mới là chế độ thất bại thực sự

Việc gọi quá mức (over-calling) bệnh lý một cách hung hăng trên các màn hình bình thường là một kiểu thất bại đã được ghi nhận của các trợ lý y tế hướng tới người tiêu dùng. Chi phí phát sinh ở phía sau bao gồm điều tra không cần thiết, lo lắng của bệnh nhân và thăm khám/đánh giá do can thiệp y khoa (iatrogenic workup). Hai ca “bẫy” trong chuẩn đánh giá này được thiết kế để làm lộ và có thể chấm điểm cho kiểu thất bại đó.

So sánh song song một AI ngây thơ bịa viêm gan trên bảng hội chứng Gilbert với động cơ Kantesti xác định đúng đa hình UGT1A1 lành tính — phương pháp đã được mở rộng để đạt 0 dương tính giả trên 87.412 cơ hội gắn cờ bẫy trong chuẩn đánh giá 99.80% của Bản cập nhật thứ hai V11
Hình 4: Thiết kế “bẫy-ca” từ bản phát hành ban đầu V11 — một động cơ tự tin gán hội chứng Gilbert là viêm gan, hoặc tạo ra bệnh lý ở mức ranh giới trên một màn hình hoàn toàn bình thường, sẽ bị phạt thay vì được thưởng vì phát âm như một nhận định lâm sàng. Phương pháp này được mở rộng để 0 / 87,412 tạo ra các dương tính giả trong lần chạy V11 Second Update 100,000 ca, lần chạy đã tạo ra điểm tổng hợp 99.80%.

🟡 Bẫy 1 — BT-014-GILBERT

Biểu hiện. Nam 24 tuổi với bilirubin toàn phần 2,4 mg/dL. Phân suất trực tiếp bình thường, transaminase và phosphatase kiềm nằm trong giới hạn tham chiếu, hồng cầu lưới không có gì đáng chú ý, và haptoglobin cùng LDH loại trừ tan máu.

Cách giải thích đúng. Hội chứng Gilbert — một đa hình lành tính của UGT1A1. Phần giải thích không được viện dẫn viêm gan, xơ gan, thiếu máu tan máu hoặc tắc nghẽn đường mật.

Kết quả V11. Tổng hợp 1,000. Không có bất kỳ cờ quá chẩn đoán nào trong sáu cờ được theo dõi xuất hiện như chẩn đoán đang hoạt động.

🟡 Bẫy 2 — BT-015-HEALTHY

Biểu hiện. Nữ 35 tuổi với bảng sàng lọc thường quy gồm mười lăm tham số. Mọi chất phân tích đều nằm thoải mái trong khoảng tham chiếu của chúng.

Cách giải thích đúng. Sự trấn an và duy trì lối sống. Phần giải thích không nên bịa ra bệnh lý ranh giới chỉ để nghe có vẻ hữu ích về mặt lâm sàng.

Kết quả V11. Tổng hợp 1.000. Không có bất kỳ cờ cảnh báo chẩn đoán quá mức nào trong bảy cờ được theo dõi — đái tháo đường, thiếu máu, suy giáp, rối loạn lipid máu, viêm gan, bệnh thận, thiếu hụt — xuất hiện như chẩn đoán đang hoạt động.

Trên cả hai bẫy, đã kiểm tra mười ba cờ cảnh báo chẩn đoán quá mức được theo dõi. Không có cờ nào được kích hoạt. Đây là kết quả quan trọng nhất đối với bất kỳ bác sĩ nào đang cân nhắc sử dụng một công cụ AI như một công cụ sàng lọc hoặc trước khi tư vấn: hệ thống không tạo ra bệnh tật khi không hề tồn tại.

Chỉ số Mentzer: tách biệt thiếu sắt với đặc điểm bệnh thalassemia

Một phát hiện có giá trị cao thứ hai liên quan đến việc ghép ca BT-001 (thiếu máu thiếu sắt) với ca BT-007 (thiếu máu beta-thalassemia thể nhẹ). Cả hai đều có biểu hiện hồng cầu nhỏ (microcytosis) và là một trở ngại rất quen thuộc đối với các bộ phân loại “ngây thơ”. Chỉ số Mentzer, được tính bằng MCV chia cho số lượng hồng cầu (RBC), lớn hơn 13 trong thiếu máu thiếu sắt và nhỏ hơn 13 trong đặc điểm thalassemia.

Ở BT-001, bệnh nhân là nữ 34 tuổi với hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritin 6 ng/mL và TIBC tăng. Chỉ số Mentzer khoảng 17,7 ủng hộ thiếu hụt sắt tuyệt đối. Ở BT-007, bệnh nhân là nam 28 tuổi có microcytosis (MCV 65,8 fL) nhưng số lượng RBC cao 6,2, RDW bình thường, ferritin bình thường và HbA2 5,6%. Chỉ số Mentzer khoảng 10,6 gợi ý đặc điểm thalassemia, và HbA2 tăng xác nhận beta-thalassemia thể nhẹ.

Thiếu máu thiếu sắt Mentzer > 13 Ferritin thấp, TSAT thấp, TIBC cao, RDW tăng
Đặc điểm beta-thalassemia Mentzer < 13 Ferritin bình thường, RDW bình thường, HbA2 tăng (>3.5%), số lượng RBC cao

Cả hai ca đều đạt điểm 1.000. Công cụ đã sử dụng rõ ràng chỉ số Mentzer trong cả hai phần diễn giải và trả về chẩn đoán đúng trong từng trường hợp. Đây là kết quả mang tính trấn an lâm sàng nhất trong toàn bộ bộ chuẩn, vì việc phân loại nhầm đặc điểm thalassemia là thiếu máu thiếu sắt sẽ dẫn đến bổ sung sắt không phù hợp và bỏ lỡ cơ hội sàng lọc tiền sử gia đình; còn việc phân loại nhầm thiếu máu thiếu sắt là thalassemia sẽ làm chậm liệu pháp thay thế đơn giản. Phần khoảng ferritin giải thích bối cảnh chênh lệch rộng hơn.

Kết quả theo từng ca từ lần chạy tham chiếu ban đầu V11 (23 tháng 4, 2026)

Lần chạy tham chiếu V11 ban đầu trên đoàn hệ chứng minh khái niệm gồm 15 ca đóng vai trò là nền tảng phương pháp luận của Second Update: mọi chi tiết theo từng ca bên dưới minh họa cách bộ tiêu chí xử lý một phản hồi thực tế của động cơ. Mười hai trong số mười lăm ca đạt điểm tổng hợp trần là 1.000 trên nhánh chính; ba ca được phục vụ thông qua cơ chế dự phòng Phase 2, mất phần thưởng cộng thêm 0.05 về độ trễ trong khi vẫn giữ nguyên toàn bộ nội dung lâm sàng và cấu trúc. Một ca thiếu một mục con bắt buộc; một ca trả về tổng xác suất phân bố giảm nhẹ.

Mã ca Chuyên khoa Tổng hợp Độ trễ Đường dẫn
BT-001-IDAHuyết học1.00017,8 giâychính
BT-006-B12Huyết học1.00018,4 giâychính
BT-007-THALHuyết học1.00017,0 giâychính
BT-002-HASHNội tiết học0.95037,0 giâydự phòng
BT-008-PCOSNội tiết học0.98718,6 giâychính
BT-003-T2DMTrao đổi chất1.00019,1 giâychính
BT-013-GOUTTrao đổi chất1.00019,4 giâychính
BT-004-NAFLDChuyên khoa gan mật1.00019,6 giâychính
BT-009-VIRHEPChuyên khoa gan mật0.95023,4 giâydự phòng
BT-014-GILBERTBẫy1.00018,9 giâychính
BT-005-CKDThận học1.00017,4 giâychính
BT-010-ASCVDTim mạch1.00019,7 giâychính
BT-011-SLEChuyên khoa Thấp khớp0.98118,2 giâychính
BT-012-VITDNội tiết học1.00019,3 giâychính
BT-015-HEALTHYBẫy1.00018,7 giâydự phòng

Trường hợp PCOS (BT-008) đã bị thiếu một tiểu mục bắt buộc trong cấu trúc phản hồi — mười lăm trên mười sáu thay vì mười sáu trên mười sáu — khiến điểm cấu trúc giảm từ 1,000 xuống 0,963. Trường hợp SLE (BT-011) trả về tổng xác suất theo phân phối giảm nhẹ, làm điểm lâm sàng giảm xuống 0,965 trong khi vẫn giữ nguyên mọi từ khóa chẩn đoán và hệ thống chấm điểm. Không có trường hợp nào dưới mức hoàn hảo bỏ sót chẩn đoán đúng.

Tổng hợp V11 Second Update — 100,000 ca

Ở quy mô dân số, từng hàng ca không thể đọc được như của con người, vì vậy Bản cập nhật lần thứ 2 báo cáo các chỉ số tổng hợp thay vì một bảng 100.000 hàng. Chỉ số tổng hợp chính được trình bày bên dưới; phần phân rã theo từng chuyên khoa và theo từng nhãn quốc gia được công bố trong báo cáo kỹ thuật và phần nộp Figshare. Một mẫu ngẫu nhiên phân tầng của n = 201 các phản hồi thô của động cơ (hạt giống xác định 20260426) được công bố trong thư mục GitHub results/ để kiểm tra.

Điểm tổng hợp Ban đầu V11: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 trên toàn bộ đoàn hệ 100,000 ca
Điểm cấu trúc (trung bình) Ban đầu V11: 0.998 → Second Update: 1.000 Tuân thủ cấu trúc hoàn hảo ở quy mô quần thể
Điểm lâm sàng (trung bình) Ban đầu V11: 0.998 → Second Update: 0.996 −0.002; không ca nào bỏ sót chính chẩn đoán
Độ trễ — trung bình (khoảng) V11 ban đầu: 20,17 giây (17,0–37,0 giây) → Cập nhật lần thứ hai: 13,26 giây (9,0–16,94 giây) Tối ưu hóa động cơ sản xuất giữa các lần chạy
Đường dẫn động cơ = chính V11 ban đầu: 12 / 15 → Cập nhật lần thứ hai: 100,000 / 100,000 Không cần phương án dự phòng Giai đoạn 2 tại bất kỳ thời điểm nào trong quá trình chạy
Cờ cảnh báo siêu chẩn đoán cho tập con bẫy V11 ban đầu: 0 / 13 → Cập nhật lần thứ hai: 0 / 87,412 Không có dương tính giả ở quy mô quần thể (8.723 trường hợp bẫy được theo dõi)

Điểm số tiêu đề không cho chúng ta biết điều gì

Điểm tổng hợp đạt 99.80 phần trăm theo thang đo đã đăng ký trước cụ thể này, trên một tập đoàn tổng hợp 100.000 ca trải rộng 127 nhãn quốc gia, thể hiện hiệu năng gần mức trần — nhưng cần được đặt trong bối cảnh cẩn thận. Kết quả mô tả hành vi của động cơ so với thang đo mà chúng tôi đã cam kết đưa vào mã nguồn trong V11; đây không phải là một khẳng định phổ quát về độ đúng của động cơ trên mọi bảng xét nghiệm máu tồn tại ngoài thực tế.

Điểm số cho thấy động cơ đã xử lý đúng các mẫu chẩn đoán được chọn cho đánh giá này trên một nhóm thuần tập quy mô quần thể, theo một phương pháp luận đã được công bố và có thể tái tạo. Điểm số không nói rằng động cơ đúng với mọi bảng xét nghiệm máu hiện có ngoài thực tế. Điểm số cũng không nói rằng động cơ nên thay thế phán đoán của bác sĩ lâm sàng. Và điểm số cũng không nói rằng động cơ vượt trội hơn các hệ thống AI khác — các phân tích so sánh với các động cơ khác đã được cố ý đưa ra ngoài phạm vi của báo cáo này.

Điều mà điểm số thực sự xác lập là một mốc chuẩn. Khi bộ tiêu chí và khung thử nghiệm được công khai, các phiên bản tương lai của động cơ có thể được đánh giá dựa trên cùng bộ tiêu chí — áp dụng cho 15 ca ban đầu của V11, nhóm thuần tập 100.000 ca của Cập nhật lần thứ hai, hoặc bất kỳ sự mở rộng nào sau đó — và khoảng cách giữa điểm số đã công bố và bất kỳ lần chạy tiếp theo nào là bản thân nó có thể đo lường được. Đây là giá trị của việc đăng ký trước: nó chuyển các tuyên bố về hiệu suất thành các tuyên bố có thể kiểm chứng.

Cách tái tạo chuẩn đánh giá này trong 10 phút

Việc tái tạo chỉ cần một cặp thông tin xác thực API Kantesti và môi trường Python 3.10 trở lên với requestsreportlab các thư viện đã được cài đặt. Toàn bộ khung thử nghiệm là một mô-đun Python duy nhất, tự chứa, được phát hành theo giấy phép MIT.

Sơ đồ mạng về khả năng tái lập (reproducibility) hiển thị benchmark V11 Second Update (99,80% điểm tổng hợp, 100.000 ca, 127 nhãn quốc gia) được phản chiếu trên Figshare, ResearchGate, Academia.edu và GitHub, với DOI của Figshare là mốc neo chuẩn
Hình 5: Chuẩn đánh giá V11 Cập nhật lần thứ hai — Điểm tổng hợp 99.80% trên 100.000 ca trên 127 nhãn quốc gia — được phản chiếu trên bốn nền tảng nghiên cứu. DOI của Figshare là định danh học thuật chuẩn; ResearchGate (publication 404175463), Academia.edu (paper 165956808) và GitHub lưu trữ các bản sao song song kèm theo bộ khung đánh giá (benchmark harness), mẫu phản hồi ngẫu nhiên phân tầng (stratified random sample of raw responses) và các bảng điểm theo từng quốc gia/từng chuyên khoa (per-country-label/per-specialty scorecards).

Bốn bước để chạy mới

Một. Sao chép kho lưu trữ: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Hai. Cài đặt các phụ thuộc với pip install -r requirements.txt (Cập nhật lần thứ hai bổ sung mysql-connector-python ≥ 8.0 cho bộ nạp ca theo SQL). Ba. Đặt KANTESTI_USERNAMEKANTESTI_PASSWORD dưới dạng biến môi trường cho API của động cơ. Đối với bộ nạp ca SQL của Cập nhật lần thứ hai, cũng đặt KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, Và KANTESTI_DB_PASSWORD — bộ tải kết nối thông qua vai trò chỉ đọc (bench_reader) không có đặc quyền đối với việc xác định các bảng. Bốn. Chạy python benchmark_bloodtest.py --limit 100000 cho toàn bộ lần chạy Second-Update, hoặc python benchmark_bloodtest.py --limit 1000 để lặp nhanh. Kết quả đầu ra được lưu tại ./benchmark_results/: một bảng điểm CSV với các cột theo nhãn quốc gia và theo chuyên khoa, một tổng hợp JSON, một mẫu phản hồi thô ngẫu nhiên phân tầng, và một báo cáo Markdown.

Các lần chạy tham chiếu từ ngày 23 tháng 4 năm 2026 (V11 ban đầu, 15 ca) và ngày 26 tháng 4 năm 2026 (V11 Second Update, 100,000 ca) được lưu giữ trong results/ thư mục của kho mã. Lần chạy mới sẽ tạo một bảng điểm mới kèm dấu thời gian, đồng thời giữ nguyên các lần chạy tham chiếu không thay đổi. Nếu kết quả lần chạy của bạn tạo ra sự khác biệt đáng kể, vui lòng mở một vấn đề (GitHub issue) kèm dấu thời gian của lần chạy và phiên bản engine được trả về trong siêu dữ liệu phản hồi.

Hạn chế và công việc trong tương lai

Ngay cả khi có 100.000 ca trên 127 nhãn quốc gia, bốn hạn chế cần được thừa nhận rõ ràng: thiếu lấy mẫu ở đuôi dài (long-tail label undersampling), đánh giá một lần (single-shot evaluation), phạm vi một động cơ (single-engine scope) và nguồn dữ liệu một nguồn gốc (single-source data origin). Tất cả đang được giải quyết trong công việc theo dõi đang diễn ra.

Phạm vi bao phủ nhãn đuôi dài. Bản Cập nhật Thứ Hai (Second Update) bao gồm 127 nhãn quốc gia, nhưng phân phối không cân bằng — 10 nhãn hàng đầu chiếm ≈66,4% số ca, và đuôi dài gồm 97 nhãn bổ sung đóng góp cùng nhau ≈7,3% (khoảng 7.300 ca tổng cộng, ~75 ca mỗi nhãn trung bình). Vì vậy, các tổ hợp theo từng nhãn trong đuôi dài này nhiễu hơn so với những con số tiêu đề gợi ý. Các lần chạy trong tương lai sẽ cân bằng lại việc gán nhãn để củng cố các ước tính theo từng nhãn.

Đánh giá một lần (single-shot). Mỗi ca trong nhóm nghiên cứu (cohort) được đánh giá một lần. Các mô hình ngôn ngữ lớn thể hiện độ biến thiên đầu ra đáng kể ngay cả khi nhiệt độ lấy mẫu thấp, vì vậy một giao thức nhiều lần chạy với năm lần đánh giá cho mỗi ca và báo cáo độ biến thiên là bước tiếp theo tự nhiên — đặc biệt trên tập con các ca “trap-case”, nơi tính nhất quán dưới nhiễu dao động khi lấy mẫu là một phần của tuyên bố về an toàn.

Phạm vi chỉ một engine. Báo cáo này mô tả một engine. Các phân tích so sánh với các hệ thống AI khác nằm ngoài phạm vi ở đây; chúng tôi có thể theo đuổi chúng như một nghiên cứu độc lập riêng, với phương pháp luận phù hợp, dựa trên cùng bộ khung (harness) được cấp phép MIT.

Dữ liệu tổng hợp. 100.000 ca được tạo tổng hợp một cách nhân tạo, không phải là “ca tổng hợp” theo nghĩa dữ liệu thực; và kết quả không chuyển giao sang hiệu năng lâm sàng trong thế giới thực. Đánh giá trên dữ liệu thực, có sự đồng ý và được lấy từ nguồn bên ngoài sẽ cần có giám sát đạo đức phù hợp, và nằm ngoài phạm vi của benchmark tổng hợp này.

Ngoài bốn điểm này, phần mở rộng dự kiến có tác động lớn nhất là tính tương đương đa ngôn ngữ theo từng thẩm quyền. Kantesti AI Engine phục vụ người dùng bằng 75+ ngôn ngữ, và việc chạy các nhóm con Second-Update được phân tầng theo ngôn ngữ (Thổ Nhĩ Kỳ, Đức, Tây Ban Nha, Pháp, Ý, Bồ Đào Nha, Ả Rập, Quan Thoại) sẽ định lượng chất lượng đầu ra trên các ngôn ngữ mà engine hỗ trợ. Mỗi phân tích theo từng ngôn ngữ sẽ được công bố kèm DOI riêng và nhánh harness riêng.