Vì sao chuẩn đánh giá này tồn tại và nó kiểm tra điều gì

Phân tích xét nghiệm máu AI có hỗ trợ đang ngày càng được sử dụng trong các quy trình làm việc cho người tiêu dùng và trong lâm sàng, tuy nhiên các khung đánh giá có thể tái lập được thiết kế riêng cho y học xét nghiệm vẫn còn hiếm. Những câu hỏi quan trọng nhất trong bối cảnh này không phải là những câu hỏi được bao phủ bởi các chuẩn đánh giá chung về hỏi-đáp y khoa: liệu một động cơ có thể tách thiếu sắt khỏi đặc điểm thalassemia khi thể tích trung bình hồng cầu là giống nhau hay không, có chẩn đoán quá mức hội chứng Gilbert như viêm gan hay không, và có tạo ra bệnh lý trong một bảng sàng lọc hoàn toàn bình thường hay không?

Sơ đồ luồng thang đo đã đăng ký trước cho thấy cách Động cơ AI Kantesti — Bản cập nhật thứ hai V11, điểm tổng hợp 99.80% trên 100.000 ca — được đánh giá dựa trên các tiêu chí chấm điểm đã “đóng băng”
Hình 1: Kiến trúc chuẩn hóa (benchmark) đứng sau Điểm tổng hợp 99.80% trong bản cập nhật thứ hai V11 — trên 100.000 ca — mọi ca, mọi từ khóa, mọi hệ thống chấm điểm đều được cố định trong mã nguồn trước khi động cơ nhìn thấy bất kỳ PDF nào, và thang chấm điểm (rubric) là đồng nhất theo từng byte với bản phát hành ban đầu V11. Việc tinh chỉnh thang chấm điểm sau (post-hoc) là không thể theo thiết kế.

Một bảng xét nghiệm máu đơn lẻ thường chứa đủ tín hiệu để hỗ trợ nhiều cách diễn giải cạnh tranh, và nhiệm vụ của bác sĩ lâm sàng đọc kết quả là cân nhắc các cách diễn giải đó với nhau thay vì tìm một câu trả lời “chuẩn theo sách giáo khoa”. Một “động cơ” làm tốt trên các ca mẫu theo sách vẫn có thể thất bại ở những ca quan trọng nhất: các bẫy trong chẩn đoán phân biệt, các biến thể lành tính trông có vẻ đáng lo nếu chỉ nhìn riêng lẻ, và những bảng xét nghiệm hoàn toàn bình thường khiến các trợ lý tự tin đi đến việc “tự chế” ra bệnh lý.

Chuẩn đánh giá này được xây dựng đúng dựa trên các kiểu thất bại đó. Mỗi trong số mười lăm ca được chọn cho một đặc tính chẩn đoán cụ thể: tình trạng hồng cầu nhỏ do thiếu sắt cần được phân biệt rõ với thể mang beta-thalassemia có cùng thể tích trung bình hồng cầu (MCV), một biểu hiện của hội chứng Gilbert trong đó bất thường duy nhất là tăng bilirubin gián tiếp đơn độc, và một bảng sàng lọc gồm mười lăm thông số trong đó mọi chỉ số phân tích đều nằm trong khoảng tham chiếu. Thang chấm thưởng cho các động cơ đọc từng ca theo đúng ngữ cảnh của nó và phạt các động cơ đưa ra chẩn đoán tự tin khi không có cơ sở cho chẩn đoán như vậy.

Với tư cách là Thomas Klein, MD, tôi đã chọn bộ ca này vì đây là những mẫu mà các trợ lý y học xét nghiệm thường sai nhất. Kiểu thất bại tốn kém không phải là "bỏ sót một bệnh hiếm" — mà là bịa đặt bệnh lý thường quy ở những bệnh nhân không hề mắc bệnh đó. Của chúng tôi Xác nhận y tế mô tả khung tổng quát hơn; trang này mô tả bản chứng minh khái niệm ban đầu V11 và bản cập nhật thứ hai V11 đã mở rộng quy mô lên 100.000 ca đã ẩn danh được rút ra từ một kho lưu trữ lâm sàng hỗ trợ SQL trải rộng 127 quốc gia — sử dụng cùng thang chấm điểm, đồng nhất theo từng byte, không cho phép tinh chỉnh sau.

Lần chạy tham chiếu mới nhất — Bản cập nhật thứ hai V11 (ngày 26 tháng 4 năm 2026)

Lần chạy tham chiếu của Bản cập nhật thứ hai V11 vào ngày 26 tháng 4 năm 2026 tạo ra điểm tổng hợp là 99.80% trên cùng thang chấm điểm đã đăng ký trước (pre-registered) được dùng trong bản phát hành ban đầu V11, được đánh giá trên 100.000 ca đã ẩn danh được rút ra từ kho lưu trữ lâm sàng hỗ trợ SQL Kantesti và trải rộng 127 quốc gia và các ngôn ngữ 75+. Mọi ca đều hoàn tất theo đường dẫn chính của động cơ; các lần kích hoạt cờ (flag) siêu chẩn đoán ở tình huống bẫy (trap-case) vẫn ở 0 / 87,412. Lần chạy V11 ban đầu vào ngày 23 tháng 4 năm 2026 bao phủ 15 ca được chọn lọc thủ công (composite 99.12%) và xác thực thang chấm điểm; Bản cập nhật thứ hai giữ nguyên thang chấm điểm đó đồng nhất theo từng byte và mở rộng việc đánh giá sang một nhóm quy mô quần thể.

Tổng hợp 99.80% 100.000 trên 100.000 ca được chấm điểm
1.000 Điểm cấu trúc
0.996 Điểm lâm sàng
13.26 s Độ trễ trung bình
0 / 87,412 Bẫy dương tính giả

Công thức tổng hợp kết hợp ba thành phần: phù hợp cấu trúc với bảy mục báo cáo bắt buộc và mười sáu mục con bắt buộc, độ chính xác lâm sàng được đo bằng khả năng ghi nhớ từ khóa cộng với khả năng ghi nhớ theo hệ thống chấm điểm, cùng với kiểm tra tính hợp lệ của phân phối xác suất, và độ trễ phản hồi so với mục tiêu mức dịch vụ (service-level) của đường dẫn chính. Phân rã chính xác được thể hiện trong công thức thang chấm điểm bên dưới — không có trọng số hay thang con (sub-rubrics) nào bị thay đổi cho Bản cập nhật thứ hai.

Tổng hợp = 0.35 × Cấu trúc + 0.55 × Lâm sàng + 0.10 × Độ trễ

Phần còn lại 0.20 điểm phần trăm “dư địa” (headroom) gần như hoàn toàn phân rã vào điểm phụ lâm sàng — một phần nhỏ các ca (chủ yếu ở Huyết học gan và Thấp khớp) có một từ khóa trong hệ thống chấm điểm kỳ vọng bị thiếu trong phần diễn giải của động cơ, dù nội dung chẩn đoán là đúng. Không có ca nào trong nhóm 100.000 ca của Bản cập nhật thứ hai bỏ sót chính chẩn đoán. Độ trễ (latency) được cải thiện từ mức trung bình 20.17 s ở bản phát hành ban đầu V11 xuống 13.26 s ở Bản cập nhật thứ hai, phản ánh các tối ưu hóa động cơ phục vụ sản xuất giữa hai lần chạy; thang chấm điểm, mã chấm điểm và điểm cuối API không thay đổi.

Điểm tổng hợp theo từng quốc gia dao động từ 0.9971 (Ấn Độ) đến 0.9985 (Thụy Sĩ) trên 30 quốc gia có số ca được đại diện nhiều nhất. Đuôi dài của 97 quốc gia bổ sung (≈7,300 ca cộng gộp) không cho thấy sự suy giảm có hệ thống. Các đóng góp hàng đầu theo số lượng ca gồm Hoa Kỳ (10,500), Brazil (9,500), Tây Ban Nha (9,000), Ý (8,000), Đức (7,800), Pháp (7,400), Bồ Đào Nha (5,800), Türkiye (3,400), Vương quốc Anh (2,900) và Mexico (2,500).

Từ 15 ca đến 100.000: sự tiến hóa của nhóm thuần tập trên 127 quốc gia

Bảng ca (case panel) V11 ban đầu bao phủ bảy chuyên khoa — huyết học, nội tiết, y học chuyển hóa, gan mật, thận học, tim mạch, thấp khớp — cộng thêm hai ca bẫy chuyên biệt cho siêu chẩn đoán, với mỗi ca là một hồ sơ bệnh nhân thực đã ẩn danh được rút ra từ kho dữ liệu lâm sàng Kantesti theo sự đồng ý tham gia có hiểu biết bằng văn bản. Bản cập nhật thứ hai V11 mở rộng việc đánh giá đến 100.000 ca đã ẩn danh trên 127 quốc gia, được phân bổ qua tám chuyên khoa (bảy chuyên khoa ban đầu cộng thêm một nhóm nội khoa nội bộ chuyên biệt hấp thụ phần tập con bẫy). Cùng một thang chấm điểm được áp dụng đồng nhất theo từng byte cho cả hai lần chạy.

Thiết kế bảng ca ban đầu V11 — mười lăm ca xét nghiệm máu ẩn danh trên bảy chuyên khoa y tế cộng với hai ca bẫy chẩn đoán quá mức; cùng thang đo đạt điểm tổng hợp 99.80% trên 100.000 ca trong Bản cập nhật thứ hai V11
Hình 2: Thiết kế bảng ca ban đầu V11 cho huyết học, nội tiết, y học chuyển hóa, gan mật, thận học, tim mạch, thấp khớp, cộng thêm hai ca bẫy — hội chứng Gilbert và một bảng sàng lọc hoàn toàn bình thường. Bản cập nhật thứ hai giữ nguyên thang chấm điểm này đồng nhất theo từng byte trong khi mở rộng nhóm lên 100.000 ca được rút ra từ kho lưu trữ SQL Kantesti.

Việc loại bỏ định danh (de-identification) được thực hiện theo cách tiếp cận Safe Harbor: tất cả các định danh trực tiếp đã bị xóa hoặc thay thế, và mỗi hồ sơ được gán một mã ca nội bộ chuẩn hóa theo định dạng BT-NNN-LABEL (V11 ban đầu) hoặc một mã case_uid ổn định đã ẩn danh cho Bản cập nhật thứ hai. Việc xử lý được thực hiện theo Điều 9(2)(j) của GDPR cho nghiên cứu khoa học với các biện pháp bảo vệ phù hợp, và các quy định tương đương của UK GDPR. Không có bất kỳ thông tin nhận dạng cá nhân nào xuất hiện ở bất kỳ đâu trong bộ thử nghiệm (harness) đã công bố, báo cáo kỹ thuật, hoặc các bộ dữ liệu đã phát hành.

bản phát hành ban đầu V11 — 15 ca được chọn lọc thủ công

Bảng ca V11 ban đầu được bác sĩ Thomas Klein tuyển chọn thủ công để khai thác các mẫu chẩn đoán mà các trợ lý y học xét nghiệm thường sai nhất. Mỗi trong số mười lăm ca được chọn cho một thuộc tính chẩn đoán cụ thể, được liệt kê bên dưới.

Huyết học (3) BT-001, BT-006, BT-007 Thiếu máu do thiếu sắt · Thiếu vitamin B12 · Thalassemia beta thể nhẹ
Nội tiết (3) BT-002, BT-008, BT-012 Viêm tuyến giáp Hashimoto · PCOS kèm đề kháng insulin · Thiếu vitamin D nặng
Chuyển hóa (2) BT-003, BT-013 T2DM kèm hội chứng chuyển hóa · Tăng acid uric máu kèm nguy cơ gout
Gan mật (2) BT-004, BT-009 NAFLD / NASH · Viêm gan siêu vi cấp
Thận học · Tim mạch · Thấp khớp (3) BT-005, BT-010, BT-011 Bệnh thận mạn giai đoạn 3 · Rối loạn lipid máu gây xơ vữa (atherogenic dyslipidaemia) · Lupus ban đỏ hệ thống
Các ca bẫy (2) BT-014, BT-015 Hội chứng Gilbert (tăng bilirubin gián tiếp đơn độc) · Sàng lọc người trưởng thành hoàn toàn bình thường

Vì sao lại có phân bố cụ thể này

Huyết học có ba trường hợp vì các chẩn đoán phân biệt kiểu vi hồng cầu (microcytic) và kiểu đại hồng cầu (macrocytic) là những “bẫy” có khối lượng công việc cao nhất trong thực hành xét nghiệm trong thế giới thực. Nội tiết có ba trường hợp vì các biểu hiện của bệnh Hashimoto, PCOS và thiếu vitamin D có các “dạng” chẩn đoán khác nhau (do tự kháng thể chi phối, do tỷ lệ hormone chi phối, do một dấu ấn đơn lẻ chi phối). Các chuyên khoa chỉ có một trường hợp vẫn có ý nghĩa vì mỗi tình trạng như CKD, nguy cơ ASCVD và SLE đều có hệ thống tính điểm riêng mà động cơ cần gọi (lần lượt là phân giai đoạn KDIGO, nguy cơ 10 năm ASCVD, và tiêu chí SLE EULAR/ACR năm 2019).

Cập nhật V11 lần thứ hai — 100.000 ca đã ẩn danh trên 127 quốc gia

Bản cập nhật lần thứ hai thay thế đoạn literal Python 15 ca được mã hoá cứng của V11 ban đầu bằng một truy vấn SQL có tham số, chỉ đọc, truy vấn vào kho lưu trữ lâm sàng Kantesti (anonymised_blood_panels). Truy vấn lọc theo consent_research = 1 AND released_for_benchmark = 1 và được in ở đầu mỗi lần chạy benchmark để minh bạch. Cơ cấu phân bổ theo chuyên khoa của nhóm nghiên cứu được trình bày bên dưới.

Nội tiết học 23.900 ca (23.9%) Tuyến giáp, PCOS, vitamin D, trục sinh dục, tuyến yên
Y học chuyển hoá 21.900 ca (21.9%) T2DM, hội chứng chuyển hoá, bảng lipid, tăng acid uric máu
Huyết học 15.400 ca (15.4%) Phân loại vi hồng cầu và đại hồng cầu, B12/folate, các xét nghiệm về sắt
Chuyên khoa gan mật 12.400 ca (12.4%) NAFLD/NASH, viêm gan do virus, FIB-4, ứ mật
Nội khoa (bao gồm phân nhóm trap) 9.000 ca (9.0%) Biểu hiện hỗn hợp và 8.723 ca trap tăng chẩn đoán chuyên biệt
Tim mạch 7.500 ca (7.5%) Nguy cơ ASCVD, rối loạn lipid gây xơ vữa, hs-CRP
Chuyên khoa Thấp khớp 6.000 ca (6.0%) SLE, RA, viêm mạch, bảng tự kháng thể (tiêu chí EULAR/ACR)
Thận học 4.000 ca (4.0%) Phân giai đoạn CKD (KDIGO), xu hướng eGFR, rối loạn điện giải

Phân bố theo địa lý — 10 quốc gia hàng đầu

Đoàn hệ bao phủ 127 quốc gia (ISO 3166-1 alpha-2). Châu Âu đóng góp 57.7%, châu Mỹ 25.4%, châu Á-Thái Bình Dương 6.2%, các mục nhập Trung Đông/Châu Phi được đặt tên 3.4%, và một đuôi dài gồm 97 quốc gia bổ sung có tổng cộng xấp xỉ 7.3%. Mười nhà đóng góp lớn nhất là Hoa Kỳ (10,500), Brazil (9,500), Tây Ban Nha (9,000), Ý (8,000), Đức (7,800), Pháp (7,400), Bồ Đào Nha (5,800), Türkiye (3,400), Vương quốc Anh (2,900) và Mexico (2,500). Điểm tổng hợp theo từng quốc gia dao động từ 0.9971 (Ấn Độ) đến 0.9985 (Thụy Sĩ).

Rubric đã đăng ký trước, được giải thích

Đăng ký trước (pre-registration) là lựa chọn phương pháp luận quan trọng nhất trong chuẩn đánh giá này. Mọi chẩn đoán kỳ vọng, mọi hệ thống tính điểm lâm sàng và mọi mục trong báo cáo đều được cam kết vào mã nguồn trước khi động cơ được kích hoạt. Do đó, việc tinh chỉnh hậu kiểm (post-hoc) thang đo để “làm đẹp” cho động cơ là không thể.

Ba thành phần tạo nên điểm tổng hợp. Thành phần cấu trúc đóng góp 35% và đo việc động cơ có trả về bảy mục báo cáo bắt buộc hay không (tiêu đề, tóm tắt, phát hiện chính, chẩn đoán phân biệt, hệ thống tính điểm, khuyến nghị, theo dõi) và mười sáu mục con bắt buộc nằm trong đó. Sự hiện diện của mục chiếm 40% và sự hiện diện của mục con chiếm 60% trong phép tính cấu trúc.

Các thành phần lâm sàng đóng góp 55% và kết hợp ba yếu tố: ghi nhớ từ khóa chẩn đoán (70% điểm phụ lâm sàng), ghi nhớ hệ thống tính điểm (20% — động cơ có tính Mentzer, FIB-4, HOMA-IR, nguy cơ ASCVD, phân giai đoạn KDIGO, tiêu chí EULAR/ACR khi phù hợp hay không), và kiểm tra tính hợp lệ tổng xác suất (10% — các xác suất trong chẩn đoán phân biệt phải cộng lại nằm trong khoảng [90, 110]). Với các ca “bẫy”, sẽ trừ một hình phạt siêu chẩn đoán (hyperdiagnosis) rõ ràng lên đến 0,30, được tính là 0,10 cho mỗi cờ bệnh lý được bịa ra, tối đa ba cờ.

Các thành phần độ trễ đóng góp 10%. Phản hồi dưới 20 giây nhận toàn bộ 0,10; dưới 40 giây nhận 0,05; và bất kỳ phản hồi nào chậm hơn nhận 0. Mốc 20 giây phản ánh mục tiêu mức dịch vụ (service-level objective) cho phần sản xuất dịch vụ đường chính; trần 40 giây phản ánh ngân sách dự phòng cho Giai đoạn 2 đối với các lần gọi động cơ nặng.

Ảnh chụp màn hình cuối cùng của bộ khung chuẩn đánh giá Kantesti theo giấy phép MIT đang chạy và phát ra điểm theo từng ca — cùng bộ khung, hiện do SQL điều khiển, đã tạo ra điểm tổng hợp 99.80% trong lần chạy 100.000 ca của Bản cập nhật thứ hai V11
Hình 3: Hệ thống chạy trong thực thi — cùng một động cơ đã tạo ra điểm tổng hợp 99.80% trong đoàn hệ 100,000 ca của V11 Second Update. Mỗi ca được kết xuất thành tệp PDF A4, đăng lên endpoint sản xuất v11, và được chấm dựa trên bộ tiêu chí đã “đóng băng”. Second Update bổ sung bộ nạp trường hợp SQL có tham số; một mẫu ngẫu nhiên phân tầng các phản hồi thô của động cơ (n = 201) được lưu cùng với bảng tổng hợp điểm.

Điều mà đăng ký trước ngăn chặn

Các chuẩn đánh giá do chính bên thứ nhất (first-party) thực hiện nổi tiếng vì có thể thổi phồng số liệu của họ thông qua tinh chỉnh thang đo hậu kiểm. Mẫu hình gần như luôn giống nhau: nhóm chạy động cơ, xem chỗ nào kém, rồi lặng lẽ điều chỉnh thang đo để các khu vực kém đó được tính ít hơn. Bằng cách cam kết thang đo vào mã nguồn trước lần gọi động cơ đầu tiên và công bố bộ khung dưới giấy phép MIT, sự điều chỉnh này trở nên nhìn thấy được trong hệ thống quản lý phiên bản. Bất kỳ ai cũng có thể clone kho mã, kiểm tra ngày tác giả của thang đo, và xác minh rằng kết quả của động cơ không được dùng để định hình việc chấm điểm.

Các ca “bẫy chẩn đoán quá mức” — vì sao việc gọi quá nhiều mới là chế độ thất bại thực sự

Việc gọi quá mức (over-calling) bệnh lý một cách hung hăng trên các màn hình bình thường là một kiểu thất bại đã được ghi nhận của các trợ lý y tế hướng tới người tiêu dùng. Chi phí phát sinh ở phía sau bao gồm điều tra không cần thiết, lo lắng của bệnh nhân và thăm khám/đánh giá do can thiệp y khoa (iatrogenic workup). Hai ca “bẫy” trong chuẩn đánh giá này được thiết kế để làm lộ và có thể chấm điểm cho kiểu thất bại đó.

So sánh song song một AI ngây thơ bịa viêm gan trên bảng hội chứng Gilbert với động cơ Kantesti xác định đúng đa hình UGT1A1 lành tính — phương pháp đã được mở rộng để đạt 0 dương tính giả trên 87.412 cơ hội gắn cờ bẫy trong chuẩn đánh giá 99.80% của Bản cập nhật thứ hai V11
Hình 4: Thiết kế “bẫy-ca” từ bản phát hành ban đầu V11 — một động cơ tự tin gán hội chứng Gilbert là viêm gan, hoặc tạo ra bệnh lý ở mức ranh giới trên một màn hình hoàn toàn bình thường, sẽ bị phạt thay vì được thưởng vì phát âm như một nhận định lâm sàng. Phương pháp này được mở rộng để 0 / 87,412 tạo ra các dương tính giả trong lần chạy V11 Second Update 100,000 ca, lần chạy đã tạo ra điểm tổng hợp 99.80%.

🟡 Bẫy 1 — BT-014-GILBERT

Biểu hiện. Nam 24 tuổi với bilirubin toàn phần 2,4 mg/dL. Phân suất trực tiếp bình thường, transaminase và phosphatase kiềm nằm trong giới hạn tham chiếu, hồng cầu lưới không có gì đáng chú ý, và haptoglobin cùng LDH loại trừ tan máu.

Cách giải thích đúng. Hội chứng Gilbert — một đa hình lành tính của UGT1A1. Phần giải thích không được viện dẫn viêm gan, xơ gan, thiếu máu tan máu hoặc tắc nghẽn đường mật.

Kết quả V11. Tổng hợp 1,000. Không có bất kỳ cờ quá chẩn đoán nào trong sáu cờ được theo dõi xuất hiện như chẩn đoán đang hoạt động.

🟡 Bẫy 2 — BT-015-HEALTHY

Biểu hiện. Nữ 35 tuổi với bảng sàng lọc thường quy gồm mười lăm tham số. Mọi chất phân tích đều nằm thoải mái trong khoảng tham chiếu của chúng.

Cách giải thích đúng. Sự trấn an và duy trì lối sống. Phần giải thích không nên bịa ra bệnh lý ranh giới chỉ để nghe có vẻ hữu ích về mặt lâm sàng.

Kết quả V11. Tổng hợp 1.000. Không có bất kỳ cờ cảnh báo chẩn đoán quá mức nào trong bảy cờ được theo dõi — đái tháo đường, thiếu máu, suy giáp, rối loạn lipid máu, viêm gan, bệnh thận, thiếu hụt — xuất hiện như chẩn đoán đang hoạt động.

Trên cả hai bẫy, đã kiểm tra mười ba cờ cảnh báo chẩn đoán quá mức được theo dõi. Không có cờ nào được kích hoạt. Đây là kết quả quan trọng nhất đối với bất kỳ bác sĩ nào đang cân nhắc sử dụng một công cụ AI như một công cụ sàng lọc hoặc trước khi tư vấn: hệ thống không tạo ra bệnh tật khi không hề tồn tại.

Chỉ số Mentzer: tách biệt thiếu sắt với đặc điểm bệnh thalassemia

Một phát hiện có giá trị cao thứ hai liên quan đến việc ghép ca BT-001 (thiếu máu thiếu sắt) với ca BT-007 (thiếu máu beta-thalassemia thể nhẹ). Cả hai đều có biểu hiện hồng cầu nhỏ (microcytosis) và là một trở ngại rất quen thuộc đối với các bộ phân loại “ngây thơ”. Chỉ số Mentzer, được tính bằng MCV chia cho số lượng hồng cầu (RBC), lớn hơn 13 trong thiếu máu thiếu sắt và nhỏ hơn 13 trong đặc điểm thalassemia.

Ở BT-001, bệnh nhân là nữ 34 tuổi với hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritin 6 ng/mL và TIBC tăng. Chỉ số Mentzer khoảng 17,7 ủng hộ thiếu hụt sắt tuyệt đối. Ở BT-007, bệnh nhân là nam 28 tuổi có microcytosis (MCV 65,8 fL) nhưng số lượng RBC cao 6,2, RDW bình thường, ferritin bình thường và HbA2 5,6%. Chỉ số Mentzer khoảng 10,6 gợi ý đặc điểm thalassemia, và HbA2 tăng xác nhận beta-thalassemia thể nhẹ.

Thiếu máu thiếu sắt Mentzer > 13 Ferritin thấp, TSAT thấp, TIBC cao, RDW tăng
Đặc điểm beta-thalassemia Mentzer < 13 Ferritin bình thường, RDW bình thường, HbA2 tăng (>3.5%), số lượng RBC cao

Cả hai ca đều đạt điểm 1.000. Công cụ đã sử dụng rõ ràng chỉ số Mentzer trong cả hai phần diễn giải và trả về chẩn đoán đúng trong từng trường hợp. Đây là kết quả mang tính trấn an lâm sàng nhất trong toàn bộ bộ chuẩn, vì việc phân loại nhầm đặc điểm thalassemia là thiếu máu thiếu sắt sẽ dẫn đến bổ sung sắt không phù hợp và bỏ lỡ cơ hội sàng lọc tiền sử gia đình; còn việc phân loại nhầm thiếu máu thiếu sắt là thalassemia sẽ làm chậm liệu pháp thay thế đơn giản. Phần khoảng ferritin giải thích bối cảnh chênh lệch rộng hơn.

Kết quả theo từng ca từ lần chạy tham chiếu ban đầu V11 (23 tháng 4, 2026)

Lần chạy tham chiếu V11 ban đầu trên đoàn hệ chứng minh khái niệm gồm 15 ca đóng vai trò là nền tảng phương pháp luận của Second Update: mọi chi tiết theo từng ca bên dưới minh họa cách bộ tiêu chí xử lý một phản hồi thực tế của động cơ. Mười hai trong số mười lăm ca đạt điểm tổng hợp trần là 1.000 trên nhánh chính; ba ca được phục vụ thông qua cơ chế dự phòng Phase 2, mất phần thưởng cộng thêm 0.05 về độ trễ trong khi vẫn giữ nguyên toàn bộ nội dung lâm sàng và cấu trúc. Một ca thiếu một mục con bắt buộc; một ca trả về tổng xác suất phân bố giảm nhẹ.

Mã ca Chuyên khoa Tổng hợp Độ trễ Đường dẫn
BT-001-IDAHuyết học1.00017,8 giâychính
BT-006-B12Huyết học1.00018,4 giâychính
BT-007-THALHuyết học1.00017,0 giâychính
BT-002-HASHNội tiết học0.95037,0 giâydự phòng
BT-008-PCOSNội tiết học0.98718,6 giâychính
BT-003-T2DMTrao đổi chất1.00019,1 giâychính
BT-013-GOUTTrao đổi chất1.00019,4 giâychính
BT-004-NAFLDChuyên khoa gan mật1.00019,6 giâychính
BT-009-VIRHEPChuyên khoa gan mật0.95023,4 giâydự phòng
BT-014-GILBERTBẫy1.00018,9 giâychính
BT-005-CKDThận học1.00017,4 giâychính
BT-010-ASCVDTim mạch1.00019,7 giâychính
BT-011-SLEChuyên khoa Thấp khớp0.98118,2 giâychính
BT-012-VITDNội tiết học1.00019,3 giâychính
BT-015-HEALTHYBẫy1.00018,7 giâydự phòng

Trường hợp PCOS (BT-008) đã bị thiếu một tiểu mục bắt buộc trong cấu trúc phản hồi — mười lăm trên mười sáu thay vì mười sáu trên mười sáu — khiến điểm cấu trúc giảm từ 1,000 xuống 0,963. Trường hợp SLE (BT-011) trả về tổng xác suất theo phân phối giảm nhẹ, làm điểm lâm sàng giảm xuống 0,965 trong khi vẫn giữ nguyên mọi từ khóa chẩn đoán và hệ thống chấm điểm. Không có trường hợp nào dưới mức hoàn hảo bỏ sót chẩn đoán đúng.

Tổng hợp V11 Second Update — 100,000 ca

Ở quy mô quần thể, từng dòng ca riêng lẻ không thể đọc như của con người, vì vậy Second Update báo cáo các chỉ số tổng hợp thay vì một bảng gồm 100,000 dòng. Bảng tổng hợp chính được trình bày bên dưới; phần phân rã theo chuyên khoa và theo quốc gia được công bố trong báo cáo kỹ thuật và phần gửi Figshare. Một mẫu ngẫu nhiên phân tầng của n = 201 các phản hồi thô của động cơ (hạt giống xác định 20260426) được công bố trong thư mục GitHub results/ để kiểm tra.

Điểm tổng hợp Ban đầu V11: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 trên toàn bộ đoàn hệ 100,000 ca
Điểm cấu trúc (trung bình) Ban đầu V11: 0.998 → Second Update: 1.000 Tuân thủ cấu trúc hoàn hảo ở quy mô quần thể
Điểm lâm sàng (trung bình) Ban đầu V11: 0.998 → Second Update: 0.996 −0.002; không ca nào bỏ sót chính chẩn đoán
Độ trễ — trung bình (khoảng) V11 ban đầu: 20,17 giây (17,0–37,0 giây) → Cập nhật lần thứ hai: 13,26 giây (9,0–16,94 giây) Tối ưu hóa động cơ sản xuất giữa các lần chạy
Đường dẫn động cơ = chính V11 ban đầu: 12 / 15 → Cập nhật lần thứ hai: 100,000 / 100,000 Không cần phương án dự phòng Giai đoạn 2 tại bất kỳ thời điểm nào trong quá trình chạy
Cờ cảnh báo siêu chẩn đoán cho tập con bẫy V11 ban đầu: 0 / 13 → Cập nhật lần thứ hai: 0 / 87,412 Không có dương tính giả ở quy mô quần thể (8.723 trường hợp bẫy được theo dõi)

Điểm số tiêu đề không cho chúng ta biết điều gì

Một điểm tổng hợp 99,80 phần trăm theo bộ tiêu chí đã đăng ký trước cụ thể này, trên một nhóm thuần tập ẩn danh gồm 100.000 ca trải rộng 127 quốc gia, thể hiện hiệu năng gần mức trần — nhưng cần được diễn giải cẩn thận. Kết quả mô tả hành vi của động cơ so với bộ tiêu chí mà chúng tôi đã cam kết đưa vào mã nguồn trong V11; đây không phải là một khẳng định phổ quát về độ đúng của động cơ đối với mọi bảng xét nghiệm máu hiện có ngoài thực tế.

Điểm số cho thấy động cơ đã xử lý đúng các mẫu chẩn đoán được chọn cho đánh giá này trên một nhóm thuần tập quy mô quần thể, theo một phương pháp luận đã được công bố và có thể tái tạo. Điểm số không nói rằng động cơ đúng với mọi bảng xét nghiệm máu hiện có ngoài thực tế. Điểm số cũng không nói rằng động cơ nên thay thế phán đoán của bác sĩ lâm sàng. Và điểm số cũng không nói rằng động cơ vượt trội hơn các hệ thống AI khác — các phân tích so sánh với các động cơ khác đã được cố ý đưa ra ngoài phạm vi của báo cáo này.

Điều mà điểm số thực sự xác lập là một mốc chuẩn. Khi bộ tiêu chí và khung thử nghiệm được công khai, các phiên bản tương lai của động cơ có thể được đánh giá dựa trên cùng bộ tiêu chí — áp dụng cho 15 ca ban đầu của V11, nhóm thuần tập 100.000 ca của Cập nhật lần thứ hai, hoặc bất kỳ sự mở rộng nào sau đó — và khoảng cách giữa điểm số đã công bố và bất kỳ lần chạy tiếp theo nào là bản thân nó có thể đo lường được. Đây là giá trị của việc đăng ký trước: nó chuyển các tuyên bố về hiệu suất thành các tuyên bố có thể kiểm chứng.

Cách tái tạo chuẩn đánh giá này trong 10 phút

Việc tái tạo chỉ cần một cặp thông tin xác thực API Kantesti và môi trường Python 3.10 trở lên với requestsreportlab các thư viện đã được cài đặt. Toàn bộ khung thử nghiệm là một mô-đun Python duy nhất, tự chứa, được phát hành theo giấy phép MIT.

Sơ đồ mạng tính tái lập cho thấy chuẩn đánh giá của Bản cập nhật thứ hai V11 (tổng hợp 99.80%, 100.000 ca, 127 quốc gia) được phản chiếu trên Figshare, ResearchGate, Academia.edu và GitHub với DOI của Figshare làm mốc neo chuẩn
Hình 5: Chuẩn đánh giá V11 Cập nhật lần thứ hai — Điểm tổng hợp 99,80% trên 100.000 ca tại 127 quốc gia — được phản ánh trên bốn nền tảng nghiên cứu. Mã DOI Figshare là định danh học thuật chuẩn; ResearchGate (bài đăng 404175463), Academia.edu (bài viết 165956808) và GitHub lưu trữ các bản sao song song với khung thử nghiệm có hỗ trợ SQL, mẫu ngẫu nhiên phân tầng của các phản hồi thô, và các bảng điểm theo từng quốc gia/từng chuyên khoa.

Bốn bước để chạy mới

Một. Sao chép kho lưu trữ: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Hai. Cài đặt các phụ thuộc với pip install -r requirements.txt (Cập nhật lần thứ hai bổ sung mysql-connector-python ≥ 8.0 cho bộ nạp ca theo SQL). Ba. Đặt KANTESTI_USERNAMEKANTESTI_PASSWORD dưới dạng biến môi trường cho API của động cơ. Đối với bộ nạp ca SQL của Cập nhật lần thứ hai, cũng đặt KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, Và KANTESTI_DB_PASSWORD — bộ tải kết nối thông qua vai trò chỉ đọc (bench_reader) không có đặc quyền đối với việc xác định các bảng. Bốn. Chạy python benchmark_bloodtest.py --limit 100000 cho toàn bộ lần chạy Second-Update, hoặc python benchmark_bloodtest.py --limit 1000 để lặp nhanh. Kết quả đầu ra được lưu tại ./benchmark_results/: một bảng điểm CSV với các cột theo từng quốc gia và từng chuyên khoa, một bản tổng hợp JSON, một mẫu phản hồi thô được lấy theo phân tầng-ngẫu nhiên, và một báo cáo dạng Markdown.

Các lần chạy tham chiếu từ ngày 23 tháng 4 năm 2026 (V11 ban đầu, 15 ca) và ngày 26 tháng 4 năm 2026 (V11 Second Update, 100,000 ca) được lưu giữ trong results/ thư mục của kho mã. Lần chạy mới sẽ tạo một bảng điểm mới kèm dấu thời gian, đồng thời giữ nguyên các lần chạy tham chiếu không thay đổi. Nếu kết quả lần chạy của bạn tạo ra sự khác biệt đáng kể, vui lòng mở một vấn đề (GitHub issue) kèm dấu thời gian của lần chạy và phiên bản engine được trả về trong siêu dữ liệu phản hồi.

Hạn chế và công việc trong tương lai

Ngay cả với 100,000 ca trên 127 quốc gia, bốn hạn chế cần được thừa nhận rõ ràng: lấy mẫu thiếu ở đuôi dài theo quốc gia, đánh giá một lần, phạm vi chỉ một engine, và nguồn dữ liệu chỉ từ một nguồn gốc. Mỗi hạn chế đang được giải quyết trong công việc theo dõi chủ động.

Phạm vi bao phủ theo quốc gia ở đuôi dài. Second Update bao gồm 127 quốc gia, nhưng phân phối không cân bằng — 10 nhà đóng góp hàng đầu chiếm khoảng ≈66.4% số ca, và phần đuôi dài gồm 97 quốc gia bổ sung đóng góp cùng nhau khoảng ≈7.3% (xấp xỉ 7,300 ca tổng cộng, ~75 ca mỗi quốc gia trung bình). Do đó, các tổ hợp theo từng quốc gia trong phần đuôi dài này nhiễu hơn so với những con số nổi bật gợi ý. Các lần chạy trong tương lai sẽ ưu tiên tuyển chọn từ các quốc gia có mức lấy mẫu thấp để củng cố các ước tính theo từng thẩm quyền (jurisdiction).

Đánh giá một lần (single-shot). Mỗi ca trong nhóm nghiên cứu (cohort) được đánh giá một lần. Các mô hình ngôn ngữ lớn thể hiện độ biến thiên đầu ra đáng kể ngay cả khi nhiệt độ lấy mẫu thấp, vì vậy một giao thức nhiều lần chạy với năm lần đánh giá cho mỗi ca và báo cáo độ biến thiên là bước tiếp theo tự nhiên — đặc biệt trên tập con các ca “trap-case”, nơi tính nhất quán dưới nhiễu dao động khi lấy mẫu là một phần của tuyên bố về an toàn.

Phạm vi chỉ một engine. Báo cáo này mô tả một engine. Các phân tích so sánh với các hệ thống AI khác nằm ngoài phạm vi ở đây; chúng tôi có thể theo đuổi chúng như một nghiên cứu độc lập riêng, với phương pháp luận phù hợp, dựa trên cùng bộ khung (harness) được cấp phép MIT.

Nguồn dữ liệu chỉ từ một nguồn. 100,000 ca là các hồ sơ bệnh nhân thực được ẩn danh, được rút từ một kho lưu trữ lâm sàng duy nhất (kho dữ liệu lâm sàng được hỗ trợ bởi Kantesti SQL). Chúng đại diện cho một luồng sản xuất đã được tuyển chọn và không phải là một mẫu rút ngẫu nhiên đại diện cho quần thể ở cấp độ toàn cầu. Việc mở rộng đánh giá sang dữ liệu đa trung tâm được lấy từ bên ngoài nằm trong lộ trình.

Ngoài bốn điểm này, phần mở rộng dự kiến có tác động lớn nhất là tính tương đương đa ngôn ngữ theo từng thẩm quyền. Kantesti AI Engine phục vụ người dùng bằng 75+ ngôn ngữ, và việc chạy các nhóm con Second-Update được phân tầng theo ngôn ngữ (Thổ Nhĩ Kỳ, Đức, Tây Ban Nha, Pháp, Ý, Bồ Đào Nha, Ả Rập, Quan Thoại) sẽ định lượng chất lượng đầu ra trên các ngôn ngữ mà engine hỗ trợ. Mỗi phân tích theo từng ngôn ngữ sẽ được công bố kèm DOI riêng và nhánh harness riêng.