Chuẩn mốc xét nghiệm máu AI Kantesti

Chuẩn đánh giá tự động Chuẩn đánh giá đã đăng ký trước V11 Bản cập nhật thứ hai — Tháng 4 năm 2026 Cấp phép theo MIT Có thể tái lập · Dữ liệu mở Tập đoàn tổng hợp 100K · 127 nhãn quốc gia

Điểm tổng hợp 99.80% theo thang đo đã đăng ký trước — Bản cập nhật lần thứ 2 V11, tập đoàn 100.000 ca trên 127 nhãn quốc gia

Một chuẩn kỹ thuật tự động dựa trên thang đo đã đăng ký trước (pre-registered), đánh giá điểm chuẩn kỹ thuật tự động của động cơ Kantesti trên 100.000 ca xét nghiệm máu được tạo tổng hợp, gắn với 127 nhãn quốc gia. Nó đo mức độ phù hợp đầu ra, không phải độ chính xác chẩn đoán. Thang đo đã được “đóng băng” trong mã nguồn trước lần phát hành ban đầu V11 và được giữ nguyên từng byte cho Bản cập nhật lần thứ 2 này; bộ khung đánh giá được cấp phép MIT; một mẫu ngẫu nhiên phân tầng các phản hồi thô của động cơ được công bố để kiểm tra. Tất cả các ca đều là tổng hợp; không sử dụng dữ liệu cá nhân.

📖 ~14 phút 📅 Được công bố ngày 23 tháng 4 năm 2026 · Được cập nhật ngày 26 tháng 4 năm 2026 (V11 Bản cập nhật thứ hai) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Được xuất bản: Ngày 23 tháng 4 năm 2026 🔄 V11 Bản cập nhật thứ hai: Ngày 26 tháng 4 năm 2026 🩺 Được chuyên gia y khoa xem xét: Ngày 26 tháng 4 năm 2026 ✅ Thang đánh giá đã đăng ký trước (Giữ nguyên từng byte) 🔓 Mã nguồn & Dữ liệu mở

Chuẩn đánh giá tự động này được thiết kế và chạy bởi Julian Emirhan Bulut, Kỹ sư AI cấp cao và Giám đốc điều hành của Kantesti Ltd. Việc chấm điểm được tự động hoàn toàn trong mã nguồn; thang chấm điểm và hội đồng chấm được phát triển với ý kiến chuyên môn lâm sàng từ Bác sĩ Thomas Klein, MD, Giám đốc Y khoa (Chief Medical Officer) tại Kantesti AI, và được rà soát bởi Ban cố vấn y tế của Kantesti AI. Đây là một chuẩn nội bộ tự chạy, không phải một chuẩn kỹ thuật tự động độc lập hoặc đã được bình duyệt.

Tác giả chính & Giám sát lâm sàng

Thomas Klein, MD

Giám đốc Y khoa, Kantesti AI

Bác sĩ Thomas Klein là bác sĩ huyết học lâm sàng được cấp chứng chỉ hành nghề và bác sĩ nội khoa, với hơn 15 năm kinh nghiệm trong y học phòng thí nghiệm. Với vai trò Giám đốc Y khoa tại Kantesti AI, ông đã chọn bộ ca cho chuẩn này, rà soát nội dung lâm sàng và các đáp án kỳ vọng của các ca tổng hợp, đồng thời phê duyệt thang đo đã đăng ký trước trước lần gọi động cơ đầu tiên.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Đồng tác giả & Triển khai

Julian Emirhan Bulut

Kỹ sư AI cấp cao & CEO, Kantesti Ltd

Julian Emirhan Bulut là người sáng lập và Giám đốc điều hành của Kantesti Ltd. Ông đã thiết kế và triển khai bộ khung đánh giá — bao gồm bộ nạp ca SQL được thêm vào cho V11 Bản cập nhật thứ hai — thực hiện tích hợp API, tiến hành cả lượt chạy tham chiếu ban đầu V11 và lượt chạy 100.000 ca của V11 Bản cập nhật thứ hai, đồng thời chuẩn bị phép tổng hợp thống kê. Người sáng lập nền tảng từ năm 2019.

GitHub Giới thiệu về Kantesti

⚡ Tóm tắt nhanh V11 Bản cập nhật thứ hai — Ngày 26 tháng 4 năm 2026

Điểm tổng hợp 99.80% trên 100.000 ca xét nghiệm máu tổng hợp qua tám chuyên khoa y tế và 127 nhãn quốc gia (Bản cập nhật lần thứ 2 V11).
Không có dương tính giả do chẩn đoán quá mức trên 87.412 cơ hội gắn cờ “trap-case” được theo dõi — cùng phương pháp trap-case như V11 ban đầu, được mở rộng đến mức dân số.
Thang đánh giá đã đăng ký trước được đóng băng trong mã nguồn trước lượt chạy ban đầu V11 và được giữ nguyên từng byte cho Bản cập nhật thứ hai này — không thể tinh chỉnh hậu kiểm (post-hoc).
Chỉ số Mentzer được áp dụng đúng để phân biệt thiếu máu do thiếu sắt với thalassemia beta mức độ nhẹ (minor) trong bản phát hành ban đầu V11; hành vi phân biệt đã được giữ nguyên ở quy mô dân số.
Chỉ điểm kết thúc cho môi trường sản xuất — không có định tuyến ưu tiên, được đánh giá đúng như cách một khách hàng trả phí truy cập.
Độ trễ trung bình 13,26 giây end-to-end (khoảng 9,0–16,94 s), với cả 100.000 ca đều hoàn tất theo đường dẫn chính của động cơ.
Tập đoàn tổng hợp. 100.000 ca kiểm thử được tạo tổng hợp nạp tại thời điểm chạy. Không sử dụng dữ liệu tổng hợp và không sử dụng dữ liệu cá nhân.
Bộ khung (harness) theo giấy phép MIT Được phát hành trên GitHub kèm một mẫu ngẫu nhiên phân tầng (n = 201) các phản hồi thô đầy đủ của động cơ để kiểm tra.
DOI Figshare: 10.6084/m9.figshare.32095435 · Được phản chiếu trên ResearchGate, Academia.edu, GitHub.

Vì sao chuẩn đánh giá này tồn tại và nó kiểm tra điều gì

Phân tích xét nghiệm máu AI có hỗ trợ đang ngày càng được sử dụng trong các quy trình làm việc cho người tiêu dùng và trong lâm sàng, tuy nhiên các khung đánh giá có thể tái lập được thiết kế riêng cho y học xét nghiệm vẫn còn hiếm. Những câu hỏi quan trọng nhất trong bối cảnh này không phải là những câu hỏi được bao phủ bởi các chuẩn đánh giá chung về hỏi-đáp y khoa: liệu một động cơ có thể tách thiếu sắt khỏi đặc điểm thalassemia khi thể tích trung bình hồng cầu là giống nhau hay không, có chẩn đoán quá mức hội chứng Gilbert như viêm gan hay không, và có tạo ra bệnh lý trong một bảng sàng lọc hoàn toàn bình thường hay không?

Một bảng xét nghiệm máu đơn lẻ thường chứa đủ tín hiệu để hỗ trợ nhiều cách diễn giải cạnh tranh, và nhiệm vụ của bác sĩ lâm sàng đọc kết quả là cân nhắc các cách diễn giải đó với nhau thay vì tìm một câu trả lời “chuẩn theo sách giáo khoa”. Một “động cơ” làm tốt trên các ca mẫu theo sách vẫn có thể thất bại ở những ca quan trọng nhất: các bẫy trong chẩn đoán phân biệt, các biến thể lành tính trông có vẻ đáng lo nếu chỉ nhìn riêng lẻ, và những bảng xét nghiệm hoàn toàn bình thường khiến các trợ lý tự tin đi đến việc “tự chế” ra bệnh lý.

Chuẩn đánh giá này được xây dựng đúng dựa trên các kiểu thất bại đó. Mỗi trong số mười lăm ca được chọn cho một đặc tính chẩn đoán cụ thể: tình trạng hồng cầu nhỏ do thiếu sắt cần được phân biệt rõ với thể mang beta-thalassemia có cùng thể tích trung bình hồng cầu (MCV), một biểu hiện của hội chứng Gilbert trong đó bất thường duy nhất là tăng bilirubin gián tiếp đơn độc, và một bảng sàng lọc gồm mười lăm thông số trong đó mọi chỉ số phân tích đều nằm trong khoảng tham chiếu. Thang chấm thưởng cho các động cơ đọc từng ca theo đúng ngữ cảnh của nó và phạt các động cơ đưa ra chẩn đoán tự tin khi không có cơ sở cho chẩn đoán như vậy.

Với tư cách là Thomas Klein, MD, tôi đã chọn bộ ca này vì đây là những mẫu mà các trợ lý y học xét nghiệm thường sai nhất. Kiểu thất bại tốn kém không phải là "bỏ sót một bệnh hiếm" — mà là bịa đặt bệnh lý thường quy ở những bệnh nhân không hề mắc bệnh đó. Của chúng tôi Xác nhận y tế hub mô tả khung tổng thể; trang này mô tả bằng chứng khái niệm ban đầu V11 và Bản cập nhật lần thứ 2 V11 đã mở rộng nó lên 100.000 ca tổng hợp rút ra từ một bộ ca tổng hợp trải rộng 127 nhãn quốc gia — sử dụng cùng thang đo chấm điểm, giống hệt theo từng byte, không cho phép tinh chỉnh hậu kỳ (post-hoc).

Lần chạy tham chiếu mới nhất — Bản cập nhật thứ hai V11 (ngày 26 tháng 4 năm 2026)

Lần chạy tham chiếu của Bản cập nhật thứ hai V11 vào ngày 26 tháng 4 năm 2026 tạo ra điểm tổng hợp là 99.80% trên cùng thang chấm điểm đã đăng ký trước (pre-registered) được dùng trong bản phát hành ban đầu V11, được đánh giá trên 100.000 ca tổng hợp rút ra từ bộ ca tổng hợp Kantesti và trải rộng 127 nhãn quốc gia và các ngôn ngữ 75+. Mọi ca đều hoàn tất theo đường dẫn chính của động cơ; các lần kích hoạt cờ (flag) siêu chẩn đoán ở tình huống bẫy (trap-case) vẫn ở 0 / 87,412. Lần chạy V11 ban đầu vào ngày 23 tháng 4 năm 2026 bao phủ 15 ca được chọn lọc thủ công (composite 99.12%) và xác thực thang chấm điểm; Bản cập nhật thứ hai giữ nguyên thang chấm điểm đó đồng nhất theo từng byte và mở rộng việc đánh giá sang một nhóm quy mô quần thể.

Tổng hợp 99.80% 100.000 trên 100.000 ca được chấm điểm

1.000 Điểm cấu trúc

0.996 Điểm lâm sàng

13.26 s Độ trễ trung bình

0 / 87,412 Bẫy dương tính giả

Công thức tổng hợp kết hợp ba thành phần: phù hợp cấu trúc với bảy mục báo cáo bắt buộc và mười sáu mục con bắt buộc, độ chính xác nội dung được đo bằng khả năng ghi nhớ từ khóa cộng với khả năng ghi nhớ theo hệ thống chấm điểm, cùng với kiểm tra tính hợp lệ của phân phối xác suất, và độ trễ phản hồi so với mục tiêu mức dịch vụ (service-level) của đường dẫn chính. Phân rã chính xác được thể hiện trong công thức thang chấm điểm bên dưới — không có trọng số hay thang con (sub-rubrics) nào bị thay đổi cho Bản cập nhật thứ hai.

Tổng hợp = 0.35 × Cấu trúc + 0.55 × Lâm sàng + 0.10 × Độ trễ

Phần còn lại 0.20 điểm phần trăm “dư địa” (headroom) gần như hoàn toàn phân rã vào điểm phụ lâm sàng — một phần nhỏ các ca (chủ yếu ở Huyết học gan và Thấp khớp) có một từ khóa trong hệ thống chấm điểm kỳ vọng bị thiếu trong phần diễn giải của động cơ, dù nội dung chẩn đoán là đúng. Không có ca nào trong nhóm 100.000 ca của Bản cập nhật thứ hai bỏ sót chính chẩn đoán. Độ trễ (latency) được cải thiện từ mức trung bình 20.17 s ở bản phát hành ban đầu V11 xuống 13.26 s ở Bản cập nhật thứ hai, phản ánh các tối ưu hóa động cơ phục vụ sản xuất giữa hai lần chạy; thang chấm điểm, mã chấm điểm và điểm cuối API không thay đổi.

Điểm tổng hợp theo từng nhãn dao động từ 0.9971 đến 0.9985 trên 30 nhãn quốc gia được đại diện nhiều nhất. “Đuôi dài” của 97 nhãn bổ sung (tổng cộng ≈7.300 ca) không cho thấy sự suy giảm có hệ thống. Các nhãn xuất hiện thường xuyên nhất theo số lượng ca là Hoa Kỳ (10.500), Brazil (9.500), Tây Ban Nha (9.000), Ý (8.000), Đức (7.800), Pháp (7.400), Bồ Đào Nha (5.800), Türkiye (3.400), Vương quốc Anh (2.900) và Mexico (2.500).

Từ 15 ca đến 100.000: sự tiến hóa của tập đoàn trên 127 nhãn quốc gia

Bộ ca ban đầu của V11 bao phủ bảy chuyên khoa — huyết học, nội tiết, y học chuyển hóa, gan mật (hepatology), thận học, tim mạch, thấp khớp — cộng thêm hai ca “bẫy” chuyên biệt về tăng chẩn đoán (hyperdiagnosis), với mỗi ca là một bảng xét nghiệm máu được tạo tổng hợp. Bản cập nhật lần thứ 2 V11 mở rộng đánh giá đến 100.000 ca tổng hợp trên 127 nhãn quốc gia, được phân bổ qua tám chuyên khoa (bảy chuyên khoa ban đầu cộng thêm một nhóm nội khoa nội bộ chuyên biệt hấp thụ phần tập con bẫy). Cùng một thang chấm điểm được áp dụng đồng nhất theo từng byte cho cả hai lần chạy.

Vì tất cả các ca đều được tạo tổng hợp, không có định danh thực để loại bỏ và không liên quan dữ liệu cá nhân. Mỗi ca tổng hợp mang một mã ca nội bộ cho chuẩn (BT-NNN-LABEL trong bộ ban đầu V11, một mã ổn định case_uid trong Bản cập nhật lần thứ 2). Không có dữ liệu cá nhân xuất hiện ở bất kỳ nơi nào trong bộ khung công bố, báo cáo kỹ thuật, hoặc các bộ dữ liệu đã phát hành.

bản phát hành ban đầu V11 — 15 ca được chọn lọc thủ công

Bảng ca V11 ban đầu được bác sĩ Thomas Klein tuyển chọn thủ công để khai thác các mẫu chẩn đoán mà các trợ lý y học xét nghiệm thường sai nhất. Mỗi trong số mười lăm ca được chọn cho một thuộc tính chẩn đoán cụ thể, được liệt kê bên dưới.

Huyết học (3) BT-001, BT-006, BT-007 Thiếu máu do thiếu sắt · Thiếu vitamin B12 · Thalassemia beta thể nhẹ

Nội tiết (3) BT-002, BT-008, BT-012 Viêm tuyến giáp Hashimoto · PCOS kèm đề kháng insulin · Thiếu vitamin D nặng

Chuyển hóa (2) BT-003, BT-013 T2DM kèm hội chứng chuyển hóa · Tăng acid uric máu kèm nguy cơ gout

Gan mật (2) BT-004, BT-009 NAFLD / NASH · Viêm gan siêu vi cấp

Thận học · Tim mạch · Thấp khớp (3) BT-005, BT-010, BT-011 Bệnh thận mạn giai đoạn 3 · Rối loạn lipid máu gây xơ vữa (atherogenic dyslipidaemia) · Lupus ban đỏ hệ thống

Các ca bẫy (2) BT-014, BT-015 Hội chứng Gilbert (tăng bilirubin gián tiếp đơn độc) · Sàng lọc người trưởng thành hoàn toàn bình thường

Vì sao lại có phân bố cụ thể này

Huyết học có ba trường hợp vì các chẩn đoán phân biệt kiểu vi hồng cầu (microcytic) và kiểu đại hồng cầu (macrocytic) là những “bẫy” có khối lượng công việc cao nhất trong thực hành xét nghiệm trong thế giới thực. Nội tiết có ba trường hợp vì các biểu hiện của bệnh Hashimoto, PCOS và thiếu vitamin D có các “dạng” chẩn đoán khác nhau (do tự kháng thể chi phối, do tỷ lệ hormone chi phối, do một dấu ấn đơn lẻ chi phối). Các chuyên khoa chỉ có một trường hợp vẫn có ý nghĩa vì mỗi tình trạng như CKD, nguy cơ ASCVD và SLE đều có hệ thống tính điểm riêng mà động cơ cần gọi (lần lượt là phân giai đoạn KDIGO, nguy cơ 10 năm ASCVD, và tiêu chí SLE EULAR/ACR năm 2019).

Bản cập nhật lần thứ 2 V11 — 100.000 ca tổng hợp trên 127 nhãn quốc gia

Bản cập nhật lần thứ 2 thay thế literal Python 15 ca được mã hóa cứng của V11 ban đầu bằng một bộ ca tổng hợp lớn hơn được tạo ra theo chương trình. Bộ ca được nạp ở đầu mỗi lần chạy và cấu hình được ghi log để minh bạch. Phân bố tập đoàn theo lĩnh vực nội dung được trình bày bên dưới.

Nội tiết học 23.900 ca (23.9%) Tuyến giáp, PCOS, vitamin D, trục sinh dục, tuyến yên

Y học chuyển hoá 21.900 ca (21.9%) T2DM, hội chứng chuyển hoá, bảng lipid, tăng acid uric máu

Huyết học 15.400 ca (15.4%) Phân loại vi hồng cầu và đại hồng cầu, B12/folate, các xét nghiệm về sắt

Chuyên khoa gan mật 12.400 ca (12.4%) NAFLD/NASH, viêm gan do virus, FIB-4, ứ mật

Nội khoa (bao gồm phân nhóm trap) 9.000 ca (9.0%) Biểu hiện hỗn hợp và 8.723 ca trap tăng chẩn đoán chuyên biệt

Tim mạch 7.500 ca (7.5%) Nguy cơ ASCVD, rối loạn lipid gây xơ vữa, hs-CRP

Chuyên khoa Thấp khớp 6.000 ca (6.0%) SLE, RA, viêm mạch, bảng tự kháng thể (tiêu chí EULAR/ACR)

Thận học 4.000 ca (4.0%) Phân giai đoạn CKD (KDIGO), xu hướng eGFR, rối loạn điện giải

Phân bố nhãn quốc gia tổng hợp — top 10 nhãn

100.000 ca tổng hợp mang 127 nhãn quốc gia (ISO 3166-1 alpha-2) để kiểm tra xử lý theo địa phương (locale handling). Gán nhãn: Châu Âu 57.7%, châu Mỹ 25.4%, châu Á-Thái Bình Dương 6.2%, các nhãn Trung Đông/Châu Phi được đặt tên 3.4%, và một “đuôi dài” gồm 97 nhãn bổ sung khác tổng cộng xấp xỉ 7.3%. Mười nhãn xuất hiện thường xuyên nhất theo số lượng ca là Hoa Kỳ (10.500), Brazil (9.500), Tây Ban Nha (9.000), Ý (8.000), Đức (7.800), Pháp (7.400), Bồ Đào Nha (5.800), Türkiye (3.400), Vương quốc Anh (2.900) và Mexico (2.500). Điểm tổng hợp theo từng nhãn dao động từ 0.9971 đến 0.9985. Các số lượng nhãn này là thuộc tính của các ca được tạo ra dùng để kiểm tra xử lý theo địa phương — chúng không phải người dùng thực và không phải phạm vi địa lý ngoài đời thực.

Rubric đã đăng ký trước, được giải thích

Đăng ký trước (pre-registration) là lựa chọn phương pháp luận quan trọng nhất trong chuẩn đánh giá này. Mọi chẩn đoán kỳ vọng, mọi hệ thống tính điểm lâm sàng và mọi mục trong báo cáo đều được cam kết vào mã nguồn trước khi động cơ được kích hoạt. Do đó, việc tinh chỉnh hậu kiểm (post-hoc) thang đo để “làm đẹp” cho động cơ là không thể.

Ba thành phần tạo nên điểm tổng hợp. Thành phần cấu trúc đóng góp 35% và đo việc động cơ có trả về bảy mục báo cáo bắt buộc hay không (tiêu đề, tóm tắt, phát hiện chính, chẩn đoán phân biệt, hệ thống tính điểm, khuyến nghị, theo dõi) và mười sáu mục con bắt buộc nằm trong đó. Sự hiện diện của mục chiếm 40% và sự hiện diện của mục con chiếm 60% trong phép tính cấu trúc.

Các thành phần lâm sàng đóng góp 55% và kết hợp ba yếu tố: ghi nhớ từ khóa chẩn đoán (70% điểm phụ lâm sàng), ghi nhớ hệ thống tính điểm (20% — động cơ có tính Mentzer, FIB-4, HOMA-IR, nguy cơ ASCVD, phân giai đoạn KDIGO, tiêu chí EULAR/ACR khi phù hợp hay không), và kiểm tra tính hợp lệ tổng xác suất (10% — các xác suất trong chẩn đoán phân biệt phải cộng lại nằm trong khoảng [90, 110]). Với các ca “bẫy”, sẽ trừ một hình phạt siêu chẩn đoán (hyperdiagnosis) rõ ràng lên đến 0,30, được tính là 0,10 cho mỗi cờ bệnh lý được bịa ra, tối đa ba cờ.

Các thành phần độ trễ đóng góp 10%. Phản hồi dưới 20 giây nhận toàn bộ 0,10; dưới 40 giây nhận 0,05; và bất kỳ phản hồi nào chậm hơn nhận 0. Mốc 20 giây phản ánh mục tiêu mức dịch vụ (service-level objective) cho phần sản xuất dịch vụ đường chính; trần 40 giây phản ánh ngân sách dự phòng cho Giai đoạn 2 đối với các lần gọi động cơ nặng.

Điều mà đăng ký trước ngăn chặn

Các chuẩn đánh giá do chính bên thứ nhất (first-party) thực hiện nổi tiếng vì có thể thổi phồng số liệu của họ thông qua tinh chỉnh thang đo hậu kiểm. Mẫu hình gần như luôn giống nhau: nhóm chạy động cơ, xem chỗ nào kém, rồi lặng lẽ điều chỉnh thang đo để các khu vực kém đó được tính ít hơn. Bằng cách cam kết thang đo vào mã nguồn trước lần gọi động cơ đầu tiên và công bố bộ khung dưới giấy phép MIT, sự điều chỉnh này trở nên nhìn thấy được trong hệ thống quản lý phiên bản. Bất kỳ ai cũng có thể clone kho mã, kiểm tra ngày tác giả của thang đo, và xác minh rằng kết quả của động cơ không được dùng để định hình việc chấm điểm.

Các ca “bẫy chẩn đoán quá mức” — vì sao việc gọi quá nhiều mới là chế độ thất bại thực sự

Việc gọi quá mức (over-calling) bệnh lý một cách hung hăng trên các màn hình bình thường là một kiểu thất bại đã được ghi nhận của các trợ lý y tế hướng tới người tiêu dùng. Chi phí phát sinh ở phía sau bao gồm điều tra không cần thiết, lo lắng của bệnh nhân và thăm khám/đánh giá do can thiệp y khoa (iatrogenic workup). Hai ca “bẫy” trong chuẩn đánh giá này được thiết kế để làm lộ và có thể chấm điểm cho kiểu thất bại đó.

🟡 Bẫy 1 — BT-014-GILBERT

Biểu hiện. Nam 24 tuổi với bilirubin toàn phần 2,4 mg/dL. Phân suất trực tiếp bình thường, transaminase và phosphatase kiềm nằm trong giới hạn tham chiếu, hồng cầu lưới không có gì đáng chú ý, và haptoglobin cùng LDH loại trừ tan máu.

Cách giải thích đúng. Hội chứng Gilbert — một đa hình lành tính của UGT1A1. Phần giải thích không được viện dẫn viêm gan, xơ gan, thiếu máu tan máu hoặc tắc nghẽn đường mật.

Kết quả V11. Tổng hợp 1,000. Không có bất kỳ cờ quá chẩn đoán nào trong sáu cờ được theo dõi xuất hiện như chẩn đoán đang hoạt động.

🟡 Bẫy 2 — BT-015-HEALTHY

Biểu hiện. Nữ 35 tuổi với bảng sàng lọc thường quy gồm mười lăm tham số. Mọi chất phân tích đều nằm thoải mái trong khoảng tham chiếu của chúng.

Cách giải thích đúng. Sự trấn an và duy trì lối sống. Phần giải thích không nên bịa ra bệnh lý ranh giới chỉ để nghe có vẻ hữu ích về mặt lâm sàng.

Kết quả V11. Tổng hợp 1.000. Không có bất kỳ cờ cảnh báo chẩn đoán quá mức nào trong bảy cờ được theo dõi — đái tháo đường, thiếu máu, suy giáp, rối loạn lipid máu, viêm gan, bệnh thận, thiếu hụt — xuất hiện như chẩn đoán đang hoạt động.

Trên cả hai bẫy, đã kiểm tra mười ba cờ cảnh báo chẩn đoán quá mức được theo dõi. Không có cờ nào được kích hoạt. Đây là kết quả quan trọng nhất đối với bất kỳ bác sĩ nào đang cân nhắc sử dụng một công cụ AI như một công cụ sàng lọc hoặc trước khi tư vấn: hệ thống không tạo ra bệnh tật khi không hề tồn tại.

Chỉ số Mentzer: tách biệt thiếu sắt với đặc điểm bệnh thalassemia

Một phát hiện có giá trị cao thứ hai liên quan đến việc ghép ca BT-001 (thiếu máu thiếu sắt) với ca BT-007 (thiếu máu beta-thalassemia thể nhẹ). Cả hai đều có biểu hiện hồng cầu nhỏ (microcytosis) và là một trở ngại rất quen thuộc đối với các bộ phân loại “ngây thơ”. Chỉ số Mentzer, được tính bằng MCV chia cho số lượng hồng cầu (RBC), lớn hơn 13 trong thiếu máu thiếu sắt và nhỏ hơn 13 trong đặc điểm thalassemia.

Ở BT-001, bệnh nhân là nữ 34 tuổi với hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritin 6 ng/mL và TIBC tăng. Chỉ số Mentzer khoảng 17,7 ủng hộ thiếu hụt sắt tuyệt đối. Ở BT-007, bệnh nhân là nam 28 tuổi có microcytosis (MCV 65,8 fL) nhưng số lượng RBC cao 6,2, RDW bình thường, ferritin bình thường và HbA2 5,6%. Chỉ số Mentzer khoảng 10,6 gợi ý đặc điểm thalassemia, và HbA2 tăng xác nhận beta-thalassemia thể nhẹ.

Thiếu máu thiếu sắt Mentzer > 13 Ferritin thấp, TSAT thấp, TIBC cao, RDW tăng

Đặc điểm beta-thalassemia Mentzer < 13 Ferritin bình thường, RDW bình thường, HbA2 tăng (>3.5%), số lượng RBC cao

Cả hai ca đều đạt điểm 1.000. Công cụ đã sử dụng rõ ràng chỉ số Mentzer trong cả hai phần diễn giải và trả về chẩn đoán đúng trong từng trường hợp. Đây là kết quả mang tính trấn an lâm sàng nhất trong toàn bộ bộ chuẩn, vì việc phân loại nhầm đặc điểm thalassemia là thiếu máu thiếu sắt sẽ dẫn đến bổ sung sắt không phù hợp và bỏ lỡ cơ hội sàng lọc tiền sử gia đình; còn việc phân loại nhầm thiếu máu thiếu sắt là thalassemia sẽ làm chậm liệu pháp thay thế đơn giản. Phần khoảng ferritin giải thích bối cảnh chênh lệch rộng hơn.

Kết quả theo từng ca từ lần chạy tham chiếu ban đầu V11 (23 tháng 4, 2026)

Lần chạy tham chiếu V11 ban đầu trên đoàn hệ chứng minh khái niệm gồm 15 ca đóng vai trò là nền tảng phương pháp luận của Second Update: mọi chi tiết theo từng ca bên dưới minh họa cách bộ tiêu chí xử lý một phản hồi thực tế của động cơ. Mười hai trong số mười lăm ca đạt điểm tổng hợp trần là 1.000 trên nhánh chính; ba ca được phục vụ thông qua cơ chế dự phòng Phase 2, mất phần thưởng cộng thêm 0.05 về độ trễ trong khi vẫn giữ nguyên toàn bộ nội dung lâm sàng và cấu trúc. Một ca thiếu một mục con bắt buộc; một ca trả về tổng xác suất phân bố giảm nhẹ.

Mã ca Chuyên khoa Tổng hợp Độ trễ Đường dẫn

BT-001-IDAHuyết học1.00017,8 giâychính

BT-006-B12Huyết học1.00018,4 giâychính

BT-007-THALHuyết học1.00017,0 giâychính

BT-002-HASHNội tiết học0.95037,0 giâydự phòng

BT-008-PCOSNội tiết học0.98718,6 giâychính

BT-003-T2DMTrao đổi chất1.00019,1 giâychính

BT-013-GOUTTrao đổi chất1.00019,4 giâychính

BT-004-NAFLDChuyên khoa gan mật1.00019,6 giâychính

BT-009-VIRHEPChuyên khoa gan mật0.95023,4 giâydự phòng

BT-014-GILBERTBẫy1.00018,9 giâychính

BT-005-CKDThận học1.00017,4 giâychính

BT-010-ASCVDTim mạch1.00019,7 giâychính

BT-011-SLEChuyên khoa Thấp khớp0.98118,2 giâychính

BT-012-VITDNội tiết học1.00019,3 giâychính

BT-015-HEALTHYBẫy1.00018,7 giâydự phòng

Trường hợp PCOS (BT-008) đã bị thiếu một tiểu mục bắt buộc trong cấu trúc phản hồi — mười lăm trên mười sáu thay vì mười sáu trên mười sáu — khiến điểm cấu trúc giảm từ 1,000 xuống 0,963. Trường hợp SLE (BT-011) trả về tổng xác suất theo phân phối giảm nhẹ, làm điểm lâm sàng giảm xuống 0,965 trong khi vẫn giữ nguyên mọi từ khóa chẩn đoán và hệ thống chấm điểm. Không có trường hợp nào dưới mức hoàn hảo bỏ sót chẩn đoán đúng.

Tổng hợp V11 Second Update — 100,000 ca

Ở quy mô dân số, từng hàng ca không thể đọc được như của con người, vì vậy Bản cập nhật lần thứ 2 báo cáo các chỉ số tổng hợp thay vì một bảng 100.000 hàng. Chỉ số tổng hợp chính được trình bày bên dưới; phần phân rã theo từng chuyên khoa và theo từng nhãn quốc gia được công bố trong báo cáo kỹ thuật và phần nộp Figshare. Một mẫu ngẫu nhiên phân tầng của n = 201 các phản hồi thô của động cơ (hạt giống xác định 20260426) được công bố trong thư mục GitHub results/ để kiểm tra.

Điểm tổng hợp Ban đầu V11: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 trên toàn bộ đoàn hệ 100,000 ca

Điểm cấu trúc (trung bình) Ban đầu V11: 0.998 → Second Update: 1.000 Tuân thủ cấu trúc hoàn hảo ở quy mô quần thể

Điểm lâm sàng (trung bình) Ban đầu V11: 0.998 → Second Update: 0.996 −0.002; không ca nào bỏ sót chính chẩn đoán

Độ trễ — trung bình (khoảng) V11 ban đầu: 20,17 giây (17,0–37,0 giây) → Cập nhật lần thứ hai: 13,26 giây (9,0–16,94 giây) Tối ưu hóa động cơ sản xuất giữa các lần chạy

Đường dẫn động cơ = chính V11 ban đầu: 12 / 15 → Cập nhật lần thứ hai: 100,000 / 100,000 Không cần phương án dự phòng Giai đoạn 2 tại bất kỳ thời điểm nào trong quá trình chạy

Cờ cảnh báo siêu chẩn đoán cho tập con bẫy V11 ban đầu: 0 / 13 → Cập nhật lần thứ hai: 0 / 87,412 Không có dương tính giả ở quy mô quần thể (8.723 trường hợp bẫy được theo dõi)

Điểm số tiêu đề không cho chúng ta biết điều gì

Điểm tổng hợp đạt 99.80 phần trăm theo thang đo đã đăng ký trước cụ thể này, trên một tập đoàn tổng hợp 100.000 ca trải rộng 127 nhãn quốc gia, thể hiện hiệu năng gần mức trần — nhưng cần được đặt trong bối cảnh cẩn thận. Kết quả mô tả hành vi của động cơ so với thang đo mà chúng tôi đã cam kết đưa vào mã nguồn trong V11; đây không phải là một khẳng định phổ quát về độ đúng của động cơ trên mọi bảng xét nghiệm máu tồn tại ngoài thực tế.

Điểm số cho thấy động cơ đã xử lý đúng các mẫu chẩn đoán được chọn cho đánh giá này trên một nhóm thuần tập quy mô quần thể, theo một phương pháp luận đã được công bố và có thể tái tạo. Điểm số không nói rằng động cơ đúng với mọi bảng xét nghiệm máu hiện có ngoài thực tế. Điểm số cũng không nói rằng động cơ nên thay thế phán đoán của bác sĩ lâm sàng. Và điểm số cũng không nói rằng động cơ vượt trội hơn các hệ thống AI khác — các phân tích so sánh với các động cơ khác đã được cố ý đưa ra ngoài phạm vi của báo cáo này.

Điều mà điểm số thực sự xác lập là một mốc chuẩn. Khi bộ tiêu chí và khung thử nghiệm được công khai, các phiên bản tương lai của động cơ có thể được đánh giá dựa trên cùng bộ tiêu chí — áp dụng cho 15 ca ban đầu của V11, nhóm thuần tập 100.000 ca của Cập nhật lần thứ hai, hoặc bất kỳ sự mở rộng nào sau đó — và khoảng cách giữa điểm số đã công bố và bất kỳ lần chạy tiếp theo nào là bản thân nó có thể đo lường được. Đây là giá trị của việc đăng ký trước: nó chuyển các tuyên bố về hiệu suất thành các tuyên bố có thể kiểm chứng.

Cách tái tạo chuẩn đánh giá này trong 10 phút

Việc tái tạo chỉ cần một cặp thông tin xác thực API Kantesti và môi trường Python 3.10 trở lên với requests Và reportlab các thư viện đã được cài đặt. Toàn bộ khung thử nghiệm là một mô-đun Python duy nhất, tự chứa, được phát hành theo giấy phép MIT.

💻 GitHub Khung thử nghiệm được cấp phép MIT · phản hồi thô · lần chạy tham chiếu 🔗 DOI Figshare 10.6084/m9.figshare.32095435 · hồ sơ học thuật chuẩn 🎓 ResearchGate Công bố 404175463 · V11 Cập nhật lần thứ hai · lớp khám phá học thuật 📄 Academia.edu Bài viết 165956808 · V11 Cập nhật lần thứ hai · lớp khám phá học thuật

Bốn bước để chạy mới

Một. Sao chép kho lưu trữ: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Hai. Cài đặt các phụ thuộc với pip install -r requirements.txt (Cập nhật lần thứ hai bổ sung mysql-connector-python ≥ 8.0 cho bộ nạp ca theo SQL). Ba. Đặt KANTESTI_USERNAME Và KANTESTI_PASSWORD dưới dạng biến môi trường cho API của động cơ. Đối với bộ nạp ca SQL của Cập nhật lần thứ hai, cũng đặt KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, Và KANTESTI_DB_PASSWORD — bộ tải kết nối thông qua vai trò chỉ đọc (bench_reader) không có đặc quyền đối với việc xác định các bảng. Bốn. Chạy python benchmark_bloodtest.py --limit 100000 cho toàn bộ lần chạy Second-Update, hoặc python benchmark_bloodtest.py --limit 1000 để lặp nhanh. Kết quả đầu ra được lưu tại ./benchmark_results/: một bảng điểm CSV với các cột theo nhãn quốc gia và theo chuyên khoa, một tổng hợp JSON, một mẫu phản hồi thô ngẫu nhiên phân tầng, và một báo cáo Markdown.

Các lần chạy tham chiếu từ ngày 23 tháng 4 năm 2026 (V11 ban đầu, 15 ca) và ngày 26 tháng 4 năm 2026 (V11 Second Update, 100,000 ca) được lưu giữ trong results/ thư mục của kho mã. Lần chạy mới sẽ tạo một bảng điểm mới kèm dấu thời gian, đồng thời giữ nguyên các lần chạy tham chiếu không thay đổi. Nếu kết quả lần chạy của bạn tạo ra sự khác biệt đáng kể, vui lòng mở một vấn đề (GitHub issue) kèm dấu thời gian của lần chạy và phiên bản engine được trả về trong siêu dữ liệu phản hồi.

Hạn chế và công việc trong tương lai

Ngay cả khi có 100.000 ca trên 127 nhãn quốc gia, bốn hạn chế cần được thừa nhận rõ ràng: thiếu lấy mẫu ở đuôi dài (long-tail label undersampling), đánh giá một lần (single-shot evaluation), phạm vi một động cơ (single-engine scope) và nguồn dữ liệu một nguồn gốc (single-source data origin). Tất cả đang được giải quyết trong công việc theo dõi đang diễn ra.

Phạm vi bao phủ nhãn đuôi dài. Bản Cập nhật Thứ Hai (Second Update) bao gồm 127 nhãn quốc gia, nhưng phân phối không cân bằng — 10 nhãn hàng đầu chiếm ≈66,4% số ca, và đuôi dài gồm 97 nhãn bổ sung đóng góp cùng nhau ≈7,3% (khoảng 7.300 ca tổng cộng, ~75 ca mỗi nhãn trung bình). Vì vậy, các tổ hợp theo từng nhãn trong đuôi dài này nhiễu hơn so với những con số tiêu đề gợi ý. Các lần chạy trong tương lai sẽ cân bằng lại việc gán nhãn để củng cố các ước tính theo từng nhãn.

Đánh giá một lần (single-shot). Mỗi ca trong nhóm nghiên cứu (cohort) được đánh giá một lần. Các mô hình ngôn ngữ lớn thể hiện độ biến thiên đầu ra đáng kể ngay cả khi nhiệt độ lấy mẫu thấp, vì vậy một giao thức nhiều lần chạy với năm lần đánh giá cho mỗi ca và báo cáo độ biến thiên là bước tiếp theo tự nhiên — đặc biệt trên tập con các ca “trap-case”, nơi tính nhất quán dưới nhiễu dao động khi lấy mẫu là một phần của tuyên bố về an toàn.

Phạm vi chỉ một engine. Báo cáo này mô tả một engine. Các phân tích so sánh với các hệ thống AI khác nằm ngoài phạm vi ở đây; chúng tôi có thể theo đuổi chúng như một nghiên cứu độc lập riêng, với phương pháp luận phù hợp, dựa trên cùng bộ khung (harness) được cấp phép MIT.

Dữ liệu tổng hợp. 100.000 ca được tạo tổng hợp một cách nhân tạo, không phải là “ca tổng hợp” theo nghĩa dữ liệu thực; và kết quả không chuyển giao sang hiệu năng lâm sàng trong thế giới thực. Đánh giá trên dữ liệu thực, có sự đồng ý và được lấy từ nguồn bên ngoài sẽ cần có giám sát đạo đức phù hợp, và nằm ngoài phạm vi của benchmark tổng hợp này.

Ngoài bốn điểm này, phần mở rộng dự kiến có tác động lớn nhất là tính tương đương đa ngôn ngữ theo từng thẩm quyền. Kantesti AI Engine phục vụ người dùng bằng 75+ ngôn ngữ, và việc chạy các nhóm con Second-Update được phân tầng theo ngôn ngữ (Thổ Nhĩ Kỳ, Đức, Tây Ban Nha, Pháp, Ý, Bồ Đào Nha, Ả Rập, Quan Thoại) sẽ định lượng chất lượng đầu ra trên các ngôn ngữ mà engine hỗ trợ. Mỗi phân tích theo từng ngôn ngữ sẽ được công bố kèm DOI riêng và nhánh harness riêng.

Hãy thử cùng Engine đã đạt Điểm tổng hợp 99.80% trên 100,000 ca

Hãy tải lên bảng xét nghiệm máu của bạn tới cùng điểm cuối sản xuất (production endpoint) đã được đánh giá trong benchmark này. Hơn 2 triệu người dùng trên toàn thế giới sử dụng Kantesti AI Engine để giải thích hơn 15.000 chỉ dấu sinh học trên 75+ ngôn ngữ.

🔬 Dùng thử bản demo miễn phí

Tiện ích mở rộng Chrome App Store Google Play

📚 Cách trích dẫn benchmark này

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Báo cáo Kỹ thuật V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Tài liệu tham khảo phương pháp luận bên ngoài

Mentzer, W. C. (1973). Phân biệt thiếu hụt sắt với đặc điểm thalassemia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Tiêu chí phân loại của Liên đoàn Châu Âu Chống Thấp khớp / Trường Đại học Thấp khớp Hoa Kỳ năm 2019 cho bệnh lupus ban đỏ hệ thống. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test for Large Language Models. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Điểm tổng hợp

100,000Số ca được chấm điểm

127Các nhãn quốc gia được bao phủ

0 / 87,412Bẫy dương tính giả

Những câu hỏi thường gặp

Độ chính xác của động cơ AI Kantesti trên các ca kiểm thử tổng hợp là như thế nào?

Theo một rubric đã đăng ký trước (pre-registered rubric), chạy trên 100.000 ca kiểm thử được tạo tổng hợp nhân tạo trên tám lĩnh vực nội dung và 127 nhãn quốc gia (V11 Second Update), động cơ đạt điểm tổng hợp 99,80 phần trăm, với không có cờ cảnh báo chẩn đoán quá mức (hyperdiagnosis flags) nào trong 87.412 cơ hội bẫy (trap-case opportunities) được theo dõi và độ trễ phản hồi trung bình là 13,26 giây. Điểm tổng hợp này đo mức độ phù hợp đầu ra trên các đầu vào tổng hợp, không phải độ chính xác chẩn đoán. Bản phát hành V11 ban đầu đã áp dụng cùng rubric này trên 15 ca được xây dựng thủ công (điểm tổng hợp 99,12%); Bản Cập nhật Thứ Hai giữ nguyên rubric từng byte và mở rộng nó sang một tập đoàn tổng hợp lớn hơn. Bảng điểm đầy đủ được công bố trên Figshare theo DOI 10.6084/m9.figshare.32095435 và trên GitHub theo giấy phép MIT.

Động cơ AI Kantesti có được xác nhận về mặt lâm sàng không?

Không. Động cơ đã được đánh giá bằng một benchmark kỹ thuật tự động (không phải thẩm định lâm sàng), dựa trên một rubric đã được “đóng băng” trong mã nguồn trước lần chạy ban đầu của V11 và được giữ nguyên từng byte cho V11 Second Update, được đánh giá trên 100.000 ca xét nghiệm máu tổng hợp trên các lĩnh vực huyết học (hematology), nội tiết (endocrinology), y học chuyển hóa (metabolic medicine), gan mật (hepatology), thận học (nephrology), tim mạch (cardiology), thấp khớp (rheumatology) và y học nội khoa (internal medicine), rút ra từ 127 nhãn quốc gia. Việc giám sát lâm sàng do Tiến sĩ Thomas Klein, MD (ORCID 0009-0009-1490-1321) thực hiện, là bác sĩ huyết học lâm sàng được cấp chứng chỉ hành nghề (board-certified) và là Giám đốc Y khoa (Chief Medical Officer) tại Kantesti AI.

Trường hợp “bẫy chẩn đoán quá mức” là gì?

Một ca “bẫy chẩn đoán quá mức” (hyperdiagnosis trap) là một tình huống lâm sàng được thiết kế đặc biệt để phát hiện hành vi chẩn đoán quá mức trong các động cơ AI. Chuẩn đánh giá ban đầu V11 sử dụng hai ca như vậy làm bằng chứng khái niệm về phương pháp: một tình trạng tăng bilirubin gián tiếp đơn độc phù hợp với hội chứng Gilbert (trong đó cách diễn giải đúng là đa hình UGT1A1 lành tính chứ không phải viêm gan hay tan máu) và một bảng sàng lọc hoàn toàn bình thường ở người trưởng thành (trong đó đầu ra đúng là trấn an chứ không phải một bệnh lý “biên” do tạo ra). Bản cập nhật thứ hai V11 đã mở rộng phương pháp bẫy này sang một tập con chuyên biệt gồm 8.723 ca, tạo ra 87.412 cơ hội gắn cờ chẩn đoán quá mức được theo dõi — và tỷ lệ dương tính giả của động cơ vẫn bằng không.

Đánh giá của công cụ AI Kantesti có thể tái lập được không?

Bộ khung đánh giá đầy đủ được phát hành theo giấy phép MIT dưới dạng một mô-đun Python duy nhất, tự chứa. Lần chạy ban đầu V11 chỉ cần một cặp thông tin xác thực API của Kantesti và Python 3.10 trở lên. Bản cập nhật thứ hai V11 bổ sung một bộ nạp ca SQL chỉ đọc, có tham số, yêu cầu thông tin xác thực kho lưu trữ lâm sàng của Kantesti (một bench_reader vai trò không có đặc quyền trong việc xác định các bảng). Mã nguồn, câu lệnh SQL của bộ nạp ca, thang đo (rubric) (giữ nguyên từng byte giữa các lần phát hành), và một mẫu ngẫu nhiên phân tầng các phản hồi thô của động cơ từ cả lần chạy ban đầu V11 và các lần chạy tham chiếu của Bản cập nhật thứ hai đều có sẵn tại github.com/emirhanai/kantesti-blood-test-benchmark và được phản chiếu trên Figshare, ResearchGate và Academia.edu.

Động cơ AI Kantesti phân biệt tình trạng thiếu sắt với đặc điểm beta-thalassemia như thế nào?

Động cơ áp dụng chỉ số Mentzer, được tính bằng thể tích khối trung bình hồng cầu (MCV) chia cho số lượng hồng cầu (RBC). Chỉ số Mentzer trên 13 hỗ trợ chẩn đoán thiếu máu thiếu sắt, trong khi giá trị dưới 13 hỗ trợ đặc điểm beta-thalassemia. Trong chuẩn đánh giá ban đầu V11, cả hai biểu hiện đều được phân loại đúng với phép tính chỉ số Mentzer được nêu rõ, có hỗ trợ bởi ferritin, RDW và ngữ cảnh HbA2. Trong toàn bộ đoàn hệ 100.000 ca của Bản cập nhật thứ hai V11, hành vi phân biệt tương tự được duy trì ở quy mô quần thể.

Tôi có thể tìm dữ liệu benchmark thô và mã nguồn ở đâu?

Báo cáo kỹ thuật được nộp trên Figshare theo DOI 10.6084/m9.figshare.32095435 (bao gồm cả lần phát hành ban đầu V11 và Bản cập nhật thứ hai V11), được phản chiếu trên ResearchGate (bài đăng 404175463) và Academia.edu (bài 165956808) — cả hai đều được cập nhật với tiêu đề của Bản cập nhật thứ hai V11 và kết quả của 100.000 ca — và bộ khung Python theo giấy phép MIT kèm toàn bộ kết quả của các lần chạy tham chiếu có tại github.com/emirhanai/kantesti-blood-test-benchmark. Mạng lưới phản chiếu trên bốn nền tảng đảm bảo tính sẵn có lâu dài và linh hoạt trong việc trích dẫn.

Vì sao việc đăng ký trước (pre-registration) lại quan trọng đối với các chuẩn đánh giá y khoa bằng AI?

Việc đăng ký trước ngăn chặn việc “tinh chỉnh rubric hậu kiểm” (post-hoc rubric tuning), đây là cách phổ biến nhất mà các chuẩn đánh giá do công ty vận hành có thể thổi phồng các con số của chính họ. Bằng cách cam kết rubric vào mã nguồn trước bất kỳ lần gọi động cơ nào và công bố bộ khung công khai, ngày tác giả rubric được ghi nhận trở nên có thể kiểm tra trong hệ thống quản lý phiên bản, và kết quả của động cơ không thể đã định hình tiêu chí chấm điểm.

Chuẩn đánh giá này có bao gồm so sánh với các động cơ AI khác không?

Không. Báo cáo V11 — cả lần phát hành ban đầu và Bản cập nhật thứ hai — cố ý mô tả một động cơ duy nhất dựa trên một thang đo cố định thay vì đặt nó cạnh các hệ thống thương mại thay thế. Bộ khung là mã nguồn mở theo giấy phép MIT (hiện bao gồm bộ nạp ca SQL), vì vậy các nhà nghiên cứu độc lập có thể đánh giá bất kỳ động cơ nào họ chọn dựa trên cùng thang đo và bộ nạp ca và công bố kết quả của họ.

Các ca bệnh của bệnh nhân là thật hay tổng hợp?

Tất cả các ca đều được tạo tổng hợp — 15 ca được xây dựng thủ công trong bản phát hành ban đầu V11 và 100.000 ca trong Bản Cập nhật Thứ Hai. Chúng không phải là “ca tổng hợp”: không có dữ liệu tổng hợp, không có quy trình xin đồng ý (consent process) và không có khử định danh (de-identification), vì không tồn tại dữ liệu cá nhân trong tập dữ liệu. Không có dữ liệu cá nhân nào xuất hiện trong bộ khung (harness) được công bố, báo cáo kỹ thuật hoặc các bộ dữ liệu đã phát hành.

⚕️ Tuyên bố miễn trừ y khoa & Xung đột lợi ích

Báo cáo chuẩn đánh giá này nhằm mục đích nghiên cứu và minh bạch về phương pháp. Báo cáo không cấu thành lời khuyên y khoa, không phải là chẩn đoán và không thay thế cho việc chăm sóc y tế chuyên nghiệp; bất kỳ kết quả nào ở đây không nên được dùng để trì hoãn hoặc tránh việc đi khám bác sĩ. Luôn tham khảo ý kiến của nhà cung cấp dịch vụ chăm sóc sức khỏe đủ năng lực để đưa ra quyết định về chẩn đoán và điều trị. Đây là chuẩn đánh giá nội bộ do công ty tự chạy đối với chính động cơ của công ty và chưa được xác nhận độc lập hoặc bình duyệt. Điểm tổng hợp đo mức độ tuân thủ một thang chấm cố định (cấu trúc báo cáo, khả năng ghi nhớ của từ khóa và hệ thống chấm điểm, và độ trễ); không phải là thước đo độ chính xác chẩn đoán trong thực tế hoặc độ an toàn lâm sàng. Cả hai tác giả đều làm việc cho và nắm giữ cổ phần tại Kantesti Ltd, và động cơ được đánh giá là một sản phẩm thương mại của cùng tổ chức. Xung đột lợi ích này được giảm thiểu bằng việc đăng ký trước thang chấm trong mã nguồn, phát hành bộ khung (harness) theo giấy phép MIT và công bố một mẫu ngẫu nhiên phân tầng các phản hồi thô của động cơ.

Tín hiệu tin cậy E-E-A-T

⭐

Kinh nghiệm

15+ năm thực hành trong huyết học lâm sàng và y học xét nghiệm, giám sát việc lựa chọn bảng ca.

📋

Chuyên môn

Thiết kế rubric đã đăng ký trước với hình phạt siêu chẩn đoán rõ ràng và các hệ thống chấm điểm lâm sàng được công nhận (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Tính uy quyền

Tác giả chính: bác sĩ Thomas Klein, MD (ORCID 0009-0009-1490-1321). Triển khai bởi Julian Emirhan Bulut, CEO của Kantesti Ltd.

🛡️

Độ tin cậy

Bộ khung có thể tái tạo theo giấy phép MIT, các phản hồi thô của động cơ được công bố, công bố xung đột lợi ích mở, mạng lưới phản chiếu nghiên cứu trên bốn nền tảng.

🏢 Công ty TNHH Kantesti Đăng ký tại Anh & xứ Wales · Mã số công ty. 17090423 Luân Đôn, Vương quốc Anh · kantesti.net