Vì sao chuẩn đánh giá này tồn tại và nó kiểm tra điều gì

Phân tích xét nghiệm máu AI có hỗ trợ đang ngày càng được sử dụng trong các quy trình làm việc cho người tiêu dùng và trong lâm sàng, tuy nhiên các khung đánh giá có thể tái lập được thiết kế riêng cho y học xét nghiệm vẫn còn hiếm. Những câu hỏi quan trọng nhất trong bối cảnh này không phải là những câu hỏi được bao phủ bởi các chuẩn đánh giá chung về hỏi-đáp y khoa: liệu một động cơ có thể tách thiếu sắt khỏi đặc điểm thalassemia khi thể tích trung bình hồng cầu là giống nhau hay không, có chẩn đoán quá mức hội chứng Gilbert như viêm gan hay không, và có tạo ra bệnh lý trong một bảng sàng lọc hoàn toàn bình thường hay không?

Sơ đồ luồng rubric đã đăng ký trước, thể hiện cách Kantesti AI Engine được đánh giá dựa trên các tiêu chí chấm điểm đã được “đóng băng”
Hình 1: Kiến trúc chuẩn đánh giá — mọi ca, mọi từ khóa, mọi hệ thống chấm điểm đều được cố định trong mã nguồn trước khi động cơ nhìn thấy bất kỳ PDF nào. Việc tinh chỉnh thang đánh giá hậu nghiệm là không thể theo thiết kế.

Một bảng xét nghiệm máu đơn lẻ thường chứa đủ tín hiệu để hỗ trợ nhiều cách diễn giải cạnh tranh, và nhiệm vụ của bác sĩ lâm sàng đọc kết quả là cân nhắc các cách diễn giải đó với nhau thay vì tìm một câu trả lời “chuẩn theo sách giáo khoa”. Một “động cơ” làm tốt trên các ca mẫu theo sách vẫn có thể thất bại ở những ca quan trọng nhất: các bẫy trong chẩn đoán phân biệt, các biến thể lành tính trông có vẻ đáng lo nếu chỉ nhìn riêng lẻ, và những bảng xét nghiệm hoàn toàn bình thường khiến các trợ lý tự tin đi đến việc “tự chế” ra bệnh lý.

Chuẩn đánh giá này được xây dựng đúng dựa trên các kiểu thất bại đó. Mỗi trong số mười lăm ca được chọn cho một đặc tính chẩn đoán cụ thể: tình trạng hồng cầu nhỏ do thiếu sắt cần được phân biệt rõ với thể mang beta-thalassemia có cùng thể tích trung bình hồng cầu (MCV), một biểu hiện của hội chứng Gilbert trong đó bất thường duy nhất là tăng bilirubin gián tiếp đơn độc, và một bảng sàng lọc gồm mười lăm thông số trong đó mọi chỉ số phân tích đều nằm trong khoảng tham chiếu. Thang chấm thưởng cho các động cơ đọc từng ca theo đúng ngữ cảnh của nó và phạt các động cơ đưa ra chẩn đoán tự tin khi không có cơ sở cho chẩn đoán như vậy.

Với tư cách là Thomas Klein, MD, tôi đã chọn bộ ca này vì đây là những mẫu mà các trợ lý y học xét nghiệm thường sai nhất. Kiểu thất bại tốn kém không phải là "bỏ sót một bệnh hiếm" — mà là bịa đặt bệnh lý thường quy ở những bệnh nhân không hề mắc bệnh đó. Của chúng tôi Xác nhận y tế hub mô tả khung tổng quát hơn; trang này mô tả kết quả ứng dụng của nó trên động cơ V11.

Lần chạy tham chiếu mới nhất — V11 (Tháng 4 năm 2026)

Lần chạy tham chiếu tháng 4 năm 2026 của Kantesti AI Engine V11 tạo ra điểm số tổng hợp là 99.12% theo thang chấm mười lăm ca đã đăng ký trước. Cả hai ca “bẫy chẩn đoán quá mức” đều đạt trần. Chỉ số Mentzer được áp dụng đúng trong chẩn đoán phân biệt thiếu sắt và thalassemia.

Tổng hợp 99.12% 15/15 ca đạt
0.998 Điểm cấu trúc
0.998 Điểm lâm sàng
20.17 s Độ trễ trung bình
0 / 13 Bẫy dương tính giả

Công thức tổng hợp kết hợp ba thành phần: phù hợp cấu trúc với bảy mục báo cáo bắt buộc và mười sáu mục con bắt buộc, độ chính xác lâm sàng được đo bằng khả năng ghi nhớ từ khóa cộng với khả năng ghi nhớ theo hệ thống chấm điểm, cùng với kiểm tra tính hợp lệ của phân phối xác suất, và độ trễ phản hồi so với mục tiêu mức dịch vụ chính 20 giây. Phân rã chính xác được thể hiện trong công thức thang chấm bên dưới.

Tổng hợp = 0.35 × Cấu trúc + 0.55 × Lâm sàng + 0.10 × Độ trễ

Phần còn lại 0,88 điểm phần trăm khoảng trống (headroom) được phân rã gần như hoàn toàn thành tổn thất do độ trễ — ba lần gọi dự phòng (fallback) ở Giai đoạn 2, mỗi lần tổng hợp (composite) ở mức âm 0,05, đã đóng góp khoảng 0,60 trong tổng mức thiếu hụt 0,88 điểm — thay vì đi vào nội dung lâm sàng. Hệ thống không bỏ sót chẩn đoán đúng ở bất kỳ trong số mười lăm ca; khi chưa đạt, thì là do mất nhiều thời gian hơn một chút so với mục tiêu 20 giây cho đường dẫn chính (primary-path) ở một thiểu số nhỏ các lần gọi.

Mười lăm ca trên bảy chuyên khoa y tế

Bảng ca (case panel) bao gồm bảy chuyên khoa — huyết học, nội tiết, y học chuyển hóa, gan mật (hepatology), thận học, tim mạch, thấp khớp — cộng thêm hai ca bẫy siêu chẩn đoán (hyperdiagnosis trap) chuyên biệt. Mỗi ca là một hồ sơ bệnh nhân thực đã được ẩn danh, được rút từ kho dữ liệu lâm sàng Kantesti theo sự đồng ý tham gia có thông tin đầy đủ bằng văn bản.

Bản đồ phạm vi bao phủ của mười lăm ca xét nghiệm máu đã ẩn danh, phân bổ trên bảy chuyên khoa y khoa, kèm các ca bẫy siêu chẩn đoán
Hình 2: Phân bố ca theo huyết học, nội tiết, y học chuyển hóa, gan mật, thận học, tim mạch, thấp khớp, cộng thêm hai ca bẫy — hội chứng Gilbert và một bảng sàng lọc hoàn toàn bình thường.

Việc ẩn danh (de-identification) được thực hiện theo cách tiếp cận Safe Harbor: tất cả các định danh trực tiếp đã được loại bỏ hoặc thay thế, và mỗi hồ sơ được gán một mã ca nội bộ theo chuẩn BT-NNN-LABEL. Việc xử lý được thực hiện phù hợp với Điều 9(2)(j) của GDPR cho nghiên cứu khoa học với các biện pháp bảo vệ phù hợp, và các quy định tương đương của UK GDPR. Không có bất kỳ thông tin nhận dạng cá nhân nào xuất hiện ở bất kỳ đâu trong bộ thử nghiệm (harness) đã công bố, báo cáo kỹ thuật, hoặc các bộ dữ liệu đã phát hành.

Huyết học (3) BT-001, BT-006, BT-007 Thiếu máu do thiếu sắt · Thiếu vitamin B12 · Thalassemia beta thể nhẹ
Nội tiết (3) BT-002, BT-008, BT-012 Viêm tuyến giáp Hashimoto · PCOS kèm đề kháng insulin · Thiếu vitamin D nặng
Chuyển hóa (2) BT-003, BT-013 T2DM kèm hội chứng chuyển hóa · Tăng acid uric máu kèm nguy cơ gout
Gan mật (2) BT-004, BT-009 NAFLD / NASH · Viêm gan siêu vi cấp
Thận học · Tim mạch · Thấp khớp (3) BT-005, BT-010, BT-011 Bệnh thận mạn giai đoạn 3 · Rối loạn lipid máu gây xơ vữa (atherogenic dyslipidaemia) · Lupus ban đỏ hệ thống
Các ca bẫy (2) BT-014, BT-015 Hội chứng Gilbert (tăng bilirubin gián tiếp đơn độc) · Sàng lọc người trưởng thành hoàn toàn bình thường

Vì sao lại có phân bố cụ thể này

Huyết học có ba trường hợp vì các chẩn đoán phân biệt kiểu vi hồng cầu (microcytic) và kiểu đại hồng cầu (macrocytic) là những “bẫy” có khối lượng công việc cao nhất trong thực hành xét nghiệm trong thế giới thực. Nội tiết có ba trường hợp vì các biểu hiện của bệnh Hashimoto, PCOS và thiếu vitamin D có các “dạng” chẩn đoán khác nhau (do tự kháng thể chi phối, do tỷ lệ hormone chi phối, do một dấu ấn đơn lẻ chi phối). Các chuyên khoa chỉ có một trường hợp vẫn có ý nghĩa vì mỗi tình trạng như CKD, nguy cơ ASCVD và SLE đều có hệ thống tính điểm riêng mà động cơ cần gọi (lần lượt là phân giai đoạn KDIGO, nguy cơ 10 năm ASCVD, và tiêu chí SLE EULAR/ACR năm 2019).

Rubric đã đăng ký trước, được giải thích

Đăng ký trước (pre-registration) là lựa chọn phương pháp luận quan trọng nhất trong chuẩn đánh giá này. Mọi chẩn đoán kỳ vọng, mọi hệ thống tính điểm lâm sàng và mọi mục trong báo cáo đều được cam kết vào mã nguồn trước khi động cơ được kích hoạt. Do đó, việc tinh chỉnh hậu kiểm (post-hoc) thang đo để “làm đẹp” cho động cơ là không thể.

Ba thành phần tạo nên điểm tổng hợp. Thành phần cấu trúc đóng góp 35% và đo việc động cơ có trả về bảy mục báo cáo bắt buộc hay không (tiêu đề, tóm tắt, phát hiện chính, chẩn đoán phân biệt, hệ thống tính điểm, khuyến nghị, theo dõi) và mười sáu mục con bắt buộc nằm trong đó. Sự hiện diện của mục chiếm 40% và sự hiện diện của mục con chiếm 60% trong phép tính cấu trúc.

Các thành phần lâm sàng đóng góp 55% và kết hợp ba yếu tố: ghi nhớ từ khóa chẩn đoán (70% điểm phụ lâm sàng), ghi nhớ hệ thống tính điểm (20% — động cơ có tính Mentzer, FIB-4, HOMA-IR, nguy cơ ASCVD, phân giai đoạn KDIGO, tiêu chí EULAR/ACR khi phù hợp hay không), và kiểm tra tính hợp lệ tổng xác suất (10% — các xác suất trong chẩn đoán phân biệt phải cộng lại nằm trong khoảng [90, 110]). Với các ca “bẫy”, sẽ trừ một hình phạt siêu chẩn đoán (hyperdiagnosis) rõ ràng lên đến 0,30, được tính là 0,10 cho mỗi cờ bệnh lý được bịa ra, tối đa ba cờ.

Các thành phần độ trễ đóng góp 10%. Phản hồi dưới 20 giây nhận toàn bộ 0,10; dưới 40 giây nhận 0,05; và bất kỳ phản hồi nào chậm hơn nhận 0. Mốc 20 giây phản ánh mục tiêu mức dịch vụ (service-level objective) cho phần sản xuất dịch vụ đường chính; trần 40 giây phản ánh ngân sách dự phòng cho Giai đoạn 2 đối với các lần gọi động cơ nặng.

Ảnh chụp màn hình cuối cùng của bộ “benchmark harness” được cấp phép MIT của Kantesti đang chạy và phát ra điểm số theo từng ca
Hình 3: Bộ khung trong quá trình chạy (harness). Mỗi ca được kết xuất thành PDF A4, đăng lên endpoint v11 của môi trường sản xuất, và được chấm theo thang đo đã “đóng băng”. Mọi phản hồi thô đều được lưu cùng với bảng điểm tổng hợp.

Điều mà đăng ký trước ngăn chặn

Các chuẩn đánh giá do chính bên thứ nhất (first-party) thực hiện nổi tiếng vì có thể thổi phồng số liệu của họ thông qua tinh chỉnh thang đo hậu kiểm. Mẫu hình gần như luôn giống nhau: nhóm chạy động cơ, xem chỗ nào kém, rồi lặng lẽ điều chỉnh thang đo để các khu vực kém đó được tính ít hơn. Bằng cách cam kết thang đo vào mã nguồn trước lần gọi động cơ đầu tiên và công bố bộ khung dưới giấy phép MIT, sự điều chỉnh này trở nên nhìn thấy được trong hệ thống quản lý phiên bản. Bất kỳ ai cũng có thể clone kho mã, kiểm tra ngày tác giả của thang đo, và xác minh rằng kết quả của động cơ không được dùng để định hình việc chấm điểm.

Các ca “bẫy chẩn đoán quá mức” — vì sao việc gọi quá nhiều mới là chế độ thất bại thực sự

Việc gọi quá mức (over-calling) bệnh lý một cách hung hăng trên các màn hình bình thường là một kiểu thất bại đã được ghi nhận của các trợ lý y tế hướng tới người tiêu dùng. Chi phí phát sinh ở phía sau bao gồm điều tra không cần thiết, lo lắng của bệnh nhân và thăm khám/đánh giá do can thiệp y khoa (iatrogenic workup). Hai ca “bẫy” trong chuẩn đánh giá này được thiết kế để làm lộ và có thể chấm điểm cho kiểu thất bại đó.

So sánh song song giữa một AI ngây thơ bịa viêm gan trên một bảng xét nghiệm của hội chứng Gilbert và động cơ Kantesti xác định đúng đa hình UGT1A1 lành tính
Hình 4: Thiết kế ca “bẫy”. Một động cơ gắn nhãn tự tin hội chứng Gilbert là viêm gan, hoặc tạo ra bệnh lý “giáp ranh” trên một màn hình hoàn toàn bình thường, sẽ bị phạt — không được thưởng vì nghe có vẻ lâm sàng.

🟡 Bẫy 1 — BT-014-GILBERT

Biểu hiện. Nam 24 tuổi với bilirubin toàn phần 2,4 mg/dL. Phân suất trực tiếp bình thường, transaminase và phosphatase kiềm nằm trong giới hạn tham chiếu, hồng cầu lưới không có gì đáng chú ý, và haptoglobin cùng LDH loại trừ tan máu.

Cách giải thích đúng. Hội chứng Gilbert — một đa hình lành tính của UGT1A1. Phần giải thích không được viện dẫn viêm gan, xơ gan, thiếu máu tan máu hoặc tắc nghẽn đường mật.

Kết quả V11. Tổng hợp 1,000. Không có bất kỳ cờ quá chẩn đoán nào trong sáu cờ được theo dõi xuất hiện như chẩn đoán đang hoạt động.

🟡 Bẫy 2 — BT-015-HEALTHY

Biểu hiện. Nữ 35 tuổi với bảng sàng lọc thường quy gồm mười lăm tham số. Mọi chất phân tích đều nằm thoải mái trong khoảng tham chiếu của chúng.

Cách giải thích đúng. Sự trấn an và duy trì lối sống. Phần giải thích không nên bịa ra bệnh lý ranh giới chỉ để nghe có vẻ hữu ích về mặt lâm sàng.

Kết quả V11. Tổng hợp 1.000. Không có bất kỳ cờ cảnh báo chẩn đoán quá mức nào trong bảy cờ được theo dõi — đái tháo đường, thiếu máu, suy giáp, rối loạn lipid máu, viêm gan, bệnh thận, thiếu hụt — xuất hiện như chẩn đoán đang hoạt động.

Trên cả hai bẫy, đã kiểm tra mười ba cờ cảnh báo chẩn đoán quá mức được theo dõi. Không có cờ nào được kích hoạt. Đây là kết quả quan trọng nhất đối với bất kỳ bác sĩ nào đang cân nhắc sử dụng một công cụ AI như một công cụ sàng lọc hoặc trước khi tư vấn: hệ thống không tạo ra bệnh tật khi không hề tồn tại.

Chỉ số Mentzer: tách biệt thiếu sắt với đặc điểm bệnh thalassemia

Một phát hiện có giá trị cao thứ hai liên quan đến việc ghép ca BT-001 (thiếu máu thiếu sắt) với ca BT-007 (thiếu máu beta-thalassemia thể nhẹ). Cả hai đều có biểu hiện hồng cầu nhỏ (microcytosis) và là một trở ngại rất quen thuộc đối với các bộ phân loại “ngây thơ”. Chỉ số Mentzer, được tính bằng MCV chia cho số lượng hồng cầu (RBC), lớn hơn 13 trong thiếu máu thiếu sắt và nhỏ hơn 13 trong đặc điểm thalassemia.

Ở BT-001, bệnh nhân là nữ 34 tuổi với hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritin 6 ng/mL và TIBC tăng. Chỉ số Mentzer khoảng 17,7 ủng hộ thiếu hụt sắt tuyệt đối. Ở BT-007, bệnh nhân là nam 28 tuổi có microcytosis (MCV 65,8 fL) nhưng số lượng RBC cao 6,2, RDW bình thường, ferritin bình thường và HbA2 5,6%. Chỉ số Mentzer khoảng 10,6 gợi ý đặc điểm thalassemia, và HbA2 tăng xác nhận beta-thalassemia thể nhẹ.

Thiếu máu thiếu sắt Mentzer > 13 Ferritin thấp, TSAT thấp, TIBC cao, RDW tăng
Đặc điểm beta-thalassemia Mentzer < 13 Ferritin bình thường, RDW bình thường, HbA2 tăng (>3.5%), số lượng RBC cao

Cả hai ca đều đạt điểm 1.000. Công cụ đã sử dụng rõ ràng chỉ số Mentzer trong cả hai phần diễn giải và trả về chẩn đoán đúng trong từng trường hợp. Đây là kết quả mang tính trấn an lâm sàng nhất trong toàn bộ bộ chuẩn, vì việc phân loại nhầm đặc điểm thalassemia là thiếu máu thiếu sắt sẽ dẫn đến bổ sung sắt không phù hợp và bỏ lỡ cơ hội sàng lọc tiền sử gia đình; còn việc phân loại nhầm thiếu máu thiếu sắt là thalassemia sẽ làm chậm liệu pháp thay thế đơn giản. Phần khoảng ferritin giải thích bối cảnh chênh lệch rộng hơn.

Kết quả theo từng ca từ lần chạy tháng 4 năm 2026

Mười hai trong số mười lăm ca đạt điểm tổng hợp trần 1.000 ở đường dẫn chính. Ba ca được phục vụ qua cơ chế dự phòng Phase 2, mất phần thưởng độ trễ 0,05 trong khi vẫn giữ nguyên toàn bộ nội dung lâm sàng và cấu trúc. Một ca thiếu một tiểu mục bắt buộc; một ca trả về tổng xác suất giảm nhẹ.

Mã ca Chuyên khoa Tổng hợp Độ trễ Đường dẫn
BT-001-IDAHuyết học1.00017,8 giâychính
BT-006-B12Huyết học1.00018,4 giâychính
BT-007-THALHuyết học1.00017,0 giâychính
BT-002-HASHNội tiết học0.95037,0 giâydự phòng
BT-008-PCOSNội tiết học0.98718,6 giâychính
BT-003-T2DMTrao đổi chất1.00019,1 giâychính
BT-013-GOUTTrao đổi chất1.00019,4 giâychính
BT-004-NAFLDChuyên khoa gan mật1.00019,6 giâychính
BT-009-VIRHEPChuyên khoa gan mật0.95023,4 giâydự phòng
BT-014-GILBERTBẫy1.00018,9 giâychính
BT-005-CKDThận học1.00017,4 giâychính
BT-010-ASCVDTim mạch1.00019,7 giâychính
BT-011-SLEChuyên khoa Thấp khớp0.98118,2 giâychính
BT-012-VITDNội tiết học1.00019,3 giâychính
BT-015-HEALTHYBẫy1.00018,7 giâydự phòng

Trường hợp PCOS (BT-008) đã bị thiếu một tiểu mục bắt buộc trong cấu trúc phản hồi — mười lăm trên mười sáu thay vì mười sáu trên mười sáu — khiến điểm cấu trúc giảm từ 1,000 xuống 0,963. Trường hợp SLE (BT-011) trả về tổng xác suất theo phân phối giảm nhẹ, làm điểm lâm sàng giảm xuống 0,965 trong khi vẫn giữ nguyên mọi từ khóa chẩn đoán và hệ thống chấm điểm. Không có trường hợp nào dưới mức hoàn hảo bỏ sót chẩn đoán đúng.

Điểm số tiêu đề không cho chúng ta biết điều gì

Điểm tổng hợp 99,12% theo bộ tiêu chí đã đăng ký trước cụ thể này thể hiện hiệu suất gần mức trần, nhưng cần được đặt trong bối cảnh cẩn thận. Kết quả mô tả hành vi của động cơ so với mười lăm ca đã được ẩn danh được chọn kỹ lưỡng, mỗi ca được đánh giá đúng một lần, theo một bộ tiêu chí duy nhất. Chúng tôi nêu rõ con số đó cho biết và không cho biết điều gì.

Điểm số cho thấy động cơ V11 xử lý đúng các mẫu chẩn đoán được chọn cho phần đánh giá này, theo một phương pháp đã được công bố và có thể tái tạo. Nó không nói rằng động cơ đúng với mọi bảng xét nghiệm máu tồn tại ngoài thực tế. Nó cũng không nói rằng động cơ nên thay thế phán đoán của bác sĩ lâm sàng. Và nó không nói rằng động cơ vượt trội hơn các hệ thống AI thay thế — các phân tích so sánh với các động cơ khác đã được cố ý đưa ra ngoài phạm vi của báo cáo này.

Điều mà điểm số xác lập được là một mốc cơ sở. Khi bộ tiêu chí và khung thử nghiệm được công khai, các phiên bản tương lai của động cơ có thể được đánh giá dựa trên cùng mười lăm ca này, và khoảng cách giữa điểm số đã công bố với bất kỳ lần chạy tiếp theo nào cũng có thể đo lường được. Đây là giá trị của việc đăng ký trước: nó chuyển các tuyên bố về hiệu suất thành các tuyên bố có thể kiểm chứng.

Cách tái tạo chuẩn đánh giá này trong 10 phút

Việc tái tạo chỉ cần một cặp thông tin xác thực API Kantesti và môi trường Python 3.10 trở lên với requestsreportlab các thư viện đã được cài đặt. Toàn bộ khung thử nghiệm là một mô-đun Python duy nhất, tự chứa, được phát hành theo giấy phép MIT.

Sơ đồ mạng tính tái lập, cho thấy benchmark được phản chiếu trên Figshare, ResearchGate, Academia.edu và GitHub, với DOI của Figshare làm mốc neo chuẩn
Hình 5: Chuẩn đánh giá được phản chiếu trên bốn nền tảng nghiên cứu. Mã DOI của Figshare là định danh học thuật chuẩn; ResearchGate, Academia.edu và GitHub lưu trữ các bản sao song song kèm mã và dữ liệu thô.

Bốn bước để chạy mới

Một. Sao chép kho lưu trữ: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Hai. Cài đặt các phụ thuộc với pip install -r requirements.txt. Ba. Đặt KANTESTI_USERNAMEKANTESTI_PASSWORD làm biến môi trường — thông tin đăng nhập được đọc khi chạy và không có gì được mã hoá cứng trong script. Bốn. Chạy python benchmark_bloodtest.py và kiểm tra bốn tệp hiện vật (artefacts) được tạo ra trong thư mục làm việc: một bảng điểm CSV, một bảng điểm JSON, một bản dump JSON đầy đủ bao gồm phản hồi thô của engine, và một báo cáo Markdown dễ đọc.

Kết quả chạy tham chiếu từ ngày 23 tháng 4 năm 2026 được lưu giữ trong results/ thư mục của kho mã. Một lần chạy mới sẽ tạo ra một bảng điểm mới có gắn timestamp, đồng thời giữ nguyên lần chạy tham chiếu. Nếu lần chạy của bạn tạo ra kết quả khác biệt một cách đáng kể, vui lòng mở một issue trên GitHub kèm theo timestamp của lần chạy và phiên bản engine được trả về trong metadata của phản hồi.

Hạn chế và công việc trong tương lai

Bốn hạn chế cần được thừa nhận rõ ràng: cỡ mẫu, đánh giá một lần (single-shot), phạm vi chỉ một engine, và nguồn dữ liệu chỉ từ một nguồn. Mỗi hạn chế đang được giải quyết trong công việc theo dõi đang diễn ra.

Cỡ mẫu. Mười lăm ca trên tám nhóm chuyên khoa là đủ cho một bằng chứng khái niệm nhưng không đủ cho phân tích theo nhóm trong từng chuyên khoa. Kế hoạch mở rộng lên năm mươi ca sẽ bao gồm các panel đông máu, sàng lọc ung thư huyết học, panel thai kỳ và các ca bệnh nhi.

Đánh giá một lần (single-shot). Mỗi ca được đánh giá chỉ một lần. Các mô hình ngôn ngữ lớn thể hiện độ biến thiên đầu ra đáng kể ngay cả ở nhiệt độ lấy mẫu thấp, vì vậy một giao thức chạy nhiều lần với năm lần đánh giá cho mỗi ca và báo cáo độ biến thiên là bước tiếp theo tự nhiên.

Phạm vi chỉ một engine. Báo cáo này mô tả một engine. Các phân tích so sánh với các hệ thống AI khác nằm ngoài phạm vi ở đây; chúng tôi có thể theo đuổi chúng như một nghiên cứu độc lập riêng với phương pháp phù hợp.

Nguồn dữ liệu chỉ từ một nguồn. Mười lăm ca là hồ sơ bệnh nhân thực đã được ẩn danh, được rút từ một kho dữ liệu lâm sàng duy nhất. Chúng đại diện cho một mẫu đã được chọn lọc và không phải là một mẫu ngẫu nhiên mang tính đại diện cho quần thể. Việc mở rộng đánh giá sang dữ liệu đa trung tâm nằm trong lộ trình.

Phần mở rộng quan trọng nhất dự kiến là tính tương đương đa ngôn ngữ. Engine AI Kantesti phục vụ người dùng trong 75+ ngôn ngữ, và việc chạy cùng bộ khung gồm mười lăm ca này bằng tiếng Thổ Nhĩ Kỳ, tiếng Đức, tiếng Tây Ban Nha, tiếng Pháp và tiếng Ả Rập sẽ định lượng chất lượng đầu ra trên các ngôn ngữ mà engine hỗ trợ. Chúng tôi sẽ công bố mỗi lần chạy theo từng ngôn ngữ kèm DOI riêng và nhánh bộ khung (harness).