Mengapa penanda aras ini wujud dan apa yang ia uji

Tafsiran keputusan ujian darah berbantukan AI semakin digunakan dalam aliran kerja pengguna dan klinikal, namun rangka kerja penilaian yang boleh dibuktikan semula khusus untuk perubatan makmal masih jarang. Soalan yang paling penting dalam konteks ini bukanlah soalan yang diliputi oleh penanda aras umum soal-jawab perubatan: bolehkah enjin membezakan kekurangan zat besi daripada ciri talasemia apabila isipadu korpuskular min adalah sama, adakah ia terlebih mendiagnosis sindrom Gilbert sebagai hepatitis, dan adakah ia menghasilkan patologi dalam panel saringan yang benar-benar normal?

Rajah aliran rubrik yang telah didaftarkan awal menunjukkan bagaimana Enjin AI Kantesti dinilai berbanding kriteria pemarkahan yang dibekukan
Rajah 1: Seni bina penanda aras — setiap kes, setiap kata kunci, setiap sistem pemarkahan adalah tetap dalam kod sumber sebelum enjin melihat sebarang PDF. Penalaan rubrik pasca-hoc adalah mustahil atas reka bentuk.

Satu panel ujian darah biasanya mengandungi isyarat yang mencukupi untuk menyokong beberapa tafsiran yang bersaing, dan tugas klinisyen yang mentafsir ialah menimbang tafsiran-tafsiran tersebut antara satu sama lain, bukannya mendapatkan jawapan seperti dalam buku teks. Enjin yang cemerlang pada kes-kes buku teks masih boleh gagal pada kes-kes yang paling penting: perangkap pembezaan diagnosis, varian yang tidak berbahaya tetapi kelihatan membimbangkan apabila dilihat secara berasingan, dan panel yang benar-benar normal yang menggoda pembantu yang yakin untuk menghasilkan patologi yang tidak wajar.

Penanda aras ini dibina khusus berdasarkan mod kegagalan tersebut. Setiap daripada lima belas kes dipilih untuk satu ciri diagnostik tertentu: mikrositosis akibat kekurangan zat besi yang mesti dipisahkan daripada trait beta-talassemia dengan isipadu korpuskular min yang sama, persembahan sindrom Gilbert di mana satu-satunya kelainan ialah hiperbilirubinaemia tidak langsung yang terpencil, dan panel saringan lima belas parameter di mana setiap analit berada dalam julat rujukannya. Rubrik memberi ganjaran kepada enjin yang membaca setiap kes mengikut konteksnya sendiri dan menghukum enjin yang cuba membuat diagnosis yang yakin apabila diagnosis sedemikian tidak wajar.

Sebagai Thomas Klein, MD, saya memilih panel kes ini kerana inilah corak yang paling kerap saya lihat pembantu perubatan makmal buat silap. Mod kegagalan yang mahal bukanlah "terlepas penyakit jarang"—tetapi mereka-reka patologi rutin pada pesakit yang sebenarnya tidak memilikinya. kami Pengesahan Perubatan hub menerangkan rangka kerja yang lebih luas; halaman ini menerangkan hasil terpakainya pada enjin V11.

Rujukan terkini — V11 (April 2026)

Ujian rujukan April 2026 bagi Kantesti AI Engine V11 menghasilkan skor komposit sebanyak 99.12% pada rubrik lima belas kes yang telah didaftarkan terlebih dahulu. Kedua-dua kes perangkap hiperdianosis mendapat skor pada tahap maksimum. Indeks Mentzer digunakan dengan betul pada pembezaan kekurangan zat besi berbanding talassemia.

Komposit 99.12% 15 daripada 15 kes mendapat skor
0.998 Skor struktur
0.998 Skor klinikal
20.17 s Purata latensi
0 / 13 Pemalsuan positif perangkap

Formula komposit menggabungkan tiga komponen: pematuhan struktur dengan tujuh bahagian laporan wajib dan enam belas subseksyen wajib, ketepatan klinikal diukur sebagai perolehan semula kata kunci ditambah perolehan semula sistem pemarkahan ditambah semakan kesahan taburan kebarangkalian, dan latensi respons berbanding sasaran perkhidmatan utama 20 saat. Penguraian tepat ditunjukkan dalam formula rubrik di bawah.

Komposit = 0.35 × Struktur + 0.55 × Klinikal + 0.10 × Latensi

Baki 0.88 mata peratus ruang kepala terurai hampir sepenuhnya kepada kehilangan latensi — tiga invokasi sandaran Fasa 2 pada setiap satu pada -0.05 komposit menyumbang kira-kira 0.60 daripada defisit 0.88 mata itu — bukannya kepada kandungan klinikal. Enjin tidak terlepas diagnosis yang betul dalam mana-mana daripada lima belas kes; jika ia kurang tepat, ia berlaku dengan mengambil sedikit lebih lama daripada sasaran laluan utama 20 saat dalam sebahagian kecil invokasi.

Lima belas kes merentas tujuh kepakaran perubatan

Panel kes merangkumi tujuh kepakaran — hematologi, endokrinologi, perubatan metabolik, hepatologi, nefrologi, kardiologi, reumatologi — serta dua kes khusus perangkap hiperpengesanan. Setiap kes ialah rekod pesakit sebenar yang dianonimkan yang diambil daripada repositori data klinikal Kantesti di bawah persetujuan termaklum bertulis.

Peta liputan bagi lima belas kes ujian darah yang dianonimkan, diagihkan merentas tujuh kepakaran perubatan serta kes perangkap hiperpengesanan
Rajah 2: Taburan kes merentas hematologi, endokrinologi, perubatan metabolik, hepatologi, nefrologi, kardiologi, reumatologi, serta dua kes perangkap — sindrom Gilbert dan panel saringan yang sepenuhnya normal.

Penganoniman dilakukan di bawah pendekatan Safe Harbor: semua pengecam langsung telah dialih atau diganti, dan setiap rekod diberikan kod kes dalaman penanda aras dalam format BT-NNN-LABEL. Pemprosesan dijalankan selaras dengan Perkara 9(2)(j) GDPR untuk penyelidikan saintifik dengan langkah perlindungan yang sesuai, dan peruntukan setara UK GDPR. Tiada maklumat yang boleh dikenal pasti secara peribadi muncul di mana-mana dalam harness yang diterbitkan, laporan teknikal, atau set data yang dikeluarkan.

Hematologi (3) BT-001, BT-006, BT-007 Anemia kekurangan zat besi · Kekurangan B12 · Talasemia beta minor
Endokrinologi (3) BT-002, BT-008, BT-012 Tiroiditis Hashimoto · PCOS dengan rintangan insulin · Kekurangan vitamin D yang teruk
Metabolik (2) BT-003, BT-013 T2DM dengan sindrom metabolik · Hiperurisemia dengan risiko gout
Hepatologi (2) BT-004, BT-009 NAFLD / NASH · Hepatitis virus akut
Nefrologi · Kardiologi · Reumatologi (3) BT-005, BT-010, BT-011 CKD peringkat 3 · Dislipidaemia aterogenik · Lupus eritematosus sistemik
Kes perangkap (2) BT-014, BT-015 Sindrom Gilbert (hiperbilirubinaemia tidak langsung terpencil) · Saringan dewasa yang sepenuhnya normal

Mengapa taburan khusus ini

Hematologi mendapat tiga kes kerana pembezaan mikrositik dan pembezaan makrositik ialah perangkap berfrekuensi tertinggi dalam amalan makmal dunia sebenar. Endokrinologi mendapat tiga kerana persembahan Hashimoto, PCOS, dan kekurangan vitamin D menguji bentuk diagnostik yang berbeza (dipacu autoantibodi, dipacu nisbah hormon, dipacu penanda tunggal). Kepakaran satu kes masih bermakna kerana setiap CKD, risiko ASCVD, dan SLE mempunyai sistem pemarkahan tersendiri yang enjin patut panggil (masing-masing pementasan KDIGO, risiko 10 tahun ASCVD, dan kriteria SLE EULAR/ACR 2019).

Rubrik pra-pendaftaran, dijelaskan

Pra-pendaftaran ialah pilihan metodologi paling penting dalam penanda aras ini. Setiap diagnosis yang dijangka, setiap sistem pemarkahan klinikal, dan setiap bahagian laporan telah dikomit kepada kod sumber sebelum enjin dipanggil. Penalaan pasca-hoc rubrik untuk memihak kepada enjin oleh itu adalah mustahil.

Tiga komponen membentuk skor komposit. Komponen struktur menyumbang 35 peratus dan mengukur sama ada enjin mengembalikan tujuh bahagian laporan wajib (tajuk, ringkasan, dapatan utama, pembezaan, sistem pemarkahan, cadangan, susulan) dan enam belas subseksyen wajib di dalamnya. Kehadiran bahagian menimbang 40 peratus dan kehadiran subseksyen menimbang 60 peratus dalam pengiraan struktur.

The komponen klinikal menyumbang 55 peratus dan menggabungkan tiga perkara: ingatan kata kunci diagnosis (70 peratus daripada sub-skor klinikal), ingatan sistem pemarkahan (20 peratus — sama ada enjin mengira Mentzer, FIB-4, HOMA-IR, risiko ASCVD, pementasan KDIGO, kriteria EULAR/ACR apabila berkaitan), dan semakan kesahan jumlah kebarangkalian (10 peratus — kebarangkalian dalam pembezaan seharusnya berjumlah dalam julat [90, 110]). Untuk kes perangkap, penalti hiperdianosis yang jelas sehingga 0.30 ditolak, dikira sebagai 0.10 bagi setiap bendera patologi yang direka, dihadkan kepada tiga bendera.

The komponen latensi menyumbang 10 peratus. Respons di bawah 20 saat mendapat 0.10 penuh, respons di bawah 40 saat mendapat 0.05, dan apa-apa yang lebih perlahan mendapat sifar. Sasaran 20 saat mencerminkan objektif peringkat perkhidmatan pengeluaran primary-path; siling 40 saat mencerminkan bajet sandaran Fasa 2 untuk pemanggilan enjin yang berat.

Tangkapan skrin terminal bagi harness penanda aras Kantesti yang dilesenkan MIT sedang berjalan dan mengeluarkan skor bagi setiap kes
Rajah 3: Rangka kerja dalam pelaksanaan. Setiap kes dirender kepada PDF A4, dihantar ke endpoint v11 pengeluaran, dan diparkir berbanding rubrik yang dibekukan. Setiap respons mentah disimpan bersama kad skor agregat.

Apa yang pra-pendaftaran cegah

Penanda aras pihak pertama terkenal kerana membesarkan nombor mereka sendiri melalui penalaan rubrik pasca-hoc. Coraknya hampir selalu sama: pasukan menjalankan enjin, melihat di mana ia kurang berprestasi, kemudian melaraskan rubrik secara senyap supaya kawasan yang kurang berprestasi dikira lebih rendah. Dengan mengomit rubrik kepada kod sumber sebelum panggilan enjin pertama dan menerbitkan rangka kerja di bawah lesen MIT, pelarasan itu menjadi kelihatan dalam kawalan versi. Sesiapa sahaja boleh mengklon repositori, menyemak tarikh pengarang rubrik, dan mengesahkan bahawa hasil enjin tidak digunakan untuk membentuk pemarkahan.

Kes perangkap hiperdiagnosis — mengapa pemanggilan berlebihan ialah mod kegagalan sebenar

Panggilan berlebihan yang agresif terhadap patologi pada saringan normal ialah mod kegagalan yang didokumenkan bagi pembantu perubatan pengguna. Kos hilirnya termasuk siasatan yang tidak perlu, kebimbangan pesakit, dan kerja-kerja pemeriksaan iatrogenik. Dua kes perangkap dalam penanda aras ini direka untuk menjadikan mod kegagalan itu kelihatan dan boleh diparkir.

Perbandingan seiring antara AI naif yang mereka hepatitis pada panel sindrom Gilbert berbanding enjin Kantesti yang mengenal pasti polimorfisme UGT1A1 yang tidak berbahaya dengan betul
Rajah 4: Reka bentuk kes perangkap. Enjin yang yakin melabel sindrom Gilbert sebagai hepatitis, atau yang menghasilkan patologi sempadan pada skrin yang sepenuhnya normal, akan dikenakan penalti — bukan diberi ganjaran kerana kedengaran klinikal.

🟡 Perangkap 1 — BT-014-GILBERT

Persembahan. Lelaki berusia 24 tahun dengan bilirubin total 2.4 mg/dL. Pecahan langsung adalah normal, transaminase dan fosfatase alkali berada dalam julat rujukan mereka, retikulosit tidak menunjukkan apa-apa yang luar biasa, dan haptoglobin serta LDH menolak hemolisis.

Tafsiran yang betul. Sindrom Gilbert — polimorfisme UGT1A1 yang tidak berbahaya. Tafsiran tidak seharusnya memanggil hepatitis, sirosis, anemia hemolitik, atau halangan bilier.

Keputusan V11. Komposit 1.000. Tiada satu pun daripada enam bendera pemdiagnosian berlebihan yang dipantau muncul sebagai diagnosis aktif.

🟡 Perangkap 2 — BT-015-HEALTHY

Persembahan. Seorang wanita berusia 35 tahun dengan panel saringan rutin lima belas parameter. Setiap analit berada dengan selesa dalam julat rujukan masing-masing.

Tafsiran yang betul. Jaminan dan penyelenggaraan gaya hidup. Tafsiran tidak seharusnya mereka-reka patologi sempadan semata-mata untuk kelihatan berguna secara klinikal.

Keputusan V11. Komposit 1.000. Tiada satu pun daripada tujuh bendera terlebih diagnosis yang dipantau—diabetes, anemia, hipotiroidisme, dislipidaemia, hepatitis, penyakit buah pinggang, kekurangan—muncul sebagai diagnosis aktif.

Merentas kedua-dua perangkap, tiga belas bendera hiperdianosis yang dipantau telah diperiksa. Tiada satu pun dicetuskan. Ini ialah hasil yang paling penting bagi mana-mana klinisyen yang mempertimbangkan penggunaan enjin AI sebagai alat triage atau pra-perundingan: sistem tidak mencipta penyakit jika tiada.

Indeks Mentzer: membezakan kekurangan zat besi daripada ciri talasemia

Satu lagi dapatan bernilai tinggi berkaitan pasangan kes BT-001 (anemia kekurangan zat besi) dengan kes BT-007 (beta-talassemia minor). Kedua-duanya menunjukkan mikrositosis dan merupakan halangan yang terkenal bagi pengelas yang tidak berpengalaman. Indeks Mentzer, yang dikira sebagai MCV dibahagi dengan bilangan RBC, melebihi 13 dalam kekurangan zat besi dan jatuh di bawah 13 dalam ciri talasemia.

Dalam BT-001, pesakit ialah wanita berusia 34 tahun dengan hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, feritin 6 ng/mL, dan TIBC yang meningkat. Indeks Mentzer kira-kira 17.7 menyokong kekurangan zat besi mutlak. Dalam BT-007, pesakit ialah lelaki berusia 28 tahun dengan mikrositosis (MCV 65.8 fL) tetapi bilangan RBC yang tinggi iaitu 6.2, RDW normal, feritin normal, dan HbA2 5.6 peratus. Indeks Mentzer kira-kira 10.6 menunjukkan ciri talasemia, dan HbA2 yang meningkat mengesahkan beta-talassemia minor.

Anemia kekurangan zat besi Mentzer > 13 Feritin rendah, TSAT rendah, TIBC tinggi, RDW meningkat
Ciri beta-talassemia Mentzer < 13 Feritin normal, RDW normal, HbA2 meningkat (>3.5%), bilangan RBC tinggi

Kedua-dua kes mendapat skor 1.000. Enjin menggunakan indeks Mentzer secara eksplisit dalam kedua-dua tafsiran dan mengembalikan diagnosis yang betul dalam setiap keadaan. Ini ialah hasil yang paling meyakinkan secara klinikal dalam keseluruhan penanda aras, kerana tersilap mengelaskan ciri talasemia sebagai kekurangan zat besi membawa kepada pemberian suplemen zat besi yang tidak sesuai dan terlepas peluang saringan keluarga, manakala tersilap mengelaskan kekurangan zat besi sebagai talasemia melambatkan terapi penggantian yang mudah. Kami ferritin kami menerangkan konteks pembezaan yang lebih luas.

Keputusan per kes bagi larian April 2026

Dua belas daripada lima belas kes mencapai skor komposit siling 1.000 pada laluan utama. Tiga kes disediakan melalui sandaran Fasa 2, kehilangan bonus latensi 0.05 sambil mengekalkan semua kandungan klinikal dan struktur. Satu kes tiada satu subseksyen wajib; satu lagi mengembalikan jumlah taburan kebarangkalian yang berkurang secara marginal.

ID Kes Kepakaran Komposit Latensi Laluan
BT-001-IDAHematologi1.00017.8 sutama
BT-006-B12Hematologi1.00018.4 sutama
BT-007-THALHematologi1.00017.0 sutama
BT-002-HASHEndokrinologi0.95037.0 ssandaran
BT-008-PCOSEndokrinologi0.98718.6 sutama
BT-003-T2DMMetabolik1.00019.1 sutama
BT-013-GOUTMetabolik1.00019.4 sutama
BT-004-NAFLDHepatologi1.00019.6 sutama
BT-009-VIRHEPHepatologi0.95023.4 ssandaran
BT-014-GILBERTPerangkap1.00018.9 sutama
BT-005-CKDNefrologi1.00017.4 sutama
BT-010-ASCVDKardiologi1.00019.7 sutama
BT-011-SLERheumatologi0.98118.2 sutama
BT-012-VITDEndokrinologi1.00019.3 sutama
BT-015-HEALTHYPerangkap1.00018.7 ssandaran

Kes PCOS (BT-008) kehilangan satu subseksyen wajib dalam struktur respons — lima belas daripada enam belas, berbanding enam belas daripada enam belas — yang mengurangkan skor struktur daripada 1.000 kepada 0.963. Kes SLE (BT-011) mengembalikan jumlah kebarangkalian-taburan yang berkurang secara marginal, sehingga skor klinikal turun kepada 0.965 sambil mengekalkan setiap kata kunci diagnostik dan sistem pemarkahan. Tiada satu pun kes yang kurang sempurna terlepas diagnosis yang betul.

Apa yang skor tajuk tidak beritahu kita

Skor komposit 99.12 peratus di bawah rubrik pra-berdaftar khusus ini mewakili prestasi hampir tahap siling, tetapi ia wajar diberi rangka yang teliti. Hasil ini menerangkan tingkah laku enjin terhadap lima belas kes tanpa nama yang dipilih dengan teliti, dinilai sekali setiap satu, berbanding satu rubrik. Kami nyatakan dengan jelas apa yang nombor itu lakukan dan tidak tetapkan.

Skor itu mengatakan bahawa enjin V11 mengendalikan corak diagnostik yang dipilih untuk penilaian ini dengan betul, menggunakan metodologi yang diterbitkan dan boleh dihasilkan semula. Ia tidak mengatakan bahawa enjin itu betul untuk setiap panel ujian darah yang wujud di dunia sebenar. Ia tidak mengatakan bahawa enjin itu patut menggantikan pertimbangan klinikal. Dan ia tidak mengatakan bahawa enjin itu mengatasi sistem AI alternatif — analisis perbandingan dengan enjin lain sengaja dikecualikan daripada skop laporan ini.

Apa yang skor itu tetapkan ialah asas. Dengan rubrik dan harness yang tersedia kepada umum, versi masa depan enjin boleh dinilai terhadap lima belas kes yang sama, dan jurang antara skor yang diterbitkan dengan sebarang larian seterusnya boleh diukur sendiri. Inilah nilai pra-berdaftar: ia menukarkan tuntutan prestasi kepada tuntutan yang boleh diuji.

Cara menghasilkan semula penanda aras ini dalam 10 minit

Reproduksi memerlukan hanya pasangan kelayakan API Kantesti dan persekitaran Python 3.10 atau lebih baharu dengan requests dan reportlab perpustakaan dipasang. Harness penuh ialah satu modul Python tunggal yang berdiri sendiri, dikeluarkan di bawah lesen MIT.

Rajah rangkaian kebolehhasilan semula yang menunjukkan penanda aras dicerminkan merentas Figshare, ResearchGate, Academia.edu dan GitHub dengan DOI Figshare sebagai jangkar kanonik
Rajah 5: Penanda aras dicerminkan merentas empat platform penyelidikan. DOI Figshare ialah pengecam ilmiah yang menjadi rujukan; ResearchGate, Academia.edu, dan GitHub menempatkan salinan selari dengan kod dan data mentah.

Empat langkah untuk larian baharu

Satu. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dua. Pasang kebergantungan dengan pip install -r requirements.txt. Tiga. Tetapkan KANTESTI_USERNAME dan KANTESTI_PASSWORD sebagai pemboleh ubah persekitaran — kelayakan dibaca semasa masa jalan dan tiada apa yang dikodkan secara keras dalam skrip. Empat. Jalankan python benchmark_bloodtest.py dan periksa empat artifak yang dikeluarkan ke direktori kerja: kad skor CSV, kad skor JSON, pembuangan JSON penuh termasuk respons mentah enjin, dan laporan Markdown yang mudah dibaca manusia.

Rujukan larian dari 23 April 2026 disimpan dalam results/ direktori repositori. Larian baharu akan menghasilkan kad skor baharu bertanda masa sambil meninggalkan larian rujukan tidak berubah. Jika larian anda menghasilkan keputusan yang bermakna berbeza, sila buka isu GitHub dengan cap masa larian dan versi enjin yang dikembalikan dalam metadata respons.

Had dan kerja masa depan

Empat batasan wajar diakui secara jelas: saiz sampel, penilaian sekali tembak, skop satu enjin, dan asal data satu sumber. Masing-masing sedang ditangani dalam kerja susulan yang aktif.

Saiz sampel. Lima belas kes merentas lapan kumpulan kepakaran adalah memadai untuk bukti konsep tetapi tidak untuk analisis subkumpulan dalam satu kepakaran. Pengembangan kepada lima puluh kes dirancang dan akan merangkumi panel koagulasi, saringan keganasan hematologi, panel kehamilan, dan persembahan pediatrik.

Penilaian sekali tembak. Setiap kes dinilai sekali. Model bahasa besar menunjukkan varians output yang tidak remeh walaupun pada suhu pensampelan yang rendah, jadi protokol berbilang larian dengan lima penilaian bagi setiap kes dan varians yang dilaporkan ialah langkah seterusnya yang semula jadi.

Skop satu enjin. Laporan ini menghuraikan satu enjin. Analisis perbandingan terhadap sistem AI alternatif tidak termasuk dalam skop di sini; kami mungkin menanganinya sebagai kajian bebas berasingan dengan metodologi yang sesuai.

Asal data satu sumber. Lima belas kes ialah rekod pesakit sebenar yang dianonimkan yang diambil daripada satu repositori klinikal. Ia mewakili sampel yang dipilih dan bukan cabutan rawak yang mewakili populasi. Memperluas penilaian kepada data berbilang pusat ada dalam pelan hala tuju.

Sambungan yang paling memberi impak yang dirancang ialah kesetaraan berbilang bahasa. Enjin AI Kantesti melayani pengguna dalam 75+ bahasa, dan menjalankan harness lima belas kes yang sama dalam bahasa Turki, Jerman, Sepanyol, Perancis dan Arab akan mengukur kualiti output merentas bahasa yang disokong enjin. Kami akan menerbitkan setiap larian khusus bahasa dengan DOI masing-masing dan cawangan harness.