Mengapa penanda aras ini wujud dan apa yang ia uji
Tafsiran keputusan ujian darah berbantukan AI semakin digunakan dalam aliran kerja pengguna dan klinikal, namun rangka kerja penilaian yang boleh dibuktikan semula khusus untuk perubatan makmal masih jarang. Soalan yang paling penting dalam konteks ini bukanlah soalan yang diliputi oleh penanda aras umum soal-jawab perubatan: bolehkah enjin membezakan kekurangan zat besi daripada ciri talasemia apabila isipadu korpuskular min adalah sama, adakah ia terlebih mendiagnosis sindrom Gilbert sebagai hepatitis, dan adakah ia menghasilkan patologi dalam panel saringan yang benar-benar normal?
Satu panel ujian darah biasanya mengandungi isyarat yang mencukupi untuk menyokong beberapa tafsiran yang bersaing, dan tugas klinisyen yang mentafsir ialah menimbang tafsiran-tafsiran tersebut antara satu sama lain, bukannya mendapatkan jawapan seperti dalam buku teks. Enjin yang cemerlang pada kes-kes buku teks masih boleh gagal pada kes-kes yang paling penting: perangkap pembezaan diagnosis, varian yang tidak berbahaya tetapi kelihatan membimbangkan apabila dilihat secara berasingan, dan panel yang benar-benar normal yang menggoda pembantu yang yakin untuk menghasilkan patologi yang tidak wajar.
Penanda aras ini dibina khusus berdasarkan mod kegagalan tersebut. Setiap daripada lima belas kes dipilih untuk satu ciri diagnostik tertentu: mikrositosis akibat kekurangan zat besi yang mesti dipisahkan daripada trait beta-talassemia dengan isipadu korpuskular min yang sama, persembahan sindrom Gilbert di mana satu-satunya kelainan ialah hiperbilirubinaemia tidak langsung yang terpencil, dan panel saringan lima belas parameter di mana setiap analit berada dalam julat rujukannya. Rubrik memberi ganjaran kepada enjin yang membaca setiap kes mengikut konteksnya sendiri dan menghukum enjin yang cuba membuat diagnosis yang yakin apabila diagnosis sedemikian tidak wajar.
Sebagai Thomas Klein, MD, saya memilih panel kes ini kerana inilah corak yang paling kerap saya lihat pembantu perubatan makmal buat silap. Mod kegagalan yang mahal bukanlah "terlepas penyakit jarang"—tetapi mereka-reka patologi rutin pada pesakit yang sebenarnya tidak memilikinya. kami Pengesahan Perubatan hub menerangkan rangka kerja yang lebih luas; halaman ini menerangkan hasil terpakainya pada enjin V11.
Rujukan terkini — V11 (April 2026)
Ujian rujukan April 2026 bagi Kantesti AI Engine V11 menghasilkan skor komposit sebanyak 99.12% pada rubrik lima belas kes yang telah didaftarkan terlebih dahulu. Kedua-dua kes perangkap hiperdianosis mendapat skor pada tahap maksimum. Indeks Mentzer digunakan dengan betul pada pembezaan kekurangan zat besi berbanding talassemia.
Formula komposit menggabungkan tiga komponen: pematuhan struktur dengan tujuh bahagian laporan wajib dan enam belas subseksyen wajib, ketepatan klinikal diukur sebagai perolehan semula kata kunci ditambah perolehan semula sistem pemarkahan ditambah semakan kesahan taburan kebarangkalian, dan latensi respons berbanding sasaran perkhidmatan utama 20 saat. Penguraian tepat ditunjukkan dalam formula rubrik di bawah.
Baki 0.88 mata peratus ruang kepala terurai hampir sepenuhnya kepada kehilangan latensi — tiga invokasi sandaran Fasa 2 pada setiap satu pada -0.05 komposit menyumbang kira-kira 0.60 daripada defisit 0.88 mata itu — bukannya kepada kandungan klinikal. Enjin tidak terlepas diagnosis yang betul dalam mana-mana daripada lima belas kes; jika ia kurang tepat, ia berlaku dengan mengambil sedikit lebih lama daripada sasaran laluan utama 20 saat dalam sebahagian kecil invokasi.
Lima belas kes merentas tujuh kepakaran perubatan
Panel kes merangkumi tujuh kepakaran — hematologi, endokrinologi, perubatan metabolik, hepatologi, nefrologi, kardiologi, reumatologi — serta dua kes khusus perangkap hiperpengesanan. Setiap kes ialah rekod pesakit sebenar yang dianonimkan yang diambil daripada repositori data klinikal Kantesti di bawah persetujuan termaklum bertulis.
Penganoniman dilakukan di bawah pendekatan Safe Harbor: semua pengecam langsung telah dialih atau diganti, dan setiap rekod diberikan kod kes dalaman penanda aras dalam format BT-NNN-LABEL. Pemprosesan dijalankan selaras dengan Perkara 9(2)(j) GDPR untuk penyelidikan saintifik dengan langkah perlindungan yang sesuai, dan peruntukan setara UK GDPR. Tiada maklumat yang boleh dikenal pasti secara peribadi muncul di mana-mana dalam harness yang diterbitkan, laporan teknikal, atau set data yang dikeluarkan.
Mengapa taburan khusus ini
Hematologi mendapat tiga kes kerana pembezaan mikrositik dan pembezaan makrositik ialah perangkap berfrekuensi tertinggi dalam amalan makmal dunia sebenar. Endokrinologi mendapat tiga kerana persembahan Hashimoto, PCOS, dan kekurangan vitamin D menguji bentuk diagnostik yang berbeza (dipacu autoantibodi, dipacu nisbah hormon, dipacu penanda tunggal). Kepakaran satu kes masih bermakna kerana setiap CKD, risiko ASCVD, dan SLE mempunyai sistem pemarkahan tersendiri yang enjin patut panggil (masing-masing pementasan KDIGO, risiko 10 tahun ASCVD, dan kriteria SLE EULAR/ACR 2019).
Rubrik pra-pendaftaran, dijelaskan
Pra-pendaftaran ialah pilihan metodologi paling penting dalam penanda aras ini. Setiap diagnosis yang dijangka, setiap sistem pemarkahan klinikal, dan setiap bahagian laporan telah dikomit kepada kod sumber sebelum enjin dipanggil. Penalaan pasca-hoc rubrik untuk memihak kepada enjin oleh itu adalah mustahil.
Tiga komponen membentuk skor komposit. Komponen struktur menyumbang 35 peratus dan mengukur sama ada enjin mengembalikan tujuh bahagian laporan wajib (tajuk, ringkasan, dapatan utama, pembezaan, sistem pemarkahan, cadangan, susulan) dan enam belas subseksyen wajib di dalamnya. Kehadiran bahagian menimbang 40 peratus dan kehadiran subseksyen menimbang 60 peratus dalam pengiraan struktur.
The komponen klinikal menyumbang 55 peratus dan menggabungkan tiga perkara: ingatan kata kunci diagnosis (70 peratus daripada sub-skor klinikal), ingatan sistem pemarkahan (20 peratus — sama ada enjin mengira Mentzer, FIB-4, HOMA-IR, risiko ASCVD, pementasan KDIGO, kriteria EULAR/ACR apabila berkaitan), dan semakan kesahan jumlah kebarangkalian (10 peratus — kebarangkalian dalam pembezaan seharusnya berjumlah dalam julat [90, 110]). Untuk kes perangkap, penalti hiperdianosis yang jelas sehingga 0.30 ditolak, dikira sebagai 0.10 bagi setiap bendera patologi yang direka, dihadkan kepada tiga bendera.
The komponen latensi menyumbang 10 peratus. Respons di bawah 20 saat mendapat 0.10 penuh, respons di bawah 40 saat mendapat 0.05, dan apa-apa yang lebih perlahan mendapat sifar. Sasaran 20 saat mencerminkan objektif peringkat perkhidmatan pengeluaran primary-path; siling 40 saat mencerminkan bajet sandaran Fasa 2 untuk pemanggilan enjin yang berat.
Apa yang pra-pendaftaran cegah
Penanda aras pihak pertama terkenal kerana membesarkan nombor mereka sendiri melalui penalaan rubrik pasca-hoc. Coraknya hampir selalu sama: pasukan menjalankan enjin, melihat di mana ia kurang berprestasi, kemudian melaraskan rubrik secara senyap supaya kawasan yang kurang berprestasi dikira lebih rendah. Dengan mengomit rubrik kepada kod sumber sebelum panggilan enjin pertama dan menerbitkan rangka kerja di bawah lesen MIT, pelarasan itu menjadi kelihatan dalam kawalan versi. Sesiapa sahaja boleh mengklon repositori, menyemak tarikh pengarang rubrik, dan mengesahkan bahawa hasil enjin tidak digunakan untuk membentuk pemarkahan.
Kes perangkap hiperdiagnosis — mengapa pemanggilan berlebihan ialah mod kegagalan sebenar
Panggilan berlebihan yang agresif terhadap patologi pada saringan normal ialah mod kegagalan yang didokumenkan bagi pembantu perubatan pengguna. Kos hilirnya termasuk siasatan yang tidak perlu, kebimbangan pesakit, dan kerja-kerja pemeriksaan iatrogenik. Dua kes perangkap dalam penanda aras ini direka untuk menjadikan mod kegagalan itu kelihatan dan boleh diparkir.
🟡 Perangkap 1 — BT-014-GILBERT
Persembahan. Lelaki berusia 24 tahun dengan bilirubin total 2.4 mg/dL. Pecahan langsung adalah normal, transaminase dan fosfatase alkali berada dalam julat rujukan mereka, retikulosit tidak menunjukkan apa-apa yang luar biasa, dan haptoglobin serta LDH menolak hemolisis.
Tafsiran yang betul. Sindrom Gilbert — polimorfisme UGT1A1 yang tidak berbahaya. Tafsiran tidak seharusnya memanggil hepatitis, sirosis, anemia hemolitik, atau halangan bilier.
Keputusan V11. Komposit 1.000. Tiada satu pun daripada enam bendera pemdiagnosian berlebihan yang dipantau muncul sebagai diagnosis aktif.
🟡 Perangkap 2 — BT-015-HEALTHY
Persembahan. Seorang wanita berusia 35 tahun dengan panel saringan rutin lima belas parameter. Setiap analit berada dengan selesa dalam julat rujukan masing-masing.
Tafsiran yang betul. Jaminan dan penyelenggaraan gaya hidup. Tafsiran tidak seharusnya mereka-reka patologi sempadan semata-mata untuk kelihatan berguna secara klinikal.
Keputusan V11. Komposit 1.000. Tiada satu pun daripada tujuh bendera terlebih diagnosis yang dipantau—diabetes, anemia, hipotiroidisme, dislipidaemia, hepatitis, penyakit buah pinggang, kekurangan—muncul sebagai diagnosis aktif.
Merentas kedua-dua perangkap, tiga belas bendera hiperdianosis yang dipantau telah diperiksa. Tiada satu pun dicetuskan. Ini ialah hasil yang paling penting bagi mana-mana klinisyen yang mempertimbangkan penggunaan enjin AI sebagai alat triage atau pra-perundingan: sistem tidak mencipta penyakit jika tiada.
Indeks Mentzer: membezakan kekurangan zat besi daripada ciri talasemia
Satu lagi dapatan bernilai tinggi berkaitan pasangan kes BT-001 (anemia kekurangan zat besi) dengan kes BT-007 (beta-talassemia minor). Kedua-duanya menunjukkan mikrositosis dan merupakan halangan yang terkenal bagi pengelas yang tidak berpengalaman. Indeks Mentzer, yang dikira sebagai MCV dibahagi dengan bilangan RBC, melebihi 13 dalam kekurangan zat besi dan jatuh di bawah 13 dalam ciri talasemia.
Dalam BT-001, pesakit ialah wanita berusia 34 tahun dengan hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, feritin 6 ng/mL, dan TIBC yang meningkat. Indeks Mentzer kira-kira 17.7 menyokong kekurangan zat besi mutlak. Dalam BT-007, pesakit ialah lelaki berusia 28 tahun dengan mikrositosis (MCV 65.8 fL) tetapi bilangan RBC yang tinggi iaitu 6.2, RDW normal, feritin normal, dan HbA2 5.6 peratus. Indeks Mentzer kira-kira 10.6 menunjukkan ciri talasemia, dan HbA2 yang meningkat mengesahkan beta-talassemia minor.
Kedua-dua kes mendapat skor 1.000. Enjin menggunakan indeks Mentzer secara eksplisit dalam kedua-dua tafsiran dan mengembalikan diagnosis yang betul dalam setiap keadaan. Ini ialah hasil yang paling meyakinkan secara klinikal dalam keseluruhan penanda aras, kerana tersilap mengelaskan ciri talasemia sebagai kekurangan zat besi membawa kepada pemberian suplemen zat besi yang tidak sesuai dan terlepas peluang saringan keluarga, manakala tersilap mengelaskan kekurangan zat besi sebagai talasemia melambatkan terapi penggantian yang mudah. Kami ferritin kami menerangkan konteks pembezaan yang lebih luas.
Keputusan per kes bagi larian April 2026
Dua belas daripada lima belas kes mencapai skor komposit siling 1.000 pada laluan utama. Tiga kes disediakan melalui sandaran Fasa 2, kehilangan bonus latensi 0.05 sambil mengekalkan semua kandungan klinikal dan struktur. Satu kes tiada satu subseksyen wajib; satu lagi mengembalikan jumlah taburan kebarangkalian yang berkurang secara marginal.
Kes PCOS (BT-008) kehilangan satu subseksyen wajib dalam struktur respons — lima belas daripada enam belas, berbanding enam belas daripada enam belas — yang mengurangkan skor struktur daripada 1.000 kepada 0.963. Kes SLE (BT-011) mengembalikan jumlah kebarangkalian-taburan yang berkurang secara marginal, sehingga skor klinikal turun kepada 0.965 sambil mengekalkan setiap kata kunci diagnostik dan sistem pemarkahan. Tiada satu pun kes yang kurang sempurna terlepas diagnosis yang betul.
Apa yang skor tajuk tidak beritahu kita
Skor komposit 99.12 peratus di bawah rubrik pra-berdaftar khusus ini mewakili prestasi hampir tahap siling, tetapi ia wajar diberi rangka yang teliti. Hasil ini menerangkan tingkah laku enjin terhadap lima belas kes tanpa nama yang dipilih dengan teliti, dinilai sekali setiap satu, berbanding satu rubrik. Kami nyatakan dengan jelas apa yang nombor itu lakukan dan tidak tetapkan.
Skor itu mengatakan bahawa enjin V11 mengendalikan corak diagnostik yang dipilih untuk penilaian ini dengan betul, menggunakan metodologi yang diterbitkan dan boleh dihasilkan semula. Ia tidak mengatakan bahawa enjin itu betul untuk setiap panel ujian darah yang wujud di dunia sebenar. Ia tidak mengatakan bahawa enjin itu patut menggantikan pertimbangan klinikal. Dan ia tidak mengatakan bahawa enjin itu mengatasi sistem AI alternatif — analisis perbandingan dengan enjin lain sengaja dikecualikan daripada skop laporan ini.
Apa yang skor itu tetapkan ialah asas. Dengan rubrik dan harness yang tersedia kepada umum, versi masa depan enjin boleh dinilai terhadap lima belas kes yang sama, dan jurang antara skor yang diterbitkan dengan sebarang larian seterusnya boleh diukur sendiri. Inilah nilai pra-berdaftar: ia menukarkan tuntutan prestasi kepada tuntutan yang boleh diuji.
Cara menghasilkan semula penanda aras ini dalam 10 minit
Reproduksi memerlukan hanya pasangan kelayakan API Kantesti dan persekitaran Python 3.10 atau lebih baharu dengan requests dan reportlab perpustakaan dipasang. Harness penuh ialah satu modul Python tunggal yang berdiri sendiri, dikeluarkan di bawah lesen MIT.
Empat langkah untuk larian baharu
Satu. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dua. Pasang kebergantungan dengan pip install -r requirements.txt. Tiga. Tetapkan KANTESTI_USERNAME dan KANTESTI_PASSWORD sebagai pemboleh ubah persekitaran — kelayakan dibaca semasa masa jalan dan tiada apa yang dikodkan secara keras dalam skrip. Empat. Jalankan python benchmark_bloodtest.py dan periksa empat artifak yang dikeluarkan ke direktori kerja: kad skor CSV, kad skor JSON, pembuangan JSON penuh termasuk respons mentah enjin, dan laporan Markdown yang mudah dibaca manusia.
Rujukan larian dari 23 April 2026 disimpan dalam results/ direktori repositori. Larian baharu akan menghasilkan kad skor baharu bertanda masa sambil meninggalkan larian rujukan tidak berubah. Jika larian anda menghasilkan keputusan yang bermakna berbeza, sila buka isu GitHub dengan cap masa larian dan versi enjin yang dikembalikan dalam metadata respons.
Had dan kerja masa depan
Empat batasan wajar diakui secara jelas: saiz sampel, penilaian sekali tembak, skop satu enjin, dan asal data satu sumber. Masing-masing sedang ditangani dalam kerja susulan yang aktif.
Saiz sampel. Lima belas kes merentas lapan kumpulan kepakaran adalah memadai untuk bukti konsep tetapi tidak untuk analisis subkumpulan dalam satu kepakaran. Pengembangan kepada lima puluh kes dirancang dan akan merangkumi panel koagulasi, saringan keganasan hematologi, panel kehamilan, dan persembahan pediatrik.
Penilaian sekali tembak. Setiap kes dinilai sekali. Model bahasa besar menunjukkan varians output yang tidak remeh walaupun pada suhu pensampelan yang rendah, jadi protokol berbilang larian dengan lima penilaian bagi setiap kes dan varians yang dilaporkan ialah langkah seterusnya yang semula jadi.
Skop satu enjin. Laporan ini menghuraikan satu enjin. Analisis perbandingan terhadap sistem AI alternatif tidak termasuk dalam skop di sini; kami mungkin menanganinya sebagai kajian bebas berasingan dengan metodologi yang sesuai.
Asal data satu sumber. Lima belas kes ialah rekod pesakit sebenar yang dianonimkan yang diambil daripada satu repositori klinikal. Ia mewakili sampel yang dipilih dan bukan cabutan rawak yang mewakili populasi. Memperluas penilaian kepada data berbilang pusat ada dalam pelan hala tuju.
Sambungan yang paling memberi impak yang dirancang ialah kesetaraan berbilang bahasa. Enjin AI Kantesti melayani pengguna dalam 75+ bahasa, dan menjalankan harness lima belas kes yang sama dalam bahasa Turki, Jerman, Sepanyol, Perancis dan Arab akan mengukur kualiti output merentas bahasa yang disokong enjin. Kami akan menerbitkan setiap larian khusus bahasa dengan DOI masing-masing dan cawangan harness.