Mengapa penanda aras ini wujud dan apa yang ia uji
Tafsiran keputusan ujian darah berbantukan AI semakin digunakan dalam aliran kerja pengguna dan klinikal, namun rangka kerja penilaian yang boleh dibuktikan semula khusus untuk perubatan makmal masih jarang. Soalan yang paling penting dalam konteks ini bukanlah soalan yang diliputi oleh penanda aras umum soal-jawab perubatan: bolehkah enjin membezakan kekurangan zat besi daripada ciri talasemia apabila isipadu korpuskular min adalah sama, adakah ia terlebih mendiagnosis sindrom Gilbert sebagai hepatitis, dan adakah ia menghasilkan patologi dalam panel saringan yang benar-benar normal?
Satu panel ujian darah biasanya mengandungi isyarat yang mencukupi untuk menyokong beberapa tafsiran yang bersaing, dan tugas klinisyen yang mentafsir ialah menimbang tafsiran-tafsiran tersebut antara satu sama lain, bukannya mendapatkan jawapan seperti dalam buku teks. Enjin yang cemerlang pada kes-kes buku teks masih boleh gagal pada kes-kes yang paling penting: perangkap pembezaan diagnosis, varian yang tidak berbahaya tetapi kelihatan membimbangkan apabila dilihat secara berasingan, dan panel yang benar-benar normal yang menggoda pembantu yang yakin untuk menghasilkan patologi yang tidak wajar.
Penanda aras ini dibina khusus berdasarkan mod kegagalan tersebut. Setiap daripada lima belas kes dipilih untuk satu ciri diagnostik tertentu: mikrositosis akibat kekurangan zat besi yang mesti dipisahkan daripada trait beta-talassemia dengan isipadu korpuskular min yang sama, persembahan sindrom Gilbert di mana satu-satunya kelainan ialah hiperbilirubinaemia tidak langsung yang terpencil, dan panel saringan lima belas parameter di mana setiap analit berada dalam julat rujukannya. Rubrik memberi ganjaran kepada enjin yang membaca setiap kes mengikut konteksnya sendiri dan menghukum enjin yang cuba membuat diagnosis yang yakin apabila diagnosis sedemikian tidak wajar.
Sebagai Thomas Klein, MD, saya memilih panel kes ini kerana inilah corak yang paling kerap saya lihat pembantu perubatan makmal buat silap. Mod kegagalan yang mahal bukanlah "terlepas penyakit jarang"—tetapi mereka-reka patologi rutin pada pesakit yang sebenarnya tidak memilikinya. kami Pengesahan Perubatan hab menerangkan rangka kerja yang lebih luas; halaman ini menerangkan bukti konsep awal V11 dan Kemas Kini Kedua V11 yang menskalakannya kepada 100,000 kes sintetik yang diambil daripada set kes sintetik merentas 127 label negara — menggunakan rubrik pemarkahan yang sama, sama dari segi bait, tanpa penalaan pasca-hoc dibenarkan.
Rujukan terkini dijalankan — V11 Second Update (26 April 2026)
Rujukan V11 Second Update yang dijalankan pada 26 April 2026 menghasilkan skor komposit sebanyak 99.80% pada rubrik yang telah didaftarkan terlebih dahulu (pre-registered) yang sama digunakan dalam keluaran awal V11, dinilai pada 100,000 kes sintetik diambil daripada set kes sintetik Kantesti dan merentas 127 label negara dan bahasa 75+. Setiap kes selesai pada laluan utama enjin; pengaktifan bendera hiperpengesanan (trap-case hyperdiagnosis) kekal pada 0 / 87,412. Jalankan asal V11 pada 23 April 2026 merangkumi 15 kes yang dipilih secara kurasi (hand-curated) (skor komposit 99.12%) dan mengesahkan rubrik; Second Update mengekalkan rubrik itu sama persis mengikut bait dan melanjutkan penilaian kepada kohort berskala populasi.
Formula komposit menggabungkan tiga komponen: pematuhan struktur dengan tujuh bahagian laporan wajib dan enam belas subseksyen wajib, ketepatan kandungan diukur sebagai perolehan semula kata kunci ditambah perolehan semula sistem pemarkahan ditambah semakan kesahan taburan kebarangkalian, dan latensi respons berbanding sasaran perkhidmatan (service-level) laluan utama. Penguraian tepat ditunjukkan dalam formula rubrik di bawah — tiada satu pun wajaran atau sub-rubrik ini diubah untuk Second Update.
Baki 0.20 mata peratusan ruang (headroom) terurai hampir sepenuhnya kepada sub-skor klinikal — sebahagian kecil kes (terutamanya dalam Hepatologi dan Reumatologi) mempunyai satu kata kunci sistem pemarkahan yang dijangka tiada dalam tafsiran enjin walaupun kandungan diagnostik adalah betul. Tiada satu pun kes dalam kohort Second-Update 100,000 kes terlepas diagnosis itu sendiri. Kependaman (latency) bertambah baik daripada min 20.17 s dalam keluaran awal V11 kepada 13.26 s dalam Second Update, mencerminkan pengoptimuman enjin pengeluaran antara dua larian; rubrik, kod pemarkahan, dan endpoint API tidak berubah.
Skor komposit mengikut label berjulat daripada 0.9971 hingga 0.9985 merentas 30 label negara yang paling banyak diwakili. Ekor panjang bagi 97 label tambahan (≈7,300 kes secara gabungan) tidak menunjukkan kemerosotan yang sistematik. Label yang paling kerap mengikut bilangan kes ialah Amerika Syarikat (10,500), Brazil (9,500), Sepanyol (9,000), Itali (8,000), Jerman (7,800), Perancis (7,400), Portugal (5,800), Türkiye (3,400), United Kingdom (2,900), dan Mexico (2,500).
Daripada 15 kes kepada 100,000: evolusi kohort merentas 127 label negara
Panel kes V11 asal merangkumi tujuh kepakaran — hematologi, endokrinologi, perubatan metabolik, hepatologi, nefrologi, kardiologi, reumatologi — serta dua kes khusus perangkap hiperpengesanan, dengan setiap kes ialah panel ujian darah yang dijana secara sintetik. Kemas Kini Kedua V11 meluaskan penilaian kepada 100,000 kes sintetik merentas 127 label negara, diagihkan merentas lapan kepakaran (tujuh asal ditambah satu kelompok perubatan dalaman dalaman khusus yang menyerap subset trap). Rubrik pemarkahan yang sama digunakan sama persis mengikut bait merentas kedua-dua larian.
Memandangkan semua kes dijana secara sintetik, tiada pengecam sebenar untuk dibuang dan tiada data peribadi terlibat. Setiap kes sintetik membawa kod kes dalaman penanda aras (BT-NNN-LABEL dalam set awal V11, yang stabil case_uid dalam Kemas Kini Kedua). Tiada data peribadi muncul di mana-mana dalam harness yang diterbitkan, laporan teknikal, atau set data yang dikeluarkan.
keluaran awal V11 — 15 kes yang dipilih secara kurasi (hand-curated)
Panel kes V11 asal telah dipilih secara teliti oleh Dr. Thomas Klein untuk menguji corak diagnostik yang paling kerap tersilap oleh pembantu perubatan makmal. Setiap daripada lima belas kes dipilih untuk satu sifat diagnostik tertentu, disenaraikan di bawah.
Mengapa taburan khusus ini
Hematologi mendapat tiga kes kerana pembezaan mikrositik dan pembezaan makrositik ialah perangkap berfrekuensi tertinggi dalam amalan makmal dunia sebenar. Endokrinologi mendapat tiga kerana persembahan Hashimoto, PCOS, dan kekurangan vitamin D menguji bentuk diagnostik yang berbeza (dipacu autoantibodi, dipacu nisbah hormon, dipacu penanda tunggal). Kepakaran satu kes masih bermakna kerana setiap CKD, risiko ASCVD, dan SLE mempunyai sistem pemarkahan tersendiri yang enjin patut panggil (masing-masing pementasan KDIGO, risiko 10 tahun ASCVD, dan kriteria SLE EULAR/ACR 2019).
Kemas Kini Kedua V11 — 100,000 kes sintetik merentas 127 label negara
Kemas Kini Kedua menggantikan literal Python 15 kes V11 asal yang dikod keras dengan set kes sintetik yang lebih besar dan dijana secara pengaturcaraan. Set kes dimuatkan pada permulaan setiap larian dan konfigurasi dicatat untuk ketelusan. Taburan kohort mengikut bidang kandungan ditunjukkan di bawah.
Taburan label negara sintetik — 10 label teratas
100,000 kes sintetik membawa 127 label negara (ISO 3166-1 alpha-2) untuk menguji pengendalian lokal. Tugasan label: Eropah 57.7%, Amerika 25.4%, Asia-Pasifik 6.2%, label Timur Tengah/Afrika yang dinamakan 3.4%, dan ekor panjang 97 label tambahan kira-kira 7.3% secara gabungan. Sepuluh label yang paling kerap mengikut bilangan kes ialah Amerika Syarikat (10,500), Brazil (9,500), Sepanyol (9,000), Itali (8,000), Jerman (7,800), Perancis (7,400), Portugal (5,800), Türkiye (3,400), United Kingdom (2,900), dan Mexico (2,500). Skor komposit mengikut label berjulat daripada 0.9971 hingga 0.9985. Kiraan label ini ialah sifat bagi kes yang dijana yang digunakan untuk menguji pengendalian lokal — ia bukan pengguna sebenar dan bukan liputan geografi dunia sebenar.
Rubrik pra-pendaftaran, dijelaskan
Pra-pendaftaran ialah pilihan metodologi paling penting dalam penanda aras ini. Setiap diagnosis yang dijangka, setiap sistem pemarkahan klinikal, dan setiap bahagian laporan telah dikomit kepada kod sumber sebelum enjin dipanggil. Penalaan pasca-hoc rubrik untuk memihak kepada enjin oleh itu adalah mustahil.
Tiga komponen membentuk skor komposit. Komponen struktur menyumbang 35 peratus dan mengukur sama ada enjin mengembalikan tujuh bahagian laporan wajib (tajuk, ringkasan, dapatan utama, pembezaan, sistem pemarkahan, cadangan, susulan) dan enam belas subseksyen wajib di dalamnya. Kehadiran bahagian menimbang 40 peratus dan kehadiran subseksyen menimbang 60 peratus dalam pengiraan struktur.
The komponen klinikal menyumbang 55 peratus dan menggabungkan tiga perkara: ingatan kata kunci diagnosis (70 peratus daripada sub-skor klinikal), ingatan sistem pemarkahan (20 peratus — sama ada enjin mengira Mentzer, FIB-4, HOMA-IR, risiko ASCVD, pementasan KDIGO, kriteria EULAR/ACR apabila berkaitan), dan semakan kesahan jumlah kebarangkalian (10 peratus — kebarangkalian dalam pembezaan seharusnya berjumlah dalam julat [90, 110]). Untuk kes perangkap, penalti hiperdianosis yang jelas sehingga 0.30 ditolak, dikira sebagai 0.10 bagi setiap bendera patologi yang direka, dihadkan kepada tiga bendera.
The komponen latensi menyumbang 10 peratus. Respons di bawah 20 saat mendapat 0.10 penuh, respons di bawah 40 saat mendapat 0.05, dan apa-apa yang lebih perlahan mendapat sifar. Sasaran 20 saat mencerminkan objektif peringkat perkhidmatan pengeluaran primary-path; siling 40 saat mencerminkan bajet sandaran Fasa 2 untuk pemanggilan enjin yang berat.
Apa yang pra-pendaftaran cegah
Penanda aras pihak pertama terkenal kerana membesarkan nombor mereka sendiri melalui penalaan rubrik pasca-hoc. Coraknya hampir selalu sama: pasukan menjalankan enjin, melihat di mana ia kurang berprestasi, kemudian melaraskan rubrik secara senyap supaya kawasan yang kurang berprestasi dikira lebih rendah. Dengan mengomit rubrik kepada kod sumber sebelum panggilan enjin pertama dan menerbitkan rangka kerja di bawah lesen MIT, pelarasan itu menjadi kelihatan dalam kawalan versi. Sesiapa sahaja boleh mengklon repositori, menyemak tarikh pengarang rubrik, dan mengesahkan bahawa hasil enjin tidak digunakan untuk membentuk pemarkahan.
Kes perangkap hiperdiagnosis — mengapa pemanggilan berlebihan ialah mod kegagalan sebenar
Panggilan berlebihan yang agresif terhadap patologi pada saringan normal ialah mod kegagalan yang didokumenkan bagi pembantu perubatan pengguna. Kos hilirnya termasuk siasatan yang tidak perlu, kebimbangan pesakit, dan kerja-kerja pemeriksaan iatrogenik. Dua kes perangkap dalam penanda aras ini direka untuk menjadikan mod kegagalan itu kelihatan dan boleh diparkir.
🟡 Perangkap 1 — BT-014-GILBERT
Persembahan. Lelaki berusia 24 tahun dengan bilirubin total 2.4 mg/dL. Pecahan langsung adalah normal, transaminase dan fosfatase alkali berada dalam julat rujukan mereka, retikulosit tidak menunjukkan apa-apa yang luar biasa, dan haptoglobin serta LDH menolak hemolisis.
Tafsiran yang betul. Sindrom Gilbert — polimorfisme UGT1A1 yang tidak berbahaya. Tafsiran tidak seharusnya memanggil hepatitis, sirosis, anemia hemolitik, atau halangan bilier.
Keputusan V11. Komposit 1.000. Tiada satu pun daripada enam bendera pemdiagnosian berlebihan yang dipantau muncul sebagai diagnosis aktif.
🟡 Perangkap 2 — BT-015-HEALTHY
Persembahan. Seorang wanita berusia 35 tahun dengan panel saringan rutin lima belas parameter. Setiap analit berada dengan selesa dalam julat rujukan masing-masing.
Tafsiran yang betul. Jaminan dan penyelenggaraan gaya hidup. Tafsiran tidak seharusnya mereka-reka patologi sempadan semata-mata untuk kelihatan berguna secara klinikal.
Keputusan V11. Komposit 1.000. Tiada satu pun daripada tujuh bendera terlebih diagnosis yang dipantau—diabetes, anemia, hipotiroidisme, dislipidaemia, hepatitis, penyakit buah pinggang, kekurangan—muncul sebagai diagnosis aktif.
Merentas kedua-dua perangkap, tiga belas bendera hiperdianosis yang dipantau telah diperiksa. Tiada satu pun dicetuskan. Ini ialah hasil yang paling penting bagi mana-mana klinisyen yang mempertimbangkan penggunaan enjin AI sebagai alat triage atau pra-perundingan: sistem tidak mencipta penyakit jika tiada.
Indeks Mentzer: membezakan kekurangan zat besi daripada ciri talasemia
Satu lagi dapatan bernilai tinggi berkaitan pasangan kes BT-001 (anemia kekurangan zat besi) dengan kes BT-007 (beta-talassemia minor). Kedua-duanya menunjukkan mikrositosis dan merupakan halangan yang terkenal bagi pengelas yang tidak berpengalaman. Indeks Mentzer, yang dikira sebagai MCV dibahagi dengan bilangan RBC, melebihi 13 dalam kekurangan zat besi dan jatuh di bawah 13 dalam ciri talasemia.
Dalam BT-001, pesakit ialah wanita berusia 34 tahun dengan hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, feritin 6 ng/mL, dan TIBC yang meningkat. Indeks Mentzer kira-kira 17.7 menyokong kekurangan zat besi mutlak. Dalam BT-007, pesakit ialah lelaki berusia 28 tahun dengan mikrositosis (MCV 65.8 fL) tetapi bilangan RBC yang tinggi iaitu 6.2, RDW normal, feritin normal, dan HbA2 5.6 peratus. Indeks Mentzer kira-kira 10.6 menunjukkan ciri talasemia, dan HbA2 yang meningkat mengesahkan beta-talassemia minor.
Kedua-dua kes mendapat skor 1.000. Enjin menggunakan indeks Mentzer secara eksplisit dalam kedua-dua tafsiran dan mengembalikan diagnosis yang betul dalam setiap keadaan. Ini ialah hasil yang paling meyakinkan secara klinikal dalam keseluruhan penanda aras, kerana tersilap mengelaskan ciri talasemia sebagai kekurangan zat besi membawa kepada pemberian suplemen zat besi yang tidak sesuai dan terlepas peluang saringan keluarga, manakala tersilap mengelaskan kekurangan zat besi sebagai talasemia melambatkan terapi penggantian yang mudah. Kami ferritin kami menerangkan konteks pembezaan yang lebih luas.
Keputusan per kes daripada larian rujukan awal V11 (23 April, 2026)
Larian rujukan V11 asal pada kohort bukti konsep 15 kes berfungsi sebagai asas metodologi bagi Second Update: setiap butiran per kes di bawah menunjukkan bagaimana rubrik mengendalikan respons enjin sebenar. Dua belas daripada lima belas kes mencapai skor komposit siling 1.000 pada laluan utama; tiga kes disediakan melalui sandaran Fasa 2, kehilangan bonus latensi 0.05 sambil mengekalkan semua kandungan klinikal dan struktur. Satu kes tiada satu subseksyen wajib; satu lagi mengembalikan jumlah taburan kebarangkalian yang berkurang secara sedikit.
Kes PCOS (BT-008) kehilangan satu subseksyen wajib dalam struktur respons — lima belas daripada enam belas, berbanding enam belas daripada enam belas — yang mengurangkan skor struktur daripada 1.000 kepada 0.963. Kes SLE (BT-011) mengembalikan jumlah kebarangkalian-taburan yang berkurang secara marginal, sehingga skor klinikal turun kepada 0.965 sambil mengekalkan setiap kata kunci diagnostik dan sistem pemarkahan. Tiada satu pun kes yang kurang sempurna terlepas diagnosis yang betul.
Agregat V11 Second Update — 100,000 kes
Pada skala populasi, baris kes individu tidak boleh dibaca oleh manusia, jadi Kemas Kini Kedua melaporkan metrik teragregat dan bukannya jadual 100,000 baris. Agregat tajuk ditunjukkan di bawah; pecahan mengikut kepakaran dan mengikut label negara diterbitkan dalam laporan teknikal dan pemendapan Figshare. Sampel rawak berstrata bagi n = 201 respons enjin (benih deterministik 20260426) diterbitkan dalam GitHub results/ direktori untuk pemeriksaan.
Apa yang skor tajuk tidak beritahu kita
Skor komposit 99.80 peratus di bawah rubrik praterdaftar khusus ini, pada kohort sintetik 100,000 kes merentas 127 label negara, mewakili prestasi hampir siling — tetapi ia wajar diberi rangka yang teliti. Hasil ini menerangkan kelakuan enjin terhadap rubrik yang kami komitedkan kepada kod sumber dalam V11; ia bukan tuntutan universal tentang ketepatan enjin pada setiap panel ujian darah yang wujud di dunia sebenar.
Skor ini mengatakan enjin mengendalikan corak diagnostik yang dipilih untuk penilaian ini dengan betul merentas kohort skala populasi, pada metodologi yang diterbitkan dan boleh dihasilkan semula. Ia tidak mengatakan enjin adalah betul pada setiap panel ujian darah yang wujud di dunia sebenar. Ia juga tidak mengatakan enjin patut menggantikan pertimbangan klinisi. Dan ia tidak mengatakan enjin mengatasi sistem AI alternatif — analisis perbandingan terhadap enjin lain sengaja dikecualikan daripada laporan ini.
Apa yang skor ini tetapkan ialah garis dasar. Dengan rubrik dan harness yang tersedia untuk umum, versi enjin masa depan boleh dinilai terhadap rubrik yang sama — digunakan pada 15 kes permulaan V11, kohort 100,000 kes Kemas Kini Kedua, atau sebarang pengembangan seterusnya — dan jurang antara skor yang diterbitkan dan mana-mana larian berikutnya itu sendiri boleh diukur. Inilah nilai pra-pendaftaran: ia menukarkan tuntutan prestasi kepada tuntutan yang boleh diuji.
Cara menghasilkan semula penanda aras ini dalam 10 minit
Reproduksi memerlukan hanya pasangan kelayakan API Kantesti dan persekitaran Python 3.10 atau lebih baharu dengan requests dan reportlab perpustakaan dipasang. Harness penuh ialah satu modul Python tunggal yang berdiri sendiri, dikeluarkan di bawah lesen MIT.
Empat langkah untuk larian baharu
Satu. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dua. Pasang kebergantungan dengan pip install -r requirements.txt (Kemas Kini Kedua menambah mysql-connector-python ≥ 8.0 untuk pemuat kes SQL). Tiga. Tetapkan KANTESTI_USERNAME dan KANTESTI_PASSWORD sebagai pemboleh ubah persekitaran untuk API enjin. Untuk pemuat kes SQL Kemas Kini Kedua, juga tetapkan KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, dan KANTESTI_DB_PASSWORD — pemuat (loader) bersambung melalui peranan baca sahaja (bench_reader) yang tiada keistimewaan untuk mengenal pasti jadual. Empat. Jalankan python benchmark_bloodtest.py --limit 100000 untuk keseluruhan larian Second-Update, atau python benchmark_bloodtest.py --limit 1000 untuk lelaran pantas. Output diletakkan di ./benchmark_results/: kad skor CSV dengan lajur per-country-label dan per-specialty, agregat JSON, sampel raw respons berstrata-rawak, dan laporan Markdown.
Larian rujukan daripada 23 April 2026 (V11 awal, 15 kes) dan 26 April 2026 (V11 Second Update, 100,000 kes) dikekalkan dalam results/ direktori repositori. Larian baharu akan menghasilkan scorecard baharu yang bertanda cap masa, sambil meninggalkan larian rujukan tidak berubah. Jika larian anda menghasilkan keputusan yang secara bermakna berbeza, sila buka isu GitHub dengan cap masa larian dan versi enjin yang dikembalikan dalam metadata respons.
Had dan kerja masa depan
Walaupun pada 100,000 kes merentas 127 country labels, empat batasan wajar diakui secara jelas: pensampelan kurang bagi label ekor-panjang, penilaian sekali tembak, skop satu enjin, dan asal data satu sumber. Setiap satu sedang ditangani dalam kerja susulan aktif.
Liputan label ekor-panjang. Kemas Kini Kedua merangkumi 127 country labels, tetapi taburannya tidak seimbang — 10 label teratas menyumbang ≈66.4% kes, dan ekor panjang 97 label tambahan bersama-sama menyumbang ≈7.3% (kira-kira 7,300 kes secara gabungan, ~75 kes setiap label secara purata). Oleh itu, komposit per-label dalam ekor panjang ini lebih berisiko hingar berbanding angka tajuk yang dicadangkan. Larian masa depan akan menyusun semula penetapan label untuk mengukuhkan anggaran per-label.
Penilaian sekali tembak. Setiap kes dalam kohort dinilai sekali. Model bahasa besar menunjukkan varians output yang tidak remeh walaupun pada suhu pensampelan yang rendah, jadi protokol berbilang larian dengan lima penilaian bagi setiap kes dan varians yang dilaporkan merupakan langkah seterusnya yang semula jadi — terutamanya pada subset kes perangkap (trap-case), di mana konsistensi di bawah gangguan pensampelan (sampling jitter) adalah sebahagian daripada tuntutan keselamatan.
Skop satu enjin. Laporan ini menghuraikan satu enjin. Analisis perbandingan terhadap sistem AI alternatif adalah di luar skop di sini; kami mungkin menanganinya sebagai kajian bebas berasingan dengan metodologi yang sesuai, menggunakan harness berlesen MIT yang sama.
Data sintetik. 100,000 kes dijana secara sintetik, bukan kes sintetik, dan hasil tidak dipindahkan kepada prestasi klinikal dunia sebenar. Penilaian pada data sebenar yang telah mendapat persetujuan dan bersumber secara luaran memerlukan pengawasan etika yang sesuai dan berada di luar skop penanda aras sintetik ini.
Selain empat ini, peluasan yang paling memberi impak yang dirancang ialah kesetaraan pelbagai bahasa mengikut bidang kuasa. Enjin AI Kantesti melayani pengguna dalam 75+ bahasa, dan menjalankan sub-kohort Second-Update yang berstrata mengikut bahasa (Turki, Jerman, Sepanyol, Perancis, Itali, Portugis, Arab, Mandarin) akan mengukur kualiti output merentas bahasa yang disokong oleh enjin. Setiap analisis berstrata bahasa akan diterbitkan bersama DOI dan cawangan harness masing-masing.