Penanda Aras Ujian Darah AI Kantesti

Penanda Aras Automatik Penanda Aras Pra-Pendaftaran Kemas Kini Kedua V11 — April 2026 Berlesen MIT Boleh Dihasilkan Semula · Data Terbuka 100K Kohort Sintetik · 127 Label Negara

Skor Komposit 99.80% pada Rubrik Praterdaftar — Kemas Kini Kedua V11, Kohort 100,000 Kes merentas 127 Label Negara

Penanda aras teknikal automatik berasaskan rubrik yang praterdaftar bagi enjin Kantesti pada 100,000 kes ujian darah yang dijana secara sintetik dan diberi tag dengan 127 label negara. Ia mengukur pematuhan output, bukan ketepatan diagnostik. Rubrik telah dibekukan dalam kod sumber sebelum keluaran awal V11 dan dikekalkan sama dari segi bait untuk Kemas Kini Kedua ini; harness penilaian dilesenkan MIT; sampel rawak raw berstrata bagi respons enjin diterbitkan untuk pemeriksaan. Semua kes adalah sintetik; tiada data peribadi digunakan.

📖 ~14 minit 📅 Diterbitkan pada 23 April 2026 · Dikemas kini pada 26 April 2026 (Kemas Kini Kedua V11) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Diterbitkan: 23 April 2026 🔄 Kemas Kini Kedua V11: 26 April 2026 🩺 Disemak secara perubatan: 26 April 2026 ✅ Rubrik Pra-Pendaftaran (Sama Byte) 🔓 Kod & Data Terbuka

Penanda aras automatik ini direka dan dijalankan oleh Julian Emirhan Bulut, Jurutera AI Kanan dan Ketua Pegawai Eksekutif Kantesti Ltd. Pemarkahan adalah sepenuhnya automatik dalam kod sumber; rubrik pemarkahan dan panel kes telah dibangunkan dengan input klinikal daripada Dr. Thomas Klein, MD, Ketua Pegawai Perubatan di Kantesti AI, dan disemak oleh Lembaga Penasihat Perubatan Kantesti AI. Ia ialah penanda aras dalaman kendiri, bukan penanda aras teknikal automatik yang bebas atau disemak rakan sebaya.

Pengarang Utama & Penyeliaan Klinikal

Thomas Klein, MD

Ketua Pegawai Perubatan, Kantesti AI

Dr. Thomas Klein ialah pakar hematologi klinikal bertauliah lembaga dan internis dengan lebih 15 tahun pengalaman dalam perubatan makmal. Sebagai Ketua Pegawai Perubatan di Kantesti AI, beliau memilih panel kes untuk penanda aras ini, menyemak kandungan klinikal dan jawapan yang dijangka bagi kes-kes sintetik, serta meluluskan rubrik praterdaftar sebelum pemanggilan enjin pertama.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Pengarang Bersama & Pelaksanaan

Julian Emirhan Bulut

Jurutera AI Kanan & Ketua Pegawai Eksekutif, Kantesti Ltd

Julian Emirhan Bulut ialah pengasas dan Ketua Pegawai Eksekutif Kantesti Ltd. Beliau mereka bentuk dan melaksanakan persekitaran penilaian — termasuk pemuat kes SQL yang ditambah untuk Kemas Kini Kedua V11 — menjalankan integrasi API, menjalankan kedua-dua larian rujukan awal V11 dan larian 100,000 kes Kemas Kini Kedua V11, serta menyediakan pengagregatan statistik. Pengasas platform sejak 2019.

GitHub Mengenai Kantesti

⚡ Ringkasan Ringkas Kemas Kini Kedua V11 — 26 April 2026

Skor komposit 99.80% pada 100,000 kes ujian darah sintetik merentas lapan kepakaran perubatan dan 127 label negara (Kemas Kini Kedua V11).
Tiada false-positive hiperdiagnosis merentas 87,412 peluang bendera trap-case yang dipantau — metodologi trap-case yang sama seperti V11 awal, diskalakan ke tahap populasi.
Rubrik yang didaftarkan terlebih dahulu dibekukan dalam kod sumber sebelum larian awal V11 dan dikekalkan sama byte untuk Kemas Kini Kedua ini — tiada penalaan pasca-hoc boleh dilakukan.
Indeks Mentzer digunakan dengan betul untuk membezakan anemia kekurangan zat besi daripada beta-thalassemia minor dalam keluaran awal V11; tingkah laku pembezaan dikekalkan pada skala populasi.
Hanya endpoint pengeluaran — tiada penghalaan berkeutamaan, dinilai tepat seperti yang pelanggan berbayar akan mengaksesnya.
Kependaman min 13.26 saat hujung ke hujung (julat 9.0–16.94 s), dengan kesemua 100,000 kes selesai pada laluan utama enjin.
Kohort sintetik. 100,000 kes ujian yang dijana secara sintetik dimuatkan pada masa jalan. Tiada data sintetik dan tiada data peribadi digunakan.
Harness berlesen MIT dikeluarkan di GitHub dengan sampel rawak berstrata (n = 201) bagi respons enjin mentah penuh untuk pemeriksaan.
DOI Figshare: 10.6084/m9.figshare.32095435 · Dicerminkan di ResearchGate, Academia.edu, GitHub.

Mengapa penanda aras ini wujud dan apa yang ia uji

Tafsiran keputusan ujian darah berbantukan AI semakin digunakan dalam aliran kerja pengguna dan klinikal, namun rangka kerja penilaian yang boleh dibuktikan semula khusus untuk perubatan makmal masih jarang. Soalan yang paling penting dalam konteks ini bukanlah soalan yang diliputi oleh penanda aras umum soal-jawab perubatan: bolehkah enjin membezakan kekurangan zat besi daripada ciri talasemia apabila isipadu korpuskular min adalah sama, adakah ia terlebih mendiagnosis sindrom Gilbert sebagai hepatitis, dan adakah ia menghasilkan patologi dalam panel saringan yang benar-benar normal?

Satu panel ujian darah biasanya mengandungi isyarat yang mencukupi untuk menyokong beberapa tafsiran yang bersaing, dan tugas klinisyen yang mentafsir ialah menimbang tafsiran-tafsiran tersebut antara satu sama lain, bukannya mendapatkan jawapan seperti dalam buku teks. Enjin yang cemerlang pada kes-kes buku teks masih boleh gagal pada kes-kes yang paling penting: perangkap pembezaan diagnosis, varian yang tidak berbahaya tetapi kelihatan membimbangkan apabila dilihat secara berasingan, dan panel yang benar-benar normal yang menggoda pembantu yang yakin untuk menghasilkan patologi yang tidak wajar.

Penanda aras ini dibina khusus berdasarkan mod kegagalan tersebut. Setiap daripada lima belas kes dipilih untuk satu ciri diagnostik tertentu: mikrositosis akibat kekurangan zat besi yang mesti dipisahkan daripada trait beta-talassemia dengan isipadu korpuskular min yang sama, persembahan sindrom Gilbert di mana satu-satunya kelainan ialah hiperbilirubinaemia tidak langsung yang terpencil, dan panel saringan lima belas parameter di mana setiap analit berada dalam julat rujukannya. Rubrik memberi ganjaran kepada enjin yang membaca setiap kes mengikut konteksnya sendiri dan menghukum enjin yang cuba membuat diagnosis yang yakin apabila diagnosis sedemikian tidak wajar.

Sebagai Thomas Klein, MD, saya memilih panel kes ini kerana inilah corak yang paling kerap saya lihat pembantu perubatan makmal buat silap. Mod kegagalan yang mahal bukanlah "terlepas penyakit jarang"—tetapi mereka-reka patologi rutin pada pesakit yang sebenarnya tidak memilikinya. kami Pengesahan Perubatan hab menerangkan rangka kerja yang lebih luas; halaman ini menerangkan bukti konsep awal V11 dan Kemas Kini Kedua V11 yang menskalakannya kepada 100,000 kes sintetik yang diambil daripada set kes sintetik merentas 127 label negara — menggunakan rubrik pemarkahan yang sama, sama dari segi bait, tanpa penalaan pasca-hoc dibenarkan.

Rujukan terkini dijalankan — V11 Second Update (26 April 2026)

Rujukan V11 Second Update yang dijalankan pada 26 April 2026 menghasilkan skor komposit sebanyak 99.80% pada rubrik yang telah didaftarkan terlebih dahulu (pre-registered) yang sama digunakan dalam keluaran awal V11, dinilai pada 100,000 kes sintetik diambil daripada set kes sintetik Kantesti dan merentas 127 label negara dan bahasa 75+. Setiap kes selesai pada laluan utama enjin; pengaktifan bendera hiperpengesanan (trap-case hyperdiagnosis) kekal pada 0 / 87,412. Jalankan asal V11 pada 23 April 2026 merangkumi 15 kes yang dipilih secara kurasi (hand-curated) (skor komposit 99.12%) dan mengesahkan rubrik; Second Update mengekalkan rubrik itu sama persis mengikut bait dan melanjutkan penilaian kepada kohort berskala populasi.

Komposit 99.80% 100,000 daripada 100,000 kes mendapat skor

1.000 Skor struktur

0.996 Skor klinikal

13.26 s Purata latensi

0 / 87,412 Pemalsuan positif perangkap

Formula komposit menggabungkan tiga komponen: pematuhan struktur dengan tujuh bahagian laporan wajib dan enam belas subseksyen wajib, ketepatan kandungan diukur sebagai perolehan semula kata kunci ditambah perolehan semula sistem pemarkahan ditambah semakan kesahan taburan kebarangkalian, dan latensi respons berbanding sasaran perkhidmatan (service-level) laluan utama. Penguraian tepat ditunjukkan dalam formula rubrik di bawah — tiada satu pun wajaran atau sub-rubrik ini diubah untuk Second Update.

Komposit = 0.35 × Struktur + 0.55 × Klinikal + 0.10 × Latensi

Baki 0.20 mata peratusan ruang (headroom) terurai hampir sepenuhnya kepada sub-skor klinikal — sebahagian kecil kes (terutamanya dalam Hepatologi dan Reumatologi) mempunyai satu kata kunci sistem pemarkahan yang dijangka tiada dalam tafsiran enjin walaupun kandungan diagnostik adalah betul. Tiada satu pun kes dalam kohort Second-Update 100,000 kes terlepas diagnosis itu sendiri. Kependaman (latency) bertambah baik daripada min 20.17 s dalam keluaran awal V11 kepada 13.26 s dalam Second Update, mencerminkan pengoptimuman enjin pengeluaran antara dua larian; rubrik, kod pemarkahan, dan endpoint API tidak berubah.

Skor komposit mengikut label berjulat daripada 0.9971 hingga 0.9985 merentas 30 label negara yang paling banyak diwakili. Ekor panjang bagi 97 label tambahan (≈7,300 kes secara gabungan) tidak menunjukkan kemerosotan yang sistematik. Label yang paling kerap mengikut bilangan kes ialah Amerika Syarikat (10,500), Brazil (9,500), Sepanyol (9,000), Itali (8,000), Jerman (7,800), Perancis (7,400), Portugal (5,800), Türkiye (3,400), United Kingdom (2,900), dan Mexico (2,500).

Daripada 15 kes kepada 100,000: evolusi kohort merentas 127 label negara

Panel kes V11 asal merangkumi tujuh kepakaran — hematologi, endokrinologi, perubatan metabolik, hepatologi, nefrologi, kardiologi, reumatologi — serta dua kes khusus perangkap hiperpengesanan, dengan setiap kes ialah panel ujian darah yang dijana secara sintetik. Kemas Kini Kedua V11 meluaskan penilaian kepada 100,000 kes sintetik merentas 127 label negara, diagihkan merentas lapan kepakaran (tujuh asal ditambah satu kelompok perubatan dalaman dalaman khusus yang menyerap subset trap). Rubrik pemarkahan yang sama digunakan sama persis mengikut bait merentas kedua-dua larian.

Memandangkan semua kes dijana secara sintetik, tiada pengecam sebenar untuk dibuang dan tiada data peribadi terlibat. Setiap kes sintetik membawa kod kes dalaman penanda aras (BT-NNN-LABEL dalam set awal V11, yang stabil case_uid dalam Kemas Kini Kedua). Tiada data peribadi muncul di mana-mana dalam harness yang diterbitkan, laporan teknikal, atau set data yang dikeluarkan.

keluaran awal V11 — 15 kes yang dipilih secara kurasi (hand-curated)

Panel kes V11 asal telah dipilih secara teliti oleh Dr. Thomas Klein untuk menguji corak diagnostik yang paling kerap tersilap oleh pembantu perubatan makmal. Setiap daripada lima belas kes dipilih untuk satu sifat diagnostik tertentu, disenaraikan di bawah.

Hematologi (3) BT-001, BT-006, BT-007 Anemia kekurangan zat besi · Kekurangan B12 · Talasemia beta minor

Endokrinologi (3) BT-002, BT-008, BT-012 Tiroiditis Hashimoto · PCOS dengan rintangan insulin · Kekurangan vitamin D yang teruk

Metabolik (2) BT-003, BT-013 T2DM dengan sindrom metabolik · Hiperurisemia dengan risiko gout

Hepatologi (2) BT-004, BT-009 NAFLD / NASH · Hepatitis virus akut

Nefrologi · Kardiologi · Reumatologi (3) BT-005, BT-010, BT-011 CKD peringkat 3 · Dislipidaemia aterogenik · Lupus eritematosus sistemik

Kes perangkap (2) BT-014, BT-015 Sindrom Gilbert (hiperbilirubinaemia tidak langsung terpencil) · Saringan dewasa yang sepenuhnya normal

Mengapa taburan khusus ini

Hematologi mendapat tiga kes kerana pembezaan mikrositik dan pembezaan makrositik ialah perangkap berfrekuensi tertinggi dalam amalan makmal dunia sebenar. Endokrinologi mendapat tiga kerana persembahan Hashimoto, PCOS, dan kekurangan vitamin D menguji bentuk diagnostik yang berbeza (dipacu autoantibodi, dipacu nisbah hormon, dipacu penanda tunggal). Kepakaran satu kes masih bermakna kerana setiap CKD, risiko ASCVD, dan SLE mempunyai sistem pemarkahan tersendiri yang enjin patut panggil (masing-masing pementasan KDIGO, risiko 10 tahun ASCVD, dan kriteria SLE EULAR/ACR 2019).

Kemas Kini Kedua V11 — 100,000 kes sintetik merentas 127 label negara

Kemas Kini Kedua menggantikan literal Python 15 kes V11 asal yang dikod keras dengan set kes sintetik yang lebih besar dan dijana secara pengaturcaraan. Set kes dimuatkan pada permulaan setiap larian dan konfigurasi dicatat untuk ketelusan. Taburan kohort mengikut bidang kandungan ditunjukkan di bawah.

Endokrinologi 23,900 kes (23.9%) Tiroid, PCOS, vitamin D, paksi gonadal, pituitari

Perubatan metabolik 21,900 kes (21.9%) T2DM, sindrom metabolik, panel lipid, hiperurikemia

Hematologi 15,400 kes (15.4%) Bezanya mikrositik dan makrositik, B12/folat, kajian besi

Hepatologi 12,400 kes (12.4%) NAFLD/NASH, hepatitis virus, FIB-4, kolestasis

Perubatan dalaman (termasuk subset trap) 9,000 kes (9.0%) Persembahan bercampur dan 8,723 kes trap hiperdiagnosis khusus

Kardiologi 7,500 kes (7.5%) Risiko ASCVD, dislipidaemia aterogenik, hs-CRP

Rheumatologi 6,000 kes (6.0%) SLE, RA, vaskulitis, panel autoantibodi (kriteria EULAR/ACR)

Nefrologi 4,000 kes (4.0%) Pementasan CKD (KDIGO), arah aliran eGFR, gangguan elektrolit

Taburan label negara sintetik — 10 label teratas

100,000 kes sintetik membawa 127 label negara (ISO 3166-1 alpha-2) untuk menguji pengendalian lokal. Tugasan label: Eropah 57.7%, Amerika 25.4%, Asia-Pasifik 6.2%, label Timur Tengah/Afrika yang dinamakan 3.4%, dan ekor panjang 97 label tambahan kira-kira 7.3% secara gabungan. Sepuluh label yang paling kerap mengikut bilangan kes ialah Amerika Syarikat (10,500), Brazil (9,500), Sepanyol (9,000), Itali (8,000), Jerman (7,800), Perancis (7,400), Portugal (5,800), Türkiye (3,400), United Kingdom (2,900), dan Mexico (2,500). Skor komposit mengikut label berjulat daripada 0.9971 hingga 0.9985. Kiraan label ini ialah sifat bagi kes yang dijana yang digunakan untuk menguji pengendalian lokal — ia bukan pengguna sebenar dan bukan liputan geografi dunia sebenar.

Rubrik pra-pendaftaran, dijelaskan

Pra-pendaftaran ialah pilihan metodologi paling penting dalam penanda aras ini. Setiap diagnosis yang dijangka, setiap sistem pemarkahan klinikal, dan setiap bahagian laporan telah dikomit kepada kod sumber sebelum enjin dipanggil. Penalaan pasca-hoc rubrik untuk memihak kepada enjin oleh itu adalah mustahil.

Tiga komponen membentuk skor komposit. Komponen struktur menyumbang 35 peratus dan mengukur sama ada enjin mengembalikan tujuh bahagian laporan wajib (tajuk, ringkasan, dapatan utama, pembezaan, sistem pemarkahan, cadangan, susulan) dan enam belas subseksyen wajib di dalamnya. Kehadiran bahagian menimbang 40 peratus dan kehadiran subseksyen menimbang 60 peratus dalam pengiraan struktur.

The komponen klinikal menyumbang 55 peratus dan menggabungkan tiga perkara: ingatan kata kunci diagnosis (70 peratus daripada sub-skor klinikal), ingatan sistem pemarkahan (20 peratus — sama ada enjin mengira Mentzer, FIB-4, HOMA-IR, risiko ASCVD, pementasan KDIGO, kriteria EULAR/ACR apabila berkaitan), dan semakan kesahan jumlah kebarangkalian (10 peratus — kebarangkalian dalam pembezaan seharusnya berjumlah dalam julat [90, 110]). Untuk kes perangkap, penalti hiperdianosis yang jelas sehingga 0.30 ditolak, dikira sebagai 0.10 bagi setiap bendera patologi yang direka, dihadkan kepada tiga bendera.

The komponen latensi menyumbang 10 peratus. Respons di bawah 20 saat mendapat 0.10 penuh, respons di bawah 40 saat mendapat 0.05, dan apa-apa yang lebih perlahan mendapat sifar. Sasaran 20 saat mencerminkan objektif peringkat perkhidmatan pengeluaran primary-path; siling 40 saat mencerminkan bajet sandaran Fasa 2 untuk pemanggilan enjin yang berat.

Apa yang pra-pendaftaran cegah

Penanda aras pihak pertama terkenal kerana membesarkan nombor mereka sendiri melalui penalaan rubrik pasca-hoc. Coraknya hampir selalu sama: pasukan menjalankan enjin, melihat di mana ia kurang berprestasi, kemudian melaraskan rubrik secara senyap supaya kawasan yang kurang berprestasi dikira lebih rendah. Dengan mengomit rubrik kepada kod sumber sebelum panggilan enjin pertama dan menerbitkan rangka kerja di bawah lesen MIT, pelarasan itu menjadi kelihatan dalam kawalan versi. Sesiapa sahaja boleh mengklon repositori, menyemak tarikh pengarang rubrik, dan mengesahkan bahawa hasil enjin tidak digunakan untuk membentuk pemarkahan.

Kes perangkap hiperdiagnosis — mengapa pemanggilan berlebihan ialah mod kegagalan sebenar

Panggilan berlebihan yang agresif terhadap patologi pada saringan normal ialah mod kegagalan yang didokumenkan bagi pembantu perubatan pengguna. Kos hilirnya termasuk siasatan yang tidak perlu, kebimbangan pesakit, dan kerja-kerja pemeriksaan iatrogenik. Dua kes perangkap dalam penanda aras ini direka untuk menjadikan mod kegagalan itu kelihatan dan boleh diparkir.

🟡 Perangkap 1 — BT-014-GILBERT

Persembahan. Lelaki berusia 24 tahun dengan bilirubin total 2.4 mg/dL. Pecahan langsung adalah normal, transaminase dan fosfatase alkali berada dalam julat rujukan mereka, retikulosit tidak menunjukkan apa-apa yang luar biasa, dan haptoglobin serta LDH menolak hemolisis.

Tafsiran yang betul. Sindrom Gilbert — polimorfisme UGT1A1 yang tidak berbahaya. Tafsiran tidak seharusnya memanggil hepatitis, sirosis, anemia hemolitik, atau halangan bilier.

Keputusan V11. Komposit 1.000. Tiada satu pun daripada enam bendera pemdiagnosian berlebihan yang dipantau muncul sebagai diagnosis aktif.

🟡 Perangkap 2 — BT-015-HEALTHY

Persembahan. Seorang wanita berusia 35 tahun dengan panel saringan rutin lima belas parameter. Setiap analit berada dengan selesa dalam julat rujukan masing-masing.

Tafsiran yang betul. Jaminan dan penyelenggaraan gaya hidup. Tafsiran tidak seharusnya mereka-reka patologi sempadan semata-mata untuk kelihatan berguna secara klinikal.

Keputusan V11. Komposit 1.000. Tiada satu pun daripada tujuh bendera terlebih diagnosis yang dipantau—diabetes, anemia, hipotiroidisme, dislipidaemia, hepatitis, penyakit buah pinggang, kekurangan—muncul sebagai diagnosis aktif.

Merentas kedua-dua perangkap, tiga belas bendera hiperdianosis yang dipantau telah diperiksa. Tiada satu pun dicetuskan. Ini ialah hasil yang paling penting bagi mana-mana klinisyen yang mempertimbangkan penggunaan enjin AI sebagai alat triage atau pra-perundingan: sistem tidak mencipta penyakit jika tiada.

Indeks Mentzer: membezakan kekurangan zat besi daripada ciri talasemia

Satu lagi dapatan bernilai tinggi berkaitan pasangan kes BT-001 (anemia kekurangan zat besi) dengan kes BT-007 (beta-talassemia minor). Kedua-duanya menunjukkan mikrositosis dan merupakan halangan yang terkenal bagi pengelas yang tidak berpengalaman. Indeks Mentzer, yang dikira sebagai MCV dibahagi dengan bilangan RBC, melebihi 13 dalam kekurangan zat besi dan jatuh di bawah 13 dalam ciri talasemia.

Dalam BT-001, pesakit ialah wanita berusia 34 tahun dengan hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, feritin 6 ng/mL, dan TIBC yang meningkat. Indeks Mentzer kira-kira 17.7 menyokong kekurangan zat besi mutlak. Dalam BT-007, pesakit ialah lelaki berusia 28 tahun dengan mikrositosis (MCV 65.8 fL) tetapi bilangan RBC yang tinggi iaitu 6.2, RDW normal, feritin normal, dan HbA2 5.6 peratus. Indeks Mentzer kira-kira 10.6 menunjukkan ciri talasemia, dan HbA2 yang meningkat mengesahkan beta-talassemia minor.

Anemia kekurangan zat besi Mentzer > 13 Feritin rendah, TSAT rendah, TIBC tinggi, RDW meningkat

Ciri beta-talassemia Mentzer < 13 Feritin normal, RDW normal, HbA2 meningkat (>3.5%), bilangan RBC tinggi

Kedua-dua kes mendapat skor 1.000. Enjin menggunakan indeks Mentzer secara eksplisit dalam kedua-dua tafsiran dan mengembalikan diagnosis yang betul dalam setiap keadaan. Ini ialah hasil yang paling meyakinkan secara klinikal dalam keseluruhan penanda aras, kerana tersilap mengelaskan ciri talasemia sebagai kekurangan zat besi membawa kepada pemberian suplemen zat besi yang tidak sesuai dan terlepas peluang saringan keluarga, manakala tersilap mengelaskan kekurangan zat besi sebagai talasemia melambatkan terapi penggantian yang mudah. Kami ferritin kami menerangkan konteks pembezaan yang lebih luas.

Keputusan per kes daripada larian rujukan awal V11 (23 April, 2026)

Larian rujukan V11 asal pada kohort bukti konsep 15 kes berfungsi sebagai asas metodologi bagi Second Update: setiap butiran per kes di bawah menunjukkan bagaimana rubrik mengendalikan respons enjin sebenar. Dua belas daripada lima belas kes mencapai skor komposit siling 1.000 pada laluan utama; tiga kes disediakan melalui sandaran Fasa 2, kehilangan bonus latensi 0.05 sambil mengekalkan semua kandungan klinikal dan struktur. Satu kes tiada satu subseksyen wajib; satu lagi mengembalikan jumlah taburan kebarangkalian yang berkurang secara sedikit.

ID Kes Kepakaran Komposit Latensi Laluan

BT-001-IDAHematologi1.00017.8 sutama

BT-006-B12Hematologi1.00018.4 sutama

BT-007-THALHematologi1.00017.0 sutama

BT-002-HASHEndokrinologi0.95037.0 ssandaran

BT-008-PCOSEndokrinologi0.98718.6 sutama

BT-003-T2DMMetabolik1.00019.1 sutama

BT-013-GOUTMetabolik1.00019.4 sutama

BT-004-NAFLDHepatologi1.00019.6 sutama

BT-009-VIRHEPHepatologi0.95023.4 ssandaran

BT-014-GILBERTPerangkap1.00018.9 sutama

BT-005-CKDNefrologi1.00017.4 sutama

BT-010-ASCVDKardiologi1.00019.7 sutama

BT-011-SLERheumatologi0.98118.2 sutama

BT-012-VITDEndokrinologi1.00019.3 sutama

BT-015-HEALTHYPerangkap1.00018.7 ssandaran

Kes PCOS (BT-008) kehilangan satu subseksyen wajib dalam struktur respons — lima belas daripada enam belas, berbanding enam belas daripada enam belas — yang mengurangkan skor struktur daripada 1.000 kepada 0.963. Kes SLE (BT-011) mengembalikan jumlah kebarangkalian-taburan yang berkurang secara marginal, sehingga skor klinikal turun kepada 0.965 sambil mengekalkan setiap kata kunci diagnostik dan sistem pemarkahan. Tiada satu pun kes yang kurang sempurna terlepas diagnosis yang betul.

Agregat V11 Second Update — 100,000 kes

Pada skala populasi, baris kes individu tidak boleh dibaca oleh manusia, jadi Kemas Kini Kedua melaporkan metrik teragregat dan bukannya jadual 100,000 baris. Agregat tajuk ditunjukkan di bawah; pecahan mengikut kepakaran dan mengikut label negara diterbitkan dalam laporan teknikal dan pemendapan Figshare. Sampel rawak berstrata bagi n = 201 respons enjin (benih deterministik 20260426) diterbitkan dalam GitHub results/ direktori untuk pemeriksaan.

Skor komposit V11 awal: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 merentas kohort 100,000 kes

Skor struktur (min) V11 awal: 0.998 → Second Update: 1.000 Pematuhan struktur sempurna pada skala populasi

Skor klinikal (min) V11 awal: 0.998 → Second Update: 0.996 −0.002; tiada kes terlepas diagnosis itu sendiri

Kependaman — min (julat) V11 permulaan: 20.17 s (17.0–37.0 s) → Kemas Kini Kedua: 13.26 s (9.0–16.94 s) Pengoptimuman enjin pengeluaran antara larian

Laluan enjin = utama V11 permulaan: 12 / 15 → Kemas Kini Kedua: 100,000 / 100,000 Tiada sandaran Fasa 2 diperlukan pada bila-bila masa semasa larian

Bendera hiperpengesanan subset perangkap V11 permulaan: 0 / 13 → Kemas Kini Kedua: 0 / 87,412 Tiada positif palsu pada skala populasi (8,723 kes perangkap dipantau)

Apa yang skor tajuk tidak beritahu kita

Skor komposit 99.80 peratus di bawah rubrik praterdaftar khusus ini, pada kohort sintetik 100,000 kes merentas 127 label negara, mewakili prestasi hampir siling — tetapi ia wajar diberi rangka yang teliti. Hasil ini menerangkan kelakuan enjin terhadap rubrik yang kami komitedkan kepada kod sumber dalam V11; ia bukan tuntutan universal tentang ketepatan enjin pada setiap panel ujian darah yang wujud di dunia sebenar.

Skor ini mengatakan enjin mengendalikan corak diagnostik yang dipilih untuk penilaian ini dengan betul merentas kohort skala populasi, pada metodologi yang diterbitkan dan boleh dihasilkan semula. Ia tidak mengatakan enjin adalah betul pada setiap panel ujian darah yang wujud di dunia sebenar. Ia juga tidak mengatakan enjin patut menggantikan pertimbangan klinisi. Dan ia tidak mengatakan enjin mengatasi sistem AI alternatif — analisis perbandingan terhadap enjin lain sengaja dikecualikan daripada laporan ini.

Apa yang skor ini tetapkan ialah garis dasar. Dengan rubrik dan harness yang tersedia untuk umum, versi enjin masa depan boleh dinilai terhadap rubrik yang sama — digunakan pada 15 kes permulaan V11, kohort 100,000 kes Kemas Kini Kedua, atau sebarang pengembangan seterusnya — dan jurang antara skor yang diterbitkan dan mana-mana larian berikutnya itu sendiri boleh diukur. Inilah nilai pra-pendaftaran: ia menukarkan tuntutan prestasi kepada tuntutan yang boleh diuji.

Cara menghasilkan semula penanda aras ini dalam 10 minit

Reproduksi memerlukan hanya pasangan kelayakan API Kantesti dan persekitaran Python 3.10 atau lebih baharu dengan requests dan reportlab perpustakaan dipasang. Harness penuh ialah satu modul Python tunggal yang berdiri sendiri, dikeluarkan di bawah lesen MIT.

💻 GitHub Harness berlesen MIT · respons mentah · larian rujukan 🔗 DOI Figshare 10.6084/m9.figshare.32095435 · rekod akademik kanonik 🎓 ResearchGate Penerbitan 404175463 · V11 Kemas Kini Kedua · lapisan penemuan akademik 📄 Academia.edu Kertas 165956808 · V11 Kemas Kini Kedua · lapisan penemuan akademik

Empat langkah untuk larian baharu

Satu. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dua. Pasang kebergantungan dengan pip install -r requirements.txt (Kemas Kini Kedua menambah mysql-connector-python ≥ 8.0 untuk pemuat kes SQL). Tiga. Tetapkan KANTESTI_USERNAME dan KANTESTI_PASSWORD sebagai pemboleh ubah persekitaran untuk API enjin. Untuk pemuat kes SQL Kemas Kini Kedua, juga tetapkan KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, dan KANTESTI_DB_PASSWORD — pemuat (loader) bersambung melalui peranan baca sahaja (bench_reader) yang tiada keistimewaan untuk mengenal pasti jadual. Empat. Jalankan python benchmark_bloodtest.py --limit 100000 untuk keseluruhan larian Second-Update, atau python benchmark_bloodtest.py --limit 1000 untuk lelaran pantas. Output diletakkan di ./benchmark_results/: kad skor CSV dengan lajur per-country-label dan per-specialty, agregat JSON, sampel raw respons berstrata-rawak, dan laporan Markdown.

Larian rujukan daripada 23 April 2026 (V11 awal, 15 kes) dan 26 April 2026 (V11 Second Update, 100,000 kes) dikekalkan dalam results/ direktori repositori. Larian baharu akan menghasilkan scorecard baharu yang bertanda cap masa, sambil meninggalkan larian rujukan tidak berubah. Jika larian anda menghasilkan keputusan yang secara bermakna berbeza, sila buka isu GitHub dengan cap masa larian dan versi enjin yang dikembalikan dalam metadata respons.

Had dan kerja masa depan

Walaupun pada 100,000 kes merentas 127 country labels, empat batasan wajar diakui secara jelas: pensampelan kurang bagi label ekor-panjang, penilaian sekali tembak, skop satu enjin, dan asal data satu sumber. Setiap satu sedang ditangani dalam kerja susulan aktif.

Liputan label ekor-panjang. Kemas Kini Kedua merangkumi 127 country labels, tetapi taburannya tidak seimbang — 10 label teratas menyumbang ≈66.4% kes, dan ekor panjang 97 label tambahan bersama-sama menyumbang ≈7.3% (kira-kira 7,300 kes secara gabungan, ~75 kes setiap label secara purata). Oleh itu, komposit per-label dalam ekor panjang ini lebih berisiko hingar berbanding angka tajuk yang dicadangkan. Larian masa depan akan menyusun semula penetapan label untuk mengukuhkan anggaran per-label.

Penilaian sekali tembak. Setiap kes dalam kohort dinilai sekali. Model bahasa besar menunjukkan varians output yang tidak remeh walaupun pada suhu pensampelan yang rendah, jadi protokol berbilang larian dengan lima penilaian bagi setiap kes dan varians yang dilaporkan merupakan langkah seterusnya yang semula jadi — terutamanya pada subset kes perangkap (trap-case), di mana konsistensi di bawah gangguan pensampelan (sampling jitter) adalah sebahagian daripada tuntutan keselamatan.

Skop satu enjin. Laporan ini menghuraikan satu enjin. Analisis perbandingan terhadap sistem AI alternatif adalah di luar skop di sini; kami mungkin menanganinya sebagai kajian bebas berasingan dengan metodologi yang sesuai, menggunakan harness berlesen MIT yang sama.

Data sintetik. 100,000 kes dijana secara sintetik, bukan kes sintetik, dan hasil tidak dipindahkan kepada prestasi klinikal dunia sebenar. Penilaian pada data sebenar yang telah mendapat persetujuan dan bersumber secara luaran memerlukan pengawasan etika yang sesuai dan berada di luar skop penanda aras sintetik ini.

Selain empat ini, peluasan yang paling memberi impak yang dirancang ialah kesetaraan pelbagai bahasa mengikut bidang kuasa. Enjin AI Kantesti melayani pengguna dalam 75+ bahasa, dan menjalankan sub-kohort Second-Update yang berstrata mengikut bahasa (Turki, Jerman, Sepanyol, Perancis, Itali, Portugis, Arab, Mandarin) akan mengukur kualiti output merentas bahasa yang disokong oleh enjin. Setiap analisis berstrata bahasa akan diterbitkan bersama DOI dan cawangan harness masing-masing.

Cuba Enjin Yang Sama Yang Mencapai Skor Komposit 99.80% pada 100,000 Kes

Muat naik panel ujian darah anda sendiri ke endpoint pengeluaran yang sama yang dinilai dalam penanda aras ini. Lebih 2 juta pengguna di seluruh dunia menggunakan enjin AI Kantesti untuk mentafsir lebih 15,000 biomarker merentas 75+ bahasa.

🔬 Cuba Demo Percuma

Sambungan Chrome Gedung Aplikasi Google Play

📚 Cara Memetik Penanda Aras Ini

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Laporan Teknikal V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Rujukan Metodologi Luaran

Mentzer, W. C. (1973). Pembezaan Kekurangan Zat Besi daripada Ciri Talasemia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Kriteria Pengelasan 2019 European League Against Rheumatism / American College of Rheumatology untuk Lupus Eritematosus Sistemik. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Ujian Halusinasi Domain Perubatan untuk Model Bahasa Skala Besar. Prosiding CoNLL 2023.

🔗 ACL Anthology

99.80%Skor Komposit

100,000Kes Dinilai

127Label Negara Diliputi

0 / 87,412Pemalsu Positif Perangkap

Soalan Lazim

Seberapa tepat Enjin AI Kantesti pada kes ujian sintetik?

Pada rubrik yang telah didaftarkan terlebih dahulu, dijalankan pada 100,000 kes ujian yang dijana secara sintetik merentas lapan bidang kandungan dan 127 country labels (V11 Second Update), enjin mencapai skor komposit 99.80 peratus, dengan sifar bendera hiperpengesanan merentas 87,412 peluang trap-kes yang dipantau dan purata kependaman respons 13.26 saat. Komposit ini mengukur pematuhan output pada input sintetik, bukan ketepatan diagnostik. Pelepasan V11 asal menggunakan rubrik yang sama pada 15 kes yang dibina sendiri (komposit 99.12%); Kemas Kini Kedua mengekalkan rubrik yang sama dari segi bait dan memperluasnya kepada kohort sintetik yang lebih besar. Kad skor penuh diterbitkan di Figshare di bawah DOI 10.6084/m9.figshare.32095435 dan di GitHub di bawah lesen MIT.

Adakah Enjin AI Kantesti disahkan secara klinikal?

Tidak. Enjin telah dinilai dengan penanda aras teknikal automatik (bukan pengesahan klinikal), terhadap rubrik yang dibekukan dalam kod sumber sebelum larian awal V11 dan dikekalkan sama dari segi bait untuk V11 Second Update, dinilai pada 100,000 kes ujian darah sintetik merentas hematologi, endokrinologi, perubatan metabolik, hepatologi, nefrologi, kardiologi, reumatologi, dan perubatan dalaman, yang diambil daripada 127 country labels. Pengawasan klinikal disediakan oleh Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), pakar hematologi klinikal yang diperakui lembaga dan Ketua Pegawai Perubatan di Kantesti AI.

Apakah kes “hyperdiagnosis trap”?

Kes “hyperdiagnosis trap” ialah senario klinikal yang direka khusus untuk mengesan tingkah laku over-diagnosis dalam enjin AI. Penanda aras awal V11 menggunakan dua kes sedemikian sebagai bukti konsep metodologi: hiperbilirubinemia tidak langsung terpencil yang konsisten dengan sindrom Gilbert (di mana tafsiran yang betul ialah polimorfisme UGT1A1 yang tidak berbahaya, bukan hepatitis atau hemolisis) dan panel saringan dewasa yang sepenuhnya normal (di mana output yang betul ialah jaminan, bukan patologi sempadan yang direka). V11 Kemas Kini Kedua menskalakan metodologi perangkap ini kepada subset khusus 8,723 kes yang menghasilkan 87,412 peluang bendera hyperdiagnosis dipantau — dan kadar positif palsu enjin kekal pada sifar.

Adakah penilaian Enjin AI Kantesti boleh dihasilkan semula?

Keseluruhan “evaluation harness” dikeluarkan di bawah lesen MIT sebagai satu modul Python kendiri. Larian awal V11 hanya memerlukan pasangan kelayakan API Kantesti dan Python 3.10 atau lebih baharu. V11 Kemas Kini Kedua menambah pemuat kes SQL yang baca-sahaja dan berparameter yang memerlukan kelayakan repositori klinikal Kantesti (a bench_reader peranan tanpa keistimewaan untuk mengenal pasti jadual). Kod, SQL pemuat kes, rubrik (sama byte antara keluaran), serta sampel rawak berstrata bagi respons enjin daripada larian rujukan V11 awal dan Kemas Kini Kedua tersedia di github.com/emirhanai/kantesti-blood-test-benchmark dan dicerminkan di Figshare, ResearchGate, dan Academia.edu.

Bagaimanakah Enjin AI Kantesti membezakan kekurangan zat besi daripada ciri beta-talassemia?

Enjin menggunakan indeks Mentzer, dikira sebagai isipadu korpuskular min dibahagi dengan bilangan sel darah merah. Indeks Mentzer melebihi 13 menyokong anemia kekurangan zat besi, manakala nilai di bawah 13 menyokong ciri beta-talassemia. Dalam penanda aras awal V11, kedua-dua persembahan diklasifikasikan dengan betul dengan pengiraan indeks Mentzer yang jelas, disokong oleh konteks ferritin, RDW dan HbA2. Sepanjang kohort 100,000 kes dalam V11 Kemas Kini Kedua, tingkah laku pembezaan yang sama dipelihara pada skala populasi.

Di manakah saya boleh mendapatkan data penanda aras mentah dan kod sumber?

Laporan teknikal dimuat naik di Figshare di bawah DOI 10.6084/m9.figshare.32095435 (meliputi kedua-dua keluaran awal V11 dan V11 Kemas Kini Kedua), dicerminkan pada penerbitan ResearchGate 404175463 dan kertas Academia.edu 165956808 — kedua-duanya dikemas kini dengan tajuk V11 Kemas Kini Kedua dan keputusan 100,000 kes — serta “harness” Python berlesen MIT dengan semua keputusan larian rujukan di github.com/emirhanai/kantesti-blood-test-benchmark. Rangkaian cermin empat platform memastikan ketersediaan jangka panjang dan fleksibiliti sitasi.

Mengapa pendaftaran awal penting untuk penanda aras perubatan AI?

Pendaftaran awal menghalang “post-hoc rubric tuning”, iaitu cara paling biasa syarikat menjalankan penanda aras untuk menaikkan nombor mereka sendiri. Dengan mengunci rubrik kepada kod sumber sebelum sebarang panggilan enjin dan menerbitkan “harness” secara terbuka, tarikh pengarang rubrik menjadi boleh diperiksa dalam kawalan versi, dan keputusan enjin tidak boleh membentuk kriteria pemarkahan.

Adakah penanda aras ini merangkumi perbandingan dengan enjin AI lain?

Tidak. Laporan V11 — kedua-dua keluaran awal dan Kemas Kini Kedua — sengaja menggambarkan satu enjin berbanding rubrik tetap, bukannya meletakkannya berbanding sistem komersial alternatif. “Harness” ini sumber terbuka di bawah lesen MIT (kini termasuk pemuat kes SQL), jadi penyelidik bebas boleh menilai sebarang enjin yang mereka pilih berbanding rubrik dan pemuat kes yang sama serta menerbitkan keputusan mereka.

Adakah kes pesakit ini benar atau sintetik?

Semua kes dijana secara sintetik — 15 kes yang dibina sendiri dalam pelepasan awal V11 dan 100,000 dalam Kemas Kini Kedua. Ia bukan kes sintetik: tiada data sintetik, tiada proses persetujuan, dan tiada penyahpengenalan terlibat, kerana tiada data peribadi wujud dalam kohort. Tiada data peribadi muncul dalam harness yang diterbitkan, laporan teknikal, atau set data yang dikeluarkan.

⚕️ Penafian Perubatan & Percanggahan Kepentingan

Laporan penanda aras ini adalah untuk tujuan penyelidikan dan ketelusan metodologi. Ia tidak merupakan nasihat perubatan, bukan suatu diagnosis, dan bukan pengganti kepada penjagaan perubatan profesional; tiada keputusan di sini yang patut digunakan untuk melambatkan atau mengelakkan untuk berjumpa doktor. Sentiasa rujuk penyedia penjagaan kesihatan yang berkelayakan untuk keputusan diagnosis dan rawatan. Ini ialah penanda aras dalaman yang dijalankan sendiri bagi enjin syarikat sendiri dan belum disahkan secara bebas atau disemak rakan sebaya. Skor komposit mengukur pematuhan kepada rubrik tetap (struktur laporan, ingatan semula kata kunci dan sistem pemarkahan, serta kependaman); ia bukan ukuran ketepatan diagnostik dunia sebenar atau keselamatan klinikal. Kedua-dua penulis diambil bekerja oleh dan memegang ekuiti dalam Kantesti Ltd, dan enjin yang dinilai ialah produk komersial bagi organisasi yang sama. Konflik kepentingan ini dikurangkan dengan mendaftarkan rubrik terlebih dahulu dalam kod sumber, melepaskan harness di bawah lesen MIT, dan menerbitkan sampel rawak berstrata bagi respons enjin mentah.

E-E-A-T Trust Signals

⭐

Pengalaman

15+ tahun pengalaman amalan hematologi klinikal dan perubatan makmal, menyelia pemilihan panel kes.

📋

Kepakaran

Reka bentuk rubrik yang didaftarkan awal dengan penalti hyperdiagnosis yang jelas dan sistem pemarkahan klinikal yang diiktiraf (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Kewibawaan

Penulis utama Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Pelaksanaan oleh Julian Emirhan Bulut, CEO Kantesti Ltd.

🛡️

Kebolehpercayaan

“Harness” boleh dihasilkan semula berlesen MIT, respons mentah enjin diterbitkan, pendedahan percanggahan kepentingan terbuka, rangkaian cermin penyelidikan empat platform.

🏢 Kantesti Sdn. Bhd. Berdaftar di England & Wales · No. Syarikat. 17090423 London, United Kingdom · kantesti.net