Penanda Aras Ujian Darah AI Kantesti

Pengesahan Klinikal Penanda Aras Pra-Pendaftaran V11 — April 2026 Berlesen MIT Boleh Disahkan Rakan Sebaya

Skor Komposit 99.12% pada Rubrik Pradaftar dengan Tiada Positif Palsu Hiperdiagnosis

Penilaian klinikal bebas yang telah didaftarkan terlebih dahulu terhadap Enjin AI Kantesti pada kes ujian darah tanpa nama. Rubrik telah dibekukan dalam kod sumber sebelum panggilan enjin pertama, persekitaran ujian penilaian berlesen MIT, dan setiap respons mentah diterbitkan.

📖 ~14 minit 📅 23 April 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Diterbitkan: 23 April 2026 🩺 Disemak secara perubatan: 23 April 2026 ✅ Rubrik Pra-Pendaftaran 🔓 Kod & Data Terbuka

Kajian pengesahan klinikal ini diketuai oleh Dr. Thomas Klein, MD, Ketua Pegawai Perubatan di Kantesti AI, bekerjasama dengan Julian Emirhan Bulut, Jurutera AI Kanan dan Ketua Pegawai Eksekutif Kantesti Ltd. Metodologi dan rubrik disemak oleh Lembaga Penasihat Perubatan Kantesti AI.

Pengarang Utama & Penyeliaan Klinikal

Thomas Klein, MD

Ketua Pegawai Perubatan, Kantesti AI

Dr. Thomas Klein ialah pakar hematologi klinikal bertauliah lembaga dan pengamal perubatan dalaman dengan lebih 15 tahun pengalaman dalam perubatan makmal. Sebagai Ketua Pegawai Perubatan di Kantesti AI, beliau memilih panel kes untuk penanda aras ini, menyemak semua kebenaran diagnostik asas, dan meluluskan rubrik pra-pendaftaran sebelum pemanggilan enjin pertama.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Pengarang Bersama & Pelaksanaan

Julian Emirhan Bulut

Jurutera AI Kanan & Ketua Pegawai Eksekutif, Kantesti Ltd

Julian Emirhan Bulut ialah pengasas dan Ketua Pegawai Eksekutif Kantesti Ltd. Beliau mereka bentuk dan melaksanakan persekitaran ujian penilaian, menjalankan integrasi API, menjalankan penanda aras April 2026, dan menyediakan pengagregatan statistik. Pengasas platform sejak 2019.

GitHub Mengenai Kantesti

⚡ Ringkasan Ringkas V11 — 23 April 2026

Skor komposit 99.12% bagi 15 kes ujian darah sebenar yang dianonimkan merentas tujuh kepakaran perubatan.
Tiada false-positive hiperdiagnosis bagi kedua-dua kes perangkap (sindrom Gilbert dan saringan dewasa yang benar-benar normal).
Rubrik yang didaftarkan terlebih dahulu dibekukan dalam kod sumber sebelum panggilan enjin pertama — tiada penalaan pasca-hoc yang mungkin.
Indeks Mentzer digunakan dengan betul untuk membezakan anemia kekurangan zat besi daripada beta-talasemia minor.
Hanya endpoint pengeluaran — tiada penghalaan berkeutamaan, dinilai tepat seperti yang pelanggan berbayar akan mengaksesnya.
Purata latensi 20.17 saat hujung ke hujung, dengan 12 daripada 15 kes di bawah sasaran laluan utama 20 saat.
Harness berlesen MIT dikeluarkan di GitHub dengan setiap respons enjin mentah — pembiakan bebas disokong.
DOI Figshare: 10.6084/m9.figshare.32095435 · Dicerminkan di ResearchGate, Academia.edu, GitHub.

Mengapa penanda aras ini wujud dan apa yang ia uji

Tafsiran keputusan ujian darah berbantukan AI semakin digunakan dalam aliran kerja pengguna dan klinikal, namun rangka kerja penilaian yang boleh dibuktikan semula khusus untuk perubatan makmal masih jarang. Soalan yang paling penting dalam konteks ini bukanlah soalan yang diliputi oleh penanda aras umum soal-jawab perubatan: bolehkah enjin membezakan kekurangan zat besi daripada ciri talasemia apabila isipadu korpuskular min adalah sama, adakah ia terlebih mendiagnosis sindrom Gilbert sebagai hepatitis, dan adakah ia menghasilkan patologi dalam panel saringan yang benar-benar normal?

Satu panel ujian darah biasanya mengandungi isyarat yang mencukupi untuk menyokong beberapa tafsiran yang bersaing, dan tugas klinisyen yang mentafsir ialah menimbang tafsiran-tafsiran tersebut antara satu sama lain, bukannya mendapatkan jawapan seperti dalam buku teks. Enjin yang cemerlang pada kes-kes buku teks masih boleh gagal pada kes-kes yang paling penting: perangkap pembezaan diagnosis, varian yang tidak berbahaya tetapi kelihatan membimbangkan apabila dilihat secara berasingan, dan panel yang benar-benar normal yang menggoda pembantu yang yakin untuk menghasilkan patologi yang tidak wajar.

Penanda aras ini dibina khusus berdasarkan mod kegagalan tersebut. Setiap daripada lima belas kes dipilih untuk satu ciri diagnostik tertentu: mikrositosis akibat kekurangan zat besi yang mesti dipisahkan daripada trait beta-talassemia dengan isipadu korpuskular min yang sama, persembahan sindrom Gilbert di mana satu-satunya kelainan ialah hiperbilirubinaemia tidak langsung yang terpencil, dan panel saringan lima belas parameter di mana setiap analit berada dalam julat rujukannya. Rubrik memberi ganjaran kepada enjin yang membaca setiap kes mengikut konteksnya sendiri dan menghukum enjin yang cuba membuat diagnosis yang yakin apabila diagnosis sedemikian tidak wajar.

Sebagai Thomas Klein, MD, saya memilih panel kes ini kerana inilah corak yang paling kerap saya lihat pembantu perubatan makmal buat silap. Mod kegagalan yang mahal bukanlah "terlepas penyakit jarang"—tetapi mereka-reka patologi rutin pada pesakit yang sebenarnya tidak memilikinya. kami Pengesahan Perubatan hub menerangkan rangka kerja yang lebih luas; halaman ini menerangkan hasil terpakainya pada enjin V11.

Rujukan terkini — V11 (April 2026)

Ujian rujukan April 2026 bagi Kantesti AI Engine V11 menghasilkan skor komposit sebanyak 99.12% pada rubrik lima belas kes yang telah didaftarkan terlebih dahulu. Kedua-dua kes perangkap hiperdianosis mendapat skor pada tahap maksimum. Indeks Mentzer digunakan dengan betul pada pembezaan kekurangan zat besi berbanding talassemia.

Komposit 99.12% 15 daripada 15 kes mendapat skor

0.998 Skor struktur

0.998 Skor klinikal

20.17 s Purata latensi

0 / 13 Pemalsuan positif perangkap

Formula komposit menggabungkan tiga komponen: pematuhan struktur dengan tujuh bahagian laporan wajib dan enam belas subseksyen wajib, ketepatan klinikal diukur sebagai perolehan semula kata kunci ditambah perolehan semula sistem pemarkahan ditambah semakan kesahan taburan kebarangkalian, dan latensi respons berbanding sasaran perkhidmatan utama 20 saat. Penguraian tepat ditunjukkan dalam formula rubrik di bawah.

Komposit = 0.35 × Struktur + 0.55 × Klinikal + 0.10 × Latensi

Baki 0.88 mata peratus ruang kepala terurai hampir sepenuhnya kepada kehilangan latensi — tiga invokasi sandaran Fasa 2 pada setiap satu pada -0.05 komposit menyumbang kira-kira 0.60 daripada defisit 0.88 mata itu — bukannya kepada kandungan klinikal. Enjin tidak terlepas diagnosis yang betul dalam mana-mana daripada lima belas kes; jika ia kurang tepat, ia berlaku dengan mengambil sedikit lebih lama daripada sasaran laluan utama 20 saat dalam sebahagian kecil invokasi.

Lima belas kes merentas tujuh kepakaran perubatan

Panel kes merangkumi tujuh kepakaran — hematologi, endokrinologi, perubatan metabolik, hepatologi, nefrologi, kardiologi, reumatologi — serta dua kes khusus perangkap hiperpengesanan. Setiap kes ialah rekod pesakit sebenar yang dianonimkan yang diambil daripada repositori data klinikal Kantesti di bawah persetujuan termaklum bertulis.

Penganoniman dilakukan di bawah pendekatan Safe Harbor: semua pengecam langsung telah dialih atau diganti, dan setiap rekod diberikan kod kes dalaman penanda aras dalam format BT-NNN-LABEL. Pemprosesan dijalankan selaras dengan Perkara 9(2)(j) GDPR untuk penyelidikan saintifik dengan langkah perlindungan yang sesuai, dan peruntukan setara UK GDPR. Tiada maklumat yang boleh dikenal pasti secara peribadi muncul di mana-mana dalam harness yang diterbitkan, laporan teknikal, atau set data yang dikeluarkan.

Hematologi (3) BT-001, BT-006, BT-007 Anemia kekurangan zat besi · Kekurangan B12 · Talasemia beta minor

Endokrinologi (3) BT-002, BT-008, BT-012 Tiroiditis Hashimoto · PCOS dengan rintangan insulin · Kekurangan vitamin D yang teruk

Metabolik (2) BT-003, BT-013 T2DM dengan sindrom metabolik · Hiperurisemia dengan risiko gout

Hepatologi (2) BT-004, BT-009 NAFLD / NASH · Hepatitis virus akut

Nefrologi · Kardiologi · Reumatologi (3) BT-005, BT-010, BT-011 CKD peringkat 3 · Dislipidaemia aterogenik · Lupus eritematosus sistemik

Kes perangkap (2) BT-014, BT-015 Sindrom Gilbert (hiperbilirubinaemia tidak langsung terpencil) · Saringan dewasa yang sepenuhnya normal

Mengapa taburan khusus ini

Hematologi mendapat tiga kes kerana pembezaan mikrositik dan pembezaan makrositik ialah perangkap berfrekuensi tertinggi dalam amalan makmal dunia sebenar. Endokrinologi mendapat tiga kerana persembahan Hashimoto, PCOS, dan kekurangan vitamin D menguji bentuk diagnostik yang berbeza (dipacu autoantibodi, dipacu nisbah hormon, dipacu penanda tunggal). Kepakaran satu kes masih bermakna kerana setiap CKD, risiko ASCVD, dan SLE mempunyai sistem pemarkahan tersendiri yang enjin patut panggil (masing-masing pementasan KDIGO, risiko 10 tahun ASCVD, dan kriteria SLE EULAR/ACR 2019).

Rubrik pra-pendaftaran, dijelaskan

Pra-pendaftaran ialah pilihan metodologi paling penting dalam penanda aras ini. Setiap diagnosis yang dijangka, setiap sistem pemarkahan klinikal, dan setiap bahagian laporan telah dikomit kepada kod sumber sebelum enjin dipanggil. Penalaan pasca-hoc rubrik untuk memihak kepada enjin oleh itu adalah mustahil.

Tiga komponen membentuk skor komposit. Komponen struktur menyumbang 35 peratus dan mengukur sama ada enjin mengembalikan tujuh bahagian laporan wajib (tajuk, ringkasan, dapatan utama, pembezaan, sistem pemarkahan, cadangan, susulan) dan enam belas subseksyen wajib di dalamnya. Kehadiran bahagian menimbang 40 peratus dan kehadiran subseksyen menimbang 60 peratus dalam pengiraan struktur.

The komponen klinikal menyumbang 55 peratus dan menggabungkan tiga perkara: ingatan kata kunci diagnosis (70 peratus daripada sub-skor klinikal), ingatan sistem pemarkahan (20 peratus — sama ada enjin mengira Mentzer, FIB-4, HOMA-IR, risiko ASCVD, pementasan KDIGO, kriteria EULAR/ACR apabila berkaitan), dan semakan kesahan jumlah kebarangkalian (10 peratus — kebarangkalian dalam pembezaan seharusnya berjumlah dalam julat [90, 110]). Untuk kes perangkap, penalti hiperdianosis yang jelas sehingga 0.30 ditolak, dikira sebagai 0.10 bagi setiap bendera patologi yang direka, dihadkan kepada tiga bendera.

The komponen latensi menyumbang 10 peratus. Respons di bawah 20 saat mendapat 0.10 penuh, respons di bawah 40 saat mendapat 0.05, dan apa-apa yang lebih perlahan mendapat sifar. Sasaran 20 saat mencerminkan objektif peringkat perkhidmatan pengeluaran primary-path; siling 40 saat mencerminkan bajet sandaran Fasa 2 untuk pemanggilan enjin yang berat.

Apa yang pra-pendaftaran cegah

Penanda aras pihak pertama terkenal kerana membesarkan nombor mereka sendiri melalui penalaan rubrik pasca-hoc. Coraknya hampir selalu sama: pasukan menjalankan enjin, melihat di mana ia kurang berprestasi, kemudian melaraskan rubrik secara senyap supaya kawasan yang kurang berprestasi dikira lebih rendah. Dengan mengomit rubrik kepada kod sumber sebelum panggilan enjin pertama dan menerbitkan rangka kerja di bawah lesen MIT, pelarasan itu menjadi kelihatan dalam kawalan versi. Sesiapa sahaja boleh mengklon repositori, menyemak tarikh pengarang rubrik, dan mengesahkan bahawa hasil enjin tidak digunakan untuk membentuk pemarkahan.

Kes perangkap hiperdiagnosis — mengapa pemanggilan berlebihan ialah mod kegagalan sebenar

Panggilan berlebihan yang agresif terhadap patologi pada saringan normal ialah mod kegagalan yang didokumenkan bagi pembantu perubatan pengguna. Kos hilirnya termasuk siasatan yang tidak perlu, kebimbangan pesakit, dan kerja-kerja pemeriksaan iatrogenik. Dua kes perangkap dalam penanda aras ini direka untuk menjadikan mod kegagalan itu kelihatan dan boleh diparkir.

🟡 Perangkap 1 — BT-014-GILBERT

Persembahan. Lelaki berusia 24 tahun dengan bilirubin total 2.4 mg/dL. Pecahan langsung adalah normal, transaminase dan fosfatase alkali berada dalam julat rujukan mereka, retikulosit tidak menunjukkan apa-apa yang luar biasa, dan haptoglobin serta LDH menolak hemolisis.

Tafsiran yang betul. Sindrom Gilbert — polimorfisme UGT1A1 yang tidak berbahaya. Tafsiran tidak seharusnya memanggil hepatitis, sirosis, anemia hemolitik, atau halangan bilier.

Keputusan V11. Komposit 1.000. Tiada satu pun daripada enam bendera pemdiagnosian berlebihan yang dipantau muncul sebagai diagnosis aktif.

🟡 Perangkap 2 — BT-015-HEALTHY

Persembahan. Seorang wanita berusia 35 tahun dengan panel saringan rutin lima belas parameter. Setiap analit berada dengan selesa dalam julat rujukan masing-masing.

Tafsiran yang betul. Jaminan dan penyelenggaraan gaya hidup. Tafsiran tidak seharusnya mereka-reka patologi sempadan semata-mata untuk kelihatan berguna secara klinikal.

Keputusan V11. Komposit 1.000. Tiada satu pun daripada tujuh bendera terlebih diagnosis yang dipantau—diabetes, anemia, hipotiroidisme, dislipidaemia, hepatitis, penyakit buah pinggang, kekurangan—muncul sebagai diagnosis aktif.

Merentas kedua-dua perangkap, tiga belas bendera hiperdianosis yang dipantau telah diperiksa. Tiada satu pun dicetuskan. Ini ialah hasil yang paling penting bagi mana-mana klinisyen yang mempertimbangkan penggunaan enjin AI sebagai alat triage atau pra-perundingan: sistem tidak mencipta penyakit jika tiada.

Indeks Mentzer: membezakan kekurangan zat besi daripada ciri talasemia

Satu lagi dapatan bernilai tinggi berkaitan pasangan kes BT-001 (anemia kekurangan zat besi) dengan kes BT-007 (beta-talassemia minor). Kedua-duanya menunjukkan mikrositosis dan merupakan halangan yang terkenal bagi pengelas yang tidak berpengalaman. Indeks Mentzer, yang dikira sebagai MCV dibahagi dengan bilangan RBC, melebihi 13 dalam kekurangan zat besi dan jatuh di bawah 13 dalam ciri talasemia.

Dalam BT-001, pesakit ialah wanita berusia 34 tahun dengan hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, feritin 6 ng/mL, dan TIBC yang meningkat. Indeks Mentzer kira-kira 17.7 menyokong kekurangan zat besi mutlak. Dalam BT-007, pesakit ialah lelaki berusia 28 tahun dengan mikrositosis (MCV 65.8 fL) tetapi bilangan RBC yang tinggi iaitu 6.2, RDW normal, feritin normal, dan HbA2 5.6 peratus. Indeks Mentzer kira-kira 10.6 menunjukkan ciri talasemia, dan HbA2 yang meningkat mengesahkan beta-talassemia minor.

Anemia kekurangan zat besi Mentzer > 13 Feritin rendah, TSAT rendah, TIBC tinggi, RDW meningkat

Ciri beta-talassemia Mentzer < 13 Feritin normal, RDW normal, HbA2 meningkat (>3.5%), bilangan RBC tinggi

Kedua-dua kes mendapat skor 1.000. Enjin menggunakan indeks Mentzer secara eksplisit dalam kedua-dua tafsiran dan mengembalikan diagnosis yang betul dalam setiap keadaan. Ini ialah hasil yang paling meyakinkan secara klinikal dalam keseluruhan penanda aras, kerana tersilap mengelaskan ciri talasemia sebagai kekurangan zat besi membawa kepada pemberian suplemen zat besi yang tidak sesuai dan terlepas peluang saringan keluarga, manakala tersilap mengelaskan kekurangan zat besi sebagai talasemia melambatkan terapi penggantian yang mudah. Kami ferritin kami menerangkan konteks pembezaan yang lebih luas.

Keputusan per kes bagi larian April 2026

Dua belas daripada lima belas kes mencapai skor komposit siling 1.000 pada laluan utama. Tiga kes disediakan melalui sandaran Fasa 2, kehilangan bonus latensi 0.05 sambil mengekalkan semua kandungan klinikal dan struktur. Satu kes tiada satu subseksyen wajib; satu lagi mengembalikan jumlah taburan kebarangkalian yang berkurang secara marginal.

ID Kes Kepakaran Komposit Latensi Laluan

BT-001-IDAHematologi1.00017.8 sutama

BT-006-B12Hematologi1.00018.4 sutama

BT-007-THALHematologi1.00017.0 sutama

BT-002-HASHEndokrinologi0.95037.0 ssandaran

BT-008-PCOSEndokrinologi0.98718.6 sutama

BT-003-T2DMMetabolik1.00019.1 sutama

BT-013-GOUTMetabolik1.00019.4 sutama

BT-004-NAFLDHepatologi1.00019.6 sutama

BT-009-VIRHEPHepatologi0.95023.4 ssandaran

BT-014-GILBERTPerangkap1.00018.9 sutama

BT-005-CKDNefrologi1.00017.4 sutama

BT-010-ASCVDKardiologi1.00019.7 sutama

BT-011-SLERheumatologi0.98118.2 sutama

BT-012-VITDEndokrinologi1.00019.3 sutama

BT-015-HEALTHYPerangkap1.00018.7 ssandaran

Kes PCOS (BT-008) kehilangan satu subseksyen wajib dalam struktur respons — lima belas daripada enam belas, berbanding enam belas daripada enam belas — yang mengurangkan skor struktur daripada 1.000 kepada 0.963. Kes SLE (BT-011) mengembalikan jumlah kebarangkalian-taburan yang berkurang secara marginal, sehingga skor klinikal turun kepada 0.965 sambil mengekalkan setiap kata kunci diagnostik dan sistem pemarkahan. Tiada satu pun kes yang kurang sempurna terlepas diagnosis yang betul.

Apa yang skor tajuk tidak beritahu kita

Skor komposit 99.12 peratus di bawah rubrik pra-berdaftar khusus ini mewakili prestasi hampir tahap siling, tetapi ia wajar diberi rangka yang teliti. Hasil ini menerangkan tingkah laku enjin terhadap lima belas kes tanpa nama yang dipilih dengan teliti, dinilai sekali setiap satu, berbanding satu rubrik. Kami nyatakan dengan jelas apa yang nombor itu lakukan dan tidak tetapkan.

Skor itu mengatakan bahawa enjin V11 mengendalikan corak diagnostik yang dipilih untuk penilaian ini dengan betul, menggunakan metodologi yang diterbitkan dan boleh dihasilkan semula. Ia tidak mengatakan bahawa enjin itu betul untuk setiap panel ujian darah yang wujud di dunia sebenar. Ia tidak mengatakan bahawa enjin itu patut menggantikan pertimbangan klinikal. Dan ia tidak mengatakan bahawa enjin itu mengatasi sistem AI alternatif — analisis perbandingan dengan enjin lain sengaja dikecualikan daripada skop laporan ini.

Apa yang skor itu tetapkan ialah asas. Dengan rubrik dan harness yang tersedia kepada umum, versi masa depan enjin boleh dinilai terhadap lima belas kes yang sama, dan jurang antara skor yang diterbitkan dengan sebarang larian seterusnya boleh diukur sendiri. Inilah nilai pra-berdaftar: ia menukarkan tuntutan prestasi kepada tuntutan yang boleh diuji.

Cara menghasilkan semula penanda aras ini dalam 10 minit

Reproduksi memerlukan hanya pasangan kelayakan API Kantesti dan persekitaran Python 3.10 atau lebih baharu dengan requests dan reportlab perpustakaan dipasang. Harness penuh ialah satu modul Python tunggal yang berdiri sendiri, dikeluarkan di bawah lesen MIT.

💻 GitHub Harness berlesen MIT · respons mentah · larian rujukan 🔗 DOI Figshare 10.6084/m9.figshare.32095435 · rekod akademik kanonik 🎓 ResearchGate Penerbitan 404175463 · lapisan penemuan akademik 📄 Academia.edu Kertas 165956808 · lapisan penemuan akademik

Empat langkah untuk larian baharu

Satu. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dua. Pasang kebergantungan dengan pip install -r requirements.txt. Tiga. Tetapkan KANTESTI_USERNAME dan KANTESTI_PASSWORD sebagai pemboleh ubah persekitaran — kelayakan dibaca semasa masa jalan dan tiada apa yang dikodkan secara keras dalam skrip. Empat. Jalankan python benchmark_bloodtest.py dan periksa empat artifak yang dikeluarkan ke direktori kerja: kad skor CSV, kad skor JSON, pembuangan JSON penuh termasuk respons mentah enjin, dan laporan Markdown yang mudah dibaca manusia.

Rujukan larian dari 23 April 2026 disimpan dalam results/ direktori repositori. Larian baharu akan menghasilkan kad skor baharu bertanda masa sambil meninggalkan larian rujukan tidak berubah. Jika larian anda menghasilkan keputusan yang bermakna berbeza, sila buka isu GitHub dengan cap masa larian dan versi enjin yang dikembalikan dalam metadata respons.

Had dan kerja masa depan

Empat batasan wajar diakui secara jelas: saiz sampel, penilaian sekali tembak, skop satu enjin, dan asal data satu sumber. Masing-masing sedang ditangani dalam kerja susulan yang aktif.

Saiz sampel. Lima belas kes merentas lapan kumpulan kepakaran adalah memadai untuk bukti konsep tetapi tidak untuk analisis subkumpulan dalam satu kepakaran. Pengembangan kepada lima puluh kes dirancang dan akan merangkumi panel koagulasi, saringan keganasan hematologi, panel kehamilan, dan persembahan pediatrik.

Penilaian sekali tembak. Setiap kes dinilai sekali. Model bahasa besar menunjukkan varians output yang tidak remeh walaupun pada suhu pensampelan yang rendah, jadi protokol berbilang larian dengan lima penilaian bagi setiap kes dan varians yang dilaporkan ialah langkah seterusnya yang semula jadi.

Skop satu enjin. Laporan ini menghuraikan satu enjin. Analisis perbandingan terhadap sistem AI alternatif tidak termasuk dalam skop di sini; kami mungkin menanganinya sebagai kajian bebas berasingan dengan metodologi yang sesuai.

Asal data satu sumber. Lima belas kes ialah rekod pesakit sebenar yang dianonimkan yang diambil daripada satu repositori klinikal. Ia mewakili sampel yang dipilih dan bukan cabutan rawak yang mewakili populasi. Memperluas penilaian kepada data berbilang pusat ada dalam pelan hala tuju.

Sambungan yang paling memberi impak yang dirancang ialah kesetaraan berbilang bahasa. Enjin AI Kantesti melayani pengguna dalam 75+ bahasa, dan menjalankan harness lima belas kes yang sama dalam bahasa Turki, Jerman, Sepanyol, Perancis dan Arab akan mengukur kualiti output merentas bahasa yang disokong enjin. Kami akan menerbitkan setiap larian khusus bahasa dengan DOI masing-masing dan cawangan harness.

Cuba Enjin Yang Sama Yang Mencapai Skor Komposit 99.12%

Muat naik panel ujian darah anda sendiri ke endpoint pengeluaran yang sama yang dinilai dalam penanda aras ini. Lebih 2 juta pengguna di seluruh dunia menggunakan enjin AI Kantesti untuk mentafsir lebih 15,000 biomarker merentas 75+ bahasa.

🔬 Cuba Demo Percuma

Sambungan Chrome Gedung Aplikasi Google Play

📚 Cara Memetik Penanda Aras Ini

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Pengesahan Klinikal Enjin AI Kantesti (2.78T)
                 pada 15 Kes Ujian Darah Tanpa Nama: Penanda Aras Berasaskan Rubrik
                 Pra-berdaftar Termasuk Kes Perangkap Hiperdiagnosis
                 Merentas Tujuh Kepakaran Perubatan},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Laporan Teknikal},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Pengesahan Klinikal Enjin AI Kantesti (2.78T) pada 15 Kes Ujian Darah Tanpa Nama: Penanda Aras Berasaskan Rubrik Pra-berdaftar Termasuk Kes Perangkap Hiperdiagnosis Merentas Tujuh Kepakaran Perubatan (Laporan Teknikal V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Kerja Pengesahan Kantesti Berkaitan

Klein, T. (2025). Rangka Kerja Pengesahan Klinikal untuk Tafsiran Ujian Darah Berkuasa AI: Metodologi Pengesahan Tiga Kali Ganda, Metrik Prestasi dan Protokol Jaminan Kualiti. Kantesti AI Medical Research.

🎓 ResearchGate

📖 Rujukan Metodologi Luaran

Mentzer, W. C. (1973). Pembezaan Kekurangan Zat Besi daripada Ciri Talasemia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Kriteria Pengelasan 2019 European League Against Rheumatism / American College of Rheumatology untuk Lupus Eritematosus Sistemik. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Ujian Halusinasi Domain Perubatan untuk Model Bahasa Skala Besar. Prosiding CoNLL 2023.

🔗 ACL Anthology

99.12%Skor Komposit

15Kes Dinilai

7Kepakaran

0Pemalsu Positif Perangkap

Soalan Lazim

Sejauh manakah ketepatan Enjin AI Kantesti pada kes ujian darah sebenar?

Pada rubrik pra-berdaftar bagi 15 kes ujian darah sebenar tanpa nama merentas tujuh kepakaran perubatan, Enjin AI Kantesti V11 mencapai skor komposit 99.12 peratus, dengan sifar pemalsu positif hiperdiagnosis pada kedua-dua kes perangkap dan purata kependaman respons 20.17 saat. Kad skor penuh bagi setiap kes diterbitkan di Figshare di bawah DOI 10.6084/m9.figshare.32095435 dan di GitHub di bawah lesen MIT.

Adakah Enjin AI Kantesti disahkan secara klinikal?

Ya. Enjin telah disahkan secara klinikal berbanding rubrik yang dibekukan dalam kod sumber sebelum enjin dipanggil, dinilai pada 15 kes ujian darah tanpa nama merentas hematologi, endokrinologi, perubatan metabolik, hepatologi, nefrologi, kardiologi dan reumatologi. Penyeliaan klinikal disediakan oleh Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), pakar hematologi klinikal bertauliah lembaga dan Ketua Pegawai Perubatan di Kantesti AI.

Apakah kes “hyperdiagnosis trap”?

Kes “hyperdiagnosis trap” ialah senario klinikal yang direka khusus untuk mengesan tingkah laku over-diagnosis dalam enjin AI. Penanda aras Kantesti V11 menggunakan dua kes sedemikian. Yang pertama ialah hiperbilirubinemia tidak langsung terpencil yang konsisten dengan sindrom Gilbert, di mana tafsiran yang betul ialah polimorfisme UGT1A1 yang tidak berbahaya, bukan hepatitis atau hemolisis. Yang kedua ialah panel saringan dewasa yang sepenuhnya normal, di mana output yang betul ialah jaminan dan penyelenggaraan gaya hidup, bukan patologi sempadan yang direka.

Adakah penilaian Enjin AI Kantesti boleh dihasilkan semula?

Keseluruhan “evaluation harness” dikeluarkan di bawah lesen MIT sebagai satu modul Python kendiri. Replikasi hanya memerlukan pasangan kelayakan API Kantesti dan Python 3.10 atau lebih baharu. Kod, takrif kes, dan setiap respons mentah enjin daripada “April 2026 reference run” tersedia di github.com/emirhanai/kantesti-blood-test-benchmark dan dicerminkan di Figshare, ResearchGate, dan Academia.edu.

Bagaimanakah Enjin AI Kantesti membezakan kekurangan zat besi daripada ciri beta-talassemia?

Enjin menggunakan indeks Mentzer, dikira sebagai isipadu korpuskular min dibahagi dengan kiraan sel darah merah. Indeks Mentzer melebihi 13 menyokong anemia kekurangan zat besi, manakala nilai di bawah 13 menyokong ciri beta-talassemia. Dalam penanda aras V11, kedua-dua persembahan diklasifikasikan dengan betul dengan pengiraan indeks Mentzer yang jelas, disokong oleh konteks ferritin, RDW, dan HbA2.

Di manakah saya boleh mendapatkan data penanda aras mentah dan kod sumber?

Laporan teknikal dimuat naik di Figshare di bawah DOI 10.6084/m9.figshare.32095435, dicerminkan pada penerbitan ResearchGate 404175463 dan kertas Academia.edu 165956808, serta “MIT-licensed Python harness” dengan semua keputusan “reference run” di github.com/emirhanai/kantesti-blood-test-benchmark. Rangkaian cermin empat platform memastikan ketersediaan jangka panjang dan fleksibiliti sitasi.

Mengapa pendaftaran awal penting untuk penanda aras perubatan AI?

Pendaftaran awal menghalang “post-hoc rubric tuning”, iaitu cara paling biasa syarikat menjalankan penanda aras untuk menaikkan nombor mereka sendiri. Dengan mengunci rubrik kepada kod sumber sebelum sebarang panggilan enjin dan menerbitkan “harness” secara terbuka, tarikh pengarang rubrik menjadi boleh diperiksa dalam kawalan versi, dan keputusan enjin tidak boleh membentuk kriteria pemarkahan.

Adakah penanda aras ini merangkumi perbandingan dengan enjin AI lain?

Tidak. Laporan V11 sengaja mengambarkan satu enjin terhadap rubrik tetap, bukannya meletakkannya berbanding sistem komersial alternatif. “Harness” adalah sumber terbuka di bawah lesen MIT, jadi penyelidik bebas boleh menilai sebarang enjin yang mereka pilih terhadap lima belas kes dan rubrik yang sama serta menerbitkan keputusan mereka.

Adakah kes pesakit ini benar atau sintetik?

Lima belas kes ialah rekod pesakit sebenar tanpa nama yang diambil daripada repositori data klinikal Kantesti di bawah persetujuan termaklum bertulis. “De-identification” dilakukan di bawah pendekatan Safe Harbor, dengan semua pengecam langsung dibuang atau diganti. Pemprosesan dijalankan selaras dengan GDPR Perkara 9(2)(j) dan peruntukan setara UK GDPR. Tiada maklumat pengenalan peribadi muncul dalam “harness” yang diterbitkan, laporan teknikal, atau set data yang dikeluarkan.

⚕️ Penafian Perubatan & Percanggahan Kepentingan

Laporan penanda aras ini adalah untuk tujuan penyelidikan dan ketelusan metodologi. Ia tidak membentuk nasihat perubatan. Sentiasa rujuk penyedia penjagaan kesihatan yang bertauliah untuk keputusan diagnosis dan rawatan. Kedua-dua penulis diambil bekerja oleh dan memegang ekuiti dalam Kantesti Ltd, dan enjin yang dinilai ialah produk komersial daripada organisasi yang sama. Percanggahan kepentingan ini dikurangkan dengan mendaftarkan rubrik awal dalam kod sumber, mengeluarkan “harness” di bawah lesen MIT, dan menerbitkan setiap respons mentah enjin.

E-E-A-T Trust Signals

⭐

Pengalaman

15+ tahun pengalaman amalan hematologi klinikal dan perubatan makmal, menyelia pemilihan panel kes.

📋

Kepakaran

Reka bentuk rubrik yang didaftarkan awal dengan penalti hyperdiagnosis yang jelas dan sistem pemarkahan klinikal yang diiktiraf (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Kewibawaan

Penulis utama Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Pelaksanaan oleh Julian Emirhan Bulut, CEO Kantesti Ltd.

🛡️

Kebolehpercayaan

“Harness” boleh dihasilkan semula berlesen MIT, respons mentah enjin diterbitkan, pendedahan percanggahan kepentingan terbuka, rangkaian cermin penyelidikan empat platform.

🏢 Kantesti Sdn. Bhd. Berdaftar di England & Wales · No. Syarikat. 17090423 London, United Kingdom · kantesti.net