Kantesti Tolok Ukur Tes Darah AI

Benchmark Otomatis Tolok Ukur Pra-Registrasi Pembaruan Kedua V11 — April 2026 Berlisensi MIT Dapat Direproduksi · Data Terbuka 100K Kohort Sintetis · 127 Label Negara

Skor Komposit 99.80% pada Rubrik yang Didaftarkan Sebelumnya — Pembaruan Kedua V11, Kohort 100.000 Kasus di 127 Label Negara

Tolok ukur teknis otomatis berbasis rubrik yang didaftarkan sebelumnya untuk mesin Kantesti pada 100.000 kasus uji darah yang dibangkitkan secara sintetis dan diberi tag 127 label negara. Ini mengukur kesesuaian keluaran, bukan akurasi diagnostik. Rubrik dibekukan dalam kode sumber sebelum rilis awal V11 dan dipertahankan identik byte untuk Pembaruan Kedua ini; harness evaluasi berlisensi MIT; sampel acak terstratifikasi dari respons mentah mesin dipublikasikan untuk ditinjau. Semua kasus adalah sintetis; tidak ada data pribadi yang digunakan.

📖 ~14 menit 📅 Dipublikasikan 23 April 2026 · Diperbarui 26 April 2026 (V11 Pembaruan Kedua) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Diterbitkan: 23 April 2026 🔄 Pembaruan Kedua V11: 26 April 2026 🩺 Ditinjau secara medis: 26 April 2026 ✅ Rubrik yang Didaftarkan di Awal (Identik Byte) 🔓 Kode & Data Terbuka

Benchmark otomatis ini dirancang dan dijalankan oleh Julian Emirhan Bulut, Senior AI Engineer dan CEO dari Kantesti Ltd. Penilaian sepenuhnya otomatis dalam kode sumber; rubrik penilaian dan panel kasus dikembangkan dengan masukan klinis dari Dr. Thomas Klein, MD, Chief Medical Officer di Kantesti AI, dan ditinjau oleh Dewan Penasihat Medis AI Kantesti. Ini adalah tolok ukur internal yang dijalankan sendiri, bukan tolok ukur teknis otomatis independen atau yang ditinjau sejawat.

Penulis Utama & Pengawasan Klinis

Thomas Klein, MD

Kepala Petugas Medis, Kantesti AI

Dr. Thomas Klein adalah dokter spesialis hematologi klinis bersertifikat dewan dan internis dengan lebih dari 15 tahun pengalaman dalam kedokteran laboratorium. Sebagai Chief Medical Officer di Kantesti AI, ia memilih panel kasus untuk tolok ukur ini, meninjau konten klinis dan jawaban yang diharapkan dari kasus-kasus sintetis, serta menyetujui rubrik yang didaftarkan sebelumnya sebelum pemanggilan mesin pertama.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Penulis Bersama & Implementasi

Julian Emirhan Bulut

Senior AI Engineer & CEO, Kantesti Ltd

Julian Emirhan Bulut adalah pendiri dan CEO Kantesti Ltd. Ia merancang dan mengimplementasikan harness evaluasi — termasuk pemuat kasus SQL yang ditambahkan untuk Pembaruan Kedua V11 — melakukan integrasi API, menjalankan referensi awal V11 dan menjalankan 100.000 kasus untuk Pembaruan Kedua V11, serta menyiapkan agregasi statistik. Pendiri platform sejak 2019.

GitHub Tentang Kantesti

⚡ Ringkasan Singkat Pembaruan Kedua V11 — 26 April 2026

Skor komposit 99.80% pada 100.000 kasus uji darah sintetis di delapan spesialisasi medis dan 127 label negara (Pembaruan Kedua V11).
Nol false-positive hiperdeteksi di 87.412 peluang penandaan trap-case yang dipantau — metodologi trap-case yang sama seperti V11 awal, diskalakan ke tingkat populasi.
Rubrik yang telah diprapendaftaran dibekukan dalam kode sumber sebelum dijalankan pada V11 awal dan dipertahankan identik byte untuk Pembaruan Kedua ini — tidak ada penyesuaian pasca-hoc yang memungkinkan.
Indeks Mentzer diterapkan dengan benar untuk membedakan anemia defisiensi besi dari beta-thalassemia minor pada rilis awal V11; perilaku diferensial dipertahankan pada skala populasi.
Hanya endpoint produksi — tanpa routing istimewa, dievaluasi persis seperti yang diakses oleh pelanggan yang membayar.
Rata-rata latensi 13,26 detik end-to-end (rentang 9,0–16,94 d), dengan semua 100.000 kasus selesai pada jalur utama mesin.
Kohort sintetis. 100.000 kasus uji yang dibangkitkan secara sintetis dimuat saat runtime. Tidak ada data sintetis dan tidak ada data pribadi yang digunakan.
Harness berlisensi MIT dirilis di GitHub dengan sampel acak berstrata (n = 201) dari respons mentah lengkap mesin untuk ditinjau.
DOI Figshare: 10.6084/m9.figshare.32095435 · Dicerminkan di ResearchGate, Academia.edu, GitHub.

Mengapa tolok ukur ini ada dan apa yang diuji

interpretasi hasil tes darah berbantuan AI semakin banyak digunakan dalam alur kerja konsumen dan klinis, namun kerangka evaluasi yang dapat direproduksi dan disesuaikan untuk kedokteran laboratorium masih jarang. Pertanyaan yang paling penting dalam konteks ini bukanlah pertanyaan yang dicakup oleh benchmark umum untuk tanya-jawab medis: apakah sebuah mesin dapat memisahkan defisiensi besi dari sifat talasemia ketika volume sel rata-rata identik, apakah mesin tersebut terlalu mendiagnosis sindrom Gilbert sebagai hepatitis, dan apakah mesin tersebut menghasilkan temuan patologis pada panel skrining yang sepenuhnya normal?

Satu panel tes darah biasanya berisi cukup sinyal untuk mendukung beberapa interpretasi yang saling bersaing, dan tugas klinisi yang melakukan interpretasi adalah menimbang interpretasi-interpretasi tersebut satu sama lain, bukan mengambil jawaban seperti di buku teks. Mesin yang bagus pada kasus-kasus buku teks masih bisa gagal pada kasus-kasus yang paling penting: jebakan diferensial-diagnosis, varian jinak yang tampak mengkhawatirkan bila dilihat sendiri, dan panel yang sepenuhnya normal yang menggoda asisten yang terlalu percaya diri untuk “menciptakan” patologi.

Benchmark ini dibangun tepat di sekitar mode kegagalan tersebut. Masing-masing dari lima belas kasus dipilih berdasarkan sifat diagnostik tertentu: mikrositosis akibat defisiensi besi yang harus dibedakan dari sifat beta-talasemia dengan volume sel rata-rata yang identik, presentasi sindrom Gilbert di mana satu-satunya kelainan adalah hiperbilirubinemia indirek yang terisolasi, serta panel skrining parameter lima belas di mana setiap analit berada di dalam rentang rujukannya. Rubrik memberi penghargaan pada mesin yang membaca setiap kasus sesuai konteksnya sendiri dan menghukum mesin yang mengambil kesimpulan diagnosis yang yakin padahal diagnosis seperti itu tidak layak.

Sebagai Thomas Klein, MD, saya memilih panel kasus ini karena inilah pola yang paling sering salah ditangani oleh asisten kedokteran laboratorium. Mode kegagalan yang mahal bukan "melewatkan penyakit langka"—melainkan membuat-buat patologi rutin pada pasien yang sebenarnya tidak memilikinya. Kita Validasi Medis hub menjelaskan kerangka yang lebih luas; halaman ini menjelaskan bukti konsep awal V11 dan Pembaruan Kedua V11 yang men-skalakannya menjadi 100.000 kasus sintetis yang diambil dari kumpulan kasus sintetis yang mencakup 127 label negara — menggunakan rubrik penilaian yang sama, identik byte, tanpa izin tuning pasca-hoc.

Referensi run terbaru — V11 Second Update (26 April 2026)

Referensi run V11 Second Update pada 26 April 2026 menghasilkan skor komposit sebesar 99.80% pada rubrik yang telah didaftarkan sebelumnya (pre-registered) yang sama seperti yang digunakan pada rilis awal V11, dievaluasi pada 100.000 kasus sintetis diambil dari kumpulan kasus sintetis Kantesti dan mencakup 127 label negara dan bahasa 75+. Setiap kasus selesai pada jalur utama mesin; aktivasi flag hiperdeteksi (trap-case hyperdiagnosis) tetap pada 0 / 87,412. Jalur awal V11 pada 23 April 2026 mencakup 15 kasus yang dikurasi secara manual (komposit 99.12%) dan memvalidasi rubrik; Second Update mempertahankan rubrik itu identik byte dan memperluas evaluasi ke kohort skala populasi.

Komposit 99.80% 100.000 dari 100.000 kasus mendapat skor

1.000 Skor struktural

0.996 Skor klinis

13.26 s Rata-rata latensi

0 / 87,412 Jebakan false-positive

Rumus komposit menggabungkan tiga komponen: kesesuaian struktural dengan tujuh bagian laporan wajib dan enam belas subbagian wajib, akurasi konten diukur sebagai penarikan kembali kata kunci (keyword recall) ditambah penarikan kembali sistem penilaian (scoring-system recall) ditambah pemeriksaan validitas terhadap distribusi probabilitas, dan latensi respons terhadap target layanan (service-level) jalur utama. Rincian yang tepat ditunjukkan dalam rumus rubrik di bawah — tidak ada bobot atau sub-rubrik yang diubah untuk Second Update.

Komposit = 0.35 × Struktural + 0.55 × Klinis + 0.10 × Latensi

Sisa 0.20 poin persentase ruang (headroom) terurai hampir seluruhnya menjadi sub-skor klinis — sebagian kecil kasus (terutama pada Hepatologi dan Reumatologi) memiliki satu kata kunci sistem penilaian yang diharapkan tidak ada dalam interpretasi mesin, meskipun konten diagnostiknya benar. Tidak ada satu pun kasus dalam kohort Second-Update 100.000 kasus yang terlewat diagnosisnya sendiri. Latensi meningkat dari rata-rata 20.17 s pada rilis awal V11 menjadi 13.26 s pada Second Update, mencerminkan optimasi mesin produksi di antara dua kali run; rubrik, kode penilaian, dan endpoint API tidak berubah.

Skor komposit per-label berkisar dari 0.9971 hingga 0.9985 di 30 label negara yang paling banyak terwakili. Ekor panjang dari 97 label tambahan (≈7.300 kasus gabungan) tidak menunjukkan degradasi sistematis. Label yang paling sering muncul berdasarkan jumlah kasus adalah Amerika Serikat (10.500), Brasil (9.500), Spanyol (9.000), Italia (8.000), Jerman (7.800), Prancis (7.400), Portugal (5.800), Türkiye (3.400), Britania Raya (2.900), dan Meksiko (2.500).

Dari 15 kasus hingga 100.000: evolusi kohort di 127 label negara

Panel kasus V11 awal mencakup tujuh spesialisasi — hematologi, endokrinologi, kedokteran metabolik, hepatologi, nefrologi, kardiologi, reumatologi — ditambah dua kasus khusus jebakan hiperdeteksi, dengan setiap kasus berupa panel uji darah yang dibangkitkan secara sintetis. Pembaruan Kedua V11 memperluas evaluasi hingga 100.000 kasus sintetis di 127 label negara, di seluruh 127 negara, yang didistribusikan ke delapan spesialisasi (tujuh yang asli plus satu bucket kedokteran dalam internal khusus yang menampung subset trap). Rubrik penilaian yang sama diterapkan identik byte pada kedua run.

Karena semua kasus dibangkitkan secara sintetis, tidak ada pengenal nyata yang perlu dihapus dan tidak ada data pribadi yang terlibat. Setiap kasus sintetis membawa kode kasus internal untuk tolok ukur (BT-NNN-LABEL pada set awal V11, yang stabil case_uid pada Pembaruan Kedua). Tidak ada data pribadi yang muncul di mana pun dalam harness yang dipublikasikan, laporan teknis, atau kumpulan data yang dirilis.

rilis awal V11 — 15 kasus yang dikurasi secara manual

Panel kasus V11 asli dikurasi secara manual oleh Dr. Thomas Klein untuk menguji pola diagnostik yang paling sering keliru oleh asisten kedokteran laboratorium. Masing-masing dari lima belas kasus dipilih untuk suatu properti diagnostik tertentu, yang tercantum di bawah ini.

Hematologi (3) BT-001, BT-006, BT-007 Anemia defisiensi besi · Defisiensi B12 · Beta-talassemia minor

Endokrinologi (3) BT-002, BT-008, BT-012 Tiroiditis Hashimoto · PCOS dengan resistensi insulin · Defisiensi vitamin D berat

Metabolik (2) BT-003, BT-013 T2DM dengan sindrom metabolik · Hiperurisemia dengan risiko gout

Hepatologi (2) BT-004, BT-009 NAFLD / NASH · Hepatitis virus akut

Nefrologi · Kardiologi · Reumatologi (3) BT-005, BT-010, BT-011 CKD stadium 3 · Dislipidemia disertai aterogenik · Lupus eritematosus sistemik

Kasus jebakan (2) BT-014, BT-015 Sindrom Gilbert (hiperbilirubinemia indirek terisolasi) · Skrining dewasa yang sepenuhnya normal

Mengapa distribusi khusus ini

Hematologi mendapat tiga kasus karena diferensial mikrositik dan diferensial makrositik adalah jebakan bervolume tertinggi dalam praktik laboratorium dunia nyata. Endokrinologi mendapat tiga kasus karena presentasi Hashimoto, PCOS, dan kekurangan vitamin D menguji bentuk diagnostik yang berbeda (digerakkan oleh autoantibodi, digerakkan oleh rasio hormon, digerakkan oleh satu penanda). Spesialisasi satu kasus tetap bermakna karena masing-masing CKD, risiko ASCVD, dan SLE memiliki sistem skoringnya sendiri yang harus dipanggil mesin (bertahap KDIGO, risiko 10 tahun ASCVD, dan kriteria SLE EULAR/ACR 2019 masing-masing).

Pembaruan Kedua V11 — 100.000 kasus sintetis di 127 label negara

Pembaruan Kedua menggantikan literal Python 15 kasus yang dikodekan keras pada V11 awal dengan kumpulan kasus sintetis yang lebih besar yang dibangkitkan secara terprogram. Kumpulan kasus dimuat pada awal setiap kali dijalankan dan konfigurasi dicatat untuk transparansi. Distribusi kohort berdasarkan area konten ditunjukkan di bawah.

Endokrinologi 23.900 kasus (23,9%) Tiroid, PCOS, kekurangan vitamin D, sumbu gonad, hipofisis

Kedokteran metabolik 21.900 kasus (21,9%) T2DM, sindrom metabolik, panel lipid, hiperurisemia

Hematologi 15.400 kasus (15,4%) Diferensial mikrositik dan makrositik, B12/folat, studi besi

Hepatologi 12.400 kasus (12,4%) NAFLD/NASH, hepatitis virus, FIB-4, kolestasis

Kedokteran dalam (termasuk subhimpunan trap) 9.000 kasus (9,0%) Presentasi campuran dan 8.723 kasus trap hiperdignosis khusus

Kardiologi 7.500 kasus (7,5%) Risiko ASCVD, dislipidemia aterogenik, hs-CRP

Reumatologi 6.000 kasus (6,0%) SLE, RA, vaskulitis, panel autoantibodi (kriteria EULAR/ACR)

Nefrologi 4.000 kasus (4,0%) Staging CKD (KDIGO), tren eGFR, gangguan elektrolit

Distribusi label negara sintetis — 10 label teratas

100.000 kasus sintetis membawa 127 label negara (ISO 3166-1 alpha-2) untuk menguji penanganan lokal. Penetapan label: Eropa 57.7%, Amerika 25.4%, Asia-Pasifik 6.2%, label Timur Tengah/Afrika yang dinamai 3.4%, dan ekor panjang dari 97 label tambahan yang secara gabungan kira-kira 7.3%. Sepuluh label yang paling sering berdasarkan jumlah kasus adalah Amerika Serikat (10.500), Brasil (9.500), Spanyol (9.000), Italia (8.000), Jerman (7.800), Prancis (7.400), Portugal (5.800), Türkiye (3.400), Britania Raya (2.900), dan Meksiko (2.500). Skor komposit per-label berkisar dari 0.9971 hingga 0.9985. Jumlah label ini adalah sifat dari kasus-kasus yang dibangkitkan yang digunakan untuk menguji penanganan lokal — ini bukan pengguna nyata dan bukan cakupan geografis dunia nyata.

Rubrik pra-registrasi, dijelaskan

Preregistrasi adalah pilihan metodologis tunggal yang paling penting dalam benchmark ini. Setiap diagnosis yang diharapkan, setiap sistem skoring klinis, dan setiap bagian laporan dikomitkan ke kode sumber sebelum mesin dipanggil. Penyetelan pasca-hoc pada rubrik untuk mengunggulkan mesin karena itu tidak mungkin.

Tiga komponen membentuk skor komposit. Komponen struktural berkontribusi 35 persen dan mengukur apakah mesin mengembalikan tujuh bagian laporan wajib (header, ringkasan, temuan kunci, diferensial, sistem skoring, rekomendasi, tindak lanjut) dan enam belas subbagian wajib di dalamnya. Keberadaan bagian berbobot 40 persen dan keberadaan subbagian berbobot 60 persen dalam perhitungan struktural.

Itu komponen klinis berkontribusi 55 persen dan menggabungkan tiga hal: pengingatan kata kunci diagnosis (70 persen dari subskor klinis), pengingatan sistem skoring (20 persen — apakah mesin menghitung Mentzer, FIB-4, HOMA-IR, risiko ASCVD, bertahap KDIGO, kriteria EULAR/ACR bila relevan), serta pemeriksaan validitas jumlah probabilitas (10 persen — probabilitas diferensial harus berjumlah dalam interval [90, 110]). Untuk kasus jebakan, penalti hiperdianosis eksplisit hingga 0,30 dikurangkan, dihitung 0,10 per bendera patologi yang dibuat-buat, dibatasi maksimal tiga bendera.

Itu komponen latensi berkontribusi 10 persen. Respons di bawah 20 detik mendapat nilai penuh 0,10, respons di bawah 40 detik mendapat 0,05, dan apa pun yang lebih lambat mendapat nol. Target 20 detik mencerminkan tujuan tingkat layanan produksi primary-path; batas 40 detik mencerminkan anggaran fallback Fase 2 untuk pemanggilan mesin yang berat.

Apa yang dicegah oleh preregistrasi

Benchmark pihak pertama terkenal karena menggelembungkan angka mereka sendiri melalui penyetelan rubrik pasca-hoc. Polanya hampir selalu sama: tim menjalankan mesin, melihat di mana mesin berkinerja buruk, lalu diam-diam menyesuaikan rubrik agar area yang berkinerja buruk dihitung lebih kecil. Dengan mengomitkan rubrik ke kode sumber sebelum pemanggilan mesin pertama dan mempublikasikan harness di bawah lisensi MIT, penyesuaian itu menjadi terlihat dalam kontrol versi. Siapa pun bisa meng-clone repositori, memeriksa tanggal penulis rubrik, dan memverifikasi bahwa hasil mesin tidak digunakan untuk membentuk penilaian.

Kasus jebakan hiperdignosis — mengapa over-calling adalah mode kegagalan yang sebenarnya

Pemanggilan patologi yang agresif pada layar normal adalah mode kegagalan yang terdokumentasi pada asisten medis yang ditujukan untuk konsumen. Biaya hilirnya mencakup penyelidikan yang tidak perlu, kecemasan pasien, dan pemeriksaan yang bersifat iatrogenik. Dua kasus jebakan dalam benchmark ini dirancang untuk membuat mode kegagalan tersebut terlihat dan dapat diberi skor.

🟡 Trap 1 — BT-014-GILBERT

Presentasi. Seorang pria berusia 24 tahun dengan bilirubin total 2,4 mg/dL. Fraksi langsung normal, transaminase dan fosfatase alkali berada dalam kisaran rujukan mereka, retikulosit tidak menunjukkan hal yang mencolok, dan haptoglobin serta LDH menyingkirkan hemolisis.

Interpretasi yang benar. Sindrom Gilbert — polimorfisme UGT1A1 yang bersifat jinak. Interpretasi tidak boleh memanggil hepatitis, sirosis, anemia hemolitik, atau obstruksi bilier.

Hasil V11. Komposit 1,000. Tidak ada dari enam bendera over-diagnosis yang dipantau muncul sebagai diagnosis aktif.

🟡 Trap 2 — BT-015-HEALTHY

Presentasi. Seorang perempuan berusia 35 tahun dengan panel skrining rutin 15 parameter. Setiap analit berada dengan nyaman di dalam kisaran rujukannya.

Interpretasi yang benar. Jaminan dan pemeliharaan gaya hidup. Interpretasi tidak boleh “menciptakan” patologi batas untuk terdengar berguna secara klinis.

Hasil V11. Komposit 1.000. Tidak ada satu pun dari tujuh tanda peringatan over-diagnosis yang dipantau—diabetes, anemia, hipotiroidisme, dislipidemia, hepatitis, penyakit ginjal, defisiensi—yang muncul sebagai diagnosis aktif.

Di kedua skenario, tiga belas tanda peringatan hyperdiagnosis yang dipantau diperiksa. Tidak ada yang terpicu. Ini adalah hasil yang paling penting bagi setiap klinisi yang mempertimbangkan penggunaan mesin AI sebagai alat triase atau pra-konsultasi: sistem tidak menciptakan penyakit jika tidak ada.

Indeks Mentzer: memisahkan defisiensi besi dari sifat talasemia

Temuan bernilai tinggi kedua berkaitan dengan pengaitan kasus BT-001 (anemia defisiensi besi) dengan kasus BT-007 (beta-talasemia minor). Keduanya menunjukkan mikrositosis dan merupakan kendala yang sudah dikenal bagi pengklasifikasi yang belum berpengalaman. Indeks Mentzer, yang dihitung sebagai MCV dibagi jumlah RBC, lebih dari 13 pada defisiensi besi dan turun di bawah 13 pada sifat talasemia.

Pada BT-001, pasien adalah perempuan berusia 34 tahun dengan hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritin 6 ng/mL, dan TIBC meningkat. Indeks Mentzer sekitar 17,7 mendukung defisiensi besi absolut. Pada BT-007, pasien adalah laki-laki berusia 28 tahun dengan mikrositosis (MCV 65,8 fL) tetapi jumlah RBC tinggi 6,2, RDW normal, feritin normal, dan HbA2 5,6 persen. Indeks Mentzer sekitar 10,6 mengarah pada sifat talasemia, dan HbA2 yang meningkat mengonfirmasi beta-talasemia minor.

Anemia defisiensi besi Mentzer > 13 Feritin rendah, TSAT rendah, TIBC tinggi, RDW meningkat

Sifat beta-talasemia Mentzer < 13 Feritin normal, RDW normal, HbA2 meningkat (>3,5%), jumlah RBC tinggi

Kedua kasus memperoleh skor 1.000. Mesin menggunakan indeks Mentzer secara eksplisit pada kedua interpretasi dan mengembalikan diagnosis yang benar pada setiap kasus. Ini adalah hasil yang paling meyakinkan secara klinis dalam seluruh tolok ukur, karena salah mengklasifikasikan sifat talasemia sebagai defisiensi besi menyebabkan suplementasi besi yang tidak tepat dan peluang skrining keluarga terlewat, sedangkan salah mengklasifikasikan defisiensi besi sebagai talasemia menunda terapi penggantian yang sebenarnya sederhana. Penjelasan kami kisaran feritin kami menjelaskan konteks diferensial yang lebih luas.

Hasil per-kasus dari uji referensi awal V11 (23 April 2026)

Uji referensi V11 asli pada kohort proof-of-concept 15 kasus berfungsi sebagai fondasi metodologis Pembaruan Kedua: setiap detail per-kasus di bawah ini menunjukkan bagaimana rubrik menangani respons mesin yang nyata. Dua belas dari lima belas kasus mencapai skor komposit plafon 1.000 pada jalur utama; tiga kasus dilayani melalui fallback Fase 2, kehilangan bonus latensi 0.05 sementara mempertahankan seluruh konten klinis dan struktural. Satu kasus kehilangan satu subbagian wajib; satu kasus mengembalikan jumlah distribusi probabilitas yang sedikit berkurang.

ID Kasus Spesialisasi Komposit Latensi Jalur

BT-001-IDAHematologi1.00017,8 dtkprimer

BT-006-B12Hematologi1.00018,4 dtkprimer

BT-007-THALHematologi1.00017,0 dtkprimer

BT-002-HASHEndokrinologi0.95037,0 dtkcadangan

BT-008-PCOSEndokrinologi0.98718,6 dtkprimer

BT-003-T2DMMetabolisme1.00019,1 dtkprimer

BT-013-GOUTMetabolisme1.00019,4 dtkprimer

BT-004-NAFLDHepatologi1.00019,6 dtkprimer

BT-009-VIRHEPHepatologi0.95023,4 dtkcadangan

BT-014-GILBERTPerangkap1.00018,9 dtkprimer

BT-005-CKDNefrologi1.00017,4 dtkprimer

BT-010-ASCVDKardiologi1.00019,7 dtkprimer

BT-011-SLEReumatologi0.98118,2 dtkprimer

BT-012-VITDEndokrinologi1.00019,3 dtkprimer

BT-015-SEHATPerangkap1.00018,7 dtkcadangan

Kasus PCOS (BT-008) kehilangan satu subbagian wajib dalam struktur respons — lima belas dari enam belas, bukan enam belas dari enam belas — yang memangkas skor struktural dari 1,000 menjadi 0,963. Kasus SLE (BT-011) mengembalikan jumlah probabilitas yang sedikit berkurang yang menurunkan skor klinis menjadi 0,965 sambil mempertahankan setiap kata kunci diagnostik dan sistem penilaian. Tidak satu pun dari kedua kasus yang kurang sempurna tersebut melewatkan diagnosis yang benar.

Agregat V11 Pembaruan Kedua — 100.000 kasus

Pada skala populasi, baris kasus individual tidak dapat dibaca oleh manusia, sehingga Pembaruan Kedua melaporkan metrik agregat, bukan tabel 100.000 baris. Agregat utama ditunjukkan di bawah; rincian per-spesialisasi dan per-label negara dipublikasikan dalam laporan teknis dan setoran Figshare. Sampel acak terstratifikasi dari n = 201 respons mentah mesin (seed deterministik 20260426) dipublikasikan di repositori GitHub results/ untuk diperiksa.

Skor komposit Awal V11: 0.9912 (99.12%) → Pembaruan Kedua: 0.9980 (99.80%) Δ = +0.0068 pada kohort 100.000 kasus

Skor struktural (rata-rata) Awal V11: 0.998 → Pembaruan Kedua: 1.000 Kesesuaian struktural sempurna pada skala populasi

Skor klinis (rata-rata) Awal V11: 0.998 → Pembaruan Kedua: 0.996 −0.002; tidak ada kasus yang melewatkan diagnosis itu sendiri

Latensi — rata-rata (rentang) Inisialisasi V11: 20,17 dtk (17,0–37,0 dtk) → Pembaruan Kedua: 13,26 dtk (9,0–16,94 dtk) Optimasi mesin di antara setiap percobaan

Jalur mesin = primer Inisialisasi V11: 12 / 15 → Pembaruan Kedua: 100,000 / 100,000 Tidak diperlukan fallback Fase 2 pada titik mana pun selama pengujian

Bendera hiperdeteksi subset trap Inisialisasi V11: 0 / 13 → Pembaruan Kedua: 0 / 87,412 Tidak ada false-positive pada skala populasi (8.723 kasus trap dipantau)

Apa yang tidak diberitahukan oleh skor utama

Skor komposit sebesar 99.80 persen pada rubrik yang didaftarkan sebelumnya ini, untuk kohort sintetis 100.000 kasus yang mencakup 127 label negara, merepresentasikan kinerja mendekati batas — tetapi perlu penempatan konteks yang cermat. Hasil ini mendeskripsikan perilaku mesin terhadap rubrik yang kami komitkan pada kode sumber di V11; ini bukan klaim universal tentang kebenaran mesin pada setiap panel uji darah yang ada di dunia nyata.

Skor tersebut menyatakan bahwa mesin menangani pola diagnostik yang dipilih untuk evaluasi ini dengan benar di seluruh kohort skala populasi, dengan metodologi yang dipublikasikan dan dapat direproduksi. Skor itu tidak menyatakan bahwa mesin benar pada setiap panel hasil tes darah yang ada di dunia nyata. Skor itu juga tidak menyatakan bahwa mesin harus menggantikan penilaian klinisi. Dan skor itu tidak menyatakan bahwa mesin mengungguli sistem AI alternatif—analisis perbandingan terhadap mesin lain dengan sengaja tidak termasuk dalam cakupan laporan ini.

Yang ditetapkan oleh skor ini adalah sebuah baseline. Dengan rubrik dan harness yang dipublikasikan, versi-versi mesin di masa depan dapat dievaluasi terhadap rubrik yang sama—diterapkan pada 15 kasus awal V11, kohort 100.000 kasus Pembaruan Kedua, atau perluasan berikutnya apa pun—dan kesenjangan antara skor yang dipublikasikan dan setiap pengujian berikutnya dapat diukur sendiri. Inilah nilai dari pra-registrasi: ia mengubah klaim kinerja menjadi klaim yang dapat diuji.

Cara mereproduksi benchmark ini dalam 10 menit

Reproduksi hanya memerlukan pasangan kredensial API Kantesti dan lingkungan Python 3.10 atau yang lebih baru dengan requests Dan reportlab pustaka yang terpasang. Harness lengkap adalah satu modul Python mandiri yang dirilis di bawah lisensi MIT.

💻 GitHub Harness berlisensi MIT · respons mentah · reference run 🔗 DOI Figshare 10.6084/m9.figshare.32095435 · catatan akademik kanonik 🎓 ResearchGate Publikasi 404175463 · V11 Pembaruan Kedua · lapisan penemuan akademik 📄 Academia.edu Paper 165956808 · V11 Pembaruan Kedua · lapisan penemuan akademik

Empat langkah untuk menjalankan ulang yang baru

Satu. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dua. Instal dependensi dengan pip install -r requirements.txt (Pembaruan Kedua menambahkan mysql-connector-python ≥ 8.0 untuk pemuat kasus SQL). Tiga. Tetapkan KANTESTI_USERNAME Dan KANTESTI_PASSWORD sebagai variabel lingkungan untuk API mesin. Untuk pemuat kasus SQL Pembaruan Kedua, tetapkan juga KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, Dan KANTESTI_DB_PASSWORD — loader terhubung melalui peran read-only (bench_reader) yang tidak memiliki hak istimewa untuk mengidentifikasi tabel. Empat. Jalankan python benchmark_bloodtest.py --limit 100000 untuk menjalankan Second-Update secara penuh, atau python benchmark_bloodtest.py --limit 1000 untuk iterasi cepat. Output masuk ke ./benchmark_results/: kartu skor CSV dengan kolom per-country-label dan per-specialty, agregat JSON, sampel respons mentah acak berstrata, dan laporan Markdown.

Hasil acuan dari 23 April 2026 (V11 awal, 15 kasus) dan 26 April 2026 (V11 Second Update, 100,000 kasus) dipertahankan di results/ direktori repositori. Jalankan ulang akan menghasilkan scorecard baru dengan stempel waktu, sambil membiarkan hasil acuan tetap tidak berubah. Jika hasil larian Anda menghasilkan perbedaan yang bermakna, silakan buka isu GitHub dengan stempel waktu larian dan versi engine yang dikembalikan dalam metadata respons.

Keterbatasan dan pekerjaan masa depan

Bahkan pada 100.000 kasus di 127 country labels, empat keterbatasan layak diakui secara eksplisit: undersampling label long-tail, evaluasi sekali jalan, cakupan satu mesin, dan asal data satu sumber. Masing-masing sedang ditangani dalam pekerjaan tindak lanjut yang aktif.

Cakupan label long-tail. Pembaruan Kedua mencakup 127 country labels, tetapi distribusinya tidak seimbang — 10 label teratas menyumbang ≈66.4% dari kasus, dan long tail dari 97 label tambahan bersama-sama berkontribusi ≈7.3% (sekitar 7.300 kasus gabungan, ~75 kasus per label rata-rata). Komposit per-label pada long tail ini karena itu lebih berisik daripada yang disarankan oleh angka-angka utama. Rangkaian uji berikutnya akan menyeimbangkan kembali penetapan label untuk memperkuat estimasi per-label.

Evaluasi sekali tembak. Setiap kasus dalam kohort dievaluasi sekali. Model bahasa besar menunjukkan varians keluaran yang tidak sepele bahkan pada suhu sampling yang rendah, sehingga protokol multi-larian dengan lima evaluasi per kasus dan pelaporan varians merupakan langkah berikutnya yang wajar — khususnya pada subset kasus jebakan, di mana konsistensi di bawah jitter sampling merupakan bagian dari klaim keselamatan.

Cakupan satu mesin. Laporan ini mengkarakterisasi satu engine. Analisis komparatif terhadap sistem AI alternatif tidak termasuk dalam cakupan di sini; kami mungkin mengejarnya sebagai studi independen terpisah dengan metodologi yang sesuai, menggunakan harness yang sama berlisensi MIT.

Data sintetis. 100.000 kasus tersebut dibangkitkan secara sintetis, bukan “synthetic cases”, dan hasilnya tidak dapat ditransfer ke performa klinis dunia nyata. Evaluasi pada data nyata yang telah mendapat persetujuan dan bersumber eksternal akan memerlukan pengawasan etis yang sesuai dan berada di luar cakupan benchmark sintetis ini.

Di luar empat hal tersebut, ekstensi terencana yang paling berdampak adalah kesetaraan multi-bahasa per yurisdiksi. Engine AI Kantesti melayani pengguna dalam 75+ bahasa, dan menjalankan sub-kohort Second-Update yang terstratifikasi berdasarkan bahasa (Turki, Jerman, Spanyol, Prancis, Italia, Portugis, Arab, Mandarin) akan mengukur kualitas keluaran di seluruh bahasa yang didukung engine. Setiap analisis yang terstratifikasi per bahasa akan dipublikasikan dengan DOI dan cabang harness masing-masing.

Coba Engine yang Sama yang Mencapai Skor Komposit 99.80% pada 100,000 Kasus

Unggah panel tes darah Anda sendiri ke endpoint produksi yang sama yang dievaluasi dalam benchmark ini. Lebih dari 2 juta pengguna di seluruh dunia menggunakan mesin AI Kantesti untuk menginterpretasi lebih dari 15.000 biomarker dalam 75+ bahasa.

🔬 Coba Demo Gratis

Ekstensi Chrome App Store Google Play

📚 Cara Mengutip Benchmark Ini

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Laporan Teknis V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Referensi Metodologis Eksternal

Mentzer, W. C. (1973). Diferensiasi Defisiensi Besi dari Sifat Talasemia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Kriteria Klasifikasi 2019 European League Against Rheumatism / American College of Rheumatology untuk Lupus Eritematosus Sistemik. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test untuk Large Language Models. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Skor Gabungan

100,000Kasus yang Dinilai

127Country Labels yang Dicakup

0 / 87,412Trap False-Positives

Pertanyaan yang Sering Diajukan

Seberapa akurat Mesin AI Kantesti pada kasus uji sintetis?

Pada rubrik yang telah didaftarkan sebelumnya, dijalankan pada 100.000 kasus uji yang dibangkitkan secara sintetis di delapan area konten dan 127 country labels (V11 Second Update), mesin mencapai skor komposit 99,80 persen, dengan nol penanda hiperdianosis pada 87.412 peluang trap-case yang dipantau, serta latensi respons rata-rata 13,26 detik. Komposit ini mengukur kesesuaian keluaran pada input sintetis, bukan akurasi diagnostik. Rilis V11 awal menjalankan rubrik yang sama pada 15 kasus yang disusun manual (komposit 99,12%); Second Update mempertahankan rubrik identik byte dan memperluasnya ke kohort sintetis yang lebih besar. Kartu skor lengkap dipublikasikan di Figshare dengan DOI 10.6084/m9.figshare.32095435 dan di GitHub dengan lisensi MIT.

Apakah Mesin AI Kantesti telah divalidasi secara klinis?

Tidak. Mesin telah dievaluasi dengan automated technical benchmark (bukan validasi klinis), terhadap rubrik yang dibekukan dalam kode sumber sebelum dijalankan awal V11 dan dipertahankan identik byte untuk V11 Second Update, dievaluasi pada 100.000 kasus uji darah sintetis di bidang hematologi, endokrinologi, metabolic medicine, hepatologi, nefrologi, kardiologi, reumatologi, dan kedokteran internal, yang diambil dari 127 country labels. Pengawasan klinis disediakan oleh Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), hematolog klinis tersertifikasi dewan dan Chief Medical Officer di Kantesti AI.

Apa itu kasus jebakan hiperdianosis?

Kasus jebakan hiperdagnosis adalah skenario klinis yang secara khusus dirancang untuk mendeteksi perilaku over-diagnosis pada mesin AI. Benchmark awal V11 menggunakan dua kasus tersebut sebagai bukti konsep metodologis: hiperbilirubinemia tidak langsung terisolasi yang konsisten dengan sindrom Gilbert (di mana interpretasi yang benar adalah polimorfisme UGT1A1 yang bersifat jinak, bukan hepatitis atau hemolisis) dan panel skrining dewasa yang sepenuhnya normal (di mana keluaran yang benar adalah penenangan, bukan patologi batas yang dibuat-buat). Pembaruan Kedua V11 memperluas metodologi jebakan ini ke subset khusus sebanyak 8.723 kasus yang menghasilkan 87.412 peluang penandaan hiperdagnosis yang dipantau — dan tingkat false-positive mesin tetap nol.

Apakah evaluasi mesin AI Kantesti dapat direproduksi?

Kerangka evaluasi lengkap dirilis di bawah lisensi MIT sebagai satu modul Python mandiri. Uji awal V11 hanya memerlukan pasangan kredensial API Kantesti dan Python 3.10 atau yang lebih baru. Pembaruan Kedua V11 menambahkan pemuat kasus SQL yang dapat diparameterkan dan hanya-baca yang memerlukan kredensial repositori klinis Kantesti (sebuah peran tanpa hak istimewa untuk mengidentifikasi tabel). bench_reader Kode, SQL pemuat kasus, rubrik (identik byte di antara rilis), serta sampel acak berstrata dari respons mentah mesin dari kedua rujukan uji awal V11 dan Pembaruan Kedua tersedia di github.com/emirhanai/kantesti-blood-test-benchmark dan dicerminkan di Figshare, ResearchGate, dan Academia.edu.

Bagaimana Mesin AI Kantesti membedakan defisiensi besi dari sifat beta-talassemia?

Mesin menerapkan indeks Mentzer, yang dihitung sebagai volume korpuskular rata-rata dibagi jumlah sel darah merah. Indeks Mentzer di atas 13 mendukung anemia defisiensi besi, sedangkan nilai di bawah 13 mendukung sifat beta-talassemia. Pada benchmark awal V11, kedua presentasi diklasifikasikan dengan benar dengan perhitungan indeks Mentzer yang eksplisit, didukung oleh konteks feritin, RDW, dan HbA2. Di seluruh kohort 100.000 kasus Pembaruan Kedua V11, perilaku diferensial yang sama dipertahankan pada skala populasi.

Di mana saya bisa menemukan data benchmark mentah dan kode sumber?

Laporan teknis disimpan di Figshare dengan DOI 10.6084/m9.figshare.32095435 (mencakup rilis awal V11 dan Pembaruan Kedua V11), dicerminkan pada publikasi ResearchGate 404175463 dan makalah Academia.edu 165956808 — keduanya diperbarui dengan judul Pembaruan Kedua V11 dan hasil 100.000 kasus — serta kerangka Python berlisensi MIT dengan semua hasil uji rujukan ada di github.com/emirhanai/kantesti-blood-test-benchmark. Jaringan cermin empat platform memastikan ketersediaan jangka panjang dan fleksibilitas sitasi.

Mengapa prapendaftaran penting untuk benchmark medis AI?

Prapendaftaran mencegah penyesuaian rubrik secara post-hoc, yang merupakan cara paling umum bagi benchmark yang dijalankan perusahaan untuk menggelembungkan angka mereka sendiri. Dengan mengunci rubrik ke kode sumber sebelum setiap pemanggilan mesin dan mempublikasikan kerangka tersebut secara terbuka, tanggal penulis rubrik menjadi dapat diperiksa di kontrol versi, dan hasil mesin tidak dapat membentuk kriteria penilaian.

Apakah benchmark ini mencakup perbandingan dengan mesin AI lain?

Tidak. Laporan V11 — baik rilis awal maupun Pembaruan Kedua — secara sengaja mengkarakterisasi satu mesin terhadap rubrik tetap, bukan memposisikannya terhadap sistem komersial alternatif. Kerangka ini open source di bawah lisensi MIT (sekarang termasuk pemuat kasus SQL), sehingga peneliti independen dapat mengevaluasi mesin apa pun yang mereka pilih terhadap rubrik dan pemuat kasus yang sama serta mempublikasikan hasil mereka.

Apakah kasus pasien nyata atau sintetis?

Semua kasus dibangkitkan secara sintetis — 15 kasus yang disusun manual pada rilis awal V11 dan 100.000 pada Second Update. Bukan “synthetic cases”: tidak ada data sintetis, tidak ada proses persetujuan, dan tidak ada de-identifikasi yang terlibat, karena tidak ada data pribadi dalam kohort tersebut. Tidak ada data pribadi yang muncul dalam harness yang dipublikasikan, laporan teknis, atau kumpulan data yang dirilis.

⚕️ Pernyataan Penyangkalan Medis & Konflik Kepentingan

Laporan benchmark ini ditujukan untuk tujuan penelitian dan transparansi metodologis. Ini tidak merupakan nasihat medis, bukan diagnosis, dan bukan pengganti perawatan medis profesional; tidak ada hasil di sini yang boleh digunakan untuk menunda atau menghindari menemui dokter. Selalu konsultasikan dengan penyedia layanan kesehatan yang berkualifikasi untuk keputusan diagnosis dan perawatan. Ini adalah benchmark internal yang dijalankan sendiri dari mesin milik perusahaan, dan belum divalidasi secara independen atau ditinjau sejawat. Skor komposit mengukur kepatuhan terhadap rubrik tetap (struktur laporan, penarikan kembali kata kunci dan sistem penilaian, serta latensi); ini bukan ukuran akurasi diagnostik dunia nyata atau keselamatan klinis. Kedua penulis dipekerjakan oleh dan memiliki ekuitas di Kantesti Ltd, dan mesin yang dievaluasi adalah produk komersial dari organisasi yang sama. Konflik kepentingan ini dimitigasi dengan mendaftarkan rubrik sebelumnya dalam kode sumber, merilis harness di bawah lisensi MIT, serta mempublikasikan sampel acak berstrata dari respons mentah mesin.

Sinyal Kepercayaan E-E-A-T

⭐

Pengalaman

Pengalaman praktik lebih dari 15 tahun dalam hematologi klinis dan kedokteran laboratorium untuk mensupervisi pemilihan panel kasus.

📋

Keahlian

Desain rubrik yang diprapendaftaran dengan penalti hyperdiagnosis yang eksplisit dan sistem penilaian klinis yang diakui (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Kewenangan

Penulis utama Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementasi oleh Julian Emirhan Bulut, CEO Kantesti Ltd.

🛡️

Kepercayaan

Kerangka yang dapat direproduksi dengan lisensi MIT, respons mentah mesin dipublikasikan, pengungkapan konflik kepentingan terbuka, jaringan cermin riset empat platform.

🏢 Kantesti LTD Terdaftar di Inggris & Wales · Nomor Perusahaan. 17090423 London, Britania Raya · kantesti.net