Mengapa tolok ukur ini ada dan apa yang diuji
interpretasi hasil tes darah berbantuan AI semakin banyak digunakan dalam alur kerja konsumen dan klinis, namun kerangka evaluasi yang dapat direproduksi dan disesuaikan untuk kedokteran laboratorium masih jarang. Pertanyaan yang paling penting dalam konteks ini bukanlah pertanyaan yang dicakup oleh benchmark umum untuk tanya-jawab medis: apakah sebuah mesin dapat memisahkan defisiensi besi dari sifat talasemia ketika volume sel rata-rata identik, apakah mesin tersebut terlalu mendiagnosis sindrom Gilbert sebagai hepatitis, dan apakah mesin tersebut menghasilkan temuan patologis pada panel skrining yang sepenuhnya normal?
Satu panel tes darah biasanya berisi cukup sinyal untuk mendukung beberapa interpretasi yang saling bersaing, dan tugas klinisi yang melakukan interpretasi adalah menimbang interpretasi-interpretasi tersebut satu sama lain, bukan mengambil jawaban seperti di buku teks. Mesin yang bagus pada kasus-kasus buku teks masih bisa gagal pada kasus-kasus yang paling penting: jebakan diferensial-diagnosis, varian jinak yang tampak mengkhawatirkan bila dilihat sendiri, dan panel yang sepenuhnya normal yang menggoda asisten yang terlalu percaya diri untuk “menciptakan” patologi.
Benchmark ini dibangun tepat di sekitar mode kegagalan tersebut. Masing-masing dari lima belas kasus dipilih berdasarkan sifat diagnostik tertentu: mikrositosis akibat defisiensi besi yang harus dibedakan dari sifat beta-talasemia dengan volume sel rata-rata yang identik, presentasi sindrom Gilbert di mana satu-satunya kelainan adalah hiperbilirubinemia indirek yang terisolasi, serta panel skrining parameter lima belas di mana setiap analit berada di dalam rentang rujukannya. Rubrik memberi penghargaan pada mesin yang membaca setiap kasus sesuai konteksnya sendiri dan menghukum mesin yang mengambil kesimpulan diagnosis yang yakin padahal diagnosis seperti itu tidak layak.
Sebagai Thomas Klein, MD, saya memilih panel kasus ini karena inilah pola yang paling sering salah ditangani oleh asisten kedokteran laboratorium. Mode kegagalan yang mahal bukan "melewatkan penyakit langka"—melainkan membuat-buat patologi rutin pada pasien yang sebenarnya tidak memilikinya. Kita Validasi Medis hub menjelaskan kerangka yang lebih luas; halaman ini menjelaskan bukti konsep awal V11 dan Pembaruan Kedua V11 yang men-skalakannya menjadi 100.000 kasus sintetis yang diambil dari kumpulan kasus sintetis yang mencakup 127 label negara — menggunakan rubrik penilaian yang sama, identik byte, tanpa izin tuning pasca-hoc.
Referensi run terbaru — V11 Second Update (26 April 2026)
Referensi run V11 Second Update pada 26 April 2026 menghasilkan skor komposit sebesar 99.80% pada rubrik yang telah didaftarkan sebelumnya (pre-registered) yang sama seperti yang digunakan pada rilis awal V11, dievaluasi pada 100.000 kasus sintetis diambil dari kumpulan kasus sintetis Kantesti dan mencakup 127 label negara dan bahasa 75+. Setiap kasus selesai pada jalur utama mesin; aktivasi flag hiperdeteksi (trap-case hyperdiagnosis) tetap pada 0 / 87,412. Jalur awal V11 pada 23 April 2026 mencakup 15 kasus yang dikurasi secara manual (komposit 99.12%) dan memvalidasi rubrik; Second Update mempertahankan rubrik itu identik byte dan memperluas evaluasi ke kohort skala populasi.
Rumus komposit menggabungkan tiga komponen: kesesuaian struktural dengan tujuh bagian laporan wajib dan enam belas subbagian wajib, akurasi konten diukur sebagai penarikan kembali kata kunci (keyword recall) ditambah penarikan kembali sistem penilaian (scoring-system recall) ditambah pemeriksaan validitas terhadap distribusi probabilitas, dan latensi respons terhadap target layanan (service-level) jalur utama. Rincian yang tepat ditunjukkan dalam rumus rubrik di bawah — tidak ada bobot atau sub-rubrik yang diubah untuk Second Update.
Sisa 0.20 poin persentase ruang (headroom) terurai hampir seluruhnya menjadi sub-skor klinis — sebagian kecil kasus (terutama pada Hepatologi dan Reumatologi) memiliki satu kata kunci sistem penilaian yang diharapkan tidak ada dalam interpretasi mesin, meskipun konten diagnostiknya benar. Tidak ada satu pun kasus dalam kohort Second-Update 100.000 kasus yang terlewat diagnosisnya sendiri. Latensi meningkat dari rata-rata 20.17 s pada rilis awal V11 menjadi 13.26 s pada Second Update, mencerminkan optimasi mesin produksi di antara dua kali run; rubrik, kode penilaian, dan endpoint API tidak berubah.
Skor komposit per-label berkisar dari 0.9971 hingga 0.9985 di 30 label negara yang paling banyak terwakili. Ekor panjang dari 97 label tambahan (≈7.300 kasus gabungan) tidak menunjukkan degradasi sistematis. Label yang paling sering muncul berdasarkan jumlah kasus adalah Amerika Serikat (10.500), Brasil (9.500), Spanyol (9.000), Italia (8.000), Jerman (7.800), Prancis (7.400), Portugal (5.800), Türkiye (3.400), Britania Raya (2.900), dan Meksiko (2.500).
Dari 15 kasus hingga 100.000: evolusi kohort di 127 label negara
Panel kasus V11 awal mencakup tujuh spesialisasi — hematologi, endokrinologi, kedokteran metabolik, hepatologi, nefrologi, kardiologi, reumatologi — ditambah dua kasus khusus jebakan hiperdeteksi, dengan setiap kasus berupa panel uji darah yang dibangkitkan secara sintetis. Pembaruan Kedua V11 memperluas evaluasi hingga 100.000 kasus sintetis di 127 label negara, di seluruh 127 negara, yang didistribusikan ke delapan spesialisasi (tujuh yang asli plus satu bucket kedokteran dalam internal khusus yang menampung subset trap). Rubrik penilaian yang sama diterapkan identik byte pada kedua run.
Karena semua kasus dibangkitkan secara sintetis, tidak ada pengenal nyata yang perlu dihapus dan tidak ada data pribadi yang terlibat. Setiap kasus sintetis membawa kode kasus internal untuk tolok ukur (BT-NNN-LABEL pada set awal V11, yang stabil case_uid pada Pembaruan Kedua). Tidak ada data pribadi yang muncul di mana pun dalam harness yang dipublikasikan, laporan teknis, atau kumpulan data yang dirilis.
rilis awal V11 — 15 kasus yang dikurasi secara manual
Panel kasus V11 asli dikurasi secara manual oleh Dr. Thomas Klein untuk menguji pola diagnostik yang paling sering keliru oleh asisten kedokteran laboratorium. Masing-masing dari lima belas kasus dipilih untuk suatu properti diagnostik tertentu, yang tercantum di bawah ini.
Mengapa distribusi khusus ini
Hematologi mendapat tiga kasus karena diferensial mikrositik dan diferensial makrositik adalah jebakan bervolume tertinggi dalam praktik laboratorium dunia nyata. Endokrinologi mendapat tiga kasus karena presentasi Hashimoto, PCOS, dan kekurangan vitamin D menguji bentuk diagnostik yang berbeda (digerakkan oleh autoantibodi, digerakkan oleh rasio hormon, digerakkan oleh satu penanda). Spesialisasi satu kasus tetap bermakna karena masing-masing CKD, risiko ASCVD, dan SLE memiliki sistem skoringnya sendiri yang harus dipanggil mesin (bertahap KDIGO, risiko 10 tahun ASCVD, dan kriteria SLE EULAR/ACR 2019 masing-masing).
Pembaruan Kedua V11 — 100.000 kasus sintetis di 127 label negara
Pembaruan Kedua menggantikan literal Python 15 kasus yang dikodekan keras pada V11 awal dengan kumpulan kasus sintetis yang lebih besar yang dibangkitkan secara terprogram. Kumpulan kasus dimuat pada awal setiap kali dijalankan dan konfigurasi dicatat untuk transparansi. Distribusi kohort berdasarkan area konten ditunjukkan di bawah.
Distribusi label negara sintetis — 10 label teratas
100.000 kasus sintetis membawa 127 label negara (ISO 3166-1 alpha-2) untuk menguji penanganan lokal. Penetapan label: Eropa 57.7%, Amerika 25.4%, Asia-Pasifik 6.2%, label Timur Tengah/Afrika yang dinamai 3.4%, dan ekor panjang dari 97 label tambahan yang secara gabungan kira-kira 7.3%. Sepuluh label yang paling sering berdasarkan jumlah kasus adalah Amerika Serikat (10.500), Brasil (9.500), Spanyol (9.000), Italia (8.000), Jerman (7.800), Prancis (7.400), Portugal (5.800), Türkiye (3.400), Britania Raya (2.900), dan Meksiko (2.500). Skor komposit per-label berkisar dari 0.9971 hingga 0.9985. Jumlah label ini adalah sifat dari kasus-kasus yang dibangkitkan yang digunakan untuk menguji penanganan lokal — ini bukan pengguna nyata dan bukan cakupan geografis dunia nyata.
Rubrik pra-registrasi, dijelaskan
Preregistrasi adalah pilihan metodologis tunggal yang paling penting dalam benchmark ini. Setiap diagnosis yang diharapkan, setiap sistem skoring klinis, dan setiap bagian laporan dikomitkan ke kode sumber sebelum mesin dipanggil. Penyetelan pasca-hoc pada rubrik untuk mengunggulkan mesin karena itu tidak mungkin.
Tiga komponen membentuk skor komposit. Komponen struktural berkontribusi 35 persen dan mengukur apakah mesin mengembalikan tujuh bagian laporan wajib (header, ringkasan, temuan kunci, diferensial, sistem skoring, rekomendasi, tindak lanjut) dan enam belas subbagian wajib di dalamnya. Keberadaan bagian berbobot 40 persen dan keberadaan subbagian berbobot 60 persen dalam perhitungan struktural.
Itu komponen klinis berkontribusi 55 persen dan menggabungkan tiga hal: pengingatan kata kunci diagnosis (70 persen dari subskor klinis), pengingatan sistem skoring (20 persen — apakah mesin menghitung Mentzer, FIB-4, HOMA-IR, risiko ASCVD, bertahap KDIGO, kriteria EULAR/ACR bila relevan), serta pemeriksaan validitas jumlah probabilitas (10 persen — probabilitas diferensial harus berjumlah dalam interval [90, 110]). Untuk kasus jebakan, penalti hiperdianosis eksplisit hingga 0,30 dikurangkan, dihitung 0,10 per bendera patologi yang dibuat-buat, dibatasi maksimal tiga bendera.
Itu komponen latensi berkontribusi 10 persen. Respons di bawah 20 detik mendapat nilai penuh 0,10, respons di bawah 40 detik mendapat 0,05, dan apa pun yang lebih lambat mendapat nol. Target 20 detik mencerminkan tujuan tingkat layanan produksi primary-path; batas 40 detik mencerminkan anggaran fallback Fase 2 untuk pemanggilan mesin yang berat.
Apa yang dicegah oleh preregistrasi
Benchmark pihak pertama terkenal karena menggelembungkan angka mereka sendiri melalui penyetelan rubrik pasca-hoc. Polanya hampir selalu sama: tim menjalankan mesin, melihat di mana mesin berkinerja buruk, lalu diam-diam menyesuaikan rubrik agar area yang berkinerja buruk dihitung lebih kecil. Dengan mengomitkan rubrik ke kode sumber sebelum pemanggilan mesin pertama dan mempublikasikan harness di bawah lisensi MIT, penyesuaian itu menjadi terlihat dalam kontrol versi. Siapa pun bisa meng-clone repositori, memeriksa tanggal penulis rubrik, dan memverifikasi bahwa hasil mesin tidak digunakan untuk membentuk penilaian.
Kasus jebakan hiperdignosis — mengapa over-calling adalah mode kegagalan yang sebenarnya
Pemanggilan patologi yang agresif pada layar normal adalah mode kegagalan yang terdokumentasi pada asisten medis yang ditujukan untuk konsumen. Biaya hilirnya mencakup penyelidikan yang tidak perlu, kecemasan pasien, dan pemeriksaan yang bersifat iatrogenik. Dua kasus jebakan dalam benchmark ini dirancang untuk membuat mode kegagalan tersebut terlihat dan dapat diberi skor.
🟡 Trap 1 — BT-014-GILBERT
Presentasi. Seorang pria berusia 24 tahun dengan bilirubin total 2,4 mg/dL. Fraksi langsung normal, transaminase dan fosfatase alkali berada dalam kisaran rujukan mereka, retikulosit tidak menunjukkan hal yang mencolok, dan haptoglobin serta LDH menyingkirkan hemolisis.
Interpretasi yang benar. Sindrom Gilbert — polimorfisme UGT1A1 yang bersifat jinak. Interpretasi tidak boleh memanggil hepatitis, sirosis, anemia hemolitik, atau obstruksi bilier.
Hasil V11. Komposit 1,000. Tidak ada dari enam bendera over-diagnosis yang dipantau muncul sebagai diagnosis aktif.
🟡 Trap 2 — BT-015-HEALTHY
Presentasi. Seorang perempuan berusia 35 tahun dengan panel skrining rutin 15 parameter. Setiap analit berada dengan nyaman di dalam kisaran rujukannya.
Interpretasi yang benar. Jaminan dan pemeliharaan gaya hidup. Interpretasi tidak boleh “menciptakan” patologi batas untuk terdengar berguna secara klinis.
Hasil V11. Komposit 1.000. Tidak ada satu pun dari tujuh tanda peringatan over-diagnosis yang dipantau—diabetes, anemia, hipotiroidisme, dislipidemia, hepatitis, penyakit ginjal, defisiensi—yang muncul sebagai diagnosis aktif.
Di kedua skenario, tiga belas tanda peringatan hyperdiagnosis yang dipantau diperiksa. Tidak ada yang terpicu. Ini adalah hasil yang paling penting bagi setiap klinisi yang mempertimbangkan penggunaan mesin AI sebagai alat triase atau pra-konsultasi: sistem tidak menciptakan penyakit jika tidak ada.
Indeks Mentzer: memisahkan defisiensi besi dari sifat talasemia
Temuan bernilai tinggi kedua berkaitan dengan pengaitan kasus BT-001 (anemia defisiensi besi) dengan kasus BT-007 (beta-talasemia minor). Keduanya menunjukkan mikrositosis dan merupakan kendala yang sudah dikenal bagi pengklasifikasi yang belum berpengalaman. Indeks Mentzer, yang dihitung sebagai MCV dibagi jumlah RBC, lebih dari 13 pada defisiensi besi dan turun di bawah 13 pada sifat talasemia.
Pada BT-001, pasien adalah perempuan berusia 34 tahun dengan hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritin 6 ng/mL, dan TIBC meningkat. Indeks Mentzer sekitar 17,7 mendukung defisiensi besi absolut. Pada BT-007, pasien adalah laki-laki berusia 28 tahun dengan mikrositosis (MCV 65,8 fL) tetapi jumlah RBC tinggi 6,2, RDW normal, feritin normal, dan HbA2 5,6 persen. Indeks Mentzer sekitar 10,6 mengarah pada sifat talasemia, dan HbA2 yang meningkat mengonfirmasi beta-talasemia minor.
Kedua kasus memperoleh skor 1.000. Mesin menggunakan indeks Mentzer secara eksplisit pada kedua interpretasi dan mengembalikan diagnosis yang benar pada setiap kasus. Ini adalah hasil yang paling meyakinkan secara klinis dalam seluruh tolok ukur, karena salah mengklasifikasikan sifat talasemia sebagai defisiensi besi menyebabkan suplementasi besi yang tidak tepat dan peluang skrining keluarga terlewat, sedangkan salah mengklasifikasikan defisiensi besi sebagai talasemia menunda terapi penggantian yang sebenarnya sederhana. Penjelasan kami kisaran feritin kami menjelaskan konteks diferensial yang lebih luas.
Hasil per-kasus dari uji referensi awal V11 (23 April 2026)
Uji referensi V11 asli pada kohort proof-of-concept 15 kasus berfungsi sebagai fondasi metodologis Pembaruan Kedua: setiap detail per-kasus di bawah ini menunjukkan bagaimana rubrik menangani respons mesin yang nyata. Dua belas dari lima belas kasus mencapai skor komposit plafon 1.000 pada jalur utama; tiga kasus dilayani melalui fallback Fase 2, kehilangan bonus latensi 0.05 sementara mempertahankan seluruh konten klinis dan struktural. Satu kasus kehilangan satu subbagian wajib; satu kasus mengembalikan jumlah distribusi probabilitas yang sedikit berkurang.
Kasus PCOS (BT-008) kehilangan satu subbagian wajib dalam struktur respons — lima belas dari enam belas, bukan enam belas dari enam belas — yang memangkas skor struktural dari 1,000 menjadi 0,963. Kasus SLE (BT-011) mengembalikan jumlah probabilitas yang sedikit berkurang yang menurunkan skor klinis menjadi 0,965 sambil mempertahankan setiap kata kunci diagnostik dan sistem penilaian. Tidak satu pun dari kedua kasus yang kurang sempurna tersebut melewatkan diagnosis yang benar.
Agregat V11 Pembaruan Kedua — 100.000 kasus
Pada skala populasi, baris kasus individual tidak dapat dibaca oleh manusia, sehingga Pembaruan Kedua melaporkan metrik agregat, bukan tabel 100.000 baris. Agregat utama ditunjukkan di bawah; rincian per-spesialisasi dan per-label negara dipublikasikan dalam laporan teknis dan setoran Figshare. Sampel acak terstratifikasi dari n = 201 respons mentah mesin (seed deterministik 20260426) dipublikasikan di repositori GitHub results/ untuk diperiksa.
Apa yang tidak diberitahukan oleh skor utama
Skor komposit sebesar 99.80 persen pada rubrik yang didaftarkan sebelumnya ini, untuk kohort sintetis 100.000 kasus yang mencakup 127 label negara, merepresentasikan kinerja mendekati batas — tetapi perlu penempatan konteks yang cermat. Hasil ini mendeskripsikan perilaku mesin terhadap rubrik yang kami komitkan pada kode sumber di V11; ini bukan klaim universal tentang kebenaran mesin pada setiap panel uji darah yang ada di dunia nyata.
Skor tersebut menyatakan bahwa mesin menangani pola diagnostik yang dipilih untuk evaluasi ini dengan benar di seluruh kohort skala populasi, dengan metodologi yang dipublikasikan dan dapat direproduksi. Skor itu tidak menyatakan bahwa mesin benar pada setiap panel hasil tes darah yang ada di dunia nyata. Skor itu juga tidak menyatakan bahwa mesin harus menggantikan penilaian klinisi. Dan skor itu tidak menyatakan bahwa mesin mengungguli sistem AI alternatif—analisis perbandingan terhadap mesin lain dengan sengaja tidak termasuk dalam cakupan laporan ini.
Yang ditetapkan oleh skor ini adalah sebuah baseline. Dengan rubrik dan harness yang dipublikasikan, versi-versi mesin di masa depan dapat dievaluasi terhadap rubrik yang sama—diterapkan pada 15 kasus awal V11, kohort 100.000 kasus Pembaruan Kedua, atau perluasan berikutnya apa pun—dan kesenjangan antara skor yang dipublikasikan dan setiap pengujian berikutnya dapat diukur sendiri. Inilah nilai dari pra-registrasi: ia mengubah klaim kinerja menjadi klaim yang dapat diuji.
Cara mereproduksi benchmark ini dalam 10 menit
Reproduksi hanya memerlukan pasangan kredensial API Kantesti dan lingkungan Python 3.10 atau yang lebih baru dengan requests Dan reportlab pustaka yang terpasang. Harness lengkap adalah satu modul Python mandiri yang dirilis di bawah lisensi MIT.
Empat langkah untuk menjalankan ulang yang baru
Satu. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dua. Instal dependensi dengan pip install -r requirements.txt (Pembaruan Kedua menambahkan mysql-connector-python ≥ 8.0 untuk pemuat kasus SQL). Tiga. Tetapkan KANTESTI_USERNAME Dan KANTESTI_PASSWORD sebagai variabel lingkungan untuk API mesin. Untuk pemuat kasus SQL Pembaruan Kedua, tetapkan juga KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, Dan KANTESTI_DB_PASSWORD — loader terhubung melalui peran read-only (bench_reader) yang tidak memiliki hak istimewa untuk mengidentifikasi tabel. Empat. Jalankan python benchmark_bloodtest.py --limit 100000 untuk menjalankan Second-Update secara penuh, atau python benchmark_bloodtest.py --limit 1000 untuk iterasi cepat. Output masuk ke ./benchmark_results/: kartu skor CSV dengan kolom per-country-label dan per-specialty, agregat JSON, sampel respons mentah acak berstrata, dan laporan Markdown.
Hasil acuan dari 23 April 2026 (V11 awal, 15 kasus) dan 26 April 2026 (V11 Second Update, 100,000 kasus) dipertahankan di results/ direktori repositori. Jalankan ulang akan menghasilkan scorecard baru dengan stempel waktu, sambil membiarkan hasil acuan tetap tidak berubah. Jika hasil larian Anda menghasilkan perbedaan yang bermakna, silakan buka isu GitHub dengan stempel waktu larian dan versi engine yang dikembalikan dalam metadata respons.
Keterbatasan dan pekerjaan masa depan
Bahkan pada 100.000 kasus di 127 country labels, empat keterbatasan layak diakui secara eksplisit: undersampling label long-tail, evaluasi sekali jalan, cakupan satu mesin, dan asal data satu sumber. Masing-masing sedang ditangani dalam pekerjaan tindak lanjut yang aktif.
Cakupan label long-tail. Pembaruan Kedua mencakup 127 country labels, tetapi distribusinya tidak seimbang — 10 label teratas menyumbang ≈66.4% dari kasus, dan long tail dari 97 label tambahan bersama-sama berkontribusi ≈7.3% (sekitar 7.300 kasus gabungan, ~75 kasus per label rata-rata). Komposit per-label pada long tail ini karena itu lebih berisik daripada yang disarankan oleh angka-angka utama. Rangkaian uji berikutnya akan menyeimbangkan kembali penetapan label untuk memperkuat estimasi per-label.
Evaluasi sekali tembak. Setiap kasus dalam kohort dievaluasi sekali. Model bahasa besar menunjukkan varians keluaran yang tidak sepele bahkan pada suhu sampling yang rendah, sehingga protokol multi-larian dengan lima evaluasi per kasus dan pelaporan varians merupakan langkah berikutnya yang wajar — khususnya pada subset kasus jebakan, di mana konsistensi di bawah jitter sampling merupakan bagian dari klaim keselamatan.
Cakupan satu mesin. Laporan ini mengkarakterisasi satu engine. Analisis komparatif terhadap sistem AI alternatif tidak termasuk dalam cakupan di sini; kami mungkin mengejarnya sebagai studi independen terpisah dengan metodologi yang sesuai, menggunakan harness yang sama berlisensi MIT.
Data sintetis. 100.000 kasus tersebut dibangkitkan secara sintetis, bukan “synthetic cases”, dan hasilnya tidak dapat ditransfer ke performa klinis dunia nyata. Evaluasi pada data nyata yang telah mendapat persetujuan dan bersumber eksternal akan memerlukan pengawasan etis yang sesuai dan berada di luar cakupan benchmark sintetis ini.
Di luar empat hal tersebut, ekstensi terencana yang paling berdampak adalah kesetaraan multi-bahasa per yurisdiksi. Engine AI Kantesti melayani pengguna dalam 75+ bahasa, dan menjalankan sub-kohort Second-Update yang terstratifikasi berdasarkan bahasa (Turki, Jerman, Spanyol, Prancis, Italia, Portugis, Arab, Mandarin) akan mengukur kualitas keluaran di seluruh bahasa yang didukung engine. Setiap analisis yang terstratifikasi per bahasa akan dipublikasikan dengan DOI dan cabang harness masing-masing.