Mengapa tolok ukur ini ada dan apa yang diuji
interpretasi hasil tes darah berbantuan AI semakin banyak digunakan dalam alur kerja konsumen dan klinis, namun kerangka evaluasi yang dapat direproduksi dan disesuaikan untuk kedokteran laboratorium masih jarang. Pertanyaan yang paling penting dalam konteks ini bukanlah pertanyaan yang dicakup oleh benchmark umum untuk tanya-jawab medis: apakah sebuah mesin dapat memisahkan defisiensi besi dari sifat talasemia ketika volume sel rata-rata identik, apakah mesin tersebut terlalu mendiagnosis sindrom Gilbert sebagai hepatitis, dan apakah mesin tersebut menghasilkan temuan patologis pada panel skrining yang sepenuhnya normal?
Satu panel tes darah biasanya berisi cukup sinyal untuk mendukung beberapa interpretasi yang saling bersaing, dan tugas klinisi yang melakukan interpretasi adalah menimbang interpretasi-interpretasi tersebut satu sama lain, bukan mengambil jawaban seperti di buku teks. Mesin yang bagus pada kasus-kasus buku teks masih bisa gagal pada kasus-kasus yang paling penting: jebakan diferensial-diagnosis, varian jinak yang tampak mengkhawatirkan bila dilihat sendiri, dan panel yang sepenuhnya normal yang menggoda asisten yang terlalu percaya diri untuk “menciptakan” patologi.
Benchmark ini dibangun tepat di sekitar mode kegagalan tersebut. Masing-masing dari lima belas kasus dipilih berdasarkan sifat diagnostik tertentu: mikrositosis akibat defisiensi besi yang harus dibedakan dari sifat beta-talasemia dengan volume sel rata-rata yang identik, presentasi sindrom Gilbert di mana satu-satunya kelainan adalah hiperbilirubinemia indirek yang terisolasi, serta panel skrining parameter lima belas di mana setiap analit berada di dalam rentang rujukannya. Rubrik memberi penghargaan pada mesin yang membaca setiap kasus sesuai konteksnya sendiri dan menghukum mesin yang mengambil kesimpulan diagnosis yang yakin padahal diagnosis seperti itu tidak layak.
Sebagai Thomas Klein, MD, saya memilih panel kasus ini karena inilah pola yang paling sering salah ditangani oleh asisten kedokteran laboratorium. Mode kegagalan yang mahal bukan "melewatkan penyakit langka"—melainkan membuat-buat patologi rutin pada pasien yang sebenarnya tidak memilikinya. Kita Validasi Medis hub menjelaskan kerangka yang lebih luas; halaman ini menjelaskan hasil penerapannya pada mesin V11.
Rujukan terbaru — V11 (April 2026)
Rujukan uji putaran April 2026 dari Kantesti AI Engine V11 menghasilkan skor komposit sebesar 99.12% pada rubrik lima belas kasus yang telah didaftarkan sebelumnya. Kedua kasus jebakan hiperdignosis memperoleh skor hingga batas maksimum. Indeks Mentzer diterapkan dengan benar pada diferensial defisiensi besi versus talasemia.
Rumus komposit menggabungkan tiga komponen: kesesuaian struktural dengan tujuh bagian laporan wajib dan enam belas subbagian wajib, akurasi klinis diukur sebagai penarikan kembali kata kunci (keyword recall) ditambah penarikan kembali sistem penilaian (scoring-system recall) ditambah pemeriksaan validitas terhadap distribusi probabilitas, dan latensi respons terhadap target layanan utama 20 detik. Perincian yang tepat ditunjukkan dalam rumus rubrik di bawah.
Sisa 0,88 poin persentase ruang kepala terurai hampir seluruhnya menjadi kehilangan latensi — tiga pemanggilan cadangan Phase 2 masing-masing sebesar minus 0,05 komposit berkontribusi sekitar 0,60 dari defisit 0,88 poin — bukan menjadi konten klinis. Mesin tidak melewatkan diagnosis yang benar pada kelima belas kasus; jika kurang, hal itu terjadi karena mengambil waktu sedikit lebih lama daripada target jalur utama 20 detik pada sebagian kecil pemanggilan.
Lima belas kasus di tujuh bidang spesialisasi medis
Panel kasus mencakup tujuh spesialisasi — hematologi, endokrinologi, pengobatan metabolik, hepatologi, nefrologi, kardiologi, reumatologi — plus dua kasus khusus jebakan hiperdeteksi. Setiap kasus adalah rekam pasien nyata yang dianonimkan, diambil dari repositori data klinis Kantesti berdasarkan persetujuan tertulis yang diinformasikan.
Penganoniman dilakukan dengan pendekatan Safe Harbor: semua pengenal langsung dihapus atau diganti, dan setiap rekam diberi kode kasus internal sebagai tolok ukur dalam format BT-NNN-LABEL. Pemrosesan dilakukan sesuai dengan GDPR Pasal 9(2)(j) untuk penelitian ilmiah dengan perlindungan yang sesuai, serta ketentuan setara UK GDPR. Tidak ada informasi yang mengidentifikasi pribadi yang muncul di mana pun dalam harness yang dipublikasikan, laporan teknis, atau kumpulan data yang dirilis.
Mengapa distribusi khusus ini
Hematologi mendapat tiga kasus karena diferensial mikrositik dan diferensial makrositik adalah jebakan bervolume tertinggi dalam praktik laboratorium dunia nyata. Endokrinologi mendapat tiga kasus karena presentasi Hashimoto, PCOS, dan kekurangan vitamin D menguji bentuk diagnostik yang berbeda (digerakkan oleh autoantibodi, digerakkan oleh rasio hormon, digerakkan oleh satu penanda). Spesialisasi satu kasus tetap bermakna karena masing-masing CKD, risiko ASCVD, dan SLE memiliki sistem skoringnya sendiri yang harus dipanggil mesin (bertahap KDIGO, risiko 10 tahun ASCVD, dan kriteria SLE EULAR/ACR 2019 masing-masing).
Rubrik pra-registrasi, dijelaskan
Preregistrasi adalah pilihan metodologis tunggal yang paling penting dalam benchmark ini. Setiap diagnosis yang diharapkan, setiap sistem skoring klinis, dan setiap bagian laporan dikomitkan ke kode sumber sebelum mesin dipanggil. Penyetelan pasca-hoc pada rubrik untuk mengunggulkan mesin karena itu tidak mungkin.
Tiga komponen membentuk skor komposit. Komponen struktural berkontribusi 35 persen dan mengukur apakah mesin mengembalikan tujuh bagian laporan wajib (header, ringkasan, temuan kunci, diferensial, sistem skoring, rekomendasi, tindak lanjut) dan enam belas subbagian wajib di dalamnya. Keberadaan bagian berbobot 40 persen dan keberadaan subbagian berbobot 60 persen dalam perhitungan struktural.
Itu komponen klinis berkontribusi 55 persen dan menggabungkan tiga hal: pengingatan kata kunci diagnosis (70 persen dari subskor klinis), pengingatan sistem skoring (20 persen — apakah mesin menghitung Mentzer, FIB-4, HOMA-IR, risiko ASCVD, bertahap KDIGO, kriteria EULAR/ACR bila relevan), serta pemeriksaan validitas jumlah probabilitas (10 persen — probabilitas diferensial harus berjumlah dalam interval [90, 110]). Untuk kasus jebakan, penalti hiperdianosis eksplisit hingga 0,30 dikurangkan, dihitung 0,10 per bendera patologi yang dibuat-buat, dibatasi maksimal tiga bendera.
Itu komponen latensi berkontribusi 10 persen. Respons di bawah 20 detik mendapat nilai penuh 0,10, respons di bawah 40 detik mendapat 0,05, dan apa pun yang lebih lambat mendapat nol. Target 20 detik mencerminkan tujuan tingkat layanan produksi primary-path; batas 40 detik mencerminkan anggaran fallback Fase 2 untuk pemanggilan mesin yang berat.
Apa yang dicegah oleh preregistrasi
Benchmark pihak pertama terkenal karena menggelembungkan angka mereka sendiri melalui penyetelan rubrik pasca-hoc. Polanya hampir selalu sama: tim menjalankan mesin, melihat di mana mesin berkinerja buruk, lalu diam-diam menyesuaikan rubrik agar area yang berkinerja buruk dihitung lebih kecil. Dengan mengomitkan rubrik ke kode sumber sebelum pemanggilan mesin pertama dan mempublikasikan harness di bawah lisensi MIT, penyesuaian itu menjadi terlihat dalam kontrol versi. Siapa pun bisa meng-clone repositori, memeriksa tanggal penulis rubrik, dan memverifikasi bahwa hasil mesin tidak digunakan untuk membentuk penilaian.
Kasus jebakan hiperdignosis — mengapa over-calling adalah mode kegagalan yang sebenarnya
Pemanggilan patologi yang agresif pada layar normal adalah mode kegagalan yang terdokumentasi pada asisten medis yang ditujukan untuk konsumen. Biaya hilirnya mencakup penyelidikan yang tidak perlu, kecemasan pasien, dan pemeriksaan yang bersifat iatrogenik. Dua kasus jebakan dalam benchmark ini dirancang untuk membuat mode kegagalan tersebut terlihat dan dapat diberi skor.
🟡 Trap 1 — BT-014-GILBERT
Presentasi. Seorang pria berusia 24 tahun dengan bilirubin total 2,4 mg/dL. Fraksi langsung normal, transaminase dan fosfatase alkali berada dalam kisaran rujukan mereka, retikulosit tidak menunjukkan hal yang mencolok, dan haptoglobin serta LDH menyingkirkan hemolisis.
Interpretasi yang benar. Sindrom Gilbert — polimorfisme UGT1A1 yang bersifat jinak. Interpretasi tidak boleh memanggil hepatitis, sirosis, anemia hemolitik, atau obstruksi bilier.
Hasil V11. Komposit 1,000. Tidak ada dari enam bendera over-diagnosis yang dipantau muncul sebagai diagnosis aktif.
🟡 Trap 2 — BT-015-HEALTHY
Presentasi. Seorang perempuan berusia 35 tahun dengan panel skrining rutin 15 parameter. Setiap analit berada dengan nyaman di dalam kisaran rujukannya.
Interpretasi yang benar. Jaminan dan pemeliharaan gaya hidup. Interpretasi tidak boleh “menciptakan” patologi batas untuk terdengar berguna secara klinis.
Hasil V11. Komposit 1.000. Tidak ada satu pun dari tujuh tanda peringatan over-diagnosis yang dipantau—diabetes, anemia, hipotiroidisme, dislipidemia, hepatitis, penyakit ginjal, defisiensi—yang muncul sebagai diagnosis aktif.
Di kedua skenario, tiga belas tanda peringatan hyperdiagnosis yang dipantau diperiksa. Tidak ada yang terpicu. Ini adalah hasil yang paling penting bagi setiap klinisi yang mempertimbangkan penggunaan mesin AI sebagai alat triase atau pra-konsultasi: sistem tidak menciptakan penyakit jika tidak ada.
Indeks Mentzer: memisahkan defisiensi besi dari sifat talasemia
Temuan bernilai tinggi kedua berkaitan dengan pengaitan kasus BT-001 (anemia defisiensi besi) dengan kasus BT-007 (beta-talasemia minor). Keduanya menunjukkan mikrositosis dan merupakan kendala yang sudah dikenal bagi pengklasifikasi yang belum berpengalaman. Indeks Mentzer, yang dihitung sebagai MCV dibagi jumlah RBC, lebih dari 13 pada defisiensi besi dan turun di bawah 13 pada sifat talasemia.
Pada BT-001, pasien adalah perempuan berusia 34 tahun dengan hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritin 6 ng/mL, dan TIBC meningkat. Indeks Mentzer sekitar 17,7 mendukung defisiensi besi absolut. Pada BT-007, pasien adalah laki-laki berusia 28 tahun dengan mikrositosis (MCV 65,8 fL) tetapi jumlah RBC tinggi 6,2, RDW normal, feritin normal, dan HbA2 5,6 persen. Indeks Mentzer sekitar 10,6 mengarah pada sifat talasemia, dan HbA2 yang meningkat mengonfirmasi beta-talasemia minor.
Kedua kasus memperoleh skor 1.000. Mesin menggunakan indeks Mentzer secara eksplisit pada kedua interpretasi dan mengembalikan diagnosis yang benar pada setiap kasus. Ini adalah hasil yang paling meyakinkan secara klinis dalam seluruh tolok ukur, karena salah mengklasifikasikan sifat talasemia sebagai defisiensi besi menyebabkan suplementasi besi yang tidak tepat dan peluang skrining keluarga terlewat, sedangkan salah mengklasifikasikan defisiensi besi sebagai talasemia menunda terapi penggantian yang sebenarnya sederhana. Penjelasan kami kisaran feritin kami menjelaskan konteks diferensial yang lebih luas.
Hasil per kasus dari uji coba pada April 2026
Dua belas dari lima belas kasus mencapai skor komposit plafon 1.000 pada jalur utama. Tiga kasus dilayani melalui fallback Fase 2, kehilangan bonus latensi 0,05 sementara tetap mempertahankan seluruh konten klinis dan struktural. Satu kasus kehilangan satu subbagian wajib; satu kasus menghasilkan jumlah distribusi probabilitas yang sedikit berkurang.
Kasus PCOS (BT-008) kehilangan satu subbagian wajib dalam struktur respons — lima belas dari enam belas, bukan enam belas dari enam belas — yang memangkas skor struktural dari 1,000 menjadi 0,963. Kasus SLE (BT-011) mengembalikan jumlah probabilitas yang sedikit berkurang yang menurunkan skor klinis menjadi 0,965 sambil mempertahankan setiap kata kunci diagnostik dan sistem penilaian. Tidak satu pun dari kedua kasus yang kurang sempurna tersebut melewatkan diagnosis yang benar.
Apa yang tidak diberitahukan oleh skor utama
Skor komposit sebesar 99,12 persen pada rubrik pra-terdaftar khusus ini merepresentasikan kinerja mendekati batas atas, tetapi perlu penempatan konteks yang cermat. Hasil ini menggambarkan perilaku mesin terhadap lima belas kasus anonim yang dipilih dengan saksama, dinilai sekali masing-masing, dengan menggunakan satu rubrik. Kami secara tegas menjelaskan apa yang ditunjukkan dan apa yang tidak ditunjukkan oleh angka tersebut.
Skor tersebut menyatakan bahwa mesin V11 menangani pola diagnostik yang dipilih untuk evaluasi ini dengan benar, dengan metodologi yang dipublikasikan dan dapat direproduksi. Skor itu tidak mengatakan bahwa mesin tersebut benar pada setiap panel tes darah yang ada di dunia nyata. Skor itu juga tidak mengatakan bahwa mesin harus menggantikan penilaian klinisi. Dan skor itu tidak mengatakan bahwa mesin mengungguli sistem AI alternatif — analisis perbandingan terhadap mesin lain dengan sengaja tidak termasuk dalam cakupan laporan ini.
Yang ditetapkan oleh skor tersebut adalah sebuah dasar. Dengan rubrik dan harness yang dipublikasikan, versi-versi mesin di masa depan dapat dievaluasi terhadap lima belas kasus yang sama, dan kesenjangan antara skor yang dipublikasikan dan setiap pelaksanaan berikutnya dapat diukur sendiri. Inilah nilai dari pra-registrasi: ia mengubah klaim kinerja menjadi klaim yang dapat diuji.
Cara mereproduksi benchmark ini dalam 10 menit
Reproduksi hanya memerlukan pasangan kredensial API Kantesti dan lingkungan Python 3.10 atau yang lebih baru dengan requests Dan reportlab pustaka yang terpasang. Harness lengkap adalah satu modul Python mandiri yang dirilis di bawah lisensi MIT.
Empat langkah untuk menjalankan ulang yang baru
Satu. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dua. Instal dependensi dengan pip install -r requirements.txt. Tiga. Tetapkan KANTESTI_USERNAME Dan KANTESTI_PASSWORD sebagai variabel lingkungan—kredensial dibaca saat runtime dan tidak ada yang dikodekan secara hard-code di dalam skrip. Empat. Jalankan python benchmark_bloodtest.py dan periksa empat artefak yang dihasilkan ke direktori kerja: sebuah scorecard CSV, sebuah scorecard JSON, sebuah dump JSON lengkap termasuk respons mentah dari mesin, dan sebuah laporan Markdown yang mudah dibaca manusia.
Hasil acuan dari 23 April 2026 disimpan di results/ direktori repositori. Jalankan ulang akan menghasilkan scorecard baru dengan stempel waktu, sementara hasil acuan tetap tidak berubah. Jika hasil run Anda menghasilkan perbedaan yang bermakna, silakan buka isu GitHub dengan stempel waktu run dan versi mesin yang dikembalikan pada metadata respons.
Keterbatasan dan pekerjaan masa depan
Empat keterbatasan layak diakui secara eksplisit: ukuran sampel, evaluasi sekali tembak, cakupan satu mesin, dan asal data dari satu sumber. Masing-masing sedang ditangani dalam pekerjaan tindak lanjut yang aktif.
Ukuran sampel. Lima belas kasus di delapan kelompok spesialisasi cukup untuk bukti konsep tetapi tidak untuk analisis subkelompok dalam satu spesialisasi. Ekspansi menjadi lima puluh kasus direncanakan dan akan mencakup panel koagulasi, skrining keganasan hematologis, panel kehamilan, dan presentasi pediatrik.
Evaluasi sekali tembak. Setiap kasus dievaluasi satu kali. Model bahasa besar menunjukkan varians keluaran yang tidak sepele bahkan pada suhu sampling yang rendah, sehingga protokol multi-run dengan lima evaluasi per kasus dan pelaporan varians merupakan langkah berikutnya yang alami.
Cakupan satu mesin. Laporan ini mengkarakterisasi satu mesin. Analisis komparatif terhadap sistem AI alternatif tidak termasuk dalam cakupan di sini; kami mungkin menindaklanjutinya sebagai studi independen terpisah dengan metodologi yang sesuai.
Asal data dari satu sumber. Lima belas kasus tersebut dianonimkan berupa catatan pasien nyata yang diambil dari satu repositori klinis. Ini mewakili sampel yang dikurasi dan bukan pengambilan acak yang representatif populasi. Perluasan evaluasi ke data multi-senter ada dalam rencana.
Ekstensi yang paling berdampak yang direncanakan adalah kesetaraan multi-bahasa. Mesin AI Kantesti melayani pengguna dalam 75+ bahasa, dan menjalankan harness yang sama untuk lima belas kasus dalam bahasa Turki, Jerman, Spanyol, Prancis, dan Arab akan mengukur kualitas keluaran di seluruh bahasa yang didukung mesin. Kami akan mempublikasikan setiap run per bahasa dengan DOI masing-masing dan cabang harness.