Mengapa tolok ukur ini ada dan apa yang diuji

interpretasi hasil tes darah berbantuan AI semakin banyak digunakan dalam alur kerja konsumen dan klinis, namun kerangka evaluasi yang dapat direproduksi dan disesuaikan untuk kedokteran laboratorium masih jarang. Pertanyaan yang paling penting dalam konteks ini bukanlah pertanyaan yang dicakup oleh benchmark umum untuk tanya-jawab medis: apakah sebuah mesin dapat memisahkan defisiensi besi dari sifat talasemia ketika volume sel rata-rata identik, apakah mesin tersebut terlalu mendiagnosis sindrom Gilbert sebagai hepatitis, dan apakah mesin tersebut menghasilkan temuan patologis pada panel skrining yang sepenuhnya normal?

Diagram alur rubrik yang telah didaftarkan sebelumnya yang menunjukkan bagaimana Kantesti AI Engine — Pembaruan Kedua V11, skor komposit 99.80% pada 100.000 kasus — dievaluasi terhadap kriteria penilaian yang dibekukan
Gambar 1: Arsitektur benchmark yang menjadi dasar di balik Skor komposit 99.80% pada V11 Second Update kohort 100.000 kasus — setiap kasus, setiap kata kunci, setiap sistem penilaian ditetapkan dalam kode sumber sebelum mesin melihat satu pun PDF, dan rubriknya identik byte dengan rilis awal V11. Penyetelan rubrik secara pasca-analisis (post-hoc) tidak mungkin dilakukan berdasarkan desain.

Satu panel tes darah biasanya berisi cukup sinyal untuk mendukung beberapa interpretasi yang saling bersaing, dan tugas klinisi yang melakukan interpretasi adalah menimbang interpretasi-interpretasi tersebut satu sama lain, bukan mengambil jawaban seperti di buku teks. Mesin yang bagus pada kasus-kasus buku teks masih bisa gagal pada kasus-kasus yang paling penting: jebakan diferensial-diagnosis, varian jinak yang tampak mengkhawatirkan bila dilihat sendiri, dan panel yang sepenuhnya normal yang menggoda asisten yang terlalu percaya diri untuk “menciptakan” patologi.

Benchmark ini dibangun tepat di sekitar mode kegagalan tersebut. Masing-masing dari lima belas kasus dipilih berdasarkan sifat diagnostik tertentu: mikrositosis akibat defisiensi besi yang harus dibedakan dari sifat beta-talasemia dengan volume sel rata-rata yang identik, presentasi sindrom Gilbert di mana satu-satunya kelainan adalah hiperbilirubinemia indirek yang terisolasi, serta panel skrining parameter lima belas di mana setiap analit berada di dalam rentang rujukannya. Rubrik memberi penghargaan pada mesin yang membaca setiap kasus sesuai konteksnya sendiri dan menghukum mesin yang mengambil kesimpulan diagnosis yang yakin padahal diagnosis seperti itu tidak layak.

Sebagai Thomas Klein, MD, saya memilih panel kasus ini karena inilah pola yang paling sering salah ditangani oleh asisten kedokteran laboratorium. Mode kegagalan yang mahal bukan "melewatkan penyakit langka"—melainkan membuat-buat patologi rutin pada pasien yang sebenarnya tidak memilikinya. Kita Validasi Medis hub menjelaskan kerangka yang lebih luas; halaman ini menjelaskan bukti konsep awal V11 dan Pembaruan Kedua V11 yang men-skalakannya menjadi 100.000 kasus sintetis yang diambil dari kumpulan kasus sintetis yang mencakup 127 label negara — menggunakan rubrik penilaian yang sama, identik byte, tanpa izin tuning pasca-hoc.

Referensi run terbaru — V11 Second Update (26 April 2026)

Referensi run V11 Second Update pada 26 April 2026 menghasilkan skor komposit sebesar 99.80% pada rubrik yang telah didaftarkan sebelumnya (pre-registered) yang sama seperti yang digunakan pada rilis awal V11, dievaluasi pada 100.000 kasus sintetis diambil dari kumpulan kasus sintetis Kantesti dan mencakup 127 label negara dan bahasa 75+. Setiap kasus selesai pada jalur utama mesin; aktivasi flag hiperdeteksi (trap-case hyperdiagnosis) tetap pada 0 / 87,412. Jalur awal V11 pada 23 April 2026 mencakup 15 kasus yang dikurasi secara manual (komposit 99.12%) dan memvalidasi rubrik; Second Update mempertahankan rubrik itu identik byte dan memperluas evaluasi ke kohort skala populasi.

Komposit 99.80% 100.000 dari 100.000 kasus mendapat skor
1.000 Skor struktural
0.996 Skor klinis
13.26 s Rata-rata latensi
0 / 87,412 Jebakan false-positive

Rumus komposit menggabungkan tiga komponen: kesesuaian struktural dengan tujuh bagian laporan wajib dan enam belas subbagian wajib, akurasi konten diukur sebagai penarikan kembali kata kunci (keyword recall) ditambah penarikan kembali sistem penilaian (scoring-system recall) ditambah pemeriksaan validitas terhadap distribusi probabilitas, dan latensi respons terhadap target layanan (service-level) jalur utama. Rincian yang tepat ditunjukkan dalam rumus rubrik di bawah — tidak ada bobot atau sub-rubrik yang diubah untuk Second Update.

Komposit = 0.35 × Struktural + 0.55 × Klinis + 0.10 × Latensi

Sisa 0.20 poin persentase ruang (headroom) terurai hampir seluruhnya menjadi sub-skor klinis — sebagian kecil kasus (terutama pada Hepatologi dan Reumatologi) memiliki satu kata kunci sistem penilaian yang diharapkan tidak ada dalam interpretasi mesin, meskipun konten diagnostiknya benar. Tidak ada satu pun kasus dalam kohort Second-Update 100.000 kasus yang terlewat diagnosisnya sendiri. Latensi meningkat dari rata-rata 20.17 s pada rilis awal V11 menjadi 13.26 s pada Second Update, mencerminkan optimasi mesin produksi di antara dua kali run; rubrik, kode penilaian, dan endpoint API tidak berubah.

Skor komposit per-label berkisar dari 0.9971 hingga 0.9985 di 30 label negara yang paling banyak terwakili. Ekor panjang dari 97 label tambahan (≈7.300 kasus gabungan) tidak menunjukkan degradasi sistematis. Label yang paling sering muncul berdasarkan jumlah kasus adalah Amerika Serikat (10.500), Brasil (9.500), Spanyol (9.000), Italia (8.000), Jerman (7.800), Prancis (7.400), Portugal (5.800), Türkiye (3.400), Britania Raya (2.900), dan Meksiko (2.500).

Dari 15 kasus hingga 100.000: evolusi kohort di 127 label negara

Panel kasus V11 awal mencakup tujuh spesialisasi — hematologi, endokrinologi, kedokteran metabolik, hepatologi, nefrologi, kardiologi, reumatologi — ditambah dua kasus khusus jebakan hiperdeteksi, dengan setiap kasus berupa panel uji darah yang dibangkitkan secara sintetis. Pembaruan Kedua V11 memperluas evaluasi hingga 100.000 kasus sintetis di 127 label negara, di seluruh 127 negara, yang didistribusikan ke delapan spesialisasi (tujuh yang asli plus satu bucket kedokteran dalam internal khusus yang menampung subset trap). Rubrik penilaian yang sama diterapkan identik byte pada kedua run.

Desain panel kasus awal V11 — lima belas kasus uji darah sintetis di tujuh spesialisasi medis plus dua kasus trap hiperdianosis; rubrik yang sama mencapai skor komposit 99,80% pada 100.000 kasus di V11 Second Update
Gambar 2: Desain panel kasus awal V11 untuk hematologi, endokrinologi, pengobatan metabolik, hepatologi, nefrologi, kardiologi, reumatologi, plus dua kasus trap — sindrom Gilbert dan panel skrining yang sepenuhnya normal. Second Update mempertahankan rubrik ini identik byte sambil memperluas kohort menjadi 100.000 kasus yang diambil dari repositori SQL Kantesti.

Karena semua kasus dibangkitkan secara sintetis, tidak ada pengenal nyata yang perlu dihapus dan tidak ada data pribadi yang terlibat. Setiap kasus sintetis membawa kode kasus internal untuk tolok ukur (BT-NNN-LABEL pada set awal V11, yang stabil case_uid pada Pembaruan Kedua). Tidak ada data pribadi yang muncul di mana pun dalam harness yang dipublikasikan, laporan teknis, atau kumpulan data yang dirilis.

rilis awal V11 — 15 kasus yang dikurasi secara manual

Panel kasus V11 asli dikurasi secara manual oleh Dr. Thomas Klein untuk menguji pola diagnostik yang paling sering keliru oleh asisten kedokteran laboratorium. Masing-masing dari lima belas kasus dipilih untuk suatu properti diagnostik tertentu, yang tercantum di bawah ini.

Hematologi (3) BT-001, BT-006, BT-007 Anemia defisiensi besi · Defisiensi B12 · Beta-talassemia minor
Endokrinologi (3) BT-002, BT-008, BT-012 Tiroiditis Hashimoto · PCOS dengan resistensi insulin · Defisiensi vitamin D berat
Metabolik (2) BT-003, BT-013 T2DM dengan sindrom metabolik · Hiperurisemia dengan risiko gout
Hepatologi (2) BT-004, BT-009 NAFLD / NASH · Hepatitis virus akut
Nefrologi · Kardiologi · Reumatologi (3) BT-005, BT-010, BT-011 CKD stadium 3 · Dislipidemia disertai aterogenik · Lupus eritematosus sistemik
Kasus jebakan (2) BT-014, BT-015 Sindrom Gilbert (hiperbilirubinemia indirek terisolasi) · Skrining dewasa yang sepenuhnya normal

Mengapa distribusi khusus ini

Hematologi mendapat tiga kasus karena diferensial mikrositik dan diferensial makrositik adalah jebakan bervolume tertinggi dalam praktik laboratorium dunia nyata. Endokrinologi mendapat tiga kasus karena presentasi Hashimoto, PCOS, dan kekurangan vitamin D menguji bentuk diagnostik yang berbeda (digerakkan oleh autoantibodi, digerakkan oleh rasio hormon, digerakkan oleh satu penanda). Spesialisasi satu kasus tetap bermakna karena masing-masing CKD, risiko ASCVD, dan SLE memiliki sistem skoringnya sendiri yang harus dipanggil mesin (bertahap KDIGO, risiko 10 tahun ASCVD, dan kriteria SLE EULAR/ACR 2019 masing-masing).

Pembaruan Kedua V11 — 100.000 kasus sintetis di 127 label negara

Pembaruan Kedua menggantikan literal Python 15 kasus yang dikodekan keras pada V11 awal dengan kumpulan kasus sintetis yang lebih besar yang dibangkitkan secara terprogram. Kumpulan kasus dimuat pada awal setiap kali dijalankan dan konfigurasi dicatat untuk transparansi. Distribusi kohort berdasarkan area konten ditunjukkan di bawah.

Endokrinologi 23.900 kasus (23,9%) Tiroid, PCOS, kekurangan vitamin D, sumbu gonad, hipofisis
Kedokteran metabolik 21.900 kasus (21,9%) T2DM, sindrom metabolik, panel lipid, hiperurisemia
Hematologi 15.400 kasus (15,4%) Diferensial mikrositik dan makrositik, B12/folat, studi besi
Hepatologi 12.400 kasus (12,4%) NAFLD/NASH, hepatitis virus, FIB-4, kolestasis
Kedokteran dalam (termasuk subhimpunan trap) 9.000 kasus (9,0%) Presentasi campuran dan 8.723 kasus trap hiperdignosis khusus
Kardiologi 7.500 kasus (7,5%) Risiko ASCVD, dislipidemia aterogenik, hs-CRP
Reumatologi 6.000 kasus (6,0%) SLE, RA, vaskulitis, panel autoantibodi (kriteria EULAR/ACR)
Nefrologi 4.000 kasus (4,0%) Staging CKD (KDIGO), tren eGFR, gangguan elektrolit

Distribusi label negara sintetis — 10 label teratas

100.000 kasus sintetis membawa 127 label negara (ISO 3166-1 alpha-2) untuk menguji penanganan lokal. Penetapan label: Eropa 57.7%, Amerika 25.4%, Asia-Pasifik 6.2%, label Timur Tengah/Afrika yang dinamai 3.4%, dan ekor panjang dari 97 label tambahan yang secara gabungan kira-kira 7.3%. Sepuluh label yang paling sering berdasarkan jumlah kasus adalah Amerika Serikat (10.500), Brasil (9.500), Spanyol (9.000), Italia (8.000), Jerman (7.800), Prancis (7.400), Portugal (5.800), Türkiye (3.400), Britania Raya (2.900), dan Meksiko (2.500). Skor komposit per-label berkisar dari 0.9971 hingga 0.9985. Jumlah label ini adalah sifat dari kasus-kasus yang dibangkitkan yang digunakan untuk menguji penanganan lokal — ini bukan pengguna nyata dan bukan cakupan geografis dunia nyata.

Rubrik pra-registrasi, dijelaskan

Preregistrasi adalah pilihan metodologis tunggal yang paling penting dalam benchmark ini. Setiap diagnosis yang diharapkan, setiap sistem skoring klinis, dan setiap bagian laporan dikomitkan ke kode sumber sebelum mesin dipanggil. Penyetelan pasca-hoc pada rubrik untuk mengunggulkan mesin karena itu tidak mungkin.

Tiga komponen membentuk skor komposit. Komponen struktural berkontribusi 35 persen dan mengukur apakah mesin mengembalikan tujuh bagian laporan wajib (header, ringkasan, temuan kunci, diferensial, sistem skoring, rekomendasi, tindak lanjut) dan enam belas subbagian wajib di dalamnya. Keberadaan bagian berbobot 40 persen dan keberadaan subbagian berbobot 60 persen dalam perhitungan struktural.

Itu komponen klinis berkontribusi 55 persen dan menggabungkan tiga hal: pengingatan kata kunci diagnosis (70 persen dari subskor klinis), pengingatan sistem skoring (20 persen — apakah mesin menghitung Mentzer, FIB-4, HOMA-IR, risiko ASCVD, bertahap KDIGO, kriteria EULAR/ACR bila relevan), serta pemeriksaan validitas jumlah probabilitas (10 persen — probabilitas diferensial harus berjumlah dalam interval [90, 110]). Untuk kasus jebakan, penalti hiperdianosis eksplisit hingga 0,30 dikurangkan, dihitung 0,10 per bendera patologi yang dibuat-buat, dibatasi maksimal tiga bendera.

Itu komponen latensi berkontribusi 10 persen. Respons di bawah 20 detik mendapat nilai penuh 0,10, respons di bawah 40 detik mendapat 0,05, dan apa pun yang lebih lambat mendapat nol. Target 20 detik mencerminkan tujuan tingkat layanan produksi primary-path; batas 40 detik mencerminkan anggaran fallback Fase 2 untuk pemanggilan mesin yang berat.

Tangkapan layar terminal dari kerangka benchmark Kantesti berlisensi MIT yang sedang berjalan dan mengeluarkan skor per kasus — kerangka yang sama, yang kini digerakkan oleh SQL, menghasilkan skor komposit 99.80% pada uji 100.000 kasus Pembaruan Kedua V11
Gambar 3: Pengujian saat dijalankan — mesin yang sama yang menghasilkan komposit 99.80% pada kohort 100.000 kasus Pembaruan V11 Kedua. Setiap kasus dirender menjadi PDF A4, diposting ke endpoint produksi v11, lalu dinilai terhadap rubrik yang dibekukan. Pembaruan Kedua menambahkan pemuat kasus SQL yang diparameterkan; sampel acak berstrata dari respons mentah mesin (n = 201) dipertahankan bersama dengan ringkasan skor agregat.

Apa yang dicegah oleh preregistrasi

Benchmark pihak pertama terkenal karena menggelembungkan angka mereka sendiri melalui penyetelan rubrik pasca-hoc. Polanya hampir selalu sama: tim menjalankan mesin, melihat di mana mesin berkinerja buruk, lalu diam-diam menyesuaikan rubrik agar area yang berkinerja buruk dihitung lebih kecil. Dengan mengomitkan rubrik ke kode sumber sebelum pemanggilan mesin pertama dan mempublikasikan harness di bawah lisensi MIT, penyesuaian itu menjadi terlihat dalam kontrol versi. Siapa pun bisa meng-clone repositori, memeriksa tanggal penulis rubrik, dan memverifikasi bahwa hasil mesin tidak digunakan untuk membentuk penilaian.

Kasus jebakan hiperdignosis — mengapa over-calling adalah mode kegagalan yang sebenarnya

Pemanggilan patologi yang agresif pada layar normal adalah mode kegagalan yang terdokumentasi pada asisten medis yang ditujukan untuk konsumen. Biaya hilirnya mencakup penyelidikan yang tidak perlu, kecemasan pasien, dan pemeriksaan yang bersifat iatrogenik. Dua kasus jebakan dalam benchmark ini dirancang untuk membuat mode kegagalan tersebut terlihat dan dapat diberi skor.

Perbandingan berdampingan antara AI naif yang memalsukan hepatitis pada panel sindrom Gilbert versus mesin Kantesti yang secara benar mengidentifikasi polimorfisme UGT1A1 yang jinak — metodologi yang diskalakan hingga nol false-positive di seluruh 87.412 peluang penandaan jebakan pada benchmark Pembaruan Kedua V11 99.80%
Gambar 4: Desain jebakan-kasus dari rilis awal V11 — mesin yang dengan yakin memberi label sindrom Gilbert sebagai hepatitis, atau yang membuat patologi batas pada layar yang sepenuhnya normal, akan dikenai penalti, bukan diberi penghargaan, karena terdengar klinis. Metodologi ini diskalakan untuk 0 / 87,412 false-positive pada uji coba kohort 100.000 kasus V11 Pembaruan Kedua yang menghasilkan skor komposit 99.80%.

🟡 Trap 1 — BT-014-GILBERT

Presentasi. Seorang pria berusia 24 tahun dengan bilirubin total 2,4 mg/dL. Fraksi langsung normal, transaminase dan fosfatase alkali berada dalam kisaran rujukan mereka, retikulosit tidak menunjukkan hal yang mencolok, dan haptoglobin serta LDH menyingkirkan hemolisis.

Interpretasi yang benar. Sindrom Gilbert — polimorfisme UGT1A1 yang bersifat jinak. Interpretasi tidak boleh memanggil hepatitis, sirosis, anemia hemolitik, atau obstruksi bilier.

Hasil V11. Komposit 1,000. Tidak ada dari enam bendera over-diagnosis yang dipantau muncul sebagai diagnosis aktif.

🟡 Trap 2 — BT-015-HEALTHY

Presentasi. Seorang perempuan berusia 35 tahun dengan panel skrining rutin 15 parameter. Setiap analit berada dengan nyaman di dalam kisaran rujukannya.

Interpretasi yang benar. Jaminan dan pemeliharaan gaya hidup. Interpretasi tidak boleh “menciptakan” patologi batas untuk terdengar berguna secara klinis.

Hasil V11. Komposit 1.000. Tidak ada satu pun dari tujuh tanda peringatan over-diagnosis yang dipantau—diabetes, anemia, hipotiroidisme, dislipidemia, hepatitis, penyakit ginjal, defisiensi—yang muncul sebagai diagnosis aktif.

Di kedua skenario, tiga belas tanda peringatan hyperdiagnosis yang dipantau diperiksa. Tidak ada yang terpicu. Ini adalah hasil yang paling penting bagi setiap klinisi yang mempertimbangkan penggunaan mesin AI sebagai alat triase atau pra-konsultasi: sistem tidak menciptakan penyakit jika tidak ada.

Indeks Mentzer: memisahkan defisiensi besi dari sifat talasemia

Temuan bernilai tinggi kedua berkaitan dengan pengaitan kasus BT-001 (anemia defisiensi besi) dengan kasus BT-007 (beta-talasemia minor). Keduanya menunjukkan mikrositosis dan merupakan kendala yang sudah dikenal bagi pengklasifikasi yang belum berpengalaman. Indeks Mentzer, yang dihitung sebagai MCV dibagi jumlah RBC, lebih dari 13 pada defisiensi besi dan turun di bawah 13 pada sifat talasemia.

Pada BT-001, pasien adalah perempuan berusia 34 tahun dengan hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritin 6 ng/mL, dan TIBC meningkat. Indeks Mentzer sekitar 17,7 mendukung defisiensi besi absolut. Pada BT-007, pasien adalah laki-laki berusia 28 tahun dengan mikrositosis (MCV 65,8 fL) tetapi jumlah RBC tinggi 6,2, RDW normal, feritin normal, dan HbA2 5,6 persen. Indeks Mentzer sekitar 10,6 mengarah pada sifat talasemia, dan HbA2 yang meningkat mengonfirmasi beta-talasemia minor.

Anemia defisiensi besi Mentzer > 13 Feritin rendah, TSAT rendah, TIBC tinggi, RDW meningkat
Sifat beta-talasemia Mentzer < 13 Feritin normal, RDW normal, HbA2 meningkat (>3,5%), jumlah RBC tinggi

Kedua kasus memperoleh skor 1.000. Mesin menggunakan indeks Mentzer secara eksplisit pada kedua interpretasi dan mengembalikan diagnosis yang benar pada setiap kasus. Ini adalah hasil yang paling meyakinkan secara klinis dalam seluruh tolok ukur, karena salah mengklasifikasikan sifat talasemia sebagai defisiensi besi menyebabkan suplementasi besi yang tidak tepat dan peluang skrining keluarga terlewat, sedangkan salah mengklasifikasikan defisiensi besi sebagai talasemia menunda terapi penggantian yang sebenarnya sederhana. Penjelasan kami kisaran feritin kami menjelaskan konteks diferensial yang lebih luas.

Hasil per-kasus dari uji referensi awal V11 (23 April 2026)

Uji referensi V11 asli pada kohort proof-of-concept 15 kasus berfungsi sebagai fondasi metodologis Pembaruan Kedua: setiap detail per-kasus di bawah ini menunjukkan bagaimana rubrik menangani respons mesin yang nyata. Dua belas dari lima belas kasus mencapai skor komposit plafon 1.000 pada jalur utama; tiga kasus dilayani melalui fallback Fase 2, kehilangan bonus latensi 0.05 sementara mempertahankan seluruh konten klinis dan struktural. Satu kasus kehilangan satu subbagian wajib; satu kasus mengembalikan jumlah distribusi probabilitas yang sedikit berkurang.

ID Kasus Spesialisasi Komposit Latensi Jalur
BT-001-IDAHematologi1.00017,8 dtkprimer
BT-006-B12Hematologi1.00018,4 dtkprimer
BT-007-THALHematologi1.00017,0 dtkprimer
BT-002-HASHEndokrinologi0.95037,0 dtkcadangan
BT-008-PCOSEndokrinologi0.98718,6 dtkprimer
BT-003-T2DMMetabolisme1.00019,1 dtkprimer
BT-013-GOUTMetabolisme1.00019,4 dtkprimer
BT-004-NAFLDHepatologi1.00019,6 dtkprimer
BT-009-VIRHEPHepatologi0.95023,4 dtkcadangan
BT-014-GILBERTPerangkap1.00018,9 dtkprimer
BT-005-CKDNefrologi1.00017,4 dtkprimer
BT-010-ASCVDKardiologi1.00019,7 dtkprimer
BT-011-SLEReumatologi0.98118,2 dtkprimer
BT-012-VITDEndokrinologi1.00019,3 dtkprimer
BT-015-SEHATPerangkap1.00018,7 dtkcadangan

Kasus PCOS (BT-008) kehilangan satu subbagian wajib dalam struktur respons — lima belas dari enam belas, bukan enam belas dari enam belas — yang memangkas skor struktural dari 1,000 menjadi 0,963. Kasus SLE (BT-011) mengembalikan jumlah probabilitas yang sedikit berkurang yang menurunkan skor klinis menjadi 0,965 sambil mempertahankan setiap kata kunci diagnostik dan sistem penilaian. Tidak satu pun dari kedua kasus yang kurang sempurna tersebut melewatkan diagnosis yang benar.

Agregat V11 Pembaruan Kedua — 100.000 kasus

Pada skala populasi, baris kasus individual tidak dapat dibaca oleh manusia, sehingga Pembaruan Kedua melaporkan metrik agregat, bukan tabel 100.000 baris. Agregat utama ditunjukkan di bawah; rincian per-spesialisasi dan per-label negara dipublikasikan dalam laporan teknis dan setoran Figshare. Sampel acak terstratifikasi dari n = 201 respons mentah mesin (seed deterministik 20260426) dipublikasikan di repositori GitHub results/ untuk diperiksa.

Skor komposit Awal V11: 0.9912 (99.12%) → Pembaruan Kedua: 0.9980 (99.80%) Δ = +0.0068 pada kohort 100.000 kasus
Skor struktural (rata-rata) Awal V11: 0.998 → Pembaruan Kedua: 1.000 Kesesuaian struktural sempurna pada skala populasi
Skor klinis (rata-rata) Awal V11: 0.998 → Pembaruan Kedua: 0.996 −0.002; tidak ada kasus yang melewatkan diagnosis itu sendiri
Latensi — rata-rata (rentang) Inisialisasi V11: 20,17 dtk (17,0–37,0 dtk) → Pembaruan Kedua: 13,26 dtk (9,0–16,94 dtk) Optimasi mesin di antara setiap percobaan
Jalur mesin = primer Inisialisasi V11: 12 / 15 → Pembaruan Kedua: 100,000 / 100,000 Tidak diperlukan fallback Fase 2 pada titik mana pun selama pengujian
Bendera hiperdeteksi subset trap Inisialisasi V11: 0 / 13 → Pembaruan Kedua: 0 / 87,412 Tidak ada false-positive pada skala populasi (8.723 kasus trap dipantau)

Apa yang tidak diberitahukan oleh skor utama

Skor komposit sebesar 99.80 persen pada rubrik yang didaftarkan sebelumnya ini, untuk kohort sintetis 100.000 kasus yang mencakup 127 label negara, merepresentasikan kinerja mendekati batas — tetapi perlu penempatan konteks yang cermat. Hasil ini mendeskripsikan perilaku mesin terhadap rubrik yang kami komitkan pada kode sumber di V11; ini bukan klaim universal tentang kebenaran mesin pada setiap panel uji darah yang ada di dunia nyata.

Skor tersebut menyatakan bahwa mesin menangani pola diagnostik yang dipilih untuk evaluasi ini dengan benar di seluruh kohort skala populasi, dengan metodologi yang dipublikasikan dan dapat direproduksi. Skor itu tidak menyatakan bahwa mesin benar pada setiap panel hasil tes darah yang ada di dunia nyata. Skor itu juga tidak menyatakan bahwa mesin harus menggantikan penilaian klinisi. Dan skor itu tidak menyatakan bahwa mesin mengungguli sistem AI alternatif—analisis perbandingan terhadap mesin lain dengan sengaja tidak termasuk dalam cakupan laporan ini.

Yang ditetapkan oleh skor ini adalah sebuah baseline. Dengan rubrik dan harness yang dipublikasikan, versi-versi mesin di masa depan dapat dievaluasi terhadap rubrik yang sama—diterapkan pada 15 kasus awal V11, kohort 100.000 kasus Pembaruan Kedua, atau perluasan berikutnya apa pun—dan kesenjangan antara skor yang dipublikasikan dan setiap pengujian berikutnya dapat diukur sendiri. Inilah nilai dari pra-registrasi: ia mengubah klaim kinerja menjadi klaim yang dapat diuji.

Cara mereproduksi benchmark ini dalam 10 menit

Reproduksi hanya memerlukan pasangan kredensial API Kantesti dan lingkungan Python 3.10 atau yang lebih baru dengan requests Dan reportlab pustaka yang terpasang. Harness lengkap adalah satu modul Python mandiri yang dirilis di bawah lisensi MIT.

Diagram jaringan reproduktibilitas yang menunjukkan benchmark V11 Second Update (komposit 99,80%, 100.000 kasus, 127 country labels) dicerminkan di Figshare, ResearchGate, Academia.edu, dan GitHub dengan DOI Figshare sebagai jangkar kanonik
Gambar 5: Tolok ukur V11 Pembaruan Kedua — Skor komposit 99.80% pada 100.000 kasus di 127 label negara — dicerminkan di empat platform penelitian. DOI Figshare adalah pengenal ilmiah kanonik; ResearchGate (publikasi 404175463), Academia.edu (paper 165956808), dan GitHub menampung salinan paralel dengan harness benchmark, sampel respons mentah acak berstrata, serta kartu skor per-label-per-spesialty.

Empat langkah untuk menjalankan ulang yang baru

Satu. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dua. Instal dependensi dengan pip install -r requirements.txt (Pembaruan Kedua menambahkan mysql-connector-python ≥ 8.0 untuk pemuat kasus SQL). Tiga. Tetapkan KANTESTI_USERNAME Dan KANTESTI_PASSWORD sebagai variabel lingkungan untuk API mesin. Untuk pemuat kasus SQL Pembaruan Kedua, tetapkan juga KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, Dan KANTESTI_DB_PASSWORD — loader terhubung melalui peran read-only (bench_reader) yang tidak memiliki hak istimewa untuk mengidentifikasi tabel. Empat. Jalankan python benchmark_bloodtest.py --limit 100000 untuk menjalankan Second-Update secara penuh, atau python benchmark_bloodtest.py --limit 1000 untuk iterasi cepat. Output masuk ke ./benchmark_results/: kartu skor CSV dengan kolom per-country-label dan per-specialty, agregat JSON, sampel respons mentah acak berstrata, dan laporan Markdown.

Hasil acuan dari 23 April 2026 (V11 awal, 15 kasus) dan 26 April 2026 (V11 Second Update, 100,000 kasus) dipertahankan di results/ direktori repositori. Jalankan ulang akan menghasilkan scorecard baru dengan stempel waktu, sambil membiarkan hasil acuan tetap tidak berubah. Jika hasil larian Anda menghasilkan perbedaan yang bermakna, silakan buka isu GitHub dengan stempel waktu larian dan versi engine yang dikembalikan dalam metadata respons.

Keterbatasan dan pekerjaan masa depan

Bahkan pada 100.000 kasus di 127 country labels, empat keterbatasan layak diakui secara eksplisit: undersampling label long-tail, evaluasi sekali jalan, cakupan satu mesin, dan asal data satu sumber. Masing-masing sedang ditangani dalam pekerjaan tindak lanjut yang aktif.

Cakupan label long-tail. Pembaruan Kedua mencakup 127 country labels, tetapi distribusinya tidak seimbang — 10 label teratas menyumbang ≈66.4% dari kasus, dan long tail dari 97 label tambahan bersama-sama berkontribusi ≈7.3% (sekitar 7.300 kasus gabungan, ~75 kasus per label rata-rata). Komposit per-label pada long tail ini karena itu lebih berisik daripada yang disarankan oleh angka-angka utama. Rangkaian uji berikutnya akan menyeimbangkan kembali penetapan label untuk memperkuat estimasi per-label.

Evaluasi sekali tembak. Setiap kasus dalam kohort dievaluasi sekali. Model bahasa besar menunjukkan varians keluaran yang tidak sepele bahkan pada suhu sampling yang rendah, sehingga protokol multi-larian dengan lima evaluasi per kasus dan pelaporan varians merupakan langkah berikutnya yang wajar — khususnya pada subset kasus jebakan, di mana konsistensi di bawah jitter sampling merupakan bagian dari klaim keselamatan.

Cakupan satu mesin. Laporan ini mengkarakterisasi satu engine. Analisis komparatif terhadap sistem AI alternatif tidak termasuk dalam cakupan di sini; kami mungkin mengejarnya sebagai studi independen terpisah dengan metodologi yang sesuai, menggunakan harness yang sama berlisensi MIT.

Data sintetis. 100.000 kasus tersebut dibangkitkan secara sintetis, bukan “synthetic cases”, dan hasilnya tidak dapat ditransfer ke performa klinis dunia nyata. Evaluasi pada data nyata yang telah mendapat persetujuan dan bersumber eksternal akan memerlukan pengawasan etis yang sesuai dan berada di luar cakupan benchmark sintetis ini.

Di luar empat hal tersebut, ekstensi terencana yang paling berdampak adalah kesetaraan multi-bahasa per yurisdiksi. Engine AI Kantesti melayani pengguna dalam 75+ bahasa, dan menjalankan sub-kohort Second-Update yang terstratifikasi berdasarkan bahasa (Turki, Jerman, Spanyol, Prancis, Italia, Portugis, Arab, Mandarin) akan mengukur kualitas keluaran di seluruh bahasa yang didukung engine. Setiap analisis yang terstratifikasi per bahasa akan dipublikasikan dengan DOI dan cabang harness masing-masing.