Validasi Klinis Tolok Ukur Pra-Registrasi V11 — April 2026 Berlisensi MIT Dapat Diverifikasi oleh Rekan

Mesin AI Kantesti — Tolok Ukur Tes Darah: Validasi Klinis di Tujuh Spesialisasi Medis

Evaluasi klinis independen yang telah dipra-registrasi terhadap Kantesti AI Engine pada kasus tes darah yang dianonimkan. Rubrik dibekukan dalam kode sumber sebelum pemanggilan mesin pertama, kerangka evaluasi berlisensi MIT, dan setiap respons mentah dipublikasikan.

📖 ~14 menit 📅 23 April 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Diterbitkan: 23 April 2026 🩺 Ditinjau secara medis: 23 April 2026 ✅ Rubrik Pra-Registrasi 🔓 Kode & Data Terbuka

Studi validasi klinis ini dipimpin oleh Dr. Thomas Klein, MD, Chief Medical Officer di Kantesti AI, bekerja sama dengan Julian Emirhan Bulut, Senior AI Engineer dan CEO dari Kantesti Ltd. Metodologi dan rubrik ditinjau oleh Dewan Penasihat Medis AI Kantesti.

Penulis Utama & Pengawasan Klinis

Thomas Klein, MD

Kepala Petugas Medis, Kantesti AI

Dr. Thomas Klein adalah ahli hematologi klinis dan internis bersertifikat dewan dengan pengalaman lebih dari 15 tahun di bidang kedokteran laboratorium. Sebagai Chief Medical Officer di Kantesti AI, ia memilih panel kasus untuk tolok ukur ini, meninjau semua kebenaran diagnostik, dan menyetujui rubrik pra-registrasi sebelum pemanggilan mesin pertama.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Penulis Bersama & Implementasi

Julian Emirhan Bulut

Senior AI Engineer & CEO, Kantesti Ltd

Julian Emirhan Bulut adalah pendiri dan CEO Kantesti Ltd. Ia merancang dan mengimplementasikan kerangka evaluasi, melakukan integrasi API, menjalankan tolok ukur April 2026, serta menyiapkan agregasi statistik. Pendiri platform sejak 2019.

GitHub Tentang Kantesti

⚡ Ringkasan Singkat V11 — 23 April 2026

Skor komposit 99.12% pada 15 kasus nyata tes darah pasien yang dianonimkan di tujuh bidang spesialisasi medis.
Nol false-positive hiperdeteksi pada kedua kasus jebakan (sindrom Gilbert dan panel skrining orang dewasa yang sepenuhnya normal).
Rubrik yang telah diprapendaftaran dibekukan dalam kode sumber sebelum pemanggilan mesin pertama — tidak ada penyesuaian pasca-hoc yang memungkinkan.
Indeks Mentzer diterapkan dengan benar untuk membedakan anemia defisiensi besi dari beta-talasemia minor.
Hanya endpoint produksi — tanpa routing istimewa, dievaluasi persis seperti yang diakses oleh pelanggan yang membayar.
Rata-rata latensi 20,17 detik end-to-end, dengan 12 dari 15 kasus berada di bawah target jalur utama 20 detik.
Harness berlisensi MIT dirilis di GitHub dengan setiap respons mentah dari mesin — reproduksi independen didukung.
DOI Figshare: 10.6084/m9.figshare.32095435 · Dicerminkan di ResearchGate, Academia.edu, GitHub.

Mengapa tolok ukur ini ada dan apa yang diuji

interpretasi hasil tes darah berbantuan AI semakin banyak digunakan dalam alur kerja konsumen dan klinis, namun kerangka evaluasi yang dapat direproduksi dan disesuaikan untuk kedokteran laboratorium masih jarang. Pertanyaan yang paling penting dalam konteks ini bukanlah pertanyaan yang dicakup oleh benchmark umum untuk tanya-jawab medis: apakah sebuah mesin dapat memisahkan defisiensi besi dari sifat talasemia ketika volume sel rata-rata identik, apakah mesin tersebut terlalu mendiagnosis sindrom Gilbert sebagai hepatitis, dan apakah mesin tersebut menghasilkan temuan patologis pada panel skrining yang sepenuhnya normal?

Satu panel tes darah biasanya berisi cukup sinyal untuk mendukung beberapa interpretasi yang saling bersaing, dan tugas klinisi yang melakukan interpretasi adalah menimbang interpretasi-interpretasi tersebut satu sama lain, bukan mengambil jawaban seperti di buku teks. Mesin yang bagus pada kasus-kasus buku teks masih bisa gagal pada kasus-kasus yang paling penting: jebakan diferensial-diagnosis, varian jinak yang tampak mengkhawatirkan bila dilihat sendiri, dan panel yang sepenuhnya normal yang menggoda asisten yang terlalu percaya diri untuk “menciptakan” patologi.

Benchmark ini dibangun tepat di sekitar mode kegagalan tersebut. Masing-masing dari lima belas kasus dipilih berdasarkan sifat diagnostik tertentu: mikrositosis akibat defisiensi besi yang harus dibedakan dari sifat beta-talasemia dengan volume sel rata-rata yang identik, presentasi sindrom Gilbert di mana satu-satunya kelainan adalah hiperbilirubinemia indirek yang terisolasi, serta panel skrining parameter lima belas di mana setiap analit berada di dalam rentang rujukannya. Rubrik memberi penghargaan pada mesin yang membaca setiap kasus sesuai konteksnya sendiri dan menghukum mesin yang mengambil kesimpulan diagnosis yang yakin padahal diagnosis seperti itu tidak layak.

Sebagai Thomas Klein, MD, saya memilih panel kasus ini karena inilah pola yang paling sering salah ditangani oleh asisten kedokteran laboratorium. Mode kegagalan yang mahal bukan "melewatkan penyakit langka"—melainkan membuat-buat patologi rutin pada pasien yang sebenarnya tidak memilikinya. Kita Validasi Medis hub menjelaskan kerangka yang lebih luas; halaman ini menjelaskan hasil penerapannya pada mesin V11.

Rujukan terbaru — V11 (April 2026)

Rujukan uji putaran April 2026 dari Kantesti AI Engine V11 menghasilkan skor komposit sebesar 99.12% pada rubrik lima belas kasus yang telah didaftarkan sebelumnya. Kedua kasus jebakan hiperdignosis memperoleh skor hingga batas maksimum. Indeks Mentzer diterapkan dengan benar pada diferensial defisiensi besi versus talasemia.

Komposit 99.12% 15 dari 15 kasus mendapat skor

0.998 Skor struktural

0.998 Skor klinis

20,17 dtk Rata-rata latensi

0 / 13 Jebakan false-positive

Rumus komposit menggabungkan tiga komponen: kesesuaian struktural dengan tujuh bagian laporan wajib dan enam belas subbagian wajib, akurasi klinis diukur sebagai penarikan kembali kata kunci (keyword recall) ditambah penarikan kembali sistem penilaian (scoring-system recall) ditambah pemeriksaan validitas terhadap distribusi probabilitas, dan latensi respons terhadap target layanan utama 20 detik. Perincian yang tepat ditunjukkan dalam rumus rubrik di bawah.

Komposit = 0.35 × Struktural + 0.55 × Klinis + 0.10 × Latensi

Sisa 0,88 poin persentase ruang kepala terurai hampir seluruhnya menjadi kehilangan latensi — tiga pemanggilan cadangan Phase 2 masing-masing sebesar minus 0,05 komposit berkontribusi sekitar 0,60 dari defisit 0,88 poin — bukan menjadi konten klinis. Mesin tidak melewatkan diagnosis yang benar pada kelima belas kasus; jika kurang, hal itu terjadi karena mengambil waktu sedikit lebih lama daripada target jalur utama 20 detik pada sebagian kecil pemanggilan.

Lima belas kasus di tujuh bidang spesialisasi medis

Panel kasus mencakup tujuh spesialisasi — hematologi, endokrinologi, pengobatan metabolik, hepatologi, nefrologi, kardiologi, reumatologi — plus dua kasus khusus jebakan hiperdeteksi. Setiap kasus adalah rekam pasien nyata yang dianonimkan, diambil dari repositori data klinis Kantesti berdasarkan persetujuan tertulis yang diinformasikan.

Penganoniman dilakukan dengan pendekatan Safe Harbor: semua pengenal langsung dihapus atau diganti, dan setiap rekam diberi kode kasus internal sebagai tolok ukur dalam format BT-NNN-LABEL. Pemrosesan dilakukan sesuai dengan GDPR Pasal 9(2)(j) untuk penelitian ilmiah dengan perlindungan yang sesuai, serta ketentuan setara UK GDPR. Tidak ada informasi yang mengidentifikasi pribadi yang muncul di mana pun dalam harness yang dipublikasikan, laporan teknis, atau kumpulan data yang dirilis.

Hematologi (3) BT-001, BT-006, BT-007 Anemia defisiensi besi · Defisiensi B12 · Beta-talassemia minor

Endokrinologi (3) BT-002, BT-008, BT-012 Tiroiditis Hashimoto · PCOS dengan resistensi insulin · Defisiensi vitamin D berat

Metabolik (2) BT-003, BT-013 T2DM dengan sindrom metabolik · Hiperurisemia dengan risiko gout

Hepatologi (2) BT-004, BT-009 NAFLD / NASH · Hepatitis virus akut

Nefrologi · Kardiologi · Reumatologi (3) BT-005, BT-010, BT-011 CKD stadium 3 · Dislipidemia disertai aterogenik · Lupus eritematosus sistemik

Kasus jebakan (2) BT-014, BT-015 Sindrom Gilbert (hiperbilirubinemia indirek terisolasi) · Skrining dewasa yang sepenuhnya normal

Mengapa distribusi khusus ini

Hematologi mendapat tiga kasus karena diferensial mikrositik dan diferensial makrositik adalah jebakan bervolume tertinggi dalam praktik laboratorium dunia nyata. Endokrinologi mendapat tiga kasus karena presentasi Hashimoto, PCOS, dan kekurangan vitamin D menguji bentuk diagnostik yang berbeda (digerakkan oleh autoantibodi, digerakkan oleh rasio hormon, digerakkan oleh satu penanda). Spesialisasi satu kasus tetap bermakna karena masing-masing CKD, risiko ASCVD, dan SLE memiliki sistem skoringnya sendiri yang harus dipanggil mesin (bertahap KDIGO, risiko 10 tahun ASCVD, dan kriteria SLE EULAR/ACR 2019 masing-masing).

Rubrik pra-registrasi, dijelaskan

Preregistrasi adalah pilihan metodologis tunggal yang paling penting dalam benchmark ini. Setiap diagnosis yang diharapkan, setiap sistem skoring klinis, dan setiap bagian laporan dikomitkan ke kode sumber sebelum mesin dipanggil. Penyetelan pasca-hoc pada rubrik untuk mengunggulkan mesin karena itu tidak mungkin.

Tiga komponen membentuk skor komposit. Komponen struktural berkontribusi 35 persen dan mengukur apakah mesin mengembalikan tujuh bagian laporan wajib (header, ringkasan, temuan kunci, diferensial, sistem skoring, rekomendasi, tindak lanjut) dan enam belas subbagian wajib di dalamnya. Keberadaan bagian berbobot 40 persen dan keberadaan subbagian berbobot 60 persen dalam perhitungan struktural.

Itu komponen klinis berkontribusi 55 persen dan menggabungkan tiga hal: pengingatan kata kunci diagnosis (70 persen dari subskor klinis), pengingatan sistem skoring (20 persen — apakah mesin menghitung Mentzer, FIB-4, HOMA-IR, risiko ASCVD, bertahap KDIGO, kriteria EULAR/ACR bila relevan), serta pemeriksaan validitas jumlah probabilitas (10 persen — probabilitas diferensial harus berjumlah dalam interval [90, 110]). Untuk kasus jebakan, penalti hiperdianosis eksplisit hingga 0,30 dikurangkan, dihitung 0,10 per bendera patologi yang dibuat-buat, dibatasi maksimal tiga bendera.

Itu komponen latensi berkontribusi 10 persen. Respons di bawah 20 detik mendapat nilai penuh 0,10, respons di bawah 40 detik mendapat 0,05, dan apa pun yang lebih lambat mendapat nol. Target 20 detik mencerminkan tujuan tingkat layanan produksi primary-path; batas 40 detik mencerminkan anggaran fallback Fase 2 untuk pemanggilan mesin yang berat.

Apa yang dicegah oleh preregistrasi

Benchmark pihak pertama terkenal karena menggelembungkan angka mereka sendiri melalui penyetelan rubrik pasca-hoc. Polanya hampir selalu sama: tim menjalankan mesin, melihat di mana mesin berkinerja buruk, lalu diam-diam menyesuaikan rubrik agar area yang berkinerja buruk dihitung lebih kecil. Dengan mengomitkan rubrik ke kode sumber sebelum pemanggilan mesin pertama dan mempublikasikan harness di bawah lisensi MIT, penyesuaian itu menjadi terlihat dalam kontrol versi. Siapa pun bisa meng-clone repositori, memeriksa tanggal penulis rubrik, dan memverifikasi bahwa hasil mesin tidak digunakan untuk membentuk penilaian.

Kasus jebakan hiperdignosis — mengapa over-calling adalah mode kegagalan yang sebenarnya

Pemanggilan patologi yang agresif pada layar normal adalah mode kegagalan yang terdokumentasi pada asisten medis yang ditujukan untuk konsumen. Biaya hilirnya mencakup penyelidikan yang tidak perlu, kecemasan pasien, dan pemeriksaan yang bersifat iatrogenik. Dua kasus jebakan dalam benchmark ini dirancang untuk membuat mode kegagalan tersebut terlihat dan dapat diberi skor.

🟡 Trap 1 — BT-014-GILBERT

Presentasi. Seorang pria berusia 24 tahun dengan bilirubin total 2,4 mg/dL. Fraksi langsung normal, transaminase dan fosfatase alkali berada dalam kisaran rujukan mereka, retikulosit tidak menunjukkan hal yang mencolok, dan haptoglobin serta LDH menyingkirkan hemolisis.

Interpretasi yang benar. Sindrom Gilbert — polimorfisme UGT1A1 yang bersifat jinak. Interpretasi tidak boleh memanggil hepatitis, sirosis, anemia hemolitik, atau obstruksi bilier.

Hasil V11. Komposit 1,000. Tidak ada dari enam bendera over-diagnosis yang dipantau muncul sebagai diagnosis aktif.

🟡 Trap 2 — BT-015-HEALTHY

Presentasi. Seorang perempuan berusia 35 tahun dengan panel skrining rutin 15 parameter. Setiap analit berada dengan nyaman di dalam kisaran rujukannya.

Interpretasi yang benar. Jaminan dan pemeliharaan gaya hidup. Interpretasi tidak boleh “menciptakan” patologi batas untuk terdengar berguna secara klinis.

Hasil V11. Komposit 1.000. Tidak ada satu pun dari tujuh tanda peringatan over-diagnosis yang dipantau—diabetes, anemia, hipotiroidisme, dislipidemia, hepatitis, penyakit ginjal, defisiensi—yang muncul sebagai diagnosis aktif.

Di kedua skenario, tiga belas tanda peringatan hyperdiagnosis yang dipantau diperiksa. Tidak ada yang terpicu. Ini adalah hasil yang paling penting bagi setiap klinisi yang mempertimbangkan penggunaan mesin AI sebagai alat triase atau pra-konsultasi: sistem tidak menciptakan penyakit jika tidak ada.

Indeks Mentzer: memisahkan defisiensi besi dari sifat talasemia

Temuan bernilai tinggi kedua berkaitan dengan pengaitan kasus BT-001 (anemia defisiensi besi) dengan kasus BT-007 (beta-talasemia minor). Keduanya menunjukkan mikrositosis dan merupakan kendala yang sudah dikenal bagi pengklasifikasi yang belum berpengalaman. Indeks Mentzer, yang dihitung sebagai MCV dibagi jumlah RBC, lebih dari 13 pada defisiensi besi dan turun di bawah 13 pada sifat talasemia.

Pada BT-001, pasien adalah perempuan berusia 34 tahun dengan hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritin 6 ng/mL, dan TIBC meningkat. Indeks Mentzer sekitar 17,7 mendukung defisiensi besi absolut. Pada BT-007, pasien adalah laki-laki berusia 28 tahun dengan mikrositosis (MCV 65,8 fL) tetapi jumlah RBC tinggi 6,2, RDW normal, feritin normal, dan HbA2 5,6 persen. Indeks Mentzer sekitar 10,6 mengarah pada sifat talasemia, dan HbA2 yang meningkat mengonfirmasi beta-talasemia minor.

Anemia defisiensi besi Mentzer > 13 Feritin rendah, TSAT rendah, TIBC tinggi, RDW meningkat

Sifat beta-talasemia Mentzer < 13 Feritin normal, RDW normal, HbA2 meningkat (>3,5%), jumlah RBC tinggi

Kedua kasus memperoleh skor 1.000. Mesin menggunakan indeks Mentzer secara eksplisit pada kedua interpretasi dan mengembalikan diagnosis yang benar pada setiap kasus. Ini adalah hasil yang paling meyakinkan secara klinis dalam seluruh tolok ukur, karena salah mengklasifikasikan sifat talasemia sebagai defisiensi besi menyebabkan suplementasi besi yang tidak tepat dan peluang skrining keluarga terlewat, sedangkan salah mengklasifikasikan defisiensi besi sebagai talasemia menunda terapi penggantian yang sebenarnya sederhana. Penjelasan kami kisaran feritin kami menjelaskan konteks diferensial yang lebih luas.

Hasil per kasus dari uji coba pada April 2026

Dua belas dari lima belas kasus mencapai skor komposit plafon 1.000 pada jalur utama. Tiga kasus dilayani melalui fallback Fase 2, kehilangan bonus latensi 0,05 sementara tetap mempertahankan seluruh konten klinis dan struktural. Satu kasus kehilangan satu subbagian wajib; satu kasus menghasilkan jumlah distribusi probabilitas yang sedikit berkurang.

ID Kasus Spesialisasi Komposit Latensi Jalur

BT-001-IDAHematologi1.00017,8 dtkprimer

BT-006-B12Hematologi1.00018,4 dtkprimer

BT-007-THALHematologi1.00017,0 dtkprimer

BT-002-HASHEndokrinologi0.95037,0 dtkcadangan

BT-008-PCOSEndokrinologi0.98718,6 dtkprimer

BT-003-T2DMMetabolisme1.00019,1 dtkprimer

BT-013-GOUTMetabolisme1.00019,4 dtkprimer

BT-004-NAFLDHepatologi1.00019,6 dtkprimer

BT-009-VIRHEPHepatologi0.95023,4 dtkcadangan

BT-014-GILBERTPerangkap1.00018,9 dtkprimer

BT-005-CKDNefrologi1.00017,4 dtkprimer

BT-010-ASCVDKardiologi1.00019,7 dtkprimer

BT-011-SLEReumatologi0.98118,2 dtkprimer

BT-012-VITDEndokrinologi1.00019,3 dtkprimer

BT-015-SEHATPerangkap1.00018,7 dtkcadangan

Kasus PCOS (BT-008) kehilangan satu subbagian wajib dalam struktur respons — lima belas dari enam belas, bukan enam belas dari enam belas — yang memangkas skor struktural dari 1,000 menjadi 0,963. Kasus SLE (BT-011) mengembalikan jumlah probabilitas yang sedikit berkurang yang menurunkan skor klinis menjadi 0,965 sambil mempertahankan setiap kata kunci diagnostik dan sistem penilaian. Tidak satu pun dari kedua kasus yang kurang sempurna tersebut melewatkan diagnosis yang benar.

Apa yang tidak diberitahukan oleh skor utama

Skor komposit sebesar 99,12 persen pada rubrik pra-terdaftar khusus ini merepresentasikan kinerja mendekati batas atas, tetapi perlu penempatan konteks yang cermat. Hasil ini menggambarkan perilaku mesin terhadap lima belas kasus anonim yang dipilih dengan saksama, dinilai sekali masing-masing, dengan menggunakan satu rubrik. Kami secara tegas menjelaskan apa yang ditunjukkan dan apa yang tidak ditunjukkan oleh angka tersebut.

Skor tersebut menyatakan bahwa mesin V11 menangani pola diagnostik yang dipilih untuk evaluasi ini dengan benar, dengan metodologi yang dipublikasikan dan dapat direproduksi. Skor itu tidak mengatakan bahwa mesin tersebut benar pada setiap panel tes darah yang ada di dunia nyata. Skor itu juga tidak mengatakan bahwa mesin harus menggantikan penilaian klinisi. Dan skor itu tidak mengatakan bahwa mesin mengungguli sistem AI alternatif — analisis perbandingan terhadap mesin lain dengan sengaja tidak termasuk dalam cakupan laporan ini.

Yang ditetapkan oleh skor tersebut adalah sebuah dasar. Dengan rubrik dan harness yang dipublikasikan, versi-versi mesin di masa depan dapat dievaluasi terhadap lima belas kasus yang sama, dan kesenjangan antara skor yang dipublikasikan dan setiap pelaksanaan berikutnya dapat diukur sendiri. Inilah nilai dari pra-registrasi: ia mengubah klaim kinerja menjadi klaim yang dapat diuji.

Cara mereproduksi benchmark ini dalam 10 menit

Reproduksi hanya memerlukan pasangan kredensial API Kantesti dan lingkungan Python 3.10 atau yang lebih baru dengan requests Dan reportlab pustaka yang terpasang. Harness lengkap adalah satu modul Python mandiri yang dirilis di bawah lisensi MIT.

💻 GitHub Harness berlisensi MIT · respons mentah · reference run 🔗 DOI Figshare 10.6084/m9.figshare.32095435 · catatan akademik kanonik 🎓 ResearchGate Publikasi 404175463 · lapisan penemuan akademik 📄 Academia.edu Paper 165956808 · lapisan penemuan akademik

Empat langkah untuk menjalankan ulang yang baru

Satu. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dua. Instal dependensi dengan pip install -r requirements.txt. Tiga. Tetapkan KANTESTI_USERNAME Dan KANTESTI_PASSWORD sebagai variabel lingkungan—kredensial dibaca saat runtime dan tidak ada yang dikodekan secara hard-code di dalam skrip. Empat. Jalankan python benchmark_bloodtest.py dan periksa empat artefak yang dihasilkan ke direktori kerja: sebuah scorecard CSV, sebuah scorecard JSON, sebuah dump JSON lengkap termasuk respons mentah dari mesin, dan sebuah laporan Markdown yang mudah dibaca manusia.

Hasil acuan dari 23 April 2026 disimpan di results/ direktori repositori. Jalankan ulang akan menghasilkan scorecard baru dengan stempel waktu, sementara hasil acuan tetap tidak berubah. Jika hasil run Anda menghasilkan perbedaan yang bermakna, silakan buka isu GitHub dengan stempel waktu run dan versi mesin yang dikembalikan pada metadata respons.

Keterbatasan dan pekerjaan masa depan

Empat keterbatasan layak diakui secara eksplisit: ukuran sampel, evaluasi sekali tembak, cakupan satu mesin, dan asal data dari satu sumber. Masing-masing sedang ditangani dalam pekerjaan tindak lanjut yang aktif.

Ukuran sampel. Lima belas kasus di delapan kelompok spesialisasi cukup untuk bukti konsep tetapi tidak untuk analisis subkelompok dalam satu spesialisasi. Ekspansi menjadi lima puluh kasus direncanakan dan akan mencakup panel koagulasi, skrining keganasan hematologis, panel kehamilan, dan presentasi pediatrik.

Evaluasi sekali tembak. Setiap kasus dievaluasi satu kali. Model bahasa besar menunjukkan varians keluaran yang tidak sepele bahkan pada suhu sampling yang rendah, sehingga protokol multi-run dengan lima evaluasi per kasus dan pelaporan varians merupakan langkah berikutnya yang alami.

Cakupan satu mesin. Laporan ini mengkarakterisasi satu mesin. Analisis komparatif terhadap sistem AI alternatif tidak termasuk dalam cakupan di sini; kami mungkin menindaklanjutinya sebagai studi independen terpisah dengan metodologi yang sesuai.

Asal data dari satu sumber. Lima belas kasus tersebut dianonimkan berupa catatan pasien nyata yang diambil dari satu repositori klinis. Ini mewakili sampel yang dikurasi dan bukan pengambilan acak yang representatif populasi. Perluasan evaluasi ke data multi-senter ada dalam rencana.

Ekstensi yang paling berdampak yang direncanakan adalah kesetaraan multi-bahasa. Mesin AI Kantesti melayani pengguna dalam 75+ bahasa, dan menjalankan harness yang sama untuk lima belas kasus dalam bahasa Turki, Jerman, Spanyol, Prancis, dan Arab akan mengukur kualitas keluaran di seluruh bahasa yang didukung mesin. Kami akan mempublikasikan setiap run per bahasa dengan DOI masing-masing dan cabang harness.

Coba Mesin yang Sama yang Mencapai Skor Komposit 99.12%

Unggah panel tes darah Anda sendiri ke endpoint produksi yang sama yang dievaluasi dalam benchmark ini. Lebih dari 2 juta pengguna di seluruh dunia menggunakan mesin AI Kantesti untuk menginterpretasi lebih dari 15.000 biomarker dalam 75+ bahasa.

🔬 Coba Demo Gratis

Ekstensi Chrome App Store Google Play

📚 Cara Mengutip Benchmark Ini

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Validasi Klinis Mesin AI Kantesti (2.78T)
                 pada 15 Kasus Tes Darah Tanpa Nama: Benchmark Berbasis Rubrik yang Telah Diprapendaftaran
                 Termasuk Kasus Trap Hiperdignosis
                 di Tujuh Bidang Keahlian Medis},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Laporan Teknis},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Validasi Klinis Mesin AI Kantesti (2.78T) pada 15 Kasus Tes Darah Tanpa Nama: Benchmark Berbasis Rubrik yang Telah Diprapendaftaran Termasuk Kasus Trap Hiperdignosis di Tujuh Bidang Keahlian Medis (Laporan Teknis V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Pekerjaan Validasi Kantesti Terkait

Klein, T. (2025). Kerangka Kerja Validasi Klinis untuk Interpretasi Tes Darah Berbasis AI: Metodologi Validasi Tiga Kali Buta, Metrik Kinerja, dan Protokol Jaminan Mutu. Riset Medis AI Kantesti.

🎓 ResearchGate

📖 Referensi Metodologis Eksternal

Mentzer, W. C. (1973). Diferensiasi Defisiensi Besi dari Sifat Talasemia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Kriteria Klasifikasi 2019 European League Against Rheumatism / American College of Rheumatology untuk Lupus Eritematosus Sistemik. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test untuk Large Language Models. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Skor Gabungan

15Kasus yang Dinilai

7Spesialisasi

0Trap False-Positives

Pertanyaan yang Sering Diajukan

Seberapa akurat Mesin AI Kantesti pada kasus nyata hasil tes darah?

Pada rubrik yang telah diprapendaftaran untuk 15 kasus tes darah nyata tanpa nama dari tujuh bidang keahlian medis, mesin AI Kantesti V11 mencapai skor gabungan 99.12 persen, dengan nol hiperdignosis false-positives pada kedua kasus trap dan rata-rata waktu respons 20.17 detik. Kartu skor lengkap per kasus dipublikasikan di Figshare dengan DOI 10.6084/m9.figshare.32095435 dan di GitHub dengan lisensi MIT.

Apakah Mesin AI Kantesti telah divalidasi secara klinis?

Ya. Mesin telah divalidasi secara klinis terhadap rubrik yang dibekukan dalam kode sumber sebelum mesin dipanggil, dievaluasi pada 15 kasus tes darah anonim di bidang hematologi, endokrinologi, pengobatan metabolik, hepatologi, nefrologi, kardiologi, dan reumatologi. Pengawasan klinis diberikan oleh Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), ahli hematologi klinis tersertifikasi dewan dan Chief Medical Officer di Kantesti AI.

Apa itu kasus jebakan hiperdianosis?

Kasus “hyperdiagnosis trap” adalah skenario klinis yang secara khusus dirancang untuk mendeteksi perilaku over-diagnosis pada mesin AI. Benchmark Kantesti V11 menggunakan dua kasus semacam itu. Yang pertama adalah hiperbilirubinemia tidak langsung terisolasi yang konsisten dengan sindrom Gilbert, di mana interpretasi yang benar adalah polimorfisme UGT1A1 yang bersifat jinak, bukan hepatitis atau hemolisis. Yang kedua adalah panel skrining orang dewasa yang sepenuhnya normal, di mana keluaran yang benar adalah penenangan dan pemeliharaan gaya hidup, bukan patologi batasan yang “dibuat-buat”.

Apakah evaluasi mesin AI Kantesti dapat direproduksi?

Kerangka evaluasi lengkap dirilis di bawah lisensi MIT sebagai satu modul Python mandiri. Reproduksi hanya memerlukan sepasang kredensial API Kantesti dan Python 3.10 atau yang lebih baru. Kode, definisi kasus, dan setiap respons mentah mesin dari rujukan uji coba April 2026 tersedia di github.com/emirhanai/kantesti-blood-test-benchmark dan dicerminkan di Figshare, ResearchGate, serta Academia.edu.

Bagaimana Mesin AI Kantesti membedakan defisiensi besi dari sifat beta-talassemia?

Mesin menerapkan indeks Mentzer, yang dihitung sebagai volume korpuskular rata-rata dibagi jumlah sel darah merah. Indeks Mentzer di atas 13 mendukung anemia defisiensi besi, sedangkan nilai di bawah 13 mendukung sifat beta-talasemia. Pada benchmark V11, kedua presentasi diklasifikasikan dengan benar dengan perhitungan indeks Mentzer yang eksplisit, didukung oleh konteks feritin, RDW, dan HbA2.

Di mana saya bisa menemukan data benchmark mentah dan kode sumber?

Laporan teknis disimpan di Figshare dengan DOI 10.6084/m9.figshare.32095435, dicerminkan pada publikasi ResearchGate 404175463 dan makalah Academia.edu 165956808, serta kerangka Python berlisensi MIT dengan semua hasil uji coba rujukan di github.com/emirhanai/kantesti-blood-test-benchmark. Jaringan cermin empat platform memastikan ketersediaan jangka panjang dan fleksibilitas sitasi.

Mengapa prapendaftaran penting untuk benchmark medis AI?

Prapendaftaran mencegah penyesuaian rubrik secara post-hoc, yang merupakan cara paling umum bagi benchmark yang dijalankan perusahaan untuk menggelembungkan angka mereka sendiri. Dengan mengunci rubrik ke kode sumber sebelum setiap pemanggilan mesin dan mempublikasikan kerangka tersebut secara terbuka, tanggal penulis rubrik menjadi dapat diperiksa di kontrol versi, dan hasil mesin tidak dapat membentuk kriteria penilaian.

Apakah benchmark ini mencakup perbandingan dengan mesin AI lain?

Tidak. Laporan V11 secara sengaja mengkarakterisasi satu mesin terhadap rubrik tetap, bukan memposisikannya dibandingkan dengan sistem komersial alternatif. Kerangka ini open source di bawah lisensi MIT, sehingga peneliti independen dapat mengevaluasi mesin apa pun yang mereka pilih terhadap lima belas kasus dan rubrik yang sama serta mempublikasikan hasil mereka.

Apakah kasus pasien nyata atau sintetis?

Kelimabelas kasus tersebut adalah catatan pasien nyata yang dianonimkan, diambil dari repositori data klinis Kantesti berdasarkan persetujuan tertulis yang diinformasikan. De-identifikasi dilakukan dengan pendekatan Safe Harbor, dengan semua pengenal langsung dihapus atau diganti. Pemrosesan dilakukan sesuai dengan GDPR Pasal 9(2)(j) dan ketentuan setara UK GDPR. Tidak ada informasi yang dapat mengidentifikasi pribadi yang muncul dalam kerangka yang dipublikasikan, laporan teknis, atau kumpulan data yang dirilis.

⚕️ Pernyataan Penyangkalan Medis & Konflik Kepentingan

Laporan benchmark ini untuk tujuan penelitian dan transparansi metodologis. Ini tidak merupakan nasihat medis. Selalu konsultasikan dengan penyedia layanan kesehatan yang berkualifikasi untuk keputusan diagnosis dan perawatan. Kedua penulis dipekerjakan oleh dan memiliki ekuitas di Kantesti Ltd, serta mesin yang dievaluasi adalah produk komersial dari organisasi yang sama. Konflik kepentingan ini dimitigasi dengan prapendaftaran rubrik dalam kode sumber, merilis kerangka di bawah lisensi MIT, dan mempublikasikan setiap respons mentah mesin.

Sinyal Kepercayaan E-E-A-T

⭐

Pengalaman

Pengalaman praktik lebih dari 15 tahun dalam hematologi klinis dan kedokteran laboratorium untuk mensupervisi pemilihan panel kasus.

📋

Keahlian

Desain rubrik yang diprapendaftaran dengan penalti hyperdiagnosis yang eksplisit dan sistem penilaian klinis yang diakui (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Kewenangan

Penulis utama Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementasi oleh Julian Emirhan Bulut, CEO Kantesti Ltd.

🛡️

Kepercayaan

Kerangka yang dapat direproduksi dengan lisensi MIT, respons mentah mesin dipublikasikan, pengungkapan konflik kepentingan terbuka, jaringan cermin riset empat platform.

🏢 Kantesti LTD Terdaftar di Inggris & Wales · Nomor Perusahaan. 17090423 London, Britania Raya · kantesti.net