Patokan Tes Getih AI Kantesti

Validasi Klinis Patokan Pra-Registrasi V11 — April 2026 Dilisensi MIT Bisa Diverifikasi dening Peer

Skor Komposit 99.12% ing Rubrik sing wis didaftar sadurunge kanthi Hyperdiagnosis Nol False-Positives

Evaluasi klinis independen sing wis dipra-registrasi babagan Kantesti AI Engine ing kasus tes getih sing wis dianonimake. Rubrik kasebut dibekukan ing kode sumber sadurunge panggilan mesin pisanan, piranti evaluasi dilisensi MIT, lan saben respons mentah diterbitake.

📖 ~14 menit 📅 23 April 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Diterbitake: 23 April 2026 🩺 Ditinjau kanthi medis: 23 April 2026 ✅ Rubrik Pra-Registrasi 🔓 Kode & Data Terbuka

Panaliten validasi klinis iki dipimpin dening Dr. Thomas Klein, MD, Kepala Petugas Medis ing Kantesti AI, bebarengan karo Julian Emirhan Bulut, Insinyur AI Senior lan CEO saka Kantesti Ltd. Metodologi lan rubrik ditintingi dening Dewan Penasihat Medis Kantesti AI.

Penulis Utama & Pengawasan Klinis

Thomas Klein, MD

Kepala Petugas Medis, Kantesti AI

Dr. Thomas Klein iku ahli hematologi klinis sing wis tersertifikasi dewan lan dokter penyakit dalam kanthi pengalaman luwih saka 15 taun ing bidang kedokteran laboratorium. Minangka Kepala Petugas Medis ing Kantesti AI, dheweke milih panel kasus kanggo patokan iki, mriksa kabeh kebenaran diagnostik, lan nyetujoni rubrik sing wis dipra-registrasi sadurunge mesin dipanggil kaping pisanan.

ORCID 0009-0009-1490-1321 Gapura Riset Google Scholar

Co-Author & Implementasi

Julian Emirhan Bulut

Insinyur AI Senior & CEO, Kantesti Ltd

Julian Emirhan Bulut iku pendiri lan CEO saka Kantesti Ltd. Dheweke ngrancang lan ngleksanakake piranti evaluasi, nindakake integrasi API, nganakake uji patokan April 2026, lan nyiapake agregasi statistik. Pendiri platform wiwit 2019.

GitHub Babagan Kantesti

⚡ Ringkesan Cepet V11 — 23 April 2026

Skor komposit 99.12% ing 15 kasus tes getih nyata sing wis dianonimake, nyakup pitu spesialisasi medis.
Ora ana false-positive hyperdiagnosis ing loro trap cases (Gilbert's syndrome lan panel skrining diwasa sing pancen normal).
Rubrik sing wis didaftar dhisik dibekukan ing kode sumber sadurunge panggilan mesin pisanan — ora ana tuning post-hoc sing bisa ditindakake.
Indeks Mentzer ditrapake kanthi bener kanggo mbedakake anemia defisiensi wesi saka beta-thalassaemia minor.
Endpoint produksi mung — ora ana privileged routing, dievaluasi persis kaya sing bakal diakses dening pelanggan sing mbayar.
Rata-rata latensi 20.17 detik end-to-end, kanthi 12 saka 15 kasus ing sangisore target jalur utama 20 detik.
Harness nganggo lisensi MIT dirilis ing GitHub kanthi saben respons mesin mentah — reproduksi independen didhukung.
DOI Figshare: 10.6084/m9.figshare.32095435 · Dicerminkan ing ResearchGate, Academia.edu, GitHub.

Napa patokan iki ana lan apa sing dites

Interpretasi tes getih kanthi bantuan AI saya kerep digunakake ing alur kerja konsumen lan klinis, nanging kerangka evaluasi sing bisa direproduksi lan disesuaikan kanggo kedokteran laboratorium isih arang. Pitakon sing paling wigati ing kahanan iki dudu sing dicakup dening benchmark pitakon-jawaban medis umum: apa mesin bisa misahake defisiensi wesi saka trait thalassaemia nalika volume korpuskular rata-rata padha, apa mesin kakehan diagnosa Gilbert's syndrome dadi hepatitis, lan apa mesin nggawe patologi ing panel skrining sing pancen normal?

Panel tes getih tunggal biasane nduweni cukup sinyal kanggo ndhukung sawetara interpretasi sing saingan, lan tugas dokter sing nindakake interpretasi yaiku nimbang interpretasi-interpretasi kuwi siji lan sijine tinimbang njupuk jawaban kaya ing buku teks. Mesin sing apik ing kasus-kasus buku teks isih bisa gagal ing kasus sing paling wigati: jebakan diferensial-diagnosa, varian jinak sing katon nguwatirake yen mung dideleng dhewe, lan panel sing pancen normal sing nggoda asisten sing yakin kanggo nggawe patologi sing ora ana.

Patokan iki dibangun pas kanggo mode kegagalan kuwi. Saben saka limalas kasus dipilih kanggo sifat diagnostik tartamtu: mikrositosis amarga kekurangan wesi sing kudu dipisahake saka trait beta-thalassemia sing nduweni mean corpuscular volume sing padha, presentasi Gilbert's syndrome sing mung ana kelainan berupa hiperbilirubinemia indirek sing terisolasi, lan panel skrining limalas parameter ing ngendi saben analit ana ing njero rentang rujukan. Rubrik menehi ganjaran marang mesin sing maca saben kasus miturut konteksé dhewe lan menehi paukuman marang mesin sing njupuk diagnosis sing yakin nalika diagnosis kuwi ora pantes.

Minangka Thomas Klein, MD, aku milih panel kasus iki amarga iki pola sing paling kerep dakdeleng salah ditindakake dening asisten kedokteran laboratorium. Mode kegagalan sing larang dudu "ora kejawab penyakit langka" — nanging nggawe patologi rutin ing pasien sing ora nduweni. kita Validasi medis hub njlèntrèhaké kerangka sing luwih amba; kaca iki njlèntrèhaké asil sing ditrapake ing mesin V11.

Run referensi paling anyar — V11 (April 2026)

Run referensi April 2026 saka Kantesti AI Engine V11 ngasilake skor komposit saka 99.12% ing rubrik limalas kasus sing wis didaftarke. Loro kasus jebakan hiperdiagnosis skore nganti tekan wates paling dhuwur. Indeks Mentzer ditrapake kanthi bener ing diferensial kekurangan wesi lawan thalassemia.

Komposit 99.12% 15 saka 15 kasus skore

0.998 Skor struktural

0.998 Skor klinis

20.17 s Rata-rata latensi

0 / 13 Jebakan false-positives

Rumus komposit nggabungake telung komponen: kesesuaian struktural karo pitung bagean laporan wajib lan nembelas subbagian wajib, akurasi klinis diukur minangka keyword recall ditambah recall sistem penilaian ditambah cek validitas distribusi probabilitas, lan latensi respon nglawan target layanan utama 20 detik. Pemisahan sing pas dituduhake ing rumus rubrik ing ngisor iki.

Komposit = 0.35 × Struktural + 0.55 × Klinis + 0.10 × Latensi

Sisa 0,88 poin persentase saka headroom diuraikan meh kabeh dadi kelangan latensi — telung invokasi fallback Phase 2 saben-saben komposité minus 0,05 nyumbang kira-kira 0,60 saka defisit 0,88 poin — dudu dadi isi klinis. Mesin ora keliru njupuk diagnosis sing bener ing salah siji saka limalas kasus; nalika ora pas, mung amarga njupuk rada luwih suwe tinimbang target jalur utama 20 detik ing sawenehing cilik invokasi.

Limalas kasus ing pitu spesialisasi medis

Panel kasus nyakup pitu spesialisasi — hematologi, endokrinologi, kedokteran metabolik, hepatologi, nefrologi, kardiologi, reumatologi — plus loro kasus khusus jebakan hyperdiagnosis. Saben kasus minangka rekaman pasien nyata sing dianonimake, dijupuk saka repositori data klinis Kantesti kanthi persetujuan informed consent sing ditulis.

De-identifikasi ditindakake kanthi pendekatan Safe Harbor: kabeh identitas langsung dicopot utawa diganti, lan saben rekaman diwenehi kode kasus internal patokan kanthi format BT-NNN-LABEL. Pangolahan ditindakake miturut GDPR Artikel 9(2)(j) kanggo riset ilmiah kanthi pangayoman sing cocog, lan ketentuan sing padha ing UK GDPR. Ora ana informasi sing bisa ngenali pribadi sing katon ing ngendi wae ing harness sing diterbitake, laporan teknis, utawa dataset sing dirilis.

Hematologi (3) BT-001, BT-006, BT-007 Anemia defisiensi wesi · defisiensi B12 · beta-thalassemia minor

Endokrinologi (3) BT-002, BT-008, BT-012 Tiroiditis Hashimoto · PCOS kanthi resistensi insulin · defisiensi vitamin D sing abot

Metabolik (2) BT-003, BT-013 T2DM kanthi sindrom metabolik · hiperurisemia kanthi risiko gout

Hepatologi (2) BT-004, BT-009 NAFLD / NASH · hepatitis virus akut

Nefrologi · Kardiologi · Reumatologi (3) BT-005, BT-010, BT-011 CKD tahap 3 · dislipidemia aterogenik · lupus eritematosus sistemik

Kasus jebakan (2) BT-014, BT-015 Sindrom Gilbert (hiperbilirubinemia indirek terisolasi) · Skrining wong diwasa sing sakèhé normal

Napa sebaran tartamtu iki

Hematologi entuk telung kasus amarga diferensial mikrositik lan diferensial makrositik minangka jebakan volume paling dhuwur ing praktik laboratorium donya nyata. Endokrinologi entuk telung amarga presentasi Hashimoto, PCOS, lan kekurangan vitamin D njalari wujud diagnostik sing beda (dipacu autoantibodi, dipacu rasio hormon, dipacu siji penanda). Spesialisasi siji-kasus isih migunani amarga saben CKD, risiko ASCVD, lan SLE nduwèni sistem penilaian dhewe sing kudu dipanggil mesin (KDIGO staging, risiko 10 taun ASCVD, lan kritéria SLE EULAR/ACR 2019).

Rubrik pra-registrasi, diterangake

Pre-registration minangka pilihan metodologis sing paling wigati ing benchmark iki. Saben diagnosis sing diarepake, saben sistem penilaian klinis, lan saben bagean laporan wis dikomit menyang kode sumber sadurunge mesin dipanggil. Mula, tuning pasca-analisis saka rubrik kanggo ngapusi mesin ora bisa.

Telung komponen nyusun skor komposit. Komponen struktural nyumbang 35 persen lan ngukur apa mesin ngasilake pitung bagean laporan wajib (header, summary, key findings, differential, scoring systems, recommendations, follow-up) lan nembelas subbagian wajib ing njero. Keberadaan bagean bobote 40 persen lan keberadaan subbagian bobote 60 persen ing perhitungan struktural.

Ing komponen klinis nyumbang 55 persen lan nggabungake telung perkara: recall tembung kunci diagnosis (70 persen saka sub-skor klinis), recall sistem penilaian (20 persen — apa mesin ngitung Mentzer, FIB-4, HOMA-IR, risiko ASCVD, KDIGO staging, kritéria EULAR/ACR yen relevan), lan cek validitas jumlah probabilitas (10 persen — probabilitas ing differential kudu jumlahé ana ing interval [90, 110]). Kanggo kasus jebakan, ana penalti hiperdiagnosis sing cetha nganti 0.30 sing dikurangi, diwilang 0.10 saben flag patologi sing digawe, diwatesi maksimal telung flag.

Ing komponen latensi nyumbang 10 persen. Respons ing ngisor 20 detik entuk 0.10 lengkap, respons ing ngisor 40 detik entuk 0.05, lan apa wae sing luwih alon entuk nol. Target 20 detik nggambarake tujuan tingkat layanan produksi primary-path; langit-langit 40 detik nggambarake anggaran fallback Tahap 2 kanggo pemanggilan mesin sing abot.

Sing dicegah dening pre-registration

Benchmark pihak-kaping-siji misuwur amarga nggedhekake angka dhewe liwat tuning rubrik pasca-analisis. Polane meh mesthi padha: tim mbukak mesin, ndeleng ing ngendi kinerja kurang, banjur kanthi tenang nyetel rubrik supaya area sing kurang kinerja dadi luwih ora diitung. Kanthi ngomit rubrik menyang kode sumber sadurunge panggilan mesin pisanan lan nerbitake harness kanthi lisensi MIT, panyesuaian kuwi dadi katon ing kontrol versi. Sapa wae bisa klon repositori, mriksa tanggal panulis rubrik, lan verifikasi manawa asil mesin ora digunakake kanggo mbentuk skor.

Kasus jebakan hiperdiagnosis — kenapa nelpon kakehan iku mode gagal sing sejatine

Nimbali patologi kanthi agresif ing layar sing normal minangka mode kegagalan sing wis didokumentasi kanggo asisten medis sing ditujokake marang konsumen. Biaya hiliré kalebu investigasi sing ora perlu, kuatir pasien, lan pemeriksaan sing nyebabake cilaka (iatrogenik). Rong kasus jebakan ing benchmark iki dirancang supaya mode kegagalan kuwi katon lan bisa dinilai.

🟡 Trap 1 — BT-014-GILBERT

Presentasi. Pria umur 24 taun kanthi bilirubin total 2.4 mg/dL. Fraksi langsung normal, transaminase lan fosfatase alkali ana ing jangkauan rujukan, retikulosit ora ana sing nggumunake, lan haptoglobin lan LDH ngilangi kemungkinan hemolisis.

Interpretasi sing bener. Gilbert's syndrome — polimorfisme UGT1A1 sing jinak. Interpretasi ora kudu nyebut hepatitis, sirosis, anemia hemolitik, utawa obstruksi bilier.

Asil V11. Komposit 1.000. Ora ana siji wae saka enem flag over-diagnosis sing dipantau katon minangka diagnosis aktif.

🟡 Trap 2 — BT-015-HEALTHY

Presentasi. Wanita umur 35 taun kanthi panel skrining rutin sing nduwèni limalas parameter. Saben analit ana kanthi nyaman ing jangkauan rujukan.

Interpretasi sing bener. Panglipur lan njaga gaya urip. Interpretasi aja nganti gawe patologi sing isih wates kanggo muni migunani sacara klinis.

Asil V11. Komposit 1.000. Ora ana siji wae saka pitung pratanda over-diagnosis sing dipantau — diabetes, anemia, hipotiroidisme, dislipidemia, hepatitis, penyakit ginjal, kekurangan — sing katon minangka diagnosis aktif.

Ing loro jebakan kasebut, ana telulas pratanda hyperdiagnosis sing dipriksa. Ora ana sing kepicu. Iki asil sing paling wigati kanggo sembarang dokter sing arep nggunakake mesin AI minangka piranti triase utawa pra-konsultasi: sistem ora nggawe penyakit yen ora ana.

Indeks Mentzer: misahake kekurangan zat besi saka sifat talasemia

Temuan nilai dhuwur kapindho gegayutan karo pasangan kasus BT-001 (anemia kekurangan wesi) karo kasus BT-007 (beta-thalassemia minor). Loro-lorone nuduhake mikrositosis lan dadi alangan sing wis misuwur kanggo klasifikator sing durung pinter. Indeks Mentzer, sing diwilang minangka MCV dibagi cacah RBC, luwih saka 13 ing anemia kekurangan wesi lan mudhun ngisor 13 ing sifat talasemia.

Ing BT-001, pasien yaiku wanita umur 34 taun kanthi hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, feritin 6 ng/mL, lan TIBC sing mundhak. Indeks Mentzer kira-kira 17.7 ndhukung kekurangan wesi absolut. Ing BT-007, pasien yaiku pria umur 28 taun kanthi mikrositosis (MCV 65.8 fL) nanging cacah RBC sing dhuwur 6.2, RDW normal, feritin normal, lan HbA2 5.6 persen. Indeks Mentzer kira-kira 10.6 nuduhake sifat talasemia, lan HbA2 sing mundhak ngukuhake beta-thalassemia minor.

Anemia kekurangan wesi Mentzer > 13 Feritin kurang, TSAT kurang, TIBC dhuwur, RDW mundhak

Sifat beta-thalassemia Mentzer < 13 Feritin normal, RDW normal, HbA2 mundhak (>3.5%), cacah RBC dhuwur

Loro-lorone kasus entuk skor 1.000. Mesin nggunakake indeks Mentzer kanthi cetha ing loro interpretasi lan ngasilake diagnosis sing bener ing saben kasus. Iki asil sing paling menehi panglipur klinis ing sak benchmark, amarga salah nggolongake sifat talasemia minangka kekurangan wesi nyebabake suplementasi wesi sing ora pas lan kesempatan skrining riwayat kulawarga sing keplok, lan salah nggolongake kekurangan wesi minangka talasemia nundha terapi penggantian sing mesthi gampang. Kita babagan rentang feritin nerangake konteks diferensial sing luwih amba.

Asil per-kasus saka run April 2026

Saka limalas kasus, rolas entuk skor komposit langit-langit 1.000 ing path utama. Telung kasus dilayani liwat fallback Tahap 2, kelangan bonus latensi 0.05 nalika njaga kabeh isi klinis lan struktural. Siji kasus ora ana siji subbagian wajib; siji maneh ngasilake jumlah total distribusi probabilitas sing rada mudhun.

ID Kasus Spesialisasi Komposit Latensi Path

BT-001-IDAhematologi1.00017.8 sutama

BT-006-B12hematologi1.00018.4 sutama

BT-007-THALhematologi1.00017.0 sutama

BT-002-HASHEndokrinologi0.95037.0 sfallback

BT-008-PCOSEndokrinologi0.98718.6 sutama

BT-003-T2DMMetabolik1.00019.1 sutama

BT-013-GOUTMetabolik1.00019.4 sutama

BT-004-NAFLDHepatologi1.00019.6 sutama

BT-009-VIRHEPHepatologi0.95023.4 sfallback

BT-014-GILBERTTrap1.00018.9 sutama

BT-005-CKDNefrologi1.00017.4 sutama

BT-010-ASCVDKardiologi1.00019.7 sutama

BT-011-SLERheumatology0.98118.2 sutama

BT-012-VITDEndokrinologi1.00019.3 sutama

BT-015-HEALTHYTrap1.00018.7 sfallback

Kasus PCOS (BT-008) kelangan siji subbagian wajib ing struktur respons — sewelas saka nembelas tinimbang nembelas saka nembelas — sing nyuda skor struktural saka 1.000 dadi 0.963. Kasus SLE (BT-011) ngasilake jumlah probabilitas-distribusi sing rada mudhun, sing nyuda skor klinis dadi 0.965 nalika njaga saben tembung kunci diagnostik lan sistem penilaian. Ora ana kasus sing kurang sampurna sing kelangan diagnosis sing bener.

Sing ora dicritakake skor headline

Skor komposit 99.12 persen miturut rubrik sing wis didaftar sadurunge iki nuduhake kinerja meh tekan wates paling dhuwur, nanging kudu diwenehi pigura kanthi tliti. Asil kasebut njlèntrèhaké prilaku mesin nglawan limalas kasus anonim sing dipilih kanthi tliti, saben dinilai sapisan, miturut siji rubrik. Kita cetha babagan apa sing nomer kasebut lan ora bisa netepake.

Skor kasebut nyebutake manawa mesin V11 nangani pola diagnostik sing dipilih kanggo evaluasi iki kanthi bener, kanthi metodologi sing diterbitake lan bisa direproduksi. Skor kasebut ora nyebutake manawa mesin kasebut bener ing saben panel asil tes getih sing ana ing donya nyata. Skor kasebut uga ora nyebutake manawa mesin kudu ngganti pertimbangan klinisi. Lan skor kasebut ora nyebutake manawa mesin kasebut luwih unggul tinimbang sistem AI alternatif — analisis perbandingan marang mesin liya kanthi sengaja ora kalebu ing laporan iki.

Sing bisa netepake skor kasebut yaiku dhasar. Amarga rubrik lan harness wis diumumake, versi-versi mesin mangsa ngarep bisa dievaluasi nglawan limalas kasus sing padha, lan jarak antarane skor sing diterbitake lan sembarang run sabanjure uga bisa diukur. Nilai saka pre-registration yaiku: ngowahi klaim kinerja dadi klaim sing bisa dites.

Carane mbaleni benchmark iki sajrone 10 menit

Reproduksi mung mbutuhake pasangan kredensial API Kantesti lan lingkungan Python 3.10 utawa luwih anyar kanthi requests lan reportlab perpustakaan sing diinstal. Harness lengkap minangka siji modul Python sing mandiri lan dirilis miturut lisensi MIT.

💻 GitHub Harness nganggo lisensi MIT · respons mentah · reference run 🔗 DOI Figshare 10.6084/m9.figshare.32095435 · cathetan akademik kanonik 🎓 Gapura Riset Publication 404175463 · lapisan panemuan akademik 📄 Academia.edu Paper 165956808 · lapisan panemuan akademik

Papat langkah kanggo run anyar

Siji. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Loro. Pasang dependensi nganggo pip install -r requirements.txt. Tiga. Set KANTESTI_USERNAME lan KANTESTI_PASSWORD minangka variabel lingkungan—kredensial diwaca nalika runtime lan ora ana sing dikode keras ing skrip. Papat. Jalanake python benchmark_bloodtest.py lan priksa patang artefak sing diprodhuksi menyang direktori kerja: scorecard CSV, scorecard JSON, dump JSON lengkap kalebu respons mentah mesin, lan laporan Markdown sing bisa diwaca manungsa.

Run referensi tanggal 23 April 2026 dijaga ing results/ direktori ing repositori. Run anyar bakal ngasilake scorecard anyar sing nganggo cap wektu, dene run referensi ora diganggu. Yen run sampeyan ngasilake asil sing beda kanthi teges, tulung bukak isu GitHub nganggo cap wektu run lan versi mesin sing bali ing metadata respons.

Watesan lan karya mangsa ngarep

Ana patang watesan sing pantes diakoni kanthi cetha: ukuran sampel, evaluasi siji-sawijining (single-shot), cakupan siji mesin, lan asal data siji sumber. Saben watesan lagi ditangani ing karya tindak lanjut aktif.

Ukuran sampel. Limalas kasus ing wolung bucket spesialis cukup kanggo bukti konsep nanging ora kanggo analisis subgrup ing saben spesialis. Ekspansi dadi limang puluh kasus direncanakake lan bakal kalebu panel koagulasi, skrining keganasan hematologis, panel meteng, lan presentasi pediatrik.

Evaluasi siji-sawijining. Saben kasus dievaluasi mung sapisan. Model basa gedhé nuduhake variasi output sing ora cilik sanajan ing suhu sampling sing kurang, mula protokol multi-run kanthi limang evaluasi saben kasus lan variasi sing dilaporake minangka langkah sabanjure sing wajar.

Cakupan siji mesin. Laporan iki njlèntrèhaké siji mesin. Analisis perbandingan marang sistem AI alternatif ora kalebu ing kene; kita bisa ngupayakake minangka studi mandiri sing kapisah kanthi metodologi sing cocog.

Asal data siji sumber. Limalas kasus iku rekaman pasien nyata sing dianonimake lan dijupuk saka siji repositori klinis. Iki nggambarake sampel sing wis dipilih lan dudu undhakan acak sing makili populasi. Ngluwihi evaluasi menyang data multi-sentra ana ing dalan (roadmap).

Ekstensi sing paling nduwèni pengaruh yaiku kesetaraan multi-basa. Mesin AI Kantesti nglayani pangguna ing 75+ basa, lan nglakokake harness sing padha kanggo limalas kasus ing basa Turki, Jerman, Spanyol, Prancis, lan Arab bakal ngukur kualitas output ing basa-basa sing didhukung mesin kasebut. Kita bakal nerbitake saben run miturut basa kanthi DOI dhewe lan cabang harness.

Coba Mesin Sing Ngalami 99.12% Skor Komposit

Unggah panel tes getihmu dhewe menyang endpoint produksi sing padha karo sing dievaluasi ing benchmark iki. Luwih saka 2 yuta pangguna ing saindenging donya nggunakake mesin AI Kantesti kanggo interpretasi luwih saka 15.000 biomarker ing 75+ basa.

🔬 Coba Demo Gratis

Ekstensi Chrome Toko Aplikasi Google Play

📚 Cara Nglitani Benchmark Iki

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Validasi Klinis Mesin AI Kantesti (2.78T)
                 ing 15 Kasus Tes Getih Tanpa Jeneng: Benchmark Berbasis Rubrik sing Didaftar Awal
                 kalebu Kasus Trap Hyperdiagnosis
                 ing Pitu Spesialisasi Kedokteran},
  institution = {Kantesti Ltd},
  address     = {London, Inggris Raya},
  year        = {2026},
  month       = {April},
  type        = {Laporan Teknis},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Validasi Klinis Mesin AI Kantesti (2.78T) ing 15 Kasus Tes Getih Tanpa Jeneng: Benchmark Berbasis Rubrik sing Didaftar Awal kalebu Kasus Trap Hyperdiagnosis ing Pitu Spesialisasi Kedokteran (Laporan Teknis V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Pakaryan Validasi Kantesti sing Gegandhengan

Klein, T. (2025). Kerangka Validasi Klinis kanggo Interpretasi Tes Getih sing Didukung AI: Metodologi Validasi Triple-Blind, Metrik Kinerja, lan Protokol Jaminan Kualitas. Kantesti riset medis AI.

🎓 Gapura Riset

📖 Referensi Metodologis Eksternal

Mentzer, W. C. (1973). Bedane Kekurangan Wesi saka Sifat Thalassemia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Kriteria Klasifikasi 2019 European League Against Rheumatism / American College of Rheumatology kanggo Systemic Lupus Erythematosus. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Tes Halusinasi Domain Medis kanggo Model Basa Gedhe. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Skor Komposit

15Kasus sing Dinilai

7Spesialisasi

0Trap False-Positives

Pitakonan sing Sering Ditakoni

Sepira akurat mesin AI Kantesti ing kasus tes getih nyata?

Ing rubrik sing didaftar awit 15 kasus tes getih nyata tanpa jeneng pasien ing pitu spesialisasi kedokteran, mesin AI Kantesti V11 entuk skor komposit 99.12 persen, kanthi nol hyperdiagnosis false-positives ing loro-lorone kasus trap lan wektu tanggap rata-rata 20.17 detik. Kartu skor lengkap saben kasus diterbitake ing Figshare kanthi DOI 10.6084/m9.figshare.32095435 lan ing GitHub kanthi lisensi MIT.

Apa mesin AI Kantesti wis divalidasi kanthi klinis?

Ya. Mesin wis divalidasi kanthi klinis marang rubrik sing dibekukan ing kode sumber sadurunge mesin kasebut dijaluk. Dievaluasi ing 15 kasus tes getih anonim ing bidang hematologi, endokrinologi, kedokteran metabolik, hepatologi, nefrologi, kardiologi, lan reumatologi. Pengawasan klinis diwenehake dening Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), ahli hematologi klinis sing tersertifikasi dewan lan Chief Medical Officer ing Kantesti AI.

Apa sing diarani kasus jebakan hyperdiagnosis?

Kasus “hyperdiagnosis trap” yaiku skenario klinis sing dirancang khusus kanggo ndeteksi prilaku over-diagnosis ing mesin AI. Patokan (benchmark) Kantesti V11 nggunakake rong kasus kaya ngono. Sing kapisan yaiku hiperbilirubinemia indirek terisolasi sing cocog karo sindrom Gilbert, ing ngendi interpretasi sing bener yaiku polimorfisme UGT1A1 sing jinak, dudu hepatitis utawa hemolisis. Sing kapindho yaiku panel skrining wong diwasa sing sakabehe normal, ing ngendi output sing bener yaiku panglipur lan njaga gaya urip, dudu patologi borderline sing “dibuat”.

Apa evaluasi mesin AI Kantesti bisa direproduksi?

Kerangka evaluasi lengkap dirilis miturut lisensi MIT minangka siji modul Python sing mandiri. Reproduksi mung mbutuhake pasangan kredensial API Kantesti lan Python 3.10 utawa luwih anyar. Kode kasebut, definisi kasus, lan saben respons mentah mesin saka run referensi April 2026 kasedhiya ing github.com/emirhanai/kantesti-blood-test-benchmark lan dicerminkan ing Figshare, ResearchGate, lan Academia.edu.

Kepiye mesin AI Kantesti mbedakake kekurangan zat besi saka sifat beta-thalassemia?

Mesin nerapake indeks Mentzer, sing diwilang minangka volume korpuskular rata-rata dibagi jumlah sel getih abang. Indeks Mentzer luwih saka 13 ndhukung anemia defisiensi wesi, dene nilai ing ngisor 13 ndhukung trait beta-thalassaemia. Ing benchmark V11, loro presentasi kasebut diklasifikasikake kanthi bener kanthi perhitungan indeks Mentzer sing cetha, didhukung dening konteks ferritin, RDW, lan HbA2.

Ngendi aku bisa nemokake data benchmark mentah lan kode sumber?

Laporan teknis disimpen ing Figshare kanthi DOI 10.6084/m9.figshare.32095435, dicerminkan ing publikasi ResearchGate 404175463 lan paper Academia.edu 165956808, lan kerangka Python sing dilisensi MIT kanthi kabeh asil run referensi ana ing github.com/emirhanai/kantesti-blood-test-benchmark. Jaringan cermin ing papat platform njamin kasedhiyan jangka panjang lan keluwesan sitasi.

Napa pre-registration penting kanggo benchmark medis AI?

Pre-registration nyegah tuning rubrik pasca-kasunyatan (post-hoc), yaiku cara paling umum sing digunakake perusahaan kanggo nggedhekake angka-angkane dhewe. Kanthi ngiket rubrik menyang kode sumber sadurunge ana panggilan mesin apa wae lan nerbitake kerangka kasebut kanthi umum, tanggal penulis rubrik dadi bisa dicek ing kontrol versi, lan asil mesin ora bisa mbentuk kritéria penilaian.

Apa benchmark iki kalebu perbandingan karo mesin AI liyane?

Ora. Laporan V11 kanthi sengaja nggambarake siji mesin nglawan rubrik sing tetep, tinimbang nempatake marang sistem komersial alternatif. Kerangka kasebut open source miturut lisensi MIT, mula peneliti independen bisa ngevaluasi sembarang mesin sing dipilih marang padha karo limalas kasus lan rubrik kasebut lan nerbitake asilé.

Apa kasus pasien iki nyata utawa sintetik?

Limalas kasus kasebut minangka cathetan pasien nyata sing dianonimake, dijupuk saka repositori data klinis Kantesti kanthi persetujuan informed consent sing ditulis. De-identifikasi ditindakake kanthi pendekatan Safe Harbor, kanthi kabeh pengenal langsung dibusak utawa diganti. Pangolahan ditindakake miturut GDPR Pasal 9(2)(j) lan ketentuan sing padha ing UK GDPR. Ora ana informasi sing bisa ngenali pribadi sing katon ing kerangka sing dirilis, laporan teknis, utawa dataset sing dibebasake.

⚕️ Pernyataan Disclaimer Medis & Konflik Kepentingan

Laporan benchmark iki kanggo tujuan riset lan transparansi metodologi. Iki dudu saran medis. Tansah takon panyedhiya layanan kesehatan sing mumpuni kanggo keputusan diagnosis lan perawatan. Loro penulis makarya ing lan nduwèni ekuitas ing Kantesti Ltd, lan mesin sing dievaluasi minangka produk komersial saka organisasi sing padha. Konflik kepentingan iki dikurangi kanthi pre-registering rubrik ing kode sumber, ngeculake kerangka miturut lisensi MIT, lan nerbitake saben respons mentah mesin.

Sinyal Kepercayaan E-E-A-T

⭐

Pengalaman

15+ taun pengalaman praktik hematologi klinis lan kedokteran laboratorium kanggo ngawasi pilihan panel kasus.

📋

Keahlian

Desain rubrik sing wis pre-registered kanthi penalti hyperdiagnosis sing cetha lan sistem penilaian klinis sing diakoni (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Kewibawaan

Penulis utama Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementasi dening Julian Emirhan Bulut, CEO saka Kantesti Ltd.

🛡️

Kapercayan

Kerangka sing bisa direproduksi kanthi lisensi MIT, respons mentah mesin diterbitake, keterbukaan konflik kepentingan sing mbukak, jaringan cermin riset ing papat platform.

🏢 Kantesti LTD Didaftar ing Inggris & Wales · Nomer Perusahaan. 17090423 London, Inggris Raya · kantesti.net