Napa patokan iki ana lan apa sing dites

Interpretasi tes getih kanthi bantuan AI saya kerep digunakake ing alur kerja konsumen lan klinis, nanging kerangka evaluasi sing bisa direproduksi lan disesuaikan kanggo kedokteran laboratorium isih arang. Pitakon sing paling wigati ing kahanan iki dudu sing dicakup dening benchmark pitakon-jawaban medis umum: apa mesin bisa misahake defisiensi wesi saka trait thalassaemia nalika volume korpuskular rata-rata padha, apa mesin kakehan diagnosa Gilbert's syndrome dadi hepatitis, lan apa mesin nggawe patologi ing panel skrining sing pancen normal?

Diagram alur rubrik sing wis didaftar dhisik, nuduhake carane mesin AI Kantesti dievaluasi marang kritéria skor sing wis dibekukan
Gambar 1: Arsitektur benchmark — saben kasus, saben tembung kunci, saben sistem skor wis tetep ing kode sumber sadurunge mesin ndeleng siji PDF wae. Tuning rubrik post-hoc ora bisa, amarga dirancang kaya ngono.

Panel tes getih tunggal biasane nduweni cukup sinyal kanggo ndhukung sawetara interpretasi sing saingan, lan tugas dokter sing nindakake interpretasi yaiku nimbang interpretasi-interpretasi kuwi siji lan sijine tinimbang njupuk jawaban kaya ing buku teks. Mesin sing apik ing kasus-kasus buku teks isih bisa gagal ing kasus sing paling wigati: jebakan diferensial-diagnosa, varian jinak sing katon nguwatirake yen mung dideleng dhewe, lan panel sing pancen normal sing nggoda asisten sing yakin kanggo nggawe patologi sing ora ana.

Patokan iki dibangun pas kanggo mode kegagalan kuwi. Saben saka limalas kasus dipilih kanggo sifat diagnostik tartamtu: mikrositosis amarga kekurangan wesi sing kudu dipisahake saka trait beta-thalassemia sing nduweni mean corpuscular volume sing padha, presentasi Gilbert's syndrome sing mung ana kelainan berupa hiperbilirubinemia indirek sing terisolasi, lan panel skrining limalas parameter ing ngendi saben analit ana ing njero rentang rujukan. Rubrik menehi ganjaran marang mesin sing maca saben kasus miturut konteksé dhewe lan menehi paukuman marang mesin sing njupuk diagnosis sing yakin nalika diagnosis kuwi ora pantes.

Minangka Thomas Klein, MD, aku milih panel kasus iki amarga iki pola sing paling kerep dakdeleng salah ditindakake dening asisten kedokteran laboratorium. Mode kegagalan sing larang dudu "ora kejawab penyakit langka" — nanging nggawe patologi rutin ing pasien sing ora nduweni. kita Validasi medis hub njlèntrèhaké kerangka sing luwih amba; kaca iki njlèntrèhaké asil sing ditrapake ing mesin V11.

Run referensi paling anyar — V11 (April 2026)

Run referensi April 2026 saka Kantesti AI Engine V11 ngasilake skor komposit saka 99.12% ing rubrik limalas kasus sing wis didaftarke. Loro kasus jebakan hiperdiagnosis skore nganti tekan wates paling dhuwur. Indeks Mentzer ditrapake kanthi bener ing diferensial kekurangan wesi lawan thalassemia.

Komposit 99.12% 15 saka 15 kasus skore
0.998 Skor struktural
0.998 Skor klinis
20.17 s Rata-rata latensi
0 / 13 Jebakan false-positives

Rumus komposit nggabungake telung komponen: kesesuaian struktural karo pitung bagean laporan wajib lan nembelas subbagian wajib, akurasi klinis diukur minangka keyword recall ditambah recall sistem penilaian ditambah cek validitas distribusi probabilitas, lan latensi respon nglawan target layanan utama 20 detik. Pemisahan sing pas dituduhake ing rumus rubrik ing ngisor iki.

Komposit = 0.35 × Struktural + 0.55 × Klinis + 0.10 × Latensi

Sisa 0,88 poin persentase saka headroom diuraikan meh kabeh dadi kelangan latensi — telung invokasi fallback Phase 2 saben-saben komposité minus 0,05 nyumbang kira-kira 0,60 saka defisit 0,88 poin — dudu dadi isi klinis. Mesin ora keliru njupuk diagnosis sing bener ing salah siji saka limalas kasus; nalika ora pas, mung amarga njupuk rada luwih suwe tinimbang target jalur utama 20 detik ing sawenehing cilik invokasi.

Limalas kasus ing pitu spesialisasi medis

Panel kasus nyakup pitu spesialisasi — hematologi, endokrinologi, kedokteran metabolik, hepatologi, nefrologi, kardiologi, reumatologi — plus loro kasus khusus jebakan hyperdiagnosis. Saben kasus minangka rekaman pasien nyata sing dianonimake, dijupuk saka repositori data klinis Kantesti kanthi persetujuan informed consent sing ditulis.

Peta cakupan saka limalas kasus tes getih sing wis dianonimake, disebar ing pitu spesialisasi medis, kalebu kasus jebakan hiperdiagnosis
Gambar 2: Sebaran kasus ing hematologi, endokrinologi, kedokteran metabolik, hepatologi, nefrologi, kardiologi, reumatologi, plus loro kasus jebakan — sindrom Gilbert lan panel skrining sing sakèhé normal.

De-identifikasi ditindakake kanthi pendekatan Safe Harbor: kabeh identitas langsung dicopot utawa diganti, lan saben rekaman diwenehi kode kasus internal patokan kanthi format BT-NNN-LABEL. Pangolahan ditindakake miturut GDPR Artikel 9(2)(j) kanggo riset ilmiah kanthi pangayoman sing cocog, lan ketentuan sing padha ing UK GDPR. Ora ana informasi sing bisa ngenali pribadi sing katon ing ngendi wae ing harness sing diterbitake, laporan teknis, utawa dataset sing dirilis.

Hematologi (3) BT-001, BT-006, BT-007 Anemia defisiensi wesi · defisiensi B12 · beta-thalassemia minor
Endokrinologi (3) BT-002, BT-008, BT-012 Tiroiditis Hashimoto · PCOS kanthi resistensi insulin · defisiensi vitamin D sing abot
Metabolik (2) BT-003, BT-013 T2DM kanthi sindrom metabolik · hiperurisemia kanthi risiko gout
Hepatologi (2) BT-004, BT-009 NAFLD / NASH · hepatitis virus akut
Nefrologi · Kardiologi · Reumatologi (3) BT-005, BT-010, BT-011 CKD tahap 3 · dislipidemia aterogenik · lupus eritematosus sistemik
Kasus jebakan (2) BT-014, BT-015 Sindrom Gilbert (hiperbilirubinemia indirek terisolasi) · Skrining wong diwasa sing sakèhé normal

Napa sebaran tartamtu iki

Hematologi entuk telung kasus amarga diferensial mikrositik lan diferensial makrositik minangka jebakan volume paling dhuwur ing praktik laboratorium donya nyata. Endokrinologi entuk telung amarga presentasi Hashimoto, PCOS, lan kekurangan vitamin D njalari wujud diagnostik sing beda (dipacu autoantibodi, dipacu rasio hormon, dipacu siji penanda). Spesialisasi siji-kasus isih migunani amarga saben CKD, risiko ASCVD, lan SLE nduwèni sistem penilaian dhewe sing kudu dipanggil mesin (KDIGO staging, risiko 10 taun ASCVD, lan kritéria SLE EULAR/ACR 2019).

Rubrik pra-registrasi, diterangake

Pre-registration minangka pilihan metodologis sing paling wigati ing benchmark iki. Saben diagnosis sing diarepake, saben sistem penilaian klinis, lan saben bagean laporan wis dikomit menyang kode sumber sadurunge mesin dipanggil. Mula, tuning pasca-analisis saka rubrik kanggo ngapusi mesin ora bisa.

Telung komponen nyusun skor komposit. Komponen struktural nyumbang 35 persen lan ngukur apa mesin ngasilake pitung bagean laporan wajib (header, summary, key findings, differential, scoring systems, recommendations, follow-up) lan nembelas subbagian wajib ing njero. Keberadaan bagean bobote 40 persen lan keberadaan subbagian bobote 60 persen ing perhitungan struktural.

Ing komponen klinis nyumbang 55 persen lan nggabungake telung perkara: recall tembung kunci diagnosis (70 persen saka sub-skor klinis), recall sistem penilaian (20 persen — apa mesin ngitung Mentzer, FIB-4, HOMA-IR, risiko ASCVD, KDIGO staging, kritéria EULAR/ACR yen relevan), lan cek validitas jumlah probabilitas (10 persen — probabilitas ing differential kudu jumlahé ana ing interval [90, 110]). Kanggo kasus jebakan, ana penalti hiperdiagnosis sing cetha nganti 0.30 sing dikurangi, diwilang 0.10 saben flag patologi sing digawe, diwatesi maksimal telung flag.

Ing komponen latensi nyumbang 10 persen. Respons ing ngisor 20 detik entuk 0.10 lengkap, respons ing ngisor 40 detik entuk 0.05, lan apa wae sing luwih alon entuk nol. Target 20 detik nggambarake tujuan tingkat layanan produksi primary-path; langit-langit 40 detik nggambarake anggaran fallback Tahap 2 kanggo pemanggilan mesin sing abot.

Tangkapan layar pungkasan saka harness benchmark Kantesti sing dilisensi MIT, mlaku lan ngasilake skor saben kasus
Gambar 3: Harness ing eksekusi. Saben kasus dirender dadi PDF A4, dipasang menyang endpoint v11 produksi, lan dinilai nganggo rubrik sing wis dibekukan. Saben respons mentah disimpen bebarengan karo scorecard agregat.

Sing dicegah dening pre-registration

Benchmark pihak-kaping-siji misuwur amarga nggedhekake angka dhewe liwat tuning rubrik pasca-analisis. Polane meh mesthi padha: tim mbukak mesin, ndeleng ing ngendi kinerja kurang, banjur kanthi tenang nyetel rubrik supaya area sing kurang kinerja dadi luwih ora diitung. Kanthi ngomit rubrik menyang kode sumber sadurunge panggilan mesin pisanan lan nerbitake harness kanthi lisensi MIT, panyesuaian kuwi dadi katon ing kontrol versi. Sapa wae bisa klon repositori, mriksa tanggal panulis rubrik, lan verifikasi manawa asil mesin ora digunakake kanggo mbentuk skor.

Kasus jebakan hiperdiagnosis — kenapa nelpon kakehan iku mode gagal sing sejatine

Nimbali patologi kanthi agresif ing layar sing normal minangka mode kegagalan sing wis didokumentasi kanggo asisten medis sing ditujokake marang konsumen. Biaya hiliré kalebu investigasi sing ora perlu, kuatir pasien, lan pemeriksaan sing nyebabake cilaka (iatrogenik). Rong kasus jebakan ing benchmark iki dirancang supaya mode kegagalan kuwi katon lan bisa dinilai.

Perbandingan sisih-sisih: AI sing naif nggawe hepatitis ing panel Gilbert's syndrome, lawan mesin Kantesti sing kanthi bener ngenali polimorfisme UGT1A1 sing jinak
Gambar 4: Desain kasus jebakan. Mesin sing kanthi yakin menehi label Gilbert's syndrome minangka hepatitis, utawa sing nggawe patologi borderline ing layar sing pancen normal, bakal dipenalti — dudu diwènèhi ganjaran amarga muni klinis.

🟡 Trap 1 — BT-014-GILBERT

Presentasi. Pria umur 24 taun kanthi bilirubin total 2.4 mg/dL. Fraksi langsung normal, transaminase lan fosfatase alkali ana ing jangkauan rujukan, retikulosit ora ana sing nggumunake, lan haptoglobin lan LDH ngilangi kemungkinan hemolisis.

Interpretasi sing bener. Gilbert's syndrome — polimorfisme UGT1A1 sing jinak. Interpretasi ora kudu nyebut hepatitis, sirosis, anemia hemolitik, utawa obstruksi bilier.

Asil V11. Komposit 1.000. Ora ana siji wae saka enem flag over-diagnosis sing dipantau katon minangka diagnosis aktif.

🟡 Trap 2 — BT-015-HEALTHY

Presentasi. Wanita umur 35 taun kanthi panel skrining rutin sing nduwèni limalas parameter. Saben analit ana kanthi nyaman ing jangkauan rujukan.

Interpretasi sing bener. Panglipur lan njaga gaya urip. Interpretasi aja nganti gawe patologi sing isih wates kanggo muni migunani sacara klinis.

Asil V11. Komposit 1.000. Ora ana siji wae saka pitung pratanda over-diagnosis sing dipantau — diabetes, anemia, hipotiroidisme, dislipidemia, hepatitis, penyakit ginjal, kekurangan — sing katon minangka diagnosis aktif.

Ing loro jebakan kasebut, ana telulas pratanda hyperdiagnosis sing dipriksa. Ora ana sing kepicu. Iki asil sing paling wigati kanggo sembarang dokter sing arep nggunakake mesin AI minangka piranti triase utawa pra-konsultasi: sistem ora nggawe penyakit yen ora ana.

Indeks Mentzer: misahake kekurangan zat besi saka sifat talasemia

Temuan nilai dhuwur kapindho gegayutan karo pasangan kasus BT-001 (anemia kekurangan wesi) karo kasus BT-007 (beta-thalassemia minor). Loro-lorone nuduhake mikrositosis lan dadi alangan sing wis misuwur kanggo klasifikator sing durung pinter. Indeks Mentzer, sing diwilang minangka MCV dibagi cacah RBC, luwih saka 13 ing anemia kekurangan wesi lan mudhun ngisor 13 ing sifat talasemia.

Ing BT-001, pasien yaiku wanita umur 34 taun kanthi hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, feritin 6 ng/mL, lan TIBC sing mundhak. Indeks Mentzer kira-kira 17.7 ndhukung kekurangan wesi absolut. Ing BT-007, pasien yaiku pria umur 28 taun kanthi mikrositosis (MCV 65.8 fL) nanging cacah RBC sing dhuwur 6.2, RDW normal, feritin normal, lan HbA2 5.6 persen. Indeks Mentzer kira-kira 10.6 nuduhake sifat talasemia, lan HbA2 sing mundhak ngukuhake beta-thalassemia minor.

Anemia kekurangan wesi Mentzer > 13 Feritin kurang, TSAT kurang, TIBC dhuwur, RDW mundhak
Sifat beta-thalassemia Mentzer < 13 Feritin normal, RDW normal, HbA2 mundhak (>3.5%), cacah RBC dhuwur

Loro-lorone kasus entuk skor 1.000. Mesin nggunakake indeks Mentzer kanthi cetha ing loro interpretasi lan ngasilake diagnosis sing bener ing saben kasus. Iki asil sing paling menehi panglipur klinis ing sak benchmark, amarga salah nggolongake sifat talasemia minangka kekurangan wesi nyebabake suplementasi wesi sing ora pas lan kesempatan skrining riwayat kulawarga sing keplok, lan salah nggolongake kekurangan wesi minangka talasemia nundha terapi penggantian sing mesthi gampang. Kita babagan rentang feritin nerangake konteks diferensial sing luwih amba.

Asil per-kasus saka run April 2026

Saka limalas kasus, rolas entuk skor komposit langit-langit 1.000 ing path utama. Telung kasus dilayani liwat fallback Tahap 2, kelangan bonus latensi 0.05 nalika njaga kabeh isi klinis lan struktural. Siji kasus ora ana siji subbagian wajib; siji maneh ngasilake jumlah total distribusi probabilitas sing rada mudhun.

ID Kasus Spesialisasi Komposit Latensi Path
BT-001-IDAhematologi1.00017.8 sutama
BT-006-B12hematologi1.00018.4 sutama
BT-007-THALhematologi1.00017.0 sutama
BT-002-HASHEndokrinologi0.95037.0 sfallback
BT-008-PCOSEndokrinologi0.98718.6 sutama
BT-003-T2DMMetabolik1.00019.1 sutama
BT-013-GOUTMetabolik1.00019.4 sutama
BT-004-NAFLDHepatologi1.00019.6 sutama
BT-009-VIRHEPHepatologi0.95023.4 sfallback
BT-014-GILBERTTrap1.00018.9 sutama
BT-005-CKDNefrologi1.00017.4 sutama
BT-010-ASCVDKardiologi1.00019.7 sutama
BT-011-SLERheumatology0.98118.2 sutama
BT-012-VITDEndokrinologi1.00019.3 sutama
BT-015-HEALTHYTrap1.00018.7 sfallback

Kasus PCOS (BT-008) kelangan siji subbagian wajib ing struktur respons — sewelas saka nembelas tinimbang nembelas saka nembelas — sing nyuda skor struktural saka 1.000 dadi 0.963. Kasus SLE (BT-011) ngasilake jumlah probabilitas-distribusi sing rada mudhun, sing nyuda skor klinis dadi 0.965 nalika njaga saben tembung kunci diagnostik lan sistem penilaian. Ora ana kasus sing kurang sampurna sing kelangan diagnosis sing bener.

Sing ora dicritakake skor headline

Skor komposit 99.12 persen miturut rubrik sing wis didaftar sadurunge iki nuduhake kinerja meh tekan wates paling dhuwur, nanging kudu diwenehi pigura kanthi tliti. Asil kasebut njlèntrèhaké prilaku mesin nglawan limalas kasus anonim sing dipilih kanthi tliti, saben dinilai sapisan, miturut siji rubrik. Kita cetha babagan apa sing nomer kasebut lan ora bisa netepake.

Skor kasebut nyebutake manawa mesin V11 nangani pola diagnostik sing dipilih kanggo evaluasi iki kanthi bener, kanthi metodologi sing diterbitake lan bisa direproduksi. Skor kasebut ora nyebutake manawa mesin kasebut bener ing saben panel asil tes getih sing ana ing donya nyata. Skor kasebut uga ora nyebutake manawa mesin kudu ngganti pertimbangan klinisi. Lan skor kasebut ora nyebutake manawa mesin kasebut luwih unggul tinimbang sistem AI alternatif — analisis perbandingan marang mesin liya kanthi sengaja ora kalebu ing laporan iki.

Sing bisa netepake skor kasebut yaiku dhasar. Amarga rubrik lan harness wis diumumake, versi-versi mesin mangsa ngarep bisa dievaluasi nglawan limalas kasus sing padha, lan jarak antarane skor sing diterbitake lan sembarang run sabanjure uga bisa diukur. Nilai saka pre-registration yaiku: ngowahi klaim kinerja dadi klaim sing bisa dites.

Carane mbaleni benchmark iki sajrone 10 menit

Reproduksi mung mbutuhake pasangan kredensial API Kantesti lan lingkungan Python 3.10 utawa luwih anyar kanthi requests lan reportlab perpustakaan sing diinstal. Harness lengkap minangka siji modul Python sing mandiri lan dirilis miturut lisensi MIT.

Diagram jaringan reproduksibilitas sing nuduhake benchmark dicerminake ing Figshare, ResearchGate, Academia.edu, lan GitHub, kanthi Figshare DOI minangka jangkar kanonik
Gambar 5: Benchmark kasebut dicerminkan ing papat platform riset. DOI Figshare minangka identitas akademik kanonik; ResearchGate, Academia.edu, lan GitHub dadi papan salinan paralel kanthi kode lan data mentah.

Papat langkah kanggo run anyar

Siji. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Loro. Pasang dependensi nganggo pip install -r requirements.txt. Tiga. Set KANTESTI_USERNAME lan KANTESTI_PASSWORD minangka variabel lingkungan—kredensial diwaca nalika runtime lan ora ana sing dikode keras ing skrip. Papat. Jalanake python benchmark_bloodtest.py lan priksa patang artefak sing diprodhuksi menyang direktori kerja: scorecard CSV, scorecard JSON, dump JSON lengkap kalebu respons mentah mesin, lan laporan Markdown sing bisa diwaca manungsa.

Run referensi tanggal 23 April 2026 dijaga ing results/ direktori ing repositori. Run anyar bakal ngasilake scorecard anyar sing nganggo cap wektu, dene run referensi ora diganggu. Yen run sampeyan ngasilake asil sing beda kanthi teges, tulung bukak isu GitHub nganggo cap wektu run lan versi mesin sing bali ing metadata respons.

Watesan lan karya mangsa ngarep

Ana patang watesan sing pantes diakoni kanthi cetha: ukuran sampel, evaluasi siji-sawijining (single-shot), cakupan siji mesin, lan asal data siji sumber. Saben watesan lagi ditangani ing karya tindak lanjut aktif.

Ukuran sampel. Limalas kasus ing wolung bucket spesialis cukup kanggo bukti konsep nanging ora kanggo analisis subgrup ing saben spesialis. Ekspansi dadi limang puluh kasus direncanakake lan bakal kalebu panel koagulasi, skrining keganasan hematologis, panel meteng, lan presentasi pediatrik.

Evaluasi siji-sawijining. Saben kasus dievaluasi mung sapisan. Model basa gedhé nuduhake variasi output sing ora cilik sanajan ing suhu sampling sing kurang, mula protokol multi-run kanthi limang evaluasi saben kasus lan variasi sing dilaporake minangka langkah sabanjure sing wajar.

Cakupan siji mesin. Laporan iki njlèntrèhaké siji mesin. Analisis perbandingan marang sistem AI alternatif ora kalebu ing kene; kita bisa ngupayakake minangka studi mandiri sing kapisah kanthi metodologi sing cocog.

Asal data siji sumber. Limalas kasus iku rekaman pasien nyata sing dianonimake lan dijupuk saka siji repositori klinis. Iki nggambarake sampel sing wis dipilih lan dudu undhakan acak sing makili populasi. Ngluwihi evaluasi menyang data multi-sentra ana ing dalan (roadmap).

Ekstensi sing paling nduwèni pengaruh yaiku kesetaraan multi-basa. Mesin AI Kantesti nglayani pangguna ing 75+ basa, lan nglakokake harness sing padha kanggo limalas kasus ing basa Turki, Jerman, Spanyol, Prancis, lan Arab bakal ngukur kualitas output ing basa-basa sing didhukung mesin kasebut. Kita bakal nerbitake saben run miturut basa kanthi DOI dhewe lan cabang harness.