Napa patokan iki ana lan apa sing dites
Interpretasi tes getih kanthi bantuan AI saya kerep digunakake ing alur kerja konsumen lan klinis, nanging kerangka evaluasi sing bisa direproduksi lan disesuaikan kanggo kedokteran laboratorium isih arang. Pitakon sing paling wigati ing kahanan iki dudu sing dicakup dening benchmark pitakon-jawaban medis umum: apa mesin bisa misahake defisiensi wesi saka trait thalassaemia nalika volume korpuskular rata-rata padha, apa mesin kakehan diagnosa Gilbert's syndrome dadi hepatitis, lan apa mesin nggawe patologi ing panel skrining sing pancen normal?
Panel tes getih tunggal biasane nduweni cukup sinyal kanggo ndhukung sawetara interpretasi sing saingan, lan tugas dokter sing nindakake interpretasi yaiku nimbang interpretasi-interpretasi kuwi siji lan sijine tinimbang njupuk jawaban kaya ing buku teks. Mesin sing apik ing kasus-kasus buku teks isih bisa gagal ing kasus sing paling wigati: jebakan diferensial-diagnosa, varian jinak sing katon nguwatirake yen mung dideleng dhewe, lan panel sing pancen normal sing nggoda asisten sing yakin kanggo nggawe patologi sing ora ana.
Patokan iki dibangun pas kanggo mode kegagalan kuwi. Saben saka limalas kasus dipilih kanggo sifat diagnostik tartamtu: mikrositosis amarga kekurangan wesi sing kudu dipisahake saka trait beta-thalassemia sing nduweni mean corpuscular volume sing padha, presentasi Gilbert's syndrome sing mung ana kelainan berupa hiperbilirubinemia indirek sing terisolasi, lan panel skrining limalas parameter ing ngendi saben analit ana ing njero rentang rujukan. Rubrik menehi ganjaran marang mesin sing maca saben kasus miturut konteksé dhewe lan menehi paukuman marang mesin sing njupuk diagnosis sing yakin nalika diagnosis kuwi ora pantes.
Minangka Thomas Klein, MD, aku milih panel kasus iki amarga iki pola sing paling kerep dakdeleng salah ditindakake dening asisten kedokteran laboratorium. Mode kegagalan sing larang dudu "ora kejawab penyakit langka" — nanging nggawe patologi rutin ing pasien sing ora nduweni. kita Validasi medis hub njlèntrèhaké kerangka sing luwih amba; kaca iki njlèntrèhaké bukti konsep awal V11 lan V11 Pembaruan Kapindho sing nggedhekake nganti 100.000 kasus sintetis sing dijupuk saka himpunan kasus sintetis sing nyakup 127 label negara — nggunakake rubrik skor sing padha, identik byte, lan ora diijini tuning pasca-kasunyatan (post-hoc).
Referensi run paling anyar — V11 Pembaruan Kapindho (26 April 2026)
Referensi run V11 Pembaruan Kapindho tanggal 26 April 2026 ngasilaké skor komposit 99.80% ing rubrik sing padha sing wis didaftaraké sadurungé lan digunakaké ing rilis awal V11, dievaluasi ing 100.000 kasus sintetis dijupuk saka himpunan kasus sintetis Kantesti lan nyakup 127 label negara lan basa 75+. Saben kasus rampung ing jalur utama mesin; aktivasi flag hiperdeteksi trap-case tetep ana ing 0 / 87,412. Run asli V11 tanggal 23 April 2026 nutupi 15 kasus sing dipilih manual (composite 99.12%) lan mènèhi validasi rubrik; Pembaruan Kapindho njaga rubrik kasebut byte-identical lan ngluwihi evaluasi menyang kohor skala populasi.
Rumus komposit nggabungake telung komponen: kesesuaian struktural karo pitung bagean laporan wajib lan nembelas subbagian wajib, akurasi isi diukur minangka keyword recall ditambah recall sistem penilaian ditambah cek validitas distribusi probabilitas, lan latensi respon nglawan target tingkat layanan (service-level) jalur utama. Rincian sing pas dituduhaké ing rumus rubrik ing ngisor iki — ora ana bobot utawa sub-rubrik sing diowahi kanggo Pembaruan Kapindho.
Sisa 0.20 poin persentase ruang (headroom) meh kabeh pecah dadi sub-skor klinis — bagean cilik saka kasus (utamane ing Hepatologi lan Rheumatologi) nduwèni siji tembung kunci sistem penilaian sing diarep-arep ora ana ing interpretasi mesin sanajan isi diagnostike bener. Ora ana siji kasus ing kohor 100.000 kasus Pembaruan Kapindho sing kelalen diagnosisé dhewe. Latensi luwih apik saka rata-rata 20.17 s ing rilis awal V11 dadi 13.26 s ing Pembaruan Kapindho, nggambarake optimasi mesin produksi ing antarane loro run kasebut; rubrik, kode penilaian, lan endpoint API ora owah.
Skor komposit per-label ana ing rentang 0.9971 nganti 0.9985 ing 30 label negara sing paling kerep diwakili. Ekor dawa saka 97 label tambahan (≈7.300 kasus gabungan) ora nuduhake degradasi sistematis. Label sing paling kerep miturut jumlah kasus yaiku Amerika Serikat (10.500), Brasil (9.500), Spanyol (9.000), Italia (8.000), Jerman (7.800), Prancis (7.400), Portugal (5.800), Türkiye (3.400), Britania Raya (2.900), lan Meksiko (2.500).
Saka 15 kasus nganti 100.000: evolusi kohort ing 127 label negara
Panel kasus asli V11 nutupi pitung spesialisasi — hematologi, endokrinologi, kedokteran metabolik, hepatologi, nefrologi, kardiologi, reumatologi — uga loro kasus jebakan hiperdeteksi (hyperdiagnosis) sing khusus, kanthi saben kasus minangka panel tes getih sing digawe kanthi sintetis. V11 Pembaruan Kapindho ngluwihi evaluasi nganti 100.000 kasus sintetis ing 127 label negara, disebar ing wolung spesialis (pitu asli plus bucket obat internal internal sing khusus sing nyerep subset trap). Rubrik penilaian sing padha ditrapaké byte-identical ing loro run kasebut.
Amarga kabeh kasus digawe kanthi sintetis, ora ana pengenal nyata sing kudu dibusak lan ora ana data pribadi sing melu. Saben kasus sintetis nggawa kode kasus internal kanggo patokan (BT-NNN-LABEL ing set awal V11, sing stabil case_uid ing Pembaruan Kapindho). Ora ana data pribadi sing katon ing ngendi wae ing harness sing diterbitake, laporan teknis, utawa dataset sing dirilis.
rilis awal V11 — 15 kasus sing dipilih manual
Panel kasus V11 asli dipilih kanthi tliti dening Dr. Thomas Klein kanggo ngleksanakake pola diagnostik sing paling kerep digawé salah dening asisten kedokteran laboratorium. Saben-saben saka limalas kasus dipilih kanggo sawijining sifat diagnostik tartamtu, sing kadhaptar ing ngisor iki.
Napa sebaran tartamtu iki
Hematologi entuk telung kasus amarga diferensial mikrositik lan diferensial makrositik minangka jebakan volume paling dhuwur ing praktik laboratorium donya nyata. Endokrinologi entuk telung amarga presentasi Hashimoto, PCOS, lan kekurangan vitamin D njalari wujud diagnostik sing beda (dipacu autoantibodi, dipacu rasio hormon, dipacu siji penanda). Spesialisasi siji-kasus isih migunani amarga saben CKD, risiko ASCVD, lan SLE nduwèni sistem penilaian dhewe sing kudu dipanggil mesin (KDIGO staging, risiko 10 taun ASCVD, lan kritéria SLE EULAR/ACR 2019).
V11 Pembaruan Kapindho — 100.000 kasus sintetis ing 127 label negara
Pembaruan Kapindho ngganti literal Python hard-coded 15 kasus asli V11 nganggo himpunan kasus sintetis sing luwih gedhe lan digawe kanthi program. Himpunan kasus dimuat ing wiwitan saben run lan konfigurasi dicatat kanggo transparansi. Distribusi kohort miturut area konten ditampilake ing ngisor iki.
Distribusi label negara sintetis — 10 label paling ndhuwur
Kasus sintetis 100.000 nggawa 127 label negara (ISO 3166-1 alpha-2) kanggo nyoba penanganan lokalitas (locale handling). Penetapan label: Eropa 57.7%, Amerika 25.4%, Asia-Pasifik 6.2%, label Timur Tengah/Afrika sing dijenengi 3.4%, lan ekor dawa saka 97 label tambahan kira-kira 7.3% gabungan. Sepuluh label sing paling kerep miturut jumlah kasus yaiku Amerika Serikat (10.500), Brasil (9.500), Spanyol (9.000), Italia (8.000), Jerman (7.800), Prancis (7.400), Portugal (5.800), Türkiye (3.400), Britania Raya (2.900), lan Meksiko (2.500). Skor komposit per-label ana ing rentang 0.9971 nganti 0.9985. Jumlah label iki minangka sifat saka kasus sing digawe kanggo nyoba penanganan lokalitas — dudu pangguna nyata lan dudu cakupan geografis ing donya nyata.
Rubrik pra-registrasi, diterangake
Pre-registration minangka pilihan metodologis sing paling wigati ing benchmark iki. Saben diagnosis sing diarepake, saben sistem penilaian klinis, lan saben bagean laporan wis dikomit menyang kode sumber sadurunge mesin dipanggil. Mula, tuning pasca-analisis saka rubrik kanggo ngapusi mesin ora bisa.
Telung komponen nyusun skor komposit. Komponen struktural nyumbang 35 persen lan ngukur apa mesin ngasilake pitung bagean laporan wajib (header, summary, key findings, differential, scoring systems, recommendations, follow-up) lan nembelas subbagian wajib ing njero. Keberadaan bagean bobote 40 persen lan keberadaan subbagian bobote 60 persen ing perhitungan struktural.
Ing komponen klinis nyumbang 55 persen lan nggabungake telung perkara: recall tembung kunci diagnosis (70 persen saka sub-skor klinis), recall sistem penilaian (20 persen — apa mesin ngitung Mentzer, FIB-4, HOMA-IR, risiko ASCVD, KDIGO staging, kritéria EULAR/ACR yen relevan), lan cek validitas jumlah probabilitas (10 persen — probabilitas ing differential kudu jumlahé ana ing interval [90, 110]). Kanggo kasus jebakan, ana penalti hiperdiagnosis sing cetha nganti 0.30 sing dikurangi, diwilang 0.10 saben flag patologi sing digawe, diwatesi maksimal telung flag.
Ing komponen latensi nyumbang 10 persen. Respons ing ngisor 20 detik entuk 0.10 lengkap, respons ing ngisor 40 detik entuk 0.05, lan apa wae sing luwih alon entuk nol. Target 20 detik nggambarake tujuan tingkat layanan produksi primary-path; langit-langit 40 detik nggambarake anggaran fallback Tahap 2 kanggo pemanggilan mesin sing abot.
Sing dicegah dening pre-registration
Benchmark pihak-kaping-siji misuwur amarga nggedhekake angka dhewe liwat tuning rubrik pasca-analisis. Polane meh mesthi padha: tim mbukak mesin, ndeleng ing ngendi kinerja kurang, banjur kanthi tenang nyetel rubrik supaya area sing kurang kinerja dadi luwih ora diitung. Kanthi ngomit rubrik menyang kode sumber sadurunge panggilan mesin pisanan lan nerbitake harness kanthi lisensi MIT, panyesuaian kuwi dadi katon ing kontrol versi. Sapa wae bisa klon repositori, mriksa tanggal panulis rubrik, lan verifikasi manawa asil mesin ora digunakake kanggo mbentuk skor.
Kasus jebakan hiperdiagnosis — kenapa nelpon kakehan iku mode gagal sing sejatine
Nimbali patologi kanthi agresif ing layar sing normal minangka mode kegagalan sing wis didokumentasi kanggo asisten medis sing ditujokake marang konsumen. Biaya hiliré kalebu investigasi sing ora perlu, kuatir pasien, lan pemeriksaan sing nyebabake cilaka (iatrogenik). Rong kasus jebakan ing benchmark iki dirancang supaya mode kegagalan kuwi katon lan bisa dinilai.
🟡 Trap 1 — BT-014-GILBERT
Presentasi. Pria umur 24 taun kanthi bilirubin total 2.4 mg/dL. Fraksi langsung normal, transaminase lan fosfatase alkali ana ing jangkauan rujukan, retikulosit ora ana sing nggumunake, lan haptoglobin lan LDH ngilangi kemungkinan hemolisis.
Interpretasi sing bener. Gilbert's syndrome — polimorfisme UGT1A1 sing jinak. Interpretasi ora kudu nyebut hepatitis, sirosis, anemia hemolitik, utawa obstruksi bilier.
Asil V11. Komposit 1.000. Ora ana siji wae saka enem flag over-diagnosis sing dipantau katon minangka diagnosis aktif.
🟡 Trap 2 — BT-015-HEALTHY
Presentasi. Wanita umur 35 taun kanthi panel skrining rutin sing nduwèni limalas parameter. Saben analit ana kanthi nyaman ing jangkauan rujukan.
Interpretasi sing bener. Panglipur lan njaga gaya urip. Interpretasi aja nganti gawe patologi sing isih wates kanggo muni migunani sacara klinis.
Asil V11. Komposit 1.000. Ora ana siji wae saka pitung pratanda over-diagnosis sing dipantau — diabetes, anemia, hipotiroidisme, dislipidemia, hepatitis, penyakit ginjal, kekurangan — sing katon minangka diagnosis aktif.
Ing loro jebakan kasebut, ana telulas pratanda hyperdiagnosis sing dipriksa. Ora ana sing kepicu. Iki asil sing paling wigati kanggo sembarang dokter sing arep nggunakake mesin AI minangka piranti triase utawa pra-konsultasi: sistem ora nggawe penyakit yen ora ana.
Indeks Mentzer: misahake kekurangan zat besi saka sifat talasemia
Temuan nilai dhuwur kapindho gegayutan karo pasangan kasus BT-001 (anemia kekurangan wesi) karo kasus BT-007 (beta-thalassemia minor). Loro-lorone nuduhake mikrositosis lan dadi alangan sing wis misuwur kanggo klasifikator sing durung pinter. Indeks Mentzer, sing diwilang minangka MCV dibagi cacah RBC, luwih saka 13 ing anemia kekurangan wesi lan mudhun ngisor 13 ing sifat talasemia.
Ing BT-001, pasien yaiku wanita umur 34 taun kanthi hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, feritin 6 ng/mL, lan TIBC sing mundhak. Indeks Mentzer kira-kira 17.7 ndhukung kekurangan wesi absolut. Ing BT-007, pasien yaiku pria umur 28 taun kanthi mikrositosis (MCV 65.8 fL) nanging cacah RBC sing dhuwur 6.2, RDW normal, feritin normal, lan HbA2 5.6 persen. Indeks Mentzer kira-kira 10.6 nuduhake sifat talasemia, lan HbA2 sing mundhak ngukuhake beta-thalassemia minor.
Loro-lorone kasus entuk skor 1.000. Mesin nggunakake indeks Mentzer kanthi cetha ing loro interpretasi lan ngasilake diagnosis sing bener ing saben kasus. Iki asil sing paling menehi panglipur klinis ing sak benchmark, amarga salah nggolongake sifat talasemia minangka kekurangan wesi nyebabake suplementasi wesi sing ora pas lan kesempatan skrining riwayat kulawarga sing keplok, lan salah nggolongake kekurangan wesi minangka talasemia nundha terapi penggantian sing mesthi gampang. Kita babagan rentang feritin nerangake konteks diferensial sing luwih amba.
Asil saben kasus saka run referensi awal V11 (23 April 2026)
Run referensi V11 asli ing kohort proof-of-concept 15 kasus dadi landasan metodologis saka Second Update: saben rincian saben kasus ing ngisor iki nuduhake carane rubrik nangani respons mesin sing nyata. Swelas saka limalas kasus entuk skor komposit langit-langit 1.000 ing jalur utama; telung kasus dilayani liwat fallback Phase 2, kelangan bonus latensi 0.05 nalika njaga kabeh isi klinis lan struktural. Siji kasus ora duwe siji subbagian wajib; siji bali kanthi jumlah distribusi probabilitas sing rada suda.
Kasus PCOS (BT-008) kelangan siji subbagian wajib ing struktur respons — sewelas saka nembelas tinimbang nembelas saka nembelas — sing nyuda skor struktural saka 1.000 dadi 0.963. Kasus SLE (BT-011) ngasilake jumlah probabilitas-distribusi sing rada mudhun, sing nyuda skor klinis dadi 0.965 nalika njaga saben tembung kunci diagnostik lan sistem penilaian. Ora ana kasus sing kurang sampurna sing kelangan diagnosis sing bener.
Agregat V11 Second Update — 100,000 kasus
Ing skala populasi, baris kasus individu ora bisa diwaca manungsa, mula Pembaruan Kapindho nglaporake metrik agregat tinimbang tabel 100.000 baris. Agregat utama ditampilake ing ngisor iki; rincian per-spesialisasi lan per-label negara diterbitake ing laporan teknis lan deposit Figshare. Sampel acak terstratifikasi saka n = 201 respons mentah mesin (seed deterministik 20260426) diterbitake ing direktori GitHub results/ kanggo dipriksa.
Sing ora dicritakake skor headline
Skor komposit 99.80 persen miturut rubrik sing didaftar sadurunge iki, ing kohort sintetis 100.000 kasus sing nyakup 127 label negara, nuduhake kinerja meh tekan langit-langit (near-ceiling) — nanging pantes diwenehi bingkai sing tliti. Asil kasebut njlèntrèhaké prilaku mesin nglawan rubrik sing kita komitmen ing kode sumber ing V11; iki dudu klaim universal babagan bener-salah mesin ing saben panel tes getih sing ana ing donya nyata.
Skor kasebut ngandharake manawa mesin nanganaké pola diagnostik sing dipilih kanggo evaluasi iki kanthi bener ing kohort skala populasi, kanthi metodologi sing diterbitake lan bisa direproduksi. Skor kasebut ora ngandharake manawa mesin bener ing saben panel tes getih sing ana ing donya nyata. Skor kasebut uga ora ngandharake manawa mesin kudu nggantosake pertimbangan klinisi. Lan skor kasebut ora ngandharake manawa mesin luwih unggul tinimbang sistem AI alternatif — analisis komparatif marang mesin liya kanthi sengaja ora kalebu ing laporan iki.
Sing skor kasebut pancèn netepake yaiku dhasar. Amarga rubrik lan harness wis diumumake, versi-versi mangsa ngarep saka mesin bisa dievaluasi nglawan rubrik sing padha — ditrapake marang 15 kasus inisial V11, kohort 100,000 kasus Pembaruan Kapindho, utawa ekspansi sabanjure apa wae — lan celah antarane skor sing diterbitake lan run sabanjure iku dhewe bisa diukur. Iki nilai saka pra-registrasi: ngowahi klaim kinerja dadi klaim sing bisa dites.
Carane mbaleni benchmark iki sajrone 10 menit
Reproduksi mung mbutuhake pasangan kredensial API Kantesti lan lingkungan Python 3.10 utawa luwih anyar kanthi requests lan reportlab perpustakaan sing diinstal. Harness lengkap minangka siji modul Python sing mandiri lan dirilis miturut lisensi MIT.
Papat langkah kanggo run anyar
Siji. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Loro. Pasang dependensi nganggo pip install -r requirements.txt (Second Update nambahake mysql-connector-python ≥ 8.0 kanggo SQL case loader). Tiga. Set KANTESTI_USERNAME lan KANTESTI_PASSWORD minangka variabel lingkungan kanggo API mesin. Kanggo SQL case loader ing Second Update, uga set KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, lan KANTESTI_DB_PASSWORD — loader nyambung liwat peran mung-baca (bench_reader) sing ora nduwèni hak istimewa kanggo ngenali tabel. Papat. Jalanake python benchmark_bloodtest.py --limit 100000 kanggo run Second-Update lengkap, utawa python benchmark_bloodtest.py --limit 1000 kanggo iterasi cepet. Output mlebu ing ./benchmark_results/: scorecard CSV kanthi kolom per-country-label lan per-specialty, agregat JSON, sampel raw-response stratified-random, lan laporan Markdown.
Run referensi saka 23 April 2026 (V11 awal, 15 kasus) lan 26 April 2026 (V11 Second Update, 100,000 kasus) dijaga ing results/ direktori repositori. Run anyar bakal ngasilaké scorecard kanthi timestamp anyar nalika run referensi ora diganti. Yen run sampeyan ngasilaké asil sing beda banget, tulung bukak isu GitHub nganggo timestamp run lan versi mesin sing bali ing metadata respons.
Watesan lan karya mangsa ngarep
Sanajan ana 100.000 kasus ing 127 country labels, ana papat keterbatasan sing pantes diakoni kanthi cetha: undersampling label long-tail, evaluasi siji-kali (single-shot), cakupan siji-engine, lan asal data siji-sumber. Saben poin iki lagi ditangani ing karya tindak lanjut sing aktif.
Liputan long-tail label. Pembaruan Kapindho (Second Update) nyakup 127 country labels, nanging distribusine ora seimbang — 10 label paling ndhuwur nyumbang kira-kira 66.4% saka kasus, lan long tail saka 97 label tambahan bebarengan nyumbang kira-kira 7.3% (kira-kira 7.300 kasus gabungan, ~75 kasus saben label rata-rata). Mula, komposit per-label ing long tail iki luwih rame (noisier) tinimbang sing disaranake angka-angka utama. Run mangsa ngarep bakal ngimbangi maneh penetapan label kanggo nguatake estimasi per-label.
Evaluasi siji-sawijining. Saben kasus ing kohort dievaluasi mung sapisan. Model basa gedhé nduwèni variasi output sing ora cilik sanajan ing suhu sampling sing kurang, mula protokol multi-run kanthi limang evaluasi saben kasus lan variasi sing dilaporaké minangka langkah sabanjuré sing lumrah — utamane ing sub-sèt trap-case, ing ngendi konsistensi nalika ana jitter sampling dadi bagean saka klaim keamanan.
Cakupan siji mesin. Laporan iki njlèntrèhaké siji mesin. Analisis perbandingan marang sistem AI alternatif ora kalebu ing kéné; kita bisa ngupayakaké minangka studi independen kapisah kanthi metodologi sing cocog, nggunakake harness sing padha sing dilisensi MIT.
Data sintetis. Saka 100.000 kasus kasebut, sing digawé kanthi sintetis yaiku kasus-kasuse (synthetically generated), dudu “kasus sintetis” (synthetic cases) — asil ora bisa ditransfer menyang kinerja klinis ing donya nyata. Evaluasi nganggo data nyata sing nyata-nyata, wis ana persetujuan (consented), lan sumberé eksternal bakal mbutuhake pengawasan etika sing pantes lan ora kalebu ing ruang lingkup benchmark sintetis iki.
Saliyane patang perkara kasebut, ekstensi sing paling nduwèni pengaruh yaiku kesetaraan multi-basa per yurisdiksi. Mesin Kantesti AI Engine nglayani pangguna ing 75+ basa, lan nglakokaké sub-kohort Second-Update sing stratified miturut basa (Turki, Jerman, Spanyol, Prancis, Italia, Portugis, Arab, Mandarin) bakal ngukur kualitas output ing basa-basa sing didhukung mesin kasebut. Saben analisis sing stratified miturut basa bakal diterbitaké nganggo DOI lan cabang harness dhewe.