Napa patokan iki ana lan apa sing dites

Interpretasi tes getih kanthi bantuan AI saya kerep digunakake ing alur kerja konsumen lan klinis, nanging kerangka evaluasi sing bisa direproduksi lan disesuaikan kanggo kedokteran laboratorium isih arang. Pitakon sing paling wigati ing kahanan iki dudu sing dicakup dening benchmark pitakon-jawaban medis umum: apa mesin bisa misahake defisiensi wesi saka trait thalassaemia nalika volume korpuskular rata-rata padha, apa mesin kakehan diagnosa Gilbert's syndrome dadi hepatitis, lan apa mesin nggawe patologi ing panel skrining sing pancen normal?

Diagram alur rubrik sing wis didaftar sing nuduhake carane Kantesti AI Engine — Pembaruan Kapindho V11, skor komposit 99.80% ing 100.000 kasus — dievaluasi marang kriteria penilaian sing wis dibekukan
Gambar 1: Arsitektur patokan sing ana ing mburi Skor komposit 99.80% ing V11 Pembaruan Kapindho nganyari kohor 100.000 kasus — saben kasus, saben tembung kunci, saben sistem penilaian wis tetep ing kode sumber sadurunge mesin ndeleng siji PDF wae, lan rubriké padha persis (byte-identical) karo rilis awal V11. Nyetel rubrik sawise (post-hoc) ora bisa miturut rancangan.

Panel tes getih tunggal biasane nduweni cukup sinyal kanggo ndhukung sawetara interpretasi sing saingan, lan tugas dokter sing nindakake interpretasi yaiku nimbang interpretasi-interpretasi kuwi siji lan sijine tinimbang njupuk jawaban kaya ing buku teks. Mesin sing apik ing kasus-kasus buku teks isih bisa gagal ing kasus sing paling wigati: jebakan diferensial-diagnosa, varian jinak sing katon nguwatirake yen mung dideleng dhewe, lan panel sing pancen normal sing nggoda asisten sing yakin kanggo nggawe patologi sing ora ana.

Patokan iki dibangun pas kanggo mode kegagalan kuwi. Saben saka limalas kasus dipilih kanggo sifat diagnostik tartamtu: mikrositosis amarga kekurangan wesi sing kudu dipisahake saka trait beta-thalassemia sing nduweni mean corpuscular volume sing padha, presentasi Gilbert's syndrome sing mung ana kelainan berupa hiperbilirubinemia indirek sing terisolasi, lan panel skrining limalas parameter ing ngendi saben analit ana ing njero rentang rujukan. Rubrik menehi ganjaran marang mesin sing maca saben kasus miturut konteksé dhewe lan menehi paukuman marang mesin sing njupuk diagnosis sing yakin nalika diagnosis kuwi ora pantes.

Minangka Thomas Klein, MD, aku milih panel kasus iki amarga iki pola sing paling kerep dakdeleng salah ditindakake dening asisten kedokteran laboratorium. Mode kegagalan sing larang dudu "ora kejawab penyakit langka" — nanging nggawe patologi rutin ing pasien sing ora nduweni. kita Validasi medis hub njlèntrèhaké kerangka sing luwih amba; kaca iki njlèntrèhaké bukti konsep awal V11 lan V11 Pembaruan Kapindho sing nggedhekake nganti 100.000 kasus sintetis sing dijupuk saka himpunan kasus sintetis sing nyakup 127 label negara — nggunakake rubrik skor sing padha, identik byte, lan ora diijini tuning pasca-kasunyatan (post-hoc).

Referensi run paling anyar — V11 Pembaruan Kapindho (26 April 2026)

Referensi run V11 Pembaruan Kapindho tanggal 26 April 2026 ngasilaké skor komposit 99.80% ing rubrik sing padha sing wis didaftaraké sadurungé lan digunakaké ing rilis awal V11, dievaluasi ing 100.000 kasus sintetis dijupuk saka himpunan kasus sintetis Kantesti lan nyakup 127 label negara lan basa 75+. Saben kasus rampung ing jalur utama mesin; aktivasi flag hiperdeteksi trap-case tetep ana ing 0 / 87,412. Run asli V11 tanggal 23 April 2026 nutupi 15 kasus sing dipilih manual (composite 99.12%) lan mènèhi validasi rubrik; Pembaruan Kapindho njaga rubrik kasebut byte-identical lan ngluwihi evaluasi menyang kohor skala populasi.

Komposit 99.80% 100.000 saka 100.000 kasus entuk skor
1.000 Skor struktural
0.996 Skor klinis
13.26 s Rata-rata latensi
0 / 87,412 Jebakan false-positives

Rumus komposit nggabungake telung komponen: kesesuaian struktural karo pitung bagean laporan wajib lan nembelas subbagian wajib, akurasi isi diukur minangka keyword recall ditambah recall sistem penilaian ditambah cek validitas distribusi probabilitas, lan latensi respon nglawan target tingkat layanan (service-level) jalur utama. Rincian sing pas dituduhaké ing rumus rubrik ing ngisor iki — ora ana bobot utawa sub-rubrik sing diowahi kanggo Pembaruan Kapindho.

Komposit = 0.35 × Struktural + 0.55 × Klinis + 0.10 × Latensi

Sisa 0.20 poin persentase ruang (headroom) meh kabeh pecah dadi sub-skor klinis — bagean cilik saka kasus (utamane ing Hepatologi lan Rheumatologi) nduwèni siji tembung kunci sistem penilaian sing diarep-arep ora ana ing interpretasi mesin sanajan isi diagnostike bener. Ora ana siji kasus ing kohor 100.000 kasus Pembaruan Kapindho sing kelalen diagnosisé dhewe. Latensi luwih apik saka rata-rata 20.17 s ing rilis awal V11 dadi 13.26 s ing Pembaruan Kapindho, nggambarake optimasi mesin produksi ing antarane loro run kasebut; rubrik, kode penilaian, lan endpoint API ora owah.

Skor komposit per-label ana ing rentang 0.9971 nganti 0.9985 ing 30 label negara sing paling kerep diwakili. Ekor dawa saka 97 label tambahan (≈7.300 kasus gabungan) ora nuduhake degradasi sistematis. Label sing paling kerep miturut jumlah kasus yaiku Amerika Serikat (10.500), Brasil (9.500), Spanyol (9.000), Italia (8.000), Jerman (7.800), Prancis (7.400), Portugal (5.800), Türkiye (3.400), Britania Raya (2.900), lan Meksiko (2.500).

Saka 15 kasus nganti 100.000: evolusi kohort ing 127 label negara

Panel kasus asli V11 nutupi pitung spesialisasi — hematologi, endokrinologi, kedokteran metabolik, hepatologi, nefrologi, kardiologi, reumatologi — uga loro kasus jebakan hiperdeteksi (hyperdiagnosis) sing khusus, kanthi saben kasus minangka panel tes getih sing digawe kanthi sintetis. V11 Pembaruan Kapindho ngluwihi evaluasi nganti 100.000 kasus sintetis ing 127 label negara, disebar ing wolung spesialis (pitu asli plus bucket obat internal internal sing khusus sing nyerep subset trap). Rubrik penilaian sing padha ditrapaké byte-identical ing loro run kasebut.

Desain panel kasus awal V11 — limalas kasus uji getih sintetis ing pitu spesialisasi medis plus rong kasus trap hiperdignosis; rubrik sing padha ngasilake skor komposit 99.80% ing 100.000 kasus ing V11 Second Update
Gambar 2: Desain panel kasus awal V11 ing hematologi, endokrinologi, obat/metabolik, hepatologi, nefrologi, kardiologi, reumatologi, plus loro kasus trap — sindrom Gilbert lan panel skrining sing pancen normal. Pembaruan Kapindho njaga rubrik iki byte-identical nalika ngluwihi kohor dadi 100.000 kasus sing dijupuk saka repositori Kantesti SQL.

Amarga kabeh kasus digawe kanthi sintetis, ora ana pengenal nyata sing kudu dibusak lan ora ana data pribadi sing melu. Saben kasus sintetis nggawa kode kasus internal kanggo patokan (BT-NNN-LABEL ing set awal V11, sing stabil case_uid ing Pembaruan Kapindho). Ora ana data pribadi sing katon ing ngendi wae ing harness sing diterbitake, laporan teknis, utawa dataset sing dirilis.

rilis awal V11 — 15 kasus sing dipilih manual

Panel kasus V11 asli dipilih kanthi tliti dening Dr. Thomas Klein kanggo ngleksanakake pola diagnostik sing paling kerep digawé salah dening asisten kedokteran laboratorium. Saben-saben saka limalas kasus dipilih kanggo sawijining sifat diagnostik tartamtu, sing kadhaptar ing ngisor iki.

Hematologi (3) BT-001, BT-006, BT-007 Anemia defisiensi wesi · defisiensi B12 · beta-thalassemia minor
Endokrinologi (3) BT-002, BT-008, BT-012 Tiroiditis Hashimoto · PCOS kanthi resistensi insulin · defisiensi vitamin D sing abot
Metabolik (2) BT-003, BT-013 T2DM kanthi sindrom metabolik · hiperurisemia kanthi risiko gout
Hepatologi (2) BT-004, BT-009 NAFLD / NASH · hepatitis virus akut
Nefrologi · Kardiologi · Reumatologi (3) BT-005, BT-010, BT-011 CKD tahap 3 · dislipidemia aterogenik · lupus eritematosus sistemik
Kasus jebakan (2) BT-014, BT-015 Sindrom Gilbert (hiperbilirubinemia indirek terisolasi) · Skrining wong diwasa sing sakèhé normal

Napa sebaran tartamtu iki

Hematologi entuk telung kasus amarga diferensial mikrositik lan diferensial makrositik minangka jebakan volume paling dhuwur ing praktik laboratorium donya nyata. Endokrinologi entuk telung amarga presentasi Hashimoto, PCOS, lan kekurangan vitamin D njalari wujud diagnostik sing beda (dipacu autoantibodi, dipacu rasio hormon, dipacu siji penanda). Spesialisasi siji-kasus isih migunani amarga saben CKD, risiko ASCVD, lan SLE nduwèni sistem penilaian dhewe sing kudu dipanggil mesin (KDIGO staging, risiko 10 taun ASCVD, lan kritéria SLE EULAR/ACR 2019).

V11 Pembaruan Kapindho — 100.000 kasus sintetis ing 127 label negara

Pembaruan Kapindho ngganti literal Python hard-coded 15 kasus asli V11 nganggo himpunan kasus sintetis sing luwih gedhe lan digawe kanthi program. Himpunan kasus dimuat ing wiwitan saben run lan konfigurasi dicatat kanggo transparansi. Distribusi kohort miturut area konten ditampilake ing ngisor iki.

Endokrinologi 23.900 kasus (23.9%) Tiroid, PCOS, vitamin D, sumbu gonadal, hipofisis
Kedokteran metabolik 21.900 kasus (21.9%) T2DM, sindrom metabolik, panel lipid, hiperurisemia
hematologi 15.400 kasus (15.4%) Diferensial mikrositik lan makrositik, B12/folat, studi zat besi
Hepatologi 12.400 kasus (12.4%) NAFLD/NASH, hepatitis virus, FIB-4, kolestasis
Kedokteran internal (kalebu subset trap) 9.000 kasus (9.0%) Presentasi campuran lan 8.723 kasus trap hyperdiagnosis sing khusus
Kardiologi 7.500 kasus (7.5%) Risiko ASCVD, dislipidemia disertai aterogenik, hs-CRP
Rheumatology 6.000 kasus (6.0%) SLE, RA, vaskulitis, panel autoantibodi (kriteria EULAR/ACR)
Nefrologi 4.000 kasus (4.0%) Tahap CKD (KDIGO), tren eGFR, gangguan elektrolit

Distribusi label negara sintetis — 10 label paling ndhuwur

Kasus sintetis 100.000 nggawa 127 label negara (ISO 3166-1 alpha-2) kanggo nyoba penanganan lokalitas (locale handling). Penetapan label: Eropa 57.7%, Amerika 25.4%, Asia-Pasifik 6.2%, label Timur Tengah/Afrika sing dijenengi 3.4%, lan ekor dawa saka 97 label tambahan kira-kira 7.3% gabungan. Sepuluh label sing paling kerep miturut jumlah kasus yaiku Amerika Serikat (10.500), Brasil (9.500), Spanyol (9.000), Italia (8.000), Jerman (7.800), Prancis (7.400), Portugal (5.800), Türkiye (3.400), Britania Raya (2.900), lan Meksiko (2.500). Skor komposit per-label ana ing rentang 0.9971 nganti 0.9985. Jumlah label iki minangka sifat saka kasus sing digawe kanggo nyoba penanganan lokalitas — dudu pangguna nyata lan dudu cakupan geografis ing donya nyata.

Rubrik pra-registrasi, diterangake

Pre-registration minangka pilihan metodologis sing paling wigati ing benchmark iki. Saben diagnosis sing diarepake, saben sistem penilaian klinis, lan saben bagean laporan wis dikomit menyang kode sumber sadurunge mesin dipanggil. Mula, tuning pasca-analisis saka rubrik kanggo ngapusi mesin ora bisa.

Telung komponen nyusun skor komposit. Komponen struktural nyumbang 35 persen lan ngukur apa mesin ngasilake pitung bagean laporan wajib (header, summary, key findings, differential, scoring systems, recommendations, follow-up) lan nembelas subbagian wajib ing njero. Keberadaan bagean bobote 40 persen lan keberadaan subbagian bobote 60 persen ing perhitungan struktural.

Ing komponen klinis nyumbang 55 persen lan nggabungake telung perkara: recall tembung kunci diagnosis (70 persen saka sub-skor klinis), recall sistem penilaian (20 persen — apa mesin ngitung Mentzer, FIB-4, HOMA-IR, risiko ASCVD, KDIGO staging, kritéria EULAR/ACR yen relevan), lan cek validitas jumlah probabilitas (10 persen — probabilitas ing differential kudu jumlahé ana ing interval [90, 110]). Kanggo kasus jebakan, ana penalti hiperdiagnosis sing cetha nganti 0.30 sing dikurangi, diwilang 0.10 saben flag patologi sing digawe, diwatesi maksimal telung flag.

Ing komponen latensi nyumbang 10 persen. Respons ing ngisor 20 detik entuk 0.10 lengkap, respons ing ngisor 40 detik entuk 0.05, lan apa wae sing luwih alon entuk nol. Target 20 detik nggambarake tujuan tingkat layanan produksi primary-path; langit-langit 40 detik nggambarake anggaran fallback Tahap 2 kanggo pemanggilan mesin sing abot.

Tangkapan layar terminal saka harness patokan Kantesti sing dilisensi MIT nalika mlaku lan ngasilake skor per-kasus — harness sing padha, saiki didorong SQL, ngasilake skor komposit 99.80% ing eksekusi 100.000 kasus Pembaruan Kapindho V11
Gambar 3: Harness nalika dieksekusi — mesin sing padha sing ngasilaké komposit 99.80% ing kohort 100,000 kasus V11 Second Update. Saben kasus dirender dadi PDF A4, dikirim menyang endpoint produksi v11, banjur dinilai adhedhasar rubrik sing wis dibekukan. Second Update nambahake loader kasus SQL sing diparameter; sampel acak berstrata saka respons mentah mesin (n = 201) disimpen bebarengan karo scorecard agregat.

Sing dicegah dening pre-registration

Benchmark pihak-kaping-siji misuwur amarga nggedhekake angka dhewe liwat tuning rubrik pasca-analisis. Polane meh mesthi padha: tim mbukak mesin, ndeleng ing ngendi kinerja kurang, banjur kanthi tenang nyetel rubrik supaya area sing kurang kinerja dadi luwih ora diitung. Kanthi ngomit rubrik menyang kode sumber sadurunge panggilan mesin pisanan lan nerbitake harness kanthi lisensi MIT, panyesuaian kuwi dadi katon ing kontrol versi. Sapa wae bisa klon repositori, mriksa tanggal panulis rubrik, lan verifikasi manawa asil mesin ora digunakake kanggo mbentuk skor.

Kasus jebakan hiperdiagnosis — kenapa nelpon kakehan iku mode gagal sing sejatine

Nimbali patologi kanthi agresif ing layar sing normal minangka mode kegagalan sing wis didokumentasi kanggo asisten medis sing ditujokake marang konsumen. Biaya hiliré kalebu investigasi sing ora perlu, kuatir pasien, lan pemeriksaan sing nyebabake cilaka (iatrogenik). Rong kasus jebakan ing benchmark iki dirancang supaya mode kegagalan kuwi katon lan bisa dinilai.

Perbandingan sisih-sisih antarane AI sing naif nggawe hepatitis ing panel sindrom Gilbert lawan mesin Kantesti sing kanthi bener ngenali polimorfisme UGT1A1 sing jinak — metodologi sing nggedhek nganti nol false-positives ing 87.412 kesempatan flag jebakan ing patokan Pembaruan Kapindho V11 99.80%
Gambar 4: Desain trap-case saka rilis awal V11 — mesin sing kanthi yakin menehi label Gilbert's syndrome minangka hepatitis, utawa sing nggawe patologi ambang ing layar sing sakabehe normal, bakal dipenalti tinimbang diwenehi ganjaran amarga muni klinis. Metodologi iki ditrapake kanggo 0 / 87,412 false-positives ing jalur V11 Second Update run 100,000 kasus sing ngasilaké skor komposit 99.80%.

🟡 Trap 1 — BT-014-GILBERT

Presentasi. Pria umur 24 taun kanthi bilirubin total 2.4 mg/dL. Fraksi langsung normal, transaminase lan fosfatase alkali ana ing jangkauan rujukan, retikulosit ora ana sing nggumunake, lan haptoglobin lan LDH ngilangi kemungkinan hemolisis.

Interpretasi sing bener. Gilbert's syndrome — polimorfisme UGT1A1 sing jinak. Interpretasi ora kudu nyebut hepatitis, sirosis, anemia hemolitik, utawa obstruksi bilier.

Asil V11. Komposit 1.000. Ora ana siji wae saka enem flag over-diagnosis sing dipantau katon minangka diagnosis aktif.

🟡 Trap 2 — BT-015-HEALTHY

Presentasi. Wanita umur 35 taun kanthi panel skrining rutin sing nduwèni limalas parameter. Saben analit ana kanthi nyaman ing jangkauan rujukan.

Interpretasi sing bener. Panglipur lan njaga gaya urip. Interpretasi aja nganti gawe patologi sing isih wates kanggo muni migunani sacara klinis.

Asil V11. Komposit 1.000. Ora ana siji wae saka pitung pratanda over-diagnosis sing dipantau — diabetes, anemia, hipotiroidisme, dislipidemia, hepatitis, penyakit ginjal, kekurangan — sing katon minangka diagnosis aktif.

Ing loro jebakan kasebut, ana telulas pratanda hyperdiagnosis sing dipriksa. Ora ana sing kepicu. Iki asil sing paling wigati kanggo sembarang dokter sing arep nggunakake mesin AI minangka piranti triase utawa pra-konsultasi: sistem ora nggawe penyakit yen ora ana.

Indeks Mentzer: misahake kekurangan zat besi saka sifat talasemia

Temuan nilai dhuwur kapindho gegayutan karo pasangan kasus BT-001 (anemia kekurangan wesi) karo kasus BT-007 (beta-thalassemia minor). Loro-lorone nuduhake mikrositosis lan dadi alangan sing wis misuwur kanggo klasifikator sing durung pinter. Indeks Mentzer, sing diwilang minangka MCV dibagi cacah RBC, luwih saka 13 ing anemia kekurangan wesi lan mudhun ngisor 13 ing sifat talasemia.

Ing BT-001, pasien yaiku wanita umur 34 taun kanthi hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, feritin 6 ng/mL, lan TIBC sing mundhak. Indeks Mentzer kira-kira 17.7 ndhukung kekurangan wesi absolut. Ing BT-007, pasien yaiku pria umur 28 taun kanthi mikrositosis (MCV 65.8 fL) nanging cacah RBC sing dhuwur 6.2, RDW normal, feritin normal, lan HbA2 5.6 persen. Indeks Mentzer kira-kira 10.6 nuduhake sifat talasemia, lan HbA2 sing mundhak ngukuhake beta-thalassemia minor.

Anemia kekurangan wesi Mentzer > 13 Feritin kurang, TSAT kurang, TIBC dhuwur, RDW mundhak
Sifat beta-thalassemia Mentzer < 13 Feritin normal, RDW normal, HbA2 mundhak (>3.5%), cacah RBC dhuwur

Loro-lorone kasus entuk skor 1.000. Mesin nggunakake indeks Mentzer kanthi cetha ing loro interpretasi lan ngasilake diagnosis sing bener ing saben kasus. Iki asil sing paling menehi panglipur klinis ing sak benchmark, amarga salah nggolongake sifat talasemia minangka kekurangan wesi nyebabake suplementasi wesi sing ora pas lan kesempatan skrining riwayat kulawarga sing keplok, lan salah nggolongake kekurangan wesi minangka talasemia nundha terapi penggantian sing mesthi gampang. Kita babagan rentang feritin nerangake konteks diferensial sing luwih amba.

Asil saben kasus saka run referensi awal V11 (23 April 2026)

Run referensi V11 asli ing kohort proof-of-concept 15 kasus dadi landasan metodologis saka Second Update: saben rincian saben kasus ing ngisor iki nuduhake carane rubrik nangani respons mesin sing nyata. Swelas saka limalas kasus entuk skor komposit langit-langit 1.000 ing jalur utama; telung kasus dilayani liwat fallback Phase 2, kelangan bonus latensi 0.05 nalika njaga kabeh isi klinis lan struktural. Siji kasus ora duwe siji subbagian wajib; siji bali kanthi jumlah distribusi probabilitas sing rada suda.

ID Kasus Spesialisasi Komposit Latensi Path
BT-001-IDAhematologi1.00017.8 sutama
BT-006-B12hematologi1.00018.4 sutama
BT-007-THALhematologi1.00017.0 sutama
BT-002-HASHEndokrinologi0.95037.0 sfallback
BT-008-PCOSEndokrinologi0.98718.6 sutama
BT-003-T2DMMetabolik1.00019.1 sutama
BT-013-GOUTMetabolik1.00019.4 sutama
BT-004-NAFLDHepatologi1.00019.6 sutama
BT-009-VIRHEPHepatologi0.95023.4 sfallback
BT-014-GILBERTTrap1.00018.9 sutama
BT-005-CKDNefrologi1.00017.4 sutama
BT-010-ASCVDKardiologi1.00019.7 sutama
BT-011-SLERheumatology0.98118.2 sutama
BT-012-VITDEndokrinologi1.00019.3 sutama
BT-015-HEALTHYTrap1.00018.7 sfallback

Kasus PCOS (BT-008) kelangan siji subbagian wajib ing struktur respons — sewelas saka nembelas tinimbang nembelas saka nembelas — sing nyuda skor struktural saka 1.000 dadi 0.963. Kasus SLE (BT-011) ngasilake jumlah probabilitas-distribusi sing rada mudhun, sing nyuda skor klinis dadi 0.965 nalika njaga saben tembung kunci diagnostik lan sistem penilaian. Ora ana kasus sing kurang sampurna sing kelangan diagnosis sing bener.

Agregat V11 Second Update — 100,000 kasus

Ing skala populasi, baris kasus individu ora bisa diwaca manungsa, mula Pembaruan Kapindho nglaporake metrik agregat tinimbang tabel 100.000 baris. Agregat utama ditampilake ing ngisor iki; rincian per-spesialisasi lan per-label negara diterbitake ing laporan teknis lan deposit Figshare. Sampel acak terstratifikasi saka n = 201 respons mentah mesin (seed deterministik 20260426) diterbitake ing direktori GitHub results/ kanggo dipriksa.

Skor komposit V11 awal: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 ing kohort 100,000 kasus
Skor struktural (rata-rata) V11 awal: 0.998 → Second Update: 1.000 Kesesuaian struktural sampurna ing skala populasi
Skor klinis (rata-rata) V11 awal: 0.998 → Second Update: 0.996 −0.002; ora ana kasus sing keliru diagnosis dhewe
Latensi — rata-rata (rentang) Inisial V11: 20.17 s (17.0–37.0 s) → Pembaruan Kapindho: 13.26 s (9.0–16.94 s) Optimasi mesin antar-runs
Path mesin = primer Inisial V11: 12 / 15 → Pembaruan Kapindho: 100,000 / 100,000 Ora perlu ana fallback Fase 2 ing sak titik sajrone run
Bendera hyperdiagnosis trap-subset Inisial V11: 0 / 13 → Pembaruan Kapindho: 0 / 87,412 Ora ana false-positive ing skala populasi (8,723 kasus trap diawasi)

Sing ora dicritakake skor headline

Skor komposit 99.80 persen miturut rubrik sing didaftar sadurunge iki, ing kohort sintetis 100.000 kasus sing nyakup 127 label negara, nuduhake kinerja meh tekan langit-langit (near-ceiling) — nanging pantes diwenehi bingkai sing tliti. Asil kasebut njlèntrèhaké prilaku mesin nglawan rubrik sing kita komitmen ing kode sumber ing V11; iki dudu klaim universal babagan bener-salah mesin ing saben panel tes getih sing ana ing donya nyata.

Skor kasebut ngandharake manawa mesin nanganaké pola diagnostik sing dipilih kanggo evaluasi iki kanthi bener ing kohort skala populasi, kanthi metodologi sing diterbitake lan bisa direproduksi. Skor kasebut ora ngandharake manawa mesin bener ing saben panel tes getih sing ana ing donya nyata. Skor kasebut uga ora ngandharake manawa mesin kudu nggantosake pertimbangan klinisi. Lan skor kasebut ora ngandharake manawa mesin luwih unggul tinimbang sistem AI alternatif — analisis komparatif marang mesin liya kanthi sengaja ora kalebu ing laporan iki.

Sing skor kasebut pancèn netepake yaiku dhasar. Amarga rubrik lan harness wis diumumake, versi-versi mangsa ngarep saka mesin bisa dievaluasi nglawan rubrik sing padha — ditrapake marang 15 kasus inisial V11, kohort 100,000 kasus Pembaruan Kapindho, utawa ekspansi sabanjure apa wae — lan celah antarane skor sing diterbitake lan run sabanjure iku dhewe bisa diukur. Iki nilai saka pra-registrasi: ngowahi klaim kinerja dadi klaim sing bisa dites.

Carane mbaleni benchmark iki sajrone 10 menit

Reproduksi mung mbutuhake pasangan kredensial API Kantesti lan lingkungan Python 3.10 utawa luwih anyar kanthi requests lan reportlab perpustakaan sing diinstal. Harness lengkap minangka siji modul Python sing mandiri lan dirilis miturut lisensi MIT.

Diagram jaringan reproducibility sing nuduhake benchmark V11 Second Update (99.80% komposit, 100.000 kasus, 127 country labels) sing dipetakan ulang (mirrored) ing Figshare, ResearchGate, Academia.edu lan GitHub kanthi DOI Figshare minangka jangkar kanonik
Gambar 5: Patokan V11 Pembaruan Kapindho — Skor komposit 99.80% ing 100.000 kasus ing 127 label negara — dipetakan ulang (mirrored) ing saperangan papat platform riset. DOI Figshare minangka identitas ilmiah kanonik; ResearchGate (publication 404175463), Academia.edu (paper 165956808), lan GitHub nyedhiyakake salinan paralel kanthi benchmark harness, stratified random sample saka raw responses, lan per-country-label/per-specialty scorecards.

Papat langkah kanggo run anyar

Siji. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Loro. Pasang dependensi nganggo pip install -r requirements.txt (Second Update nambahake mysql-connector-python ≥ 8.0 kanggo SQL case loader). Tiga. Set KANTESTI_USERNAME lan KANTESTI_PASSWORD minangka variabel lingkungan kanggo API mesin. Kanggo SQL case loader ing Second Update, uga set KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, lan KANTESTI_DB_PASSWORD — loader nyambung liwat peran mung-baca (bench_reader) sing ora nduwèni hak istimewa kanggo ngenali tabel. Papat. Jalanake python benchmark_bloodtest.py --limit 100000 kanggo run Second-Update lengkap, utawa python benchmark_bloodtest.py --limit 1000 kanggo iterasi cepet. Output mlebu ing ./benchmark_results/: scorecard CSV kanthi kolom per-country-label lan per-specialty, agregat JSON, sampel raw-response stratified-random, lan laporan Markdown.

Run referensi saka 23 April 2026 (V11 awal, 15 kasus) lan 26 April 2026 (V11 Second Update, 100,000 kasus) dijaga ing results/ direktori repositori. Run anyar bakal ngasilaké scorecard kanthi timestamp anyar nalika run referensi ora diganti. Yen run sampeyan ngasilaké asil sing beda banget, tulung bukak isu GitHub nganggo timestamp run lan versi mesin sing bali ing metadata respons.

Watesan lan karya mangsa ngarep

Sanajan ana 100.000 kasus ing 127 country labels, ana papat keterbatasan sing pantes diakoni kanthi cetha: undersampling label long-tail, evaluasi siji-kali (single-shot), cakupan siji-engine, lan asal data siji-sumber. Saben poin iki lagi ditangani ing karya tindak lanjut sing aktif.

Liputan long-tail label. Pembaruan Kapindho (Second Update) nyakup 127 country labels, nanging distribusine ora seimbang — 10 label paling ndhuwur nyumbang kira-kira 66.4% saka kasus, lan long tail saka 97 label tambahan bebarengan nyumbang kira-kira 7.3% (kira-kira 7.300 kasus gabungan, ~75 kasus saben label rata-rata). Mula, komposit per-label ing long tail iki luwih rame (noisier) tinimbang sing disaranake angka-angka utama. Run mangsa ngarep bakal ngimbangi maneh penetapan label kanggo nguatake estimasi per-label.

Evaluasi siji-sawijining. Saben kasus ing kohort dievaluasi mung sapisan. Model basa gedhé nduwèni variasi output sing ora cilik sanajan ing suhu sampling sing kurang, mula protokol multi-run kanthi limang evaluasi saben kasus lan variasi sing dilaporaké minangka langkah sabanjuré sing lumrah — utamane ing sub-sèt trap-case, ing ngendi konsistensi nalika ana jitter sampling dadi bagean saka klaim keamanan.

Cakupan siji mesin. Laporan iki njlèntrèhaké siji mesin. Analisis perbandingan marang sistem AI alternatif ora kalebu ing kéné; kita bisa ngupayakaké minangka studi independen kapisah kanthi metodologi sing cocog, nggunakake harness sing padha sing dilisensi MIT.

Data sintetis. Saka 100.000 kasus kasebut, sing digawé kanthi sintetis yaiku kasus-kasuse (synthetically generated), dudu “kasus sintetis” (synthetic cases) — asil ora bisa ditransfer menyang kinerja klinis ing donya nyata. Evaluasi nganggo data nyata sing nyata-nyata, wis ana persetujuan (consented), lan sumberé eksternal bakal mbutuhake pengawasan etika sing pantes lan ora kalebu ing ruang lingkup benchmark sintetis iki.

Saliyane patang perkara kasebut, ekstensi sing paling nduwèni pengaruh yaiku kesetaraan multi-basa per yurisdiksi. Mesin Kantesti AI Engine nglayani pangguna ing 75+ basa, lan nglakokaké sub-kohort Second-Update sing stratified miturut basa (Turki, Jerman, Spanyol, Prancis, Italia, Portugis, Arab, Mandarin) bakal ngukur kualitas output ing basa-basa sing didhukung mesin kasebut. Saben analisis sing stratified miturut basa bakal diterbitaké nganggo DOI lan cabang harness dhewe.