Patokan Tes Getih AI Kantesti

Patokan Otomatis Patokan Pra-Registrasi Pembaruan Kapindho V11 — April 2026 Dilisensi MIT Bisa direproduksi · Data Terbuka 100K Koho Sintetis · 127 Label Negara

Skor Komposit 99.80% ing Rubrik sing Didaftar Sadurunge — V11 Pembaruan Kapindho, Kumpulan 100.000 Kasus ing 127 Label Negara

Patokan teknis otomatis adhedhasar rubrik sing didaftar sadurunge, kanggo mesin Kantesti, ing 100.000 kasus tes getih sing digawe kanthi sintetis lan diwenehi tag 127 label negara. Iki ngukur kesesuaian output, dudu akurasi diagnostik. Rubrik kasebut dibekukan ing kode sumber sadurunge rilis awal V11 lan dijaga identik byte kanggo Pembaruan Kapindho iki; harness evaluasi dilisensi MIT; sampel acak terstratifikasi saka respons mentah mesin diterbitake kanggo ditliti. Kabeh kasus sintetis; ora ana data pribadi sing digunakake.

📖 ~14 menit 📅 Diterbitake tanggal 23 April 2026 · Dianyari tanggal 26 April 2026 (Pembaruan Kapindho V11) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Diterbitake: 23 April 2026 🔄 Pembaruan Kapindho V11: 26 April 2026 🩺 Ditinjau kanthi medis: 26 April 2026 ✅ Rubrik sing Didaftar Sadurunge (Byte-Identical) 🔓 Kode & Data Terbuka

Patokan otomatis iki dirancang lan dijalokaké déning Julian Emirhan Bulut, Insinyur AI Senior lan CEO saka Kantesti Ltd. Penilaian rampung otomatis ing kode sumber; rubrik penilaian lan panel kasus dikembangaké kanthi masukan klinis saka Dr. Thomas Klein, MD, Kepala Petugas Medis ing Kantesti AI, lan ditinjau déning Dewan Penasihat Medis Kantesti AI. Iki minangka patokan internal sing dijalanke dhewe, dudu patokan teknis otomatis sing independen utawa sing wis ditinjau sejawat.

Penulis Utama & Pengawasan Klinis

Thomas Klein, MD

Kepala Petugas Medis, Kantesti AI

Dr. Thomas Klein minangka ahli hematologi klinis sing tersertifikasi dewan lan internis kanthi pengalaman luwih saka 15 taun ing bidang kedokteran laboratorium. Minangka Chief Medical Officer ing Kantesti AI, dheweke milih panel kasus kanggo patokan iki, mriksa isi klinis lan jawaban sing diarepake saka kasus-kasus sintetis, lan nyetujoni rubrik sing didaftar sadurunge sadurunge invokasi mesin pisanan.

ORCID 0009-0009-1490-1321 Gapura Riset Google Scholar

Co-Author & Implementasi

Julian Emirhan Bulut

Insinyur AI Senior & CEO, Kantesti Ltd

Julian Emirhan Bulut iku pendiri lan CEO saka Kantesti Ltd. Dheweke ngrancang lan ngleksanakake harness evaluasi — kalebu SQL case loader sing ditambahake kanggo Pembaruan Kapindho V11 — nindakake integrasi API, nganakake loro-lorone: run referensi awal V11 lan run 100.000 kasus kanggo Pembaruan Kapindho V11, lan nyiapake agregasi statistik. Pendiri platform wiwit 2019.

GitHub Babagan Kantesti

⚡ Ringkesan Cepet Pembaruan Kapindho V11 — 26 April 2026

Skor komposit 99.80% ing 100.000 kasus tes getih sintetis ing wolung spesialisasi medis lan 127 label negara (V11 Pembaruan Kapindho).
Ora ana false-positive hyperdiagnosis ing 87.412 kesempatan flag trap-case sing dipantau — metodologi trap-case sing padha kaya V11 awal, ditambahi nganti level populasi.
Rubrik sing wis didaftar dhisik dibekukan ing kode sumber sadurunge run awal V11 lan dijaga byte-identik kanggo Pembaruan Kapindho iki — ora ana tuning pasca-kajian (post-hoc) sing bisa ditindakake.
Indeks Mentzer ditrapake kanthi bener kanggo mbedakake anemia defisiensi besi saka beta-thalassemia minor ing rilis awal V11; prilaku diferensial kasebut dijaga ing skala populasi.
Endpoint produksi mung — ora ana privileged routing, dievaluasi persis kaya sing bakal diakses dening pelanggan sing mbayar.
Rata-rata latensi 13.26 detik end-to-end (rentang 9.0–16.94 s), kanthi kabeh 100.000 kasus rampung ing jalur utama mesin.
Kohort Sintetis. 100.000 kasus uji sing digawe kanthi sintetis dimuat nalika run. Ora ana data sintetis lan ora ana data pribadi sing digunakake.
Harness nganggo lisensi MIT dirilis ing GitHub kanthi sampel acak berstrata (n = 201) saka respons mentah lengkap mesin kanggo dipriksa.
DOI Figshare: 10.6084/m9.figshare.32095435 · Dicerminkan ing ResearchGate, Academia.edu, GitHub.

Napa patokan iki ana lan apa sing dites

Interpretasi tes getih kanthi bantuan AI saya kerep digunakake ing alur kerja konsumen lan klinis, nanging kerangka evaluasi sing bisa direproduksi lan disesuaikan kanggo kedokteran laboratorium isih arang. Pitakon sing paling wigati ing kahanan iki dudu sing dicakup dening benchmark pitakon-jawaban medis umum: apa mesin bisa misahake defisiensi wesi saka trait thalassaemia nalika volume korpuskular rata-rata padha, apa mesin kakehan diagnosa Gilbert's syndrome dadi hepatitis, lan apa mesin nggawe patologi ing panel skrining sing pancen normal?

Panel tes getih tunggal biasane nduweni cukup sinyal kanggo ndhukung sawetara interpretasi sing saingan, lan tugas dokter sing nindakake interpretasi yaiku nimbang interpretasi-interpretasi kuwi siji lan sijine tinimbang njupuk jawaban kaya ing buku teks. Mesin sing apik ing kasus-kasus buku teks isih bisa gagal ing kasus sing paling wigati: jebakan diferensial-diagnosa, varian jinak sing katon nguwatirake yen mung dideleng dhewe, lan panel sing pancen normal sing nggoda asisten sing yakin kanggo nggawe patologi sing ora ana.

Patokan iki dibangun pas kanggo mode kegagalan kuwi. Saben saka limalas kasus dipilih kanggo sifat diagnostik tartamtu: mikrositosis amarga kekurangan wesi sing kudu dipisahake saka trait beta-thalassemia sing nduweni mean corpuscular volume sing padha, presentasi Gilbert's syndrome sing mung ana kelainan berupa hiperbilirubinemia indirek sing terisolasi, lan panel skrining limalas parameter ing ngendi saben analit ana ing njero rentang rujukan. Rubrik menehi ganjaran marang mesin sing maca saben kasus miturut konteksé dhewe lan menehi paukuman marang mesin sing njupuk diagnosis sing yakin nalika diagnosis kuwi ora pantes.

Minangka Thomas Klein, MD, aku milih panel kasus iki amarga iki pola sing paling kerep dakdeleng salah ditindakake dening asisten kedokteran laboratorium. Mode kegagalan sing larang dudu "ora kejawab penyakit langka" — nanging nggawe patologi rutin ing pasien sing ora nduweni. kita Validasi medis hub njlèntrèhaké kerangka sing luwih amba; kaca iki njlèntrèhaké bukti konsep awal V11 lan V11 Pembaruan Kapindho sing nggedhekake nganti 100.000 kasus sintetis sing dijupuk saka himpunan kasus sintetis sing nyakup 127 label negara — nggunakake rubrik skor sing padha, identik byte, lan ora diijini tuning pasca-kasunyatan (post-hoc).

Referensi run paling anyar — V11 Pembaruan Kapindho (26 April 2026)

Referensi run V11 Pembaruan Kapindho tanggal 26 April 2026 ngasilaké skor komposit 99.80% ing rubrik sing padha sing wis didaftaraké sadurungé lan digunakaké ing rilis awal V11, dievaluasi ing 100.000 kasus sintetis dijupuk saka himpunan kasus sintetis Kantesti lan nyakup 127 label negara lan basa 75+. Saben kasus rampung ing jalur utama mesin; aktivasi flag hiperdeteksi trap-case tetep ana ing 0 / 87,412. Run asli V11 tanggal 23 April 2026 nutupi 15 kasus sing dipilih manual (composite 99.12%) lan mènèhi validasi rubrik; Pembaruan Kapindho njaga rubrik kasebut byte-identical lan ngluwihi evaluasi menyang kohor skala populasi.

Komposit 99.80% 100.000 saka 100.000 kasus entuk skor

1.000 Skor struktural

0.996 Skor klinis

13.26 s Rata-rata latensi

0 / 87,412 Jebakan false-positives

Rumus komposit nggabungake telung komponen: kesesuaian struktural karo pitung bagean laporan wajib lan nembelas subbagian wajib, akurasi isi diukur minangka keyword recall ditambah recall sistem penilaian ditambah cek validitas distribusi probabilitas, lan latensi respon nglawan target tingkat layanan (service-level) jalur utama. Rincian sing pas dituduhaké ing rumus rubrik ing ngisor iki — ora ana bobot utawa sub-rubrik sing diowahi kanggo Pembaruan Kapindho.

Komposit = 0.35 × Struktural + 0.55 × Klinis + 0.10 × Latensi

Sisa 0.20 poin persentase ruang (headroom) meh kabeh pecah dadi sub-skor klinis — bagean cilik saka kasus (utamane ing Hepatologi lan Rheumatologi) nduwèni siji tembung kunci sistem penilaian sing diarep-arep ora ana ing interpretasi mesin sanajan isi diagnostike bener. Ora ana siji kasus ing kohor 100.000 kasus Pembaruan Kapindho sing kelalen diagnosisé dhewe. Latensi luwih apik saka rata-rata 20.17 s ing rilis awal V11 dadi 13.26 s ing Pembaruan Kapindho, nggambarake optimasi mesin produksi ing antarane loro run kasebut; rubrik, kode penilaian, lan endpoint API ora owah.

Skor komposit per-label ana ing rentang 0.9971 nganti 0.9985 ing 30 label negara sing paling kerep diwakili. Ekor dawa saka 97 label tambahan (≈7.300 kasus gabungan) ora nuduhake degradasi sistematis. Label sing paling kerep miturut jumlah kasus yaiku Amerika Serikat (10.500), Brasil (9.500), Spanyol (9.000), Italia (8.000), Jerman (7.800), Prancis (7.400), Portugal (5.800), Türkiye (3.400), Britania Raya (2.900), lan Meksiko (2.500).

Saka 15 kasus nganti 100.000: evolusi kohort ing 127 label negara

Panel kasus asli V11 nutupi pitung spesialisasi — hematologi, endokrinologi, kedokteran metabolik, hepatologi, nefrologi, kardiologi, reumatologi — uga loro kasus jebakan hiperdeteksi (hyperdiagnosis) sing khusus, kanthi saben kasus minangka panel tes getih sing digawe kanthi sintetis. V11 Pembaruan Kapindho ngluwihi evaluasi nganti 100.000 kasus sintetis ing 127 label negara, disebar ing wolung spesialis (pitu asli plus bucket obat internal internal sing khusus sing nyerep subset trap). Rubrik penilaian sing padha ditrapaké byte-identical ing loro run kasebut.

Amarga kabeh kasus digawe kanthi sintetis, ora ana pengenal nyata sing kudu dibusak lan ora ana data pribadi sing melu. Saben kasus sintetis nggawa kode kasus internal kanggo patokan (BT-NNN-LABEL ing set awal V11, sing stabil case_uid ing Pembaruan Kapindho). Ora ana data pribadi sing katon ing ngendi wae ing harness sing diterbitake, laporan teknis, utawa dataset sing dirilis.

rilis awal V11 — 15 kasus sing dipilih manual

Panel kasus V11 asli dipilih kanthi tliti dening Dr. Thomas Klein kanggo ngleksanakake pola diagnostik sing paling kerep digawé salah dening asisten kedokteran laboratorium. Saben-saben saka limalas kasus dipilih kanggo sawijining sifat diagnostik tartamtu, sing kadhaptar ing ngisor iki.

Hematologi (3) BT-001, BT-006, BT-007 Anemia defisiensi wesi · defisiensi B12 · beta-thalassemia minor

Endokrinologi (3) BT-002, BT-008, BT-012 Tiroiditis Hashimoto · PCOS kanthi resistensi insulin · defisiensi vitamin D sing abot

Metabolik (2) BT-003, BT-013 T2DM kanthi sindrom metabolik · hiperurisemia kanthi risiko gout

Hepatologi (2) BT-004, BT-009 NAFLD / NASH · hepatitis virus akut

Nefrologi · Kardiologi · Reumatologi (3) BT-005, BT-010, BT-011 CKD tahap 3 · dislipidemia aterogenik · lupus eritematosus sistemik

Kasus jebakan (2) BT-014, BT-015 Sindrom Gilbert (hiperbilirubinemia indirek terisolasi) · Skrining wong diwasa sing sakèhé normal

Napa sebaran tartamtu iki

Hematologi entuk telung kasus amarga diferensial mikrositik lan diferensial makrositik minangka jebakan volume paling dhuwur ing praktik laboratorium donya nyata. Endokrinologi entuk telung amarga presentasi Hashimoto, PCOS, lan kekurangan vitamin D njalari wujud diagnostik sing beda (dipacu autoantibodi, dipacu rasio hormon, dipacu siji penanda). Spesialisasi siji-kasus isih migunani amarga saben CKD, risiko ASCVD, lan SLE nduwèni sistem penilaian dhewe sing kudu dipanggil mesin (KDIGO staging, risiko 10 taun ASCVD, lan kritéria SLE EULAR/ACR 2019).

V11 Pembaruan Kapindho — 100.000 kasus sintetis ing 127 label negara

Pembaruan Kapindho ngganti literal Python hard-coded 15 kasus asli V11 nganggo himpunan kasus sintetis sing luwih gedhe lan digawe kanthi program. Himpunan kasus dimuat ing wiwitan saben run lan konfigurasi dicatat kanggo transparansi. Distribusi kohort miturut area konten ditampilake ing ngisor iki.

Endokrinologi 23.900 kasus (23.9%) Tiroid, PCOS, vitamin D, sumbu gonadal, hipofisis

Kedokteran metabolik 21.900 kasus (21.9%) T2DM, sindrom metabolik, panel lipid, hiperurisemia

hematologi 15.400 kasus (15.4%) Diferensial mikrositik lan makrositik, B12/folat, studi zat besi

Hepatologi 12.400 kasus (12.4%) NAFLD/NASH, hepatitis virus, FIB-4, kolestasis

Kedokteran internal (kalebu subset trap) 9.000 kasus (9.0%) Presentasi campuran lan 8.723 kasus trap hyperdiagnosis sing khusus

Kardiologi 7.500 kasus (7.5%) Risiko ASCVD, dislipidemia disertai aterogenik, hs-CRP

Rheumatology 6.000 kasus (6.0%) SLE, RA, vaskulitis, panel autoantibodi (kriteria EULAR/ACR)

Nefrologi 4.000 kasus (4.0%) Tahap CKD (KDIGO), tren eGFR, gangguan elektrolit

Distribusi label negara sintetis — 10 label paling ndhuwur

Kasus sintetis 100.000 nggawa 127 label negara (ISO 3166-1 alpha-2) kanggo nyoba penanganan lokalitas (locale handling). Penetapan label: Eropa 57.7%, Amerika 25.4%, Asia-Pasifik 6.2%, label Timur Tengah/Afrika sing dijenengi 3.4%, lan ekor dawa saka 97 label tambahan kira-kira 7.3% gabungan. Sepuluh label sing paling kerep miturut jumlah kasus yaiku Amerika Serikat (10.500), Brasil (9.500), Spanyol (9.000), Italia (8.000), Jerman (7.800), Prancis (7.400), Portugal (5.800), Türkiye (3.400), Britania Raya (2.900), lan Meksiko (2.500). Skor komposit per-label ana ing rentang 0.9971 nganti 0.9985. Jumlah label iki minangka sifat saka kasus sing digawe kanggo nyoba penanganan lokalitas — dudu pangguna nyata lan dudu cakupan geografis ing donya nyata.

Rubrik pra-registrasi, diterangake

Pre-registration minangka pilihan metodologis sing paling wigati ing benchmark iki. Saben diagnosis sing diarepake, saben sistem penilaian klinis, lan saben bagean laporan wis dikomit menyang kode sumber sadurunge mesin dipanggil. Mula, tuning pasca-analisis saka rubrik kanggo ngapusi mesin ora bisa.

Telung komponen nyusun skor komposit. Komponen struktural nyumbang 35 persen lan ngukur apa mesin ngasilake pitung bagean laporan wajib (header, summary, key findings, differential, scoring systems, recommendations, follow-up) lan nembelas subbagian wajib ing njero. Keberadaan bagean bobote 40 persen lan keberadaan subbagian bobote 60 persen ing perhitungan struktural.

Ing komponen klinis nyumbang 55 persen lan nggabungake telung perkara: recall tembung kunci diagnosis (70 persen saka sub-skor klinis), recall sistem penilaian (20 persen — apa mesin ngitung Mentzer, FIB-4, HOMA-IR, risiko ASCVD, KDIGO staging, kritéria EULAR/ACR yen relevan), lan cek validitas jumlah probabilitas (10 persen — probabilitas ing differential kudu jumlahé ana ing interval [90, 110]). Kanggo kasus jebakan, ana penalti hiperdiagnosis sing cetha nganti 0.30 sing dikurangi, diwilang 0.10 saben flag patologi sing digawe, diwatesi maksimal telung flag.

Ing komponen latensi nyumbang 10 persen. Respons ing ngisor 20 detik entuk 0.10 lengkap, respons ing ngisor 40 detik entuk 0.05, lan apa wae sing luwih alon entuk nol. Target 20 detik nggambarake tujuan tingkat layanan produksi primary-path; langit-langit 40 detik nggambarake anggaran fallback Tahap 2 kanggo pemanggilan mesin sing abot.

Sing dicegah dening pre-registration

Benchmark pihak-kaping-siji misuwur amarga nggedhekake angka dhewe liwat tuning rubrik pasca-analisis. Polane meh mesthi padha: tim mbukak mesin, ndeleng ing ngendi kinerja kurang, banjur kanthi tenang nyetel rubrik supaya area sing kurang kinerja dadi luwih ora diitung. Kanthi ngomit rubrik menyang kode sumber sadurunge panggilan mesin pisanan lan nerbitake harness kanthi lisensi MIT, panyesuaian kuwi dadi katon ing kontrol versi. Sapa wae bisa klon repositori, mriksa tanggal panulis rubrik, lan verifikasi manawa asil mesin ora digunakake kanggo mbentuk skor.

Kasus jebakan hiperdiagnosis — kenapa nelpon kakehan iku mode gagal sing sejatine

Nimbali patologi kanthi agresif ing layar sing normal minangka mode kegagalan sing wis didokumentasi kanggo asisten medis sing ditujokake marang konsumen. Biaya hiliré kalebu investigasi sing ora perlu, kuatir pasien, lan pemeriksaan sing nyebabake cilaka (iatrogenik). Rong kasus jebakan ing benchmark iki dirancang supaya mode kegagalan kuwi katon lan bisa dinilai.

🟡 Trap 1 — BT-014-GILBERT

Presentasi. Pria umur 24 taun kanthi bilirubin total 2.4 mg/dL. Fraksi langsung normal, transaminase lan fosfatase alkali ana ing jangkauan rujukan, retikulosit ora ana sing nggumunake, lan haptoglobin lan LDH ngilangi kemungkinan hemolisis.

Interpretasi sing bener. Gilbert's syndrome — polimorfisme UGT1A1 sing jinak. Interpretasi ora kudu nyebut hepatitis, sirosis, anemia hemolitik, utawa obstruksi bilier.

Asil V11. Komposit 1.000. Ora ana siji wae saka enem flag over-diagnosis sing dipantau katon minangka diagnosis aktif.

🟡 Trap 2 — BT-015-HEALTHY

Presentasi. Wanita umur 35 taun kanthi panel skrining rutin sing nduwèni limalas parameter. Saben analit ana kanthi nyaman ing jangkauan rujukan.

Interpretasi sing bener. Panglipur lan njaga gaya urip. Interpretasi aja nganti gawe patologi sing isih wates kanggo muni migunani sacara klinis.

Asil V11. Komposit 1.000. Ora ana siji wae saka pitung pratanda over-diagnosis sing dipantau — diabetes, anemia, hipotiroidisme, dislipidemia, hepatitis, penyakit ginjal, kekurangan — sing katon minangka diagnosis aktif.

Ing loro jebakan kasebut, ana telulas pratanda hyperdiagnosis sing dipriksa. Ora ana sing kepicu. Iki asil sing paling wigati kanggo sembarang dokter sing arep nggunakake mesin AI minangka piranti triase utawa pra-konsultasi: sistem ora nggawe penyakit yen ora ana.

Indeks Mentzer: misahake kekurangan zat besi saka sifat talasemia

Temuan nilai dhuwur kapindho gegayutan karo pasangan kasus BT-001 (anemia kekurangan wesi) karo kasus BT-007 (beta-thalassemia minor). Loro-lorone nuduhake mikrositosis lan dadi alangan sing wis misuwur kanggo klasifikator sing durung pinter. Indeks Mentzer, sing diwilang minangka MCV dibagi cacah RBC, luwih saka 13 ing anemia kekurangan wesi lan mudhun ngisor 13 ing sifat talasemia.

Ing BT-001, pasien yaiku wanita umur 34 taun kanthi hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, feritin 6 ng/mL, lan TIBC sing mundhak. Indeks Mentzer kira-kira 17.7 ndhukung kekurangan wesi absolut. Ing BT-007, pasien yaiku pria umur 28 taun kanthi mikrositosis (MCV 65.8 fL) nanging cacah RBC sing dhuwur 6.2, RDW normal, feritin normal, lan HbA2 5.6 persen. Indeks Mentzer kira-kira 10.6 nuduhake sifat talasemia, lan HbA2 sing mundhak ngukuhake beta-thalassemia minor.

Anemia kekurangan wesi Mentzer > 13 Feritin kurang, TSAT kurang, TIBC dhuwur, RDW mundhak

Sifat beta-thalassemia Mentzer < 13 Feritin normal, RDW normal, HbA2 mundhak (>3.5%), cacah RBC dhuwur

Loro-lorone kasus entuk skor 1.000. Mesin nggunakake indeks Mentzer kanthi cetha ing loro interpretasi lan ngasilake diagnosis sing bener ing saben kasus. Iki asil sing paling menehi panglipur klinis ing sak benchmark, amarga salah nggolongake sifat talasemia minangka kekurangan wesi nyebabake suplementasi wesi sing ora pas lan kesempatan skrining riwayat kulawarga sing keplok, lan salah nggolongake kekurangan wesi minangka talasemia nundha terapi penggantian sing mesthi gampang. Kita babagan rentang feritin nerangake konteks diferensial sing luwih amba.

Asil saben kasus saka run referensi awal V11 (23 April 2026)

Run referensi V11 asli ing kohort proof-of-concept 15 kasus dadi landasan metodologis saka Second Update: saben rincian saben kasus ing ngisor iki nuduhake carane rubrik nangani respons mesin sing nyata. Swelas saka limalas kasus entuk skor komposit langit-langit 1.000 ing jalur utama; telung kasus dilayani liwat fallback Phase 2, kelangan bonus latensi 0.05 nalika njaga kabeh isi klinis lan struktural. Siji kasus ora duwe siji subbagian wajib; siji bali kanthi jumlah distribusi probabilitas sing rada suda.

ID Kasus Spesialisasi Komposit Latensi Path

BT-001-IDAhematologi1.00017.8 sutama

BT-006-B12hematologi1.00018.4 sutama

BT-007-THALhematologi1.00017.0 sutama

BT-002-HASHEndokrinologi0.95037.0 sfallback

BT-008-PCOSEndokrinologi0.98718.6 sutama

BT-003-T2DMMetabolik1.00019.1 sutama

BT-013-GOUTMetabolik1.00019.4 sutama

BT-004-NAFLDHepatologi1.00019.6 sutama

BT-009-VIRHEPHepatologi0.95023.4 sfallback

BT-014-GILBERTTrap1.00018.9 sutama

BT-005-CKDNefrologi1.00017.4 sutama

BT-010-ASCVDKardiologi1.00019.7 sutama

BT-011-SLERheumatology0.98118.2 sutama

BT-012-VITDEndokrinologi1.00019.3 sutama

BT-015-HEALTHYTrap1.00018.7 sfallback

Kasus PCOS (BT-008) kelangan siji subbagian wajib ing struktur respons — sewelas saka nembelas tinimbang nembelas saka nembelas — sing nyuda skor struktural saka 1.000 dadi 0.963. Kasus SLE (BT-011) ngasilake jumlah probabilitas-distribusi sing rada mudhun, sing nyuda skor klinis dadi 0.965 nalika njaga saben tembung kunci diagnostik lan sistem penilaian. Ora ana kasus sing kurang sampurna sing kelangan diagnosis sing bener.

Agregat V11 Second Update — 100,000 kasus

Ing skala populasi, baris kasus individu ora bisa diwaca manungsa, mula Pembaruan Kapindho nglaporake metrik agregat tinimbang tabel 100.000 baris. Agregat utama ditampilake ing ngisor iki; rincian per-spesialisasi lan per-label negara diterbitake ing laporan teknis lan deposit Figshare. Sampel acak terstratifikasi saka n = 201 respons mentah mesin (seed deterministik 20260426) diterbitake ing direktori GitHub results/ kanggo dipriksa.

Skor komposit V11 awal: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 ing kohort 100,000 kasus

Skor struktural (rata-rata) V11 awal: 0.998 → Second Update: 1.000 Kesesuaian struktural sampurna ing skala populasi

Skor klinis (rata-rata) V11 awal: 0.998 → Second Update: 0.996 −0.002; ora ana kasus sing keliru diagnosis dhewe

Latensi — rata-rata (rentang) Inisial V11: 20.17 s (17.0–37.0 s) → Pembaruan Kapindho: 13.26 s (9.0–16.94 s) Optimasi mesin antar-runs

Path mesin = primer Inisial V11: 12 / 15 → Pembaruan Kapindho: 100,000 / 100,000 Ora perlu ana fallback Fase 2 ing sak titik sajrone run

Bendera hyperdiagnosis trap-subset Inisial V11: 0 / 13 → Pembaruan Kapindho: 0 / 87,412 Ora ana false-positive ing skala populasi (8,723 kasus trap diawasi)

Sing ora dicritakake skor headline

Skor komposit 99.80 persen miturut rubrik sing didaftar sadurunge iki, ing kohort sintetis 100.000 kasus sing nyakup 127 label negara, nuduhake kinerja meh tekan langit-langit (near-ceiling) — nanging pantes diwenehi bingkai sing tliti. Asil kasebut njlèntrèhaké prilaku mesin nglawan rubrik sing kita komitmen ing kode sumber ing V11; iki dudu klaim universal babagan bener-salah mesin ing saben panel tes getih sing ana ing donya nyata.

Skor kasebut ngandharake manawa mesin nanganaké pola diagnostik sing dipilih kanggo evaluasi iki kanthi bener ing kohort skala populasi, kanthi metodologi sing diterbitake lan bisa direproduksi. Skor kasebut ora ngandharake manawa mesin bener ing saben panel tes getih sing ana ing donya nyata. Skor kasebut uga ora ngandharake manawa mesin kudu nggantosake pertimbangan klinisi. Lan skor kasebut ora ngandharake manawa mesin luwih unggul tinimbang sistem AI alternatif — analisis komparatif marang mesin liya kanthi sengaja ora kalebu ing laporan iki.

Sing skor kasebut pancèn netepake yaiku dhasar. Amarga rubrik lan harness wis diumumake, versi-versi mangsa ngarep saka mesin bisa dievaluasi nglawan rubrik sing padha — ditrapake marang 15 kasus inisial V11, kohort 100,000 kasus Pembaruan Kapindho, utawa ekspansi sabanjure apa wae — lan celah antarane skor sing diterbitake lan run sabanjure iku dhewe bisa diukur. Iki nilai saka pra-registrasi: ngowahi klaim kinerja dadi klaim sing bisa dites.

Carane mbaleni benchmark iki sajrone 10 menit

Reproduksi mung mbutuhake pasangan kredensial API Kantesti lan lingkungan Python 3.10 utawa luwih anyar kanthi requests lan reportlab perpustakaan sing diinstal. Harness lengkap minangka siji modul Python sing mandiri lan dirilis miturut lisensi MIT.

💻 GitHub Harness nganggo lisensi MIT · respons mentah · reference run 🔗 DOI Figshare 10.6084/m9.figshare.32095435 · cathetan akademik kanonik 🎓 Gapura Riset Publication 404175463 · V11 Second Update · lapisan panemuan akademik 📄 Academia.edu Paper 165956808 · V11 Second Update · lapisan panemuan akademik

Papat langkah kanggo run anyar

Siji. Klon repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Loro. Pasang dependensi nganggo pip install -r requirements.txt (Second Update nambahake mysql-connector-python ≥ 8.0 kanggo SQL case loader). Tiga. Set KANTESTI_USERNAME lan KANTESTI_PASSWORD minangka variabel lingkungan kanggo API mesin. Kanggo SQL case loader ing Second Update, uga set KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, lan KANTESTI_DB_PASSWORD — loader nyambung liwat peran mung-baca (bench_reader) sing ora nduwèni hak istimewa kanggo ngenali tabel. Papat. Jalanake python benchmark_bloodtest.py --limit 100000 kanggo run Second-Update lengkap, utawa python benchmark_bloodtest.py --limit 1000 kanggo iterasi cepet. Output mlebu ing ./benchmark_results/: scorecard CSV kanthi kolom per-country-label lan per-specialty, agregat JSON, sampel raw-response stratified-random, lan laporan Markdown.

Run referensi saka 23 April 2026 (V11 awal, 15 kasus) lan 26 April 2026 (V11 Second Update, 100,000 kasus) dijaga ing results/ direktori repositori. Run anyar bakal ngasilaké scorecard kanthi timestamp anyar nalika run referensi ora diganti. Yen run sampeyan ngasilaké asil sing beda banget, tulung bukak isu GitHub nganggo timestamp run lan versi mesin sing bali ing metadata respons.

Watesan lan karya mangsa ngarep

Sanajan ana 100.000 kasus ing 127 country labels, ana papat keterbatasan sing pantes diakoni kanthi cetha: undersampling label long-tail, evaluasi siji-kali (single-shot), cakupan siji-engine, lan asal data siji-sumber. Saben poin iki lagi ditangani ing karya tindak lanjut sing aktif.

Liputan long-tail label. Pembaruan Kapindho (Second Update) nyakup 127 country labels, nanging distribusine ora seimbang — 10 label paling ndhuwur nyumbang kira-kira 66.4% saka kasus, lan long tail saka 97 label tambahan bebarengan nyumbang kira-kira 7.3% (kira-kira 7.300 kasus gabungan, ~75 kasus saben label rata-rata). Mula, komposit per-label ing long tail iki luwih rame (noisier) tinimbang sing disaranake angka-angka utama. Run mangsa ngarep bakal ngimbangi maneh penetapan label kanggo nguatake estimasi per-label.

Evaluasi siji-sawijining. Saben kasus ing kohort dievaluasi mung sapisan. Model basa gedhé nduwèni variasi output sing ora cilik sanajan ing suhu sampling sing kurang, mula protokol multi-run kanthi limang evaluasi saben kasus lan variasi sing dilaporaké minangka langkah sabanjuré sing lumrah — utamane ing sub-sèt trap-case, ing ngendi konsistensi nalika ana jitter sampling dadi bagean saka klaim keamanan.

Cakupan siji mesin. Laporan iki njlèntrèhaké siji mesin. Analisis perbandingan marang sistem AI alternatif ora kalebu ing kéné; kita bisa ngupayakaké minangka studi independen kapisah kanthi metodologi sing cocog, nggunakake harness sing padha sing dilisensi MIT.

Data sintetis. Saka 100.000 kasus kasebut, sing digawé kanthi sintetis yaiku kasus-kasuse (synthetically generated), dudu “kasus sintetis” (synthetic cases) — asil ora bisa ditransfer menyang kinerja klinis ing donya nyata. Evaluasi nganggo data nyata sing nyata-nyata, wis ana persetujuan (consented), lan sumberé eksternal bakal mbutuhake pengawasan etika sing pantes lan ora kalebu ing ruang lingkup benchmark sintetis iki.

Saliyane patang perkara kasebut, ekstensi sing paling nduwèni pengaruh yaiku kesetaraan multi-basa per yurisdiksi. Mesin Kantesti AI Engine nglayani pangguna ing 75+ basa, lan nglakokaké sub-kohort Second-Update sing stratified miturut basa (Turki, Jerman, Spanyol, Prancis, Italia, Portugis, Arab, Mandarin) bakal ngukur kualitas output ing basa-basa sing didhukung mesin kasebut. Saben analisis sing stratified miturut basa bakal diterbitaké nganggo DOI lan cabang harness dhewe.

Coba Mesin Sing Ngalami 99.80% Skor Komposit ing 100,000 Kasus

Unggah panel tes getihmu dhewe menyang endpoint produksi sing padha karo sing dievaluasi ing benchmark iki. Luwih saka 2 yuta pangguna ing saindenging donya nggunakake mesin AI Kantesti kanggo interpretasi luwih saka 15.000 biomarker ing 75+ basa.

🔬 Coba Demo Gratis

Ekstensi Chrome Toko Aplikasi Google Play

📚 Cara Nglitani Benchmark Iki

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Laporan Teknis V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Referensi Metodologis Eksternal

Mentzer, W. C. (1973). Bedane Kekurangan Wesi saka Sifat Thalassemia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Kriteria Klasifikasi 2019 European League Against Rheumatism / American College of Rheumatology kanggo Systemic Lupus Erythematosus. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Tes Halusinasi Domain Medis kanggo Model Basa Gedhe. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Skor Komposit

100,000Kasus sing Dinilai

127Country Labels sing Dicekupi

0 / 87,412Trap False-Positives

Pitakonan sing Sering Ditakoni

Seberapa akurat mesin AI Kantesti ing tes sintetik?

Ing rubrik sing wis didaftar (pre-registered), dijalanke ing 100.000 kasus uji sing digawé kanthi sintetis ing wolung area konten lan 127 country labels (V11 Second Update), mesin kasebut tekan skor komposit 99.80 persen, kanthi nol flag hiperdiagnosis ing 87.412 kesempatan trap-case sing dipantau lan latensi respons rata-rata 13.26 detik. Komposit iki ngukur kesesuaian output marang input sintetis, dudu akurasi diagnostik. Rilis V11 asli nggunakake rubrik sing padha ing 15 kasus sing digawe manual (komposit 99.12%); Second Update njaga rubrik kasebut byte-identical lan ngluwihi menyang kohort sintetis sing luwih gedhé. Scorecard lengkap diterbitake ing Figshare kanthi DOI 10.6084/m9.figshare.32095435 lan ing GitHub kanthi lisensi MIT.

Apa mesin AI Kantesti wis divalidasi kanthi klinis?

Ora. Mesin wis dievaluasi nganggo automated technical benchmark (dudu validasi klinis), adhedhasar rubrik sing dibekukan ing kode sumber sadurunge run awal V11 lan dijaga byte-identical kanggo V11 Second Update, dievaluasi ing 100.000 kasus uji getih sintetis ing hematologi, endokrinologi, obat/metabolik, hepatologi, nefrologi, kardiologi, reumatologi, lan kedokteran internal, sing dijupuk saka 127 country labels. Pengawasan klinis diwenehake dening Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), hematolog klinis sing tersertifikasi dewan lan Chief Medical Officer ing Kantesti AI.

Apa sing diarani kasus jebakan hyperdiagnosis?

Kasus jebakan hiperdeteksi (hyperdiagnosis trap) yaiku skenario klinis sing dirancang khusus kanggo ndeteksi prilaku over-diagnosis ing mesin AI. Patokan awal V11 nggunakake rong kasus kasebut minangka bukti konsep metodologis: hiperbilirubinemia indirek terisolasi sing cocog karo sindrom Gilbert (ing ngendi interpretasi sing bener yaiku polimorfisme UGT1A1 sing jinak, dudu hepatitis utawa hemolisis) lan panel skrining wong diwasa sing sakabehe normal (ing ngendi output sing bener yaiku panglipur, dudu patologi borderline sing direkayasa). Pembaruan Kapindho V11 nggedhekake metodologi jebakan iki dadi subset khusus 8.723 kasus sing ngasilake 87.412 kesempatan flag hiperdeteksi sing dipantau — lan tingkat false-positive mesin tetep nol.

Apa evaluasi mesin AI Kantesti bisa direproduksi?

Kerangka evaluasi lengkap dirilis miturut lisensi MIT minangka siji modul Python sing mandiri. Eksekusi awal V11 mung mbutuhake pasangan kredensial API Kantesti lan Python 3.10 utawa luwih anyar. Pembaruan Kapindho V11 nambahake pangisi parameter, loader kasus SQL sing mung-baca, sing mbutuhake kredensial repositori klinis Kantesti (a bench_reader peran tanpa hak istimewa kanggo ngenali tabel). Kode kasebut, SQL loader kasus, rubrik (byte-identik antar rilis), lan sampel acak berstrata saka respons mentah mesin saka loro eksekusi referensi V11 awal lan Pembaruan Kapindho kasedhiya ing github.com/emirhanai/kantesti-blood-test-benchmark lan dicermin ing Figshare, ResearchGate, lan Academia.edu.

Kepiye mesin AI Kantesti mbedakake kekurangan zat besi saka sifat beta-thalassemia?

Mesin kasebut nggunakake indeks Mentzer, sing diwilang minangka volume korpuskular rata-rata dibagi jumlah sel getih abang. Indeks Mentzer luwih saka 13 ndhukung anemia defisiensi besi, dene nilai ing ngisor 13 ndhukung trait beta-thalassaemia. Ing patokan awal V11, loro presentasi kasebut diklasifikasikake kanthi bener kanthi perhitungan indeks Mentzer sing cetha, didhukung ferritin, RDW, lan konteks HbA2. Sajrone Pembaruan Kapindho V11 kohort 100.000 kasus, prilaku diferensial sing padha dijaga ing skala populasi.

Ngendi aku bisa nemokake data benchmark mentah lan kode sumber?

Laporan teknis disimpen ing Figshare kanthi DOI 10.6084/m9.figshare.32095435 (ngemot rilis awal V11 lan Pembaruan Kapindho V11), dicermin ing publikasi ResearchGate 404175463 lan makalah Academia.edu 165956808 — loro-lorone dianyari nganggo judhul Pembaruan Kapindho V11 lan asil 100.000 kasus — lan harness Python sing dilisensi MIT kanthi kabeh asil eksekusi referensi ana ing github.com/emirhanai/kantesti-blood-test-benchmark. Jaringan cermin ing papat platform njamin kasedhiyan jangka panjang lan keluwesan sitasi.

Napa pre-registration penting kanggo benchmark medis AI?

Pre-registration nyegah tuning rubrik pasca-kasunyatan (post-hoc), yaiku cara paling umum sing digunakake perusahaan kanggo nggedhekake angka-angkane dhewe. Kanthi ngiket rubrik menyang kode sumber sadurunge ana panggilan mesin apa wae lan nerbitake kerangka kasebut kanthi umum, tanggal penulis rubrik dadi bisa dicek ing kontrol versi, lan asil mesin ora bisa mbentuk kritéria penilaian.

Apa benchmark iki kalebu perbandingan karo mesin AI liyane?

Ora. Laporan V11 — loro-lorone rilis awal lan Pembaruan Kapindho — kanthi sengaja nggambarake siji mesin nglawan rubrik tetep tinimbang nempatake marang sistem komersial alternatif. Kerangka kasebut open source miturut lisensi MIT (saiki kalebu SQL case loader), mula peneliti independen bisa ngevaluasi mesin apa wae sing dipilih nglawan rubrik lan case loader sing padha lan nerbitake asilé.

Apa kasus pasien iki nyata utawa sintetik?

Kabeh kasus digawé kanthi sintetis — 15 kasus sing digawe manual ing rilis awal V11 lan 100.000 ing Second Update. Ora kalebu “kasus sintetis”: ora ana data sintetis, ora ana proses persetujuan (consent), lan ora ana de-identification, amarga ora ana data pribadi ing kohort kasebut. Ora ana data pribadi sing katon ing harness sing diterbitake, technical report, utawa dataset sing dirilis.

⚕️ Pernyataan Disclaimer Medis & Konflik Kepentingan

Laporan patokan iki kanggo riset lan transparansi metodologis. Iki ora dadi nasihat medis, dudu diagnosis, lan ora nggantos perawatan medis profesional; asil apa wae ing kéné ora kena digunakaké kanggo nundha utawa nyingkiri njaluk dhokter. Tansah takon panyedhiya layanan kesehatan sing mumpuni kanggo keputusan diagnosis lan perawatan. Iki minangka patokan internal sing dijalokaké dhéwé saka mesin perusahaan dhewe lan durung divalidasi kanthi independen utawa ditinjau sejawat. Skor komposit ngukur kesesuaian marang rubrik sing tetep (struktur laporan, recall tembung kunci lan sistem penilaian, lan latensi); dudu ukuran akurasi diagnostik ing donya nyata utawa keamanan klinis. Loro penulis padha digawé déning lan nduwèni ekuitas ing Kantesti Ltd, lan mesin sing dievaluasi minangka produk komersial saka organisasi sing padha. Konflik kepentingan iki dikurangi kanthi pre-registrasi rubrik ing kode sumber, ngeculaké harness miturut lisensi MIT, lan nerbitaké sampel acak mentah sing stratifikasi saka respons mesin.

Sinyal Kepercayaan E-E-A-T

⭐

Pengalaman

15+ taun pengalaman praktik hematologi klinis lan kedokteran laboratorium kanggo ngawasi pilihan panel kasus.

📋

Keahlian

Desain rubrik sing wis pre-registered kanthi penalti hyperdiagnosis sing cetha lan sistem penilaian klinis sing diakoni (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Kewibawaan

Penulis utama Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementasi dening Julian Emirhan Bulut, CEO saka Kantesti Ltd.

🛡️

Kapercayan

Kerangka sing bisa direproduksi kanthi lisensi MIT, respons mentah mesin diterbitake, keterbukaan konflik kepentingan sing mbukak, jaringan cermin riset ing papat platform.

🏢 Kantesti LTD Didaftar ing Inggris & Wales · Nomer Perusahaan. 17090423 London, Inggris Raya · kantesti.net