Kantesti AI Blood Test Benchmark — Klinikal na Pagpapatunay

Awtomatikong Benchmark Paunang Nirehistrong Benchmark V11 Ikalawang Update — Abril 2026 Lisensyado sa MIT Naaulit · Bukas na Data 100K Sintetikong Cohort · 127 Mga Label ng Bansa

99.80% Komposit na Marka sa Isang Pre-Rehistradong Rubric — V11 Ikalawang Update, Cohort na 100,000 Kaso sa 127 Mga Label ng Bansa

Isang pre-rehistrado, nakabatay sa rubric na awtomatikong teknikal na benchmark ng Kantesti engine sa 100,000 synthetically generated na mga kaso ng blood test na may tag na 127 mga label ng bansa. Sinusukat nito ang pagsunod sa output, hindi ang katumpakan sa diagnostic. Ang rubric ay na-freeze sa source code bago ang unang paglabas ng V11 at nanatiling byte-identical para sa Ikalawang Update na ito; ang evaluation harness ay lisensyado ng MIT; isang stratified random sample ng mga raw na tugon ng engine ang inilalathala para sa inspeksyon. Lahat ng kaso ay sintetik; walang personal na data na ginagamit.

📖 ~14 minuto 📅 Inilathala noong Abril 23, 2026 · Na-update noong Abril 26, 2026 (V11 Ikalawang Update) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Nai-publish: Abril 23, 2026 🔄 V11 Ikalawang Update: Abril 26, 2026 🩺 Medikal na Sinuri: Abril 26, 2026 ✅ Pre-Registered Rubric (Byte-Identical) 🔓 Bukas na Code at Data

Ang awtomatikong benchmark na ito ay idinisenyo at isinagawa ni Julian Emirhan Bulut, Senior AI Engineer at CEO ng Kantesti Ltd. Ang pagmamarka ay ganap na awtomatiko sa source code; ang pamantayan sa pagmamarka at panel ng mga kaso ay binuo na may klinikal na input mula sa Dr. Thomas Klein, MD, Chief Medical Officer sa Kantesti AI, at sinuri ng Lupon ng Tagapayo sa Medikal na Kantesti AI. Ito ay isang self-run na internal benchmark, hindi isang independiyente o peer-reviewed na awtomatikong teknikal na benchmark.

Lead Author at Klinikal na Pangangasiwa

Thomas Klein, MD

Punong Opisyal Medikal, Kantesti AI

Si Dr. Thomas Klein ay isang board-certified na klinikal na hematologist at internist na may higit 15 taon ng karanasan sa laboratoryong medisina. Bilang Chief Medical Officer sa Kantesti AI, pinili niya ang case panel para sa benchmark na ito, sinuri ang klinikal na nilalaman at inaasahang mga sagot ng mga sintetikong kaso, at inaprubahan ang pre-rehistradong rubric bago ang unang invocation ng engine.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Co-Author at Implementasyon

Julian Emirhan Bulut

Senior AI Engineer at CEO, Kantesti Ltd

Si Julian Emirhan Bulut ang tagapagtatag at CEO ng Kantesti Ltd. Dinisenyo at ipinatupad niya ang evaluation harness — kabilang ang SQL case loader na idinagdag para sa V11 Ikalawang Update — isinagawa ang API integration, isinagawa ang parehong V11 initial reference run at ang V11 Ikalawang Update na 100,000-kaso na run, at inihanda ang estadistikal na pagsasama-sama. Tagapagtatag ng platform mula 2019.

GitHub Tungkol sa Kantesti

⚡ Mabilisang Buod V11 Ikalawang Update — Abril 26, 2026

99.80% composite score sa 100,000 syntetikong mga kaso ng blood test sa walong medikal na specialty at 127 mga label ng bansa (V11 Ikalawang Update).
Zero hyperdiagnosis false-positives sa 87,412 na na-monitor na trap-case flag opportunities — parehong trap-case methodology gaya ng V11 initial, pinalaki sa antas ng populasyon.
Pre-registered rubric na-freeze sa source code bago ang V11 initial run at nanatiling byte-identical para sa Ikalawang Update na ito — walang posibleng post-hoc tuning.
Tama ang paglalapat ng Mentzer index upang pag-iba-ibahin ang iron deficiency anaemia mula sa beta-thalassaemia minor sa V11 initial release; ang magkaibang pag-uugali ay napanatili sa antas ng populasyon.
Production endpoint lamang — walang privileged routing, sinuri nang eksakto kung paano ito maa-access ng isang nagbabayad na customer.
13.26 segundo na mean latency end-to-end (saklaw 9.0–16.94 s), na ang lahat ng 100,000 kaso ay natapos sa pangunahing path ng engine.
Sintetikong cohort. 100,000 synthetically generated na test cases na na-load sa run-time. Walang synthetic data at walang personal na data ang ginagamit.
MIT-licensed harness inilabas sa GitHub kasama ang isang stratified random sample (n = 201) ng buong hilaw na tugon ng engine para sa inspeksyon.
Figshare DOI: 10.6084/m9.figshare.32095435 · Naka-mirror sa ResearchGate, Academia.edu, GitHub.

Bakit umiiral ang benchmark na ito at ano ang sinusubok nito

Ang AI-assisted blood test interpretation ay lalong ginagamit sa mga consumer at clinical workflow, ngunit ang mga reproducible na evaluation framework na iniayon sa laboratory medicine ay nananatiling bihira. Ang mga tanong na pinakamahalaga sa sitwasyong ito ay hindi yaong saklaw ng mga pangkalahatang medical question-answering benchmarks: kaya ba ng isang engine na paghiwalayin ang iron deficiency mula sa thalassaemia trait kapag magkapareho ang mean corpuscular volume, ina-over-diagnose ba nito ang Gilbert's syndrome bilang hepatitis, at gumagawa ba ito ng patolohiya sa isang ganap na normal na screening panel?

Ang isang solong blood test panel ay karaniwang naglalaman ng sapat na signal upang suportahan ang ilang magkakumpitensyang interpretasyon, at ang tungkulin ng nagpapakahulugang clinician ay timbangin ang mga interpretasyong iyon laban sa bawat isa, sa halip na kumuha ng sagot na parang nasa textbook. Ang isang engine na mahusay sa mga kasong pang-textbook ay maaari pa ring mabigo sa mga kasong pinakamahalaga: ang mga bitag sa differential diagnosis, ang mga benign variant na mukhang nakababahala kapag mag-isa, at ang mga ganap na normal na panel na nakatutukso sa mga kumpiyansyang assistant na gumawa ng patolohiya.

Ang benchmark na ito ay ginawa eksakto para sa mga mode ng pagkabigong iyon. Ang labinlimang kaso ay pinili para sa isang partikular na katangiang diagnostiko: isang microcytosis na dulot ng kakulangan sa bakal na kailangang manatiling hiwalay sa beta-thalassaemia trait na may magkaparehong mean corpuscular volume, isang presentasyon ng Gilbert's syndrome kung saan ang tanging abnormalidad ay nakahiwalay na indirect hyperbilirubinaemia, at isang labinlimang-parameter na screening panel kung saan ang bawat analyte ay nasa loob ng reference range nito. Gantimpalaan ang mga engine na binabasa ang bawat kaso ayon sa sarili nitong konteksto at parusahan ang mga engine na umaabot sa isang kumpiyansyang diagnosis kung saan walang ganitong diagnosis na nararapat.

Bilang si Thomas Klein, MD, pinili ko ang panel ng mga kasong ito dahil ito ang mga pattern na madalas kong makita na nagkakamali ang mga laboratoryo-medicine assistant. Ang mahal na mode ng pagkabigo ay hindi "ang makaligtaan ang isang bihirang sakit"—ito ay ang paglikha ng rutin na patolohiya sa mga pasyenteng wala naman nito. Ang aming Medikal na Pagpapatunay Inilalarawan ng hub ang mas malawak na balangkas; inilalarawan ng pahinang ito ang V11 initial proof-of-concept at ang V11 Ikalawang Update na pinalawak ito sa 100,000 syntetikong kaso na hinango mula sa isang syntetikong set ng kaso na sumasaklaw sa 127 mga label ng bansa — gamit ang parehong scoring rubric, byte-identical, at walang pinapahintulutang post-hoc tuning.

Pinakabagong reference run—V11 Second Update (Abril 26, 2026)

Ang reference run ng V11 Second Update noong 26 Abril 2026 ay nagbunga ng composite score na 99.80% sa parehong pre-registered rubric na ginamit sa V11 initial release, na sinuri sa 100,000 sintetikong kaso na hinango mula sa Kantesti syntetikong set ng kaso at sumasaklaw sa 127 mga label ng bansa at mga wikang 75+. Bawat kaso ay natapos sa pangunahing path ng engine; ang trap-case hyperdiagnosis flag activations ay nanatili sa 0 / 87,412. Ang orihinal na V11 run noong 23 Abril 2026 ay sumaklaw sa 15 hand-curated na kaso (composite 99.12%) at napatunayan ang rubric; ang Second Update ay pinapanatili ang rubric na eksaktong magkapareho sa antas ng byte at pinalalawak ang pagsusuri sa isang cohort na pang-populasyon.

Pinagsama-samang marka 99.80% 100,000 sa 100,000 na kaso ang may score

1.000 Structural score

0.996 Clinical score

13.26 s Mean latency

0 / 87,412 Trap false-positives

Ang pinagsama-samang pormula ay pinagsasama ang tatlong bahagi: structural na pagsunod sa pitong mandatoryong report section at labing-anim na mandatoryong subseksiyon, katumpakan ng nilalaman na sinusukat bilang keyword recall kasama ang scoring-system recall kasama ang isang validity check ng probability-distribution, at oras ng pagtugon laban sa pangunahing-path service-level target. Ang eksaktong pagkakabuo ay ipinapakita sa rubric formula sa ibaba—wala sa mga timbang o sub-rubrics na ito ang binago para sa Second Update.

Pinagsama-samang marka = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

Ang natitirang 0.20 percentage points ng headroom ay halos buo na napupunta sa clinical sub-score—isang maliit na bahagi ng mga kaso (pangunahin sa Hepatology at Rheumatology) ang may isang inaasahang keyword ng scoring-system na wala sa interpretasyon ng engine kahit tama ang nilalaman ng diagnostic. Walang kaso sa 100,000-case Second-Update cohort ang nakaligtaan ang mismong diagnosis. Bumuti ang latency mula sa mean na 20.17 s sa V11 initial release patungong 13.26 s sa Second Update, na sumasalamin sa mga optimisations ng production engine sa pagitan ng dalawang run; ang rubric, ang scoring code, at ang API endpoint ay hindi nagbago.

Ang per-label na komposit na marka ay mula 0.9971 hanggang 0.9985 sa 30 sa pinakamaraming kinatawang label ng bansa. Ang long tail ng 97 karagdagang label (≈7,300 kaso na pinagsama) ay walang sistematikong pagkasira. Ang pinakadalas na mga label ayon sa bilang ng kaso ay ang Estados Unidos (10,500), Brazil (9,500), Spain (9,000), Italy (8,000), Germany (7,800), France (7,400), Portugal (5,800), Türkiye (3,400), United Kingdom (2,900), at Mexico (2,500).

Mula 15 kaso hanggang 100,000: ebolusyon ng cohort sa 127 mga label ng bansa

Ang orihinal na V11 case panel ay sumasaklaw sa pitong specialty — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — kasama ang dalawang nakalaang hyperdiagnosis trap cases, na ang bawat kaso ay isang synthetically generated na blood-test panel. Ang V11 Ikalawang Update ay nagpapalawak ng pagsusuri sa 100,000 sintetikong kaso sa 127 mga label ng bansa, na ipinamamahagi sa walong specialty (ang orihinal na pito plus isang nakalaang internal-medicine bucket na sumisipsip sa trap subset). Ang parehong scoring rubric ay inilalapat nang eksaktong magkapareho sa antas ng byte sa parehong run.

Dahil ang lahat ng kaso ay synthetically generated, walang mga tunay na identifier na kailangang alisin at walang personal na data na kasangkot. Ang bawat sintetikong kaso ay may benchmark-internal case code (BT-NNN-LABEL sa V11 initial set, isang stable case_uid sa Ikalawang Update). Walang personal na data na lumilitaw kahit saan sa inilathalang harness, teknikal na ulat, o mga inilabas na dataset.

V11 initial release—15 hand-curated cases

Ang orihinal na V11 case panel ay manu-manung pinili ni Dr. Thomas Klein upang pag-aralan ang mga pattern ng diagnostic na madalas na nagkakamali ang mga katulong sa laboratoryo-medisina. Ang bawat isa sa labinlimang kaso ay pinili para sa isang partikular na katangiang diagnostic, na nakalista sa ibaba.

Hematology (3) BT-001, BT-006, BT-007 Iron deficiency anaemia · kakulangan sa B12 · beta-thalassaemia minor

Endocrinology (3) BT-002, BT-008, BT-012 Hashimoto's thyroiditis · PCOS na may insulin resistance · matinding kakulangan sa vitamin D

Metabolic (2) BT-003, BT-013 T2DM na may metabolic syndrome · Hyperuricaemia na may panganib sa gout

Hepatology (2) BT-004, BT-009 NAFLD / NASH · talamak na viral hepatitis

Nephrology · Cardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD stage 3 · atherogenic dyslipidaemia · systemic lupus erythematosus

Trap cases (2) BT-014, BT-015 Gilbert's syndrome (nakahiwalay na indirect hyperbilirubinaemia) · ganap na normal na adult screen

Bakit ang partikular na pamamahaging ito

Ang hematolohiya ay nakakakuha ng tatlong kaso dahil ang mga microcytic differential at macrocytic differential ang pinakamataas na “trap” sa dami sa aktuwal na gawain sa laboratoryo. Ang endokrinolohiya ay nakakakuha rin ng tatlong kaso dahil ang mga presentasyon ng Hashimoto, PCOS, at kakulangan sa vitamin D ay humuhubog ng magkaibang hugis ng diagnostic (na hinihimok ng autoantibody, na hinihimok ng ratio ng hormone, at na hinihimok ng iisang marker). Ang mga specialty na isang kaso lang ay makabuluhan pa rin dahil ang bawat CKD, panganib sa ASCVD, at SLE ay may sariling sistema ng pagmamarka na dapat tawagin ng engine (ayon sa KDIGO staging, ASCVD 10-year risk, at 2019 EULAR/ACR SLE criteria, ayon sa pagkakabanggit).

V11 Ikalawang Update — 100,000 sintetikong kaso sa 127 mga label ng bansa

Pinapalitan ng Ikalawang Update ang orihinal na V11 hard-coded na 15-case Python literal ng isang mas malaking, programmatically generated na syntetikong set ng kaso. Ang set ng kaso ay na-load sa simula ng bawat run at ang configuration ay naka-log para sa transparency. Ang pamamahagi ng cohort ayon sa content area ay ipinapakita sa ibaba.

Endocrinology 23,900 kaso (23.9%) Thyroid, PCOS, kakulangan sa vitamin D, gonadal axis, pituitary

Metabolic medicine 21,900 kaso (21.9%) T2DM, metabolic syndrome, lipid panels, hyperuricaemia

Hematology 15,400 kaso (15.4%) Mga pagkakaibang microcytic at macrocytic, B12/folate, iron studies

Hepatology 12,400 kaso (12.4%) NAFLD/NASH, viral hepatitis, FIB-4, cholestasis

Internal medicine (kabilang ang trap subset) 9,000 kaso (9.0%) Mga halo-halong presentasyon at 8,723 nakalaang hyperdiagnosis trap cases

Kardyolohiya 7,500 kaso (7.5%) ASCVD risk, atherogenic dyslipidaemia, hs-CRP

Rheumatology 6,000 kaso (6.0%) SLE, RA, vasculitis, autoantibody panels (mga pamantayan ng EULAR/ACR)

Nefrolohiya 4,000 kaso (4.0%) Pagmamarka ng CKD (KDIGO), mga trend ng eGFR, kaguluhan sa electrolyte

Sintetikong pamamahagi ng label ng bansa — top 10 label

Ang 100,000 sintetikong kaso ay may dalang 127 mga label ng bansa (ISO 3166-1 alpha-2) upang subukan ang paghawak ng locale. Pagtatalaga ng label: Europe 57.7%, ang Americas 25.4%, Asia-Pacific 6.2%, mga pinangalanang Middle-East/Africa label 3.4%, at isang long tail ng 97 karagdagang label na humigit-kumulang 7.3% na pinagsama. Ang sampung pinakadalas na label ayon sa bilang ng kaso ay ang Estados Unidos (10,500), Brazil (9,500), Spain (9,000), Italy (8,000), Germany (7,800), France (7,400), Portugal (5,800), Türkiye (3,400), United Kingdom (2,900), at Mexico (2,500). Ang per-label na komposit na marka ay mula 0.9971 hanggang 0.9985. Ang mga bilang ng label na ito ay mga katangian ng mga generated na kaso na ginamit upang subukan ang paghawak ng locale — hindi ito mga tunay na user at hindi rin ito totoong saklaw sa heograpiya.

Ang ipinalang paunang nirehistrong rubric, ipinaliwanag

Ang pre-registration ang pinakamahalagang pagpiling metodolohikal sa benchmark na ito. Ang bawat inaasahang diagnosis, bawat klinikal na sistema ng pagmamarka, at bawat seksyon ng ulat ay ipinangako sa source code bago tinawag ang engine. Kaya ang post-hoc tuning ng rubric para pagandahin ang performance ng engine ay imposible.

Tatlong bahagi ang bumubuo sa composite score. Ang structural component ay nag-aambag ng 35 porsyento at sinusukat kung ibinalik ng engine ang pitong mandatory na seksyon ng ulat (header, summary, key findings, differential, scoring systems, recommendations, follow-up) at ang labing-anim na mandatory na subseksiyon sa loob ng mga iyon. Ang presensya ng seksyon ay may bigat na 40 porsyento at ang presensya ng subseksiyon ay may bigat na 60 porsyento sa structural calculation.

Ang clinical component ay nag-aambag ng 55 porsyento at pinagsasama ang tatlong bagay: diagnosis-keyword recall (70 porsyento ng clinical sub-score), scoring-system recall (20 porsyento — kinakalkula ba ng engine ang Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria kung naaangkop), at isang probability-sum validity check (10 porsyento — ang mga differential probability ay dapat sumama sa loob ng [90, 110] interval). Para sa trap cases, isang tahasang hyperdiagnosis penalty na hanggang 0.30 ang ibinabawas, kinakalkula bilang 0.10 kada fabricated pathology flag, na nililimitahan sa tatlong flag.

Ang latency component ay nag-aambag ng 10 porsyento. Ang tugon na mas mababa sa 20 segundo ay nakakakuha ng buong 0.10, ang tugon na mas mababa sa 40 segundo ay nakakakuha ng 0.05, at ang anumang mas mabagal ay zero. Ang target na 20 segundo ay sumasalamin sa production primary-path service-level objective; ang 40-segundong kisame ay sumasalamin sa Phase 2 fallback budget para sa mabibigat na invocation ng engine.

Ano ang pinipigilan ng pre-registration

Ang mga first-party benchmark ay kilalang nagpapalaki ng sarili nilang mga numero sa pamamagitan ng post-hoc rubric tuning. Halos palaging pareho ang pattern: pinapatakbo ng team ang engine, tinitingnan kung saan ito kulang, pagkatapos ay tahimik na ina-adjust ang rubric upang ang mga lugar na hindi maganda ang performance ay mabigyan ng mas maliit na bigat. Sa pamamagitan ng pag-commit ng rubric sa source code bago ang unang tawag sa engine at paglalathala ng harness sa ilalim ng lisensyang MIT, nagiging nakikita ang adjustment na iyon sa version control. Kahit sino ay puwedeng i-clone ang repository, tingnan ang mga petsa ng awtor ng rubric, at beripikahin na ang mga resulta ng engine ay hindi ginamit para hubugin ang pagmamarka.

Mga kaso sa hyperdiagnosis trap — bakit ang sobrang pag-aangkin ang tunay na failure mode

Ang agresibong pag-over-call ng patolohiya sa normal na screens ay isang dokumentadong uri ng pagkabigo ng mga consumer-facing medical assistant. Kasama sa mga downstream cost ang hindi kinakailangang imbestigasyon, pagkabalisa ng pasyente, at iatrogenic workup. Ang dalawang trap cases sa benchmark na ito ay idinisenyo upang gawing nakikita at masusukat ang uri ng pagkabigong iyon.

🟡 Trap 1 — BT-014-GILBERT

Presentasyon. Isang 24-taong gulang na lalaki na may kabuuang bilirubin na 2.4 mg/dL. Ang direct fraction ay normal, ang transaminases at alkaline phosphatase ay nasa loob ng kanilang reference ranges, ang reticulocytes ay walang kapansin-pansing abnormalidad, at ang haptoglobin at LDH ay nag-aalis ng haemolysis.

Tamang interpretasyon. Gilbert's syndrome — isang benign UGT1A1 polymorphism. Ang interpretasyon ay hindi dapat tumawag ng hepatitis, cirrhosis, haemolytic anaemia, o biliary obstruction.

Resulta ng V11. Composite 1.000. Wala sa anim na monitored over-diagnosis flags ang lumitaw bilang aktibong diagnosis.

🟡 Trap 2 — BT-015-HEALTHY

Presentasyon. Isang 35-taong gulang na babae na may labinlimang-parameter na routine screening panel. Ang bawat analyte ay kumportable sa loob ng reference range nito.

Tamang interpretasyon. Pagbibigay ng katiyakan at pagpapanatili ng pamumuhay. Ang interpretasyon ay hindi dapat mag-imbento ng borderline na patolohiya upang magmukhang klinikal na kapaki-pakinabang.

Resulta ng V11. Composite 1.000. Wala sa pitong mino-monitor na over-diagnosis flag—diabetes, anemia, hypothyroidism, dyslipidaemia, hepatitis, sakit sa bato, kakulangan—ang lumabas bilang aktibong diagnosis.

Sa parehong traps, labing-tatlong mino-monitor na hyperdiagnosis flag ang sinuri. Wala sa mga ito ang na-trigger. Ito ang resulta na pinakamahalaga para sa anumang clinician na isinasaalang-alang ang paggamit ng AI engine bilang triage o pang-pre-consultation na tool: hindi nag-imbento ang sistema ng sakit kung wala naman.

Mentzer index: paghihiwalay ng kakulangan sa iron mula sa thalassemia trait

Ang isa pang may mataas na halaga na natuklasan ay ang pag-uugnay ng case BT-001 (iron deficiency anaemia) sa case BT-007 (beta-thalassaemia minor). Pareho silang may microcytosis at isang kilalang sagabal para sa mga walang karanasan na classifier. Ang Mentzer index, na kinakalkula bilang MCV na hinati sa bilang ng RBC, ay lumalampas sa 13 sa iron deficiency at bumababa sa 13 sa thalassaemia trait.

Sa BT-001, ang pasyente ay isang 34-taong gulang na babae na may hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, at mataas na TIBC. Ang Mentzer index na humigit-kumulang 17.7 ay sumusuporta sa absolute iron deficiency. Sa BT-007, ang pasyente ay isang 28-taong gulang na lalaki na may microcytosis (MCV 65.8 fL) ngunit mataas na RBC count na 6.2, normal na RDW, normal na ferritin, at HbA2 na 5.6 porsiyento. Ang Mentzer index na humigit-kumulang 10.6 ay tumuturo sa thalassaemia trait, at ang mataas na HbA2 ay nagpapatunay ng beta-thalassaemia minor.

Iron deficiency anaemia Mentzer > 13 Mababang ferritin, mababang TSAT, mataas na TIBC, mataas na RDW

Beta-thalassaemia trait Mentzer < 13 Normal na ferritin, normal na RDW, mataas na HbA2 (>3.5%), mataas na RBC count

Parehong nakakuha ang dalawang kaso ng 1.000. Tahasang ginamit ng engine ang Mentzer index sa parehong interpretasyon at ibinalik ang tamang diagnosis sa bawat pagkakataon. Ito ang iisang resultang pinaka-nakakapanatag sa klinika sa buong benchmark, dahil ang maling pag-classify sa thalassaemia trait bilang iron deficiency ay humahantong sa hindi naaangkop na pagdaragdag ng bakal at napalampas ang mga pagkakataong mag-screen ng pamilya, at ang maling pag-classify sa iron deficiency bilang thalassaemia ay nagpapabagal sa tuwirang replacement therapy. Ang aming gabay sa hanay ng ferritin ay nagpapaliwanag sa mas malawak na konteksto ng differential.

Mga resulta kada kaso mula sa V11 initial reference run (Abril 23, 2026)

Ang orihinal na V11 reference run sa 15-case proof-of-concept cohort ay nagsisilbing metodolohikal na pundasyon ng Second Update: bawat detalye kada kaso sa ibaba ay nagpapakita kung paano hinahawakan ng rubric ang isang tunay na tugon ng engine. Labindalawa sa labinlimang kaso ang nakamit ang ceiling composite score na 1.000 sa pangunahing path; tatlong kaso ang naihatid sa pamamagitan ng Phase 2 fallback, na nawalan ng 0.05 latency bonus habang pinapanatili ang lahat ng klinikal at estruktural na nilalaman. Isang kaso ang nawalan ng isang solong mandatory subsection; ang isa ay nagbalik ng bahagyang nabawasang probability distribution sum.

Case ID Specialty Pinagsama-samang marka Latency Path

BT-001-IDAHematology1.00017.8 sprimary

BT-006-B12Hematology1.00018.4 sprimary

BT-007-THALHematology1.00017.0 sprimary

BT-002-HASHEndocrinology0.95037.0 sfallback

BT-008-PCOSEndocrinology0.98718.6 sprimary

BT-003-T2DMMetabolic1.00019.1 sprimary

BT-013-GOUTMetabolic1.00019.4 sprimary

BT-004-NAFLDHepatology1.00019.6 sprimary

BT-009-VIRHEPHepatology0.95023.4 sfallback

BT-014-GILBERTTrap1.00018.9 sprimary

BT-005-CKDNefrolohiya1.00017.4 sprimary

BT-010-ASCVDKardyolohiya1.00019.7 sprimary

BT-011-SLERheumatology0.98118.2 sprimary

BT-012-VITDEndocrinology1.00019.3 sprimary

BT-015-MALUSOGTrap1.00018.7 sfallback

Ang kaso ng PCOS (BT-008) ay nawalan ng isang mandatoryong subsection sa istruktura ng tugon—labinlima sa labing-anim imbes na labing-anim sa labing-anim—na nagbawas ng structural score mula 1.000 hanggang 0.963. Ang kaso ng SLE (BT-011) ay nagbalik ng bahagyang nabawasang kabuuan ng probability-distribution na nagpaibaba ng clinical score sa 0.965 habang pinapanatili ang bawat diagnostic keyword at scoring system. Wala sa dalawang kasong hindi perpekto ang nakaligtaan ang tamang diagnosis.

V11 Second Update aggregate — 100,000 kaso

Sa antas ng populasyon, ang mga indibidwal na row ng kaso ay hindi nababasa ng tao, kaya ang Ikalawang Update ay nag-uulat ng mga pinagsama-samang sukatan sa halip na isang talahanayan na may 100,000 row. Ang pangunahing pinagsama-samang resulta ay ipinapakita sa ibaba; ang per-specialty at per-country-label breakdown ay inilalathala sa teknikal na ulat at sa Figshare deposit. Isang stratified random sample ng n = 201 raw engine responses (deterministic seed 20260426) ay inilalathala sa GitHub results/ directory para sa inspeksyon.

Composite score V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 sa 100,000-case cohort

Structural score (mean) V11 initial: 0.998 → Second Update: 1.000 Perpektong pagsunod sa estruktura sa antas ng populasyon

Clinical score (mean) V11 initial: 0.998 → Second Update: 0.996 −0.002; walang kaso ang napalampas ang mismong diagnosis

Latency — ibig sabihin (saklaw) Paunang V11: 20.17 s (17.0–37.0 s) → Ikalawang Update: 13.26 s (9.0–16.94 s) Mga pag-optimize ng production engine sa pagitan ng mga run

Engine path = primary Paunang V11: 12 / 15 → Ikalawang Update: 100,000 / 100,000 Walang kinakailangang Phase 2 fallback sa anumang punto sa panahon ng run

Mga flag ng trap-subset hyperdiagnosis Paunang V11: 0 / 13 → Ikalawang Update: 0 / 87,412 Zero false-positives sa antas ng populasyon (8,723 trap case na sinusubaybayan)

Ang hindi sinasabi sa atin ng headline score

Ang isang komposit na marka na 99.80 porsiyento sa ilalim ng partikular na pre-rehistradong rubric na ito, sa isang 100,000-case na sintetikong cohort na sumasaklaw sa 127 mga label ng bansa, ay kumakatawan sa halos-ceiling na performance — ngunit nararapat itong maingat na i-frame. Inilalarawan ng resulta ang pag-uugali ng engine laban sa rubric na ipinangako namin sa source code sa V11; hindi ito isang unibersal na pag-aangkin tungkol sa katumpakan ng engine sa bawat blood test panel na umiiral sa totoong mundo.

Sinasabi ng marka na hinarap ng engine nang tama ang mga diagnostic pattern na pinili para sa evaluasyong ito sa buong cohort na nasa antas ng populasyon, gamit ang isang metodolohiyang inilathala at maaaring ulitin. Hindi nito sinasabi na tama ang engine sa bawat blood test panel na umiiral sa totoong mundo. Hindi rin nito sinasabi na dapat palitan ng engine ang paghatol ng clinician. At hindi rin nito sinasabi na nalalampasan ng engine ang mga alternatibong AI system — ang mga paghahambing na pagsusuri laban sa ibang engine ay sinadyang hindi saklaw ng ulat na ito.

Ang itinatatag ng marka ay isang baseline. Kapag naging pampubliko ang rubric at harness, maaaring suriin ang mga susunod na bersyon ng engine laban sa parehong rubric — inilapat sa paunang V11 na 15 kaso, sa Ikalawang Update na cohort na 100,000 kaso, o sa anumang kasunod na pagpapalawak — at ang agwat sa pagitan ng inilathalang marka at anumang susunod na run ay nasusukat mismo. Ito ang halaga ng pre-registration: ginagawang mga mapapatunayang pahayag ang mga claim tungkol sa performance.

Paano muling likhain ang benchmark na ito sa loob ng 10 minuto

Ang pag-uulit ay nangangailangan lamang ng isang pares ng Kantesti API credential at isang kapaligirang Python 3.10 o mas bago na may requests at reportlab na naka-install na mga library. Ang buong harness ay isang iisang self-contained Python module na inilalabas sa ilalim ng lisensyang MIT.

💻 GitHub MIT-licensed harness · raw responses · reference run 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · canonical academic record 🎓 ResearchGate Publication 404175463 · V11 Second Update · academic discovery layer 📄 Academia.edu Paper 165956808 · V11 Second Update · academic discovery layer

Apat na hakbang para sa isang bagong run

Isa. I-clone ang repository: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dalawa. I-install ang mga dependency gamit ang pip install -r requirements.txt (Ang Second Update ay nagdaragdag ng mysql-connector-python ≥ 8.0 para sa SQL case loader). Tatlo. Itakda ang KANTESTI_USERNAME at KANTESTI_PASSWORD bilang mga environment variable para sa engine API. Para sa Second Update SQL case loader, itakda rin ang KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, at KANTESTI_DB_PASSWORD — ang loader ay kumokonekta sa pamamagitan ng read-only na role (bench_reader) na walang mga pribilehiyo sa pagtukoy ng mga talahanayan. Apat. Patakbuhin ang python benchmark_bloodtest.py --limit 100000 para sa buong Second-Update run, o python benchmark_bloodtest.py --limit 1000 para sa mabilis na iterasyon. Ang mga output ay napupunta sa ./benchmark_results/: isang CSV scorecard na may per-country-label at per-specialty na mga column, isang JSON aggregate, isang stratified-random raw-response sample, at isang Markdown report.

Ang mga reference run mula 23 Abril 2026 (V11 initial, 15 kaso) at 26 Abril 2026 (V11 Second Update, 100,000 kaso) ay pinapanatili sa results/ direktoryo ng repository. Ang isang bagong run ay makakabuo ng bagong timestamped na scorecard habang iniiwan ang mga reference run na hindi nagbabago. Kung ang iyong run ay makakagawa ng makabuluhang naiibang resulta, mangyaring magbukas ng GitHub issue kasama ang run timestamp at ang engine version na ibinalik sa response metadata.

Mga limitasyon at mga gawaing panghinaharap

Kahit sa 100,000 kaso sa 127 country labels, apat na limitasyon ang nararapat na tahasang kilalanin: undersampling ng long-tail na label, single-shot evaluation, single-engine scope, at single-source data origin. Ang bawat isa ay tinutugunan sa aktibong follow-up na gawain.

Saklaw ng long-tail na label. Ang Second Update ay sumasaklaw sa 127 country labels, ngunit ang distribusyon ay hindi balanse — ang nangungunang 10 label ay bumubuo ng ≈66.4% ng mga kaso, at ang long tail ng 97 karagdagang label ay sama-samang nag-aambag ng ≈7.3% (humigit-kumulang 7,300 kaso sa kabuuan, ~75 kaso bawat label sa karaniwan). Kaya ang mga per-label composite sa long tail na ito ay mas maingay kaysa sa ipinahihiwatig ng mga headline figure. Ang mga susunod na run ay muling babalansehin ang pagtalaga ng label upang patatagin ang mga per-label na pagtatantya.

Single-shot evaluation. Ang bawat kaso sa cohort ay sinuri nang isang beses. Ang mga large language model ay nagpapakita ng hindi trivial na output variance kahit sa mababang sampling temperature, kaya ang multi-run protocol na may limang evaluasyon kada kaso at pag-uulat ng variance ay natural na susunod na hakbang — lalo na sa trap-case subset, kung saan ang pagkakapare-pareho sa sampling jitter ay bahagi ng safety claim.

Saklaw ng iisang engine. Inilalarawan ng ulat na ito ang isang engine. Ang mga mapaghahambing na pagsusuri laban sa mga alternatibong AI system ay wala sa saklaw dito; maaari naming ituloy ang mga ito bilang isang hiwalay na independiyenteng pag-aaral na may naaangkop na metodolohiya, laban sa parehong MIT-licensed harness.

Synthetic data. Ang 100,000 kaso ay synthetically generated, hindi synthetic cases, at ang mga resulta ay hindi naililipat sa totoong-world na clinical performance. Ang pagsusuri sa totoong, may pahintulot, externally-sourced na data ay mangangailangan ng naaangkop na etikal na pangangasiwa at wala ito sa saklaw ng synthetic benchmark na ito.

Bukod sa apat na ito, ang pinaka-makabuluhang nakaplanong extension ay multi-language parity kada hurisdiksyon. Ang Kantesti AI Engine ay nagsisilbi sa mga user sa 75+ na wika, at ang pagtakbo ng language-stratified na Second-Update sub-cohorts (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) ay magsusukat ng kalidad ng output sa mga wikang sinusuportahan ng engine. Ang bawat language-stratified na pagsusuri ay ilalathala kasama ang sarili nitong DOI at harness branch.

Subukan ang Parehong Engine na Nakamit ang 99.80% Composite Score sa 100,000 Kaso

I-upload ang sarili mong blood test panel sa parehong production endpoint na sinuri sa benchmark na ito. Mahigit sa 2 milyong user sa buong mundo ang gumagamit ng Kantesti AI Engine upang bigyang-kahulugan ang higit sa 15,000 biomarker sa 75+ na wika.

🔬 Subukan ang Libreng Demo

Ekstensyon ng Chrome Tindahan ng App Google Play

📚 Paano I-cite ang Benchmark na Ito

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {A Pre-Registered, Rubric-Based Automated Technical  
                 Benchmark of the Kantesti Blood-Test Interpretation  
                 Engine on 100,000 Synthetic Test Cases  
                 --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Mga Panlabas na Sanggunian sa Pamamaraan

Mentzer, W. C. (1973). Pagkakaiba ng Kakulangan sa Bakal mula sa Thalassemia Trait. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology Classification Criteria para sa Systemic Lupus Erythematosus. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test para sa Large Language Models. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Composite Score

100,000Mga Na-score na Kaso

127Mga Country Labels na Sakop

0 / 87,412Trap False-Positives

Mga Madalas Itanong

Gaano katumpak ang Kantesti AI Engine sa mga sintetikong test case?

Sa isang pre-registered rubric, na isinagawa sa 100,000 synthetically generated na test cases sa walong content area at 127 country labels (V11 Second Update), naabot ng engine ang isang composite score na 99.80 porsiyento, na may zero hyperdiagnosis flags sa 87,412 na na-monitor na trap-case opportunities at mean response latency na 13.26 segundo. Ang composite na ito ay sumusukat sa pagsunod ng output sa synthetic inputs, hindi sa diagnostic accuracy. Ang orihinal na V11 release ay gumamit ng parehong rubric sa 15 hand-constructed cases (composite 99.12%); ang Second Update ay pinananatiling byte-identical ang rubric at pinalawak ito sa mas malaking synthetic cohort. Ang buong scorecard ay inilathala sa Figshare sa ilalim ng DOI 10.6084/m9.figshare.32095435 at sa GitHub sa ilalim ng MIT licence.

Ang Kantesti AI Engine ba ay klinikal na napatunayan?

Hindi. Ang engine ay sinuri gamit ang isang automated technical benchmark (hindi clinical validation), laban sa isang rubric na na-freeze sa source code bago ang V11 initial run at pinanatiling byte-identical para sa V11 Second Update, na sinuri sa 100,000 synthetic blood-test cases sa hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology, at internal medicine, na kinuha mula sa 127 country labels. Ang clinical oversight ay ibinigay ni Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), board-certified na clinical hematologist at Chief Medical Officer sa Kantesti AI.

Ano ang hyperdiagnosis trap case?

Ang hyperdiagnosis trap case ay isang klinikal na sitwasyong partikular na idinisenyo upang matukoy ang pag-uugali ng over-diagnosis sa mga AI engine. Ang V11 initial benchmark ay gumamit ng dalawang ganitong kaso bilang metodolohikal na proof-of-concept: isang nakahiwalay na indirect hyperbilirubinaemia na naaayon sa Gilbert's syndrome (kung saan ang tamang interpretasyon ay ang benign UGT1A1 polymorphism, hindi hepatitis o haemolysis) at isang ganap na normal na adult screening panel (kung saan ang tamang output ay katiyakan, hindi isang ginawang borderline na patolohiya). Pinalawak ng V11 Second Update ang trap-case methodology na ito sa isang nakalaang subset na 8,723 kaso na nagbunga ng 87,412 na pagkakataon para sa pagsubaybay sa hyperdiagnosis flag — at ang false-positive rate ng makina ay nanatiling zero.

Nababawi ba ang pagsusuri ng Kantesti AI Engine?

Ang buong evaluation harness ay inilalabas sa ilalim ng MIT licence bilang isang solong self-contained na Python module. Ang V11 initial run ay nangangailangan lamang ng isang Kantesti API credential pair at Python 3.10 o mas bago. Ang V11 Second Update ay nagdaragdag ng parameterized, read-only na SQL case loader na nangangailangan ng Kantesti clinical-repository credentials (isang bench_reader role na walang pribilehiyo sa pagtukoy ng mga talahanayan). Ang code, ang SQL ng case loader, ang rubrik (byte-identical sa pagitan ng mga release), at isang stratified random sample ng mga raw engine response mula sa parehong V11 initial at Second Update reference runs ay available sa github.com/emirhanai/kantesti-blood-test-benchmark at naka-mirror sa Figshare, ResearchGate, at Academia.edu.

Paano naiiba ng Kantesti AI Engine ang kakulangan sa bakal mula sa beta-thalassemia trait?

Inilalapat ng makina ang Mentzer index, na kinakalkula bilang mean corpuscular volume na hinati sa bilang ng red blood cell. Ang Mentzer index na higit sa 13 ay sumusuporta sa iron deficiency anaemia, habang ang halaga na mas mababa sa 13 ay sumusuporta sa beta-thalassaemia trait. Sa V11 initial benchmark, ang parehong presentasyon ay na-classify nang tama gamit ang tahasang Mentzer index calculation, na sinusuportahan ng ferritin, RDW, at HbA2 context. Sa kabuuan ng V11 Second Update 100,000-case cohort, napanatili ang parehong differential na pag-uugali sa antas ng populasyon.

Saan ko mahahanap ang raw benchmark data at source code?

Ang teknikal na ulat ay idineposito sa Figshare sa ilalim ng DOI 10.6084/m9.figshare.32095435 (sumasaklaw sa parehong V11 initial release at V11 Second Update), naka-mirror sa ResearchGate publication 404175463 at Academia.edu paper 165956808 — kapwa na-update sa pamagat ng V11 Second Update at 100,000-case results — at ang MIT-licensed Python harness na may lahat ng reference run results ay nasa github.com/emirhanai/kantesti-blood-test-benchmark. Tinitiyak ng apat-na-platform na mirror network ang pangmatagalang availability at kakayahang umangkop sa pagbanggit (citation).

Bakit mahalaga ang pre-registration para sa mga AI medical benchmarks?

Pinipigilan ng pre-registration ang post-hoc rubric tuning, na siyang pinakakaraniwang paraan kung paano pinapalaki ng mga benchmark na pinapatakbo ng kumpanya ang sarili nilang mga numero. Sa pamamagitan ng pag-commit ng rubrik sa source code bago ang anumang tawag sa engine at paglalathala ng harness nang pampubliko, ang mga petsa ng may-akda ng rubrik ay nagiging puwedeng i-inspect sa version control, at hindi maaaring hinubog ng mga resulta ng engine ang mga pamantayan sa pagmamarka.

Kasama ba sa benchmark na ito ang mga paghahambing sa ibang AI engine?

Hindi. Ang V11 report — parehong ang initial release at ang Second Update — ay sinadyang inilalarawan ang isang solong engine laban sa isang nakapirming rubrik, sa halip na iposisyon ito laban sa mga alternatibong komersyal na sistema. Ang harness ay open source sa ilalim ng MIT licence (ngayon ay kasama ang SQL case loader), kaya maaaring suriin ng mga independiyenteng mananaliksik ang anumang engine na pipiliin nila laban sa parehong rubrik at case loader at i-publish ang kanilang mga resulta.

Totoo ba ang mga kaso ng pasyente o synthetic?

Lahat ng kaso ay synthetically generated — 15 hand-constructed cases sa V11 initial release at 100,000 sa Second Update. Hindi ito synthetic cases: walang synthetic data, walang consent process, at walang de-identification na kasangkot, dahil walang personal data sa cohort. Walang personal data na lumilitaw sa published harness, technical report, o released datasets.

⚕️ Paalala sa Medikal & Pagsasalungat ng Interes

Ang ulat ng benchmark na ito ay para sa pananaliksik at metodolohikal na transparency. Hindi ito bumubuo ng medikal na payo, hindi isang diagnosis, at hindi kapalit ng propesyonal na pangangalagang medikal; walang resultang narito ang dapat gamitin upang maantala o maiwasang magpatingin sa doktor. Palaging kumonsulta sa isang kwalipikadong tagapagbigay ng pangangalagang pangkalusugan para sa mga desisyon sa diagnosis at paggamot. Ito ay isang self-run na internal benchmark ng sariling engine ng kumpanya at hindi ito independiyenteng nabe-beripika o na-peer-review. Ang composite score ay sumusukat sa pagsunod sa isang nakapirming rubric (istruktura ng ulat, keyword at recall ng scoring-system, at latency); hindi ito sukatan ng totoong-world na katumpakan sa diagnostic o klinikal na kaligtasan. Ang parehong may-akda ay empleyado ng at may hawak na equity sa Kantesti Ltd, at ang engine na sinusuri ay isang komersiyal na produkto ng parehong organisasyon. Ang conflict of interest na ito ay nababawasan sa pamamagitan ng pag-pre-register ng rubric sa source code, paglalabas ng harness sa ilalim ng MIT licence, at paglalathala ng stratified random sample ng mga hilaw na tugon ng engine.

Mga Signal ng Tiwala ng E-E-A-T

⭐

Karanasan

15+ taon ng klinikal na pagsasanay sa hematology at laboratory medicine na nangangasiwa sa pagpili ng panel ng kaso.

📋

Kadalubhasaan

Disenyo ng rubrik na pre-registered na may malinaw na hyperdiagnosis penalties at kinikilalang mga sistemang pangklinikal na pagmamarka (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Pagka-awtoridad

Lead author na si Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Pagpapatupad ni Julian Emirhan Bulut, CEO ng Kantesti Ltd.

🛡️

Pagiging Mapagkakatiwalaan

MIT-licensed na reproducible harness, inilathala ang mga raw na tugon ng engine, bukas na pagsisiwalat ng conflict-of-interest, apat-na-platform na research mirror network.

🏢 Kantesti LTD Nakarehistro sa England & Wales · Company No. 17090423 London, United Kingdom · kantesti.net