Bakit umiiral ang benchmark na ito at ano ang sinusubok nito

Ang AI-assisted blood test interpretation ay lalong ginagamit sa mga consumer at clinical workflow, ngunit ang mga reproducible na evaluation framework na iniayon sa laboratory medicine ay nananatiling bihira. Ang mga tanong na pinakamahalaga sa sitwasyong ito ay hindi yaong saklaw ng mga pangkalahatang medical question-answering benchmarks: kaya ba ng isang engine na paghiwalayin ang iron deficiency mula sa thalassaemia trait kapag magkapareho ang mean corpuscular volume, ina-over-diagnose ba nito ang Gilbert's syndrome bilang hepatitis, at gumagawa ba ito ng patolohiya sa isang ganap na normal na screening panel?

Pre-registered rubric flow diagram na nagpapakita kung paano sinusuri ang Kantesti AI Engine — V11 Second Update, 99.80% composite score sa 100,000 cases — laban sa mga nakapirming pamantayan sa pagmamarka
Pigura 1: Ang arkitektura ng benchmark na nasa likod ng 99.80% composite score sa V11 Second Update na 100,000-case cohort—bawat kaso, bawat keyword, bawat sistema ng pagmamarka ay nakapirmi sa source code bago pa makita ng engine ang kahit isang PDF, at ang rubric ay eksaktong magkapareho sa V11 initial release sa antas ng byte. Ang pag-aayos ng rubric pagkatapos (post-hoc) ay imposible sa pamamagitan ng disenyo.

Ang isang solong blood test panel ay karaniwang naglalaman ng sapat na signal upang suportahan ang ilang magkakumpitensyang interpretasyon, at ang tungkulin ng nagpapakahulugang clinician ay timbangin ang mga interpretasyong iyon laban sa bawat isa, sa halip na kumuha ng sagot na parang nasa textbook. Ang isang engine na mahusay sa mga kasong pang-textbook ay maaari pa ring mabigo sa mga kasong pinakamahalaga: ang mga bitag sa differential diagnosis, ang mga benign variant na mukhang nakababahala kapag mag-isa, at ang mga ganap na normal na panel na nakatutukso sa mga kumpiyansyang assistant na gumawa ng patolohiya.

Ang benchmark na ito ay ginawa eksakto para sa mga mode ng pagkabigong iyon. Ang labinlimang kaso ay pinili para sa isang partikular na katangiang diagnostiko: isang microcytosis na dulot ng kakulangan sa bakal na kailangang manatiling hiwalay sa beta-thalassaemia trait na may magkaparehong mean corpuscular volume, isang presentasyon ng Gilbert's syndrome kung saan ang tanging abnormalidad ay nakahiwalay na indirect hyperbilirubinaemia, at isang labinlimang-parameter na screening panel kung saan ang bawat analyte ay nasa loob ng reference range nito. Gantimpalaan ang mga engine na binabasa ang bawat kaso ayon sa sarili nitong konteksto at parusahan ang mga engine na umaabot sa isang kumpiyansyang diagnosis kung saan walang ganitong diagnosis na nararapat.

Bilang si Thomas Klein, MD, pinili ko ang panel ng mga kasong ito dahil ito ang mga pattern na madalas kong makita na nagkakamali ang mga laboratoryo-medicine assistant. Ang mahal na mode ng pagkabigo ay hindi "ang makaligtaan ang isang bihirang sakit"—ito ay ang paglikha ng rutin na patolohiya sa mga pasyenteng wala naman nito. Ang aming Medikal na Pagpapatunay Inilalarawan ng hub ang mas malawak na balangkas; inilalarawan ng pahinang ito ang V11 initial proof-of-concept at ang V11 Ikalawang Update na pinalawak ito sa 100,000 syntetikong kaso na hinango mula sa isang syntetikong set ng kaso na sumasaklaw sa 127 mga label ng bansa — gamit ang parehong scoring rubric, byte-identical, at walang pinapahintulutang post-hoc tuning.

Pinakabagong reference run—V11 Second Update (Abril 26, 2026)

Ang reference run ng V11 Second Update noong 26 Abril 2026 ay nagbunga ng composite score na 99.80% sa parehong pre-registered rubric na ginamit sa V11 initial release, na sinuri sa 100,000 sintetikong kaso na hinango mula sa Kantesti syntetikong set ng kaso at sumasaklaw sa 127 mga label ng bansa at mga wikang 75+. Bawat kaso ay natapos sa pangunahing path ng engine; ang trap-case hyperdiagnosis flag activations ay nanatili sa 0 / 87,412. Ang orihinal na V11 run noong 23 Abril 2026 ay sumaklaw sa 15 hand-curated na kaso (composite 99.12%) at napatunayan ang rubric; ang Second Update ay pinapanatili ang rubric na eksaktong magkapareho sa antas ng byte at pinalalawak ang pagsusuri sa isang cohort na pang-populasyon.

Pinagsama-samang marka 99.80% 100,000 sa 100,000 na kaso ang may score
1.000 Structural score
0.996 Clinical score
13.26 s Mean latency
0 / 87,412 Trap false-positives

Ang pinagsama-samang pormula ay pinagsasama ang tatlong bahagi: structural na pagsunod sa pitong mandatoryong report section at labing-anim na mandatoryong subseksiyon, katumpakan ng nilalaman na sinusukat bilang keyword recall kasama ang scoring-system recall kasama ang isang validity check ng probability-distribution, at oras ng pagtugon laban sa pangunahing-path service-level target. Ang eksaktong pagkakabuo ay ipinapakita sa rubric formula sa ibaba—wala sa mga timbang o sub-rubrics na ito ang binago para sa Second Update.

Pinagsama-samang marka = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

Ang natitirang 0.20 percentage points ng headroom ay halos buo na napupunta sa clinical sub-score—isang maliit na bahagi ng mga kaso (pangunahin sa Hepatology at Rheumatology) ang may isang inaasahang keyword ng scoring-system na wala sa interpretasyon ng engine kahit tama ang nilalaman ng diagnostic. Walang kaso sa 100,000-case Second-Update cohort ang nakaligtaan ang mismong diagnosis. Bumuti ang latency mula sa mean na 20.17 s sa V11 initial release patungong 13.26 s sa Second Update, na sumasalamin sa mga optimisations ng production engine sa pagitan ng dalawang run; ang rubric, ang scoring code, at ang API endpoint ay hindi nagbago.

Ang per-label na komposit na marka ay mula 0.9971 hanggang 0.9985 sa 30 sa pinakamaraming kinatawang label ng bansa. Ang long tail ng 97 karagdagang label (≈7,300 kaso na pinagsama) ay walang sistematikong pagkasira. Ang pinakadalas na mga label ayon sa bilang ng kaso ay ang Estados Unidos (10,500), Brazil (9,500), Spain (9,000), Italy (8,000), Germany (7,800), France (7,400), Portugal (5,800), Türkiye (3,400), United Kingdom (2,900), at Mexico (2,500).

Mula 15 kaso hanggang 100,000: ebolusyon ng cohort sa 127 mga label ng bansa

Ang orihinal na V11 case panel ay sumasaklaw sa pitong specialty — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — kasama ang dalawang nakalaang hyperdiagnosis trap cases, na ang bawat kaso ay isang synthetically generated na blood-test panel. Ang V11 Ikalawang Update ay nagpapalawak ng pagsusuri sa 100,000 sintetikong kaso sa 127 mga label ng bansa, na ipinamamahagi sa walong specialty (ang orihinal na pito plus isang nakalaang internal-medicine bucket na sumisipsip sa trap subset). Ang parehong scoring rubric ay inilalapat nang eksaktong magkapareho sa antas ng byte sa parehong run.

Disenyo ng V11 initial case-panel — labinlimang synthetic blood-test cases sa pitong medikal na specialty kasama ang dalawang hyperdiagnosis trap cases; ang parehong rubric ay umabot sa 99.80% composite score sa 100,000 cases sa V11 Second Update
Pigura 2: Disenyo ng V11 initial case-panel sa hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology, kasama ang dalawang trap cases—Gilbert's syndrome at isang ganap na normal na screening panel. Pinapanatili ng Second Update ang rubric na eksaktong magkapareho sa antas ng byte habang pinalalawak ang cohort sa 100,000 na kaso na kinuha mula sa Kantesti SQL repository.

Dahil ang lahat ng kaso ay synthetically generated, walang mga tunay na identifier na kailangang alisin at walang personal na data na kasangkot. Ang bawat sintetikong kaso ay may benchmark-internal case code (BT-NNN-LABEL sa V11 initial set, isang stable case_uid sa Ikalawang Update). Walang personal na data na lumilitaw kahit saan sa inilathalang harness, teknikal na ulat, o mga inilabas na dataset.

V11 initial release—15 hand-curated cases

Ang orihinal na V11 case panel ay manu-manung pinili ni Dr. Thomas Klein upang pag-aralan ang mga pattern ng diagnostic na madalas na nagkakamali ang mga katulong sa laboratoryo-medisina. Ang bawat isa sa labinlimang kaso ay pinili para sa isang partikular na katangiang diagnostic, na nakalista sa ibaba.

Hematology (3) BT-001, BT-006, BT-007 Iron deficiency anaemia · kakulangan sa B12 · beta-thalassaemia minor
Endocrinology (3) BT-002, BT-008, BT-012 Hashimoto's thyroiditis · PCOS na may insulin resistance · matinding kakulangan sa vitamin D
Metabolic (2) BT-003, BT-013 T2DM na may metabolic syndrome · Hyperuricaemia na may panganib sa gout
Hepatology (2) BT-004, BT-009 NAFLD / NASH · talamak na viral hepatitis
Nephrology · Cardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD stage 3 · atherogenic dyslipidaemia · systemic lupus erythematosus
Trap cases (2) BT-014, BT-015 Gilbert's syndrome (nakahiwalay na indirect hyperbilirubinaemia) · ganap na normal na adult screen

Bakit ang partikular na pamamahaging ito

Ang hematolohiya ay nakakakuha ng tatlong kaso dahil ang mga microcytic differential at macrocytic differential ang pinakamataas na “trap” sa dami sa aktuwal na gawain sa laboratoryo. Ang endokrinolohiya ay nakakakuha rin ng tatlong kaso dahil ang mga presentasyon ng Hashimoto, PCOS, at kakulangan sa vitamin D ay humuhubog ng magkaibang hugis ng diagnostic (na hinihimok ng autoantibody, na hinihimok ng ratio ng hormone, at na hinihimok ng iisang marker). Ang mga specialty na isang kaso lang ay makabuluhan pa rin dahil ang bawat CKD, panganib sa ASCVD, at SLE ay may sariling sistema ng pagmamarka na dapat tawagin ng engine (ayon sa KDIGO staging, ASCVD 10-year risk, at 2019 EULAR/ACR SLE criteria, ayon sa pagkakabanggit).

V11 Ikalawang Update — 100,000 sintetikong kaso sa 127 mga label ng bansa

Pinapalitan ng Ikalawang Update ang orihinal na V11 hard-coded na 15-case Python literal ng isang mas malaking, programmatically generated na syntetikong set ng kaso. Ang set ng kaso ay na-load sa simula ng bawat run at ang configuration ay naka-log para sa transparency. Ang pamamahagi ng cohort ayon sa content area ay ipinapakita sa ibaba.

Endocrinology 23,900 kaso (23.9%) Thyroid, PCOS, kakulangan sa vitamin D, gonadal axis, pituitary
Metabolic medicine 21,900 kaso (21.9%) T2DM, metabolic syndrome, lipid panels, hyperuricaemia
Hematology 15,400 kaso (15.4%) Mga pagkakaibang microcytic at macrocytic, B12/folate, iron studies
Hepatology 12,400 kaso (12.4%) NAFLD/NASH, viral hepatitis, FIB-4, cholestasis
Internal medicine (kabilang ang trap subset) 9,000 kaso (9.0%) Mga halo-halong presentasyon at 8,723 nakalaang hyperdiagnosis trap cases
Kardyolohiya 7,500 kaso (7.5%) ASCVD risk, atherogenic dyslipidaemia, hs-CRP
Rheumatology 6,000 kaso (6.0%) SLE, RA, vasculitis, autoantibody panels (mga pamantayan ng EULAR/ACR)
Nefrolohiya 4,000 kaso (4.0%) Pagmamarka ng CKD (KDIGO), mga trend ng eGFR, kaguluhan sa electrolyte

Sintetikong pamamahagi ng label ng bansa — top 10 label

Ang 100,000 sintetikong kaso ay may dalang 127 mga label ng bansa (ISO 3166-1 alpha-2) upang subukan ang paghawak ng locale. Pagtatalaga ng label: Europe 57.7%, ang Americas 25.4%, Asia-Pacific 6.2%, mga pinangalanang Middle-East/Africa label 3.4%, at isang long tail ng 97 karagdagang label na humigit-kumulang 7.3% na pinagsama. Ang sampung pinakadalas na label ayon sa bilang ng kaso ay ang Estados Unidos (10,500), Brazil (9,500), Spain (9,000), Italy (8,000), Germany (7,800), France (7,400), Portugal (5,800), Türkiye (3,400), United Kingdom (2,900), at Mexico (2,500). Ang per-label na komposit na marka ay mula 0.9971 hanggang 0.9985. Ang mga bilang ng label na ito ay mga katangian ng mga generated na kaso na ginamit upang subukan ang paghawak ng locale — hindi ito mga tunay na user at hindi rin ito totoong saklaw sa heograpiya.

Ang ipinalang paunang nirehistrong rubric, ipinaliwanag

Ang pre-registration ang pinakamahalagang pagpiling metodolohikal sa benchmark na ito. Ang bawat inaasahang diagnosis, bawat klinikal na sistema ng pagmamarka, at bawat seksyon ng ulat ay ipinangako sa source code bago tinawag ang engine. Kaya ang post-hoc tuning ng rubric para pagandahin ang performance ng engine ay imposible.

Tatlong bahagi ang bumubuo sa composite score. Ang structural component ay nag-aambag ng 35 porsyento at sinusukat kung ibinalik ng engine ang pitong mandatory na seksyon ng ulat (header, summary, key findings, differential, scoring systems, recommendations, follow-up) at ang labing-anim na mandatory na subseksiyon sa loob ng mga iyon. Ang presensya ng seksyon ay may bigat na 40 porsyento at ang presensya ng subseksiyon ay may bigat na 60 porsyento sa structural calculation.

Ang clinical component ay nag-aambag ng 55 porsyento at pinagsasama ang tatlong bagay: diagnosis-keyword recall (70 porsyento ng clinical sub-score), scoring-system recall (20 porsyento — kinakalkula ba ng engine ang Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria kung naaangkop), at isang probability-sum validity check (10 porsyento — ang mga differential probability ay dapat sumama sa loob ng [90, 110] interval). Para sa trap cases, isang tahasang hyperdiagnosis penalty na hanggang 0.30 ang ibinabawas, kinakalkula bilang 0.10 kada fabricated pathology flag, na nililimitahan sa tatlong flag.

Ang latency component ay nag-aambag ng 10 porsyento. Ang tugon na mas mababa sa 20 segundo ay nakakakuha ng buong 0.10, ang tugon na mas mababa sa 40 segundo ay nakakakuha ng 0.05, at ang anumang mas mabagal ay zero. Ang target na 20 segundo ay sumasalamin sa production primary-path service-level objective; ang 40-segundong kisame ay sumasalamin sa Phase 2 fallback budget para sa mabibigat na invocation ng engine.

Terminal screenshot ng MIT-licensed Kantesti benchmark harness na tumatakbo at naglalabas ng per-case scores — ang parehong harness, na ngayon ay SQL-driven, ay gumawa ng 99.80% composite score sa V11 Second Update 100,000-case run
Pigura 3: Ang harness sa pagpapatakbo — ang parehong engine na gumawa ng 99.80% composite sa V11 Second Update 100,000-case cohort. Ang bawat kaso ay nire-render sa isang A4 PDF, ipinapaskil sa production v11 endpoint, at minamarka laban sa frozen rubric. Ang Second Update ay nagdagdag ng parameterised SQL case loader; ang stratified random sample ng mga raw engine response (n = 201) ay iniimbak kasama ang pinagsama-samang scorecard.

Ano ang pinipigilan ng pre-registration

Ang mga first-party benchmark ay kilalang nagpapalaki ng sarili nilang mga numero sa pamamagitan ng post-hoc rubric tuning. Halos palaging pareho ang pattern: pinapatakbo ng team ang engine, tinitingnan kung saan ito kulang, pagkatapos ay tahimik na ina-adjust ang rubric upang ang mga lugar na hindi maganda ang performance ay mabigyan ng mas maliit na bigat. Sa pamamagitan ng pag-commit ng rubric sa source code bago ang unang tawag sa engine at paglalathala ng harness sa ilalim ng lisensyang MIT, nagiging nakikita ang adjustment na iyon sa version control. Kahit sino ay puwedeng i-clone ang repository, tingnan ang mga petsa ng awtor ng rubric, at beripikahin na ang mga resulta ng engine ay hindi ginamit para hubugin ang pagmamarka.

Mga kaso sa hyperdiagnosis trap — bakit ang sobrang pag-aangkin ang tunay na failure mode

Ang agresibong pag-over-call ng patolohiya sa normal na screens ay isang dokumentadong uri ng pagkabigo ng mga consumer-facing medical assistant. Kasama sa mga downstream cost ang hindi kinakailangang imbestigasyon, pagkabalisa ng pasyente, at iatrogenic workup. Ang dalawang trap cases sa benchmark na ito ay idinisenyo upang gawing nakikita at masusukat ang uri ng pagkabigong iyon.

Magkatabing paghahambing ng isang naive AI na gumagawa ng hepatitis sa isang Gilbert's syndrome panel kumpara sa Kantesti engine na tama ang pagtukoy sa benign UGT1A1 polymorphism — metodolohiyang pinalawak sa zero false-positives sa 87,412 trap-flag opportunities sa V11 Second Update 99.80% benchmark
Pigura 4: Ang trap-case na disenyo mula sa V11 initial release — isang engine na may kumpiyansa na tinutukoy ang Gilbert's syndrome bilang hepatitis, o na gumagawa ng borderline na patolohiya sa isang ganap na normal na screen, ay mapaparusahan sa halip na gantimpalaan sa pagsasabing klinikal. Ang metodolohiyang ito ay pinalawak sa 0 / 87,412 false-positives sa V11 Second Update 100,000-case run na gumawa ng 99.80% composite score.

🟡 Trap 1 — BT-014-GILBERT

Presentasyon. Isang 24-taong gulang na lalaki na may kabuuang bilirubin na 2.4 mg/dL. Ang direct fraction ay normal, ang transaminases at alkaline phosphatase ay nasa loob ng kanilang reference ranges, ang reticulocytes ay walang kapansin-pansing abnormalidad, at ang haptoglobin at LDH ay nag-aalis ng haemolysis.

Tamang interpretasyon. Gilbert's syndrome — isang benign UGT1A1 polymorphism. Ang interpretasyon ay hindi dapat tumawag ng hepatitis, cirrhosis, haemolytic anaemia, o biliary obstruction.

Resulta ng V11. Composite 1.000. Wala sa anim na monitored over-diagnosis flags ang lumitaw bilang aktibong diagnosis.

🟡 Trap 2 — BT-015-HEALTHY

Presentasyon. Isang 35-taong gulang na babae na may labinlimang-parameter na routine screening panel. Ang bawat analyte ay kumportable sa loob ng reference range nito.

Tamang interpretasyon. Pagbibigay ng katiyakan at pagpapanatili ng pamumuhay. Ang interpretasyon ay hindi dapat mag-imbento ng borderline na patolohiya upang magmukhang klinikal na kapaki-pakinabang.

Resulta ng V11. Composite 1.000. Wala sa pitong mino-monitor na over-diagnosis flag—diabetes, anemia, hypothyroidism, dyslipidaemia, hepatitis, sakit sa bato, kakulangan—ang lumabas bilang aktibong diagnosis.

Sa parehong traps, labing-tatlong mino-monitor na hyperdiagnosis flag ang sinuri. Wala sa mga ito ang na-trigger. Ito ang resulta na pinakamahalaga para sa anumang clinician na isinasaalang-alang ang paggamit ng AI engine bilang triage o pang-pre-consultation na tool: hindi nag-imbento ang sistema ng sakit kung wala naman.

Mentzer index: paghihiwalay ng kakulangan sa iron mula sa thalassemia trait

Ang isa pang may mataas na halaga na natuklasan ay ang pag-uugnay ng case BT-001 (iron deficiency anaemia) sa case BT-007 (beta-thalassaemia minor). Pareho silang may microcytosis at isang kilalang sagabal para sa mga walang karanasan na classifier. Ang Mentzer index, na kinakalkula bilang MCV na hinati sa bilang ng RBC, ay lumalampas sa 13 sa iron deficiency at bumababa sa 13 sa thalassaemia trait.

Sa BT-001, ang pasyente ay isang 34-taong gulang na babae na may hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, at mataas na TIBC. Ang Mentzer index na humigit-kumulang 17.7 ay sumusuporta sa absolute iron deficiency. Sa BT-007, ang pasyente ay isang 28-taong gulang na lalaki na may microcytosis (MCV 65.8 fL) ngunit mataas na RBC count na 6.2, normal na RDW, normal na ferritin, at HbA2 na 5.6 porsiyento. Ang Mentzer index na humigit-kumulang 10.6 ay tumuturo sa thalassaemia trait, at ang mataas na HbA2 ay nagpapatunay ng beta-thalassaemia minor.

Iron deficiency anaemia Mentzer > 13 Mababang ferritin, mababang TSAT, mataas na TIBC, mataas na RDW
Beta-thalassaemia trait Mentzer < 13 Normal na ferritin, normal na RDW, mataas na HbA2 (>3.5%), mataas na RBC count

Parehong nakakuha ang dalawang kaso ng 1.000. Tahasang ginamit ng engine ang Mentzer index sa parehong interpretasyon at ibinalik ang tamang diagnosis sa bawat pagkakataon. Ito ang iisang resultang pinaka-nakakapanatag sa klinika sa buong benchmark, dahil ang maling pag-classify sa thalassaemia trait bilang iron deficiency ay humahantong sa hindi naaangkop na pagdaragdag ng bakal at napalampas ang mga pagkakataong mag-screen ng pamilya, at ang maling pag-classify sa iron deficiency bilang thalassaemia ay nagpapabagal sa tuwirang replacement therapy. Ang aming gabay sa hanay ng ferritin ay nagpapaliwanag sa mas malawak na konteksto ng differential.

Mga resulta kada kaso mula sa V11 initial reference run (Abril 23, 2026)

Ang orihinal na V11 reference run sa 15-case proof-of-concept cohort ay nagsisilbing metodolohikal na pundasyon ng Second Update: bawat detalye kada kaso sa ibaba ay nagpapakita kung paano hinahawakan ng rubric ang isang tunay na tugon ng engine. Labindalawa sa labinlimang kaso ang nakamit ang ceiling composite score na 1.000 sa pangunahing path; tatlong kaso ang naihatid sa pamamagitan ng Phase 2 fallback, na nawalan ng 0.05 latency bonus habang pinapanatili ang lahat ng klinikal at estruktural na nilalaman. Isang kaso ang nawalan ng isang solong mandatory subsection; ang isa ay nagbalik ng bahagyang nabawasang probability distribution sum.

Case ID Specialty Pinagsama-samang marka Latency Path
BT-001-IDAHematology1.00017.8 sprimary
BT-006-B12Hematology1.00018.4 sprimary
BT-007-THALHematology1.00017.0 sprimary
BT-002-HASHEndocrinology0.95037.0 sfallback
BT-008-PCOSEndocrinology0.98718.6 sprimary
BT-003-T2DMMetabolic1.00019.1 sprimary
BT-013-GOUTMetabolic1.00019.4 sprimary
BT-004-NAFLDHepatology1.00019.6 sprimary
BT-009-VIRHEPHepatology0.95023.4 sfallback
BT-014-GILBERTTrap1.00018.9 sprimary
BT-005-CKDNefrolohiya1.00017.4 sprimary
BT-010-ASCVDKardyolohiya1.00019.7 sprimary
BT-011-SLERheumatology0.98118.2 sprimary
BT-012-VITDEndocrinology1.00019.3 sprimary
BT-015-MALUSOGTrap1.00018.7 sfallback

Ang kaso ng PCOS (BT-008) ay nawalan ng isang mandatoryong subsection sa istruktura ng tugon—labinlima sa labing-anim imbes na labing-anim sa labing-anim—na nagbawas ng structural score mula 1.000 hanggang 0.963. Ang kaso ng SLE (BT-011) ay nagbalik ng bahagyang nabawasang kabuuan ng probability-distribution na nagpaibaba ng clinical score sa 0.965 habang pinapanatili ang bawat diagnostic keyword at scoring system. Wala sa dalawang kasong hindi perpekto ang nakaligtaan ang tamang diagnosis.

V11 Second Update aggregate — 100,000 kaso

Sa antas ng populasyon, ang mga indibidwal na row ng kaso ay hindi nababasa ng tao, kaya ang Ikalawang Update ay nag-uulat ng mga pinagsama-samang sukatan sa halip na isang talahanayan na may 100,000 row. Ang pangunahing pinagsama-samang resulta ay ipinapakita sa ibaba; ang per-specialty at per-country-label breakdown ay inilalathala sa teknikal na ulat at sa Figshare deposit. Isang stratified random sample ng n = 201 raw engine responses (deterministic seed 20260426) ay inilalathala sa GitHub results/ directory para sa inspeksyon.

Composite score V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 sa 100,000-case cohort
Structural score (mean) V11 initial: 0.998 → Second Update: 1.000 Perpektong pagsunod sa estruktura sa antas ng populasyon
Clinical score (mean) V11 initial: 0.998 → Second Update: 0.996 −0.002; walang kaso ang napalampas ang mismong diagnosis
Latency — ibig sabihin (saklaw) Paunang V11: 20.17 s (17.0–37.0 s) → Ikalawang Update: 13.26 s (9.0–16.94 s) Mga pag-optimize ng production engine sa pagitan ng mga run
Engine path = primary Paunang V11: 12 / 15 → Ikalawang Update: 100,000 / 100,000 Walang kinakailangang Phase 2 fallback sa anumang punto sa panahon ng run
Mga flag ng trap-subset hyperdiagnosis Paunang V11: 0 / 13 → Ikalawang Update: 0 / 87,412 Zero false-positives sa antas ng populasyon (8,723 trap case na sinusubaybayan)

Ang hindi sinasabi sa atin ng headline score

Ang isang komposit na marka na 99.80 porsiyento sa ilalim ng partikular na pre-rehistradong rubric na ito, sa isang 100,000-case na sintetikong cohort na sumasaklaw sa 127 mga label ng bansa, ay kumakatawan sa halos-ceiling na performance — ngunit nararapat itong maingat na i-frame. Inilalarawan ng resulta ang pag-uugali ng engine laban sa rubric na ipinangako namin sa source code sa V11; hindi ito isang unibersal na pag-aangkin tungkol sa katumpakan ng engine sa bawat blood test panel na umiiral sa totoong mundo.

Sinasabi ng marka na hinarap ng engine nang tama ang mga diagnostic pattern na pinili para sa evaluasyong ito sa buong cohort na nasa antas ng populasyon, gamit ang isang metodolohiyang inilathala at maaaring ulitin. Hindi nito sinasabi na tama ang engine sa bawat blood test panel na umiiral sa totoong mundo. Hindi rin nito sinasabi na dapat palitan ng engine ang paghatol ng clinician. At hindi rin nito sinasabi na nalalampasan ng engine ang mga alternatibong AI system — ang mga paghahambing na pagsusuri laban sa ibang engine ay sinadyang hindi saklaw ng ulat na ito.

Ang itinatatag ng marka ay isang baseline. Kapag naging pampubliko ang rubric at harness, maaaring suriin ang mga susunod na bersyon ng engine laban sa parehong rubric — inilapat sa paunang V11 na 15 kaso, sa Ikalawang Update na cohort na 100,000 kaso, o sa anumang kasunod na pagpapalawak — at ang agwat sa pagitan ng inilathalang marka at anumang susunod na run ay nasusukat mismo. Ito ang halaga ng pre-registration: ginagawang mga mapapatunayang pahayag ang mga claim tungkol sa performance.

Paano muling likhain ang benchmark na ito sa loob ng 10 minuto

Ang pag-uulit ay nangangailangan lamang ng isang pares ng Kantesti API credential at isang kapaligirang Python 3.10 o mas bago na may requests at reportlab na naka-install na mga library. Ang buong harness ay isang iisang self-contained Python module na inilalabas sa ilalim ng lisensyang MIT.

Diagram ng reproducibility network na nagpapakita ng V11 Second Update benchmark (99.80% composite, 100,000 cases, 127 country labels) na mirrored sa Figshare, ResearchGate, Academia.edu at GitHub, na ang Figshare DOI ang kanonikal na anchor
Pigura 5: Ang V11 Second Update benchmark — 99.80% komposit na marka sa 100,000 kaso sa 127 mga label ng bansa — ay makikita nang salamin sa apat na research platform. Ang Figshare DOI ay ang kanonikal na scholarly identifier; ang ResearchGate (publication 404175463), Academia.edu (paper 165956808), at GitHub ay nagho-host ng mga parallel na kopya kasama ang benchmark harness, ang stratified random sample ng mga raw response, at ang per-country-label/per-specialty scorecards.

Apat na hakbang para sa isang bagong run

Isa. I-clone ang repository: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dalawa. I-install ang mga dependency gamit ang pip install -r requirements.txt (Ang Second Update ay nagdaragdag ng mysql-connector-python ≥ 8.0 para sa SQL case loader). Tatlo. Itakda ang KANTESTI_USERNAME at KANTESTI_PASSWORD bilang mga environment variable para sa engine API. Para sa Second Update SQL case loader, itakda rin ang KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, at KANTESTI_DB_PASSWORD — ang loader ay kumokonekta sa pamamagitan ng read-only na role (bench_reader) na walang mga pribilehiyo sa pagtukoy ng mga talahanayan. Apat. Patakbuhin ang python benchmark_bloodtest.py --limit 100000 para sa buong Second-Update run, o python benchmark_bloodtest.py --limit 1000 para sa mabilis na iterasyon. Ang mga output ay napupunta sa ./benchmark_results/: isang CSV scorecard na may per-country-label at per-specialty na mga column, isang JSON aggregate, isang stratified-random raw-response sample, at isang Markdown report.

Ang mga reference run mula 23 Abril 2026 (V11 initial, 15 kaso) at 26 Abril 2026 (V11 Second Update, 100,000 kaso) ay pinapanatili sa results/ direktoryo ng repository. Ang isang bagong run ay makakabuo ng bagong timestamped na scorecard habang iniiwan ang mga reference run na hindi nagbabago. Kung ang iyong run ay makakagawa ng makabuluhang naiibang resulta, mangyaring magbukas ng GitHub issue kasama ang run timestamp at ang engine version na ibinalik sa response metadata.

Mga limitasyon at mga gawaing panghinaharap

Kahit sa 100,000 kaso sa 127 country labels, apat na limitasyon ang nararapat na tahasang kilalanin: undersampling ng long-tail na label, single-shot evaluation, single-engine scope, at single-source data origin. Ang bawat isa ay tinutugunan sa aktibong follow-up na gawain.

Saklaw ng long-tail na label. Ang Second Update ay sumasaklaw sa 127 country labels, ngunit ang distribusyon ay hindi balanse — ang nangungunang 10 label ay bumubuo ng ≈66.4% ng mga kaso, at ang long tail ng 97 karagdagang label ay sama-samang nag-aambag ng ≈7.3% (humigit-kumulang 7,300 kaso sa kabuuan, ~75 kaso bawat label sa karaniwan). Kaya ang mga per-label composite sa long tail na ito ay mas maingay kaysa sa ipinahihiwatig ng mga headline figure. Ang mga susunod na run ay muling babalansehin ang pagtalaga ng label upang patatagin ang mga per-label na pagtatantya.

Single-shot evaluation. Ang bawat kaso sa cohort ay sinuri nang isang beses. Ang mga large language model ay nagpapakita ng hindi trivial na output variance kahit sa mababang sampling temperature, kaya ang multi-run protocol na may limang evaluasyon kada kaso at pag-uulat ng variance ay natural na susunod na hakbang — lalo na sa trap-case subset, kung saan ang pagkakapare-pareho sa sampling jitter ay bahagi ng safety claim.

Saklaw ng iisang engine. Inilalarawan ng ulat na ito ang isang engine. Ang mga mapaghahambing na pagsusuri laban sa mga alternatibong AI system ay wala sa saklaw dito; maaari naming ituloy ang mga ito bilang isang hiwalay na independiyenteng pag-aaral na may naaangkop na metodolohiya, laban sa parehong MIT-licensed harness.

Synthetic data. Ang 100,000 kaso ay synthetically generated, hindi synthetic cases, at ang mga resulta ay hindi naililipat sa totoong-world na clinical performance. Ang pagsusuri sa totoong, may pahintulot, externally-sourced na data ay mangangailangan ng naaangkop na etikal na pangangasiwa at wala ito sa saklaw ng synthetic benchmark na ito.

Bukod sa apat na ito, ang pinaka-makabuluhang nakaplanong extension ay multi-language parity kada hurisdiksyon. Ang Kantesti AI Engine ay nagsisilbi sa mga user sa 75+ na wika, at ang pagtakbo ng language-stratified na Second-Update sub-cohorts (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) ay magsusukat ng kalidad ng output sa mga wikang sinusuportahan ng engine. Ang bawat language-stratified na pagsusuri ay ilalathala kasama ang sarili nitong DOI at harness branch.