Bakit umiiral ang benchmark na ito at ano ang sinusubok nito
Ang AI-assisted blood test interpretation ay lalong ginagamit sa mga consumer at clinical workflow, ngunit ang mga reproducible na evaluation framework na iniayon sa laboratory medicine ay nananatiling bihira. Ang mga tanong na pinakamahalaga sa sitwasyong ito ay hindi yaong saklaw ng mga pangkalahatang medical question-answering benchmarks: kaya ba ng isang engine na paghiwalayin ang iron deficiency mula sa thalassaemia trait kapag magkapareho ang mean corpuscular volume, ina-over-diagnose ba nito ang Gilbert's syndrome bilang hepatitis, at gumagawa ba ito ng patolohiya sa isang ganap na normal na screening panel?
Ang isang solong blood test panel ay karaniwang naglalaman ng sapat na signal upang suportahan ang ilang magkakumpitensyang interpretasyon, at ang tungkulin ng nagpapakahulugang clinician ay timbangin ang mga interpretasyong iyon laban sa bawat isa, sa halip na kumuha ng sagot na parang nasa textbook. Ang isang engine na mahusay sa mga kasong pang-textbook ay maaari pa ring mabigo sa mga kasong pinakamahalaga: ang mga bitag sa differential diagnosis, ang mga benign variant na mukhang nakababahala kapag mag-isa, at ang mga ganap na normal na panel na nakatutukso sa mga kumpiyansyang assistant na gumawa ng patolohiya.
Ang benchmark na ito ay ginawa eksakto para sa mga mode ng pagkabigong iyon. Ang labinlimang kaso ay pinili para sa isang partikular na katangiang diagnostiko: isang microcytosis na dulot ng kakulangan sa bakal na kailangang manatiling hiwalay sa beta-thalassaemia trait na may magkaparehong mean corpuscular volume, isang presentasyon ng Gilbert's syndrome kung saan ang tanging abnormalidad ay nakahiwalay na indirect hyperbilirubinaemia, at isang labinlimang-parameter na screening panel kung saan ang bawat analyte ay nasa loob ng reference range nito. Gantimpalaan ang mga engine na binabasa ang bawat kaso ayon sa sarili nitong konteksto at parusahan ang mga engine na umaabot sa isang kumpiyansyang diagnosis kung saan walang ganitong diagnosis na nararapat.
Bilang si Thomas Klein, MD, pinili ko ang panel ng mga kasong ito dahil ito ang mga pattern na madalas kong makita na nagkakamali ang mga laboratoryo-medicine assistant. Ang mahal na mode ng pagkabigo ay hindi "ang makaligtaan ang isang bihirang sakit"—ito ay ang paglikha ng rutin na patolohiya sa mga pasyenteng wala naman nito. Ang aming Medikal na Pagpapatunay Ipinapaliwanag ng hub ang mas malawak na balangkas; inilalarawan ng pahinang ito ang inilapat nitong resulta sa V11 engine.
Pinakabagong reference run — V11 (Abril 2026)
Ang reference run noong Abril 2026 ng Kantesti AI Engine V11 ay gumawa ng pinagsama-samang marka ng 99.12% sa pre-registered na labinlimang-kasong rubric. Parehong umabot sa kisame ang dalawang kaso ng hyperdiagnosis trap. Ang Mentzer index ay na-apply nang tama sa differential na bakal-kakulangan kumpara sa thalassaemia.
Ang pinagsama-samang pormula ay pinagsasama ang tatlong bahagi: structural na pagsunod sa pitong mandatoryong report section at labing-anim na mandatoryong subseksiyon, klinikal na katumpakan na sinusukat bilang keyword recall kasama ang scoring-system recall kasama ang isang validity check ng probability-distribution, at oras ng pagtugon laban sa 20-segundong pangunahing target na service-level. Ang eksaktong pagkakabuo ay ipinapakita sa rubric formula sa ibaba.
Ang natitirang 0.88 porsiyentong puntos ng headroom ay halos buo na nabubulok sa latency loss—tatlong Phase 2 fallback na pag-invoke na bawat isa ay nasa minus 0.05 composite ang nag-ambag ng humigit-kumulang 0.60 sa 0.88-point na kakulangan—sa halip na sa klinikal na nilalaman. Hindi nagkamali ang engine sa tamang diagnosis sa alinman sa labinlimang kaso; kung saan ito nagkulang, iyon ay dahil bahagyang mas tumagal kaysa sa 20-segundong pangunahing target na primary-path sa maliit na minorya ng mga pag-invoke.
Labinlimang kaso sa pitong medikal na espesyalisasyon
Saklaw ng case panel ang pitong espesyalisasyon—hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology—kasama ang dalawang nakalaang hyperdiagnosis trap cases. Ang bawat kaso ay isang anonymised na tunay na tala ng pasyente na kinuha mula sa Kantesti clinical data repository sa ilalim ng nakasulat na informed consent.
Isinagawa ang de-identification sa ilalim ng Safe Harbor approach: lahat ng direktang identifier ay inalis o pinalitan, at ang bawat tala ay binigyan ng benchmark-internal case code sa format na BT-NNN-LABEL. Isinagawa ang pagproseso alinsunod sa GDPR Article 9(2)(j) para sa siyentipikong pananaliksik na may naaangkop na mga pag-iingat, at sa katumbas na mga probisyon ng UK GDPR. Walang anumang personal na nakikikilalang impormasyon ang lumilitaw kahit saan sa inilathalang harness, teknikal na ulat, o inilabas na mga dataset.
Bakit ang partikular na pamamahaging ito
Ang hematolohiya ay nakakakuha ng tatlong kaso dahil ang mga microcytic differential at macrocytic differential ang pinakamataas na “trap” sa dami sa aktuwal na gawain sa laboratoryo. Ang endokrinolohiya ay nakakakuha rin ng tatlong kaso dahil ang mga presentasyon ng Hashimoto, PCOS, at kakulangan sa vitamin D ay humuhubog ng magkaibang hugis ng diagnostic (na hinihimok ng autoantibody, na hinihimok ng ratio ng hormone, at na hinihimok ng iisang marker). Ang mga specialty na isang kaso lang ay makabuluhan pa rin dahil ang bawat CKD, panganib sa ASCVD, at SLE ay may sariling sistema ng pagmamarka na dapat tawagin ng engine (ayon sa KDIGO staging, ASCVD 10-year risk, at 2019 EULAR/ACR SLE criteria, ayon sa pagkakabanggit).
Ang ipinalang paunang nirehistrong rubric, ipinaliwanag
Ang pre-registration ang pinakamahalagang pagpiling metodolohikal sa benchmark na ito. Ang bawat inaasahang diagnosis, bawat klinikal na sistema ng pagmamarka, at bawat seksyon ng ulat ay ipinangako sa source code bago tinawag ang engine. Kaya ang post-hoc tuning ng rubric para pagandahin ang performance ng engine ay imposible.
Tatlong bahagi ang bumubuo sa composite score. Ang structural component ay nag-aambag ng 35 porsyento at sinusukat kung ibinalik ng engine ang pitong mandatory na seksyon ng ulat (header, summary, key findings, differential, scoring systems, recommendations, follow-up) at ang labing-anim na mandatory na subseksiyon sa loob ng mga iyon. Ang presensya ng seksyon ay may bigat na 40 porsyento at ang presensya ng subseksiyon ay may bigat na 60 porsyento sa structural calculation.
Ang clinical component ay nag-aambag ng 55 porsyento at pinagsasama ang tatlong bagay: diagnosis-keyword recall (70 porsyento ng clinical sub-score), scoring-system recall (20 porsyento — kinakalkula ba ng engine ang Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria kung naaangkop), at isang probability-sum validity check (10 porsyento — ang mga differential probability ay dapat sumama sa loob ng [90, 110] interval). Para sa trap cases, isang tahasang hyperdiagnosis penalty na hanggang 0.30 ang ibinabawas, kinakalkula bilang 0.10 kada fabricated pathology flag, na nililimitahan sa tatlong flag.
Ang latency component ay nag-aambag ng 10 porsyento. Ang tugon na mas mababa sa 20 segundo ay nakakakuha ng buong 0.10, ang tugon na mas mababa sa 40 segundo ay nakakakuha ng 0.05, at ang anumang mas mabagal ay zero. Ang target na 20 segundo ay sumasalamin sa production primary-path service-level objective; ang 40-segundong kisame ay sumasalamin sa Phase 2 fallback budget para sa mabibigat na invocation ng engine.
Ano ang pinipigilan ng pre-registration
Ang mga first-party benchmark ay kilalang nagpapalaki ng sarili nilang mga numero sa pamamagitan ng post-hoc rubric tuning. Halos palaging pareho ang pattern: pinapatakbo ng team ang engine, tinitingnan kung saan ito kulang, pagkatapos ay tahimik na ina-adjust ang rubric upang ang mga lugar na hindi maganda ang performance ay mabigyan ng mas maliit na bigat. Sa pamamagitan ng pag-commit ng rubric sa source code bago ang unang tawag sa engine at paglalathala ng harness sa ilalim ng lisensyang MIT, nagiging nakikita ang adjustment na iyon sa version control. Kahit sino ay puwedeng i-clone ang repository, tingnan ang mga petsa ng awtor ng rubric, at beripikahin na ang mga resulta ng engine ay hindi ginamit para hubugin ang pagmamarka.
Mga kaso sa hyperdiagnosis trap — bakit ang sobrang pag-aangkin ang tunay na failure mode
Ang agresibong pag-over-call ng patolohiya sa normal na screens ay isang dokumentadong uri ng pagkabigo ng mga consumer-facing medical assistant. Kasama sa mga downstream cost ang hindi kinakailangang imbestigasyon, pagkabalisa ng pasyente, at iatrogenic workup. Ang dalawang trap cases sa benchmark na ito ay idinisenyo upang gawing nakikita at masusukat ang uri ng pagkabigong iyon.
🟡 Trap 1 — BT-014-GILBERT
Presentasyon. Isang 24-taong gulang na lalaki na may kabuuang bilirubin na 2.4 mg/dL. Ang direct fraction ay normal, ang transaminases at alkaline phosphatase ay nasa loob ng kanilang reference ranges, ang reticulocytes ay walang kapansin-pansing abnormalidad, at ang haptoglobin at LDH ay nag-aalis ng haemolysis.
Tamang interpretasyon. Gilbert's syndrome — isang benign UGT1A1 polymorphism. Ang interpretasyon ay hindi dapat tumawag ng hepatitis, cirrhosis, haemolytic anaemia, o biliary obstruction.
Resulta ng V11. Composite 1.000. Wala sa anim na monitored over-diagnosis flags ang lumitaw bilang aktibong diagnosis.
🟡 Trap 2 — BT-015-HEALTHY
Presentasyon. Isang 35-taong gulang na babae na may labinlimang-parameter na routine screening panel. Ang bawat analyte ay kumportable sa loob ng reference range nito.
Tamang interpretasyon. Pagbibigay ng katiyakan at pagpapanatili ng pamumuhay. Ang interpretasyon ay hindi dapat mag-imbento ng borderline na patolohiya upang magmukhang klinikal na kapaki-pakinabang.
Resulta ng V11. Composite 1.000. Wala sa pitong mino-monitor na over-diagnosis flag—diabetes, anemia, hypothyroidism, dyslipidaemia, hepatitis, sakit sa bato, kakulangan—ang lumabas bilang aktibong diagnosis.
Sa parehong traps, labing-tatlong mino-monitor na hyperdiagnosis flag ang sinuri. Wala sa mga ito ang na-trigger. Ito ang resulta na pinakamahalaga para sa anumang clinician na isinasaalang-alang ang paggamit ng AI engine bilang triage o pang-pre-consultation na tool: hindi nag-imbento ang sistema ng sakit kung wala naman.
Mentzer index: paghihiwalay ng kakulangan sa iron mula sa thalassemia trait
Ang isa pang may mataas na halaga na natuklasan ay ang pag-uugnay ng case BT-001 (iron deficiency anaemia) sa case BT-007 (beta-thalassaemia minor). Pareho silang may microcytosis at isang kilalang sagabal para sa mga walang karanasan na classifier. Ang Mentzer index, na kinakalkula bilang MCV na hinati sa bilang ng RBC, ay lumalampas sa 13 sa iron deficiency at bumababa sa 13 sa thalassaemia trait.
Sa BT-001, ang pasyente ay isang 34-taong gulang na babae na may hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, at mataas na TIBC. Ang Mentzer index na humigit-kumulang 17.7 ay sumusuporta sa absolute iron deficiency. Sa BT-007, ang pasyente ay isang 28-taong gulang na lalaki na may microcytosis (MCV 65.8 fL) ngunit mataas na RBC count na 6.2, normal na RDW, normal na ferritin, at HbA2 na 5.6 porsiyento. Ang Mentzer index na humigit-kumulang 10.6 ay tumuturo sa thalassaemia trait, at ang mataas na HbA2 ay nagpapatunay ng beta-thalassaemia minor.
Parehong nakakuha ang dalawang kaso ng 1.000. Tahasang ginamit ng engine ang Mentzer index sa parehong interpretasyon at ibinalik ang tamang diagnosis sa bawat pagkakataon. Ito ang iisang resultang pinaka-nakakapanatag sa klinika sa buong benchmark, dahil ang maling pag-classify sa thalassaemia trait bilang iron deficiency ay humahantong sa hindi naaangkop na pagdaragdag ng bakal at napalampas ang mga pagkakataong mag-screen ng pamilya, at ang maling pag-classify sa iron deficiency bilang thalassaemia ay nagpapabagal sa tuwirang replacement therapy. Ang aming gabay sa hanay ng ferritin ay nagpapaliwanag sa mas malawak na konteksto ng differential.
Mga resulta kada kaso mula sa pagpapatakbo noong Abril 2026
Labindalawa sa labinlimang kaso ang umabot sa ceiling composite score na 1.000 sa pangunahing path. Tatlong kaso ang naihatid sa pamamagitan ng Phase 2 fallback, na nawala ang 0.05 latency bonus habang pinapanatili ang lahat ng klinikal at estrukturang nilalaman. Isang kaso ang nawawala ang isang solong mandatory subsection; ang isa ay nagbalik ng bahagyang nabawasang kabuuan ng probability distribution.
Ang kaso ng PCOS (BT-008) ay nawalan ng isang mandatoryong subsection sa istruktura ng tugon—labinlima sa labing-anim imbes na labing-anim sa labing-anim—na nagbawas ng structural score mula 1.000 hanggang 0.963. Ang kaso ng SLE (BT-011) ay nagbalik ng bahagyang nabawasang kabuuan ng probability-distribution na nagpaibaba ng clinical score sa 0.965 habang pinapanatili ang bawat diagnostic keyword at scoring system. Wala sa dalawang kasong hindi perpekto ang nakaligtaan ang tamang diagnosis.
Ang hindi sinasabi sa atin ng headline score
Ang pinagsamang marka na 99.12 porsiyento sa partikular na pre-registered rubric na ito ay kumakatawan sa halos pinakamataas na performance, ngunit nararapat itong maingat na ipaliwanag. Inilalarawan ng resulta ang pag-uugali ng engine laban sa labinlimang piling maingat na anonymised na kaso, na bawat isa ay sinuri nang isang beses, gamit ang iisang rubric. Tahasan naming sinasabi kung ano ang ipinapahiwatig at kung ano ang hindi ipinapahiwatig ng numerong ito.
Sinasabi ng marka na ang V11 engine ay naiproseso nang tama ang mga diagnostic pattern na pinili para sa evaluasyong ito, sa isang metodolohiyang inilathala at maaaring ulitin. Hindi nito sinasabi na tama ang engine sa bawat blood test panel na umiiral sa totoong mundo. Hindi rin nito sinasabi na dapat palitan ng engine ang paghatol ng clinician. At hindi rin nito sinasabi na nalalampasan ng engine ang mga alternatibong AI system—ang mga paghahambing na pagsusuri laban sa ibang engine ay sinadyang hindi saklaw ng ulat na ito.
Ang ipinapakita ng marka ay isang baseline. Kapag ang rubric at harness ay pampubliko, ang mga susunod na bersyon ng engine ay maaaring suriin laban sa parehong labinlimang kaso, at ang agwat sa pagitan ng inilathalang marka at anumang susunod na pagtakbo ay nasusukat mismo. Ito ang halaga ng pre-registration: ginagawang mga mapapatunayang pahayag ang mga claim tungkol sa performance.
Paano muling likhain ang benchmark na ito sa loob ng 10 minuto
Ang pag-uulit ay nangangailangan lamang ng isang pares ng Kantesti API credential at isang kapaligirang Python 3.10 o mas bago na may requests at reportlab na naka-install na mga library. Ang buong harness ay isang iisang self-contained Python module na inilalabas sa ilalim ng lisensyang MIT.
Apat na hakbang para sa isang bagong run
Isa. I-clone ang repository: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dalawa. I-install ang mga dependency gamit ang pip install -r requirements.txt. Tatlo. Itakda ang KANTESTI_USERNAME at KANTESTI_PASSWORD bilang mga environment variable—ang mga kredensyal ay binabasa sa runtime at walang anumang naka-hardcode sa script. Apat. Patakbuhin ang python benchmark_bloodtest.py at suriin ang apat na artepaktong inilalabas sa working directory: isang CSV scorecard, isang JSON scorecard, isang kumpletong JSON dump kabilang ang mga raw na tugon ng engine, at isang human-readable na Markdown report.
Ang reference run mula 23 Abril 2026 ay pinananatili sa results/ na direktoryo ng repository. Ang isang bagong run ay makakabuo ng bagong timestamped na scorecard habang iniiwan ang reference run na hindi nagbabago. Kung ang iyong run ay makakagawa ng makabuluhang magkakaibang resulta, mangyaring magbukas ng GitHub issue kasama ang run timestamp at ang engine version na ibinalik sa response metadata.
Mga limitasyon at mga gawaing panghinaharap
Apat na limitasyon ang nararapat na tahasang kilalanin: laki ng sample, single-shot evaluation, saklaw ng iisang engine, at iisang pinagmulan ng data. Ang bawat isa ay tinutugunan sa aktibong follow-up na gawain.
Laki ng sample. Labinlimang kaso sa walong specialty bucket ay sapat para sa proof of concept ngunit hindi para sa subgroup analysis sa loob ng isang specialty. Ang pagpapalawak sa limampung kaso ay planado at magsasama ng mga coagulation panel, screening para sa haematological malignancy, pregnancy panels, at mga presentasyon sa pediatrics.
Single-shot evaluation. Ang bawat kaso ay sinuri nang isang beses. Ang mga large language model ay nagpapakita ng hindi trivial na output variance kahit sa mababang sampling temperature, kaya ang multi-run protocol na may limang evaluasyon bawat kaso at naiulat na variance ay natural na susunod na hakbang.
Saklaw ng iisang engine. Inilalarawan ng ulat na ito ang isang engine. Ang mga comparative analysis laban sa mga alternatibong AI system ay wala sa saklaw dito; maaari namin itong ituloy bilang isang hiwalay na independiyenteng pag-aaral na may naaangkop na metodolohiya.
Iisang pinagmulan ng data. Ang labinlimang kaso ay anonymised na totoong mga rekord ng pasyente na nagmula sa iisang clinical repository. Kinakatawan nila ang isang curated na sample at hindi ito random na kuha na representatibo ng populasyon. Ang pagpapalawak ng evaluasyon sa multi-centre na data ay nasa roadmap.
Ang pinaka-makabuluhang planadong extension ay multi-language parity. Ang Kantesti AI Engine ay nagsisilbi sa mga user sa 75+ na wika, at ang pagpapatakbo ng parehong labinlimang-case harness sa Turkish, German, Spanish, French, at Arabic ay magsusukat ng kalidad ng output sa mga wikang sinusuportahan ng engine. Ilalathala namin ang bawat language-specific na run kasama ang sarili nitong DOI at harness branch.