Varför denna benchmark finns och vad den testar
AI-assisterad tolkning av blodprov används allt oftare i konsument- och kliniska arbetsflöden, men reproducerbara utvärderingsramverk anpassade för laboratoriemedicin är fortfarande ovanliga. De frågor som betyder mest i detta sammanhang är inte de som täcks av generella riktmärken för medicinsk frågesvar: kan en engine skilja järnbrist från talasemi-egenskap när den genomsnittliga korpuskulära volymen är identisk, ställer den felaktigt diagnosen Gilberts syndrom som hepatit, och skapar den patologi i en helt normal screeningpanel?
En enskild blodprovs-panel innehåller vanligtvis tillräckligt med signal för att stödja flera konkurrerande tolkningar, och den tolkande klinikerns uppgift är att väga dessa tolkningar mot varandra snarare än att hämta ett facit från en lärobok. En motor som klarar sig bra på läroboksfall kan ändå misslyckas på de fall som betyder mest: fallgroparna i differentialdiagnostiken, de godartade varianter som ser alarmerande ut var för sig och de helt normala panelerna som frestar självsäkra assistenter att tillverka patologi.
Detta benchmark byggdes exakt kring dessa typer av fel. Var och en av de femton fallen valdes ut för en specifik diagnostisk egenskap: en järnbristanemi med mikrocytos som måste hållas tydligt skild från en betatalassemi-egenskap med identiskt medelkorpuskelvolym, en presentation som vid GIlberts syndrom där den enda avvikelsen är en isolerad indirekt hyperbilirubinemi, och en screeningpanel med femton parametrar där varje analytsubstans ligger inom sitt referensintervall. Bedömningsmallen belönar motorer som läser varje fall utifrån dess egna villkor och straffar motorer som försöker nå en självsäker diagnos när en sådan diagnos inte är motiverad.
Som Thomas Klein, MD, valde jag fallpanelen eftersom det är de mönster jag oftast ser att laboratoriemedicinska assistenter får fel. Den dyra feltypen är inte att "missar en sällsynt sjukdom" — det är att hitta på rutinmässig patologi hos patienter som inte har den. Vår Medicinsk validering hub beskriver det bredare ramverket; den här sidan beskriver dess tillämpade resultat på V11-motorn.
Senaste referenskörning — V11 (april 2026)
Den referenskörning som gjordes i april 2026 för Kantesti AI Engine V11 gav en sammanlagd poäng på 99.12% enligt den förregistrerade bedömningsmallen med femton fall. Båda fallen som var avsedda att locka till överdiagnostik fick maxpoäng. Mentzer-indexet tillämpades korrekt i differentialdiagnosen mellan järnbrist och talassemi.
Den sammanlagda formeln kombinerar tre komponenter: strukturell överensstämmelse med de sju obligatoriska rapportsektionerna och sexton obligatoriska undersektionerna, klinisk korrekthet mätt som nyckelords-återkallning plus återkallning i poängsystemet plus en kontroll av giltighet för sannolikhetsfördelning, och svarslatens gentemot målet på 20 sekunder för primär tjänstenivå. Den exakta uppdelningen visas i formeln för bedömningsmallen nedan.
De återstående 0,88 procentenheterna av utrymmet för marginal (headroom) bryts nästan helt ned i förlust på grund av latens — tre anrop för reservfall i fas 2 med vardera minus 0,05 i sammansatt bidrog med cirka 0,60 av underskottet på 0,88 enheter — snarare än i kliniskt innehåll. Motorn missade ingen korrekt diagnos i något av de femton fallen; där den inte nådde hela vägen berodde det på att den tog något längre tid än den primära måltiden på 20 sekunder i en liten minoritet av anropen.
Femton fall inom sju medicinska specialiteter
Panelen för fallen omfattar sju specialiteter — hematologi, endokrinologi, metabol medicin, hepatologi, nefrologi, kardiologi, reumatologi — plus två särskilda fall för hyperdiagnostiska fällor. Varje fall är en anonymiserad verklig patientjournal som hämtats från Kantesti:s kliniska datalager under skriftligt informerat samtycke.
Avidentifiering utfördes enligt Safe Harbor-metoden: alla direkta identifierare togs bort eller ersattes, och varje journal tilldelades en intern fallkod i formatet BT-NNN-LABEL. Bearbetningen genomfördes i enlighet med GDPR artikel 9(2)(j) för vetenskaplig forskning med lämpliga skyddsåtgärder, samt motsvarande bestämmelser i brittiska GDPR. Ingen personligt identifierande information förekommer någonstans i den publicerade testmiljön, den tekniska rapporten eller de släppta datamängderna.
Varför just denna fördelning
Hematologi får tre fall eftersom mikrocytiska differentialer och makrocytiska differentialer är de största fällorna med hög volym i verklig laboratoriepraxis. Endokrinologi får tre eftersom presentationerna vid Hashimotos, PCOS och D-vitaminbrist tränar olika diagnostiska former (drivna av autoantikroppar, drivna av hormonkvoter, drivna av en enskild markör). De specialiteter som bara har ett fall är fortfarande meningsfulla eftersom både CKD, ASCVD-risk och SLE har sina egna poängsystem som motorn ska anropa (KDIGO-stadieindelning, ASCVD 10-årsrisk respektive 2019 EULAR/ACR SLE-kriterier).
Den förregistrerade bedömningsmallen, förklarad
Förhandsregistrering är det enskilt viktigaste metodvalet i detta benchmark. Varje förväntad diagnos, varje kliniskt poängsystem och varje rapportavsnitt var förankrat i källkod innan motorn anropades. Efterhandsjustering av rubriken för att smickra motorn är därför omöjlig.
Tre komponenter ingår i den sammansatta poängen. Den strukturella komponenten bidrar med 35 procent och mäter om motorn returnerade de sju obligatoriska rapportavsnitten (rubrik, sammanfattning, viktiga fynd, differential, poängsystem, rekommendationer, uppföljning) och de sexton obligatoriska underavsnitten inom dem. Förekomst av avsnitt väger 40 procent och förekomst av underavsnitt väger 60 procent inom den strukturella beräkningen.
De kliniska komponenten bidrar med 55 procent och kombinerar tre saker: återkallning av diagnos-nyckelord (70 procent av den kliniska delpoängen), återkallning av poängsystem (20 procent — beräknar motorn Mentzer, FIB-4, HOMA-IR, ASCVD-risk, KDIGO-stadieindelning, EULAR/ACR-kriterier där det är relevant), samt en giltighetskontroll av sannolikhetssumma (10 procent — differentialens sannolikheter ska summera till inom intervallet [90, 110]). För fällfall dras en uttrycklig hyperdiagnos-penalty på upp till 0,30, beräknad som 0,10 per fabricerad patologiflagga, med ett tak på tre flaggor.
De latenskomponenten bidrar med 10 procent. Ett svar under 20 sekunder ger full 0,10, ett svar under 40 sekunder ger 0,05, och allt långsammare ger noll. 20-sekundersmålet speglar produktions primära primary-path-servicenivåmål; 40-sekunderstaket speglar Phase 2-reservbudgeten för tunga motoranrop.
Vad förhandsregistrering förhindrar
Förstahands-benchmarkar är ökända för att blåsa upp sina egna siffror genom efterhandsjustering av rubriken. Mönstret är nästan alltid detsamma: teamet kör motorn, ser var den underpresterar, och justerar sedan tyst rubriken så att de underpresterande områdena räknas mindre. Genom att låsa rubriken i källkod innan första motoranropet och publicera testharnessen under MIT-licens blir den justeringen synlig i versionshanteringen. Vem som helst kan klona repositoryt, kontrollera rubrikens författardatum och verifiera att motorresultaten inte användes för att forma poängsättningen.
Fall i hyperdiagnostikfällan — varför överrapportering är det verkliga felmönstret
Aggressiv överutropning av patologi på normala skärmar är ett dokumenterat felmönster hos konsumentinriktade medicinska assistenter. Dess följdkostnader inkluderar onödiga utredningar, patientoro och iatrogen utredning. De två fällfallen i detta benchmark är utformade för att göra det felmönstret synligt och poängbart.
🟡 Fälla 1 — BT-014-GILBERT
Presentation. En 24-årig man med totalt bilirubin på 2,4 mg/dL. Den direkta fraktionen är normal, transaminaser och alkaliskt fosfatas ligger inom sina referensintervall, retikulocyter är utan anmärkning, och haptoglobin samt LDH utesluter hemolys.
Korrekt tolkning. Gilbert’s syndrom — en benign UGT1A1-polymorfism. Tolkningen ska inte åberopa hepatit, cirros, hemolytisk anemi eller gallvägsobstruktion.
V11-resultat. Komposit 1,000. Inga av de sex överdiagnosflaggorna som övervakades visades som aktiva diagnoser.
🟡 Fälla 2 — BT-015-HÄLSOSAM
Presentation. En 35-årig kvinna med en femtonparameter rutinmässig screeningpanel. Varje analytt ligger bekvämt inom sitt referensintervall.
Korrekt tolkning. Betryggelse och upprätthållande av livsstil. Tolkningen ska inte hitta på gränsfallspatologi för att låta kliniskt användbar.
V11-resultat. Komposit 1.000. Ingen av de sju överdiagnostiska varningsflaggor som övervakades — diabetes, anemi, hypotyreoidism, dyslipidemi, hepatit, njursjukdom, brist — visade sig som aktiva diagnoser.
I båda fällorna kontrollerades tretton överdiagnostiska varningsflaggor för hyperdiagnostik. Noll utlöste. Detta är det resultat som betyder mest för varje kliniker som överväger att använda en AI-motor som triage- eller förkonsultationsverktyg: systemet uppfann inte en sjukdom där ingen fanns.
Mentzer-index: att skilja järnbrist från talassemi-drag
Ett andra fynd med högt värde gäller kombinationen av fall BT-001 (järnbristanemi) med fall BT-007 (beta-talassemi minor). Båda uppvisar mikrocytos och är ett välkänt hinder för naiva klassificerare. Mentzer-indexet, beräknat som MCV dividerat med RBC-antalet, är över 13 vid järnbrist och under 13 vid talassemi-egenskap.
I BT-001 var patienten en 34-årig kvinna med hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritin 6 ng/mL och förhöjt TIBC. Mentzer-indexet på cirka 17,7 stödjer absolut järnbrist. I BT-007 var patienten en 28-årig man med mikrocytos (MCV 65,8 fL) men ett högt RBC-antal på 6,2, normalt RDW, normalt ferritin och HbA2 på 5,6 procent. Mentzer-indexet på cirka 10,6 pekar på talassemi-egenskap, och det förhöjda HbA2 bekräftar beta-talassemi minor.
Båda fallen fick 1.000. Motorn använde Mentzer-indexet uttryckligen i båda tolkningarna och gav rätt diagnos i varje fall. Detta är det enskilt mest kliniskt betryggande resultatet i hela benchmarken, eftersom felklassificering av talassemi-egenskap som järnbrist leder till olämplig järnbehandling och missade möjligheter till familjescreening, och felklassificering av järnbrist som talassemi fördröjer enkel ersättningsterapi. Vår ferritinspektrumguide förklarar det bredare differentialkontexten.
Resultat per fall från körningen i april 2026
Tolv av femton fall nådde taket för kompositpoängen 1.000 på den primära vägen. Tre fall hanterades via fas 2-återfall, vilket innebar att 0,05 i latensbonus förlorades samtidigt som allt kliniskt och strukturellt innehåll bevarades. Ett fall saknade en enda obligatorisk delsektion; ett returnerade en marginalt reducerad totalsumma för sannolikhetsfördelningen.
PCOS-fallet (BT-008) tappade en enskild obligatorisk undersektion i svarsstrukturen — femton av sexton i stället för sexton av sexton — vilket sänkte den strukturella poängen från 1,000 till 0,963. SLE-fallet (BT-011) gav en marginellt minskad summa av sannolikhetsfördelningen som sänkte den kliniska poängen till 0,965 samtidigt som varje diagnostiskt nyckelord och poängsystem bevarades. Inget av de två fallen som inte var perfekta missade en korrekt diagnos.
Vad headlinescoret inte berättar för oss
En sammansatt poäng på 99,12 procent enligt just denna förhandsregistrerade rubrik motsvarar nästan takprestanda, men den förtjänar noggrann inramning. Resultatet beskriver motorbeteendet mot femton noggrant utvalda anonymiserade fall, bedömda en gång vardera, mot en enda rubrik. Vi är tydliga med vad siffran gör och inte fastställer.
Poängen säger att V11-motorn hanterade de diagnostiska mönster som valdes ut för denna utvärdering korrekt, med en metodik som är publicerad och reproducerbar. Den säger inte att motorn är korrekt för varje blodprovspanel som finns där ute. Den säger inte att motorn bör ersätta klinikers omdöme. Och den säger inte att motorn presterar bättre än alternativa AI-system — jämförande analyser mot andra motorer låg medvetet utanför ramen för denna rapport.
Det som poängen däremot fastställer är en baslinje. När rubriken och testharnessen är offentliga kan framtida versioner av motorn utvärderas mot samma femton fall, och gapet mellan den publicerade poängen och varje efterföljande körning är i sig mätbart. Det är värdet av förhandsregistrering: den omvandlar prestationspåståenden till testbara påståenden.
Så återskapar du detta riktmärke på 10 minuter
Reproduktion kräver endast ett Kantesti API-uppgiftspar och en Python 3.10 eller senare miljö med requests och reportlab bibliotek installerade. Hela testharnessen är en enda fristående Python-modul som släpps under MIT-licensen.
Fyra steg för en ny körning
Ett. Klona repot: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Två. Installera beroenden med pip install -r requirements.txt. Tre. Ange KANTESTI_USERNAME och KANTESTI_PASSWORD som miljövariabler — autentiseringsuppgifter läses in vid körning och inget hårdkodas i skriptet. Fyra. Kör python benchmark_bloodtest.py och granska de fyra artefakter som skrivs ut till arbetskatalogen: ett CSV-scorekort, ett JSON-scorekort, en fullständig JSON-dump inklusive råa motorresponsar, samt en mänskligt läsbar Markdown-rapport.
Referenskörningen från 23 april 2026 bevaras i results/ katalogen i repot. En ny körning skapar ett nytt tidsstämplat scorekort samtidigt som referenskörningen lämnas orörd. Om din körning ger ett meningsfullt annorlunda resultat, öppna ett GitHub-issue med körningens tidsstämpel och motorversionen som returneras i svarsmetadata.
Begränsningar och framtida arbete
Fyra begränsningar förtjänar ett uttryckligt erkännande: urvalsstorlek, engångsutvärdering, enmotorigt omfång och enskild datakällas ursprung. Var och en åtgärdas i pågående uppföljningsarbete.
Urvalsstorlek. Femton fall över åtta specialitetsgrupper räcker för ett proof of concept men inte för undergruppsanalys inom en specialitet. Utökning till femtio fall är planerad och kommer att inkludera koagulationspaneler, screening för hematologiska maligniteter, graviditetspaneler och pediatriska presentationer.
Engångsutvärdering. Varje fall utvärderades en gång. Stora språkmodeller uppvisar icke-trivial variationsbredd i utdata även vid låg samplingtemperatur, så ett fler-körningsprotokoll med fem utvärderingar per fall och redovisad varians är ett naturligt nästa steg.
Enmotorigt omfång. Denna rapport beskriver en enda motor. Jämförande analyser mot alternativa AI-system ligger utanför ramen här; vi kan eventuellt genomföra dem som en separat oberoende studie med lämplig metodik.
Enskild datakällas ursprung. De femton fallen är anonymiserade verkliga patientjournaler hämtade från ett enda kliniskt register. De utgör ett kuraterat urval och är inte ett slumpmässigt urval som är representativt för en population. Att utöka utvärderingen till data från flera centra finns med på vägkartan.
Den mest betydelsefulla planerade utökningen är paritet mellan språk. Kantesti AI-motorn betjänar användare på 75+ språk, och att köra samma femtonfalls-harness på turkiska, tyska, spanska, franska och arabiska kommer att kvantifiera utdata-kvalitet över motorns språk som stöds. Vi publicerar varje språk-specifik körning med dess egen DOI och harness-gren.