Kantesti AI-blodprovsbenchmark — klinisk validering

Klinisk validering Förregistrerad riktlinjebenchmark V11 — april 2026 MIT-licensierad Peer-verifierbar

99.12% sammansatt poäng på en förregistrerad bedömningsmall med noll hyperdiagnostiska falska positiva

En oberoende, förregistrerad klinisk utvärdering av Kantesti AI-motorn på anonymiserade blodprovsfall. Bedömningsmallen frystes i källkoden innan det första motoranropet, utvärderingsramverket är MIT-licensierat och varje råsvar publiceras.

📖 ~14 minuter 📅 23 april 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publicerad: 23 april 2026 🩺 Medicinskt granskad: 23 april 2026 ✅ Förregistrerad bedömningsmall 🔓 Öppen kod & data

Denna kliniska valideringsstudie leddes av Dr. Thomas Klein, läkare, Chief Medical Officer på Kantesti AI, i samarbete med Julian Emirhan Bulut, Senior AI-ingenjör och VD för Kantesti Ltd. Metodik och bedömningsmall granskades av Kantesti AI medicinska rådgivande nämnd.

Huvudförfattare & klinisk tillsyn

Thomas Klein, läkare

Överläkare, Kantesti AI

Dr. Thomas Klein är specialistläkare i klinisk hematologi och internmedicin, certifierad, med över 15 års erfarenhet inom laboratoriemedicin. Som Chief Medical Officer på Kantesti AI valde han ut fallpanelen för denna benchmark, granskade alla diagnostiska facit och godkände den förregistrerade bedömningsmallen innan det första motoranropet.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Medförfattare & implementering

Julian Emirhan Bulut

Senior AI-ingenjör & VD, Kantesti Ltd

Julian Emirhan Bulut är grundare och VD för Kantesti Ltd. Han utformade och implementerade utvärderingsramverket, genomförde API-integrationen, körde benchmarken i april 2026 och tog fram den statistiska sammanställningen. Grundare av plattformen sedan 2019.

GitHub Om Kantesti

⚡ Snabb sammanfattning V11 — 23 april 2026

99.12%-kompositpoäng på 15 anonymiserade blodprovsfall från verkliga patienter inom sju medicinska specialiteter.
Inga falska positiva hyperdiagnoser på båda fällfallen (Gilberts syndrom och en helt normal vuxenscreening).
Förhandsregistrerad bedömningsmatris fryst i källkoden före det första engine-anropet — ingen efterhandsjustering var möjlig.
Mentzer-index tillämpades korrekt för att skilja järnbristanemi från beta-talassemi minor.
Endast produktionsslutpunkt — ingen privilegierad routing, utvärderad exakt som en betalande kund skulle komma åt den.
20,17 sekunders genomsnittlig latens end-to-end, med 12 av 15 fall under den primära målgränsen på 20 sekunder.
Harness med MIT-licens släppt på GitHub med varje rå engine-svar — oberoende återskapande stöds.
Figshare DOI: 10.6084/m9.figshare.32095435 · Speglad på ResearchGate, Academia.edu, GitHub.

Varför denna benchmark finns och vad den testar

AI-assisterad tolkning av blodprov används allt oftare i konsument- och kliniska arbetsflöden, men reproducerbara utvärderingsramverk anpassade för laboratoriemedicin är fortfarande ovanliga. De frågor som betyder mest i detta sammanhang är inte de som täcks av generella riktmärken för medicinsk frågesvar: kan en engine skilja järnbrist från talasemi-egenskap när den genomsnittliga korpuskulära volymen är identisk, ställer den felaktigt diagnosen Gilberts syndrom som hepatit, och skapar den patologi i en helt normal screeningpanel?

En enskild blodprovs-panel innehåller vanligtvis tillräckligt med signal för att stödja flera konkurrerande tolkningar, och den tolkande klinikerns uppgift är att väga dessa tolkningar mot varandra snarare än att hämta ett facit från en lärobok. En motor som klarar sig bra på läroboksfall kan ändå misslyckas på de fall som betyder mest: fallgroparna i differentialdiagnostiken, de godartade varianter som ser alarmerande ut var för sig och de helt normala panelerna som frestar självsäkra assistenter att tillverka patologi.

Detta benchmark byggdes exakt kring dessa typer av fel. Var och en av de femton fallen valdes ut för en specifik diagnostisk egenskap: en järnbristanemi med mikrocytos som måste hållas tydligt skild från en betatalassemi-egenskap med identiskt medelkorpuskelvolym, en presentation som vid GIlberts syndrom där den enda avvikelsen är en isolerad indirekt hyperbilirubinemi, och en screeningpanel med femton parametrar där varje analytsubstans ligger inom sitt referensintervall. Bedömningsmallen belönar motorer som läser varje fall utifrån dess egna villkor och straffar motorer som försöker nå en självsäker diagnos när en sådan diagnos inte är motiverad.

Som Thomas Klein, MD, valde jag fallpanelen eftersom det är de mönster jag oftast ser att laboratoriemedicinska assistenter får fel. Den dyra feltypen är inte att "missar en sällsynt sjukdom" — det är att hitta på rutinmässig patologi hos patienter som inte har den. Vår Medicinsk validering hub beskriver det bredare ramverket; den här sidan beskriver dess tillämpade resultat på V11-motorn.

Senaste referenskörning — V11 (april 2026)

Den referenskörning som gjordes i april 2026 för Kantesti AI Engine V11 gav en sammanlagd poäng på 99.12% enligt den förregistrerade bedömningsmallen med femton fall. Båda fallen som var avsedda att locka till överdiagnostik fick maxpoäng. Mentzer-indexet tillämpades korrekt i differentialdiagnosen mellan järnbrist och talassemi.

Sammanlagt 99.12% 15 av 15 fall fick poäng

0.998 Strukturell poäng

0.998 Klinisk poäng

20,17 s Medel-latens

0 / 13 Falska positiva “fällor”

Den sammanlagda formeln kombinerar tre komponenter: strukturell överensstämmelse med de sju obligatoriska rapportsektionerna och sexton obligatoriska undersektionerna, klinisk korrekthet mätt som nyckelords-återkallning plus återkallning i poängsystemet plus en kontroll av giltighet för sannolikhetsfördelning, och svarslatens gentemot målet på 20 sekunder för primär tjänstenivå. Den exakta uppdelningen visas i formeln för bedömningsmallen nedan.

Sammanlagt = 0.35 × Strukturell + 0.55 × Klinisk + 0.10 × Latens

De återstående 0,88 procentenheterna av utrymmet för marginal (headroom) bryts nästan helt ned i förlust på grund av latens — tre anrop för reservfall i fas 2 med vardera minus 0,05 i sammansatt bidrog med cirka 0,60 av underskottet på 0,88 enheter — snarare än i kliniskt innehåll. Motorn missade ingen korrekt diagnos i något av de femton fallen; där den inte nådde hela vägen berodde det på att den tog något längre tid än den primära måltiden på 20 sekunder i en liten minoritet av anropen.

Femton fall inom sju medicinska specialiteter

Panelen för fallen omfattar sju specialiteter — hematologi, endokrinologi, metabol medicin, hepatologi, nefrologi, kardiologi, reumatologi — plus två särskilda fall för hyperdiagnostiska fällor. Varje fall är en anonymiserad verklig patientjournal som hämtats från Kantesti:s kliniska datalager under skriftligt informerat samtycke.

Avidentifiering utfördes enligt Safe Harbor-metoden: alla direkta identifierare togs bort eller ersattes, och varje journal tilldelades en intern fallkod i formatet BT-NNN-LABEL. Bearbetningen genomfördes i enlighet med GDPR artikel 9(2)(j) för vetenskaplig forskning med lämpliga skyddsåtgärder, samt motsvarande bestämmelser i brittiska GDPR. Ingen personligt identifierande information förekommer någonstans i den publicerade testmiljön, den tekniska rapporten eller de släppta datamängderna.

Hematologi (3) BT-001, BT-006, BT-007 Järnbristanemi · B12-brist · Betatalassemi minor

Endokrinologi (3) BT-002, BT-008, BT-012 Hashimotos tyreoidit · PCOS med insulinresistens · Svår D-vitaminbrist

Metabol (2) BT-003, BT-013 T2DM med metabolt syndrom · Hyperurikemi med risk för gikt

Hepatologi (2) BT-004, BT-009 NAFLD / NASH · Akut viral hepatit

Nefrologi · Kardiologi · Reumatologi (3) BT-005, BT-010, BT-011 CKD stadium 3 · Aterogen dyslipidemi · Systemisk lupus erythematosus

Fällfall (2) BT-014, BT-015 Gilberts syndrom (isolering av indirekt hyperbilirubinemi) · Helt normal vuxenscreening

Varför just denna fördelning

Hematologi får tre fall eftersom mikrocytiska differentialer och makrocytiska differentialer är de största fällorna med hög volym i verklig laboratoriepraxis. Endokrinologi får tre eftersom presentationerna vid Hashimotos, PCOS och D-vitaminbrist tränar olika diagnostiska former (drivna av autoantikroppar, drivna av hormonkvoter, drivna av en enskild markör). De specialiteter som bara har ett fall är fortfarande meningsfulla eftersom både CKD, ASCVD-risk och SLE har sina egna poängsystem som motorn ska anropa (KDIGO-stadieindelning, ASCVD 10-årsrisk respektive 2019 EULAR/ACR SLE-kriterier).

Den förregistrerade bedömningsmallen, förklarad

Förhandsregistrering är det enskilt viktigaste metodvalet i detta benchmark. Varje förväntad diagnos, varje kliniskt poängsystem och varje rapportavsnitt var förankrat i källkod innan motorn anropades. Efterhandsjustering av rubriken för att smickra motorn är därför omöjlig.

Tre komponenter ingår i den sammansatta poängen. Den strukturella komponenten bidrar med 35 procent och mäter om motorn returnerade de sju obligatoriska rapportavsnitten (rubrik, sammanfattning, viktiga fynd, differential, poängsystem, rekommendationer, uppföljning) och de sexton obligatoriska underavsnitten inom dem. Förekomst av avsnitt väger 40 procent och förekomst av underavsnitt väger 60 procent inom den strukturella beräkningen.

De kliniska komponenten bidrar med 55 procent och kombinerar tre saker: återkallning av diagnos-nyckelord (70 procent av den kliniska delpoängen), återkallning av poängsystem (20 procent — beräknar motorn Mentzer, FIB-4, HOMA-IR, ASCVD-risk, KDIGO-stadieindelning, EULAR/ACR-kriterier där det är relevant), samt en giltighetskontroll av sannolikhetssumma (10 procent — differentialens sannolikheter ska summera till inom intervallet [90, 110]). För fällfall dras en uttrycklig hyperdiagnos-penalty på upp till 0,30, beräknad som 0,10 per fabricerad patologiflagga, med ett tak på tre flaggor.

De latenskomponenten bidrar med 10 procent. Ett svar under 20 sekunder ger full 0,10, ett svar under 40 sekunder ger 0,05, och allt långsammare ger noll. 20-sekundersmålet speglar produktions primära primary-path-servicenivåmål; 40-sekunderstaket speglar Phase 2-reservbudgeten för tunga motoranrop.

Vad förhandsregistrering förhindrar

Förstahands-benchmarkar är ökända för att blåsa upp sina egna siffror genom efterhandsjustering av rubriken. Mönstret är nästan alltid detsamma: teamet kör motorn, ser var den underpresterar, och justerar sedan tyst rubriken så att de underpresterande områdena räknas mindre. Genom att låsa rubriken i källkod innan första motoranropet och publicera testharnessen under MIT-licens blir den justeringen synlig i versionshanteringen. Vem som helst kan klona repositoryt, kontrollera rubrikens författardatum och verifiera att motorresultaten inte användes för att forma poängsättningen.

Fall i hyperdiagnostikfällan — varför överrapportering är det verkliga felmönstret

Aggressiv överutropning av patologi på normala skärmar är ett dokumenterat felmönster hos konsumentinriktade medicinska assistenter. Dess följdkostnader inkluderar onödiga utredningar, patientoro och iatrogen utredning. De två fällfallen i detta benchmark är utformade för att göra det felmönstret synligt och poängbart.

🟡 Fälla 1 — BT-014-GILBERT

Presentation. En 24-årig man med totalt bilirubin på 2,4 mg/dL. Den direkta fraktionen är normal, transaminaser och alkaliskt fosfatas ligger inom sina referensintervall, retikulocyter är utan anmärkning, och haptoglobin samt LDH utesluter hemolys.

Korrekt tolkning. Gilbert’s syndrom — en benign UGT1A1-polymorfism. Tolkningen ska inte åberopa hepatit, cirros, hemolytisk anemi eller gallvägsobstruktion.

V11-resultat. Komposit 1,000. Inga av de sex överdiagnosflaggorna som övervakades visades som aktiva diagnoser.

🟡 Fälla 2 — BT-015-HÄLSOSAM

Presentation. En 35-årig kvinna med en femtonparameter rutinmässig screeningpanel. Varje analytt ligger bekvämt inom sitt referensintervall.

Korrekt tolkning. Betryggelse och upprätthållande av livsstil. Tolkningen ska inte hitta på gränsfallspatologi för att låta kliniskt användbar.

V11-resultat. Komposit 1.000. Ingen av de sju överdiagnostiska varningsflaggor som övervakades — diabetes, anemi, hypotyreoidism, dyslipidemi, hepatit, njursjukdom, brist — visade sig som aktiva diagnoser.

I båda fällorna kontrollerades tretton överdiagnostiska varningsflaggor för hyperdiagnostik. Noll utlöste. Detta är det resultat som betyder mest för varje kliniker som överväger att använda en AI-motor som triage- eller förkonsultationsverktyg: systemet uppfann inte en sjukdom där ingen fanns.

Mentzer-index: att skilja järnbrist från talassemi-drag

Ett andra fynd med högt värde gäller kombinationen av fall BT-001 (järnbristanemi) med fall BT-007 (beta-talassemi minor). Båda uppvisar mikrocytos och är ett välkänt hinder för naiva klassificerare. Mentzer-indexet, beräknat som MCV dividerat med RBC-antalet, är över 13 vid järnbrist och under 13 vid talassemi-egenskap.

I BT-001 var patienten en 34-årig kvinna med hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritin 6 ng/mL och förhöjt TIBC. Mentzer-indexet på cirka 17,7 stödjer absolut järnbrist. I BT-007 var patienten en 28-årig man med mikrocytos (MCV 65,8 fL) men ett högt RBC-antal på 6,2, normalt RDW, normalt ferritin och HbA2 på 5,6 procent. Mentzer-indexet på cirka 10,6 pekar på talassemi-egenskap, och det förhöjda HbA2 bekräftar beta-talassemi minor.

Järnbristanemi Mentzer > 13 Lågt ferritin, lågt TSAT, högt TIBC, förhöjt RDW

Beta-talassemi-egenskap Mentzer < 13 Normalt ferritin, normalt RDW, förhöjt HbA2 (>3.5%), högt RBC-antal

Båda fallen fick 1.000. Motorn använde Mentzer-indexet uttryckligen i båda tolkningarna och gav rätt diagnos i varje fall. Detta är det enskilt mest kliniskt betryggande resultatet i hela benchmarken, eftersom felklassificering av talassemi-egenskap som järnbrist leder till olämplig järnbehandling och missade möjligheter till familjescreening, och felklassificering av järnbrist som talassemi fördröjer enkel ersättningsterapi. Vår ferritinspektrumguide förklarar det bredare differentialkontexten.

Resultat per fall från körningen i april 2026

Tolv av femton fall nådde taket för kompositpoängen 1.000 på den primära vägen. Tre fall hanterades via fas 2-återfall, vilket innebar att 0,05 i latensbonus förlorades samtidigt som allt kliniskt och strukturellt innehåll bevarades. Ett fall saknade en enda obligatorisk delsektion; ett returnerade en marginalt reducerad totalsumma för sannolikhetsfördelningen.

Fall-ID Specialitet Sammanlagt Latens Väg

BT-001-IDAHematologi1.00017,8 sprimär

BT-006-B12Hematologi1.00018,4 sprimär

BT-007-THALHematologi1.00017,0 sprimär

BT-002-HASHEndokrinologi0.95037,0 sreservlösning

BT-008-PCOSEndokrinologi0.98718,6 sprimär

BT-003-T2DMMetabolisk1.00019,1 sprimär

BT-013-GOUTMetabolisk1.00019,4 sprimär

BT-004-NAFLDHepatologi1.00019,6 sprimär

BT-009-VIRHEPHepatologi0.95023,4 sreservlösning

BT-014-GILBERTFälla1.00018,9 sprimär

BT-005-CKDNefrologi1.00017,4 sprimär

BT-010-ASCVDKardiologi1.00019,7 sprimär

BT-011-SLEReumatologi0.98118,2 sprimär

BT-012-VITDEndokrinologi1.00019,3 sprimär

BT-015-HÄLSAFälla1.00018,7 sreservlösning

PCOS-fallet (BT-008) tappade en enskild obligatorisk undersektion i svarsstrukturen — femton av sexton i stället för sexton av sexton — vilket sänkte den strukturella poängen från 1,000 till 0,963. SLE-fallet (BT-011) gav en marginellt minskad summa av sannolikhetsfördelningen som sänkte den kliniska poängen till 0,965 samtidigt som varje diagnostiskt nyckelord och poängsystem bevarades. Inget av de två fallen som inte var perfekta missade en korrekt diagnos.

Vad headlinescoret inte berättar för oss

En sammansatt poäng på 99,12 procent enligt just denna förhandsregistrerade rubrik motsvarar nästan takprestanda, men den förtjänar noggrann inramning. Resultatet beskriver motorbeteendet mot femton noggrant utvalda anonymiserade fall, bedömda en gång vardera, mot en enda rubrik. Vi är tydliga med vad siffran gör och inte fastställer.

Poängen säger att V11-motorn hanterade de diagnostiska mönster som valdes ut för denna utvärdering korrekt, med en metodik som är publicerad och reproducerbar. Den säger inte att motorn är korrekt för varje blodprovspanel som finns där ute. Den säger inte att motorn bör ersätta klinikers omdöme. Och den säger inte att motorn presterar bättre än alternativa AI-system — jämförande analyser mot andra motorer låg medvetet utanför ramen för denna rapport.

Det som poängen däremot fastställer är en baslinje. När rubriken och testharnessen är offentliga kan framtida versioner av motorn utvärderas mot samma femton fall, och gapet mellan den publicerade poängen och varje efterföljande körning är i sig mätbart. Det är värdet av förhandsregistrering: den omvandlar prestationspåståenden till testbara påståenden.

Så återskapar du detta riktmärke på 10 minuter

Reproduktion kräver endast ett Kantesti API-uppgiftspar och en Python 3.10 eller senare miljö med requests och reportlab bibliotek installerade. Hela testharnessen är en enda fristående Python-modul som släpps under MIT-licensen.

💻 GitHub Testharness med MIT-licens · råa svar · referenskörning 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanoniskt akademiskt register 🎓 ResearchGate Publikation 404175463 · akademiskt upptäcktslager 📄 Academia.edu Paper 165956808 · akademiskt upptäcktslager

Fyra steg för en ny körning

Ett. Klona repot: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Två. Installera beroenden med pip install -r requirements.txt. Tre. Ange KANTESTI_USERNAME och KANTESTI_PASSWORD som miljövariabler — autentiseringsuppgifter läses in vid körning och inget hårdkodas i skriptet. Fyra. Kör python benchmark_bloodtest.py och granska de fyra artefakter som skrivs ut till arbetskatalogen: ett CSV-scorekort, ett JSON-scorekort, en fullständig JSON-dump inklusive råa motorresponsar, samt en mänskligt läsbar Markdown-rapport.

Referenskörningen från 23 april 2026 bevaras i results/ katalogen i repot. En ny körning skapar ett nytt tidsstämplat scorekort samtidigt som referenskörningen lämnas orörd. Om din körning ger ett meningsfullt annorlunda resultat, öppna ett GitHub-issue med körningens tidsstämpel och motorversionen som returneras i svarsmetadata.

Begränsningar och framtida arbete

Fyra begränsningar förtjänar ett uttryckligt erkännande: urvalsstorlek, engångsutvärdering, enmotorigt omfång och enskild datakällas ursprung. Var och en åtgärdas i pågående uppföljningsarbete.

Urvalsstorlek. Femton fall över åtta specialitetsgrupper räcker för ett proof of concept men inte för undergruppsanalys inom en specialitet. Utökning till femtio fall är planerad och kommer att inkludera koagulationspaneler, screening för hematologiska maligniteter, graviditetspaneler och pediatriska presentationer.

Engångsutvärdering. Varje fall utvärderades en gång. Stora språkmodeller uppvisar icke-trivial variationsbredd i utdata även vid låg samplingtemperatur, så ett fler-körningsprotokoll med fem utvärderingar per fall och redovisad varians är ett naturligt nästa steg.

Enmotorigt omfång. Denna rapport beskriver en enda motor. Jämförande analyser mot alternativa AI-system ligger utanför ramen här; vi kan eventuellt genomföra dem som en separat oberoende studie med lämplig metodik.

Enskild datakällas ursprung. De femton fallen är anonymiserade verkliga patientjournaler hämtade från ett enda kliniskt register. De utgör ett kuraterat urval och är inte ett slumpmässigt urval som är representativt för en population. Att utöka utvärderingen till data från flera centra finns med på vägkartan.

Den mest betydelsefulla planerade utökningen är paritet mellan språk. Kantesti AI-motorn betjänar användare på 75+ språk, och att köra samma femtonfalls-harness på turkiska, tyska, spanska, franska och arabiska kommer att kvantifiera utdata-kvalitet över motorns språk som stöds. Vi publicerar varje språk-specifik körning med dess egen DOI och harness-gren.

Testa samma motor som uppnådde 99.12% kompositpoäng

Ladda upp din egen blodprovsprofil till samma produktionsendpoint som utvärderades i detta benchmark. Över 2 miljoner användare världen över använder Kantesti AI Engine för att tolka över 15 000 biomarkörer på 75+ språk.

🔬 Prova gratis demo

Chrome-tillägg App Store Google Play

📚 Så citerar du detta benchmark

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Klinisk validering av Kantesti AI Engine (2.78T)
                 på 15 anonymiserade blodprovsfall: Ett förregistrerat
                 rubric-baserat benchmark inklusive hyperdiagnostisk fällafall
                 över sju medicinska specialiteter},
  institution = {Kantesti Ltd},
  address     = {London, Storbritannien},
  year        = {2026},
  month       = {April},
  type        = {Teknisk rapport},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Klinisk validering av Kantesti AI Engine (2.78T) på 15 anonymiserade blodprovsfall: Ett förregistrerat rubric-baserat benchmark inklusive hyperdiagnostisk fällafall över sju medicinska specialiteter (Teknisk rapport V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Relaterat valideringsarbete för Kantesti

Klein, T. (2025). Klinisk valideringsramverk för AI-driven blodprovstolkning: Trippelblind valideringsmetodik, prestandamått och kvalitetssäkringsprotokoll. Kantesti AI medicinsk forskning.

🎓 ResearchGate

📖 Externa metodreferenser

Mentzer, W. C. (1973). Differentiering av järnbrist från talassemi-egenskap. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 års klassificeringskriterier för systemisk lupus erythematosus från European League Against Rheumatism / American College of Rheumatology. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test för stora språkmodeller. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Kompositpoäng

15Fall som poängsattes

7Specialiteter

0Fällfalska positiva

Vanliga frågor

Hur exakt är Kantesti AI-motorn på verkliga blodprovsfall?

På en förregistrerad rubric med 15 anonymiserade riktiga blodprovsfall från sju medicinska specialiteter uppnådde Kantesti AI Engine V11 en kompositpoäng på 99.12 procent, med noll hyperdiagnostiska falska positiva i både fällfallen och en genomsnittlig svarslatens på 20.17 sekunder. Den fullständiga poängtabellen per fall publiceras på Figshare under DOI 10.6084/m9.figshare.32095435 och på GitHub under MIT-licens.

Är Kantesti AI-motorn kliniskt validerad?

Ja. Motorn har kliniskt validerats mot en bedömningsmall som frystes i källkod innan motorn anropades, utvärderad på 15 anonymiserade blodprovsfall inom hematologi, endokrinologi, metabol medicin, hepatologi, nefrologi, kardiologi och reumatologi. Klinisk tillsyn tillhandahölls av Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), styrelsecertifierad klinisk hematolog och Chief Medical Officer på Kantesti AI.

Vad är ett fall med en hyperdiagnostisk fälla?

Ett hyperdiagnostiskt fällfall är ett kliniskt scenario som specifikt utformats för att upptäcka överdiagnostiskt beteende i AI-motorer. Kantesti V11-benchmarken använder två sådana fall. Det första är en isolerad indirekt hyperbilirubinemi som är förenlig med Gilberts syndrom, där den korrekta tolkningen är den godartade UGT1A1-polymorfismen snarare än hepatit eller hemolys. Det andra är en helt normal screeningpanel för vuxna, där det korrekta svaret är trygghet och livsstilsunderhåll snarare än en tillverkad gränsfallspatologi.

Är utvärderingen av Kantesti AI-motorn reproducerbar?

Hela utvärderingsramverket släpps under MIT-licensen som en enda fristående Python-modul. För att återskapa krävs endast ett par Kantesti API-uppgifter och Python 3.10 eller senare. Koden, falldefinitionerna och varje rått motorsvar från referenskörningen i april 2026 finns på github.com/emirhanai/kantesti-blood-test-benchmark och speglas på Figshare, ResearchGate och Academia.edu.

Hur skiljer Kantesti:s AI-motor åt järnbrist från bäraregenskap för betatalassemi?

Motorn tillämpar Mentzer-index, beräknat som medelvolymen för erytrocyter dividerat med antalet röda blodkroppar. Ett Mentzer-index över 13 talar för järnbristanemi, medan ett värde under 13 talar för betatalassemi-egenskap. I V11-benchmarken klassificerades båda presentationerna korrekt med explicit beräkning av Mentzer-index, stödd av ferritin, RDW och HbA2-kontext.

Var kan jag hitta rådata för jämförelsen och källkoden?

Den tekniska rapporten deponeras på Figshare under DOI 10.6084/m9.figshare.32095435, speglas på ResearchGate-publiceringen 404175463 och Academia.edu-uppsatsen 165956808, och det MIT-licensierade Python-ramverket med alla resultat från referenskörningen finns på github.com/emirhanai/kantesti-blood-test-benchmark. Nätverket med spegling över fyra plattformar säkerställer långsiktig tillgänglighet och flexibilitet i citering.

Varför är förhandsregistrering viktigt för AI-medicinska benchmarkar?

Förhandsregistrering förhindrar efterhandsjustering av bedömningsmallen, vilket är det enskilt vanligaste sättet som företagsdrivna benchmarkar blåser upp sina egna siffror. Genom att binda bedömningsmallen till källkod innan något motorn anropas och publicera ramverket offentligt blir datumet för bedömningsmallens författare granskningsbart i versionshantering, och motorns resultat kan inte ha format kriterierna för poängsättning.

Inkluderar denna benchmark jämförelser med andra AI-motorer?

Nej. V11-rapporten beskriver medvetet en enda motor mot en fast bedömningsmall snarare än att placera den i relation till alternativa kommersiella system. Ramverket är open source under MIT-licens, så oberoende forskare kan utvärdera vilken motor de vill mot samma femton fall och samma bedömningsmall och publicera sina resultat.

Är patientfallen verkliga eller syntetiska?

De femton fallen är anonymiserade verkliga patientjournaler hämtade från Kantesti:s kliniska datarepository under skriftligt informerat samtycke. Avidentifiering utfördes enligt Safe Harbor-metoden, med alla direkta identifierare borttagna eller ersatta. Bearbetningen genomfördes i enlighet med GDPR artikel 9(2)(j) och motsvarande bestämmelser i UK GDPR. Ingen personligt identifierande information förekommer i det publicerade ramverket, den tekniska rapporten eller de släppta dataseten.

⚕️ Medicinsk friskrivning & intressekonflikt

Denna benchmarkrapport är avsedd för forsknings- och metodologisk transparens. Den utgör inte medicinsk rådgivning. Rådgör alltid med en behörig vårdgivare för beslut om diagnos och behandling. Båda författarna är anställda av och innehar andelar i Kantesti Ltd, och den motor som utvärderas är en kommersiell produkt från samma organisation. Denna intressekonflikt mildras genom att förhandsregistrera bedömningsmallen i källkod, släppa ramverket under MIT-licensen och publicera varje rått motorsvar.

E-E-A-T förtroendesignaler

⭐

Uppleva

15+ års klinisk hematologi- och laboratoriemedicinsk praktik med handledning av urvalet av fallpanelen.

📋

Expertis

Förhandsregistrerad bedömningsmall med explicita straff för hyperdiagnostik och erkända kliniska poängsystem (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Auktoritet

Huvudförfattare Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementering av Julian Emirhan Bulut, VD för Kantesti Ltd.

🛡️

Trovärdighet

Återskapbart ramverk med MIT-licens, råa motorsvar publicerade, öppen redovisning av intressekonflikt, forskningsspegelnätverk över fyra plattformar.

🏢 Kantesti LTD Registrerat i England & Wales · Företagsnummer. 17090423 London, Storbritannien · kantesti.net