Kantesti AI-blodprovsbenchmark — klinisk validering

Automatiserad benchmark Förregistrerad riktlinjebenchmark V11 andra uppdateringen — april 2026 MIT-licensierad Reproducerbar · Öppen data 100 000 syntetisk kohort · 127 landsbeteckningar

99,80% kompositpoäng på en förhandsregistrerad bedömningsmall — V11 andra uppdateringen, 100 000-falls kohort över 127 landsbeteckningar

En förhandsregistrerad, bedömningsmallsbaserad automatiserad teknisk benchmark av Kantesti-motorn på 100 000 syntetiskt genererade blodprovsfall märkta med 127 landsbeteckningar. Den mäter överensstämmelse i utdata, inte diagnostisk träffsäkerhet. Bedömningsmallen låstes i källkod innan den första V11-versionen och hölls byte-identisk för denna andra uppdatering; utvärderingsramverket är MIT-licensierat; ett stratifierat slumpmässigt urval av råa motorresponsdata publiceras för granskning. Alla fall är syntetiska; ingen persondata används.

📖 ~14 minuter 📅 Publicerad 23 april 2026 · Uppdaterad 26 april 2026 (V11 andra uppdateringen) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publicerad: 23 april 2026 🔄 V11 andra uppdateringen: 26 april 2026 🩺 Medicinskt granskad: 26 april 2026 ✅ Förregistrerad bedömningsmall (byte-identisk) 🔓 Öppen kod & data

Denna automatiserade benchmark har utformats och körts av Julian Emirhan Bulut, Senior AI Engineer och VD för Kantesti Ltd. Poängsättningen är helt automatiserad i källkoden; poängsättningsrubriken och bedömningspanelen togs fram med kliniskt underlag från Dr. Thomas Klein, läkare, Chief Medical Officer på Kantesti AI, och granskades av Kantesti AI medicinska rådgivande nämnd. Det är ett själv kört internt benchmark, inte ett oberoende eller peer-reviewat automatiserat tekniskt benchmark.

Huvudförfattare & klinisk tillsyn

Thomas Klein, läkare

Överläkare, Kantesti AI

Dr. Thomas Klein är styrelsecertifierad klinisk hematolog och internmedicinare med över 15 års erfarenhet inom laboratoriemedicin. Som Chief Medical Officer på Kantesti AI valde han ut fallpanelen för detta benchmark, granskade det kliniska innehållet och förväntade svaren för de syntetiska fallen och godkände den förhandsregistrerade bedömningsmallen innan den första motoranropningen.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Medförfattare & implementering

Julian Emirhan Bulut

Senior AI-ingenjör & VD, Kantesti Ltd

Julian Emirhan Bulut är grundare och vd för Kantesti Ltd. Han utformade och implementerade utvärderingsramverket — inklusive SQL-fall-laddaren som lades till för V11 andra uppdateringen — genomförde API-integration, utförde både V11:s första referenskörning och V11:s andra uppdatering 100 000-falls körning, och tog fram den statistiska sammanställningen. Grundare av plattformen sedan 2019.

GitHub Om Kantesti

⚡ Snabb sammanfattning V11 andra uppdateringen — 26 april 2026

99,80% kompositpoäng på 100 000 syntetiska blodprovsfall över åtta medicinska specialiteter och 127 landsbeteckningar (V11 andra uppdateringen).
Inga falska positiva hyperdiagnoser över 87 412 övervakade möjligheter för “trap-case”-flagg — samma “trap-case”-metodik som i V11:s första uppdatering, skalad till befolkningsnivå.
Förhandsregistrerad bedömningsmatris fryst i källkod före V11:s första körning och hölls byte-identisk för denna andra uppdatering — ingen efterhandsjustering var möjlig.
Mentzer-index tillämpades korrekt för att skilja järnbristanemi från beta-talassemi minor i V11:s första lansering; den differentierande beteendet bevarades på befolkningsskala.
Endast produktionsslutpunkt — ingen privilegierad routing, utvärderad exakt som en betalande kund skulle komma åt den.
13,26 sekunders genomsnittlig latens end-to-end (intervall 9,0–16,94 s), där alla 100 000 fall slutfördes på motorns primära väg.
Syntetisk kohort. 100 000 syntetiskt genererade testfall laddas vid körning. Ingen syntetisk data och ingen persondata används.
Harness med MIT-licens släppt på GitHub med ett stratifierat slumpmässigt urval (n = 201) av fullständiga råa motorresponsdata för granskning.
Figshare DOI: 10.6084/m9.figshare.32095435 · Speglad på ResearchGate, Academia.edu, GitHub.

Varför denna benchmark finns och vad den testar

AI-assisterad tolkning av blodprov används allt oftare i konsument- och kliniska arbetsflöden, men reproducerbara utvärderingsramverk anpassade för laboratoriemedicin är fortfarande ovanliga. De frågor som betyder mest i detta sammanhang är inte de som täcks av generella riktmärken för medicinsk frågesvar: kan en engine skilja järnbrist från talasemi-egenskap när den genomsnittliga korpuskulära volymen är identisk, ställer den felaktigt diagnosen Gilberts syndrom som hepatit, och skapar den patologi i en helt normal screeningpanel?

En enskild blodprovs-panel innehåller vanligtvis tillräckligt med signal för att stödja flera konkurrerande tolkningar, och den tolkande klinikerns uppgift är att väga dessa tolkningar mot varandra snarare än att hämta ett facit från en lärobok. En motor som klarar sig bra på läroboksfall kan ändå misslyckas på de fall som betyder mest: fallgroparna i differentialdiagnostiken, de godartade varianter som ser alarmerande ut var för sig och de helt normala panelerna som frestar självsäkra assistenter att tillverka patologi.

Detta benchmark byggdes exakt kring dessa typer av fel. Var och en av de femton fallen valdes ut för en specifik diagnostisk egenskap: en järnbristanemi med mikrocytos som måste hållas tydligt skild från en betatalassemi-egenskap med identiskt medelkorpuskelvolym, en presentation som vid GIlberts syndrom där den enda avvikelsen är en isolerad indirekt hyperbilirubinemi, och en screeningpanel med femton parametrar där varje analytsubstans ligger inom sitt referensintervall. Bedömningsmallen belönar motorer som läser varje fall utifrån dess egna villkor och straffar motorer som försöker nå en självsäker diagnos när en sådan diagnos inte är motiverad.

Som Thomas Klein, MD, valde jag fallpanelen eftersom det är de mönster jag oftast ser att laboratoriemedicinska assistenter får fel. Den dyra feltypen är inte att "missar en sällsynt sjukdom" — det är att hitta på rutinmässig patologi hos patienter som inte har den. Vår Medicinsk validering hub beskriver det bredare ramverket; den här sidan beskriver den initiala V11 proof-of-concepten och V11 andra uppdateringen som skalade den till 100 000 syntetiska fall hämtade från en syntetisk falluppsättning som spänner över 127 landsbeteckningar — med samma poängsättningsmall, byte-identisk, utan tillåten efterhandsjustering.

Senaste referenskörning — V11 Second Update (26 april 2026)

V11 Second Update-referenskörningen den 26 april 2026 gav en sammanvägd poäng på 99.80% på samma förhandsregistrerade bedömningsmall som användes i V11 första lansering, utvärderad på 100 000 syntetiska fall hämtade från Kantesti:s syntetiska falluppsättning och spänner över 127 landsbeteckningar och 75+-språk. Varje fall slutfördes på motorns primära sökväg; aktiveringar av flaggor för hyperdiagnostik i trap-fall låg kvar på 0 / 87,412. Den ursprungliga V11-körningen den 23 april 2026 omfattade 15 handkuraterade fall (sammanvägd 99.12%) och validerade bedömningsmallen; Second Update behåller samma bedömningsmall byte-identisk och utökar utvärderingen till en kohort i populationsskala.

Sammanlagt 99.80% 100 000 av 100 000 fall fick poäng

1.000 Strukturell poäng

0.996 Klinisk poäng

13,26 s Medel-latens

0 / 87,412 Falska positiva “fällor”

Den sammanlagda formeln kombinerar tre komponenter: strukturell överensstämmelse med de sju obligatoriska rapportsektionerna och sexton obligatoriska undersektionerna, innehållsnoggrannhet mätt som nyckelords-återkallning plus återkallning i poängsystemet plus en kontroll av giltighet för sannolikhetsfördelning, och svarslatens mot målet för servicenivå på primär sökväg. Den exakta uppdelningen visas i bedömningsmallsformeln nedan — inga av dessa vikter eller delbedömningsmallar ändrades för Second Update.

Sammanlagt = 0.35 × Strukturell + 0.55 × Klinisk + 0.10 × Latens

De återstående 0,20 procentenheterna av marginalen bryts nästan helt ned i den kliniska delpoängen — en liten andel av fallen (främst inom hepatologi och reumatologi) hade ett förväntat nyckelord i poängsystemet som saknades i motorns tolkning trots att det diagnostiska innehållet var korrekt. Inget fall i 100 000-falls-kohorten för Second Update missade själva diagnosen. Latensen förbättrades från ett medelvärde på 20,17 s i V11 första lansering till 13,26 s i Second Update, vilket återspeglar optimeringar i produktionsmotorn mellan de två körningarna; bedömningsmallen, poängkoden och API-slutpunkten är oförändrade.

Kompositpoäng per beteckning varierade från 0,9971 till 0,9985 över de 30 mest representerade landsbeteckningarna. Den långa svansen av 97 ytterligare beteckningar (≈7 300 fall sammanlagt) visade ingen systematisk försämring. De mest frekventa beteckningarna efter antal fall var USA (10 500), Brasilien (9 500), Spanien (9 000), Italien (8 000), Tyskland (7 800), Frankrike (7 400), Portugal (5 800), Türkiye (3 400), Storbritannien (2 900) och Mexiko (2 500).

Från 15 fall till 100 000: kohortevolution över 127 landsbeteckningar

Den ursprungliga V11-fallpanelen omfattade sju specialiteter — hematologi, endokrinologi, metabol medicin, hepatologi, nefrologi, kardiologi, reumatologi — plus två dedikerade hyperdiagnos-fällfall, där varje fall var en syntetiskt genererad blodprovs-panel. V11 andra uppdateringen utökar utvärderingen till 100 000 syntetiska fall över 127 landsbeteckningar, fördelade över åtta specialiteter (de ursprungliga sju plus en dedikerad internmedicinsk kategori som absorberar trap-delen). Samma poängbedömningsmall tillämpas byte-identiskt i båda körningarna.

Eftersom alla fall är syntetiskt genererade finns det inga verkliga identifierare att ta bort och ingen persondata är inblandad. Varje syntetiskt fall har en benchmark-intern fallkod (BT-NNN-LABEL i den V11 initiala uppsättningen, en stabil case_uid i den andra uppdateringen). Ingen persondata förekommer någonstans i det publicerade ramverket, den tekniska rapporten eller de släppta dataseten.

V11 första lansering — 15 handkuraterade fall

Den ursprungliga V11-fallpanelen sammanställdes för hand av Dr. Thomas Klein för att träna de diagnostiska mönster som laboratoriemedicinska assistenter oftast får fel. Var och en av de femton fallen valdes ut för en specifik diagnostisk egenskap, listad nedan.

Hematologi (3) BT-001, BT-006, BT-007 Järnbristanemi · B12-brist · Betatalassemi minor

Endokrinologi (3) BT-002, BT-008, BT-012 Hashimotos tyreoidit · PCOS med insulinresistens · Svår D-vitaminbrist

Metabol (2) BT-003, BT-013 T2DM med metabolt syndrom · Hyperurikemi med risk för gikt

Hepatologi (2) BT-004, BT-009 NAFLD / NASH · Akut viral hepatit

Nefrologi · Kardiologi · Reumatologi (3) BT-005, BT-010, BT-011 CKD stadium 3 · Aterogen dyslipidemi · Systemisk lupus erythematosus

Fällfall (2) BT-014, BT-015 Gilberts syndrom (isolering av indirekt hyperbilirubinemi) · Helt normal vuxenscreening

Varför just denna fördelning

Hematologi får tre fall eftersom mikrocytiska differentialer och makrocytiska differentialer är de största fällorna med hög volym i verklig laboratoriepraxis. Endokrinologi får tre eftersom presentationerna vid Hashimotos, PCOS och D-vitaminbrist tränar olika diagnostiska former (drivna av autoantikroppar, drivna av hormonkvoter, drivna av en enskild markör). De specialiteter som bara har ett fall är fortfarande meningsfulla eftersom både CKD, ASCVD-risk och SLE har sina egna poängsystem som motorn ska anropa (KDIGO-stadieindelning, ASCVD 10-årsrisk respektive 2019 EULAR/ACR SLE-kriterier).

V11 andra uppdateringen — 100 000 syntetiska fall över 127 landsbeteckningar

Den andra uppdateringen ersätter den ursprungliga V11 hårdkodade 15-falls Python-litteralen med en större, programmatisk genererad syntetisk falluppsättning. Falluppsättningen laddas i början av varje körning och konfigurationen loggas för transparens. Kohortfördelningen per innehållsområde visas nedan.

Endokrinologi 23 900 fall (23,9%) Sköldkörtel, PCOS, D-vitamin, gonadalaxel, hypofys

Metabol medicin 21 900 fall (21,9%) T2DM, metabolt syndrom, lipidpaneler, hyperurikemi

Hematologi 15 400 fall (15,4%) Mikrocytära och makrocytära differentialer, B12/folat, järnundersökningar

Hepatologi 12 400 fall (12,4%) NAFLD/NASH, viral hepatit, FIB-4, kolestas

Internmedicin (inkl. trap-delmängd) 9 000 fall (9,0%) Blandade presentationer och 8 723 dedikerade hyperdiagnostiska trap-fall

Kardiologi 7 500 fall (7,5%) ASCVD-risk, aterogen dyslipidemi, hs-CRP

Reumatologi 6 000 fall (6,0%) SLE, RA, vaskulit, autoantikropps-paneler (EULAR/ACR-kriterier)

Nefrologi 4 000 fall (4,0%) CKD-stadieindelning (KDIGO), eGFR-trender, elektrolytrubbning

Syntetisk fördelning av landsbeteckningar — topp 10-beteckningar

De 100 000 syntetiska fallen bär 127 landsbeteckningar (ISO 3166-1 alpha-2) för att testa hantering av locale. Tilldelning av beteckning: Europa 57,7%, Amerika 25,4%, Asien-Stillahavsområdet 6,2%, namngivna Mellanöstern/Afrika-beteckningar 3,4% och en lång svans av 97 ytterligare beteckningar ungefär 7,3% sammanlagt. De tio mest frekventa beteckningarna efter antal fall är USA (10 500), Brasilien (9 500), Spanien (9 000), Italien (8 000), Tyskland (7 800), Frankrike (7 400), Portugal (5 800), Türkiye (3 400), Storbritannien (2 900) och Mexiko (2 500). Kompositpoäng per beteckning varierade från 0,9971 till 0,9985. Dessa antal beteckningar är egenskaper hos de genererade fallen som används för att testa hantering av locale — de är inte verkliga användare och inte verklig geografisk täckning.

Den förregistrerade bedömningsmallen, förklarad

Förhandsregistrering är det enskilt viktigaste metodvalet i detta benchmark. Varje förväntad diagnos, varje kliniskt poängsystem och varje rapportavsnitt var förankrat i källkod innan motorn anropades. Efterhandsjustering av rubriken för att smickra motorn är därför omöjlig.

Tre komponenter ingår i den sammansatta poängen. Den strukturella komponenten bidrar med 35 procent och mäter om motorn returnerade de sju obligatoriska rapportavsnitten (rubrik, sammanfattning, viktiga fynd, differential, poängsystem, rekommendationer, uppföljning) och de sexton obligatoriska underavsnitten inom dem. Förekomst av avsnitt väger 40 procent och förekomst av underavsnitt väger 60 procent inom den strukturella beräkningen.

De kliniska komponenten bidrar med 55 procent och kombinerar tre saker: återkallning av diagnos-nyckelord (70 procent av den kliniska delpoängen), återkallning av poängsystem (20 procent — beräknar motorn Mentzer, FIB-4, HOMA-IR, ASCVD-risk, KDIGO-stadieindelning, EULAR/ACR-kriterier där det är relevant), samt en giltighetskontroll av sannolikhetssumma (10 procent — differentialens sannolikheter ska summera till inom intervallet [90, 110]). För fällfall dras en uttrycklig hyperdiagnos-penalty på upp till 0,30, beräknad som 0,10 per fabricerad patologiflagga, med ett tak på tre flaggor.

De latenskomponenten bidrar med 10 procent. Ett svar under 20 sekunder ger full 0,10, ett svar under 40 sekunder ger 0,05, och allt långsammare ger noll. 20-sekundersmålet speglar produktions primära primary-path-servicenivåmål; 40-sekunderstaket speglar Phase 2-reservbudgeten för tunga motoranrop.

Vad förhandsregistrering förhindrar

Förstahands-benchmarkar är ökända för att blåsa upp sina egna siffror genom efterhandsjustering av rubriken. Mönstret är nästan alltid detsamma: teamet kör motorn, ser var den underpresterar, och justerar sedan tyst rubriken så att de underpresterande områdena räknas mindre. Genom att låsa rubriken i källkod innan första motoranropet och publicera testharnessen under MIT-licens blir den justeringen synlig i versionshanteringen. Vem som helst kan klona repositoryt, kontrollera rubrikens författardatum och verifiera att motorresultaten inte användes för att forma poängsättningen.

Fall i hyperdiagnostikfällan — varför överrapportering är det verkliga felmönstret

Aggressiv överutropning av patologi på normala skärmar är ett dokumenterat felmönster hos konsumentinriktade medicinska assistenter. Dess följdkostnader inkluderar onödiga utredningar, patientoro och iatrogen utredning. De två fällfallen i detta benchmark är utformade för att göra det felmönstret synligt och poängbart.

🟡 Fälla 1 — BT-014-GILBERT

Presentation. En 24-årig man med totalt bilirubin på 2,4 mg/dL. Den direkta fraktionen är normal, transaminaser och alkaliskt fosfatas ligger inom sina referensintervall, retikulocyter är utan anmärkning, och haptoglobin samt LDH utesluter hemolys.

Korrekt tolkning. Gilbert’s syndrom — en benign UGT1A1-polymorfism. Tolkningen ska inte åberopa hepatit, cirros, hemolytisk anemi eller gallvägsobstruktion.

V11-resultat. Komposit 1,000. Inga av de sex överdiagnosflaggorna som övervakades visades som aktiva diagnoser.

🟡 Fälla 2 — BT-015-HÄLSOSAM

Presentation. En 35-årig kvinna med en femtonparameter rutinmässig screeningpanel. Varje analytt ligger bekvämt inom sitt referensintervall.

Korrekt tolkning. Betryggelse och upprätthållande av livsstil. Tolkningen ska inte hitta på gränsfallspatologi för att låta kliniskt användbar.

V11-resultat. Komposit 1.000. Ingen av de sju överdiagnostiska varningsflaggor som övervakades — diabetes, anemi, hypotyreoidism, dyslipidemi, hepatit, njursjukdom, brist — visade sig som aktiva diagnoser.

I båda fällorna kontrollerades tretton överdiagnostiska varningsflaggor för hyperdiagnostik. Noll utlöste. Detta är det resultat som betyder mest för varje kliniker som överväger att använda en AI-motor som triage- eller förkonsultationsverktyg: systemet uppfann inte en sjukdom där ingen fanns.

Mentzer-index: att skilja järnbrist från talassemi-drag

Ett andra fynd med högt värde gäller kombinationen av fall BT-001 (järnbristanemi) med fall BT-007 (beta-talassemi minor). Båda uppvisar mikrocytos och är ett välkänt hinder för naiva klassificerare. Mentzer-indexet, beräknat som MCV dividerat med RBC-antalet, är över 13 vid järnbrist och under 13 vid talassemi-egenskap.

I BT-001 var patienten en 34-årig kvinna med hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritin 6 ng/mL och förhöjt TIBC. Mentzer-indexet på cirka 17,7 stödjer absolut järnbrist. I BT-007 var patienten en 28-årig man med mikrocytos (MCV 65,8 fL) men ett högt RBC-antal på 6,2, normalt RDW, normalt ferritin och HbA2 på 5,6 procent. Mentzer-indexet på cirka 10,6 pekar på talassemi-egenskap, och det förhöjda HbA2 bekräftar beta-talassemi minor.

Järnbristanemi Mentzer > 13 Lågt ferritin, lågt TSAT, högt TIBC, förhöjt RDW

Beta-talassemi-egenskap Mentzer < 13 Normalt ferritin, normalt RDW, förhöjt HbA2 (>3.5%), högt RBC-antal

Båda fallen fick 1.000. Motorn använde Mentzer-indexet uttryckligen i båda tolkningarna och gav rätt diagnos i varje fall. Detta är det enskilt mest kliniskt betryggande resultatet i hela benchmarken, eftersom felklassificering av talassemi-egenskap som järnbrist leder till olämplig järnbehandling och missade möjligheter till familjescreening, och felklassificering av järnbrist som talassemi fördröjer enkel ersättningsterapi. Vår ferritinspektrumguide förklarar det bredare differentialkontexten.

Resultat per fall från V11:s initiala referenskörning (23 april 2026)

Den ursprungliga V11-referenskörningen på 15-falls proof-of-concept-kohorten utgör den metodologiska grunden för Second Update: varje detalj per fall nedan visar hur bedömningsmallen hanterar ett verkligt motorrespons. Tolv av femton fall nådde taket för kompositpoängen på 1.000 på den primära vägen; tre fall hanterades via Phase 2-återfall, vilket förlorade bonusen för 0.05 i latens samtidigt som allt kliniskt och strukturellt innehåll bevarades. Ett fall saknade en enda obligatorisk delsektion; ett returnerade en marginellt reducerad totalsumma för sannolikhetsfördelningen.

Fall-ID Specialitet Sammanlagt Latens Väg

BT-001-IDAHematologi1.00017,8 sprimär

BT-006-B12Hematologi1.00018,4 sprimär

BT-007-THALHematologi1.00017,0 sprimär

BT-002-HASHEndokrinologi0.95037,0 sreservlösning

BT-008-PCOSEndokrinologi0.98718,6 sprimär

BT-003-T2DMMetabolisk1.00019,1 sprimär

BT-013-GOUTMetabolisk1.00019,4 sprimär

BT-004-NAFLDHepatologi1.00019,6 sprimär

BT-009-VIRHEPHepatologi0.95023,4 sreservlösning

BT-014-GILBERTFälla1.00018,9 sprimär

BT-005-CKDNefrologi1.00017,4 sprimär

BT-010-ASCVDKardiologi1.00019,7 sprimär

BT-011-SLEReumatologi0.98118,2 sprimär

BT-012-VITDEndokrinologi1.00019,3 sprimär

BT-015-HÄLSAFälla1.00018,7 sreservlösning

PCOS-fallet (BT-008) tappade en enskild obligatorisk undersektion i svarsstrukturen — femton av sexton i stället för sexton av sexton — vilket sänkte den strukturella poängen från 1,000 till 0,963. SLE-fallet (BT-011) gav en marginellt minskad summa av sannolikhetsfördelningen som sänkte den kliniska poängen till 0,965 samtidigt som varje diagnostiskt nyckelord och poängsystem bevarades. Inget av de två fallen som inte var perfekta missade en korrekt diagnos.

V11 Second Update aggregerat — 100,000 fall

På populationsskala är enskilda radrader inte läsbara för människor, så den andra uppdateringen rapporterar aggregerade mått i stället för en tabell med 100 000 rader. Huvudaggregeringen visas nedan; uppdelningar per specialitet och per landsbeteckning publiceras i den tekniska rapporten och i Figshare-insättningen. Ett stratifierat slumpmässigt urval av n = 201 råa motorresponsdata (deterministiskt seed 20260426) publiceras i GitHub results/ -katalogen för granskning.

Kompositpoäng V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 över 100,000-fallkohorten

Strukturell poäng (medelvärde) V11 initial: 0.998 → Second Update: 1.000 Perfekt strukturell överensstämmelse i befolkningsskala

Klinisk poäng (medelvärde) V11 initial: 0.998 → Second Update: 0.996 −0.002; inget fall missade själva diagnosen

Latens — medelvärde (intervall) V11 initial: 20,17 s (17,0–37,0 s) → Andra uppdateringen: 13,26 s (9,0–16,94 s) Produktionsmotoroptimeringar mellan körningar

Motorns sökväg = primär V11 initial: 12 / 15 → Andra uppdateringen: 100,000 / 100,000 Ingen fas 2-fallback behövdes vid något tillfälle under körningen

Flaggor för hyperdiagnostik för trap-delmängd V11 initial: 0 / 13 → Andra uppdateringen: 0 / 87,412 Inga falska positiva på populationsskala (8 723 trap-fall övervakade)

Vad headlinescoret inte berättar för oss

En kompositpoäng på 99,80 procent enligt just denna förhandsregistrerade bedömningsmall, på en 100 000-falls syntetisk kohort som spänner över 127 landsbeteckningar, motsvarar prestanda nära taket — men den förtjänar noggrann inramning. Resultatet beskriver motorbeteendet mot den bedömningsmall vi förband oss att använda i källkoden i V11; det är inte ett universellt påstående om motorernas korrekthet för varje blodprovs-panel som finns i verkligheten.

Poängen säger att motorn hanterade de diagnostiska mönster som valdes ut för denna utvärdering korrekt över en kohort i populationsskala, med en metodik som är publicerad och reproducerbar. Den säger inte att motorn är korrekt för varje blodprovspanel som finns i verkligheten. Den säger inte att motorn bör ersätta kliniskt omdöme. Och den säger inte att motorn presterar bättre än alternativa AI-system — jämförande analyser mot andra motorer låg medvetet utanför ramen för denna rapport.

Det som poängen däremot fastställer är en baslinje. När bedömningsmallen och testmiljön är offentliga kan framtida versioner av motorn utvärderas mot samma bedömningsmall — tillämpad på V11 initiala 15 fall, Andra uppdateringens kohort med 100 000 fall, eller valfri efterföljande utökning — och gapet mellan den publicerade poängen och varje efterföljande körning är i sig mätbart. Det är värdet av förhandsregistrering: den omvandlar prestationspåståenden till testbara påståenden.

Så återskapar du detta riktmärke på 10 minuter

Reproduktion kräver endast ett Kantesti API-uppgiftspar och en Python 3.10 eller senare miljö med requests och reportlab bibliotek installerade. Hela testharnessen är en enda fristående Python-modul som släpps under MIT-licensen.

💻 GitHub Testharness med MIT-licens · råa svar · referenskörning 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanoniskt akademiskt register 🎓 ResearchGate Publikation 404175463 · V11 Andra uppdateringen · akademiskt upptäcktslager 📄 Academia.edu Paper 165956808 · V11 Andra uppdateringen · akademiskt upptäcktslager

Fyra steg för en ny körning

Ett. Klona repot: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Två. Installera beroenden med pip install -r requirements.txt (Andra uppdateringen lägger till mysql-connector-python ≥ 8.0 för SQL-fallhanteraren). Tre. Ange KANTESTI_USERNAME och KANTESTI_PASSWORD som miljövariabler för motor-API:t. För Andra uppdateringens SQL-fallhanterare, ställ även in KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, och KANTESTI_DB_PASSWORD — laddaren ansluter via en skrivskyddad roll (bench_reader) som inte har några behörigheter att identifiera tabeller. Fyra. Kör python benchmark_bloodtest.py --limit 100000 för hela Second-Update-körningen, eller python benchmark_bloodtest.py --limit 1000 för snabb iteration. Resultat hamnar i ./benchmark_results/: ett CSV-scorecard med kolumner per-land-etikett och per-specialitet, en JSON-aggregat, ett stratifierat-slumpmässigt råsvarsurval och en Markdown-rapport.

Referenskörningarna från 23 april 2026 (V11 initial, 15 fall) och 26 april 2026 (V11 Second Update, 100,000 fall) bevaras i results/ arkivets katalog. En ny körning genererar ett nytt tidsstämplat scorecard samtidigt som referenskörningarna lämnas orörda. Om din körning ger ett meningsfullt annorlunda resultat, öppna ett GitHub-ärende med körningens tidsstämpel och motorversionen som returneras i svarens metadata.

Begränsningar och framtida arbete

Även vid 100 000 fall över 127 landsetiketter förtjänar fyra begränsningar ett uttryckligt erkännande: underprovtagning av long-tail-etiketter, engångsutvärdering, en-ensines omfattning och en-ursprungsdatakälla. Var och en åtgärdas i aktivt uppföljningsarbete.

Täckning av long-tail-etiketter. Den andra uppdateringen omfattar 127 landsetiketter, men fördelningen är obalanserad — de 10 största etiketterna står för ≈66.4% av fallen, och long tail av 97 ytterligare etiketter bidrar tillsammans med ≈7.3% (ungefär 7 300 fall totalt, ~75 fall per etikett i genomsnitt). Per-etikett-kompositer i denna long tail är därför mer brusiga än vad rubriksiffrorna antyder. Framtida körningar kommer att ombalansera etikettilldelningen för att stärka per-etikett-estimat.

Engångsutvärdering. Varje fall i kohorten utvärderades en gång. Stora språkmodeller uppvisar icke-trivial variationsbredd i utdata även vid låg samplingtemperatur, så ett protokoll med flera körningar med fem utvärderingar per fall och redovisad varians är ett naturligt nästa steg — särskilt för delmängden av fällfall, där konsistens under sampling-”jitter” ingår i säkerhetsanspråket.

Enmotorigt omfång. Denna rapport beskriver en motor. Jämförande analyser mot alternativa AI-system ligger utanför ramen här; vi kan komma att genomföra dem som en separat oberoende studie med lämplig metodik, mot samma MIT-licensierade ramverk.

Syntetiska data. De 100 000 fallen är syntetiskt genererade, inte syntetiska fall, och resultaten överförs inte till klinisk prestanda i verkligheten. Utvärdering på verkliga, samtyckta, externt inhämtade data skulle kräva lämplig etisk tillsyn och ligger utanför ramen för detta syntetiska benchmark.

Utöver dessa fyra är den mest betydelsefulla planerade utökningen språklig likvärdighet per jurisdiktion. Kantesti AI Engine betjänar användare på 75+ språk, och att köra språkstratifierade Second-Update-delmängder (turkiska, tyska, spanska, franska, italienska, portugisiska, arabiska, mandarin) kommer att kvantifiera utdata-kvalitet över de språk som motorn stöder. Varje språkstratifierad analys publiceras med sin egen DOI och ramverksgren.

Testa samma motor som uppnådde en sammansatt poäng på 99.80% för 100,000 fall

Ladda upp din egen blodprovsprofil till samma produktionsendpoint som utvärderades i detta benchmark. Över 2 miljoner användare världen över använder Kantesti AI Engine för att tolka över 15 000 biomarkörer på 75+ språk.

🔬 Prova gratis demo

Chrome-tillägg App Store Google Play

📚 Så citerar du detta benchmark

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Teknisk rapport V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Externa metodreferenser

Mentzer, W. C. (1973). Differentiering av järnbrist från talassemi-egenskap. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 års klassificeringskriterier för systemisk lupus erythematosus från European League Against Rheumatism / American College of Rheumatology. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test för stora språkmodeller. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Kompositpoäng

100,000Fall som poängsattes

127Landsetiketter som omfattas

0 / 87,412Fällfalska positiva

Vanliga frågor

Hur exakt är Kantesti AI-motorn på syntetiska testfall?

På en förregistrerad rubrik, körd på 100 000 syntetiskt genererade testfall över åtta innehållsområden och 127 landsetiketter (V11 Second Update), nådde motorn en kompositpoäng på 99,80 procent, med noll flaggor för hyperdiagnostik över 87 412 övervakade möjligheter i trap-fall och en genomsnittlig svarslatens på 13,26 sekunder. Denna komposit mäter överensstämmelse i output för syntetiska indata, inte diagnostisk träffsäkerhet. Den ursprungliga V11-versionen använde samma rubrik på 15 handkonstruerade fall (komposit 99,12%); den andra uppdateringen behåller rubriken byte-identisk och utökar den till en större syntetisk kohort. Det fullständiga scorecardet publiceras på Figshare under DOI 10.6084/m9.figshare.32095435 och på GitHub under MIT-licens.

Är Kantesti AI-motorn kliniskt validerad?

Nej. Motorn har utvärderats med ett automatiserat tekniskt benchmark (inte en klinisk validering), mot en rubrik som frystes i källkod innan den första V11-körningen och hölls byte-identisk för V11 Second Update, utvärderad på 100 000 syntetiska blodtestfall över hematologi, endokrinologi, metabol medicin, hepatologi, nefrologi, kardiologi, reumatologi och internmedicin, hämtade från 127 landsetiketter. Klinisk tillsyn tillhandahölls av Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), styrelsecertifierad klinisk hematolog och Chief Medical Officer vid Kantesti AI.

Vad är ett fall med en hyperdiagnostisk fälla?

En hyperdiagnostisk fällcase är ett kliniskt scenario som specifikt utformats för att upptäcka överdiagnostiskt beteende i AI-motorer. V11 första benchmark använde två sådana fall som en metodologisk proof-of-concept: en isolerad indirekt hyperbilirubinemi förenlig med Gilberts syndrom (där den korrekta tolkningen är den godartade UGT1A1-polymorfismen snarare än hepatit eller hemolys) och en helt normal screeningpanel för vuxna (där det korrekta utfallet är trygghet snarare än en tillverkad gränsfallspatologi). V11 andra uppdateringen skalade denna fällcase-metodik till en dedikerad delmängd om 8 723 fall, vilket gav 87 412 övervakade möjligheter för hyperdiagnostiska flaggor — och motorns falskt positiva frekvens förblev noll.

Är utvärderingen av Kantesti AI-motorn reproducerbar?

Hela utvärderingsramverket släpps under MIT-licensen som en enda fristående Python-modul. V11 första körningen kräver endast ett Kantesti API-uppgiftspar och Python 3.10 eller senare. V11 andra uppdateringen lägger till en parameteriserad, skrivskyddad SQL-case loader som kräver Kantesti klinikdatabas-uppgiftsuppgifter (en roll utan privilegier att identifiera tabeller). bench_reader Koden, SQL för case loader, bedömningsmallen (byte-identisk mellan releaserna) samt ett stratifierat slumpmässigt urval av råa motorresponsdata från både V11 första körning och andra uppdateringens referenskörningar finns på github.com/emirhanai/kantesti-blood-test-benchmark och speglas på Figshare, ResearchGate och Academia.edu.

Hur skiljer Kantesti:s AI-motor åt järnbrist från bäraregenskap för betatalassemi?

Motorn tillämpar Mentzer-index, beräknat som medelvolymen för erytrocyter dividerat med antalet röda blodkroppar. Ett Mentzer-index över 13 stödjer järnbristanemi, medan ett värde under 13 stödjer beta-talassemi-egenskap. I V11 första benchmark klassificerades båda presentationerna korrekt med explicit Mentzer-indexberäkning, stödd av ferritin, RDW och HbA2-kontext. I hela V11 andra uppdateringens 100 000-fallkohort bevarades samma differentierande beteende i populationsskala.

Var kan jag hitta rådata för jämförelsen och källkoden?

Den tekniska rapporten deponeras på Figshare under DOI 10.6084/m9.figshare.32095435 (som omfattar både V11 första releasen och V11 andra uppdateringen), speglas på ResearchGate-publiceringen 404175463 och Academia.edu-uppsatsen 165956808 — båda uppdaterade med titeln för V11 andra uppdateringen och 100 000-fallsresultaten — och det MIT-licensierade Python-ramverket med alla referenskörningsresultat finns på github.com/emirhanai/kantesti-blood-test-benchmark. Nätverket med spegling över fyra plattformar säkerställer långsiktig tillgänglighet och flexibilitet för citering.

Varför är förhandsregistrering viktigt för AI-medicinska benchmarkar?

Förhandsregistrering förhindrar efterhandsjustering av bedömningsmallen, vilket är det enskilt vanligaste sättet som företagsdrivna benchmarkar blåser upp sina egna siffror. Genom att binda bedömningsmallen till källkod innan något motorn anropas och publicera ramverket offentligt blir datumet för bedömningsmallens författare granskningsbart i versionshantering, och motorns resultat kan inte ha format kriterierna för poängsättning.

Inkluderar denna benchmark jämförelser med andra AI-motorer?

Nej. V11-rapporten — både den första releasen och den andra uppdateringen — beskriver med avsikt en enda motor mot en fast bedömningsmall, snarare än att placera den i relation till alternativa kommersiella system. Ramverket är open source under MIT-licens (nu inklusive SQL case loader), så oberoende forskare kan utvärdera vilken motor de vill mot samma bedömningsmall och case loader och publicera sina resultat.

Är patientfallen verkliga eller syntetiska?

Alla fall är syntetiskt genererade — 15 handkonstruerade fall i V11:s initiala release och 100 000 i den andra uppdateringen. De är inte syntetiska fall: ingen syntetisk data, ingen samtycksprocess och ingen avidentifiering ingår, eftersom ingen persondata finns i kohorten. Ingen persondata förekommer i den publicerade harnessen, den tekniska rapporten eller de släppta dataseten.

⚕️ Medicinsk friskrivning & intressekonflikt

Denna benchmarkrapport är avsedd för forsknings- och metodologisk transparens. Den utgör inte medicinsk rådgivning, är inte en diagnos och ersätter inte professionell medicinsk vård; inget resultat här ska användas för att fördröja eller undvika att träffa en läkare. Rådgör alltid med en kvalificerad vårdgivare för beslut om diagnos och behandling. Detta är en självdriven intern benchmark av företagets egen motor och har inte oberoende validerats eller peer-reviewats. Den sammansatta poängen mäter följsamhet till en fast rubrik (rapportstruktur, återkallande av nyckelord och poängsättningssystem samt latens); den är inte ett mått på verklig diagnostisk noggrannhet eller klinisk säkerhet. Båda författarna är anställda av och innehar eget kapital i Kantesti Ltd, och den motor som utvärderas är en kommersiell produkt från samma organisation. Intressekonflikten mildras genom att rubriken förregistreras i källkoden, att harnessen släpps under MIT-licensen och att en stratifierad slumpmässig urvalsgrupp av råa motorresponsdata publiceras.

E-E-A-T förtroendesignaler

⭐

Uppleva

15+ års klinisk hematologi- och laboratoriemedicinsk praktik med handledning av urvalet av fallpanelen.

📋

Expertis

Förhandsregistrerad bedömningsmall med explicita straff för hyperdiagnostik och erkända kliniska poängsystem (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Auktoritet

Huvudförfattare Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementering av Julian Emirhan Bulut, VD för Kantesti Ltd.

🛡️

Trovärdighet

Återskapbart ramverk med MIT-licens, råa motorsvar publicerade, öppen redovisning av intressekonflikt, forskningsspegelnätverk över fyra plattformar.

🏢 Kantesti LTD Registrerat i England & Wales · Företagsnummer. 17090423 London, Storbritannien · kantesti.net