Kantesti AI blodprøvebenchmark — klinisk validering

Automatiseret benchmark Forhåndsregistreret benchmark V11 Anden opdatering — april 2026 MIT-licenseret Reproducerbart · Åbne data 100K syntetisk kohorte · 127 landemærkater

99.80% kompositscore på en forudregistreret rubrik — V11 anden opdatering, 100.000-sag kohorte på tværs af 127 landemærkater

En forudregistreret, rubrikbaseret automatiseret teknisk benchmark af Kantesti-motoren på 100.000 syntetisk genererede blodprøvesager mærket med 127 landemærkater. Den måler output-konformitet, ikke diagnostisk nøjagtighed. Rubrikken blev låst i kildekoden før den første V11-udgivelse og holdt byte-identisk for denne anden opdatering; evalueringsharnessen er MIT-licenseret; en stratificeret tilfældig stikprøve af rå motorresponser er offentliggjort til inspektion. Alle sager er syntetiske; der bruges ingen persondata.

📖 ~14 minutter 📅 Publiceret 23. april 2026 · Opdateret 26. april 2026 (V11 Anden opdatering) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publiceret: 23. april 2026 🔄 V11 Anden opdatering: 26. april 2026 🩺 Medicinsk gennemgået: 26. april 2026 ✅ Forudregistreret rubrik (byte-identisk) 🔓 Åben kode & data

Dette automatiserede benchmark blev designet og kørt af Julian Emirhan Bulut, Senior AI Engineer og CEO for Kantesti Ltd. Scoring er fuldt automatiseret i kildekoden; scoringsrubrikken og case-panelet blev udviklet med klinisk input fra Dr. Thomas Klein, læge, Chief Medical Officer hos Kantesti AI, og gennemgået af Kantesti AI Medicinsk Rådgivende Udvalg. Det er en selvkørt intern benchmark, ikke en uafhængig eller peer-reviewet automatiseret teknisk benchmark.

Hovedforfatter & klinisk tilsyn

Thomas Klein, læge

Cheflæge, Kantesti AI

Dr. Thomas Klein er bestyrelsescertificeret klinisk hæmatolog og intern mediciner med over 15 års erfaring inden for laboratoriemedicin. Som Chief Medical Officer i Kantesti AI udvalgte han casesættet til denne benchmark, gennemgik det kliniske indhold og de forventede svar for de syntetiske sager og godkendte den forudregistrerede rubrik før den første motorinvokation.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Medforfatter & implementering

Julian Emirhan Bulut

Senior AI-ingeniør & CEO, Kantesti Ltd

Julian Emirhan Bulut er grundlægger og administrerende direktør for Kantesti Ltd. Han designede og implementerede evalueringsharnessen — herunder SQL-case-loaderen, der blev tilføjet til V11 Anden opdatering — udførte API-integration, gennemførte både V11 første referencekørsel og V11 Anden opdatering 100.000-sagskørslen og udarbejdede den statistiske aggregering. Grundlægger af platformen siden 2019.

GitHub Om Kantesti

⚡ Hurtig opsummering V11 Anden opdatering — 26. april 2026

99.80% kompositscore på 100.000 syntetiske blodprøvesager på tværs af otte medicinske specialer og 127 landemærkater (V11 anden opdatering).
Ingen falske positive hyperdiagnoser på tværs af 87.412 overvågede trap-case-flag-muligheder — samme trap-case-metodologi som V11 første, skaleret til populationsniveau.
Præregistreret rubric låst i kildekode før V11 første kørsel og holdt byte-identisk for denne Anden opdatering — ingen efterfølgende justering var mulig.
Mentzer-indeks anvendt korrekt til at skelne jernmangelanæmi fra beta-thalassæmi minor i V11 første udgivelse; den differentielle adfærd blev bevaret på populationsniveau.
Kun produktionsendpoint — ingen privilegeret routing, evalueret helt som en betalende kunde ville tilgå den.
13,26 sekunders gennemsnitlig latenstid end-to-end (interval 9,0–16,94 s), hvor alle 100.000 sager blev gennemført på motorens primære sti.
Syntetisk kohorte. 100.000 syntetisk genererede testsager indlæses ved kørsel. Der bruges ingen syntetiske data og ingen persondata.
Harness under MIT-licens udgivet på GitHub med en stratificeret tilfældig stikprøve (n = 201) af komplette rå motorresponsdata til inspektion.
Figshare DOI: 10.6084/m9.figshare.32095435 · Spejlet på ResearchGate, Academia.edu, GitHub.

Hvorfor dette benchmark findes, og hvad det tester

AI-assisteret fortolkning af blodprøver anvendes i stigende grad i både forbruger- og kliniske arbejdsgange, men reproducerbare evalueringsrammer målrettet laboratoriemedicin er stadig sjældne. De spørgsmål, der betyder mest i denne sammenhæng, er ikke dem, der dækkes af generelle benchmarks for medicinsk spørgsmål-svar: kan en engine adskille jernmangel fra thalassæmi-træk, når middelcellevolumen er identisk, overdiagnosticerer den Gilberts syndrom som hepatitis, og fremstiller den patologi i et fuldt normalt screeningspanel?

Et enkelt blodprøvepanel indeholder typisk nok signal til at understøtte flere konkurrerende fortolkninger, og den fortolkende klinikers opgave er at afveje disse fortolkninger mod hinanden frem for at hente et facitsvar fra en lærebog. En motor, der klarer sig godt på lærebogstilfælde, kan stadig fejle på de tilfælde, der betyder mest: faldgruberne i differentialdiagnosen, de godartede varianter, der ser alarmerende ud, når de ses isoleret, og de fuldt normale paneler, som frister sikre assistenter til at fremstille patologi.

Dette benchmark blev bygget netop med disse fejlsituationer for øje. Hver af de femten cases blev udvalgt ud fra en specifik diagnostisk egenskab: en jernmangel-relateret mikrocystose, der skal holdes adskilt fra en betathalassæmi-træk med identisk gennemsnitlig korpuskulær volumen, en præsentation som ved Gilberts syndrom, hvor den eneste afvigelse er en isoleret indirekte hyperbilirubinæmi, og et screeningspanel med femten parametre, hvor alle analyter ligger inden for deres referenceområde. Rubrikken belønner motorer, der læser hver case på dens egne præmisser, og straffer motorer, der forsøger at nå frem til en sikker diagnose, når en sådan diagnose ikke er berettiget.

Som Thomas Klein, MD, udvalgte jeg casepanelet, fordi det er de mønstre, jeg oftest ser laboratoriemedicinske assistenter tage fejl af. Den dyre fejlsituation er ikke "at overse en sjælden sygdom" — det er at fremstille rutinemæssig patologi hos patienter, som ikke har den. Vores Medicinsk validering hub beskriver den bredere ramme; denne side beskriver den V11 indledende proof-of-concept og V11 anden opdatering, som skalerede den til 100.000 syntetiske sager udtrukket fra et syntetisk casesæt, der spænder over 127 landemærkater — ved hjælp af den samme scoringsrubrik, byte-identisk, uden tilladt efterfølgende tuning.

Seneste referencekørsel — V11 Second Update (26. april 2026)

V11 Second Update-referencekørslen den 26. april 2026 gav en samlet score på 99.80% på den samme forudregistrerede rubrik, der blev brugt i V11 første udgivelse, evalueret på 100.000 syntetiske sager udtrukket fra Kantesti’s syntetiske casesæt og på tværs af 127 landemærkater og 75+-sprog. Hver case blev gennemført på motorens primære sti; aktiveringer af flag for hyperdiagnostisk “trap-case” forblev på 0 / 87,412. Den oprindelige V11-kørsel den 23. april 2026 dækkede 15 håndkuraterede cases (samlet 99.12%) og validerede rubrikken; Second Update bevarer den rubrik byte-identisk og udvider evalueringen til en kohorte i populationsskala.

Samlet 99.80% 100.000 ud af 100.000 cases scorede

1.000 Strukturscore

0.996 Klinisk score

13,26 s Gennemsnitlig latenstid

0 / 87,412 Falske positiver i fælder

Den samlede formel kombinerer tre komponenter: strukturel overensstemmelse med de syv obligatoriske rapportsektioner og seksten obligatoriske undersektioner, indholdsnøjagtighed målt som nøgleords-genkald plus genkald i scoringsystemet plus en validering af sandsynlighedsfordelingen, og svartid i forhold til målet for service-level på primær sti. Den nøjagtige opdeling vises i rubrikformlen nedenfor — ingen af disse vægte eller delrubrikker blev ændret til Second Update.

Samlet = 0.35 × Strukturel + 0.55 × Klinisk + 0.10 × Latenstid

De resterende 0,20 procentpoint af “headroom” nedbrydes næsten udelukkende til den kliniske delscore — en lille andel af cases (overvejende i Hepatologi og Reumatologi) havde ét forventet scoringsystem-nøgleord fraværende i motorens fortolkning, selv om det diagnostiske indhold var korrekt. Ingen case i 100.000-case Second-Update-kohorten missede selve diagnosen. Latensen blev forbedret fra et gennemsnit på 20,17 s i V11 første udgivelse til 13,26 s i Second Update, hvilket afspejler optimeringer i produktionsmotoren mellem de to kørsler; rubrikken, scoringskoden og API-endpointet er uændrede.

Kompositscore pr. mærkat varierede fra 0.9971 til 0.9985 på tværs af de 30 mest-repræsenterede landemærkater. Den lange hale af 97 yderligere mærkater (≈7.300 sager samlet) viste ingen systematisk forringelse. De hyppigste mærkater efter antal sager var USA (10.500), Brasilien (9.500), Spanien (9.000), Italien (8.000), Tyskland (7.800), Frankrig (7.400), Portugal (5.800), Türkiye (3.400), Det Forenede Kongerige (2.900) og Mexico (2.500).

Fra 15 cases til 100.000: kohorteudvikling på tværs af 127 landemærkater

Det oprindelige V11-casesæt dækkede syv specialer — hæmatologi, endokrinologi, metabolisk medicin, hepatologi, nefrologi, kardiologi, reumatologi — plus to dedikerede hyperdiagnose-fælde-cases, hvor hver case var et syntetisk genereret blodprøvepanel. V11 anden opdatering udvider evalueringen til 100.000 syntetiske sager på tværs af 127 landemærkater, fordelt på otte specialer (de oprindelige syv plus en dedikeret internmedicinsk “bucket”, der opsuger trap-delen). Den samme scoringsrubrik anvendes byte-identisk på tværs af begge kørsler.

Da alle sager er syntetisk genererede, er der ingen rigtige identifikatorer at fjerne, og der indgår ingen persondata. Hver syntetisk case har en benchmark-intern casekode (BT-NNN-LABEL i den V11 indledende version, en stabil case_uid i den anden opdatering). Der fremgår ingen persondata nogen steder i den offentliggjorte harnes, den tekniske rapport eller de udgivne datasæt.

V11 første udgivelse — 15 håndkuraterede cases

Det oprindelige V11-casepanel blev håndkurateret af Dr. Thomas Klein for at øve de diagnostiske mønstre, som laboratoriemedicinske assistenter oftest tager fejl af. Hver af de femten cases blev udvalgt ud fra en specifik diagnostisk egenskab, som er angivet nedenfor.

Hæmatologi (3) BT-001, BT-006, BT-007 Jernmangelanæmi · B12-mangel · Betathalassæmi minor

Endokrinologi (3) BT-002, BT-008, BT-012 Hashimotos tyreoiditis · PCOS med insulinresistens · Svær D-vitaminmangel

Metabolisk (2) BT-003, BT-013 T2DM med metabolisk syndrom · Hyperurikæmi med gigt-risiko

Hepatologi (2) BT-004, BT-009 NAFLD / NASH · Akut viral hepatitis

Nefrologi · Kardiologi · Reumatologi (3) BT-005, BT-010, BT-011 CKD stadium 3 · Aterogen dyslipidæmi · Systemisk lupus erythematosus

Trap-cases (2) BT-014, BT-015 Gilberts syndrom (isoleret indirekte hyperbilirubinæmi) · Fuldt normalt voksenscreen

Hvorfor netop denne fordeling

Hæmatologi får tre cases, fordi mikrocytære differentialer og makrocytære differentialer er de største “fælder” med høj volumen i reel laboratoriepraksis. Endokrinologi får tre, fordi præsentationerne ved Hashimotos, PCOS og D-vitaminmangel udøver forskellige diagnostiske mønstre (drevet af autoantistoffer, drevet af hormon-ratioer, drevet af et enkelt markør). De specialer med én case er stadig meningsfulde, fordi både CKD, ASCVD-risiko og SLE har deres eget scoringssystem, som motoren skal aktivere (henholdsvis KDIGO-stadieinddeling, ASCVD 10-årsrisiko, 2019 EULAR/ACR SLE-kriterier).

V11 anden opdatering — 100.000 syntetiske sager på tværs af 127 landemærkater

Den anden opdatering erstatter den oprindelige V11 hardkodede 15-case Python-literal med et større, programmatisk genereret syntetisk casesæt. Casesættet indlæses i starten af hver kørsel, og konfigurationen logges for gennemsigtighed. Kohortefordelingen efter indholdsområde er vist nedenfor.

Endokrinologi 23.900 cases (23,9%) Thyroidea, PCOS, D-vitamin, gonadalakse, hypofyse

Metabolisk medicin 21.900 cases (21,9%) T2DM, metabolisk syndrom, lipidpaneler, hyperurikæmi

Hæmatologi 15.400 cases (15,4%) Mikrocystiske og makrocystiske differentialer, B12/folat, jernundersøgelser

Hepatologi 12.400 cases (12,4%) NAFLD/NASH, viral hepatitis, FIB-4, kolestase

Intern medicin (inkl. trap-subset) 9.000 cases (9,0%) Blandede præsentationer og 8.723 dedikerede hyperdiagnose-fælde-cases

Kardiologi 7.500 cases (7,5%) ASCVD-risiko, aterogen dyslipidæmi, hs-CRP

Reumatologi 6.000 cases (6,0%) SLE, RA, vaskulit, autoantistofpaneler (EULAR/ACR-kriterier)

Nefrologi 4.000 cases (4,0%) CKD-stadieinddeling (KDIGO), eGFR-tendenser, elektrolytforstyrrelse

Syntetisk fordeling af landemærkater — top 10 mærkater

De 100.000 syntetiske sager bærer 127 landemærkater (ISO 3166-1 alpha-2) for at afprøve håndtering af lokalitet. Tildeling af mærkat: Europa 57.7%, Amerika 25.4%, Asien-Stillehav 6.2%, navngivne Mellemøsten/Afrika-mærkater 3.4% og en lang hale af 97 yderligere mærkater på omtrent 7.3% samlet. De ti mest hyppige mærkater efter antal sager er USA (10.500), Brasilien (9.500), Spanien (9.000), Italien (8.000), Tyskland (7.800), Frankrig (7.400), Portugal (5.800), Türkiye (3.400), Det Forenede Kongerige (2.900) og Mexico (2.500). Kompositscore pr. mærkat varierede fra 0.9971 til 0.9985. Disse mærkatantal er egenskaber ved de genererede sager, der bruges til at afprøve håndtering af lokalitet — de er ikke rigtige brugere og ikke reel geografisk dækning.

De forhåndsregistrerede bedømmelseskriterier, forklaret

Forhåndsregistrering er det vigtigste metodiske valg i denne benchmark. Hver forventet diagnose, hvert klinisk scoringssystem og hver rapportsektion blev forpligtet til kildekode før motoren blev aktiveret. Derfor er efterfølgende tuning af rubrikken for at smigre motoren umulig.

Tre komponenter udgør den sammensatte score. Den strukturelle komponent bidrager med 35 procent og måler, om motoren returnerede de syv obligatoriske rapportsektioner (header, summary, key findings, differential, scoring systems, recommendations, follow-up) og de seksten obligatoriske undersektioner i dem. Sektionstilstedeværelse vægter 40 procent, og undersektionstilstedeværelse vægter 60 procent inden for den strukturelle beregning.

De klinisk komponent bidrager med 55 procent og kombinerer tre ting: diagnose-nøgleordsgenkald (70 procent af den kliniske delscore), genkald af scoringssystem (20 procent — om motoren beregner Mentzer, FIB-4, HOMA-IR, ASCVD-risiko, KDIGO-stadieinddeling, EULAR/ACR-kriterier hvor relevant), og en validering ved sandsynlighedssum (10 procent — differential-sandsynlighederne skal summere til inden for intervallet [90, 110]). For fælde-cases trækkes en eksplicit hyperdiagnose-bøde på op til 0,30, beregnet som 0,10 pr. fabrikeret patologiflag, med et loft på tre flag.

De latenstkomponent bidrager med 10 procent. Et svar under 20 sekunder giver den fulde 0,10, et svar under 40 sekunder giver 0,05, og alt langsommere giver nul. 20-sekundersmålet afspejler produktionens primære primary-path service-level objective; 40-sekundersloftet afspejler Phase 2 fallback-budgettet for tunge motor-aktiveringer.

Hvad forhåndsregistrering forhindrer

Førstehånds-benchmarks er berygtede for at puste deres egne tal op via efterfølgende tuning af rubrikken. Mønstret er næsten altid det samme: teamet kører motoren, ser hvor den underpræsterer, og justerer derefter stille og roligt rubrikken, så de områder, der underpræsterer, tæller mindre. Ved at forpligte rubrikken til kildekode før det første motor-kald og offentliggøre testharnessen under MIT-licens, bliver denne justering synlig i versionskontrol. Enhver kan klone repository’et, tjekke rubrikforfatter-datoerne og verificere, at motorens resultater ikke blev brugt til at forme scoringen.

Hyperdiagnose-fælde-cases — hvorfor overkald er den reelle fejltillstand

Aggressiv over-udpegning af patologi på normale skærmbilleder er en dokumenteret fejlsituation for forbrugerrettede medicinske assistenter. Dens afledte omkostninger omfatter unødvendig udredning, patienturo og iatrogen udredning. De to fælde-cases i denne benchmark er designet til at gøre denne fejlsituation synlig og mulig at score.

🟡 Fælde 1 — BT-014-GILBERT

Præsentation. En 24-årig mand med total bilirubin på 2,4 mg/dL. Den direkte fraktion er normal, transaminaser og alkalisk fosfatase ligger inden for deres referenceintervaller, retikulocytter er uanseelige, og haptoglobin og LDH udelukker hæmolyse.

Korrekt fortolkning. Gilberts syndrom — en benign UGT1A1-polymorfi. Fortolkningen bør ikke inddrage hepatitis, cirrose, hæmolytisk anæmi eller galdevejsobstruktion.

V11-resultat. Sammensat 1.000. Ingen af de seks overvågede overdiagnose-flags fremstod som aktive diagnoser.

🟡 Fælde 2 — BT-015-SUND

Præsentation. En 35-årig kvinde med et femten-parametres rutinemæssigt screeningspanel. Hver analytt ligger komfortabelt inden for sit referenceinterval.

Korrekt fortolkning. Beroligelse og vedligeholdelse af livsstil. Fortolkningen bør ikke fremstille grænsetilfælde af patologi for at lyde klinisk nyttig.

V11-resultat. Komposit 1.000. Ingen af de syv overvågede flag for overdiagnosticering — diabetes, anæmi, hypothyreoidisme, dyslipidæmi, hepatitis, nyresygdom, mangel — fremstod som aktive diagnoser.

På tværs af begge fælder blev tretten overvågede flag for hyperdiagnosticering kontrolleret. Ingen blev udløst. Dette er det resultat, der betyder mest for enhver kliniker, der overvejer at bruge en AI-motor som et triage- eller præ-konsultationsværktøj: systemet opfandt ikke en sygdom, hvor der ingen fandtes.

Mentzer-indeks: adskillelse af jernmangel fra thalassæmi-træk

Et andet fund med høj værdi vedrører koblingen af case BT-001 (jernmangelanæmi) med case BT-007 (beta-thalassæmi minor). Begge præsenterer med mikrocytose og er en velkendt snublesten for naive klassifikatorer. Mentzer-indekset, beregnet som MCV divideret med RBC-tal, er over 13 ved jernmangel og falder under 13 ved thalassæmi-træk.

I BT-001 var patienten en 34-årig kvinde med hæmoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritin 6 ng/mL og forhøjet TIBC. Mentzer-indekset på cirka 17,7 understøtter absolut jernmangel. I BT-007 var patienten en 28-årig mand med mikrocytose (MCV 65,8 fL), men et højt RBC-tal på 6,2, normal RDW, normalt ferritin og HbA2 på 5,6 procent. Mentzer-indekset på cirka 10,6 peger på thalassæmi-træk, og det forhøjede HbA2 bekræfter beta-thalassæmi minor.

Jernmangelanæmi Mentzer > 13 Lavt ferritin, lav TSAT, høj TIBC, forhøjet RDW

Thalassæmi-træk Mentzer < 13 Normalt ferritin, normal RDW, forhøjet HbA2 (>3.5%), højt RBC-tal

Begge cases scorede 1.000. Motoren anvendte Mentzer-indekset eksplicit i begge fortolkninger og returnerede den korrekte diagnose i hvert tilfælde. Dette er det enkeltstående mest klinisk beroligende resultat i hele benchmarken, fordi fejlkategorisering af thalassæmi-træk som jernmangel fører til uhensigtsmæssig jerntilskud og mistede muligheder for familiescreening, og fejlkategorisering af jernmangel som thalassæmi forsinker en ligetil erstatningsbehandling. Vores ferritin-intervalguide forklarer den bredere differentielle kontekst.

Resultater pr. case fra V11’s indledende referencekørsel (23. april 2026)

Den oprindelige V11-referencekørsel på 15-case proof-of-concept-kohorten fungerer som det metodiske grundlag for Second Update: hver detalje pr. case nedenfor viser, hvordan rubric’en håndterer et reelt motorrespons. Tolv af femten cases opnåede loftet for komposit-scoren på 1.000 på den primære sti; tre cases blev betjent via Phase 2-fallbacken, hvor 0.05 latency-bonussen gik tabt, mens alt klinisk og strukturelt indhold blev bevaret. Én case manglede en enkelt obligatorisk undersektion; én returnerede en marginalt reduceret sandsynlighedsfordelingssum.

Case ID Speciale Samlet Latency Path

BT-001-IDAHæmatologi1.00017,8 sprimary

BT-006-B12Hæmatologi1.00018,4 sprimary

BT-007-THALHæmatologi1.00017,0 sprimary

BT-002-HASHEndokrinologi0.95037,0 sfallback

BT-008-PCOSEndokrinologi0.98718,6 sprimary

BT-003-T2DMMetabolisk1.00019,1 sprimary

BT-013-GOUTMetabolisk1.00019,4 sprimary

BT-004-NAFLDHepatologi1.00019,6 sprimary

BT-009-VIRHEPHepatologi0.95023,4 sfallback

BT-014-GILBERTTrap1.00018,9 sprimary

BT-005-CKDNefrologi1.00017,4 sprimary

BT-010-ASCVDKardiologi1.00019,7 sprimary

BT-011-SLEReumatologi0.98118,2 sprimary

BT-012-VITDEndokrinologi1.00019,3 sprimary

BT-015-SUNDTrap1.00018,7 sfallback

PCOS-tilfældet (BT-008) mistede en enkelt obligatorisk undersektion i responstrukturen — femten ud af seksten i stedet for seksten ud af seksten — hvilket reducerede den strukturelle score fra 1,000 til 0,963. SLE-tilfældet (BT-011) returnerede en marginalt reduceret sandsynlighedsfordelingssum, som sænkede den kliniske score til 0,965, samtidig med at alle diagnostiske nøgleord og scoringsystemer blev bevaret. Ingen af de to ikke-optimale tilfælde overså en korrekt diagnose.

V11 Second Update aggregeret — 100.000 cases

I populationsskala er individuelle sager ikke menneskeligt læsbare, så den anden opdatering rapporterer aggregerede mål i stedet for en tabel med 100.000 rækker. Hovedtallet for den samlede aggregering er vist nedenfor; opdelinger pr. speciale og pr. landemærkat er offentliggjort i den tekniske rapport og i Figshare-indleveringen. En stratificeret tilfældig stikprøve af n = 201 rå motorrespons (deterministisk seed 20260426) offentliggøres i GitHub results/ mappen til inspektion.

Kompositscore V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 på tværs af 100.000-case kohorten

Strukturscore (gennemsnit) V11 initial: 0.998 → Second Update: 1.000 Perfekt strukturel konformitet i populationsskala

Klinisk score (gennemsnit) V11 initial: 0.998 → Second Update: 0.996 −0.002; ingen case overså selve diagnosen

Latens — gennemsnit (interval) V11 initial: 20,17 s (17,0–37,0 s) → Anden opdatering: 13,26 s (9,0–16,94 s) Produktionsmotor-optimeringer mellem kørselerne

Motorsti = primær V11 initial: 12 / 15 → Anden opdatering: 100,000 / 100,000 Der var ikke behov for nogen Phase 2-fallback på noget tidspunkt under kørselen

Flag for hyperdiagnose af trap-delmængde V11 initial: 0 / 13 → Anden opdatering: 0 / 87,412 Ingen falske positiver i populationsskala (8.723 trap-tilfælde overvåget)

Hvad topscoren ikke fortæller os

En kompositscore på 99.80 procent under denne særlige forudregistrerede rubrik, på en 100.000-case syntetisk kohorte, der spænder over 127 landemærkater, repræsenterer næsten-loftpræstation — men den fortjener omhyggelig indramning. Resultatet beskriver motorens adfærd i forhold til den rubrik, vi forpligtede os til i kildekoden i V11; det er ikke et universelt udsagn om motorens korrekthed på enhver blodprøvepanel, der findes i virkeligheden.

Scoren siger, at motoren håndterede de diagnostiske mønstre, der blev udvalgt til denne evaluering, korrekt på tværs af en kohorte i populationsskala, på en metode, der er offentliggjort og kan reproduceres. Den siger ikke, at motoren er korrekt på enhver blodprøvepanel, der findes i det virkelige liv. Den siger ikke, at motoren bør erstatte klinisk vurdering. Og den siger ikke, at motoren overgår alternative AI-systemer — sammenlignende analyser mod andre motorer var bevidst uden for rammerne af denne rapport.

Det, scoren derimod fastslår, er en baseline. Når rubric og harness er offentlige, kan fremtidige versioner af motoren evalueres mod den samme rubric — anvendt på V11 initial 15 tilfælde, Anden opdatering 100.000-tilfælde kohorten eller enhver efterfølgende udvidelse — og afstanden mellem den offentliggjorte score og enhver efterfølgende kørsel kan i sig selv måles. Det er værdien af forudregistrering: den omdanner præstationspåstande til testbare påstande.

Sådan genskaber du dette benchmark på 10 minutter

Reproduktion kræver kun et Kantesti API-legitimationspar og et Python 3.10 eller nyere miljø med requests og reportlab biblioteker installeret. Den fulde harness er et enkelt selvstændigt Python-modul udgivet under MIT-licensen.

💻 GitHub MIT-licenseret harness · rå responser · referencekørsel 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanonisk akademisk registrering 🎓 ResearchGate Publikation 404175463 · V11 Anden opdatering · akademisk opdagelseslag 📄 Academia.edu Paper 165956808 · V11 Anden opdatering · akademisk opdagelseslag

Fire trin til en frisk kørsel

Én. Klon repositoryt: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. To. Installer afhængigheder med pip install -r requirements.txt (Anden opdatering tilføjer mysql-connector-python ≥ 8.0 til SQL-case loaderen). Tre. Angiv KANTESTI_USERNAME og KANTESTI_PASSWORD som miljøvariabler for motorens API. For Anden opdaterings SQL case loader skal du også angive KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, og KANTESTI_DB_PASSWORD — loaderen forbinder via en skrivebeskyttet rolle (bench_reader) der ikke har rettigheder til at identificere tabeller. Fire. Kør python benchmark_bloodtest.py --limit 100000 for hele Second-Update-kørslen, eller python benchmark_bloodtest.py --limit 1000 for hurtig iteration. Resultaterne lander i ./benchmark_results/: et CSV-scorecard med kolonner for pr. land-label og pr. speciale, en JSON-aggregat, en stratificeret-tilfældigt rå-svar-stikprøve og en Markdown-rapport.

Referencekørslerne fra 23. april 2026 (V11 initial, 15 cases) og 26. april 2026 (V11 Second Update, 100,000 cases) er bevaret i results/ repositoryts mappe. En ny kørsel vil producere et nyt tidsstempel-scorecard, mens referencekørslerne efterlades uberørte. Hvis din kørsel giver et meningsfuldt anderledes resultat, bedes du åbne et GitHub-issue med køretidspunktet og motorversionen, der returneres i svarets metadata.

Begrænsninger og fremtidigt arbejde

Selv ved 100.000 cases på tværs af 127 land-labels fortjener fire begrænsninger en eksplicit anerkendelse: underdækning af long-tail labels, single-shot evaluering, single-engine omfang og single-source datakildeoprindelse. Hver af dem adresseres i aktivt opfølgende arbejde.

Dækning af long-tail labels. Anden opdatering spænder over 127 land-labels, men fordelingen er ubalanceret — de top 10 labels står for ≈66,4% af cases, og long tail på 97 yderligere labels bidrager tilsammen med ≈7,3% (omtrent 7.300 cases i alt, ~75 cases pr. label i gennemsnit). Derfor er per-label-kompositter i denne long tail mere støjfyldte end overskrifts-tallene antyder. Fremtidige kørsler vil rebalancere label-tilordningen for at styrke per-label-estimater.

Single-shot-evaluering. Hver case i kohorten blev evalueret én gang. Store sprogmodeller udviser en ikke-triviel variationsgrad i output, selv ved lav sampling-temperatur, så et multi-run-protokol med fem evalueringer pr. case og rapporteret varians er et naturligt næste skridt — især på trap-case-undergruppen, hvor konsistens under sampling-jitter er en del af sikkerhedspåstanden.

Single-engine-omfang. Denne rapport beskriver én motor. Sammenlignende analyser mod alternative AI-systemer er uden for denne afgrænsning; vi kan vælge at forfølge dem som en separat uafhængig undersøgelse med passende metodologi, mod det samme MIT-licenserede framework.

Syntetiske data. De 100.000 cases er syntetisk genererede, ikke syntetiske cases, og resultaterne overføres ikke til klinisk performance i den virkelige verden. Evaluering på reel, samtykket, eksternt indhentet data ville kræve passende etisk tilsyn og ligger uden for rammerne for dette syntetiske benchmark.

Ud over disse fire er den mest betydningsfulde planlagte udvidelse flersproglig paritet pr. jurisdiktion. Kantesti AI Engine betjener brugere på 75+ sprog, og kørsel af sprogstratificerede Second-Update-underkohorter (tyrkisk, tysk, spansk, fransk, italiensk, portugisisk, arabisk, mandarin) vil kvantificere outputkvalitet på tværs af de sprog, motoren understøtter. Hver sprogstratificeret analyse vil blive offentliggjort med sin egen DOI og harness-gren.

Prøv den samme motor, som opnåede en samlet score på 99.80% på 100,000 cases

Upload din egen blodprøvepanel til det samme production-endpoint, som blev evalueret i denne benchmark. Over 2 millioner brugere verden over bruger Kantesti AI Engine til at fortolke over 15.000 biomarkører på 75+ sprog.

🔬 Prøv en gratis demo

Chrome-udvidelse App Store Google Play

📚 Sådan citeres denne benchmark

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Et forudregistreret, rubric-baseret automatiseret teknisk benchmark af Kantesti blodprøvefortolkningsmotoren på 100.000 syntetiske testcases — V11 Second Update (Teknisk rapport V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Eksterne metodiske referencer

Mentzer, W. C. (1973). Differentiering af jernmangel fra thalassæmi-træk. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology klassifikationskriterier for systemisk lupus erythematosus. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test for Large Language Models. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Samlet score

100,000Scored cases

127Land-labels dækket

0 / 87,412Falske positiver i fælden

Ofte stillede spørgsmål

Hvor præcis er Kantesti AI-motoren på syntetiske testcases?

På en forudregistreret rubric, kørt på 100.000 syntetisk genererede testcases på tværs af otte indholdsområder og 127 land-labels (V11 Second Update), nåede motoren en komposit score på 99,80 procent, med nul hyperdiagnose-flags på tværs af 87.412 overvågede trap-case-muligheder og en gennemsnitlig svartid på 13,26 sekunder. Denne komposit måler overensstemmelse af output på syntetiske input, ikke diagnostisk nøjagtighed. Den oprindelige V11-udgivelse anvendte den samme rubric på 15 håndkonstruerede cases (komposit 99,12%); Anden opdatering bevarer rubric’en byte-identisk og udvider den til en større syntetisk kohorte. Det fulde scorecard er publiceret på Figshare under DOI 10.6084/m9.figshare.32095435 og på GitHub under MIT-licens.

Er Kantesti AI-motoren klinisk valideret?

Nej. Motoren er blevet evalueret med et automatiseret teknisk benchmark (ikke en klinisk validering), mod en rubric der blev frosset i kildekode før den første V11-kørsel og holdt byte-identisk for V11 Second Update, evalueret på 100.000 syntetiske blodprøvecases på tværs af hæmatologi, endokrinologi, metabolisk medicin, hepatologi, nefrologi, kardiologi, reumatologi og intern medicin, udtrukket fra 127 land-labels. Klinisk tilsyn blev leveret af Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), bestyrelsescertificeret klinisk hæmatolog og Chief Medical Officer hos Kantesti AI.

Hvad er et hyperdiagnose-fælde-case?

En hyperdiagnose-fælde-case er et klinisk scenarie, der specifikt er designet til at afsløre overdiagnosticerende adfærd i AI-motorer. Den første V11-benchmark brugte to sådanne cases som et metodisk proof-of-concept: en isoleret indirekte hyperbilirubinæmi i overensstemmelse med Gilberts syndrom (hvor den korrekte fortolkning er den godartede UGT1A1-polymorfi frem for hepatitis eller hæmolyse) og et fuldt normalt screeningspanel for voksne (hvor det korrekte output er betryggelse frem for en fremstillet borderline-patologi). V11 Second Update skalerede denne fælde-case-metodologi til en dedikeret delmængde på 8.723 cases, hvilket gav 87.412 overvågede muligheder for hyperdiagnose-flag — og motorens falsk-positive rate forblev nul.

Kan evalueringen af Kantesti AI-motoren gentages?

Hele evalueringsframeworket udgives under MIT-licensen som et enkelt, selvstændigt Python-modul. Den første V11-kørsel kræver kun et Kantesti API-legitimationspar og Python 3.10 eller nyere. V11 Second Update tilføjer en parameterstyret, skrivebeskyttet SQL-case-loader, der kræver Kantesti clinical-repository-legitimationsoplysninger (en bench_reader rolle uden rettigheder til at identificere tabeller). Koden, SQL’en til case-loaderen, rubrics (byte-identisk mellem udgivelser), og en stratificeret tilfældig stikprøve af rå motorrespons fra både den første V11-kørsel og Second Update-referencekørslerne er tilgængelige på github.com/emirhanai/kantesti-blood-test-benchmark og spejlet på Figshare, ResearchGate og Academia.edu.

Hvordan skelner Kantesti AI-motoren mellem jernmangel og bærerstatus for beta-thalassæmi?

Motoren anvender Mentzer-indekset, beregnet som middelcellevolumen divideret med antal røde blodlegemer. Et Mentzer-indeks over 13 understøtter jernmangelanæmi, mens en værdi under 13 understøtter beta-thalassæmi-træk. I den første V11-benchmark blev begge præsentationer klassificeret korrekt med eksplicit Mentzer-indeksberegning, understøttet af ferritin, RDW og HbA2-kontekst. På tværs af V11 Second Update 100.000-case-kohorten blev den samme differentielle adfærd bevaret i populationsskala.

Hvor kan jeg finde de rå benchmarkdata og kildekoden?

Den tekniske rapport er deponeret på Figshare under DOI 10.6084/m9.figshare.32095435 (dækkende både den første V11-udgivelse og V11 Second Update), spejlet på ResearchGate-publicationen 404175463 og Academia.edu-papiret 165956808 — begge opdateret med titlen for V11 Second Update og 100.000-case-resultater — og det MIT-licenserede Python-framework med alle referencekørselsresultater er på github.com/emirhanai/kantesti-blood-test-benchmark. Spejl-netværket på fire platforme sikrer langsigtet tilgængelighed og citationsfleksibilitet.

Hvorfor er forudregistrering vigtigt for AI-medicinske benchmarks?

Forudregistrering forhindrer post-hoc rubric-tilpasning, som er den enkelt mest almindelige måde, hvor virksomheds-drevne benchmarks puster deres egne tal op. Ved at forpligte rubric’en til kildekode før ethvert motoropkald og offentliggøre harness’et offentligt, bliver rubric-forfatterens datoer efterprøvelige i versionskontrol, og motorresultaterne kan ikke have formet scoringskriterierne.

Inkluderer dette benchmark sammenligninger med andre AI-motorer?

Nej. V11-rapporten — både den første udgivelse og Second Update — beskriver bevidst én enkelt motor mod en fast rubric i stedet for at placere den i forhold til alternative kommercielle systemer. Frameworket er open source under MIT-licens (nu inklusive SQL-case-loaderen), så uafhængige forskere kan evaluere enhver motor, de vælger, mod den samme rubric og case-loader og publicere deres resultater.

Er patientcases virkelige eller syntetiske?

Alle cases er syntetisk genererede — 15 håndkonstruerede cases i den oprindelige V11-udgivelse og 100.000 i Anden opdatering. De er ikke syntetiske cases: der indgår ingen syntetiske data, ingen samtykkeproces og ingen de-identifikation, fordi der ikke findes persondata i kohorten. Der fremkommer ingen persondata i den publicerede harnes, den tekniske rapport eller de udgivne datasæt.

⚕️ Medicinsk ansvarsfraskrivelse & interessekonflikt

Denne benchmarkrapport er til forsknings- og metodisk gennemsigtighed. Den udgør ikke medicinsk rådgivning, er ikke en diagnose og er ikke en erstatning for professionel lægehjælp; intet resultat her bør bruges til at forsinke eller undgå at se en læge. Rådfør dig altid med en kvalificeret sundhedsudbyder for beslutninger om diagnose og behandling. Dette er et selvkørt internt benchmark af virksomhedens egen motor og er ikke uafhængigt valideret eller peer-reviewet. Den samlede score måler overensstemmelse med en fast rubrik (rapportstruktur, genkald af nøgleord og scoringsystem samt latenstid); den er ikke et mål for reel diagnostisk nøjagtighed eller klinisk sikkerhed. Begge forfattere er ansat af og har egenkapital i Kantesti Ltd, og den motor, der evalueres, er et kommercielt produkt fra samme organisation. Denne interessekonflikt afbødes ved at forudregistrere rubrikken i kildekoden, udgive harnessen under MIT-licensen og offentliggøre en stratificeret tilfældig stikprøve af rå motorrespons.

E-E-A-T Trust Signals

⭐

Erfaring

15+ års klinisk praksis inden for hæmatologi og laboratoriemedicin med supervision af udvælgelsen af casepanelet.

📋

Ekspertise

Forudregistreret rubric-design med eksplicitte hyperdiagnose-penaliteter og anerkendte kliniske scoringssystemer (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoritet

Hovedforfatter Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementering af Julian Emirhan Bulut, CEO i Kantesti Ltd.

🛡️

Troværdighed

MIT-licenseret reproducerbart harness, rå motorresponser publiceret, åben interessekonflikt-udmelding, forskningsspejlnetværk på fire platforme.

🏢 Kantesti LTD Registreret i England & Wales · Virksomhedsnummer. 17090423 London, Storbritannien · kantesti.net