Hvorfor dette benchmark findes, og hvad det tester

AI-assisteret fortolkning af blodprøver anvendes i stigende grad i både forbruger- og kliniske arbejdsgange, men reproducerbare evalueringsrammer målrettet laboratoriemedicin er stadig sjældne. De spørgsmål, der betyder mest i denne sammenhæng, er ikke dem, der dækkes af generelle benchmarks for medicinsk spørgsmål-svar: kan en engine adskille jernmangel fra thalassæmi-træk, når middelcellevolumen er identisk, overdiagnosticerer den Gilberts syndrom som hepatitis, og fremstiller den patologi i et fuldt normalt screeningspanel?

Forudregistreret rubric-flowdiagram, der viser hvordan Kantesti AI Engine — V11 Second Update, 99.80% kompositscore på 100.000 cases — evalueres mod frosne scoringskriterier
Figur 1: Den benchmark-arkitektur, der ligger bag 99.80% kompositscore i V11 Second Update 100.000-case-kohorten — alle cases, alle nøgleord, alle scoringsystemer er fastlåst i kildekoden, før motoren ser en eneste PDF, og rubrikken er byte-identisk med V11 første udgivelse. Efterfølgende rubrikjustering er umulig af design.

Et enkelt blodprøvepanel indeholder typisk nok signal til at understøtte flere konkurrerende fortolkninger, og den fortolkende klinikers opgave er at afveje disse fortolkninger mod hinanden frem for at hente et facitsvar fra en lærebog. En motor, der klarer sig godt på lærebogstilfælde, kan stadig fejle på de tilfælde, der betyder mest: faldgruberne i differentialdiagnosen, de godartede varianter, der ser alarmerende ud, når de ses isoleret, og de fuldt normale paneler, som frister sikre assistenter til at fremstille patologi.

Dette benchmark blev bygget netop med disse fejlsituationer for øje. Hver af de femten cases blev udvalgt ud fra en specifik diagnostisk egenskab: en jernmangel-relateret mikrocystose, der skal holdes adskilt fra en betathalassæmi-træk med identisk gennemsnitlig korpuskulær volumen, en præsentation som ved Gilberts syndrom, hvor den eneste afvigelse er en isoleret indirekte hyperbilirubinæmi, og et screeningspanel med femten parametre, hvor alle analyter ligger inden for deres referenceområde. Rubrikken belønner motorer, der læser hver case på dens egne præmisser, og straffer motorer, der forsøger at nå frem til en sikker diagnose, når en sådan diagnose ikke er berettiget.

Som Thomas Klein, MD, udvalgte jeg casepanelet, fordi det er de mønstre, jeg oftest ser laboratoriemedicinske assistenter tage fejl af. Den dyre fejlsituation er ikke "at overse en sjælden sygdom" — det er at fremstille rutinemæssig patologi hos patienter, som ikke har den. Vores Medicinsk validering hub beskriver den bredere ramme; denne side beskriver den V11 indledende proof-of-concept og V11 anden opdatering, som skalerede den til 100.000 syntetiske sager udtrukket fra et syntetisk casesæt, der spænder over 127 landemærkater — ved hjælp af den samme scoringsrubrik, byte-identisk, uden tilladt efterfølgende tuning.

Seneste referencekørsel — V11 Second Update (26. april 2026)

V11 Second Update-referencekørslen den 26. april 2026 gav en samlet score på 99.80% på den samme forudregistrerede rubrik, der blev brugt i V11 første udgivelse, evalueret på 100.000 syntetiske sager udtrukket fra Kantesti’s syntetiske casesæt og på tværs af 127 landemærkater og 75+-sprog. Hver case blev gennemført på motorens primære sti; aktiveringer af flag for hyperdiagnostisk “trap-case” forblev på 0 / 87,412. Den oprindelige V11-kørsel den 23. april 2026 dækkede 15 håndkuraterede cases (samlet 99.12%) og validerede rubrikken; Second Update bevarer den rubrik byte-identisk og udvider evalueringen til en kohorte i populationsskala.

Samlet 99.80% 100.000 ud af 100.000 cases scorede
1.000 Strukturscore
0.996 Klinisk score
13,26 s Gennemsnitlig latenstid
0 / 87,412 Falske positiver i fælder

Den samlede formel kombinerer tre komponenter: strukturel overensstemmelse med de syv obligatoriske rapportsektioner og seksten obligatoriske undersektioner, indholdsnøjagtighed målt som nøgleords-genkald plus genkald i scoringsystemet plus en validering af sandsynlighedsfordelingen, og svartid i forhold til målet for service-level på primær sti. Den nøjagtige opdeling vises i rubrikformlen nedenfor — ingen af disse vægte eller delrubrikker blev ændret til Second Update.

Samlet = 0.35 × Strukturel + 0.55 × Klinisk + 0.10 × Latenstid

De resterende 0,20 procentpoint af “headroom” nedbrydes næsten udelukkende til den kliniske delscore — en lille andel af cases (overvejende i Hepatologi og Reumatologi) havde ét forventet scoringsystem-nøgleord fraværende i motorens fortolkning, selv om det diagnostiske indhold var korrekt. Ingen case i 100.000-case Second-Update-kohorten missede selve diagnosen. Latensen blev forbedret fra et gennemsnit på 20,17 s i V11 første udgivelse til 13,26 s i Second Update, hvilket afspejler optimeringer i produktionsmotoren mellem de to kørsler; rubrikken, scoringskoden og API-endpointet er uændrede.

Kompositscore pr. mærkat varierede fra 0.9971 til 0.9985 på tværs af de 30 mest-repræsenterede landemærkater. Den lange hale af 97 yderligere mærkater (≈7.300 sager samlet) viste ingen systematisk forringelse. De hyppigste mærkater efter antal sager var USA (10.500), Brasilien (9.500), Spanien (9.000), Italien (8.000), Tyskland (7.800), Frankrig (7.400), Portugal (5.800), Türkiye (3.400), Det Forenede Kongerige (2.900) og Mexico (2.500).

Fra 15 cases til 100.000: kohorteudvikling på tværs af 127 landemærkater

Det oprindelige V11-casesæt dækkede syv specialer — hæmatologi, endokrinologi, metabolisk medicin, hepatologi, nefrologi, kardiologi, reumatologi — plus to dedikerede hyperdiagnose-fælde-cases, hvor hver case var et syntetisk genereret blodprøvepanel. V11 anden opdatering udvider evalueringen til 100.000 syntetiske sager på tværs af 127 landemærkater, fordelt på otte specialer (de oprindelige syv plus en dedikeret internmedicinsk “bucket”, der opsuger trap-delen). Den samme scoringsrubrik anvendes byte-identisk på tværs af begge kørsler.

Design af V11 initial case-panel — femten syntetiske blodprøvecases på tværs af syv medicinske specialer plus to hyperdiagnose-trap-cases; den samme rubric opnåede en komposit score på 99,80% på 100.000 cases i V11 Second Update
Figur 2: V11 første case-paneldesign på tværs af hæmatologi, endokrinologi, metabolisk medicin, hepatologi, nefrologi, kardiologi, reumatologi, plus to trap-cases — Gilberts syndrom og et fuldt normalt screeningspanel. Second Update bevarer denne rubrik byte-identisk, mens kohorten udvides til 100.000 cases udtrukket fra Kantesti SQL-arkivet.

Da alle sager er syntetisk genererede, er der ingen rigtige identifikatorer at fjerne, og der indgår ingen persondata. Hver syntetisk case har en benchmark-intern casekode (BT-NNN-LABEL i den V11 indledende version, en stabil case_uid i den anden opdatering). Der fremgår ingen persondata nogen steder i den offentliggjorte harnes, den tekniske rapport eller de udgivne datasæt.

V11 første udgivelse — 15 håndkuraterede cases

Det oprindelige V11-casepanel blev håndkurateret af Dr. Thomas Klein for at øve de diagnostiske mønstre, som laboratoriemedicinske assistenter oftest tager fejl af. Hver af de femten cases blev udvalgt ud fra en specifik diagnostisk egenskab, som er angivet nedenfor.

Hæmatologi (3) BT-001, BT-006, BT-007 Jernmangelanæmi · B12-mangel · Betathalassæmi minor
Endokrinologi (3) BT-002, BT-008, BT-012 Hashimotos tyreoiditis · PCOS med insulinresistens · Svær D-vitaminmangel
Metabolisk (2) BT-003, BT-013 T2DM med metabolisk syndrom · Hyperurikæmi med gigt-risiko
Hepatologi (2) BT-004, BT-009 NAFLD / NASH · Akut viral hepatitis
Nefrologi · Kardiologi · Reumatologi (3) BT-005, BT-010, BT-011 CKD stadium 3 · Aterogen dyslipidæmi · Systemisk lupus erythematosus
Trap-cases (2) BT-014, BT-015 Gilberts syndrom (isoleret indirekte hyperbilirubinæmi) · Fuldt normalt voksenscreen

Hvorfor netop denne fordeling

Hæmatologi får tre cases, fordi mikrocytære differentialer og makrocytære differentialer er de største “fælder” med høj volumen i reel laboratoriepraksis. Endokrinologi får tre, fordi præsentationerne ved Hashimotos, PCOS og D-vitaminmangel udøver forskellige diagnostiske mønstre (drevet af autoantistoffer, drevet af hormon-ratioer, drevet af et enkelt markør). De specialer med én case er stadig meningsfulde, fordi både CKD, ASCVD-risiko og SLE har deres eget scoringssystem, som motoren skal aktivere (henholdsvis KDIGO-stadieinddeling, ASCVD 10-årsrisiko, 2019 EULAR/ACR SLE-kriterier).

V11 anden opdatering — 100.000 syntetiske sager på tværs af 127 landemærkater

Den anden opdatering erstatter den oprindelige V11 hardkodede 15-case Python-literal med et større, programmatisk genereret syntetisk casesæt. Casesættet indlæses i starten af hver kørsel, og konfigurationen logges for gennemsigtighed. Kohortefordelingen efter indholdsområde er vist nedenfor.

Endokrinologi 23.900 cases (23,9%) Thyroidea, PCOS, D-vitamin, gonadalakse, hypofyse
Metabolisk medicin 21.900 cases (21,9%) T2DM, metabolisk syndrom, lipidpaneler, hyperurikæmi
Hæmatologi 15.400 cases (15,4%) Mikrocystiske og makrocystiske differentialer, B12/folat, jernundersøgelser
Hepatologi 12.400 cases (12,4%) NAFLD/NASH, viral hepatitis, FIB-4, kolestase
Intern medicin (inkl. trap-subset) 9.000 cases (9,0%) Blandede præsentationer og 8.723 dedikerede hyperdiagnose-fælde-cases
Kardiologi 7.500 cases (7,5%) ASCVD-risiko, aterogen dyslipidæmi, hs-CRP
Reumatologi 6.000 cases (6,0%) SLE, RA, vaskulit, autoantistofpaneler (EULAR/ACR-kriterier)
Nefrologi 4.000 cases (4,0%) CKD-stadieinddeling (KDIGO), eGFR-tendenser, elektrolytforstyrrelse

Syntetisk fordeling af landemærkater — top 10 mærkater

De 100.000 syntetiske sager bærer 127 landemærkater (ISO 3166-1 alpha-2) for at afprøve håndtering af lokalitet. Tildeling af mærkat: Europa 57.7%, Amerika 25.4%, Asien-Stillehav 6.2%, navngivne Mellemøsten/Afrika-mærkater 3.4% og en lang hale af 97 yderligere mærkater på omtrent 7.3% samlet. De ti mest hyppige mærkater efter antal sager er USA (10.500), Brasilien (9.500), Spanien (9.000), Italien (8.000), Tyskland (7.800), Frankrig (7.400), Portugal (5.800), Türkiye (3.400), Det Forenede Kongerige (2.900) og Mexico (2.500). Kompositscore pr. mærkat varierede fra 0.9971 til 0.9985. Disse mærkatantal er egenskaber ved de genererede sager, der bruges til at afprøve håndtering af lokalitet — de er ikke rigtige brugere og ikke reel geografisk dækning.

De forhåndsregistrerede bedømmelseskriterier, forklaret

Forhåndsregistrering er det vigtigste metodiske valg i denne benchmark. Hver forventet diagnose, hvert klinisk scoringssystem og hver rapportsektion blev forpligtet til kildekode før motoren blev aktiveret. Derfor er efterfølgende tuning af rubrikken for at smigre motoren umulig.

Tre komponenter udgør den sammensatte score. Den strukturelle komponent bidrager med 35 procent og måler, om motoren returnerede de syv obligatoriske rapportsektioner (header, summary, key findings, differential, scoring systems, recommendations, follow-up) og de seksten obligatoriske undersektioner i dem. Sektionstilstedeværelse vægter 40 procent, og undersektionstilstedeværelse vægter 60 procent inden for den strukturelle beregning.

De klinisk komponent bidrager med 55 procent og kombinerer tre ting: diagnose-nøgleordsgenkald (70 procent af den kliniske delscore), genkald af scoringssystem (20 procent — om motoren beregner Mentzer, FIB-4, HOMA-IR, ASCVD-risiko, KDIGO-stadieinddeling, EULAR/ACR-kriterier hvor relevant), og en validering ved sandsynlighedssum (10 procent — differential-sandsynlighederne skal summere til inden for intervallet [90, 110]). For fælde-cases trækkes en eksplicit hyperdiagnose-bøde på op til 0,30, beregnet som 0,10 pr. fabrikeret patologiflag, med et loft på tre flag.

De latenstkomponent bidrager med 10 procent. Et svar under 20 sekunder giver den fulde 0,10, et svar under 40 sekunder giver 0,05, og alt langsommere giver nul. 20-sekundersmålet afspejler produktionens primære primary-path service-level objective; 40-sekundersloftet afspejler Phase 2 fallback-budgettet for tunge motor-aktiveringer.

Terminal-screenshot af det MIT-licenserede Kantesti benchmark-framework, der kører og udsender scores pr. case — det samme framework, nu SQL-drevet, producerede 99.80% kompositscoren i V11 Second Update 100.000-case-kørslen
Figur 3: Testharnessen i drift — den samme motor, der producerede 99.80% komposit i V11 Second Update 100.000-case kohorten. Hver case gengives til en A4 PDF, uploades til production v11-endepunktet og scores i forhold til den frosne rubric. Second Update tilføjede en parameteriseret SQL case-loader; en stratificeret tilfældig stikprøve af rå motorrespons (n = 201) gemmes sammen med det aggregerede scorecard.

Hvad forhåndsregistrering forhindrer

Førstehånds-benchmarks er berygtede for at puste deres egne tal op via efterfølgende tuning af rubrikken. Mønstret er næsten altid det samme: teamet kører motoren, ser hvor den underpræsterer, og justerer derefter stille og roligt rubrikken, så de områder, der underpræsterer, tæller mindre. Ved at forpligte rubrikken til kildekode før det første motor-kald og offentliggøre testharnessen under MIT-licens, bliver denne justering synlig i versionskontrol. Enhver kan klone repository’et, tjekke rubrikforfatter-datoerne og verificere, at motorens resultater ikke blev brugt til at forme scoringen.

Hyperdiagnose-fælde-cases — hvorfor overkald er den reelle fejltillstand

Aggressiv over-udpegning af patologi på normale skærmbilleder er en dokumenteret fejlsituation for forbrugerrettede medicinske assistenter. Dens afledte omkostninger omfatter unødvendig udredning, patienturo og iatrogen udredning. De to fælde-cases i denne benchmark er designet til at gøre denne fejlsituation synlig og mulig at score.

Sammenligning side om side af en naiv AI, der fremstiller hepatitis på et Gilberts syndrom-panel, versus Kantesti-motoren, der korrekt identificerer den godartede UGT1A1-polymorfi — metodologi, der skalerede til nul falsk-positive på tværs af 87.412 fælde-flag-muligheder i V11 Second Update 99.80% benchmark
Figur 4: Trap-case-designet fra V11’s første udgivelse — en motor, der selvsikkert mærker Gilberts syndrom som hepatitis, eller som fremstiller borderline-patologi på en fuldt normal skærm, bliver straffet i stedet for belønnet for at lyde klinisk. Denne metodik blev skaleret til 0 / 87,412 false-positives i V11 Second Update 100.000-case-kørslen, der producerede den 99.80% kompositscore.

🟡 Fælde 1 — BT-014-GILBERT

Præsentation. En 24-årig mand med total bilirubin på 2,4 mg/dL. Den direkte fraktion er normal, transaminaser og alkalisk fosfatase ligger inden for deres referenceintervaller, retikulocytter er uanseelige, og haptoglobin og LDH udelukker hæmolyse.

Korrekt fortolkning. Gilberts syndrom — en benign UGT1A1-polymorfi. Fortolkningen bør ikke inddrage hepatitis, cirrose, hæmolytisk anæmi eller galdevejsobstruktion.

V11-resultat. Sammensat 1.000. Ingen af de seks overvågede overdiagnose-flags fremstod som aktive diagnoser.

🟡 Fælde 2 — BT-015-SUND

Præsentation. En 35-årig kvinde med et femten-parametres rutinemæssigt screeningspanel. Hver analytt ligger komfortabelt inden for sit referenceinterval.

Korrekt fortolkning. Beroligelse og vedligeholdelse af livsstil. Fortolkningen bør ikke fremstille grænsetilfælde af patologi for at lyde klinisk nyttig.

V11-resultat. Komposit 1.000. Ingen af de syv overvågede flag for overdiagnosticering — diabetes, anæmi, hypothyreoidisme, dyslipidæmi, hepatitis, nyresygdom, mangel — fremstod som aktive diagnoser.

På tværs af begge fælder blev tretten overvågede flag for hyperdiagnosticering kontrolleret. Ingen blev udløst. Dette er det resultat, der betyder mest for enhver kliniker, der overvejer at bruge en AI-motor som et triage- eller præ-konsultationsværktøj: systemet opfandt ikke en sygdom, hvor der ingen fandtes.

Mentzer-indeks: adskillelse af jernmangel fra thalassæmi-træk

Et andet fund med høj værdi vedrører koblingen af case BT-001 (jernmangelanæmi) med case BT-007 (beta-thalassæmi minor). Begge præsenterer med mikrocytose og er en velkendt snublesten for naive klassifikatorer. Mentzer-indekset, beregnet som MCV divideret med RBC-tal, er over 13 ved jernmangel og falder under 13 ved thalassæmi-træk.

I BT-001 var patienten en 34-årig kvinde med hæmoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritin 6 ng/mL og forhøjet TIBC. Mentzer-indekset på cirka 17,7 understøtter absolut jernmangel. I BT-007 var patienten en 28-årig mand med mikrocytose (MCV 65,8 fL), men et højt RBC-tal på 6,2, normal RDW, normalt ferritin og HbA2 på 5,6 procent. Mentzer-indekset på cirka 10,6 peger på thalassæmi-træk, og det forhøjede HbA2 bekræfter beta-thalassæmi minor.

Jernmangelanæmi Mentzer > 13 Lavt ferritin, lav TSAT, høj TIBC, forhøjet RDW
Thalassæmi-træk Mentzer < 13 Normalt ferritin, normal RDW, forhøjet HbA2 (>3.5%), højt RBC-tal

Begge cases scorede 1.000. Motoren anvendte Mentzer-indekset eksplicit i begge fortolkninger og returnerede den korrekte diagnose i hvert tilfælde. Dette er det enkeltstående mest klinisk beroligende resultat i hele benchmarken, fordi fejlkategorisering af thalassæmi-træk som jernmangel fører til uhensigtsmæssig jerntilskud og mistede muligheder for familiescreening, og fejlkategorisering af jernmangel som thalassæmi forsinker en ligetil erstatningsbehandling. Vores ferritin-intervalguide forklarer den bredere differentielle kontekst.

Resultater pr. case fra V11’s indledende referencekørsel (23. april 2026)

Den oprindelige V11-referencekørsel på 15-case proof-of-concept-kohorten fungerer som det metodiske grundlag for Second Update: hver detalje pr. case nedenfor viser, hvordan rubric’en håndterer et reelt motorrespons. Tolv af femten cases opnåede loftet for komposit-scoren på 1.000 på den primære sti; tre cases blev betjent via Phase 2-fallbacken, hvor 0.05 latency-bonussen gik tabt, mens alt klinisk og strukturelt indhold blev bevaret. Én case manglede en enkelt obligatorisk undersektion; én returnerede en marginalt reduceret sandsynlighedsfordelingssum.

Case ID Speciale Samlet Latency Path
BT-001-IDAHæmatologi1.00017,8 sprimary
BT-006-B12Hæmatologi1.00018,4 sprimary
BT-007-THALHæmatologi1.00017,0 sprimary
BT-002-HASHEndokrinologi0.95037,0 sfallback
BT-008-PCOSEndokrinologi0.98718,6 sprimary
BT-003-T2DMMetabolisk1.00019,1 sprimary
BT-013-GOUTMetabolisk1.00019,4 sprimary
BT-004-NAFLDHepatologi1.00019,6 sprimary
BT-009-VIRHEPHepatologi0.95023,4 sfallback
BT-014-GILBERTTrap1.00018,9 sprimary
BT-005-CKDNefrologi1.00017,4 sprimary
BT-010-ASCVDKardiologi1.00019,7 sprimary
BT-011-SLEReumatologi0.98118,2 sprimary
BT-012-VITDEndokrinologi1.00019,3 sprimary
BT-015-SUNDTrap1.00018,7 sfallback

PCOS-tilfældet (BT-008) mistede en enkelt obligatorisk undersektion i responstrukturen — femten ud af seksten i stedet for seksten ud af seksten — hvilket reducerede den strukturelle score fra 1,000 til 0,963. SLE-tilfældet (BT-011) returnerede en marginalt reduceret sandsynlighedsfordelingssum, som sænkede den kliniske score til 0,965, samtidig med at alle diagnostiske nøgleord og scoringsystemer blev bevaret. Ingen af de to ikke-optimale tilfælde overså en korrekt diagnose.

V11 Second Update aggregeret — 100.000 cases

I populationsskala er individuelle sager ikke menneskeligt læsbare, så den anden opdatering rapporterer aggregerede mål i stedet for en tabel med 100.000 rækker. Hovedtallet for den samlede aggregering er vist nedenfor; opdelinger pr. speciale og pr. landemærkat er offentliggjort i den tekniske rapport og i Figshare-indleveringen. En stratificeret tilfældig stikprøve af n = 201 rå motorrespons (deterministisk seed 20260426) offentliggøres i GitHub results/ mappen til inspektion.

Kompositscore V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 på tværs af 100.000-case kohorten
Strukturscore (gennemsnit) V11 initial: 0.998 → Second Update: 1.000 Perfekt strukturel konformitet i populationsskala
Klinisk score (gennemsnit) V11 initial: 0.998 → Second Update: 0.996 −0.002; ingen case overså selve diagnosen
Latens — gennemsnit (interval) V11 initial: 20,17 s (17,0–37,0 s) → Anden opdatering: 13,26 s (9,0–16,94 s) Produktionsmotor-optimeringer mellem kørselerne
Motorsti = primær V11 initial: 12 / 15 → Anden opdatering: 100,000 / 100,000 Der var ikke behov for nogen Phase 2-fallback på noget tidspunkt under kørselen
Flag for hyperdiagnose af trap-delmængde V11 initial: 0 / 13 → Anden opdatering: 0 / 87,412 Ingen falske positiver i populationsskala (8.723 trap-tilfælde overvåget)

Hvad topscoren ikke fortæller os

En kompositscore på 99.80 procent under denne særlige forudregistrerede rubrik, på en 100.000-case syntetisk kohorte, der spænder over 127 landemærkater, repræsenterer næsten-loftpræstation — men den fortjener omhyggelig indramning. Resultatet beskriver motorens adfærd i forhold til den rubrik, vi forpligtede os til i kildekoden i V11; det er ikke et universelt udsagn om motorens korrekthed på enhver blodprøvepanel, der findes i virkeligheden.

Scoren siger, at motoren håndterede de diagnostiske mønstre, der blev udvalgt til denne evaluering, korrekt på tværs af en kohorte i populationsskala, på en metode, der er offentliggjort og kan reproduceres. Den siger ikke, at motoren er korrekt på enhver blodprøvepanel, der findes i det virkelige liv. Den siger ikke, at motoren bør erstatte klinisk vurdering. Og den siger ikke, at motoren overgår alternative AI-systemer — sammenlignende analyser mod andre motorer var bevidst uden for rammerne af denne rapport.

Det, scoren derimod fastslår, er en baseline. Når rubric og harness er offentlige, kan fremtidige versioner af motoren evalueres mod den samme rubric — anvendt på V11 initial 15 tilfælde, Anden opdatering 100.000-tilfælde kohorten eller enhver efterfølgende udvidelse — og afstanden mellem den offentliggjorte score og enhver efterfølgende kørsel kan i sig selv måles. Det er værdien af forudregistrering: den omdanner præstationspåstande til testbare påstande.

Sådan genskaber du dette benchmark på 10 minutter

Reproduktion kræver kun et Kantesti API-legitimationspar og et Python 3.10 eller nyere miljø med requests og reportlab biblioteker installeret. Den fulde harness er et enkelt selvstændigt Python-modul udgivet under MIT-licensen.

Reproducerbarheds-netværksdiagram, der viser V11 Second Update-benchmarket (99,80% komposit, 100.000 cases, 127 land-labels) spejlet på tværs af Figshare, ResearchGate, Academia.edu og GitHub med Figshare DOI som kanonisk anker
Figur 5: V11 Anden opdaterings benchmark — 99.80% kompositscore på 100.000 sager på tværs af 127 landemærkater — er spejlet på fire forskningsplatforme. Figshare DOI er den kanoniske videnskabelige identifikator; ResearchGate (publication 404175463), Academia.edu (paper 165956808) og GitHub hoster parallelle kopier med benchmark-harnessen, den stratificerede tilfældigt udtagne stikprøve af rå svar og de pr. land-label/pr. speciale scorecards.

Fire trin til en frisk kørsel

Én. Klon repositoryt: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. To. Installer afhængigheder med pip install -r requirements.txt (Anden opdatering tilføjer mysql-connector-python ≥ 8.0 til SQL-case loaderen). Tre. Angiv KANTESTI_USERNAME og KANTESTI_PASSWORD som miljøvariabler for motorens API. For Anden opdaterings SQL case loader skal du også angive KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, og KANTESTI_DB_PASSWORD — loaderen forbinder via en skrivebeskyttet rolle (bench_reader) der ikke har rettigheder til at identificere tabeller. Fire. Kør python benchmark_bloodtest.py --limit 100000 for hele Second-Update-kørslen, eller python benchmark_bloodtest.py --limit 1000 for hurtig iteration. Resultaterne lander i ./benchmark_results/: et CSV-scorecard med kolonner for pr. land-label og pr. speciale, en JSON-aggregat, en stratificeret-tilfældigt rå-svar-stikprøve og en Markdown-rapport.

Referencekørslerne fra 23. april 2026 (V11 initial, 15 cases) og 26. april 2026 (V11 Second Update, 100,000 cases) er bevaret i results/ repositoryts mappe. En ny kørsel vil producere et nyt tidsstempel-scorecard, mens referencekørslerne efterlades uberørte. Hvis din kørsel giver et meningsfuldt anderledes resultat, bedes du åbne et GitHub-issue med køretidspunktet og motorversionen, der returneres i svarets metadata.

Begrænsninger og fremtidigt arbejde

Selv ved 100.000 cases på tværs af 127 land-labels fortjener fire begrænsninger en eksplicit anerkendelse: underdækning af long-tail labels, single-shot evaluering, single-engine omfang og single-source datakildeoprindelse. Hver af dem adresseres i aktivt opfølgende arbejde.

Dækning af long-tail labels. Anden opdatering spænder over 127 land-labels, men fordelingen er ubalanceret — de top 10 labels står for ≈66,4% af cases, og long tail på 97 yderligere labels bidrager tilsammen med ≈7,3% (omtrent 7.300 cases i alt, ~75 cases pr. label i gennemsnit). Derfor er per-label-kompositter i denne long tail mere støjfyldte end overskrifts-tallene antyder. Fremtidige kørsler vil rebalancere label-tilordningen for at styrke per-label-estimater.

Single-shot-evaluering. Hver case i kohorten blev evalueret én gang. Store sprogmodeller udviser en ikke-triviel variationsgrad i output, selv ved lav sampling-temperatur, så et multi-run-protokol med fem evalueringer pr. case og rapporteret varians er et naturligt næste skridt — især på trap-case-undergruppen, hvor konsistens under sampling-jitter er en del af sikkerhedspåstanden.

Single-engine-omfang. Denne rapport beskriver én motor. Sammenlignende analyser mod alternative AI-systemer er uden for denne afgrænsning; vi kan vælge at forfølge dem som en separat uafhængig undersøgelse med passende metodologi, mod det samme MIT-licenserede framework.

Syntetiske data. De 100.000 cases er syntetisk genererede, ikke syntetiske cases, og resultaterne overføres ikke til klinisk performance i den virkelige verden. Evaluering på reel, samtykket, eksternt indhentet data ville kræve passende etisk tilsyn og ligger uden for rammerne for dette syntetiske benchmark.

Ud over disse fire er den mest betydningsfulde planlagte udvidelse flersproglig paritet pr. jurisdiktion. Kantesti AI Engine betjener brugere på 75+ sprog, og kørsel af sprogstratificerede Second-Update-underkohorter (tyrkisk, tysk, spansk, fransk, italiensk, portugisisk, arabisk, mandarin) vil kvantificere outputkvalitet på tværs af de sprog, motoren understøtter. Hver sprogstratificeret analyse vil blive offentliggjort med sin egen DOI og harness-gren.