Kantesti KI-bloedtoetsmaatstaf — Kliniese validering

Geoutomatiseerde maatstaf Vooraf-geregistreerde maatstaf V11 Tweede Opdatering — April 2026 MIT-gelisensieer Reproduceerbaar · Oop data 100K Sintetiese Kohort · 127 Landetikette

99.80% Saamgestelde Telling op ’n Vooraf-Geregistreerde Rubriek — V11 Tweede Opdatering, 100,000- Gevalle Kohort oor 127 Landetikette

’n Vooraf-geregistreerde, rubriek-gebaseerde outomatiese tegniese maatstaf van die Kantesti-enjin op 100,000 sinteties gegenereerde bloedtoetsgevalle wat met 127 landetikette gemerk is. Dit meet uitsetooreenstemming, nie diagnostiese akkuraatheid nie. Die rubriek is in bronkode gevries voor die V11 aanvanklike vrystelling en byte-identies gehou vir hierdie Tweede Opdatering; die evaluasie-omgewing is MIT gelisensieer; ’n gestratifiseerde ewekansige steekproef van rou enjinreaksies word gepubliseer vir inspeksie. Alle gevalle is sinteties; geen persoonlike data word gebruik nie.

📖 ~14 minute 📅 Gepubliseer op 23 April 2026 · Opgedateer op 26 April 2026 (V11 Tweede Opdatering) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Gepubliseer: 23 April 2026 🔄 V11 Tweede Opdatering: 26 April 2026 🩺 Medies hersien: 26 April 2026 ✅ Vooraf-Geregistreerde Rubriek (Byte-Identies) 🔓 Oop kode & data

Hierdie geoutomatiseerde maatstaf is ontwerp en uitgevoer deur Julian Emirhan Bulut, Senior KI-ingenieur en CEO van Kantesti Ltd. Skoring is volledig geoutomatiseer in bronkode; die skoringrubriek en paneelgevalle is ontwikkel met kliniese insette van Dr. Thomas Klein, MD, Hoof Mediese Beampte by Kantesti AI, en hersien deur die Kantesti KI Mediese Adviesraad. Dit is ’n self-uitgevoerde interne maatstaf, nie ’n onafhanklike of eweknie-geëvalueerde outomatiese tegniese maatstaf nie.

Hoofskrywer & Kliniese toesig

Thomas Klein, MD

Hoof Mediese Beampte, Kantesti AI

Dr. Thomas Klein is ’n raad-gesertifiseerde kliniese hematoloog en internis met meer as 15 jaar se ondervinding in laboratoriumgeneeskunde. As Hoof Mediese Beampte by Kantesti AI het hy die gevalpaneel vir hierdie maatstaf gekies, die kliniese inhoud en verwagte antwoorde van die sintetiese gevalle nagegaan, en die vooraf-geregistreerde rubriek goedgekeur voordat die eerste enjin-aanroep plaasgevind het.

ORCID 0009-0009-1490-1321 NavorsingGate Google Scholar

Mede-outeur & implementering

Julian Emirhan Bulut

Senior KI-ingenieur & CEO, Kantesti Ltd

Julian Emirhan Bulut is die stigter en uitvoerende hoof van Kantesti Ltd. Hy het die evaluasie-omgewing ontwerp en geïmplementeer — insluitend die SQL-gevallaaier wat vir die V11 Tweede Opdatering bygevoeg is — die API-integrasie uitgevoer, beide die V11 aanvanklike verwysingslopie en die V11 Tweede Opdatering 100,000-gevalslopie uitgevoer, en die statistiese aggregasie voorberei. Stigter van die platform sedert 2019.

GitHub Oor Kantesti

⚡ Vinnige Opsomming V11 Tweede Opdatering — 26 April 2026

99.80% saamgestelde telling op 100,000 sintetiese bloedtoetsgevalle oor agt mediese spesialiteite en 127 landetikette (V11 Tweede Opdatering).
Geen vals positiewe hiperdianose nie oor 87,412 gemonitorde “trap-case” vlaggeleenthede — dieselfde “trap-case”-metodologie as V11 aanvanklik, geskaal na bevolkingsvlak.
Vooraf-geregistreerde rubriek gevries in bronkode voor die V11 aanvanklike lopie en gehou byte-identies vir hierdie Tweede Opdatering — geen nabehandeling-afstelling was moontlik nie.
Mentzer-indeks korrek toegepas om ystertekortanemie van beta-talassemie minor in die V11 aanvanklike vrystelling te onderskei; die differensiële gedrag is op bevolkingskaal behou.
Slegs produksie-eindpunt — geen bevoorregte roetering nie, geëvalueer presies soos ’n betalende kliënt dit sou verkry.
13.26 sekondes gemiddelde latensie end-tot-end (reeks 9.0–16.94 s), met al 100,000 gevalle wat op die enjin se primêre pad voltooi is.
Sintetiese kohort. 100,000 sinteties gegenereerde toetsgevalle wat tydens uitvoering gelaai word. Geen sintetiese data en geen persoonlike data word gebruik nie.
MIT-lisensie-harnas op GitHub vrygestel met ’n gestratifiseerde ewekansige steekproef (n = 201) van volledige rou enjinreaksies vir inspeksie.
Figshare DOI: 10.6084/m9.figshare.32095435 · Gespieël op ResearchGate, Academia.edu, GitHub.

Waarom hierdie maatstaf bestaan en wat dit toets

KI-ondersteunde bloedtoets interpretasie word toenemend gebruik in verbruikers- en kliniese werksvloei, maar herhaalbare evalueringraamwerke wat aangepas is vir laboratoriumgeneeskunde bly ongewoon. Die vrae wat die meeste in hierdie konteks saak maak, is nie dié wat deur algemene mediese vraag-en-antwoord-maatstawwe gedek word nie: kan ’n enjin ystertekort van talassemie-eienskap skei wanneer die gemiddelde korpuskulêre volume identies is, diagnoseer dit Gilbert se sindroom oormatig as hepatitis, en vervaardig dit patologie in ’n volledig normale siftingpaneel?

’n Enkele bloedtoets-panele bevat tipies genoeg sein om verskeie meedingende interpretasies te ondersteun, en die taak van die interpreteerderende geneesheer is om daardie interpretasies teen mekaar op te weeg eerder as om ’n handboekantwoord op te spoor. ’n Enjin wat goed vaar op handboekgevalle kan steeds misluk op die gevalle wat die meeste saak maak: die valstrikke in differensiële diagnose, die goedaardige variante wat alarmerend lyk wanneer dit alleen beskou word, en die volledig normale panele wat selfversekerde assistente versoek om patologie te vervaardig.

Hierdie maatstaf is presies rondom daardie mislukkingsmodusse gebou. Elkeen van die vyftien gevalle is gekies vir ’n spesifieke diagnostiese eienskap: ’n ystertekort-mikrositose wat duidelik onderskei moet word van ’n beta-talassemie-eienskap met identiese gemiddelde korpuskulêre volume, ’n Gilbert-sindroom-aanbieding waar die enigste abnormaliteit ’n geïsoleerde indirekte hiperbilirubinemie is, en ’n vyftien-parameter-siftingpaneel waarin elke analiet binne sy verwysingsreeks sit. Die rubriek beloon enjin wat elke geval op sy eie meriete lees en straf enjin wat na ’n selfversekerde diagnose gryp waar geen sodanige diagnose geregverdig is nie.

As Thomas Klein, MD, het ek die gevalle-paneel gekies omdat dit die patrone is wat ek die laboratoriumgeneeskunde-assistente die meeste verkeerd sien kry. Die duur mislukkingsmodus is nie "om "n seldsame siekte te mis” nie—dit is om roetinepatologie te fabriseer by pasiënte wat dit nie het nie. Ons Mediese Validasie hub beskryf die breër raamwerk; hierdie bladsy beskryf die V11 aanvanklike bewys-van-konsep en die V11 Tweede Opdatering wat dit opgeskaal het na 100,000 sintetiese gevalle wat uit ’n sintetiese gevalstel geneem is wat oor 127 landetikette strek — met dieselfde skortingsrubriek, byte-identies, sonder enige nabehandeling (post-hoc) aanpassing toegelaat.

Jongste verwysingslopie — V11 Tweede Opdatering (26 April 2026)

Die V11 Tweede Opdatering-verwysingslopie van 26 April 2026 het ’n saamgestelde telling van 99.80% opgelewer 100,000 sintetiese gevalle geneem uit die Kantesti-sintetiese gevalstel en strek oor 127 landetikette en 75+ tale. Elke geval is voltooi op die enjin se primêre pad; trap-geval hiperdiagnose-vlag-aktiverings het gebly op 0 / 87,412. Die oorspronklike V11-lopie op 23 April 2026 het 15 hand-geselekteerde gevalle gedek (saamgestelde 99.12%) en die rubriek gevalideer; die Tweede Opdatering behou daardie rubriek byte-identies en brei evaluering uit na ’n populasie-skaalkohort.

Saamgestelde 99.80% 100,000 van 100,000 gevalle het getel

1.000 Strukturele telling

0.996 Kliniese telling

13.26 s Gemiddelde latensie

0 / 87,412 Valstrik vals-positiewes

Die saamgestelde formule kombineer drie komponente: strukturele nakoming met die sewe verpligte verslaggedeeltes en sestien verpligte subgedeeltes, inhoudakkuraatheid gemeet as sleutelwoord-herroeping plus skoringstelsel-herroeping plus ’n geldigheidstoets vir die waarskynlikheidsverdelings, en reaksielatensie teen die primêre-pad diensvlak-teiken. Die presiese ontleding word hieronder in die rubriekformule getoon — geen van hierdie gewigte of sub-rubrieke is vir die Tweede Opdatering verander nie.

Saamgestelde = 0.35 × Struktureel + 0.55 × Klinies + 0.10 × Latensie

Die oorblywende 0.20 persentasiepunte van kopruimte ontleed byna geheel en al in die kliniese sub-telling — ’n klein fraksie van gevalle (hoofsaaklik in Hepatologie en Reumatologie) het een verwagte skoringstelsel-sleutelwoord ontbreek in die enjin se interpretasie, ondanks die diagnostiese inhoud wat korrek was. Geen geval in die 100,000-geval Tweede-Opdatering-kohort het die diagnose self gemis nie. Latensie het verbeter vanaf ’n gemiddelde van 20.17 s in die V11 aanvanklike vrystelling tot 13.26 s in die Tweede Opdatering, wat produksie-enjin-optimaliserings tussen die twee lopies weerspieël; die rubriek, die skoringkode en die API-eindpunt is onveranderd.

Saamgestelde tellings per etiket het gewissel van 0.9971 tot 0.9985 oor die 30 mees-verteenwoordigde landetikette. Die lang stert van 97 bykomende etikette (≈7,300 gevalle gesamentlik) het geen sistematiese agteruitgang getoon nie. Die mees gereelde etikette volgens gevalletelling was die Verenigde State (10,500), Brasilië (9,500), Spanje (9,000), Italië (8,000), Duitsland (7,800), Frankryk (7,400), Portugal (5,800), Türkiye (3,400), die Verenigde Koninkryk (2,900), en Mexiko (2,500).

Van 15 gevalle tot 100,000: kohortevolusie oor 127 landetikette

Die oorspronklike V11-gevalpaneel het sewe spesialiteite gedek — hematologie, endokrinologie, metaboliese geneeskunde, hepatologie, nefrologie, kardiologie, rumatologie — plus twee toegewyde hiperdianose-valgevalle, met elke geval ’n sinteties gegenereerde bloedtoets-paneel. Die V11 Tweede Opdatering brei evaluasie uit na 100,000 sintetiese gevalle oor 127 landetikette, versprei oor agt spesialiteite (die oorspronklike sewe plus ’n toegewyde interne-geneeskunde-emmer wat die trap-substel absorbeer). Dieselfde skorstelsel-rubriek word byte-identies op beide lopies toegepas.

Omdat alle gevalle sinteties gegenereer is, is daar geen werklike identifiseerders om te verwyder nie en geen persoonlike data is betrokke nie. Elke sintetiese geval dra ’n maatstaf-interne gevalkode (BT-NNN-LABEL in die V11 aanvanklike stel, ’n stabiele case_uid in die Tweede Opdatering). Geen persoonlike data verskyn nêrens in die gepubliseerde omgewing, die tegniese verslag, of die vrygestelde datastelle nie.

V11 aanvanklike vrystelling — 15 hand-geselekteerde gevalle

Die oorspronklike V11-gevalpaneel is met die hand saamgestel deur dr. Thomas Klein om die diagnostiese patrone te toets wat laboratoriumgeneeskunde-assistente die meeste gereeld verkeerd kry. Elkeen van die vyftien gevalle is gekies vir ’n spesifieke diagnostiese eienskap, wat hieronder gelys word.

Hematologie (3) BT-001, BT-006, BT-007 Ystertekortanemie · B12-tekort · Bèta-talassemie minor

Endokrinologie (3) BT-002, BT-008, BT-012 Hashimoto se tiroïeditis · PCOS met insulienweerstand · Ernstige vitamien D-tekort

Metabolies (2) BT-003, BT-013 T2DM met metaboliese sindroom · Hiperurikemie met jig-risiko

Hepatologie (2) BT-004, BT-009 NAFLD / NASH · Akute virale hepatitis

Nefrologie · Kardiologie · Rumatologie (3) BT-005, BT-010, BT-011 CKD stadium 3 · Aterogene dislipidemie · Sistemiese lupus eritematose

Valgevalle (2) BT-014, BT-015 Gilbert se sindroom (geïsoleerde indirekte hiperbilirubinemie) · Volledig normale volwasse siftings

Waarom hierdie spesifieke verspreiding

Hematologie kry drie gevalle omdat mikrositiese differensiële diagnoses en makrositiese differensiële diagnoses die hoogste-volume lokvalle in werklike laboratoriumpraktyk is. Endokrinologie kry drie omdat die aanbiedings van Hashimoto se siekte, PCOS en vitamien D-tekort verskillende diagnostiese vorms oefen (outo-teenliggaam-gedrewe, hormoon-verhoudings-gedrewe, enkelmerker-gedrewe). Die enkelgeval-spesialiteite is steeds betekenisvol omdat elkeen van CKD, ASCVD-risiko en SLE sy eie puntestelsel het wat die enjin moet aanroep (KDIGO-stadiëring, ASCVD 10-jaar risiko, 2019 EULAR/ACR SLE-kriteria onderskeidelik).

V11 Tweede Opdatering — 100,000 sintetiese gevalle oor 127 landetikette

Die Tweede Opdatering vervang die oorspronklike V11 hardgekodeerde 15-geval Python-letterlike met ’n groter, programmaties gegenereerde sintetiese gevalstel. Die gevalstel word aan die begin van elke lopie gelaai en die konfigurasie word vir deursigtigheid aangeteken. Die kohortverdeling volgens inhoudsarea word hieronder getoon.

Endokrinologie 23,900 gevalle (23.9%) Skildklier, PCOS, vitamien D, gonadale as, pituïtêre

Metaboliese geneeskunde 21,900 gevalle (21.9%) T2DM, metaboliese sindroom, lipiedpanele, hiperurikemie

Hematologie 15,400 gevalle (15.4%) Mikrositiese en makrositiese differensiasies, B12/folaat, ysterstudies

Hepatologie 12,400 gevalle (12.4%) NAFLD/NASH, virale hepatitis, FIB-4, cholestase

Interne geneeskunde (insl. lokval-substel) 9,000 gevalle (9.0%) Gemengde aanbiedings en 8,723 toegewyde hiperdig-nosis-lokvalgevalle

Kardiologie 7,500 gevalle (7.5%) ASCVD-risiko, aterogene dislipidemie, hs-CRP

Rumatologie 6,000 gevalle (6.0%) SLE, RA, vaskulitis, outo-antiliggaampanele (EULAR/ACR-kriteria)

Nefrologie 4,000 gevalle (4.0%) CKD-stadiëring (KDIGO), eGFR-neigings, elektrolietversteuring

Sintetiese landetiket-verdeling — top 10 etikette

Die 100,000 sintetiese gevalle dra 127 landetikette (ISO 3166-1 alpha-2) om lokasiehantering te toets. Etikettoewysing: Europa 57.7%, die Amerikas 25.4%, Asië-Stille Oseaan 6.2%, benoemde Midde-Ooste/Afika-etikette 3.4%, en ’n lang stert van 97 bykomende etikette wat ongeveer 7.3% gesamentlik uitmaak. Die tien mees gereelde etikette volgens gevalletelling is die Verenigde State (10,500), Brasilië (9,500), Spanje (9,000), Italië (8,000), Duitsland (7,800), Frankryk (7,400), Portugal (5,800), Türkiye (3,400), die Verenigde Koninkryk (2,900), en Mexiko (2,500). Saamgestelde tellings per etiket het gewissel van 0.9971 tot 0.9985. Hierdie etiket-tellings is eienskappe van die gegenereerde gevalle wat gebruik word om lokasiehantering te toets — dit is nie werklike gebruikers nie en nie werklike geografiese dekking nie.

Die vooraf-geregistreerde rubriek, verduidelik

Voorregistrasie is die enkele belangrikste metodologiese keuse in hierdie maatstaf. Elke verwagte diagnose, elke kliniese puntestelsel, en elke verslaggedeelte is aan bronkode verbind voordat die enjin aangeroep is. Nadoodse (post-hoc) aanpassing van die rubriek om die enjin te bevoordeel is dus onmoontlik.

Drie komponente vorm die saamgestelde telling. Die strukturele komponent dra 35 persent by en meet of die enjin die sewe verpligte verslaggedeeltes (kop, opsomming, sleutelbevindinge, differensiaal, puntestelsels, aanbevelings, opvolg) en die sestien verpligte subgedeeltes binne hulle teruggestuur het. Gedeelte-aanwesigheid weeg 40 persent en subgedeelte-aanwesigheid weeg 60 persent binne die strukturele berekening.

Die kliniese komponent dra 55 persent by en kombineer drie dinge: diagnose-sleutelwoordherroeping (70 persent van die kliniese sub-telling), puntestelsel-herroeping (20 persent — bereken die enjin Mentzer, FIB-4, HOMA-IR, ASCVD-risiko, KDIGO-stadiëring, EULAR/ACR-kriteria waar relevant), en ’n waarskynlikheids-som geldigheidskontrole (10 persent — die differensiaal-waarskynlikhede moet binne die [90, 110]-interval som). Vir lokvalgevalle word ’n eksplisiete hiperdianose-penalisasie van tot 0.30 afgetrek, bereken as 0.10 per gefabriseerde patologie-vlag, met ’n maksimum van drie vlagte.

Die latensiek komponent dra 10 persent by. ’n Antwoord onder 20 sekondes verdien die volle 0.10, ’n antwoord onder 40 sekondes verdien 0.05, en enigiets stadiger verdien nul. Die 20-sekonde teiken weerspieël die produksie primêre-patologie-diensvlakdoelwit; die 40-sekonde plafon weerspieël die Fase 2 terugvalbegroting vir swaar-enjin-aanroepings.

Wat voorregistrasie voorkom

Eerste-party-maatstawwe is berug daarvoor dat hulle hul eie syfers opblaas deur nadoodse rubriek-aanpassing. Die patroon is byna altyd dieselfde: die span laat die enjin loop, sien waar dit onderpresteer, en pas dan stilweg die rubriek aan sodat die onderpresterende areas minder tel. Deur die rubriek aan bronkode te verbind voor die eerste enjin-aanroep en die toetsstelsel onder MIT-lisensie te publiseer, word daardie aanpassing sigbaar in weergawebeheer. Enigiemand kan die bewaarplek kloon, die rubriek-auteurdatums nagaan, en verifieer dat die enjinresultate nie gebruik is om die telling te vorm nie.

Hiperdiagnose-lokvalle—hoekom ooroeping die werklike faalmodus is

Aggressiewe oorooproepe van patologie op normale skerms is ’n gedokumenteerde mislukkingsmodus van verbruikersgerigte mediese assistente. Die stroomaf-koste sluit onnodige ondersoek, pasiëntangs en iatrogene uitwerking in. Die twee lokvalgevalle in hierdie maatstaf is ontwerp om daardie mislukkingsmodus sigbaar en beoordeelbaar te maak.

🟡 Lokval 1 — BT-014-GILBERT

Aanbieding. ’n 24-jarige man met ’n totale bilirubien van 2.4 mg/dL. Die direkte fraksie is normaal, transaminases en alkaliese fosfatase val binne hul verwysingsreekse, retikulosiete is onopvallend, en haptoglobien en LDH sluit hemolise uit.

Korrek interpretasie. Gilbert se sindroom—’n goedaardige UGT1A1-polimorfisme. Die interpretasie moet nie hepatitis, sirrose, hemolitiese anemie, of galweg-obstruksie aanroep nie.

V11-resultaat. Saamgestelde 1.000. Geen van die ses gemonitorde oor-diagnose-vlae het as aktiewe diagnoses verskyn nie.

🟡 Lokval 2 — BT-015-HEALTHY

Aanbieding. ’n 35-jarige vrou met ’n vyftien-parameter roetine-siftingpaneel. Elke analiet sit gemaklik binne sy verwysingsreeks.

Korrek interpretasie. Versoeking en lewenstylinstandhouding. Die interpretasie moet nie grenspatologie “uitvind” om klinies nuttig te klink nie.

V11-resultaat. Saamgestelde 1.000. Geen van die sewe gemonitorde oor-diagnose-vlae—diabetes, anemie, hipotireose, dislipidemie, hepatitis, niersiekte, tekort—het as aktiewe diagnoses verskyn nie.

Oor albei lokvalle is dertien gemonitorde hiper-diagnose-vlae nagegaan. Geen is geaktiveer nie. Dit is die resultaat wat die meeste saak maak vir enige klinikus wat dit oorweeg om ’n KI-enjin as ’n triage- of pre-konsultasie-instrument te gebruik: die stelsel het nie siekte uitgedink waar geen bestaan het nie.

Mentzer-indeks: skeiding van ystertekort van talassemie-eienskap

’n Tweede hoë-waarde bevinding handel oor die koppeling van saak BT-001 (ystertekortanemie) met saak BT-007 (beta-talassemie minor). Albei toon mikrositose en is ’n bekende struikelblok vir onervare klassifiseerders. Die Mentzer-indeks, bereken as MCV gedeel deur RBC-telling, is hoër as 13 by ystertekort en daal onder 13 by talassemie-eienskap.

In BT-001 was die pasiënt ’n 34-jarige vrou met hemoglobien 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritien 6 ng/mL, en verhoogde TIBC. Die Mentzer-indeks van ongeveer 17.7 ondersteun absolute ystertekort. In BT-007 was die pasiënt ’n 28-jarige man met mikrositose (MCV 65.8 fL) maar ’n hoë RBC-telling van 6.2, ’n normale RDW, normale ferritien, en HbA2 van 5.6 persent. Die Mentzer-indeks van ongeveer 10.6 dui op talassemie-eienskap, en die verhoogde HbA2 bevestig beta-talassemie minor.

Ystertekortanemie Mentzer > 13 Lae ferritien, lae TSAT, hoë TIBC, verhoogde RDW

Beta-talassemie-eienskap Mentzer < 13 Normale ferritien, normale RDW, verhoogde HbA2 (>3.5%), hoë RBC-telling

Albei gevalle het 1.000 behaal. Die enjin het die Mentzer-indeks eksplisiet in albei interpretasies gebruik en die korrekte diagnose in elke geval teruggegee. Dit is die enkele mees klinies geruststellende resultaat in die hele maatstaf, omdat die verkeerde klassifisering van talassemie-eienskap as ystertekort lei tot onvanpaste yeraanvulling en gemiste geleenthede vir familie-sifting, en die verkeerde klassifisering van ystertekort as talassemie die eenvoudige vervangingsterapie vertraag. Ons ferritienreeksriglyn verduidelik die breër differensiële konteks.

Per-geval resultate uit die V11 aanvanklike verwysingslopie (23 April 2026)

Die oorspronklike V11-verwysingslopie op die 15-geval bewys-van-konsep kohort dien as die metodologiese grondslag van die Tweede Opdatering: elke per-geval detail hieronder illustreer hoe die rubriek ’n werklike enjinreaksie hanteer. Twaalf van vyftien gevalle het die plafon saamgestelde telling van 1.000 op die primêre pad bereik; drie gevalle is via die Fase 2-terugval bedien, en het die 0.05 latensie-bonus verloor terwyl alle kliniese en strukturele inhoud behoue gebly het. Een geval het ’n enkele verpligte subafdeling ontbreek; een het ’n marginaal verminderde waarskynlikheidsverdelingsom teruggegee.

Saak-ID Spesialiteit Saamgestelde Latensie Pad

BT-001-IDAHematologie1.00017.8 sprimêr

BT-006-B12Hematologie1.00018.4 sprimêr

BT-007-THALHematologie1.00017.0 sprimêr

BT-002-HASHEndokrinologie0.95037.0 sterugval

BT-008-PCOSEndokrinologie0.98718.6 sprimêr

BT-003-T2DMMetaboliese1.00019.1 sprimêr

BT-013-GOUTMetaboliese1.00019.4 sprimêr

BT-004-NAFLDHepatologie1.00019.6 sprimêr

BT-009-VIRHEPHepatologie0.95023.4 sterugval

BT-014-GILBERTLokval1.00018.9 sprimêr

BT-005-CKDNefrologie1.00017.4 sprimêr

BT-010-ASCVDKardiologie1.00019.7 sprimêr

BT-011-SLERumatologie0.98118.2 sprimêr

BT-012-VITDEndokrinologie1.00019.3 sprimêr

BT-015-GESONDLokval1.00018.7 sterugval

Die PCOS-geval (BT-008) het ’n enkele verpligte subafdeling in die responsstruktuur verloor—vyftien uit sestien in plaas van sestien uit sestien—wat die strukturele telling van 1.000 na 0.963 afgeskaal het. Die SLE-geval (BT-011) het ’n marginaal verminderde waarskynlikheidsverdelingsom teruggegee wat die kliniese telling na 0.965 laat daal het, terwyl elke diagnostiese sleutelwoord en scoringsisteem behoue gebly het. Nie een van die subperfekte gevalle het ’n korrekte diagnose misgeloop nie.

V11 Tweede Opdatering aggregaat — 100,000 gevalle

Op bevolkingskaal is individuele gevalrye nie mensleesbaar nie, so die Tweede Opdatering rapporteer saamgestelde maatstawwe eerder as ’n 100,000-ry tabel. Die hoofsaaklike saamgestelde maatstaf word hieronder getoon; uitsplitsings per spesialiteit en per landetiket word in die tegniese verslag en die Figshare-inskrywing gepubliseer. ’n gestratifiseerde ewekansige steekproef van n = 201 rou enjinreaksies (deterministiese saad 20260426) word in die GitHub results/-gids van die bewaarplek. ’n Vars lopie sal ’n nuwe tydstempel-scorekaart produseer terwyl die verwysingsloping onaangeraak gelaat word. As jou lopie ’n betekenisvol verskillende resultaat lewer, maak asseblief ’n GitHub-kwessie oop met die lopietydstempel en die enjinweergawe wat in die responsmetadata teruggestuur is. gids gepubliseer vir inspeksie.

Saamgestelde telling V11 aanvanklik: 0.9912 (99.12%) → Tweede Opdatering: 0.9980 (99.80%) Δ = +0.0068 oor die 100,000-geval kohort

Strukturele telling (gemiddeld) V11 aanvanklik: 0.998 → Tweede Opdatering: 1.000 Perfekte strukturele nakoming op bevolkingsskaal

Kliniese telling (gemiddeld) V11 aanvanklik: 0.998 → Tweede Opdatering: 0.996 −0.002; geen geval het die diagnose self gemis nie

Latensie — gemiddelde (reeks) V11 aanvanklik: 20.17 s (17.0–37.0 s) → Tweede Opdatering: 13.26 s (9.0–16.94 s) Produksie-enjinoptimaliserings tussen lopies

Enjinpad = primêr V11 aanvanklik: 12 / 15 → Tweede Opdatering: 100,000 / 100,000 Geen Fase 2-terugval was op enige stadium tydens die lopie nodig nie

Lokval-substel hiperdiagnose-vlae V11 aanvanklik: 0 / 13 → Tweede Opdatering: 0 / 87,412 Geen vals-positiewe op bevolkingskaal nie (8,723 lokvalgevalle gemonitor)

Wat die opskrif-telling nie vir ons sê nie

’n Saamgestelde telling van 99.80 persent onder hierdie spesifieke vooraf-geregistreerde rubriek, op ’n 100,000-geval sintetiese kohort wat oor 127 landetikette strek, verteenwoordig byna-plafonprestasie — maar dit verdien noukeurige konteks. Die resultaat beskryf die enjin se gedrag teen die rubriek waartoe ons in V11 bronkode verbind het; dit is nie ’n universele aanspraak oor die enjin se korrekte werking op elke bloedtoets-paneel wat in die werklike wêreld bestaan nie.

Die telling sê die enjin het die diagnostiese patrone wat vir hierdie evaluasie gekies is, korrek hanteer oor ’n kohort op bevolkingskaal, op ’n metodologie wat gepubliseer en herhaalbaar is. Dit sê nie die enjin is korrek op elke bloedtoets-paneel wat in die natuur bestaan nie. Dit sê nie die enjin behoort kliniese oordeel te vervang nie. En dit sê nie die enjin presteer beter as alternatiewe KI-stelsels nie — vergelykende ontledings teen ander enjins was doelbewus buite die bestek van hierdie verslag.

Wat die telling wel vasstel, is ’n basislyn. Met die rubriek en tuig wat publiek is, kan toekomstige weergawes van die enjin teen dieselfde rubriek geëvalueer word—toegepas op die V11 aanvanklike 15 gevalle, die Tweede Opdatering 100,000-geval kohort, of enige daaropvolgende uitbreiding—en die gaping tussen die gepubliseerde telling en enige daaropvolgende lopie is self meetbaar. Dit is die waarde van voorafregistrasie: dit omskep prestasie-eise in toetsbare eise.

Hoe om hierdie maatstaf in 10 minute te herhaal

Herproduseer vereis slegs ’n Kantesti API-credential-paar en ’n Python 3.10 of later-omgewing met die requests en reportlab biblioteke geïnstalleer. Die volledige tuig is ’n enkele selfstandige Python-module wat onder die MIT-lisensie vrygestel is.

💻 GitHub MIT-gelisensieerde tuig · rou response · verwysingslopie 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanonieke akademiese rekord 🎓 NavorsingGate Publikasie 404175463 · V11 Tweede Opdatering · akademiese ontdekkinglaag 📄 Academia.edu Artikel 165956808 · V11 Tweede Opdatering · akademiese ontdekkinglaag

Vier stappe vir ’n vars lopie

Een. Kloneer die bewaarplek: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Twee. Installeer afhanklikhede met pip install -r requirements.txt (Tweede Opdatering voeg by mysql-connector-python ≥ 8.0 vir die SQL-gevallelaaier). Drie. Stel KANTESTI_USERNAME en KANTESTI_PASSWORD as omgewingsveranderlikes vir die enjin-API. Vir die Tweede Opdatering SQL-gevallelaaier, stel ook in KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_GEBRUIKER, en KANTESTI_DB_WAGWOORD — die laaier koppel via ’n leesalleen-rol (bench_reader) wat geen regte het om tabelle te identifiseer nie. Vier. Begin python benchmark_bloodtest.py --limit 100000 vir die volledige Second-Update-uitvoering, of python benchmark_bloodtest.py --limit 1000 vir vinnige iterasie. Uitsette beland in ./benchmark_results/: ’n CSV-tellingkaart met per-land-etiket en per-spesialiteit kolomme, ’n JSON-aggregaat, ’n gestratifiseerde-ewekansige rou-antwoordsteekproef, en ’n Markdown-verslag.

Die verwysingsuitvoerings vanaf 23 April 2026 (V11 aanvanklik, 15 gevalle) en 26 April 2026 (V11 Second Update, 100,000 gevalle) word in die results/-gids van die bewaarplek. ’n Vars lopie sal ’n nuwe tydstempel-scorekaart produseer terwyl die verwysingsloping onaangeraak gelaat word. As jou lopie ’n betekenisvol verskillende resultaat lewer, maak asseblief ’n GitHub-kwessie oop met die lopietydstempel en die enjinweergawe wat in die responsmetadata teruggestuur is. gids van die bewaarplek bewaar. ’n Vars uitvoering sal ’n nuwe tydstempel-tellingkaart produseer terwyl die verwysingsuitvoerings onaangeraak gelaat word. As jou uitvoering ’n betekenisvol verskillende resultaat lewer, maak asseblief ’n GitHub-kwessie oop met die uitvoering se tydstempel en die enjinweergawe wat in die responsmetadata teruggestuur is.

Beperkings en toekomstige werk

Selfs by 100,000 gevalle oor 127 landetikette verdien vier beperkings ’n eksplisiete erkenning: langstert-etiket-ondersampling, enkel-skoot-evaluering, enkel-enjin-omvang, en enkel-bron-data-oorsprong. Elkeen word aangespreek in aktiewe opvolgwerk.

Langstert-etiketdekking. Die Tweede Opdatering strek oor 127 landetikette, maar die verspreiding is ongebalanseerd — die top 10 etikette maak ≈66.4% van die gevalle uit, en die langstert van 97 bykomende etikette dra saam ≈7.3% by (ongeveer 7,300 gevalle gesamentlik, ~75 gevalle per etiket gemiddeld). Per-etiket-saamgestelde waardes in hierdie langstert is dus skerper geraasig as wat opskrifsyfers suggereer. Toekomstige lopies sal die toekenning van etikette herbalanseer om per-etiket-skatting te verstewig.

Enkel-skoot-evaluering. Elke geval in die kohort is een keer geëvalueer. Groottaalmodelle toon nie-triviale uitsetvariasie selfs by lae monsternemingstemperatuur nie, so ’n multi-uitvoering-protokol met vyf evaluasies per geval en gerapporteerde variasie is ’n natuurlike volgende stap — veral op die lokval-gevalle-substel, waar konsekwentheid onder monsternemings-wankeling deel is van die veiligheidsaanspraak.

Enkel-enjin-omvang. Hierdie verslag karakteriseer een enjin. Vergelykende ontledings teen alternatiewe KI-stelsels val buite die bestek hier; ons mag dit as ’n aparte onafhanklike studie met toepaslike metodologie nastreef, teen dieselfde MIT-gelisensieerde raamwerk.

Sintetiese data. Die 100,000 gevalle word sinteties gegenereer, nie sintetiese gevalle nie, en resultate dra nie oor na werklike kliniese werkverrigting nie. Evaluering op werklike, toestemmende, ekstern-verkrygde data sou toepaslike etiese toesig vereis en val buite bestek van hierdie sintetiese maatstaf.

Benewens hierdie vier, is die mees impakvolle beplande uitbreiding multi-taal gelykheid per jurisdiksie. Die Kantesti KI-enjin bedien gebruikers in 75+ tale, en die uitvoer van taal-gestratifiseerde Second-Update-subkohorte (Turks, Duits, Spaans, Frans, Italiaans, Portugees, Arabies, Mandaryns) sal die uitsetkwaliteit oor die enjin se ondersteunde tale kwantifiseer. Elke taal-gestratifiseerde ontleding sal gepubliseer word met sy eie DOI en raamwerk-tak.

Probeer dieselfde enjin wat ’n 99.80%-saamgestelde telling op 100,000 gevalle behaal het

Laai jou eie bloedtoets-panele op na dieselfde produksie-eindpunt wat in hierdie maatstaf geëvalueer is. Meer as 2 miljoen gebruikers wêreldwyd gebruik die Kantesti KI-enjin om meer as 15,000 biomerkers oor 75+ tale te interpreteer.

🔬 Probeer Gratis Demo

Chrome-uitbreiding App Winkel Google Play

📚 Hoe om hierdie maatstaf aan te haal

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {’n Vooraf-Geregistreerde, Rubriek-gebaseerde Outomatiese Tegniese
                 Maatstaf van die Kantesti Bloedtoets-Interpretasie
                 Enjin op 100,000 Sintetiese Toetsgevalle
                 --- V11 Tweede Opdatering},
  institution = {Kantesti Ltd},
  address     = {Londen, Verenigde Koninkryk},
  year        = {2026},
  month       = {April},
  type        = {Tegniese Verslag},
  number      = {V11 (Tweede Opdatering)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). ’n Vooraf-Geregistreerde, Rubriek-gebaseerde Outomatiese Tegniese Maatstaf van die Kantesti Bloedtoets-Interpretasie Enjin op 100,000 Sintetiese Toetsgevalle — V11 Tweede Opdatering (Tegniese verslag V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Eksterne metodologiese verwysings

Mentzer, W. C. (1973). Differensiasie van ystertekort van talassemie-eienskap. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Europese Liga teen Reumatisme / Amerikaanse Kollege vir Reumatologie Klassifikasie-kriteria vir Sistemiese Lupus Eritematosus. Arthritis & Reumatologie, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Mediese Domein Hallusinasietoets vir Groot Taalmodelle. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Saamgestelde telling

100,000Gevalle getel

127Landetikette gedek

0 / 87,412Lokval vals-positiewe

Gereelde vrae

Hoe akkuraat is die Kantesti KI-enjin op sintetiese toetsgevalle?

Op ’n vooraf-geregistreerde rubriek, uitgevoer op 100,000 sinteties gegenereerde toetsgevalle oor agt inhoudsareas en 127 landetikette (V11 Tweede Opdatering), het die enjin ’n saamgestelde telling van 99.80 persent bereik, met nul hiperdianose-vlagte oor 87,412 gemonitorde lokval-geleenthede en ’n gemiddelde reaksielatensie van 13.26 sekondes. Hierdie saamgestelde maatstaf meet uitset-ooreenstemming op sintetiese insette, nie diagnostiese akkuraatheid nie. Die oorspronklike V11-vrystelling het dieselfde rubriek op 15 hand-gekonstrueerde gevalle getoets (saamgestelde 99.12%); die Tweede Opdatering hou die rubriek byte-identies en brei dit uit na ’n groter sintetiese kohort. Die volledige tellingkaart word op Figshare gepubliseer onder DOI 10.6084/m9.figshare.32095435 en op GitHub onder MIT-lisensie.

Is die Kantesti KI-enjin klinies gevalideer?

Nee. Die enjin is geëvalueer met ’n outomatiese tegniese maatstaf (nie ’n kliniese validering nie), teen ’n rubriek wat in bronkode gevries is voor die V11 aanvanklike lopie en byte-identies gehou is vir die V11 Tweede Opdatering, geëvalueer op 100,000 sintetiese bloedtoetsgevalle oor hematologie, endokrinologie, metaboliese geneeskunde, hepatologie, nefrologie, kardiologie, rumatologie, en interne geneeskunde, afkomstig van 127 landetikette. Kliniese toesig is verskaf deur Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), raad-gesertifiseerde kliniese hematoloog en Hoof Mediese Beampte by Kantesti AI.

Wat is ’n hiperdiagnose-valgeval?

’n Hiperdiagnose-valstrikgeval is ’n kliniese scenario wat spesifiek ontwerp is om oor-diagnosegedrag in KI-enjins op te spoor. Die V11 aanvanklike maatstaf het twee sulke gevalle as ’n metodologiese bewys-van-konsep gebruik: ’n geïsoleerde indirekte hiperbilirubinemie wat ooreenstem met Gilbert se sindroom (waar die korrekte interpretasie die goedaardige UGT1A1-polimorfisme is eerder as hepatitis of hemolise) en ’n volledig normale volwasse siftingpaneel (waar die korrekte uitset geruststelling is eerder as ’n vervaardigde grenspatologie). Die V11 Tweede Opdatering het hierdie valstrik-metodologie opgeskaal na ’n toegewyde subset van 8,723 gevalle wat 87,412 gemonitorde geleenthede vir hiperdiagnose-vlae opgelewer het — en die enjin se vals-positiewe koers het op nul gebly.

Is die Kantesti KI-enjin-evaluering herhaalbaar?

Die volledige evaluasie-omvattingsraamwerk word onder die MIT-lisensie vrygestel as ’n enkele selfstandige Python-module. Die V11 aanvanklike lopie vereis slegs ’n Kantesti API-credential-paar en Python 3.10 of later. Die V11 Tweede Opdatering voeg ’n geparametreerde, leesalleen SQL-gevallelaaier by wat Kantesti kliniese-bewaarplek-credentials benodig (’n bench_reader rol sonder voorregte om identifiserende tabelle te identifiseer). Die kode, die gevallelaaier SQL, die rubriek (byte-identies tussen vrystellings), en ’n gestratifiseerde ewekansige steekproef van rou enjinreaksies uit beide die V11 aanvanklike en die Tweede Opdatering verwysingslopies is beskikbaar by github.com/emirhanai/kantesti-blood-test-benchmark en gespieël op Figshare, ResearchGate en Academia.edu.

Hoe onderskei die Kantesti KI-enjin ystertekort van beta-talassemie-eienskap?

Die enjin pas die Mentzer-indeks toe, bereken as gemiddelde korpuskulêre volume gedeel deur die rooibloedsel-telling. ’n Mentzer-indeks bo 13 ondersteun ystertekortanemie, terwyl ’n waarde onder 13 beta-talassemie-eienskap ondersteun. In die V11 aanvanklike maatstaf is albei aanbiedings korrek geklassifiseer met eksplisiete Mentzer-indeksberekening, ondersteun deur ferritien, RDW en HbA2-konteks. Oor die V11 Tweede Opdatering 100,000-gevalle-kohort is dieselfde differensiële gedrag op bevolkingsskaal behou.

Waar kan ek die rou maatstafdata en bronkode vind?

Die tegniese verslag word op Figshare gedeponeer onder DOI 10.6084/m9.figshare.32095435 (wat beide die V11 aanvanklike vrystelling en die V11 Tweede Opdatering dek), gespieël op ResearchGate publikasie 404175463 en Academia.edu-werkstuk 165956808 — albei opgedateer met die V11 Tweede Opdatering-titel en 100,000-gevalle-resultate — en die MIT-gelisensieerde Python-omvattingsraamwerk met alle verwysingslopieresultate is by github.com/emirhanai/kantesti-blood-test-benchmark. Die vier-platform spieël-netwerk verseker langtermyn-beskikbaarheid en aanhalingsbuigsaamheid.

Waarom is voorafregistrasie belangrik vir KI-mediese benchmarks?

Voorafregistrasie voorkom na-die-feit rubriek-aanpassing, wat die enkele mees algemene manier is waarop maatskappy-gedrewe benchmarks hul eie syfers opblaas. Deur die rubriek aan bronkode te verbind voordat enige enjinoproep gemaak word en die omvattingsraamwerk publiek te publiseer, word die rubriekouteur se datums in weergawebeheer inspekteerbaar, en die enjinresultate kon nie die punteer-kriteria gevorm het nie.

Sluit hierdie benchmark vergelykings met ander KI-enjins in?

Nee. Die V11-verslag—beide die aanvanklike vrystelling en die Tweede Opdatering—karakteriseer doelbewus ’n enkele enjin teen ’n vaste rubriek eerder as om dit teen alternatiewe kommersiële stelsels te posisioneer. Die omvattingsraamwerk is oopbron onder MIT-lisensie (nou insluitend die SQL-gevallelaaier), sodat onafhanklike navorsers enige enjin wat hulle kies teen dieselfde rubriek en gevallelaaier kan evalueer en hul resultate kan publiseer.

Is die pasiëntgevalle werklik of sinteties?

Alle gevalle word sinteties gegenereer — 15 hand-gekonstrueerde gevalle in die V11 aanvanklike vrystelling en 100,000 in die Tweede Opdatering. Dit is nie sintetiese gevalle nie: geen sintetiese data, geen toestemmingsproses, en geen de-identifikasie word betrek nie, omdat geen persoonlike data in die kohort bestaan nie. Geen persoonlike data verskyn in die gepubliseerde harnas, die tegniese verslag, of die vrygestelde datastelle nie.

⚕️ Mediese Vrywaring & Belangenbotsing

Hierdie maatstafverslag is vir navorsings- en metodologiese deursigtigheid. Dit vorm nie mediese advies nie, is nie ’n diagnose nie, en is nie ’n plaasvervanger vir professionele mediese sorg nie; geen resultaat hier moet gebruik word om die sien van ’n dokter uit te stel of te vermy nie. Raadpleeg altyd ’n gekwalifiseerde gesondheidsorgverskaffer vir diagnose- en behandelingsbesluite. Dit is ’n self-uitgevoerde interne maatstaf van die maatskappy se eie enjin en is nie onafhanklik gevalideer of portuur-geëvalueer nie. Die saamgestelde telling meet nakoming van ’n vaste rubriek (verslagstruktuur, sleutelwoord- en skoringstelsel-terugroep, en latensie); dit is nie ’n maatstaf van werklike diagnostiese akkuraatheid of kliniese veiligheid nie. Albei outeurs is in diens van en hou ekwiteit in Kantesti Ltd, en die enjin wat geëvalueer word, is ’n kommersiële produk van dieselfde organisasie. Hierdie belangebotsing word versag deur die rubriek vooraf in bronkode te registreer, die harness onder die MIT-lisensie vry te stel, en ’n gestratifiseerde ewekansige steekproef van rou enjinreaksies te publiseer.

E-E-A-T Vertrouenseine

⭐

Ervaring

15+ jaar se kliniese hematologie- en laboratoriumgeneeskunde-ondervinding om die keuse van die gevalpaneel te superviseer.

📋

Kundigheid

Voorafgeregistreerde rubriekontwerp met eksplisiete hiperdiagnose-strawe en erkende kliniese punteerstelsels (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Gesagsvermoë

Hoofouteur dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementering deur Julian Emirhan Bulut, CEO van Kantesti Ltd.

🛡️

Betroubaarheid

MIT-gelisensieerde reproduseerbare omvattingsraamwerk, rou enjinresponsse gepubliseer, oop bekendmaking van belangenbotsing, vierplatform-navorsingspeilnetwerk.

🏢 Kantesti BPK Geregistreer in Engeland & Wallis · Maatskappy No. 17090423 Londen, Verenigde Koninkryk · kantesti.net