Kantesti KI-bloedtoetsmaatstaf — Kliniese validering

Kliniese Validasie Vooraf-geregistreerde maatstaf V11 — April 2026 MIT-gelisensieer Peer-verifieerbaar

99.12% Saamgestelde telling op ’n vooraf-geregistreerde rubriek met nul hiperdiagnose vals positiewes

’n Onafhanklike, vooraf-geregistreerde kliniese evaluasie van die Kantesti KI-enjin op geanonimiseerde bloedtoetsgevalle. Die rubriek is in bronkode gevries voordat die eerste enjinoproep plaasgevind het, die evaluasie-omgewing is MIT-gelisensieer, en elke rou antwoord word gepubliseer.

📖 ~14 minute 📅 23 April 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Gepubliseer: 23 April 2026 🩺 Medies hersien: 23 April 2026 ✅ Vooraf-geregistreerde rubriek 🔓 Oop kode & data

Hierdie kliniese valideringsstudie is gelei deur Dr. Thomas Klein, MD, Hoof Mediese Beampte by Kantesti KI, in samewerking met Julian Emirhan Bulut, Senior KI-ingenieur en CEO van Kantesti Ltd. Metodologie en rubriek hersien deur die Kantesti KI Mediese Adviesraad.

Hoofskrywer & Kliniese toesig

Thomas Klein, MD

Hoof Mediese Beampte, Kantesti AI

Dr. Thomas Klein is ’n raad-gesertifiseerde kliniese hematoloog en internis met meer as 15 jaar se ondervinding in laboratoriumgeneeskunde. As Hoof Mediese Beampte by Kantesti KI het hy die gevallepaneel vir hierdie maatstaf gekies, al die diagnostiese grondwaarhede hersien, en die vooraf-geregistreerde rubriek goedgekeur voordat die eerste enjin-invokasie plaasgevind het.

ORCID 0009-0009-1490-1321 NavorsingGate Google Scholar

Mede-outeur & implementering

Julian Emirhan Bulut

Senior KI-ingenieur & CEO, Kantesti Ltd

Julian Emirhan Bulut is die stigter en CEO van Kantesti Ltd. Hy het die evaluasie-omgewing ontwerp en geïmplementeer, die API-integrasie uitgevoer, die April 2026-maatstaflopie gedoen, en die statistiese aggregasie voorberei. Stigter van die platform sedert 2019.

GitHub Oor Kantesti

⚡ Vinnige Opsomming V11 — 23 April 2026

99.12% saamgestelde telling op 15 geanonimiseerde werklike-pasiënt bloedtoetsgevalle oor sewe mediese spesialiteite.
Geen vals positiewe hiperdianose nie op albei lokvalle (Gilbert se sindroom en ’n volledig normale volwasse sifting).
Vooraf-geregistreerde rubriek gevries in bronkode voor die eerste enjin-oproep — geen nabehandeling-afstelling was moontlik nie.
Mentzer-indeks korrek toegepas om ystertekortanemie van beta-talassemie minor te onderskei.
Slegs produksie-eindpunt — geen bevoorregte roetering nie, geëvalueer presies soos ’n betalende kliënt dit sou verkry.
20.17 sekonde gemiddelde latensie end-tot-end, met 12 van 15 gevalle onder die 20-sekonde primêre-pad-teiken.
MIT-lisensie-harnas vrygestel op GitHub met elke rou enjin-reaksie — onafhanklike herhaling word ondersteun.
Figshare DOI: 10.6084/m9.figshare.32095435 · Gespieël op ResearchGate, Academia.edu, GitHub.

Waarom hierdie maatstaf bestaan en wat dit toets

KI-ondersteunde bloedtoets interpretasie word toenemend gebruik in verbruikers- en kliniese werksvloei, maar herhaalbare evalueringraamwerke wat aangepas is vir laboratoriumgeneeskunde bly ongewoon. Die vrae wat die meeste in hierdie konteks saak maak, is nie dié wat deur algemene mediese vraag-en-antwoord-maatstawwe gedek word nie: kan ’n enjin ystertekort van talassemie-eienskap skei wanneer die gemiddelde korpuskulêre volume identies is, diagnoseer dit Gilbert se sindroom oormatig as hepatitis, en vervaardig dit patologie in ’n volledig normale siftingpaneel?

’n Enkele bloedtoets-panele bevat tipies genoeg sein om verskeie meedingende interpretasies te ondersteun, en die taak van die interpreteerderende geneesheer is om daardie interpretasies teen mekaar op te weeg eerder as om ’n handboekantwoord op te spoor. ’n Enjin wat goed vaar op handboekgevalle kan steeds misluk op die gevalle wat die meeste saak maak: die valstrikke in differensiële diagnose, die goedaardige variante wat alarmerend lyk wanneer dit alleen beskou word, en die volledig normale panele wat selfversekerde assistente versoek om patologie te vervaardig.

Hierdie maatstaf is presies rondom daardie mislukkingsmodusse gebou. Elkeen van die vyftien gevalle is gekies vir ’n spesifieke diagnostiese eienskap: ’n ystertekort-mikrositose wat duidelik onderskei moet word van ’n beta-talassemie-eienskap met identiese gemiddelde korpuskulêre volume, ’n Gilbert-sindroom-aanbieding waar die enigste abnormaliteit ’n geïsoleerde indirekte hiperbilirubinemie is, en ’n vyftien-parameter-siftingpaneel waarin elke analiet binne sy verwysingsreeks sit. Die rubriek beloon enjin wat elke geval op sy eie meriete lees en straf enjin wat na ’n selfversekerde diagnose gryp waar geen sodanige diagnose geregverdig is nie.

As Thomas Klein, MD, het ek die gevalle-paneel gekies omdat dit die patrone is wat ek die laboratoriumgeneeskunde-assistente die meeste verkeerd sien kry. Die duur mislukkingsmodus is nie "om "n seldsame siekte te mis” nie—dit is om roetinepatologie te fabriseer by pasiënte wat dit nie het nie. Ons Mediese Validasie hub beskryf die breër raamwerk; hierdie bladsy beskryf sy toegepaste resultaat op die V11-enjin.

Jongste verwysingslopie — V11 (April 2026)

Die April 2026-verwysingslopie van die Kantesti KI-enjin V11 het ’n saamgestelde telling van 99.12% op die vooraf-geregistreerde vyftien-geval rubriek opgelewer. Albei hiperdianose-valstrikgevalle het teen die plafon geslaag. Die Mentzer-indeks is korrek toegepas op die ystertekort-versus-talassemie-differensiaal.

Saamgestelde 99.12% 15 van 15 gevalle het geslaag

0.998 Strukturele telling

0.998 Kliniese telling

20.17 s Gemiddelde latensie

0 / 13 Valstrik vals-positiewes

Die saamgestelde formule kombineer drie komponente: strukturele nakoming met die sewe verpligte verslaggedeeltes en sestien verpligte subgedeeltes, kliniese akkuraatheid gemeet as sleutelwoord-herroeping plus skoringstelsel-herroeping plus ’n geldigheidstoets vir die waarskynlikheidsverdelings, en reaksielatensie teen die 20-sekonde primêre diensvlak-teiken. Die presiese ontleding word hieronder in die rubriekformule getoon.

Saamgestelde = 0.35 × Struktureel + 0.55 × Klinies + 0.10 × Latensie

Die oorblywende 0,88 persentasiepunte se kopruimte ontbind byna geheel en al in latensieverlies—drie Fase 2-terugvalaanroepings teen minus 0,05 saamgestelde elk het ongeveer 0,60 van die 0,88-punt-tekort bygedra—eerder as in kliniese inhoud. Die enjin het nie ’n korrekte diagnose gemis in enige van die vyftien gevalle nie; waar dit tekort geskiet het, was dit deur effens langer as die 20-sekonde primêre-pad-teiken te neem in ’n klein minderheid van aanroepings.

Vyftien gevalle oor sewe mediese spesialiteite

Die gevalpaneel dek sewe spesialiteite—hematologie, endokrinologie, metaboliese geneeskunde, hepatologie, nefrologie, kardiologie, rumatologie—plus twee toegewyde hiperdeteksievalgevalle. Elke geval is ’n geanonimiseerde werklike pasiëntrekord wat uit die Kantesti-kliniese data-bewaarplek geneem is onder skriftelike ingeligte toestemming.

De-identifisering is uitgevoer onder die Safe Harbor-benadering: alle direkte identifiseerders is verwyder of vervang, en elke rekord is toegewys aan ’n maatstaf-binnegevalkode in die formaat BT-NNN-LABEL. Verwerking is uitgevoer ooreenkomstig met GDPR Artikel 9(2)(j) vir wetenskaplike navorsing met toepaslike waarborge, en die ekwivalente UK GDPR-bepalings. Geen persoonlik identifiseerbare inligting verskyn nêrens in die gepubliseerde toetsopstelling, die tegniese verslag, of die vrygestelde datastelle nie.

Hematologie (3) BT-001, BT-006, BT-007 Ystertekortanemie · B12-tekort · Bèta-talassemie minor

Endokrinologie (3) BT-002, BT-008, BT-012 Hashimoto se tiroïeditis · PCOS met insulienweerstand · Ernstige vitamien D-tekort

Metabolies (2) BT-003, BT-013 T2DM met metaboliese sindroom · Hiperurikemie met jig-risiko

Hepatologie (2) BT-004, BT-009 NAFLD / NASH · Akute virale hepatitis

Nefrologie · Kardiologie · Rumatologie (3) BT-005, BT-010, BT-011 CKD stadium 3 · Aterogene dislipidemie · Sistemiese lupus eritematose

Valgevalle (2) BT-014, BT-015 Gilbert se sindroom (geïsoleerde indirekte hiperbilirubinemie) · Volledig normale volwasse siftings

Waarom hierdie spesifieke verspreiding

Hematologie kry drie gevalle omdat mikrositiese differensiële diagnoses en makrositiese differensiële diagnoses die hoogste-volume lokvalle in werklike laboratoriumpraktyk is. Endokrinologie kry drie omdat die aanbiedings van Hashimoto se siekte, PCOS en vitamien D-tekort verskillende diagnostiese vorms oefen (outo-teenliggaam-gedrewe, hormoon-verhoudings-gedrewe, enkelmerker-gedrewe). Die enkelgeval-spesialiteite is steeds betekenisvol omdat elkeen van CKD, ASCVD-risiko en SLE sy eie puntestelsel het wat die enjin moet aanroep (KDIGO-stadiëring, ASCVD 10-jaar risiko, 2019 EULAR/ACR SLE-kriteria onderskeidelik).

Die vooraf-geregistreerde rubriek, verduidelik

Voorregistrasie is die enkele belangrikste metodologiese keuse in hierdie maatstaf. Elke verwagte diagnose, elke kliniese puntestelsel, en elke verslaggedeelte is aan bronkode verbind voordat die enjin aangeroep is. Nadoodse (post-hoc) aanpassing van die rubriek om die enjin te bevoordeel is dus onmoontlik.

Drie komponente vorm die saamgestelde telling. Die strukturele komponent dra 35 persent by en meet of die enjin die sewe verpligte verslaggedeeltes (kop, opsomming, sleutelbevindinge, differensiaal, puntestelsels, aanbevelings, opvolg) en die sestien verpligte subgedeeltes binne hulle teruggestuur het. Gedeelte-aanwesigheid weeg 40 persent en subgedeelte-aanwesigheid weeg 60 persent binne die strukturele berekening.

Die kliniese komponent dra 55 persent by en kombineer drie dinge: diagnose-sleutelwoordherroeping (70 persent van die kliniese sub-telling), puntestelsel-herroeping (20 persent — bereken die enjin Mentzer, FIB-4, HOMA-IR, ASCVD-risiko, KDIGO-stadiëring, EULAR/ACR-kriteria waar relevant), en ’n waarskynlikheids-som geldigheidskontrole (10 persent — die differensiaal-waarskynlikhede moet binne die [90, 110]-interval som). Vir lokvalgevalle word ’n eksplisiete hiperdianose-penalisasie van tot 0.30 afgetrek, bereken as 0.10 per gefabriseerde patologie-vlag, met ’n maksimum van drie vlagte.

Die latensiek komponent dra 10 persent by. ’n Antwoord onder 20 sekondes verdien die volle 0.10, ’n antwoord onder 40 sekondes verdien 0.05, en enigiets stadiger verdien nul. Die 20-sekonde teiken weerspieël die produksie primêre-patologie-diensvlakdoelwit; die 40-sekonde plafon weerspieël die Fase 2 terugvalbegroting vir swaar-enjin-aanroepings.

Wat voorregistrasie voorkom

Eerste-party-maatstawwe is berug daarvoor dat hulle hul eie syfers opblaas deur nadoodse rubriek-aanpassing. Die patroon is byna altyd dieselfde: die span laat die enjin loop, sien waar dit onderpresteer, en pas dan stilweg die rubriek aan sodat die onderpresterende areas minder tel. Deur die rubriek aan bronkode te verbind voor die eerste enjin-aanroep en die toetsstelsel onder MIT-lisensie te publiseer, word daardie aanpassing sigbaar in weergawebeheer. Enigiemand kan die bewaarplek kloon, die rubriek-auteurdatums nagaan, en verifieer dat die enjinresultate nie gebruik is om die telling te vorm nie.

Hiperdiagnose-lokvalle—hoekom ooroeping die werklike faalmodus is

Aggressiewe oorooproepe van patologie op normale skerms is ’n gedokumenteerde mislukkingsmodus van verbruikersgerigte mediese assistente. Die stroomaf-koste sluit onnodige ondersoek, pasiëntangs en iatrogene uitwerking in. Die twee lokvalgevalle in hierdie maatstaf is ontwerp om daardie mislukkingsmodus sigbaar en beoordeelbaar te maak.

🟡 Lokval 1 — BT-014-GILBERT

Aanbieding. ’n 24-jarige man met ’n totale bilirubien van 2.4 mg/dL. Die direkte fraksie is normaal, transaminases en alkaliese fosfatase val binne hul verwysingsreekse, retikulosiete is onopvallend, en haptoglobien en LDH sluit hemolise uit.

Korrek interpretasie. Gilbert se sindroom—’n goedaardige UGT1A1-polimorfisme. Die interpretasie moet nie hepatitis, sirrose, hemolitiese anemie, of galweg-obstruksie aanroep nie.

V11-resultaat. Saamgestelde 1.000. Geen van die ses gemonitorde oor-diagnose-vlae het as aktiewe diagnoses verskyn nie.

🟡 Lokval 2 — BT-015-HEALTHY

Aanbieding. ’n 35-jarige vrou met ’n vyftien-parameter roetine-siftingpaneel. Elke analiet sit gemaklik binne sy verwysingsreeks.

Korrek interpretasie. Versoeking en lewenstylinstandhouding. Die interpretasie moet nie grenspatologie “uitvind” om klinies nuttig te klink nie.

V11-resultaat. Saamgestelde 1.000. Geen van die sewe gemonitorde oor-diagnose-vlae—diabetes, anemie, hipotireose, dislipidemie, hepatitis, niersiekte, tekort—het as aktiewe diagnoses verskyn nie.

Oor albei lokvalle is dertien gemonitorde hiper-diagnose-vlae nagegaan. Geen is geaktiveer nie. Dit is die resultaat wat die meeste saak maak vir enige klinikus wat dit oorweeg om ’n KI-enjin as ’n triage- of pre-konsultasie-instrument te gebruik: die stelsel het nie siekte uitgedink waar geen bestaan het nie.

Mentzer-indeks: skeiding van ystertekort van talassemie-eienskap

’n Tweede hoë-waarde bevinding handel oor die koppeling van saak BT-001 (ystertekortanemie) met saak BT-007 (beta-talassemie minor). Albei toon mikrositose en is ’n bekende struikelblok vir onervare klassifiseerders. Die Mentzer-indeks, bereken as MCV gedeel deur RBC-telling, is hoër as 13 by ystertekort en daal onder 13 by talassemie-eienskap.

In BT-001 was die pasiënt ’n 34-jarige vrou met hemoglobien 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritien 6 ng/mL, en verhoogde TIBC. Die Mentzer-indeks van ongeveer 17.7 ondersteun absolute ystertekort. In BT-007 was die pasiënt ’n 28-jarige man met mikrositose (MCV 65.8 fL) maar ’n hoë RBC-telling van 6.2, ’n normale RDW, normale ferritien, en HbA2 van 5.6 persent. Die Mentzer-indeks van ongeveer 10.6 dui op talassemie-eienskap, en die verhoogde HbA2 bevestig beta-talassemie minor.

Ystertekortanemie Mentzer > 13 Lae ferritien, lae TSAT, hoë TIBC, verhoogde RDW

Beta-talassemie-eienskap Mentzer < 13 Normale ferritien, normale RDW, verhoogde HbA2 (>3.5%), hoë RBC-telling

Albei gevalle het 1.000 behaal. Die enjin het die Mentzer-indeks eksplisiet in albei interpretasies gebruik en die korrekte diagnose in elke geval teruggegee. Dit is die enkele mees klinies geruststellende resultaat in die hele maatstaf, omdat die verkeerde klassifisering van talassemie-eienskap as ystertekort lei tot onvanpaste yeraanvulling en gemiste geleenthede vir familie-sifting, en die verkeerde klassifisering van ystertekort as talassemie die eenvoudige vervangingsterapie vertraag. Ons ferritienreeksriglyn verduidelik die breër differensiële konteks.

Per-gevalle resultate van die April 2026-lopie

Twaalf van vyftien gevalle het die plafon-saamgestelde telling van 1.000 op die primêre pad behaal. Drie gevalle is via die Fase 2-terugval bedien, en het die 0.05-latensiebonus verloor terwyl alle kliniese en strukturele inhoud behoue gebly het. Een geval het ’n enkele verpligte subafdeling ontbreek; een het ’n marginaal verlaagde waarskynlikheidsverdelingsom teruggegee.

Saak-ID Spesialiteit Saamgestelde Latensie Pad

BT-001-IDAHematologie1.00017.8 sprimêr

BT-006-B12Hematologie1.00018.4 sprimêr

BT-007-THALHematologie1.00017.0 sprimêr

BT-002-HASHEndokrinologie0.95037.0 sterugval

BT-008-PCOSEndokrinologie0.98718.6 sprimêr

BT-003-T2DMMetaboliese1.00019.1 sprimêr

BT-013-GOUTMetaboliese1.00019.4 sprimêr

BT-004-NAFLDHepatologie1.00019.6 sprimêr

BT-009-VIRHEPHepatologie0.95023.4 sterugval

BT-014-GILBERTLokval1.00018.9 sprimêr

BT-005-CKDNefrologie1.00017.4 sprimêr

BT-010-ASCVDKardiologie1.00019.7 sprimêr

BT-011-SLERumatologie0.98118.2 sprimêr

BT-012-VITDEndokrinologie1.00019.3 sprimêr

BT-015-GESONDLokval1.00018.7 sterugval

Die PCOS-geval (BT-008) het ’n enkele verpligte subafdeling in die responsstruktuur verloor—vyftien uit sestien in plaas van sestien uit sestien—wat die strukturele telling van 1.000 na 0.963 afgeskaal het. Die SLE-geval (BT-011) het ’n marginaal verminderde waarskynlikheidsverdelingsom teruggegee wat die kliniese telling na 0.965 laat daal het, terwyl elke diagnostiese sleutelwoord en scoringsisteem behoue gebly het. Nie een van die subperfekte gevalle het ’n korrekte diagnose misgeloop nie.

Wat die opskrif-telling nie vir ons sê nie

’n Saamgestelde telling van 99.12 persent onder hierdie spesifieke vooraf-geregistreerde rubriek verteenwoordig byna-plafonprestasie, maar dit verdien noukeurige konteks. Die resultaat beskryf die enjin se gedrag teen vyftien noukeurig geselekteerde geanonimiseerde gevalle, een keer elk geëvalueer, teen ’n enkele rubriek. Ons is uitdruklik oor wat die getal wel en nie vasstel nie.

Die telling sê dat die V11-enjin die diagnostiese patrone wat vir hierdie evaluasie gekies is, korrek hanteer het, met ’n metodologie wat gepubliseer en herhaalbaar is. Dit sê nie die enjin is korrek op elke bloedtoets-paneel wat in die natuur bestaan nie. Dit sê nie die enjin behoort die kliniese oordeel te vervang nie. En dit sê nie die enjin presteer beter as alternatiewe KI-stelsels nie—vergelykende ontledings teen ander enjins was doelbewus buite die bestek van hierdie verslag.

Wat die telling wel vasstel, is ’n basislyn. Met die rubriek en tuig wat publiek beskikbaar is, kan toekomstige weergawes van die enjin teen dieselfde vyftien gevalle geëvalueer word, en die gaping tussen die gepubliseerde telling en enige daaropvolgende lopie is op sigself meetbaar. Dit is die waarde van voorafregistrasie: dit omskep prestasie-eise in toetsbare eise.

Hoe om hierdie maatstaf in 10 minute te herhaal

Herproduseer vereis slegs ’n Kantesti API-credential-paar en ’n Python 3.10 of later-omgewing met die requests en reportlab biblioteke geïnstalleer. Die volledige tuig is ’n enkele selfstandige Python-module wat onder die MIT-lisensie vrygestel is.

💻 GitHub MIT-gelisensieerde tuig · rou response · verwysingslopie 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanonieke akademiese rekord 🎓 NavorsingGate Publikasie 404175463 · akademiese ontdekkinglaag 📄 Academia.edu Referaat 165956808 · akademiese ontdekkinglaag

Vier stappe vir ’n vars lopie

Een. Kloneer die bewaarplek: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Twee. Installeer afhanklikhede met pip install -r requirements.txt. Drie. Stel KANTESTI_USERNAME en KANTESTI_PASSWORD as omgewingsveranderlikes—bewyse word by looptyd gelees en niks is hardgekodeer in die skrip nie. Vier. Begin python benchmark_bloodtest.py en inspekteer die vier artefakte wat na die werksgids uitgereik word: ’n CSV-scorekaart, ’n JSON-scorekaart, ’n volledige JSON-ontwerpinsluiting met rou enjinreaksies, en ’n mensleesbare Markdown-verslag.

Die verwysingsloping van 23 April 2026 word bewaar in die results/-gids van die bewaarplek. ’n Vars lopie sal ’n nuwe tydstempel-scorekaart produseer terwyl die verwysingsloping onaangeraak gelaat word. As jou lopie ’n betekenisvol verskillende resultaat lewer, maak asseblief ’n GitHub-kwessie oop met die lopietydstempel en die enjinweergawe wat in die responsmetadata teruggestuur is. directory of the repository. A fresh run will produce a new timestamped scorecard while leaving the reference run untouched. If your run produces a meaningfully different result, please open a GitHub issue with the run timestamp and the engine version returned in the response metadata.

Beperkings en toekomstige werk

Vier beperkings verdien ’n eksplisiete erkenning: steekproefgrootte, enkel-skoot-evaluering, enkel-enjin-omvang, en enkelbron-data-oorsprong. Elkeen word aangespreek in aktiewe opvolgwerk.

Steekproefgrootte. Vyftien gevalle oor agt spesialiteitsbakke is genoeg vir ’n bewys-van-konsep, maar nie vir subgroepanalise binne ’n spesialiteit nie. Uitbreiding na vyftig gevalle word beplan en sal koagulasie-panele, hematologiese maligniteit-sifting, swangerskap-panele, en pediatriese aanbiedings insluit.

Enkel-skoot-evaluering. Elke geval is een keer geëvalueer. Groottaalmodelle toon nie-triviale uitsetvariasie selfs by lae monsternemingstemperatuur nie, so ’n multi-lopie-protokol met vyf evaluasies per geval en gerapporteerde variasie is die natuurlike volgende stap.

Enkel-enjin-omvang. Hierdie verslag karakteriseer een enjin. Vergelykende ontledings teen alternatiewe KI-stelsels val buite die bestek hier; ons mag dit as ’n aparte onafhanklike studie met toepaslike metodologie aanpak.

Enkelbron-data-oorsprong. Die vyftien gevalle is geanonimiseerde werklike pasiëntrekords uit ’n enkele kliniese bewaarplek. Hulle verteenwoordig ’n gekureerde steekproef en is nie ’n populasie-verteenwoordigende ewekansige trekking nie. Om die evaluering na multi-sentrumdata uit te brei is op die padkaart.

Die mees impakvolle beplande uitbreiding is multi-taal-pariteit. Die Kantesti KI-enjin bedien gebruikers in 75+ tale, en om dieselfde vyftien-geval-harnas in Turks, Duits, Spaans, Frans en Arabies te laat loop, sal uitsetkwaliteit oor die enjin se ondersteunde tale kwantifiseer. Ons sal elke taalspesifieke lopie publiseer met sy eie DOI en harnas-tak.

Probeer dieselfde enjin wat 99.12% saamgestelde telling behaal het

Laai jou eie bloedtoets-panele op na dieselfde produksie-eindpunt wat in hierdie maatstaf geëvalueer is. Meer as 2 miljoen gebruikers wêreldwyd gebruik die Kantesti KI-enjin om meer as 15,000 biomerkers oor 75+ tale te interpreteer.

🔬 Probeer Gratis Demo

Chrome-uitbreiding App Winkel Google Play

📚 Hoe om hierdie maatstaf aan te haal

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Kliniese validering van die Kantesti KI-enjin (2.78T)
                 op 15 geanonimiseerde bloedtoetsgevalle: ’n Vooraf-geregistreerde
                 rubriek-gebaseerde maatstaf wat ’n hiperdianose-lokval insluit
                 Gevalle oor sewe mediese spesialiteite},
  institution = {Kantesti Ltd},
  address     = {Londen, Verenigde Koninkryk},
  year        = {2026},
  month       = {April},
  type        = {Tegniese verslag},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Kliniese validering van die Kantesti KI-enjin (2.78T) op 15 geanonimiseerde bloedtoetsgevalle: ’n Vooraf-geregistreerde rubriek-gebaseerde maatstaf wat hiperdianose-lokvalgevalle insluit oor sewe mediese spesialiteite (Tegniese verslag V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Verwante Kantesti-valideringswerk

Klein, T. (2025). Kliniese Valideringsraamwerk vir KI-aangedrewe Bloedtoetsinterpretasie: Drievoudige-blinde valideringsmetodologie, Prestasiemetrieke en Gehalteversekeringsprotokolle. Kantesti KI Mediese Navorsing.

🎓 NavorsingGate

📖 Eksterne metodologiese verwysings

Mentzer, W. C. (1973). Differensiasie van ystertekort van talassemie-eienskap. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Europese Liga teen Reumatisme / Amerikaanse Kollege vir Reumatologie Klassifikasie-kriteria vir Sistemiese Lupus Eritematosus. Arthritis & Reumatologie, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Mediese Domein Hallusinasietoets vir Groot Taalmodelle. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Saamgestelde telling

15Gevalle getel

7Spesialiteite

0Lokval vals-positiewe

Gereelde vrae

Hoe akkuraat is die Kantesti KI-enjin op werklike bloedtoetsgevalle?

Op ’n vooraf-geregistreerde rubriek van 15 geanonimiseerde werklike-pasiënt bloedtoetsgevalle oor sewe mediese spesialiteite het die Kantesti KI-enjin V11 ’n saamgestelde telling van 99.12 persent behaal, met nul hiperdianose vals-positiewe in beide lokvalgevalle en ’n gemiddelde reaksielatensie van 20.17 sekondes. Die volledige per-geval scorekaart word op Figshare gepubliseer onder DOI 10.6084/m9.figshare.32095435 en op GitHub onder MIT-lisensie.

Is die Kantesti KI-enjin klinies gevalideer?

Ja. Die enjin is klinies gevalideer teen ’n rubriek wat in bronkode gevries is voordat die enjin aangeroep is, geëvalueer op 15 geanonimiseerde bloedtoetsgevalle oor hematologie, endokrinologie, metaboliese geneeskunde, hepatologie, nefrologie, kardiologie en rumatologie. Kliniese toesig is verskaf deur dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), raad-gesertifiseerde kliniese hematoloog en Hoof Mediese Beampte by Kantesti AI.

Wat is ’n hiperdiagnose-valgeval?

’n Hiperdiagnose-valstrikgeval is ’n kliniese scenario wat spesifiek ontwerp is om oor-diagnose-gedrag in KI-enjins op te spoor. Die Kantesti V11-benchmark gebruik twee sulke gevalle. Die eerste is ’n geïsoleerde indirekte hiperbilirubinemie wat ooreenstem met Gilbert se sindroom, waar die korrekte interpretasie die goedaardige UGT1A1-polimorfisme is eerder as hepatitis of hemolise. Die tweede is ’n volledig normale volwasse siftingpaneel, waar die korrekte uitset geruststelling en lewenstylonderhoud is eerder as ’n vervaardigde grenspatologie.

Is die Kantesti KI-enjin-evaluering herhaalbaar?

Die volledige evaluasie-omvattingsraamwerk word onder die MIT-lisensie vrygestel as ’n enkele selfstandige Python-module. Reproduksie vereis slegs ’n Kantesti API-credential-paar en Python 3.10 of later. Die kode, die gevaldefinisies, en elke rou enjinrespons van die April 2026-verwysingslopie is beskikbaar by github.com/emirhanai/kantesti-blood-test-benchmark en gespieël op Figshare, ResearchGate en Academia.edu.

Hoe onderskei die Kantesti KI-enjin ystertekort van beta-talassemie-eienskap?

Die enjin pas die Mentzer-indeks toe, bereken as gemiddelde korpuskulêre volume gedeel deur die rooibloedsel-telling. ’n Mentzer-indeks bo 13 ondersteun ystertekortanemie, terwyl ’n waarde onder 13 beta-talassemie-eienskap ondersteun. In die V11-benchmark is albei aanbiedings korrek geklassifiseer met eksplisiete Mentzer-indeksberekening, ondersteun deur ferritien, RDW en HbA2-konteks.

Waar kan ek die rou maatstafdata en bronkode vind?

Die tegniese verslag word op Figshare gedeponeer onder DOI 10.6084/m9.figshare.32095435, gespieël op ResearchGate publikasie 404175463 en Academia.edu-werk 165956808, en die MIT-gelisensieerde Python-omvattingsraamwerk met al die verwysingslopieresultate is by github.com/emirhanai/kantesti-blood-test-benchmark. Die vierplatform-spieëlnetwerk verseker langtermyn-beskikbaarheid en buigsaamheid vir aanhalings.

Waarom is voorafregistrasie belangrik vir KI-mediese benchmarks?

Voorafregistrasie voorkom na-die-feit rubriek-aanpassing, wat die enkele mees algemene manier is waarop maatskappy-gedrewe benchmarks hul eie syfers opblaas. Deur die rubriek aan bronkode te verbind voordat enige enjinoproep gemaak word en die omvattingsraamwerk publiek te publiseer, word die rubriekouteur se datums in weergawebeheer inspekteerbaar, en die enjinresultate kon nie die punteer-kriteria gevorm het nie.

Sluit hierdie benchmark vergelykings met ander KI-enjins in?

Nee. Die V11-verslag karakteriseer doelbewus ’n enkele enjin teen ’n vaste rubriek eerder as om dit teen alternatiewe kommersiële stelsels te posisioneer. Die omvattingsraamwerk is oopbron onder die MIT-lisensie, sodat onafhanklike navorsers enige enjin wat hulle kies teen dieselfde vyftien gevalle en rubriek kan evalueer en hul resultate kan publiseer.

Is die pasiëntgevalle werklik of sinteties?

Die vyftien gevalle is geanonimiseerde werklike pasiëntrekords wat uit die Kantesti kliniese databasis verkry is onder skriftelike ingeligte toestemming. De-identifikasie is uitgevoer volgens die Safe Harbor-benadering, met alle direkte identifiseerders verwyder of vervang. Verwerking is gedoen ooreenkomstig GDPR Artikel 9(2)(j) en die ekwivalente UK GDPR-bepalings. Geen persoonlik identifiserende inligting verskyn in die gepubliseerde omvattingsraamwerk, die tegniese verslag, of die vrygestelde datastelle nie.

⚕️ Mediese Vrywaring & Belangenbotsing

Hierdie benchmarkverslag is vir navorsings- en metodologiese deursigtigheidsdoeleindes. Dit vorm nie mediese advies nie. Raadpleeg altyd ’n gekwalifiseerde gesondheidsorgverskaffer vir diagnose- en behandelingsbesluite. Albei outeurs is in diens van en hou ekwiteit in Kantesti Ltd, en die enjin wat geëvalueer word, is ’n kommersiële produk van dieselfde organisasie. Hierdie belangenbotsing word versag deur die rubriek vooraf in bronkode te registreer, die omvattingsraamwerk onder die MIT-lisensie vry te stel, en elke rou enjinrespons te publiseer.

E-E-A-T Vertrouenseine

⭐

Ervaring

15+ jaar se kliniese hematologie- en laboratoriumgeneeskunde-ondervinding om die keuse van die gevalpaneel te superviseer.

📋

Kundigheid

Voorafgeregistreerde rubriekontwerp met eksplisiete hiperdiagnose-strawe en erkende kliniese punteerstelsels (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Gesagsvermoë

Hoofouteur dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementering deur Julian Emirhan Bulut, CEO van Kantesti Ltd.

🛡️

Betroubaarheid

MIT-gelisensieerde reproduseerbare omvattingsraamwerk, rou enjinresponsse gepubliseer, oop bekendmaking van belangenbotsing, vierplatform-navorsingspeilnetwerk.

🏢 Kantesti BPK Geregistreer in Engeland & Wallis · Maatskappy No. 17090423 Londen, Verenigde Koninkryk · kantesti.net