Kantesti AI bloedtestbenchmark — klinyske validaasje

Klinyske falidaasje Foarôf registrearre benchmark V11 — april 2026 MIT-lisinsje Troch kollega’s te ferifiearjen

99.12% Komposysjescore op in foarôf registrearre rubryk mei nul hyperdiagnoaze falsk-posityven

In ûnôfhinklike, foarôf registrearre klinyske evaluaasje fan de Kantesti AI Engine op anonymisearre bloedtestgefallen. De rubryk waard beferzen yn boarnekoade foar de earste engine-oanrop, it evaluaasjearranzjemint is MIT-lisinsjeare, en elke rauwe antwurd wurdt publisearre.

📖 ~14 minuten 📅 23 april 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publisearre: 23 april 2026 🩺 Medysk besjoen: 23 april 2026 ✅ Foarôf registrearre rubryk 🔓 Iepen koade & gegevens

Dizze klinyske validaasjestúdzje waard laat troch Dr. Thomas Klein, MD, Chief Medical Officer by Kantesti AI, yn gearwurking mei Julian Emirhan Bulut, Senior AI-yngenieur en CEO fan Kantesti Ltd. Metodyk en rubryk besjoen troch de Medyske Advysried fan Kantesti AI.

Haadskriuwer & klinysk tafersjoch

Thomas Klein, dokter

Haadmedysk Offisier, Kantesti AI

Dr. Thomas Klein is in board-sertifisearre klinysk hematolooch en ynternist mei mear as 15 jier ûnderfining yn laboratoariummedisine. As Chief Medical Officer by Kantesti AI keas hy it case-paniel foar dizze benchmark út, besjoech er alle diagnostyske grûnwierheden, en goedkard de foarôf registrearre rubryk foarôfgeand oan de earste engine-ynropping.

ORCID 0009-0009-1490-1321 Undersykspoarte Google Scholar

Co-auteur & ymplemintaasje

Julian Emirhan Bulut

Senior AI-yngenieur & CEO, Kantesti Ltd

Julian Emirhan Bulut is de oprjochter en CEO fan Kantesti Ltd. Hy ûntwurp en ymplemintearre it evaluaasjearranzjemint, die de API-yntegraasje, fierde de april 2026-benchmarkrun út, en tariede de statistyske aggregaasje. Oprjochter fan it platfoarm sûnt 2019.

GitHub Oer Kantesti

⚡ Koarte gearfetting V11 — 23 april 2026

99.12% gearstalde skoare op 15 anonymisearre echte bloedtestgefallen fan pasjinten oer sân medyske spesjalismen.
Gjin falsk-positive hyperdiagnoaze op beide trapgefallen (sykte fan Gilbert en in folslein normale folwoeksen screening).
Foarôf registrearre rubryk fêstlein yn boarnekoade foar de earste engine-oanrop — der wie gjin mooglikheid foar post-hoc ôfstimming.
Mentzer-yndeks korrekt tapast om izertekoart-anemy fan beta-thalassemia minor te ûnderskieden.
Allinnich produksje-eindpunt — gjin befoarrjochte routing, evaluearre krekt sa’t in beteljende klant der tagong ta krijt.
Gemiddelde latency fan 20.17 sekonden ein-oan-ein, mei 12 fan 15 gefallen ûnder it primêre paaddoel fan 20 sekonden.
MIT-lisinsje harness frijjûn op GitHub mei elke rauwe engine-reaksje — ûnôfhinklike reproduksje wurdt stipe.
Figshare DOI: 10.6084/m9.figshare.32095435 · Spegele op ResearchGate, Academia.edu, GitHub.

Wêrom’t dizze benchmark bestiet en wat it test

AI-assistearre bloedtest-útslach wurdt hieltyd faker brûkt yn konsumint- en klinyske wurkflows, mar reprodusearbere evaluaasjeramten spesifyk ôfstimd op laboratoariummedisyn bliuwe ûngewoan. De fragen dy’t hjir it meast ta dogge binne net dy’t behannele wurde troch algemiene benchmarks foar medyske fraach- en antwurdsystemen: kin in engine izertekoart skiede fan thalassemia-eigenskip as it mean corpuscular volume identyk is, docht it dan tefolle diagnoaze fan Gilbert syn syndroom as hepatitis, en makket it patology oan yn in folslein normale screeningpaniel?

In inkele bloedtestpaniel befettet typysk genôch sinjaal om ferskate konkurrearjende ynterpretaasjes te stypjen, en de taak fan de ynterpretearjende klinikus is om dy ynterpretaasjes tsjininoar ôf te weagjen ynstee fan in boek-antwurd op te heljen. In motor dy't it goed docht op tekstboekgefallen kin dochs mislearje op de gefallen dy't it meast telle: de falen yn de differinsjaaldiagnoaze, de goedaardige farianten dy't allinnich al alaarmerjend lykje, en de folslein normale panielen dy't betrouwen assistinten ferliede ta it fabrisearjen fan patology.

Dizze benchmark is boud om krekt dy mislearringsmodi. Elk fan de fyftjin gefallen waard selektearre foar in spesifike diagnostyske eigenskip: in izertekoart-assosjearre mikrosytose dy't apart hâlden wurde moat fan in beta-thalassemy-trait mei identike mean corpuscular volume, in presintaasje fan Gilbert-sykte dêr’t it iennichste ôfwikende allinnich in isolearre indirekte hyperbilirubinemia is, en in screeningpaniel mei fyftjin parameters dêr’t elke analyte binnen syn referinsjewurde sit. De rubryk beleanet motoren dy’t elk gefal lêze op syn eigen betingsten en straffet motoren dy’t nei in betrouwen diagnoaze gripe wêr’t sa’n diagnoaze net rjochtfeardige is.

As Thomas Klein, MD, haw ik it gefalspaniel selektearre, om’t dit de patroanen binne dy’t ik it meast faak sjoch dat assistinten yn laboratoarium-medisyne it ferkeard dogge. De djoere mislearringsmodus is net "it missen fan in seldsume sykte" — it is it fabrisearjen fan routinepatology by pasjinten dy’t it net hawwe. Ús Medyske falidaasje hub beskriuwt it bredere ramt; dizze side beskriuwt syn tapaste resultaat op de V11-motor.

Lêste referinsjerun — V11 (april 2026)

De referinsjerun fan april 2026 fan de Kantesti AI Engine V11 produsearre in gearstalde skoare fan 99.12% op de foarôf registrearre rubryk mei fyftjin gefallen. Beide gefallen mei de hyperdiagnose-faltrap skoarden op it plafond. De Mentzer-yndeks waard korrekt tapast op de differinsjaal tusken izertekoart en thalassemy.

Gearstalde 99.12% 15 fan 15 gefallen skoarden

0.998 Strukturele skoare

0.998 Klinyske skoare

20.17 s Gemiddelde latency

0 / 13 Trap false-positives

De gearstalde formule kombinearret trije komponinten: strukturele konformiteit mei de sân ferplichte rapportaazjes en sechtjin ferplichte subparagrafen, klinyske krektens mjitten as keyword-recall plus recall fan it skoaringsysteem plus in jildichheidskontrôle fan de kânsferdieling, en antwurden-latency tsjin it primêre doel fan 20 sekonden foar de service-level. De krekte opbrekking wurdt hjirûnder werjûn yn de rubrykformule.

Gearstalde = 0.35 × Struktureel + 0.55 × Klinysk + 0.10 × Latency

De oerbleaune 0,88 persintaazjepunten oan romte boppe de drompel ûntbrekt hast hielendal yn latency-ferlies — trije Phase 2 fallback-oanroppen fan elk minus 0,05 gearstald droegen likernôch 0,60 by oan it tekoart fan 0,88 punten — ynstee fan yn klinyske ynhâld. De motor miste gjinien fan de juste diagnoaze yn ien fan de fyftjin gefallen; dêr’t er tekoartkaam, die er dat troch wat langer te duorjen as de primêre-doeltiid fan 20 sekonden yn in lytse minderheid fan oanroppen.

Fyftjin gefallen oer sân medyske spesjalismen

It saakpaniel beslacht sân spesjalismen — hematology, endokrinology, metabolyske medisinen, hepatology, nierenology, kardiology, rheumatology — plus twa tawijde hyperdiagnosis-trapgefallen. Elk gefal is in anonymisearre echte pasjintrekord út de Kantesti-klinyske databank, ûnder skriftlike ynformearre tastimming.

De-identifikaasje waard útfierd neffens de Safe Harbor-oanpak: alle direkte identifisearjende gegevens waarden fuorthelle of ferfongen, en elk rekord krige in benchmark-ynterne saakkoade yn it formaat BT-NNN-LABEL. De ferwurking waard útfierd yn oerienstimming mei GDPR kêst 9(2)(j) foar wittenskiplik ûndersyk mei passende beheinings, en de lykweardige bepalingen fan de UK GDPR. Dêr’t oeral yn de publisearre harness, it technyske rapport, of de frijjûne datasets komt gjin persoanlik identifisearbere ynformaasje foar.

Hematology (3) BT-001, BT-006, BT-007 Izertekoart-anemy · B12-tekoart · Beta-thalassemia minor

Endokrinology (3) BT-002, BT-008, BT-012 Thyroïditis fan Hashimoto · PCOS mei insulinresistinsje · Swier tekoart oan fitamine D

Metabool (2) BT-003, BT-013 T2DM mei metabolysk syndroom · Hyperurikemia mei risiko op jicht

Hepatology (2) BT-004, BT-009 NAFLD / NASH · Akute virale hepatitis

Nierenology · Kardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD poadium 3 · Atherogene dyslipidemy · Systemyske lupus erythematosus

Trapgefallen (2) BT-014, BT-015 Syndroom fan Gilbert (isolearre indirekte hyperbilirubinemia) · Folslein normaal folwoeksen screening

Wêrom dizze bepaalde ferdieling

Hematology krijt trije gefallen, om't mikrosytyske differinsjaaldiagnoazen en makrosytyske differinsjaaldiagnoazen de heechste-folume-trappen binne yn praktyk yn echte laboratoariumomjouwing. Endokrinology krijt trije, om't de presintaasjes fan Hashimoto, PCOS en tekoart oan fitamine D ferskillende diagnostyske foarmen oefenje (troch autoantistoffen oandreaun, troch hormoanferhâldingen oandreaun, troch ien-marker oandreaun). De spesjaliteiten mei ien gefal binne noch altyd sinfol, om't elk fan CKD, ASCVD-risiko en SLE syn eigen skoaringsysteem hat dat de motor oproppe moat (KDIGO-stadia, ASCVD 10-jier risiko, en 2019 EULAR/ACR SLE-criteria respektivelik).

De foarôf registrearre rubryk, útlein

Pre-registraasje is de iennichst wichtichste metodologyske kar yn dizze benchmark. Elke ferwachte diagnoaze, elk klinysk skoaringsysteem, en elke rapportaazje wie fêstlein yn boarnekoade foardat de motor oproppe waard. Dêrom is post-hoc ôfstimming fan it rubryk om de motor te flatterjen ûnmooglik.

Trije komponinten meitsje de gearstalde skoare út. De strukturele komponint draacht 35 prosint by en mjit oft de motor de sân ferplichte rapportaazjes weromjûn hat (koptekst, gearfetting, wichtige befiningen, differinsjaal, skoaringsystemen, oanbefellings, follow-up) en de sechstjin ferplichte subparagrafen dêryn. Paragraaf-oanwêzigens weaget 40 prosint en subparagraaf-oanwêzigens weaget 60 prosint binnen de strukturele berekkening.

De klinyske komponint draacht 55 prosint by en kombinearret trije dingen: diagnoaze-trefwurd-weromrop (70 prosint fan de klinyske sub-skoare), weromrop fan it skoaringsysteem (20 prosint — berekkent de motor Mentzer, FIB-4, HOMA-IR, ASCVD-risiko, KDIGO-stadia, EULAR/ACR-criteria dêr’t relevant), en in jildichheidskontrôle fan de probabel-som (10 prosint — de differinsjaalprobabiliteiten moatte optelle ta binnen it ynterval [90, 110]). Foar trap-gefallen wurdt in eksplisite hyperdiagnoaze-straf fan maksimaal 0.30 ôftrutsen, berekkene as 0.10 per fabrisearre patology-flagge, mei in kap op trije flaggen.

De latency-komponint draacht 10 prosint by. In antwurd ûnder 20 sekonden fertsjinnet de folsleine 0.10, in antwurd ûnder 40 sekonden fertsjinnet 0.05, en alles dat stadiger is fertsjinnet nul. It doel fan 20 sekonden wjerspegelt de produksje primary-path service-level doelstelling; de plafond fan 40 sekonden wjerspegelt it fallback-budzjet foar swiere-motor-oanroppen yn Fase 2.

Wat pre-registraasje foarkomt

Earste-partij-benchmarken binne berucht om harren eigen sifers op te blazen troch post-hoc rubryk-ôfstimming. It patroan is hast altyd itselde: it team rint de motor, sjocht wêr’t dy ûnderpresteart, en past dan stil it rubryk oan sadat de gebieten dêr’t ûnderprestaasje is minder telle. Troch it rubryk yn boarnekoade fêst te lizzen foar de earste motor-oanrop en de harness te publisearjen ûnder de MIT-lisinsje, wurdt dy oanpassing sichtber yn ferzjekontrôle. Elkenien kin de repository klone, de rubryk-auteurdatums kontrolearje, en ferifiearje dat de motorresultaten net brûkt binne om de skoaring te foarmjen.

Hyperdiagnose-trapgefallen — wêrom’t te faak oproppe it echte mislearringsmeganisme is

Agressyf te faak patology oproppe op normale skermen is in dokumintearre mislearringsmodus fan medyske assistinten foar konsuminten. De neikommeljende kosten omfetsje ûnnedich ûndersyk, pasjintûnwissens, en iatrogenyske workup. De twa trap-gefallen yn dizze benchmark binne ûntwurpen om dy mislearringsmodus sichtber en skoarber te meitsjen.

🟡 Trap 1 — BT-014-GILBERT

Presintaasje. In 24-jierrige man mei in totale bilirubine fan 2.4 mg/dL. It direkte diel is normaal, transaminasen en alkaline fosfatase sitte binnen harren referinsjereeksen, retikulocyten binne opmerklik net, en haptoglobine en LDH slute hemolyse út.

Korrekte útslach. Gilbert-syndroom — in goedaardige UGT1A1-polymorfisme. De útslach moat gjin hepatitis, sirkrose, hemolytyske anemia, of biliêre obstruksje oproppe.

V11-resultaat. Gearstalde 1.000. Gjin fan de seis monitorearre oer-diagnoaze-flaggen ferskynde as aktive diagnoazen.

🟡 Trap 2 — BT-015-HEALTHY

Presintaasje. In 35-jierrige frou mei in fyftjin-parameter routine screeningpaniel. Elke analyte sit noflik binnen syn referinsjereeks.

Korrekte útslach. Tredens en ûnderhâld fan libbensstyl. De útlis moat gjin grinslizzende patology útoefenje om klinysk nuttich te lykjen.

V11-resultaat. Komposyt 1.000. Gjin fan de sân kontrolearre flags foar oeroerdiagnose—diabetes, bloedarmoede, hypothyroïdisme, dyslipidemy, hepatitis, niersykte, tekoart—ferskynde as aktive diagnoaze.

Yn beide traps waarden trettjin kontrolearre flags foar hyperdiagnose neigien. Gjin dêrfan waard aktivearre. Dit is it resultaat dat it meast telt foar elke klinikus dy't oerweaget in AI-motor te brûken as triage- of pre-konsultaasje-ark: it systeem betocht gjin sykte dêr’t gjin wie.

Mentzer-yndeks: izertekoart skiede fan it eigenskip fan thalassemy

In twadde fynst mei hege wearde giet oer it kepeljen fan saak BT-001 (izertekoartbloedarmoede) mei saak BT-007 (lytse beta-thalassemia). Beide presintearje mei mikrosytose en binne in bekend struikelblok foar ûnûnderfine klassifiseerders. De Mentzer-yndeks, berekkene as MCV dield troch it RBC-oantal, giet boppe 13 by izertekoart en falt ûnder 13 by thalassemia-eigenskip.

Yn BT-001 wie de pasjint in frou fan 34 jier mei hemoglobine 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritine 6 ng/mL, en ferhege TIBC. De Mentzer-yndeks fan likernôch 17.7 stipet absolute izertekoart. Yn BT-007 wie de pasjint in man fan 28 jier mei mikrosytose (MCV 65.8 fL) mar in heech RBC-oantal fan 6.2, in normale RDW, normaal ferritine, en HbA2 fan 5.6 prosint. De Mentzer-yndeks fan likernôch 10.6 wiist op thalassemia-eigenskip, en it ferhege HbA2 befêstiget lytse beta-thalassemia.

Izertekoartbloedarmoede Mentzer > 13 Leech ferritine, leech TSAT, heech TIBC, ferhege RDW

Beta-thalassemia-eigenskip Mentzer < 13 Normaal ferritine, normale RDW, ferhege HbA2 (>3.5%), heech RBC-oantal

Beide gefallen skoarden 1.000. De motor brûkte de Mentzer-yndeks eksplisyt yn beide útlis en joech yn elk gefal de juste diagnoaze werom. Dit is it iennichste meast klinysk treastjende resultaat yn de hiele benchmark, om’t it ferkeard klassifisearjen fan thalassemia-eigenskip as izertekoart liedt ta ûnpassende izeroanfolling en miste kânsen foar screening fan famylje, en it ferkeard klassifisearjen fan izertekoart as thalassemia fertrage ienfâldige ferfangende behanneling. Us ferritine-berikgids ferklearret de bredere differinsjaal-kontekst.

Resultaten per gefal út de run fan april 2026

Tolve fan fyftjin gefallen berikten it plafond-komposyt skoar fan 1.000 op it primêre paad. Trije gefallen waarden tsjinne fia de Phase 2 fallback, en ferlearen de 0.05 latency-bonus wylst alle klinyske en strukturele ynhâld behâlden bleau. Ien gefal miste in inkeld ferplicht subparagraaf; ien joech in wat fermindere som fan de kânsferdieling werom.

Saak-ID Spesjaliteit Gearstalde Latinsje Paad

BT-001-IDAHematology1.00017.8 sprimêr

BT-006-B12Hematology1.00018.4 sprimêr

BT-007-THALHematology1.00017.0 sprimêr

BT-002-HASHEndokrinology0.95037.0 sweromfalle

BT-008-PCOSEndokrinology0.98718.6 sprimêr

BT-003-T2DMMetabolysk1.00019.1 sprimêr

BT-013-GOUTMetabolysk1.00019.4 sprimêr

BT-004-NAFLDHepatology1.00019.6 sprimêr

BT-009-VIRHEPHepatology0.95023.4 sweromfalle

BT-014-GILBERTTrap1.00018.9 sprimêr

BT-005-CKDNefrology1.00017.4 sprimêr

BT-010-ASCVDKardiology1.00019.7 sprimêr

BT-011-SLEReumatology0.98118.2 sprimêr

BT-012-VITDEndokrinology1.00019.3 sprimêr

BT-015-HEALTHYTrap1.00018.7 sweromfalle

De PCOS-saak (BT-008) ferlear in inkeld ferplicht subdiel yn de antwurdstruktuer — fyftjin fan sechtjin ynstee fan sechtjin fan sechtjin — wat it strukturele skoare ôfskeakele fan 1.000 nei 0.963. De SLE-saak (BT-011) joech in mar wat fermindere som fan kânsferdielingen werom, dy't it klinyske skoare nei 0.965 brocht, wylst elke diagnostyske trefwurd en skoaringsysteem bewarre bleaun. Gjin fan beide net-optimale gefallen miste in juste diagnoaze.

Wat de kopscore ús net fertelt

In gearstalde skoare fan 99.12 prosint ûnder dizze spesifike pre-registriere rubric stiet foar hast-plafondprestaasjes, mar it fertsjinnet soarchfâldige ynkadering. It resultaat beskriuwt it gedrach fan de motor tsjin fyftjin soarchfâldich selektearre anonymisearre gefallen, elk ien kear beoardiele, tsjin ien rubric. Wy binne dúdlik oer wat it nûmer wol en net fêststelt.

De skoare seit dat de V11-motor de diagnostyske patroanen dy't foar dizze evaluaasje selektearre binne korrekt behannele, mei in metodyk dy't publisearre en reprodusearber is. It seit net dat de motor korrekt is foar elke bloedtestpaniel dy't yn it wyld bestiet. It seit net dat de motor it oardiel fan in klinikus ferfange moat. En it seit net dat de motor better presteart as alternative AI-systemen — fergelykjende analyses tsjin oare motoren wiene doelbewust bûten it berik fan dit rapport.

Wat de skoare wol fêststelt is in basisline. Mei de rubric en harness iepenbier, kinne takomstige ferzjes fan de motor beoardiele wurde tsjin deselde fyftjin gefallen, en it gat tusken de publisearre skoare en elke folgjende run is sels mjitber. Dit is de wearde fan pre-registraasje: it konvertearret prestaasjeclaims nei testbere claims.

Hoe’t jo dit benchmark yn 10 minuten neikomme kinne

Reproduksje fereasket allinnich in Kantesti API-credential pear en in Python 3.10 of letter omjouwing mei de requests en reportlab biblioteken ynstallearre. De folsleine harness is ien inkeld, selsstannich Python-module útbrocht ûnder de MIT-lisinsje.

💻 GitHub MIT-lisinsje harness · rauwe antwurden · referinsjerun 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanonike akademyske rekord 🎓 Undersykspoarte Publikaasje 404175463 · akademyske ûntdekkingslaach 📄 Academia.edu Paper 165956808 · akademyske ûntdekkingslaach

Fjouwer stappen foar in nije run

Ien. Klonearje de repository: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Twa. Ynstallearje ôfhinklikens mei pip install -r requirements.txt. Trije. Stel yn KANTESTI_USERNAME en KANTESTI_PASSWORD as omjouwingsfariabelen — bewiisbrêgen wurde by runtime lêzen en der wurdt neat hurd kodearre yn it skript. Fjouwer. Rinne python benchmark_bloodtest.py en besjoch de fjouwer artefakten dy’t nei de wurkmap útskreaun wurde: in CSV-scorekaart, in JSON-scorekaart, in folsleine JSON-útstort mei rauwe engine-antwurden, en in minskelêsber Markdown-rapport.

De referinsjerun fan 23 april 2026 wurdt bewarre yn de results/ map fan de repository. In nije run sil in nije, mei tiidstempel markearre scorekaart produsearje, wylst de referinsjerun ûnreplikearre bliuwt. As jo run in betsjuttingsfol oars resultaat jout, iepenje dan in GitHub-issue mei de run-tiidstempel en de engine-ferzje dy’t weromjûn is yn de response-metadata.

Beheiningen en takomstich wurk

Fjouwer beheiningen fertsjinje in dúdlike erkenning: stekproefgrutte, single-shot-evaluaasje, single-engine-omfang, en single-source-data-oarsprong. Elk dêrfan wurdt adressearre yn aktyf neiwurk.

Stekproefgrutte. Fyftjin gefallen oer acht spesjaliteitsbûsen is genôch foar in bewiis fan konsept, mar net foar subgroepanalyse binnen in spesjaliteit. Útwreiding nei fyftich gefallen is pland en sil koagulaasjepanels, screening op hematologyske maligniteiten, swierenspanels, en pediatryske presintaasjes omfetsje.

Single-shot-evaluaasje. Elk gefal waard ien kear evaluearre. Grutte taalmodellen litte net-triviale útfierfariânsje sjen sels by lege samplingtemperatuer, dus in multi-run-protokol mei fiif evaluaasjes per gefal en rapporteare fariânsje is in natuerlike folgjende stap.

Single-engine-omfang. Dit rapport karakterisearret ien engine. Ferlykjende analyses tsjin alternative AI-systemen falle hjir bûten de scope; wy kinne se mooglik as in aparte ûnôfhinklike stúdzje ûndernimme mei passende metodology.

Single-source-data-oarsprong. De fyftjin gefallen binne anonymisearre echte pasjintrekords út ien klinyske repository. Se fertsjintwurdigje in selektearre stekproef en binne net in willekeurige, befolkings-representative lûking. It útwreidzjen fan de evaluaasje nei multi-sintrumdata stiet op de roadmap.

De meast ynfloedrike plande útwreiding is multi-taal-pariteit. De Kantesti AI Engine tsjinnet brûkers yn 75+ talen, en it rinnen fan deselde fyftjin-gefallen-harnas yn Turksk, Dútsk, Spaansk, Frânsk en Arabysk sil de útfierkwaliteit kwantifisearje oer de talen dy’t de engine stipet. Wy sille elke taalspesifike run publisearje mei syn eigen DOI en harnas-branch.

Besykje deselde engine dy’t 99.12% Kompositescore helle

Upload jo eigen bloedtestpaniel nei itselde produksje-eindpunt dat yn dizze benchmark evaluearre is. Mear as 2 miljoen brûkers wrâldwiid brûke de Kantesti AI Engine om mear as 15,000 biomerkers te ynterpretearjen yn 75+ talen.

🔬 Besykje fergese demo

Chrome-útwreiding App Store Google Play

📚 Hoe sitte dizze benchmark oan

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Klinyske falidaasje fan de Kantesti AI Engine (2.78T)
                 op 15 anonymisearre gefallen fan bloedtests: In pre-registrearre
                 rubryk-basearre benchmark mei hyperdiagnoaze-trap
                 gefallen oer sân medyske spesjalismen},
  institution = {Kantesti Ltd},
  address     = {Londen, Feriene Keninkryk},
  year        = {2026},
  month       = {April},
  type        = {Technysk rapport},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Klinyske falidaasje fan de Kantesti AI Engine (2.78T) op 15 anonymisearre gefallen fan bloedtests: In pre-registrearre rubryk-basearre benchmark mei hyperdiagnoaze-trapgefallen oer sân medyske spesjalismen (Technysk rapport V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Related Kantesti-falidaasjewurk

Klein, T. (2025). Klinysk falidaasjekader foar AI-oandreaune bloedtestynterpretaasje: Triple-Blind falidaasjemetodyk, prestaasjemetriken en kwaliteitsfersekeringsprotokollen. Kantesti AI medysk ûndersyk.

🎓 Undersykspoarte

📖 Eksterne metodologyske referinsjes

Mentzer, W. C. (1973). It ûnderskieden fan izertekoart fan thalassemy-karakter. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Jeropeeske Liga tsjin Rheumatisme / Amerikaanske kolleezje foar Rheumatology klassifikaasjekritearia foar systemyske lupus erythematosus. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medysk domein hallusinaasjetest foar grutte taalmodellen. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Komposit skoare

15Skoarde gefallen

7Spesjalismen

0Trap falsk-posityven

Faak stelde fragen

Hoe akkuraat is de Kantesti AI-motor op echte gefallen fan bloedûndersyk?

Op in pre-registrearre rubryk fan 15 anonymisearre echte pasjintgefallen fan bloedtests oer sân medyske spesjalismen berikte de Kantesti AI Engine V11 in komposit skoare fan 99.12 prosint, mei nul hyperdiagnoaze falsk-posityven op sawol de trapgefallen as in gemiddelde antwurdlaten fan 20.17 sekonden. It folsleine skoareboerd per gefal wurdt publisearre op Figshare ûnder DOI 10.6084/m9.figshare.32095435 en op GitHub ûnder MIT-licinsje.

Is de Kantesti AI-motor klinysk falidearre?

Ja. De motor is klinysk falidearre tsjin in rubryk dy't yn boarnekoade beferzen wie foardat de motor oproppe waard, evaluearre op 15 anonymisearre bloedtestgefallen oer hematology, endokrinology, metabolike medisinen, hepatology, nefrology, kardiology en reumatology. Klinysk tafersjoch waard levere troch dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), board-sertifisearre klinysk hematolooch en Chief Medical Officer by Kantesti AI.

Wat is in hyperdiagnoaze-trapgefal?

In hyperdiagnose-trapgefal is in klinysk senario dat spesifyk ûntwurpen is om oer-diagnostysk gedrach yn AI-motoren te ûntdekken. De Kantesti V11-benchmark brûkt twa fan sokke gefallen. De earste is in isolearre yndirekte hyperbilirubinemia dy't past by it syndroom fan Gilbert, wêrby’t de juste útlis de goedaardige UGT1A1-polymorfisme is ynstee fan hepatitis of hemolyse. De twadde is in folslein normaal folwoeksen screeningpaniel, wêrby’t de juste útkomst gerêststelling en ûnderhâld fan libbensstyl is ynstee fan in makke grinslizzende patology.

Is de evaluaasje fan de Kantesti AI-motor werhellber?

De folsleine evaluaasjefasiliteit wurdt frijjûn ûnder de MIT-lisinsje as ien selsstannich Python-module. Reproduksje fereasket allinnich in Kantesti API-credential pear en Python 3.10 of letter. De koade, de case-definysjes, en elke rauwe antwurd fan de motor út de referinsjerun fan april 2026 binne beskikber op github.com/emirhanai/kantesti-blood-test-benchmark en spegele op Figshare, ResearchGate, en Academia.edu.

Hoe ûnderskiedt de Kantesti AI-motor izertekoart fan it skaaimerk fan beta-talassemy?

De motor tapast de Mentzer-yndeks, berekkene as it gemiddelde korpuskulêre folume dield troch it oantal reade bloedsellen. In Mentzer-yndeks boppe 13 stipet izertekoart-anemy, wylst in wearde ûnder 13 it trait fan beta-thalassemy stipet. Yn de V11-benchmark waarden beide presintaasjes korrekt klassifisearre mei dúdlike Mentzer-yndeksberekkening, stipe troch ferritine, RDW, en HbA2-kontekst.

Wêr kin ik de rauwe benchmarkgegevens en boarnekoade fine?

It technyske rapport wurdt dellein op Figshare ûnder DOI 10.6084/m9.figshare.32095435, spegele op ResearchGate-publicaasje 404175463 en Academia.edu-papier 165956808, en de MIT-lisinsjeare Python-fasiliteit mei alle referinsjeresultaten is te finen op github.com/emirhanai/kantesti-blood-test-benchmark. It spegelnetwurk mei fjouwer platfoarms soarget foar lange-termyn beskikberens en fleksibiliteit yn sitaten.

Wêrom is pre-registraasje wichtich foar AI-medyske benchmarks?

Pre-registraasje foarkomt post-hoc rubryk-tuning, dat is de iennichste meast foarkommende manier wêrop bedriuws-rinnen benchmarks harren eigen sifers opblaze. Troch de rubryk yn boarnekoade te befriezen foardat der ek mar ien motor-oprop dien wurdt en de fasiliteit iepenbier te publisearjen, wurde de datumstempels fan de rubryk-auteur ynspektearber yn ferzjekontrôle, en kinne de motorresultaten de skoaringskritearia net beynfloede hawwe.

Befettet dizze benchmark fergelikingen mei oare AI-motoren?

Nee. It V11-rapport karakterisearret doelbewust ien motor tsjin in fêste rubryk ynstee fan him te pleatsen tsjin alternative kommersjele systemen. De fasiliteit is iepen boarne ûnder de MIT-lisinsje, sadat ûnôfhinklike ûndersikers elke motor dy’t se wolle evaluearje kinne tsjin deselde fyftjin gefallen en rubryk en harren resultaten publisearje.

Binne de pasjintgefallen echt of syntetysk?

De fyftjin gefallen binne anonymisearre echte pasjintrekords, lutsen út de Kantesti-klinyske databank ûnder skriftlike ynformearre tastimming. De-identifikaasje waard útfierd neffens de Safe Harbor-oanpak, mei alle direkte identifisearjende gegevens fuorthelle of ferfongen. Ferwurking barde yn oerienstimming mei GDPR-artikel 9(2)(j) en de lykweardige bepalingen fan UK GDPR. Gjin persoanlike identifisearjende ynformaasje komt foar yn de publisearre fasiliteit, it technyske rapport, of de frijjûne datasets.

⚕️ Medyske warskôging & konflikt fan belang

Dit benchmarkrapport is foar ûndersyks- en metodologyske transparânsjedoelen. It foarmet gjin medysk advys. Rieplachtsje altyd in kwalifisearre soarchferliener foar besluten oer diagnoaze en behanneling. Beide auteurs binne yn tsjinst by en hawwe oandielen yn Kantesti Ltd, en de motor dy’t evaluearre wurdt is in kommersjeel produkt fan deselde organisaasje. Dit konflikt fan belang wurdt beheind troch de rubryk te pre-registrearjen yn boarnekoade, de fasiliteit frij te jaan ûnder de MIT-lisinsje, en elke rauwe antwurd fan de motor te publisearjen.

E-E-A-T fertrouwensignalen

⭐

Ûnderfining

15+ jier ûnderfining yn klinyske hematology en laboratoariummedisinen, mei tafersjoch op de seleksje fan it casepaniel.

📋

Ekspertize

Pre-registraasje fan rubrykûntwerp mei eksplisite hyperdiagnose-straffen en erkende klinyske skoaringssystemen (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoriteit

Haadauteur dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Ymplemintaasje troch Julian Emirhan Bulut, CEO fan Kantesti Ltd.

🛡️

Betrouberens

MIT-lisinsjeare reprodusearbere fasiliteit, rauwe motorantwurden publisearre, iepen konflikt-of-belang-ûntbleating, spegelnetwurk foar ûndersyk mei fjouwer platfoarms.

🏢 Kantesti LTD Registrearre yn Ingelân & Wales · Bedriuw nûmer. 17090423 Londen, Feriene Keninkryk · kantesti.net