Kantesti mesterséges intelligencia-alapú vérvizsgálati benchmark

Klinikai validáció Előre regisztrált benchmark V11 — 2026 április MIT-licencelt Peer által ellenőrizhető

99.12% kompozit pontszám egy előre regisztrált értékelési rubrikán, nulla túlzott diagnózis miatti álpozitív eredménnyel

A Kantesti AI Engine független, előre regisztrált klinikai értékelése anonimizált vérvizsgálati eseteken. A pontrendszer (rubrika) a legelső motorhívás előtt rögzítve lett a forráskódban, az értékelési keretrendszer MIT-licenc alatt áll, és minden nyers válasz közzétételre kerül.

📖 ~14 perc 📅 2026. április 23. 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Megjelent: 2026. április 23. 🩺 Orvosilag felülvizsgálta: 2026. április 23. ✅ Előre regisztrált rubrika 🔓 Nyílt kód és adatok

Ezt a klinikai validációs vizsgálatot vezette: Dr. Thomas Klein, a Kantesti AI Chief Medical Officer-e, együttműködésben: Julian Emirhan Bulut, a Kantesti Ltd Senior AI Engineer-e és vezérigazgatója. A módszertant és a rubrikát a következők felülvizsgálták: Kantesti AI Orvosi Tanácsadó Testület.

Vezető szerző és klinikai felügyelet

Dr. Thomas Klein

Főorvos, Kantesti AI

Dr. Thomas Klein okleveles klinikai hematológus és belgyógyász, több mint 15 év tapasztalattal a laboratóriumi orvoslás területén. A Kantesti AI Chief Medical Officer-eként ő választotta ki a benchmarkhoz használt esetsort, felülvizsgálta az összes diagnosztikus „ground truth”-ot, és jóváhagyta az előre regisztrált rubrikát még a legelső motorhívás előtt.

ORCID 0009-0009-1490-1321 ResearchGate Google Tudós

Társszerző & implementáció

Julian Emirhan Bulut

Senior AI Engineer & vezérigazgató, Kantesti Ltd

Julian Emirhan Bulut a Kantesti Ltd alapítója és vezérigazgatója. Ő tervezte és valósította meg az értékelési keretrendszert, elvégezte az API-integrációt, lebonyolította a 2026 áprilisi benchmark futtatást, és elkészítette a statisztikai összesítést. A platform alapítója 2019 óta.

GitHub Kantestiről

⚡ Gyors összefoglaló V11 — 2026. április 23.

99.12% kompozit pontszám 15 anonimizált, valós páciens vérvizsgálati eseten, hét orvosi szakterületen.
Nulla túlzott diagnózisú (hyperdiagnosis) álpozitív eredmény mindkét csapdaesetben (Gilbert-kór és egy teljesen normális felnőtt szűrőpanel).
Előre regisztrált értékelési rubrika a forráskódban rögzítve az első motorhívás előtt — utólagos hangolásra nem volt lehetőség.
Mentzer-index helyesen alkalmazva az vashiányos anaemia elkülönítésére a béta-thalassaemia minor-tól.
Csak gyártási végpont — nincs privilégizált útvonalválasztás, pontosan úgy lett kiértékelve, ahogy egy fizető ügyfél hozzáférne.
20,17 másodperces átlagos késleltetés végponttól végpontig, 15 esetből 12 az elsődleges 20 másodperces célérték alatt.
MIT-licencű tesztkörnyezet (harness) megjelent a GitHubon minden nyers motorválasszal együtt — támogatott a független reprodukció.
Figshare DOI: 10.6084/m9.figshare.32095435 · Tükrözve a ResearchGate-en, Academia.edu-n, GitHubon.

Miért létezik ez a benchmark, és mit tesztel

A mesterséges intelligencia által támogatott vérkép értelmezése egyre inkább elterjedt a fogyasztói és klinikai munkafolyamatokban, ugyanakkor a laboratóriumi orvoslásra szabott, reprodukálható értékelési keretrendszerek továbbra is ritkák. Ebben a környezetben a legfontosabb kérdések nem azok, amelyeket az általános orvosi kérdés-válasz benchmarkok lefednek: képes-e egy motor elkülöníteni a vashiányt a thalassaemia-tréjtől, ha a vörösvértestek átlagos térfogata (MCV) azonos, túldiagnosztizálja-e a Gilbert-kórt hepatitiszként, és képes-e kóros eltérést „gyártani” egy teljesen normális szűrőpanelben?

Egyetlen vérvizsgálati panel általában elég jelet tartalmaz ahhoz, hogy több, egymással versengő értelmezést is alátámasszon, és az értelmező klinikus feladata nem az, hogy tankönyvi választ „előhúzzon”, hanem hogy ezeket az értelmezéseket egymáshoz mérlegelje. Az a motor, amely jól teljesít a tankönyvi esetekben, még elbukhat azokon az eseteken, amelyek a legfontosabbak: a differenciáldiagnosztikai buktatókon, az ártalmatlan variánsokon, amelyek önmagukban riasztónak tűnnek, és a teljesen normális paneleken, amelyek arra csábítják a magabiztos asszisztenseket, hogy kóros eltérést „gyártsanak”.

Ezt a benchmarkot pontosan ezekre a hibamódokra építették. A tizenöt esetet mindegyikhez egy-egy konkrét diagnosztikai tulajdonság alapján választották ki: egy vashiányos mikrocitózist, amelyet el kell különíteni a azonos átlagos vörösvértest-térfogattal (MCV) járó béta-thalasszémia-hordozó állapottól; egy Gilbert-kór megjelenést, ahol az egyetlen eltérés a szisztolált (indirekt) hiperbilirubinémia; valamint egy tizenöt paraméteres szűrőpanelt, amelyben minden analit a saját referencia-tartományán belül van. A rubrika jutalmazza azokat a motorokat, amelyek az egyes eseteket a maguk feltételei szerint olvassák el, és bünteti azokat, amelyek olyan magabiztos diagnózist próbálnak megállapítani, amelyre nincs is indok.

Thomas Klein, MD-ként azért választottam ezt az esetsort, mert ezek azok a mintázatok, amelyeket a laboratóriumi medicina asszisztensei a leggyakrabban rosszul kezelnek. A költséges hibamód nem az, hogy "kihagynak egy ritka betegséget" — hanem az, hogy rutinszerű kóros leleteket gyártanak olyan páciensek számára, akiknél az nincs is jelen. A miénk Orvosi validáció A hub leírja a tágabb keretrendszert; ez az oldal a V11 motoron elért alkalmazott eredményét ismerteti.

Legfrissebb referenciafuttatás — V11 (2026 április)

A Kantesti AI Engine V11 április 2026-os referenciafuttatása összesített pontszámot adott: 99.12% a pre-regisztrált tizenöt esetből álló rubrikán. Mindkét hiperdiagnózis-csapda eset a plafont érte el. A Mentzer-indexet helyesen alkalmazták a vashiány–thalasszémia differenciáldiagnózisban.

Összesített 99.12% 15/15 eset pontszáma

0.998 Strukturális pontszám

0.998 Klinikai pontszám

20,17 s Átlagos késleltetés

0 / 13 Csapda jellegű ál-pozitívok

Az összesített képlet három összetevőt kombinál: strukturális megfelelés a hét kötelező jelentési szekcióval és tizenhat kötelező alcímmel, klinikai pontosság mérve kulcsszó-visszahívással + pontozási rendszer visszahívással + valószínűségi eloszlás érvényességi ellenőrzéssel, és válasz késleltetése a 20 másodperces elsődleges szolgáltatási szint célértékhez képest. A pontos bontást az alábbi rubrika-képlet mutatja.

Összesített = 0.35 × Strukturális + 0.55 × Klinikai + 0.10 × Késleltetés

A fennmaradó 0,88 százalékpontnyi tartalék (headroom) szinte teljes egészében a késleltetési veszteségre bomlik — három 2. fázisú, visszaesési (fallback) hívás, amelyek mindegyike mínusz 0,05-ös kompozit értékkel járult hozzá, a 0,88 pontos hiányból körülbelül 0,60-at adott — nem pedig klinikai tartalomra. A motor a tizenöt eset egyikében sem mulasztott el helyes diagnózist; ahol alulteljesített, ott a 20 másodperces elsődleges (primary-path) célhoz képest valamivel hosszabb ideig tartott a hívások egy kis kisebbségében.

Tizenöt eset hét orvosi szakterületen

Az esettanács hét szakterületet fed le — hematológia, endokrinológia, anyagcsere-orvostan, hepatológia, nefrológia, kardiológia, reumatológia — valamint két dedikált hiperdianosztikai csapdaesetet. Minden eset egy anonimizált, valós betegnyilvántartás, amely a Kantesti klinikai adattárból származik, írásos, tájékozott beleegyezéssel.

Az anonimizálás a Safe Harbor megközelítéssel történt: minden közvetlen azonosítót eltávolítottak vagy helyettesítettek, és minden nyilvántartáshoz egy benchmarkon belüli esetszámot rendeltek a BT-NNN-LABEL formátumban. A feldolgozás a következők szerint történt: GDPR 9. cikk (2) bekezdés j) pont tudományos kutatás céljából, megfelelő biztosítékok mellett, valamint a megfelelő, az Egyesült Királyság GDPR-nek megfelelő rendelkezések szerint. A közzétett tesztkörnyezetben (harness), a technikai jelentésben vagy a kiadott adatkészletekben sehol nem jelenik meg személyazonosításra alkalmas információ.

Hematológia (3) BT-001, BT-006, BT-007 Vashiányos anaemia · B12-hiány · Minor béta-thalasszémia

Endokrinológia (3) BT-002, BT-008, BT-012 Hashimoto-féle thyreoiditis · PCOS inzulinrezisztenciával · Súlyos D-vitamin hiány

Anyagcsere (2) BT-003, BT-013 T2DM metabolikus szindrómával · Hyperurikaemia köszvénykockázattal

Hepatológia (2) BT-004, BT-009 NAFLD / NASH · Akut virális hepatitis

Nefrológia · Kardiológia · Reumatológia (3) BT-005, BT-010, BT-011 3. stádiumú CKD · Atherogén diszlipidémia · Szisztémás lupus erythematosus

Csapdaesetek (2) BT-014, BT-015 Gilbert-kór (izolált indirekt hyperbilirubinaemia) · Teljesen normál felnőtt szűrés

Miért pont ez az eloszlás

A hematológia három esetet kap, mert a mikrocitás differenciáldiagnózisok és a makrocitás differenciáldiagnózisok a legnagyobb volumenű csapdák a valós laboratóriumi gyakorlatban. Az endokrinológia is három esetet kap, mert a Hashimoto-kór, a PCOS és a D-vitamin hiány megjelenési formái eltérő diagnosztikai alakzatokat gyakorolnak (autoantitest-vezérelt, hormonarany-vezérelt, egyetlen marker-vezérelt). Az egyeletes szakterületek továbbra is jelentősek, mert a CKD, az ASCVD-kockázat és az SLE mindegyikének saját pontozási rendszere van, amelyet a motor hívjon meg (KDIGO-stádium, ASCVD 10 éves kockázat, illetve 2019 EULAR/ACR SLE kritériumok).

Az előre regisztrált rubrika, magyarázata

Az előregisztráció a legfontosabb módszertani döntés ebben a benchmarkban. Minden várt diagnózis, minden klinikai pontozási rendszer és minden jelentésrész a forráskódba lett rögzítve mielőtt a motort meghívták. A rubrika utólagos finomhangolása tehát a motor „kényeztetésére” lehetetlen.

A kompozit pontszámot három komponens alkotja. A strukturális komponens 35 százalékot tesz ki, és azt méri, hogy a motor visszaadta-e a hét kötelező jelentésrészt (fejléc, összefoglaló, fő megállapítások, differenciál, pontozási rendszerek, ajánlások, utánkövetés) és a bennük lévő tizenhat kötelező alszakaszt. A szakasz-meglét 40 százalékot, az alszakasz-meglét pedig 60 százalékot nyom a strukturális számításban.

A klinikai komponens 55 százalékot tesz ki, és három dolgot egyesít: diagnózis-kulcsszó felidézés (a klinikai alszám 70 százaléka), pontozási rendszer felidézés (20 százalék — a motor kiszámítja-e a Mentzer-, FIB-4-, HOMA-IR-, ASCVD-kockázatot, a KDIGO-stádiumot, valamint az EULAR/ACR kritériumokat, ahol releváns), és egy valószínűség-összeg érvényességi ellenőrzést (10 százalék — a differenciál valószínűségeinek összege a [90, 110] intervallumon belül kell legyen). Csapdaeseteknél legfeljebb 0,30 explicit hiperdagnózis-büntetés kerül levonásra, amely 0,10/fabrikált patológia-flag alapján számolódik, és legfeljebb három flagig van korlátozva.

A késleltetési komponens 10 százalékot tesz ki. A 20 másodpercnél rövidebb válasz megkapja a teljes 0,10-et, a 40 másodpercnél rövidebb válasz 0,05-öt kap, és minden ennél lassabb válasz nulla. A 20 másodperces cél a gyártási elsődleges primary-path szolgáltatási szintű célkitűzést tükrözi; a 40 másodperces felső korlát a 2. fázisú visszaesési keretet jelenti a nagy terhelésű motorhívásokhoz.

Mit akadályoz meg az előregisztráció

Az első fél által készített benchmarkok hírhedtek amiatt, hogy utólagos rubrika-finomhangolással felfújják a saját számaikat. A minta szinte mindig ugyanaz: a csapat lefuttatja a motort, látja, hol teljesít alul, majd csendben úgy állítja át a rubrikát, hogy az alulteljesítő területek kevesebbet számítsanak. A rubrikának az első motorhívás előtt a forráskódba rögzítésével és a tesztkör MIT licenc alatti közzétételével ez az átalakítás láthatóvá válik a verziókezelésben. Bárki klónozhatja a repót, ellenőrizheti a rubrika szerzői dátumait, és igazolhatja, hogy a motor eredményeit nem használták a pontozás alakítására.

Hiperdagnózis-csapda esetek — miért a túlzott „rámondás” a valódi hibamód

A patológia agresszív túlhívása normál szűrőképernyőkön dokumentált hibamódja a fogyasztóknak szánt orvosi asszisztenseknek. Ennek a következményköltségei közé tartozik a szükségtelen kivizsgálás, a beteg szorongása és az iatrogén kivizsgálás. A benchmark két csapdaesete úgy van kialakítva, hogy ez a hibamód látható és pontozható legyen.

🟡 1. csapda — BT-014-GILBERT

Megjelenés. Egy 24 éves férfi összbilirubinszintje 2,4 mg/dL. A direkt frakció normális, a transzaminázok és az alkalikus foszfatáz a saját referencia-tartományukon belül vannak, a retikulociták nem feltűnőek, és a haptoglobin valamint az LDH kizárja a haemolysist.

Helyes értelmezés. Gilbert-kór — egy jóindulatú UGT1A1 polimorfizmus. Az értelmezés nem hivatkozhat hepatitisre, cirrhosisra, haemolyticus anaemiára vagy epeúti obstrukcióra.

V11 eredmény. Kompozit 1.000. A hat monitorozott túldiagnózis-flag közül egyik sem jelent meg aktív diagnózisként.

🟡 2. csapda — BT-015-HEALTHY

Megjelenés. Egy 35 éves nő egy tizenöt paraméteres rutin szűrőpanellel. Minden analit kényelmesen a saját referencia-tartományán belül van.

Helyes értelmezés. Megnyugtatás és életmódbeli fenntartás. Az értelmezés nem gyárthat határérték-közeli kórképeket pusztán azért, hogy klinikailag hasznosnak hasson.

V11 eredmény. Összetett 1.000. A hét monitorozott túldiagnosztizálási riasztás közül egyetlen sem jelent meg aktív diagnózisként — cukorbetegség, vérszegénység, hypothyreosis, diszlipidémia, hepatitis, vesebetegség, hiányállapot.

Mindkét mintavételi ponton összesen tizenhárom monitorozott hiperdianosztizálási riasztást ellenőriztek. Egyetlen sem aktiválódott. Ez az az eredmény, amely a legfontosabb bármely klinikus számára, aki mesterséges intelligencia motort triázs- vagy konzultációt megelőző eszközként kíván használni: a rendszer nem talált ki betegséget, ha nem létezett.

Mentzer-index: a vashiány elkülönítése a thalasszémia minor (thalaszszémia-hordozói) jellegtől

Egy másik, nagy értékű megállapítás a BT-001-es eset (vashiányos vérszegénység) és a BT-007-es eset (béta-thalasszémia minor) párosítása. Mindkettő mikrocitózissal jár, és ez egy jól ismert buktató a naiv osztályozók számára. A Mentzer-index, amelyet az MCV osztva az RBC-számmal számolnak, vashiányban 13 felett van, thalasszémia-hordozói állapotban pedig 13 alatt.

A BT-001-ben a beteg 34 éves nő volt, hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritin 6 ng/mL, valamint emelkedett TIBC. A körülbelül 17,7-es Mentzer-index igazolja a tényleges vashiányt. A BT-007-ben a beteg 28 éves férfi volt mikrocitózissal (MCV 65,8 fL), de magas RBC-számmal (6,2), normál RDW-vel, normál ferritinnel és 5,6 százalékos HbA2-vel. A körülbelül 10,6-os Mentzer-index thalasszémia-hordozói állapotra utal, és az emelkedett HbA2 megerősíti a béta-thalasszémia minort.

Vashiányos vérszegénység Mentzer > 13 Alacsony ferritin, alacsony TSAT, magas TIBC, emelkedett RDW

Béta-thalasszémia-hordozói állapot Mentzer < 13 Normál ferritin, normál RDW, emelkedett HbA2 (>3.5%), magas RBC-szám

Mindkét eset 1.000 pontszámot kapott. A motor mindkét értelmezésben kifejezetten a Mentzer-indexet használta, és minden alkalommal helyes diagnózist adott. Ez a teljes benchmark leginkább klinikailag megnyugtató eredménye, mert a thalasszémia-hordozói állapot vashiányként való téves besorolása nem megfelelő vaspótlást eredményez, és elmaradnak a családszűrési lehetőségek; a vashiány thalasszémiaként való téves besorolása pedig késlelteti az egyszerű helyettesítő kezelést. A mi ferritin-tartomány-irányelvünk magyarázza a tágabb differenciáldiagnosztikai kontextust.

Esetenkénti eredmények a 2026. áprilisi futásból

Tizenöt esetből tizenkettő elérte a primer útvonalon az 1.000-es plafon összetett pontszámot. Három esetet a 2. fázisú visszaeséssel szolgáltak ki, elveszítve a 0,05-ös késleltetési bónuszt, miközben megőrizték az összes klinikai és strukturális tartalmat. Egy esetből hiányzott egyetlen kötelező alszakasz; egy pedig csak kismértékben csökkentett valószínűségi eloszlásösszeget adott vissza.

Esetazonosító Szakirány Összesített Késleltetés Útvonal

BT-001-IDAHematológia1.00017,8 sprimer

BT-006-B12Hematológia1.00018,4 mpprimer

BT-007-THALHematológia1.00017,0 mpprimer

BT-002-HASHEndokrinológia0.95037,0 mpvisszaesés

BT-008-PCOSEndokrinológia0.98718,6 mpprimer

BT-003-T2DMMetabolikus1.00019,1 mpprimer

BT-013-GOUTMetabolikus1.00019,4 mpprimer

BT-004-NAFLDHepatológia1.00019,6 mpprimer

BT-009-VIRHEPHepatológia0.95023,4 mpvisszaesés

BT-014-GILBERTCsapda1.00018,9 mpprimer

BT-005-CKDNefrológia1.00017,4 mpprimer

BT-010-ASCVDKardiológia1.00019,7 mpprimer

BT-011-SLEReumatológia0.98118,2 mpprimer

BT-012-VITDEndokrinológia1.00019,3 mpprimer

BT-015-EGÉSZSÉGESCsapda1.00018,7 mpvisszaesés

A PCOS-eset (BT-008) elveszített egyetlen kötelező alfejezetet a válaszstruktúrában — tizenhatból tizenöt helyett tizenhatból tizenhat —, ami a strukturális pontszámot 1,000-ről 0,963-ra csökkentette. Az SLE-eset (BT-011) egy csekély mértékben csökkent valószínűségeloszlás-összeggel tért vissza, amely a klinikai pontszámot 0,965-re vitte le, miközben minden diagnosztikai kulcsszót és pontozási rendszert megőrzött. Egyik, tökéletlen alapeset sem mulasztott el egy helyes diagnózist.

Mit nem árul el a főcím pontszáma

A 99,12 százalékos összpontszám ebben a konkrét előre regisztrált értékelési keretrendszerben közel a plafon teljesítményt jelenti, de gondos keretezést igényel. Az eredmény a motor viselkedését írja le tizenöt gondosan kiválasztott anonimizált esettel szemben, amelyek mindegyike egyszer lett kiértékelve, egyetlen keretrendszer szerint. Pontosan megfogalmazzuk, hogy a szám mit állapít meg és mit nem.

A pontszám azt jelzi, hogy a V11-es motor helyesen kezelte az értékeléshez kiválasztott diagnosztikai mintázatokat, egy publikált és reprodukálható módszertan alapján. Nem állítja, hogy a motor minden létező vérvizsgálati panelen helyes. Nem állítja, hogy a motornak ki kellene váltania az orvosi döntéshozatalt. És nem állítja, hogy a motor felülmúlja a többi mesterséges intelligencia rendszert — az összehasonlító elemzések más motorokkal szemben szándékosan nem képezték e jelentés hatókörét.

Amit a pontszám megállapít, az egy alapérték. Mivel a keretrendszer és a futtató környezet nyilvános, a motor jövőbeli verziói ugyanazzal a tizenöt esettel értékelhetők, és a közzétett pontszám és bármely későbbi futás közötti különbség maga is mérhető. Ez az előzetes regisztráció értéke: a teljesítményre vonatkozó állításokat tesztelhető állításokká alakítja.

Hogyan reprodukálható ez a benchmark 10 perc alatt

A reprodukáláshoz mindössze egy Kantesti API hitelesítő adatkészlet és egy Python 3.10 vagy újabb környezet szükséges, a következőkkel: requests és reportlab telepítve. A teljes futtató környezet egyetlen, önálló Python-modul, amelyet az MIT-licenc alatt adtak ki.

💻 GitHub MIT-licencű futtató környezet · nyers válaszok · referenciafuttatás 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanonikus tudományos nyilvántartás 🎓 ResearchGate Publication 404175463 · tudományos felfedezési réteg 📄 Academia.edu Paper 165956808 · tudományos felfedezési réteg

Négy lépés egy friss futtatáshoz

Egy. Klónozd a repót: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Kettő. A függőségek telepítése ezzel: pip install -r requirements.txt. Három. Állítsd be KANTESTI_USERNAME és KANTESTI_PASSWORD környezeti változóként – a hitelesítő adatok futás közben kerülnek beolvasásra, és semmi sincs beégetve a szkriptbe. Négy. Futtasd python benchmark_bloodtest.py és vizsgáld meg a munkakönyvtárba kiírt négy artefaktumot: egy CSV scorecardot, egy JSON scorecardot, egy teljes JSON kiírást (nyers motorválaszokkal együtt), valamint egy ember által olvasható Markdown riportot.

A 2026. április 23-i referenciafuttatás megőrzésre került a results/ könyvtárban a repositoryban. Egy friss futás új, időbélyegzett scorecardot fog létrehozni úgy, hogy a referenciafuttatás érintetlen marad. Ha a futásod érdemben eltérő eredményt ad, kérjük, nyiss egy GitHub issue-t a futás időbélyegével és a válasz metaadataiban visszaadott motorverzióval.

Korlátok és jövőbeli munka

Négy korlátozást külön érdemes egyértelműen elismerni: mintanagyság, egyszeri (single-shot) kiértékelés, egyetlen motor hatóköre, és az adatok egyetlen forrásból származó eredete. Mindegyiket aktív utánkövetési munkák keretében kezeljük.

Minta mérete. Tizenöt eset nyolc szakterületi kategóriában elegendő egy koncepció-bemutatóhoz, de nem elegendő az alcsoport-elemzéshez egy adott szakterületen belül. Az ötven esetre való bővítés tervezett, és magában foglal koagulációs panelek, hematológiai rosszindulatú daganatok szűrését, terhességi paneleket, valamint gyermekgyógyászati megjelenéseket.

Egyszeri kiértékelés. Minden esetet egyszer értékeltünk. A nagy nyelvi modellek nem elhanyagolható kimeneti varianciát mutatnak még alacsony mintavételi hőmérséklet mellett is, ezért a következő természetes lépés egy többfutásos protokoll, esetenként öt kiértékeléssel és jelentett varianciával.

Egyetlen motor hatóköre. Ez a riport egyetlen motort jellemez. Az alternatív mesterséges intelligencia-rendszerekkel végzett összehasonlító elemzések itt nem képezik a hatókört; ezeket megfelelő módszertannal egy külön, független vizsgálat keretében esetlegesen folytathatjuk.

Az adatok egyetlen forrásból származó eredete. A tizenöt eset anonimizált, valós betegnyilvántartás, amely egyetlen klinikai adatbázisból származik. Ez egy válogatott minta, nem pedig a populációt reprezentáló véletlenszerű mintavétel. A kiértékelés több központra kiterjesztése a tervek között szerepel.

A legnagyobb hatású tervezett kiterjesztés a többnyelvű megfelelőség. Az Kantesti AI Engine 75+ nyelven szolgálja a felhasználókat, és ugyanennek a tizenöt esetből álló tesztkészletnek a futtatása törökül, németül, spanyolul, franciául és arabul számszerűsíteni fogja a kimenet minőségét a motor által támogatott nyelvek között. Minden nyelvspecifikus futást a saját DOI-jával és a hozzá tartozó tesztágával együtt közzéteszünk.

Próbáld ki ugyanazt a motort, amely 99.12% kompozit pontszámot ért el

Töltsd fel a saját vérvizsgálati panelt ugyanarra a gyártási (production) végpontra, amelyet ebben a benchmarkban értékeltek. Világszerte több mint 2 millió felhasználó használja az Kantesti mesterséges intelligencia vérelemzést, hogy több mint 15 000 biomarkert értelmezzen 75+ nyelven.

🔬 Próbálja ki az ingyenes demót

Chrome-bővítmény App Store Google Play

📚 Hogyan hivatkozz erre a benchmarkra

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Az Kantesti mesterséges intelligencia vérelemzés klinikai validálása (2.78T)
                 15 anonimizált vérvizsgálati eseten: Előre regisztrált
                 rubrika-alapú benchmark, amely magában foglalja a hiperdiagnózis-csapda
                 eseteit hét orvosi szakterületen},
  institution = {Kantesti Ltd},
  address     = {London, Egyesült Királyság},
  year        = {2026},
  month       = {április},
  type        = {Műszaki jelentés},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Az Kantesti mesterséges intelligencia vérelemzés klinikai validálása (2.78T) 15 anonimizált vérvizsgálati eseten: Előre regisztrált rubrika-alapú benchmark, amely magában foglalja a hiperdiagnózis-csapda eseteit hét orvosi szakterületen (Műszaki jelentés V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Kapcsolódó Kantesti validációs munka

Klein, T. (2025). Klinikai validációs keretrendszer mesterséges intelligencia alapú vérvizsgálati eredmények értelmezéséhez: hármas vak validációs módszertan, teljesítménymutatók és minőségbiztosítási protokollok. Kantesti AI Medical Research.

🎓 ResearchGate

📖 Külső módszertani hivatkozások

Mentzer, W. C. (1973). A vashiány elkülönítése a thalasszémiás traittól. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019-es Európai Liga a Reumatológiai Betegségek Ellen / Amerikai Reumatológiai Kollégium osztályozási kritériumai a szisztémás lupus erythematosusra. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Orvosi domén hallucinációs teszt nagy nyelvi modellekhez. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Kompozit pontszám

15Pontozott esetek

7Szakterületek

0Csapda álpozitívok

Gyakran Ismételt Kérdések

Mennyire pontos az Kantesti mesterséges intelligencia motorja valós vérvizsgálati esetekben?

A 15 anonimizált, valódi páciens vérvizsgálati esetből álló, előre regisztrált rubrikán az Kantesti mesterséges intelligencia vérelemzés V11 összesített pontszáma 99,12 százalékot ért el, és a csapdaeseteknél is nulla hiperdiagnózis álpozitívot produkált, továbbá az átlagos válaszidő 20,17 másodperc volt. A teljes, esetszintű pontozólap a Figshare-en jelenik meg a DOI 10.6084/m9.figshare.32095435 alatt, valamint a GitHubon MIT licenc alatt.

A Kantesti mesterséges intelligencia motorja klinikailag validált?

Igen. A rendszert klinikailag validálták egy olyan, a rendszer meghívása előtt a forráskódban rögzített (lefagyasztott) értékelési rubrikával szemben, amelyet 15 anonimizált vérvizsgálati eseten értékeltek hematológiában, endokrinológiában, anyagcsere-orvostanban, hepatológiában, nefrológiában, kardiológiában és reumatológiában. A klinikai felügyeletet Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) biztosította, okleveles klinikai hematológus és a Kantesti AI Chief Medical Officer-e.

Mi az a hiperdiagnózis csapdaeset?

A hiperdiagnózis-csapda egy olyan klinikai szcenárió, amelyet kifejezetten az AI-rendszerek túl-diagnosztizálási (over-diagnosis) viselkedésének felismerésére terveztek. Az Kantesti V11 benchmark két ilyen esetet használ. Az első egy izolált, indirekt hiperbilirubinémia, amely összhangban van a Gilbert-szindrómával; a helyes értelmezés a jóindulatú UGT1A1 polimorfizmus, nem pedig hepatitis vagy hemolízis. A második egy teljesen normális felnőtt szűrőpanel, ahol a helyes kimenet megnyugtatás és életmódbeli fenntartás, nem pedig legyártott határérték-közeli kóros eltérés.

A Kantesti mesterséges intelligencia motor értékelése reprodukálható?

A teljes értékelési keretrendszer (evaluation harness) az MIT licenc alatt, egyetlen önálló Python-modulként kerül kiadásra. A reprodukcióhoz mindössze egy Kantesti API hitelesítő adatkészlet és Python 3.10 vagy újabb szükséges. A kód, az esethatározások (case definitions), valamint az április 2026-os referenciafuttatás minden nyers rendszerválasza elérhető a github.com/emirhanai/kantesti-blood-test-benchmark oldalon, és tükrözve van a Figshare-en, a ResearchGate-en és az Academia.edu-n is.

Hogyan különbözteti meg az Kantesti mesterséges intelligencia motorja a vashiányt a béta-thalasszémia-hordozóságtól?

A rendszer alkalmazza a Mentzer-indexet, amelyet úgy számolnak ki, hogy az átlagos vörösvértest-térfogatot (MCV) elosztják a vörösvérsejtszámmal (RBC). A 13 feletti Mentzer-index vashiányos anaemiát támogat, míg a 13 alatti érték a béta-thalasszémia minor (trait) mellett szól. A V11 benchmarkban mindkét megjelenést helyesen osztályozták, explicit Mentzer-index számítással, amelyet a ferritin, RDW és HbA2 kontextus is alátámaszt.

Hol találom a nyers benchmarkadatokat és a forráskódot?

A technikai jelentés a Figshare-en található DOI 10.6084/m9.figshare.32095435 alatt, tükrözve a ResearchGate publikáció 404175463 és az Academia.edu cikk 165956808 alatt, valamint az MIT-licencű Python keretrendszer (harness) az összes referenciafuttatási eredménnyel a github.com/emirhanai/kantesti-blood-test-benchmark oldalon. A négyplatformos tükörhálózat biztosítja a hosszú távú elérhetőséget és az idézési rugalmasságot.

Miért fontos az előzetes regisztráció az AI orvosi benchmarkoknál?

Az előzetes regisztráció megakadályozza a post-hoc rubrikhangolást, ami a vállalati futtatású benchmarkok saját számaikat felfújó leggyakoribb módja. Ha a rubrikát még bármelyik rendszerhívás előtt a forráskódhoz rögzítik, és a keretrendszert nyilvánosan közzéteszik, akkor a rubrika szerzőjének dátumai ellenőrizhetők a verziókezelésben, és a rendszereredmények nem tudták befolyásolni az értékelési kritériumokat.

Tartalmaz ez a benchmark összehasonlításokat más AI rendszerekkel?

Nem. A V11 jelentés szándékosan egyetlen rendszert jellemez egy rögzített rubrikával szemben, nem pedig alternatív kereskedelmi rendszerekhez viszonyítva. A keretrendszer MIT licenc alatt nyílt forráskódú, így független kutatók bármely általuk választott rendszert ugyanazzal a tizenöt esettel és rubrikával értékelhetnek, majd közzétehetik az eredményeiket.

A betegesetek valósak vagy szintetikusak?

A tizenöt eset anonimizált, valós betegnyilvántartás, amelyet a Kantesti klinikai adatbázisból (repository) származtattak írásos, tájékozott beleegyezéssel. Az anonimizálás a Safe Harbor megközelítés szerint történt, és minden közvetlen azonosítót eltávolítottak vagy helyettesítettek. A feldolgozás a GDPR 9(2)(j) cikkével és a megfelelő brit GDPR rendelkezésekkel összhangban történt. A közzétett keretrendszerben, a technikai jelentésben vagy a kiadott adatkészletekben nem szerepel személyazonosításra alkalmas információ.

⚕️ Orvosi nyilatkozat & összeférhetetlenség

Ez a benchmark-jelentés kutatási és módszertani átláthatósági célokat szolgál. Nem minősül orvosi tanácsadásnak. A diagnózisra és a kezelési döntésekre vonatkozóan mindig konzultáljon képzett egészségügyi szolgáltatóval. Mindkét szerző a Kantesti Ltd alkalmazásában áll, és részesedéssel rendelkezik a vállalatban, valamint az értékelés alatt álló rendszer ugyanennek a szervezetnek a kereskedelmi terméke. Az összeférhetetlenség mérséklése azáltal történik, hogy a rubrikát előzetesen regisztrálják a forráskódban, a keretrendszert MIT licenc alatt kiadják, és minden nyers rendszerválaszt közzétesznek.

E-E-A-T bizalmi jelzések

⭐

Tapasztalat

15+ év klinikai hematológiai és laboratóriumi orvostani gyakorlat, amely a betegeset-panel kiválasztását felügyeli.

📋

Szakértelem

Előzetesen regisztrált rubrika-tervezés explicit hiperdiagnózis-büntetésekkel és elismert klinikai pontozási rendszerekkel (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Tekintélyesség

Fő szerző Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Megvalósítás: Julian Emirhan Bulut, a Kantesti Ltd vezérigazgatója.

🛡️

Megbízhatóság

MIT-licencű reprodukálható keretrendszer, közzétett nyers rendszerválaszok, nyílt összeférhetetlenségi nyilatkozat, négyplatformos kutatási tükörhálózat.

🏢 Kantesti Kft. Bejegyezve Angliában és Walesben · Cégszám. 17090423 London, Egyesült Királyság · kantesti.net