Miért létezik ez a benchmark, és mit tesztel

A mesterséges intelligencia-alapú vérkép értelmezést egyre gyakrabban használják fogyasztói és klinikai munkafolyamatokban, ugyanakkor a laboratóriumi orvoslásra szabott, reprodukálható értékelési keretrendszerek továbbra is ritkák. Ebben a környezetben a legfontosabb kérdések nem azok, amelyeket az általános orvosi kérdés-válasz benchmarkok lefednek: képes-e egy motor elkülöníteni az ironhiányt a thalasszémia-tréjtól, ha a vörösvértest-térfogat (MCV) azonos, túldiagnosztizálja-e a Gilbert-kórt hepatitiszként, és előállít-e kórképet egy teljesen normális szűrőpanelben?

Előzetesen regisztrált értékelési (rubrika) folyamatábra, amely bemutatja, hogyan kerül a Kantesti AI Engine összevetésre a befagyasztott pontozási kritériumokkal
1. ábra: A benchmark architektúrája — minden eset, minden kulcsszó, minden pontozási rendszer rögzítve van a forráskódban, mielőtt a motor akár egyetlen PDF-et is látna. Utólagos rubrika-hangolás a tervezésből adódóan nem lehetséges.

Egyetlen vérvizsgálati panel általában elég jelet tartalmaz ahhoz, hogy több, egymással versengő értelmezés is lehetséges legyen, és az értelmező orvos feladata nem az, hogy tankönyvi választ „előhúzzon”, hanem hogy ezeket az értelmezéseket egymáshoz mérlegelje. Az a motor, amely jól teljesít a tankönyvi esetekben, még elbukhat azokon az eseteken, amelyek a legfontosabbak: a differenciáldiagnosztikai buktatókon, az ártalmatlan variánsokon, amelyek önmagukban riasztónak tűnnek, és a teljesen normális paneleken, amelyek arra csábítják a magabiztos asszisztenseket, hogy kóros eltérést „gyártsanak”.

Ezt a benchmarkot pontosan ezekre a hibamódokra építették. A tizenöt esetet mindegyikhez egy konkrét diagnosztikai tulajdonság alapján választották ki: egy vashiányos mikrocitózist, amelyet el kell különíteni a hasonló átlagos vörösvértest-térfogattal (MCV) járó béta-thalassaemia-tréjtől; egy Gilbert-kór megjelenést, ahol az egyetlen eltérés a szisztolált (indirekt) hiperbilirubinémia; valamint egy tizenöt paraméteres szűrőpanelt, amelyben minden analit a saját referencia-tartományán belül van. A rubrika jutalmazza azokat a motorokat, amelyek az egyes eseteket a maguk feltételei szerint olvassák, és bünteti azokat, amelyek olyan magabiztos diagnózist próbálnak megállapítani, amelyre nincs is indok.

Thomas Klein, MD-ként azért választottam ezt az esetsort, mert ezek azok a mintázatok, amelyeket a laboratóriumi medicina asszisztensei a leggyakrabban rosszul kezelnek. A költséges hibamód nem az, hogy "kihagynak egy ritka betegséget" — hanem az, hogy rutinszerű kóros leleteket gyártanak olyan páciensek esetében, akiknél az nincs is jelen. A miénk Orvosi validáció A hub leírja a tágabb keretrendszert; ez az oldal a V11 motoron elért alkalmazott eredményét mutatja be.

Legfrissebb referenciafuttatás — V11 (2026 április)

A Kantesti AI Engine V11 április 2026-os referenciafuttatása egy összesített pontszámot eredményezett: 99.12% a pre-regisztrált tizenöt esetből álló rubrikán. Mindkét hiperdia­gnózis-csapda eset pontszáma a maximumon volt. A Mentzer-indexet helyesen alkalmazták a vashiány–thalassaemia differenciáldiagnózisban.

Összesített 99.12% 15/15 eset pontszáma
0.998 Strukturális pontszám
0.998 Klinikai pontszám
20,17 s Átlagos késleltetés
0 / 13 Csapda jellegű álpozitívok

Az összesített képlet három összetevőt kombinál: strukturális megfelelés a hét kötelező jelentési szekcióval és tizenhat kötelező alcímmel, klinikai pontosság mérve kulcsszó-visszahívással + pontozási rendszer visszahívással + valószínűségi eloszlás érvényességi ellenőrzéssel, és válaszidő-késleltetés a 20 másodperces elsődleges szolgáltatási szint célértékhez képest. A pontos bontást az alábbi rubrika-képlet mutatja.

Összesített = 0.35 × Strukturális + 0.55 × Klinikai + 0.10 × Késleltetés

A fennmaradó 0,88 százalékpontnyi „headroom” csaknem teljes egészében a késleltetési veszteségre bomlik — három 2. fázisú visszaesési (fallback) hívás, egyenként mínusz 0,05-ös kompozit értékkel, a 0,88 pontos hiányból körülbelül 0,60-at tett ki — nem pedig klinikai tartalomba. A motor a tizenöt eset egyikében sem mulasztott el helyes diagnózist; ahol alulteljesített, ott a 20 másodperces elsődleges (primary-path) célhoz képest valamivel hosszabb ideig tartott a hívások egy kis kisebbségében.

Tizenöt eset hét orvosi szakterületen

Az esettanács hét szakterületet fed le — hematológia, endokrinológia, anyagcsere-orvostan, hepatológia, nefrológia, kardiológia, reumatológia — valamint két dedikált hiperdianosztikai csapdaesetet. Minden eset anonimizált, valós betegnyilvántartás, amelyet az Kantesti klinikai adattárból származtatnak írásos, tájékozott beleegyezés alapján.

Tizenöt anonimizált vérvizsgálati eset lefedettségi térképe, amely hét orvosi szakterület között oszlik meg, valamint hiperdiagnózis-csapda esetekkel kiegészítve
2. ábra: Eseloszlás a hematológia, endokrinológia, anyagcsere-orvostan, hepatológia, nefrológia, kardiológia, reumatológia területeken, továbbá két csapdaeset — Gilbert-kór és teljesen normál szűrőpanel.

Az anonimizálás a Safe Harbor megközelítéssel történt: az összes közvetlen azonosítót eltávolították vagy helyettesítették, és minden egyes rekordhoz egy benchmarkon belüli eseti kódot rendeltek a BT-NNN-LABEL formátumban. A feldolgozás a következők szerint történt: GDPR 9. cikk (2) bekezdés j) pont tudományos kutatás céljából, megfelelő biztosítékok mellett, valamint a megfelelő, az Egyesült Királyság GDPR-nek megfelelő rendelkezések szerint. A közzétett „harness”-ben, a technikai jelentésben vagy a kiadott adatkészletekben sehol nem jelenik meg személyazonosításra alkalmas információ.

Hematológia (3) BT-001, BT-006, BT-007 Vashiányos anaemia · B12-hiány · Minor béta-thalasszémia
Endokrinológia (3) BT-002, BT-008, BT-012 Hashimoto-féle thyreoiditis · PCOS inzulinrezisztenciával · Súlyos D-vitamin hiány
Anyagcsere (2) BT-003, BT-013 T2DM metabolikus szindrómával · Hyperurikaemia köszvénykockázattal
Hepatológia (2) BT-004, BT-009 NAFLD / NASH · Akut virális hepatitis
Nefrológia · Kardiológia · Reumatológia (3) BT-005, BT-010, BT-011 3. stádiumú CKD · Atherogén diszlipidémia · Szisztémás lupus erythematosus
Csapdaesetek (2) BT-014, BT-015 Gilbert-kór (izolált indirekt hyperbilirubinaemia) · Teljesen normál felnőtt szűrés

Miért pont ez az eloszlás

A hematológia három esetet kap, mert a mikrocitás differenciáldiagnózisok és a makrocitás differenciáldiagnózisok a legnagyobb volumenű csapdák a valós laboratóriumi gyakorlatban. Az endokrinológia is három esetet kap, mert a Hashimoto-kór, a PCOS és a D-vitamin hiány megjelenési formái eltérő diagnosztikai alakzatokat gyakorolnak (autoantitest-vezérelt, hormonarany-vezérelt, egyetlen marker-vezérelt). Az egyeletes szakterületek továbbra is jelentősek, mert mind a CKD, az ASCVD-kockázat és az SLE saját pontozási rendszert használ, amelyet a motornak meg kell hívnia (KDIGO-stádium, ASCVD 10 éves kockázat, illetve 2019-es EULAR/ACR SLE kritériumok).

Az előre regisztrált rubrika, magyarázattal

Az előregisztráció a legfontosabb módszertani döntés ebben a benchmarkban. Minden várt diagnózis, minden klinikai pontozási rendszer és minden jelentésrész a forráskódba lett rögzítve mielőtt a motort meghívták. Ezért a rubrika utólagos hangolása a motor „kényeztetésére” lehetetlen.

A kompozit pontszámot három komponens alkotja. A strukturális komponens 35 százalékot tesz ki, és azt méri, hogy a motor visszaadta-e a hét kötelező jelentésrészt (fejléc, összefoglaló, fő megállapítások, differenciáldiagnózis, pontozási rendszerek, ajánlások, utánkövetés) és a tizenhat kötelező alcímet ezekben. A szakasz-meglét 40 százalékot, az alcím-meglét pedig 60 százalékot nyom a strukturális számításban.

A klinikai komponens 55 százalékot tesz ki, és három dolgot egyesít: diagnózis-kulcsszó felidézés (a klinikai részpontszám 70 százaléka), pontozási rendszer felidézés (20 százalék — a motor kiszámítja-e a Mentzer-t, a FIB-4-et, a HOMA-IR-t, az ASCVD-kockázatot, a KDIGO-stádiumot, valamint az EULAR/ACR kritériumokat, ahol releváns), és egy valószínűség-összeg érvényességi ellenőrzés (10 százalék — a differenciáldiagnózis valószínűségeinek összege a [90, 110] intervallumon belül kell legyen). Csapdaeseteknél egy legfeljebb 0,30 explicit hiperdagnózis-büntetés levonásra kerül, amelyet 0,10 per legyártott patológia-flag alapján számolnak, és legfeljebb három flagig terjed.

A késleltetési komponens 10 százalékot tesz ki. A 20 másodpercnél rövidebb válasz megkapja a teljes 0,10-et, a 40 másodpercnél rövidebb válasz 0,05-öt kap, és minden ennél lassabb válasz nulla pontot ér. A 20 másodperces cél a gyártási elsődleges primary-path szolgáltatási szintű célkitűzést tükrözi; a 40 másodperces felső korlát a 2. fázisú visszaesési keretet jelenti a nagy motorhívásokhoz.

Végső képernyőkép az MIT-licencelt Kantesti benchmark-harness futásáról, amely esetenkénti pontszámokat bocsát ki
3. ábra: A tesztharness a futtatásban. Minden eset egy A4 PDF-ként kerül renderelésre, feltöltésre a production v11 végpontra, majd a befagyasztott rubrika alapján pontozásra kerül. Minden nyers válasz a kumulált pontszámlappal együtt megőrzésre kerül.

Mit akadályoz meg az előregisztráció

Az első fél által készített benchmarkok hírhedtek abban, hogy utólagos rubrika-hangolással felfújják a saját számaikat. A minta szinte mindig ugyanaz: a csapat lefuttatja a motort, látja, hol teljesít gyengébben, majd csendben úgy módosítja a rubrikát, hogy a gyengén teljesítő területek kevesebbet számítsanak. A rubrikának a forráskódba rögzítésével az első motorhívás előtt, valamint a tesztharness MIT licenc alatti közzétételével ez a módosítás láthatóvá válik a verziókezelésben. Bárki klónozhatja a repót, ellenőrizheti a rubrika szerzői dátumait, és igazolhatja, hogy a motor eredményeit nem használták a pontozás alakítására.

Hiperdiagnózis-csapda esetek — miért a túlzott „rámondás” a valódi hibamód

A patológia agresszív túlhívása normál képernyőkön a fogyasztói célú orvosi asszisztensek dokumentált hibamódja. Ennek a következményei közé tartozik a felesleges kivizsgálás, a beteg szorongása és az iatrogén kivizsgálás. A benchmark két csapdaesete úgy van kialakítva, hogy ez a hibamód látható és pontozható legyen.

Egymás melletti összehasonlítás: egy naiv mesterséges intelligencia hepatitiszt „gyárt” egy Gilbert-kór panelen, szemben a Kantesti motorral, amely helyesen azonosítja a jóindulatú UGT1A1 polimorfizmust
4. ábra: A csapdaeset-tervezés. Egy olyan motor, amely magabiztosan a Gilbert-kórt hepatitisnek címkézi, vagy amely határérték-szerű patológiát gyárt egy teljesen normál képernyőn, büntetést kap — nem jutalmat azért, mert klinikailag „jól hangzik”.

🟡 1. csapda — BT-014-GILBERT

Megjelenés. Egy 24 éves férfi összbilirubinszintje 2,4 mg/dl. A direkt frakció normális, a transzaminázok és az alkalikus foszfatáz a saját referencia-tartományukon belül vannak, a retikulociták nem feltűnőek, és a haptoglobin valamint az LDH kizárja a haemolysist.

Helyes értelmezés. Gilbert-kór — jóindulatú UGT1A1 polimorfizmus. Az értelmezésnek nem szabad hepatitisre, cirrhosisra, haemolyticus anaemiára vagy epeúti obstrukcióra hivatkoznia.

V11-es eredmény. Kompozit 1.000. A hat monitorozott túldiagnózis-flag közül egyik sem jelent meg aktív diagnózisként.

🟡 2. csapda — BT-015-HEALTHY

Megjelenés. Egy 35 éves nő egy tizenöt paraméteres rutin szűrőpanellel. Minden analit kényelmesen a saját referencia-tartományán belül van.

Helyes értelmezés. Megnyugtatás és életmódbeli fenntartás. Az értelmezés nem gyárthat határértékes kórképeket pusztán azért, hogy klinikailag hasznosnak tűnjön.

V11-es eredmény. Összetett 1.000. A hét monitorozott túldiagnosztizálási riasztás közül egyik sem jelent meg aktív diagnózisként — cukorbetegség, vérszegénység, hypothyreosis, diszlipidémia, hepatitis, vesebetegség, hiányállapot.

Mindkét mintavételi helyen összesen tizenhárom monitorozott hiperdignosztizálási riasztást ellenőriztek. Egyetlenegy sem aktiválódott. Ez az az eredmény, amely a legfontosabb minden olyan klinikus számára, aki mesterséges intelligencia motort triázs- vagy konzultációt megelőző eszközként kíván használni: a rendszer nem talált ki betegséget, ha nem létezett.

Mentzer-index: a vashiány elkülönítése a thalasszémia minor (thalaszszémia-hordozói) jellegtől

Egy másik, nagy értékű megállapítás a BT-001-es eset (vashiányos vérszegénység) és a BT-007-es eset (béta-thalasszémia minor) párosítása. Mindkettő mikrocitózissal jár, és ez egy jól ismert buktató a naiv osztályozók számára. A Mentzer-index, amelyet az MCV osztásával számolnak az RBC-számmal, vashiányban 13 felett van, thalasszémia-hordozói állapotban pedig 13 alatt.

A BT-001-ben a beteg 34 éves nő volt, hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritin 6 ng/mL, és emelkedett TIBC. A körülbelül 17,7-es Mentzer-index igazolja a tényleges vashiányt. A BT-007-ben a beteg 28 éves férfi volt mikrocitózissal (MCV 65,8 fL), de magas RBC-számmal 6,2, normál RDW-vel, normál ferritinnel és 5,6 százalékos HbA2-vel. A körülbelül 10,6-os Mentzer-index thalasszémia-hordozói állapotra utal, és az emelkedett HbA2 megerősíti a béta-thalasszémia minort.

Vashiányos vérszegénység Mentzer > 13 Alacsony ferritin, alacsony TSAT, magas TIBC, emelkedett RDW
Béta-thalasszémia-hordozói állapot Mentzer < 13 Normál ferritin, normál RDW, emelkedett HbA2 (>3.5%), magas RBC-szám

Mindkét eset pontszáma 1.000 volt. A motor mindkét értelmezésben kifejezetten alkalmazta a Mentzer-indexet, és mindkét alkalommal helyes diagnózist adott. Ez a teljes benchmark leginkább klinikailag megnyugtató eredménye, mert a thalasszémia-hordozói állapot vashiányként való téves besorolása nem megfelelő vaspótlást eredményez, és elmaradnak a családszűrési lehetőségek; a vashiány thalasszémiaként való téves besorolása pedig késlelteti az egyszerű helyettesítő kezelést. A mi ferritin-tartomány-irányelvünk magyarázza a tágabb differenciáldiagnosztikai hátteret.

Esetenkénti eredmények a 2026. áprilisi futtatásból

Tizenöt esetből tizenkettő elérte az elsődleges kórképen a maximális összetett pontszámot (1.000). Három esetet a 2. fázisú visszaesésen keresztül szolgáltak ki, így elveszett a 0,05-ös késleltetési bónusz, de megmaradt minden klinikai és strukturális tartalom. Egy esetből hiányzott egyetlen kötelező alszakasz; egy esetben a valószínűségi eloszlás összege csekély mértékben csökkent.

Esetazonosító Szakirány Összesített Késleltetés Kórkép
BT-001-IDAHematológia1.00017,8 selsődleges
BT-006-B12Hematológia1.00018,4 mpelsődleges
BT-007-THALHematológia1.00017,0 mpelsődleges
BT-002-HASHEndokrinológia0.95037,0 mpvisszaesés
BT-008-PCOSEndokrinológia0.98718,6 mpelsődleges
BT-003-T2DMMetabolikus1.00019,1 mpelsődleges
BT-013-GOUTMetabolikus1.00019,4 mpelsődleges
BT-004-NAFLDHepatológia1.00019,6 mpelsődleges
BT-009-VIRHEPHepatológia0.95023,4 mpvisszaesés
BT-014-GILBERTCsalétek1.00018,9 mpelsődleges
BT-005-CKDNefrológia1.00017,4 mpelsődleges
BT-010-ASCVDKardiológia1.00019,7 mpelsődleges
BT-011-SLEReumatológia0.98118,2 mpelsődleges
BT-012-VITDEndokrinológia1.00019,3 mpelsődleges
BT-015-EGÉSZSÉGESCsalétek1.00018,7 mpvisszaesés

A PCOS-eset (BT-008) elveszített egyetlen kötelező alrészt a válaszstruktúrában — tizenhatból tizenöt helyett tizenhatból tizenhat —, ami a strukturális pontszámot 1,000-ről 0,963-ra csökkentette. A SLE-eset (BT-011) egy csekély mértékben csökkent valószínűségeloszlás-összeget adott vissza, amely a klinikai pontszámot 0,965-re vitte le, miközben minden diagnosztikai kulcsszót és pontozási rendszert megőrzött. Egyik, tökéletlen alapeset sem mulasztott el egy helyes diagnózist.

Mit nem árul el a fő összpontszám

A 99,12 százalékos összpontszám ebben a konkrét előre regisztrált értékelési keretrendszerben közel a plafon teljesítményt jelenti, de gondos keretezést igényel. Az eredmény a motor viselkedését írja le tizenöt gondosan kiválasztott anonimizált esettel szemben, amelyek mindegyike egyszer lett kiértékelve, egyetlen keretrendszer szerint. Pontosan megfogalmazzuk, hogy a szám mit állapít meg és mit nem.

A pontszám azt jelzi, hogy a V11 motor helyesen kezelte az értékeléshez kiválasztott diagnosztikai mintázatokat, egy publikált és reprodukálható módszertanon keresztül. Nem jelenti azt, hogy a motor minden létező vérvizsgálati panelen helyes. Nem jelenti azt sem, hogy a motornak ki kellene váltania az orvosi döntéshozatalt. És nem jelenti azt, hogy a motor jobban teljesít alternatív mesterséges intelligencia rendszereknél — az összehasonlító elemzések más motorokkal szemben szándékosan kívül estek e jelentés hatókörén.

Amit a pontszám megállapít, az egy alapérték. Mivel a keretrendszer és a futtató környezet nyilvános, a motor jövőbeli verziói ugyanazzal a tizenöt esettel értékelhetők, és a publikált pontszám és bármely későbbi futás közötti különbség maga is mérhető. Ennek az értéke az előzetes regisztráció: a teljesítményre vonatkozó állításokat tesztelhető állításokká alakítja.

Hogyan lehet 10 perc alatt reprodukálni ezt a benchmarkot

A reprodukáláshoz mindössze egy Kantesti API hitelesítő adatkészlet és egy Python 3.10 vagy újabb környezet szükséges, a következőkkel: requests és reportlab telepítve. A teljes futtató környezet egyetlen, önálló Python-modul, amely az MIT licenc alatt jelent meg.

Reprodukálhatósági hálózati ábra, amelyen a benchmark a Figshare-en, a ResearchGate-en, az Academia.edu-n és a GitHub-on is tükrözve van, a Figshare DOI-t mint kanonikus horgonyt használva
5. ábra: A benchmark négy kutatási platformon is tükrözve van. A Figshare DOI a kanonikus tudományos azonosító; a ResearchGate, az Academia.edu és a GitHub párhuzamos másolatokat tárol kóddal és nyers adatokkal.

Négy lépés egy friss futtatáshoz

Egy. Klónozd a repót: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Kettő. A függőségek telepítése ezzel: pip install -r requirements.txt. Három. Állítsd be a KANTESTI_USERNAME és KANTESTI_PASSWORD környezeti változóként – a hitelesítő adatok futás közben kerülnek beolvasásra, és semmi sincs a szkriptben beégetve. Négy. Futtasd a python benchmark_bloodtest.py parancsot, és ellenőrizd a munkakönyvtárba kiírt négy artefaktumot: egy CSV scorecardot, egy JSON scorecardot, egy teljes JSON-kiírást a nyers motorválaszokkal együtt, valamint egy ember által olvasható Markdown-jelentést.

A 2026. április 23-i referenciafuttatás megőrzésre került a results/ könyvtárban a repositoryban. Egy friss futás új, időbélyegzett scorecardot fog létrehozni úgy, hogy a referenciafuttatás érintetlen marad. Ha a futásod érdemben eltérő eredményt ad, kérjük, nyiss egy GitHub issue-t a futás időbélyegével és a válasz metaadataiban visszaadott motorverzióval.

Korlátok és jövőbeli munka

Négy korlátozást érdemes kifejezetten elismerni: a mintanagyságot, az egyszeri (single-shot) kiértékelést, az egyetlen motor hatókörét és az adatok egyetlen forrásból származó eredetét. Mindegyiket aktív utánkövetési munkában kezeljük.

Minta mérete. Tizenöt eset nyolc szakterületi kategóriában elegendő a bizonyítékhoz, de nem elegendő a szakterületen belüli alcsoport-elemzéshez. Az ötven esetre való bővítés tervezett, és magában foglalja a koagulációs panelek, a hematológiai rosszindulatú daganatok szűrését, a terhességi panelek és a gyermekgyógyászati megjelenések vizsgálatát.

Egyszeri kiértékelés. Minden esetet egyszer értékeltünk. A nagy nyelvi modellek nem elhanyagolható kimeneti varianciát mutatnak még alacsony mintavételi hőmérséklet mellett is, ezért a következő természetes lépés egy többfutásos protokoll, esetenként öt kiértékeléssel és jelentett varianciával.

Egyetlen motor hatókör. Ez a jelentés egyetlen motort jellemez. Az alternatív mesterséges intelligencia-rendszerekkel végzett összehasonlító elemzések itt nem képezik a hatókör részét; ezeket megfelelő módszertannal külön, független tanulmányként folytathatjuk.

Adatok egyetlen forrásból származó eredete. A tizenöt eset anonimizált, valós betegnyilvántartás, amely egyetlen klinikai adattárból származik. Ez egy válogatott minta, nem pedig a populációt reprezentáló véletlenszerű mintavétel. A kiértékelés több központra kiterjesztése a tervek között szerepel.

A legnagyobb hatású tervezett kiterjesztés a többnyelvű megfelelőség. Az Kantesti AI Engine 75+ nyelven szolgálja a felhasználókat, és ugyanennek a tizenöt esetből álló tesztkészletnek a futtatása törökül, németül, spanyolul, franciául és arabul számszerűsíteni fogja a kimenet minőségét a motor által támogatott nyelveken. Minden nyelvspecifikus futást a saját DOI-jával és a hozzá tartozó tesztágával együtt közzéteszünk.