Miért létezik ez a benchmark, és mit tesztel
A mesterséges intelligencia által támogatott vérkép értelmezése egyre inkább elterjedt a fogyasztói és klinikai munkafolyamatokban, ugyanakkor a laboratóriumi orvoslásra szabott, reprodukálható értékelési keretrendszerek továbbra is ritkák. Ebben a környezetben a legfontosabb kérdések nem azok, amelyeket az általános orvosi kérdés-válasz benchmarkok lefednek: képes-e egy motor elkülöníteni a vashiányt a thalassaemia-tréjtől, ha a vörösvértestek átlagos térfogata (MCV) azonos, túldiagnosztizálja-e a Gilbert-kórt hepatitiszként, és képes-e kóros eltérést „gyártani” egy teljesen normális szűrőpanelben?
Egyetlen vérvizsgálati panel általában elég jelet tartalmaz ahhoz, hogy több, egymással versengő értelmezést is alátámasszon, és az értelmező klinikus feladata nem az, hogy tankönyvi választ „előhúzzon”, hanem hogy ezeket az értelmezéseket egymáshoz mérlegelje. Az a motor, amely jól teljesít a tankönyvi esetekben, még elbukhat azokon az eseteken, amelyek a legfontosabbak: a differenciáldiagnosztikai buktatókon, az ártalmatlan variánsokon, amelyek önmagukban riasztónak tűnnek, és a teljesen normális paneleken, amelyek arra csábítják a magabiztos asszisztenseket, hogy kóros eltérést „gyártsanak”.
Ezt a benchmarkot pontosan ezekre a hibamódokra építették. A tizenöt esetet mindegyikhez egy-egy konkrét diagnosztikai tulajdonság alapján választották ki: egy vashiányos mikrocitózist, amelyet el kell különíteni a azonos átlagos vörösvértest-térfogattal (MCV) járó béta-thalasszémia-hordozó állapottól; egy Gilbert-kór megjelenést, ahol az egyetlen eltérés a szisztolált (indirekt) hiperbilirubinémia; valamint egy tizenöt paraméteres szűrőpanelt, amelyben minden analit a saját referencia-tartományán belül van. A rubrika jutalmazza azokat a motorokat, amelyek az egyes eseteket a maguk feltételei szerint olvassák el, és bünteti azokat, amelyek olyan magabiztos diagnózist próbálnak megállapítani, amelyre nincs is indok.
Thomas Klein, MD-ként azért választottam ezt az esetsort, mert ezek azok a mintázatok, amelyeket a laboratóriumi medicina asszisztensei a leggyakrabban rosszul kezelnek. A költséges hibamód nem az, hogy "kihagynak egy ritka betegséget" — hanem az, hogy rutinszerű kóros leleteket gyártanak olyan páciensek számára, akiknél az nincs is jelen. A miénk Orvosi validáció A hub leírja a tágabb keretrendszert; ez az oldal a V11 motoron elért alkalmazott eredményét ismerteti.
Legfrissebb referenciafuttatás — V11 (2026 április)
A Kantesti AI Engine V11 április 2026-os referenciafuttatása összesített pontszámot adott: 99.12% a pre-regisztrált tizenöt esetből álló rubrikán. Mindkét hiperdiagnózis-csapda eset a plafont érte el. A Mentzer-indexet helyesen alkalmazták a vashiány–thalasszémia differenciáldiagnózisban.
Az összesített képlet három összetevőt kombinál: strukturális megfelelés a hét kötelező jelentési szekcióval és tizenhat kötelező alcímmel, klinikai pontosság mérve kulcsszó-visszahívással + pontozási rendszer visszahívással + valószínűségi eloszlás érvényességi ellenőrzéssel, és válasz késleltetése a 20 másodperces elsődleges szolgáltatási szint célértékhez képest. A pontos bontást az alábbi rubrika-képlet mutatja.
A fennmaradó 0,88 százalékpontnyi tartalék (headroom) szinte teljes egészében a késleltetési veszteségre bomlik — három 2. fázisú, visszaesési (fallback) hívás, amelyek mindegyike mínusz 0,05-ös kompozit értékkel járult hozzá, a 0,88 pontos hiányból körülbelül 0,60-at adott — nem pedig klinikai tartalomra. A motor a tizenöt eset egyikében sem mulasztott el helyes diagnózist; ahol alulteljesített, ott a 20 másodperces elsődleges (primary-path) célhoz képest valamivel hosszabb ideig tartott a hívások egy kis kisebbségében.
Tizenöt eset hét orvosi szakterületen
Az esettanács hét szakterületet fed le — hematológia, endokrinológia, anyagcsere-orvostan, hepatológia, nefrológia, kardiológia, reumatológia — valamint két dedikált hiperdianosztikai csapdaesetet. Minden eset egy anonimizált, valós betegnyilvántartás, amely a Kantesti klinikai adattárból származik, írásos, tájékozott beleegyezéssel.
Az anonimizálás a Safe Harbor megközelítéssel történt: minden közvetlen azonosítót eltávolítottak vagy helyettesítettek, és minden nyilvántartáshoz egy benchmarkon belüli esetszámot rendeltek a BT-NNN-LABEL formátumban. A feldolgozás a következők szerint történt: GDPR 9. cikk (2) bekezdés j) pont tudományos kutatás céljából, megfelelő biztosítékok mellett, valamint a megfelelő, az Egyesült Királyság GDPR-nek megfelelő rendelkezések szerint. A közzétett tesztkörnyezetben (harness), a technikai jelentésben vagy a kiadott adatkészletekben sehol nem jelenik meg személyazonosításra alkalmas információ.
Miért pont ez az eloszlás
A hematológia három esetet kap, mert a mikrocitás differenciáldiagnózisok és a makrocitás differenciáldiagnózisok a legnagyobb volumenű csapdák a valós laboratóriumi gyakorlatban. Az endokrinológia is három esetet kap, mert a Hashimoto-kór, a PCOS és a D-vitamin hiány megjelenési formái eltérő diagnosztikai alakzatokat gyakorolnak (autoantitest-vezérelt, hormonarany-vezérelt, egyetlen marker-vezérelt). Az egyeletes szakterületek továbbra is jelentősek, mert a CKD, az ASCVD-kockázat és az SLE mindegyikének saját pontozási rendszere van, amelyet a motor hívjon meg (KDIGO-stádium, ASCVD 10 éves kockázat, illetve 2019 EULAR/ACR SLE kritériumok).
Az előre regisztrált rubrika, magyarázata
Az előregisztráció a legfontosabb módszertani döntés ebben a benchmarkban. Minden várt diagnózis, minden klinikai pontozási rendszer és minden jelentésrész a forráskódba lett rögzítve mielőtt a motort meghívták. A rubrika utólagos finomhangolása tehát a motor „kényeztetésére” lehetetlen.
A kompozit pontszámot három komponens alkotja. A strukturális komponens 35 százalékot tesz ki, és azt méri, hogy a motor visszaadta-e a hét kötelező jelentésrészt (fejléc, összefoglaló, fő megállapítások, differenciál, pontozási rendszerek, ajánlások, utánkövetés) és a bennük lévő tizenhat kötelező alszakaszt. A szakasz-meglét 40 százalékot, az alszakasz-meglét pedig 60 százalékot nyom a strukturális számításban.
A klinikai komponens 55 százalékot tesz ki, és három dolgot egyesít: diagnózis-kulcsszó felidézés (a klinikai alszám 70 százaléka), pontozási rendszer felidézés (20 százalék — a motor kiszámítja-e a Mentzer-, FIB-4-, HOMA-IR-, ASCVD-kockázatot, a KDIGO-stádiumot, valamint az EULAR/ACR kritériumokat, ahol releváns), és egy valószínűség-összeg érvényességi ellenőrzést (10 százalék — a differenciál valószínűségeinek összege a [90, 110] intervallumon belül kell legyen). Csapdaeseteknél legfeljebb 0,30 explicit hiperdagnózis-büntetés kerül levonásra, amely 0,10/fabrikált patológia-flag alapján számolódik, és legfeljebb három flagig van korlátozva.
A késleltetési komponens 10 százalékot tesz ki. A 20 másodpercnél rövidebb válasz megkapja a teljes 0,10-et, a 40 másodpercnél rövidebb válasz 0,05-öt kap, és minden ennél lassabb válasz nulla. A 20 másodperces cél a gyártási elsődleges primary-path szolgáltatási szintű célkitűzést tükrözi; a 40 másodperces felső korlát a 2. fázisú visszaesési keretet jelenti a nagy terhelésű motorhívásokhoz.
Mit akadályoz meg az előregisztráció
Az első fél által készített benchmarkok hírhedtek amiatt, hogy utólagos rubrika-finomhangolással felfújják a saját számaikat. A minta szinte mindig ugyanaz: a csapat lefuttatja a motort, látja, hol teljesít alul, majd csendben úgy állítja át a rubrikát, hogy az alulteljesítő területek kevesebbet számítsanak. A rubrikának az első motorhívás előtt a forráskódba rögzítésével és a tesztkör MIT licenc alatti közzétételével ez az átalakítás láthatóvá válik a verziókezelésben. Bárki klónozhatja a repót, ellenőrizheti a rubrika szerzői dátumait, és igazolhatja, hogy a motor eredményeit nem használták a pontozás alakítására.
Hiperdagnózis-csapda esetek — miért a túlzott „rámondás” a valódi hibamód
A patológia agresszív túlhívása normál szűrőképernyőkön dokumentált hibamódja a fogyasztóknak szánt orvosi asszisztenseknek. Ennek a következményköltségei közé tartozik a szükségtelen kivizsgálás, a beteg szorongása és az iatrogén kivizsgálás. A benchmark két csapdaesete úgy van kialakítva, hogy ez a hibamód látható és pontozható legyen.
🟡 1. csapda — BT-014-GILBERT
Megjelenés. Egy 24 éves férfi összbilirubinszintje 2,4 mg/dL. A direkt frakció normális, a transzaminázok és az alkalikus foszfatáz a saját referencia-tartományukon belül vannak, a retikulociták nem feltűnőek, és a haptoglobin valamint az LDH kizárja a haemolysist.
Helyes értelmezés. Gilbert-kór — egy jóindulatú UGT1A1 polimorfizmus. Az értelmezés nem hivatkozhat hepatitisre, cirrhosisra, haemolyticus anaemiára vagy epeúti obstrukcióra.
V11 eredmény. Kompozit 1.000. A hat monitorozott túldiagnózis-flag közül egyik sem jelent meg aktív diagnózisként.
🟡 2. csapda — BT-015-HEALTHY
Megjelenés. Egy 35 éves nő egy tizenöt paraméteres rutin szűrőpanellel. Minden analit kényelmesen a saját referencia-tartományán belül van.
Helyes értelmezés. Megnyugtatás és életmódbeli fenntartás. Az értelmezés nem gyárthat határérték-közeli kórképeket pusztán azért, hogy klinikailag hasznosnak hasson.
V11 eredmény. Összetett 1.000. A hét monitorozott túldiagnosztizálási riasztás közül egyetlen sem jelent meg aktív diagnózisként — cukorbetegség, vérszegénység, hypothyreosis, diszlipidémia, hepatitis, vesebetegség, hiányállapot.
Mindkét mintavételi ponton összesen tizenhárom monitorozott hiperdianosztizálási riasztást ellenőriztek. Egyetlen sem aktiválódott. Ez az az eredmény, amely a legfontosabb bármely klinikus számára, aki mesterséges intelligencia motort triázs- vagy konzultációt megelőző eszközként kíván használni: a rendszer nem talált ki betegséget, ha nem létezett.
Mentzer-index: a vashiány elkülönítése a thalasszémia minor (thalaszszémia-hordozói) jellegtől
Egy másik, nagy értékű megállapítás a BT-001-es eset (vashiányos vérszegénység) és a BT-007-es eset (béta-thalasszémia minor) párosítása. Mindkettő mikrocitózissal jár, és ez egy jól ismert buktató a naiv osztályozók számára. A Mentzer-index, amelyet az MCV osztva az RBC-számmal számolnak, vashiányban 13 felett van, thalasszémia-hordozói állapotban pedig 13 alatt.
A BT-001-ben a beteg 34 éves nő volt, hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritin 6 ng/mL, valamint emelkedett TIBC. A körülbelül 17,7-es Mentzer-index igazolja a tényleges vashiányt. A BT-007-ben a beteg 28 éves férfi volt mikrocitózissal (MCV 65,8 fL), de magas RBC-számmal (6,2), normál RDW-vel, normál ferritinnel és 5,6 százalékos HbA2-vel. A körülbelül 10,6-os Mentzer-index thalasszémia-hordozói állapotra utal, és az emelkedett HbA2 megerősíti a béta-thalasszémia minort.
Mindkét eset 1.000 pontszámot kapott. A motor mindkét értelmezésben kifejezetten a Mentzer-indexet használta, és minden alkalommal helyes diagnózist adott. Ez a teljes benchmark leginkább klinikailag megnyugtató eredménye, mert a thalasszémia-hordozói állapot vashiányként való téves besorolása nem megfelelő vaspótlást eredményez, és elmaradnak a családszűrési lehetőségek; a vashiány thalasszémiaként való téves besorolása pedig késlelteti az egyszerű helyettesítő kezelést. A mi ferritin-tartomány-irányelvünk magyarázza a tágabb differenciáldiagnosztikai kontextust.
Esetenkénti eredmények a 2026. áprilisi futásból
Tizenöt esetből tizenkettő elérte a primer útvonalon az 1.000-es plafon összetett pontszámot. Három esetet a 2. fázisú visszaeséssel szolgáltak ki, elveszítve a 0,05-ös késleltetési bónuszt, miközben megőrizték az összes klinikai és strukturális tartalmat. Egy esetből hiányzott egyetlen kötelező alszakasz; egy pedig csak kismértékben csökkentett valószínűségi eloszlásösszeget adott vissza.
A PCOS-eset (BT-008) elveszített egyetlen kötelező alfejezetet a válaszstruktúrában — tizenhatból tizenöt helyett tizenhatból tizenhat —, ami a strukturális pontszámot 1,000-ről 0,963-ra csökkentette. Az SLE-eset (BT-011) egy csekély mértékben csökkent valószínűségeloszlás-összeggel tért vissza, amely a klinikai pontszámot 0,965-re vitte le, miközben minden diagnosztikai kulcsszót és pontozási rendszert megőrzött. Egyik, tökéletlen alapeset sem mulasztott el egy helyes diagnózist.
Mit nem árul el a főcím pontszáma
A 99,12 százalékos összpontszám ebben a konkrét előre regisztrált értékelési keretrendszerben közel a plafon teljesítményt jelenti, de gondos keretezést igényel. Az eredmény a motor viselkedését írja le tizenöt gondosan kiválasztott anonimizált esettel szemben, amelyek mindegyike egyszer lett kiértékelve, egyetlen keretrendszer szerint. Pontosan megfogalmazzuk, hogy a szám mit állapít meg és mit nem.
A pontszám azt jelzi, hogy a V11-es motor helyesen kezelte az értékeléshez kiválasztott diagnosztikai mintázatokat, egy publikált és reprodukálható módszertan alapján. Nem állítja, hogy a motor minden létező vérvizsgálati panelen helyes. Nem állítja, hogy a motornak ki kellene váltania az orvosi döntéshozatalt. És nem állítja, hogy a motor felülmúlja a többi mesterséges intelligencia rendszert — az összehasonlító elemzések más motorokkal szemben szándékosan nem képezték e jelentés hatókörét.
Amit a pontszám megállapít, az egy alapérték. Mivel a keretrendszer és a futtató környezet nyilvános, a motor jövőbeli verziói ugyanazzal a tizenöt esettel értékelhetők, és a közzétett pontszám és bármely későbbi futás közötti különbség maga is mérhető. Ez az előzetes regisztráció értéke: a teljesítményre vonatkozó állításokat tesztelhető állításokká alakítja.
Hogyan reprodukálható ez a benchmark 10 perc alatt
A reprodukáláshoz mindössze egy Kantesti API hitelesítő adatkészlet és egy Python 3.10 vagy újabb környezet szükséges, a következőkkel: requests és reportlab telepítve. A teljes futtató környezet egyetlen, önálló Python-modul, amelyet az MIT-licenc alatt adtak ki.
Négy lépés egy friss futtatáshoz
Egy. Klónozd a repót: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Kettő. A függőségek telepítése ezzel: pip install -r requirements.txt. Három. Állítsd be KANTESTI_USERNAME és KANTESTI_PASSWORD környezeti változóként – a hitelesítő adatok futás közben kerülnek beolvasásra, és semmi sincs beégetve a szkriptbe. Négy. Futtasd python benchmark_bloodtest.py és vizsgáld meg a munkakönyvtárba kiírt négy artefaktumot: egy CSV scorecardot, egy JSON scorecardot, egy teljes JSON kiírást (nyers motorválaszokkal együtt), valamint egy ember által olvasható Markdown riportot.
A 2026. április 23-i referenciafuttatás megőrzésre került a results/ könyvtárban a repositoryban. Egy friss futás új, időbélyegzett scorecardot fog létrehozni úgy, hogy a referenciafuttatás érintetlen marad. Ha a futásod érdemben eltérő eredményt ad, kérjük, nyiss egy GitHub issue-t a futás időbélyegével és a válasz metaadataiban visszaadott motorverzióval.
Korlátok és jövőbeli munka
Négy korlátozást külön érdemes egyértelműen elismerni: mintanagyság, egyszeri (single-shot) kiértékelés, egyetlen motor hatóköre, és az adatok egyetlen forrásból származó eredete. Mindegyiket aktív utánkövetési munkák keretében kezeljük.
Minta mérete. Tizenöt eset nyolc szakterületi kategóriában elegendő egy koncepció-bemutatóhoz, de nem elegendő az alcsoport-elemzéshez egy adott szakterületen belül. Az ötven esetre való bővítés tervezett, és magában foglal koagulációs panelek, hematológiai rosszindulatú daganatok szűrését, terhességi paneleket, valamint gyermekgyógyászati megjelenéseket.
Egyszeri kiértékelés. Minden esetet egyszer értékeltünk. A nagy nyelvi modellek nem elhanyagolható kimeneti varianciát mutatnak még alacsony mintavételi hőmérséklet mellett is, ezért a következő természetes lépés egy többfutásos protokoll, esetenként öt kiértékeléssel és jelentett varianciával.
Egyetlen motor hatóköre. Ez a riport egyetlen motort jellemez. Az alternatív mesterséges intelligencia-rendszerekkel végzett összehasonlító elemzések itt nem képezik a hatókört; ezeket megfelelő módszertannal egy külön, független vizsgálat keretében esetlegesen folytathatjuk.
Az adatok egyetlen forrásból származó eredete. A tizenöt eset anonimizált, valós betegnyilvántartás, amely egyetlen klinikai adatbázisból származik. Ez egy válogatott minta, nem pedig a populációt reprezentáló véletlenszerű mintavétel. A kiértékelés több központra kiterjesztése a tervek között szerepel.
A legnagyobb hatású tervezett kiterjesztés a többnyelvű megfelelőség. Az Kantesti AI Engine 75+ nyelven szolgálja a felhasználókat, és ugyanennek a tizenöt esetből álló tesztkészletnek a futtatása törökül, németül, spanyolul, franciául és arabul számszerűsíteni fogja a kimenet minőségét a motor által támogatott nyelvek között. Minden nyelvspecifikus futást a saját DOI-jával és a hozzá tartozó tesztágával együtt közzéteszünk.