Kantesti mesterséges intelligencia-alapú vérvizsgálati benchmark

Automatizált benchmark Előre regisztrált benchmark V11 második frissítés – 2026. április MIT-licencelt Reprodukálható · Nyílt adatok 100K szintetikus kohorsz · 127 országcímke

99,80% kompozit pontszám egy előre regisztrált értékelési rubrikán — V11 második frissítés, 100 000 esetből álló kohorsz 127 országcímkével

A Kantesti motor előre regisztrált, rubrika-alapú automatizált technikai benchmarkja 100 000, 127 országcímkével ellátott, szintetikusan generált vérvizsgálati esetben. A kimenet megfelelőségét méri, nem a diagnosztikai pontosságot. A rubrikát a V11 első kiadása előtt befagyasztották a forráskódban, és byte-azonosan megmaradt ehhez a Második frissítéshez; az értékelő keretrendszer MIT-licencű; a nyers motorválaszok rétegzett véletlen mintája publikálva van ellenőrzés céljából. Minden eset szintetikus; személyes adat nem kerül felhasználásra.

📖 ~14 perc 📅 2026. április 23-án jelent meg · Frissítve: 2026. április 26. (V11 második frissítés) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Megjelent: 2026. április 23. 🔄 V11 második frissítés: 2026. április 26. 🩺 Orvosilag felülvizsgálta: 2026. április 26. ✅ Előre regisztrált rubrika (byte-pontosan azonos) 🔓 Nyílt kód és adatok

Ezt az automatizált benchmarkot a következő személy tervezte és futtatta: Julian Emirhan Bulut, Senior AI Engineer és a Kantesti Ltd vezérigazgatója. A pontozás teljes mértékben automatizált a forráskódban; a pontozási rubrika és az esettábla klinikai inputtal készült a következő személytől: Dr. Thomas Klein, a Kantesti AI Chief Medical Officerétől, és a következő személy felülvizsgálta: Kantesti AI Orvosi Tanácsadó Testület. Ez egy önállóan futtatott belső benchmark, nem pedig független vagy lektorált automatizált technikai benchmark.

Vezető szerző és klinikai felügyelet

Dr. Thomas Klein

Főorvos, Kantesti AI

Dr. Thomas Klein okleveles (board-certified) klinikai hematológus és belgyógyász, több mint 15 év tapasztalattal a laboratóriumi orvoslás területén. A Kantesti AI ügyvezető (Chief Medical Officer) orvosaként ő választotta ki a benchmarkhoz használt esetsort, áttekintette a szintetikus esetek klinikai tartalmát és várt válaszait, és jóváhagyta az előre regisztrált rubrikát az első motorhívás előtt.

ORCID 0009-0009-1490-1321 ResearchGate Google Tudós

Társszerző & implementáció

Julian Emirhan Bulut

Senior AI Engineer & vezérigazgató, Kantesti Ltd

Julian Emirhan Bulut az Kantesti Ltd alapítója és vezérigazgatója. Ő tervezte és valósította meg az értékelési keretrendszert – beleértve a V11 második frissítéshez hozzáadott SQL-esetbetöltőt is –, elvégezte az API-integrációt, lefuttatta mind a V11 első referenciafuttatást, mind a V11 második frissítés 100 000 esetből álló futását, valamint elkészítette a statisztikai összesítést. A platform alapítója 2019 óta.

GitHub Kantestiről

⚡ Gyors összefoglaló V11 második frissítés — 2026. április 26.

99.80% kompozit pontszám 100 000 szintetikus vérvizsgálati esetben, nyolc orvosi szakterületen és 127 országcímkével (V11 második frissítés).
Nulla túlzott diagnózisú (hyperdiagnosis) álpozitív eredmény 87 412 monitorozott trap-case flag lehetőségben – ugyanaz a trap-case módszertan, mint a V11 első futtatásnál, népességszintre skálázva.
Előre regisztrált értékelési rubrika a V11 első futtatása előtt befagyasztva a forráskódban, és byte-pontosan azonos ehhez a második frissítéshez – utólagos hangolás nem volt lehetséges.
Mentzer-index helyesen alkalmazva a V11 első kiadásban a vashiányos anaemiát a béta-thalasszémiával (minor) való elkülönítéshez; a differenciáló viselkedés a népességszinten is megmaradt.
Csak gyártási végpont — nincs privilégizált útvonalválasztás, pontosan úgy lett kiértékelve, ahogy egy fizető ügyfél hozzáférne.
13,26 másodperces átlagos késleltetés végponttól végpontig (9,0–16,94 s tartomány), és mind a 100 000 eset a motor elsődleges útvonalán befejeződött.
Szintetikus kohorsz. 100 000, futásidőben betöltött szintetikusan generált teszteset. Nem kerül felhasználásra szintetikus adat és nem kerül felhasználásra személyes adat.
MIT-licencű tesztkörnyezet (harness) GitHubon kiadva egy rétegzett véletlen mintával (n = 201) a teljes motor-nyers válaszokból ellenőrzés céljából.
Figshare DOI: 10.6084/m9.figshare.32095435 · Tükrözve a ResearchGate-en, Academia.edu-n, GitHubon.

Miért létezik ez a benchmark, és mit tesztel

A mesterséges intelligencia által támogatott vérkép értelmezése egyre inkább elterjedt a fogyasztói és klinikai munkafolyamatokban, ugyanakkor a laboratóriumi orvoslásra szabott, reprodukálható értékelési keretrendszerek továbbra is ritkák. Ebben a környezetben a legfontosabb kérdések nem azok, amelyeket az általános orvosi kérdés-válasz benchmarkok lefednek: képes-e egy motor elkülöníteni a vashiányt a thalassaemia-tréjtől, ha a vörösvértestek átlagos térfogata (MCV) azonos, túldiagnosztizálja-e a Gilbert-kórt hepatitiszként, és képes-e kóros eltérést „gyártani” egy teljesen normális szűrőpanelben?

Egyetlen vérvizsgálati panel általában elég jelet tartalmaz ahhoz, hogy több, egymással versengő értelmezést is alátámasszon, és az értelmező klinikus feladata nem az, hogy tankönyvi választ „előhúzzon”, hanem hogy ezeket az értelmezéseket egymáshoz mérlegelje. Az a motor, amely jól teljesít a tankönyvi esetekben, még elbukhat azokon az eseteken, amelyek a legfontosabbak: a differenciáldiagnosztikai buktatókon, az ártalmatlan variánsokon, amelyek önmagukban riasztónak tűnnek, és a teljesen normális paneleken, amelyek arra csábítják a magabiztos asszisztenseket, hogy kóros eltérést „gyártsanak”.

Ezt a benchmarkot pontosan ezekre a hibamódokra építették. A tizenöt esetet mindegyikhez egy-egy konkrét diagnosztikai tulajdonság alapján választották ki: egy vashiányos mikrocitózist, amelyet el kell különíteni a azonos átlagos vörösvértest-térfogattal (MCV) járó béta-thalasszémia-hordozó állapottól; egy Gilbert-kór megjelenést, ahol az egyetlen eltérés a szisztolált (indirekt) hiperbilirubinémia; valamint egy tizenöt paraméteres szűrőpanelt, amelyben minden analit a saját referencia-tartományán belül van. A rubrika jutalmazza azokat a motorokat, amelyek az egyes eseteket a maguk feltételei szerint olvassák el, és bünteti azokat, amelyek olyan magabiztos diagnózist próbálnak megállapítani, amelyre nincs is indok.

Thomas Klein, MD-ként azért választottam ezt az esetsort, mert ezek azok a mintázatok, amelyeket a laboratóriumi medicina asszisztensei a leggyakrabban rosszul kezelnek. A költséges hibamód nem az, hogy "kihagynak egy ritka betegséget" — hanem az, hogy rutinszerű kóros leleteket gyártanak olyan páciensek számára, akiknél az nincs is jelen. A miénk Orvosi validáció A hub a tágabb keretrendszert írja le; ez az oldal a V11 kezdeti proof-of-conceptet és a V11 második frissítést mutatja be, amely 100 000 szintetikus esetre skálázta azt, egy olyan szintetikus esetsorból kiindulva, amely 127 országcímkét fed le — ugyanazt az értékelési rubrikát használva, byte-azonosan, utólagos (post-hoc) hangolás nélkül megengedett.

Legújabb referenciafuttatás — V11 Második Frissítés (2026. április 26.)

A 2026. április 26-i V11 Második Frissítés referenciafuttatása egy összetett pontszámot eredményezett: 99.80% ugyanazon az előzetesen regisztrált rubrikán, amelyet a V11 első kiadása használt, kiértékelve: 100 000 szintetikus eset a Kantesti szintetikus esetsorból származnak, és lefedik a 127 országcímkét és 75+ nyelvek. Minden eset a motor elsődleges útvonalán befejeződött; a trap-eset hiperdiagnózis jelző aktiválások szinten maradtak: 0 / 87,412. A V11 eredeti futása 2026. április 23-án 15 kézzel válogatott esetet fedett le (összetett 99.12%), és validálta a rubrikát; a Második Frissítés ezt a rubrikát bájtazonosan megőrzi, és a kiértékelést populációszintű kohorszra terjeszti ki.

Összesített 99.80% 100 000-ből 100 000 eset pontszáma

1.000 Strukturális pontszám

0.996 Klinikai pontszám

13.26 s Átlagos késleltetés

0 / 87,412 Csapda jellegű ál-pozitívok

Az összesített képlet három összetevőt kombinál: strukturális megfelelés a hét kötelező jelentési szekcióval és tizenhat kötelező alcímmel, tartalmi pontosság mérve kulcsszó-visszahívással + pontozási rendszer visszahívással + valószínűségi eloszlás érvényességi ellenőrzéssel, és válasz késleltetése az elsődleges útvonal szolgáltatási szintjének célértéke ellen. A pontos bontást az alábbi rubrikaformula mutatja — ezeknek a súlyoknak vagy rész-rubrikáknak egyetlen elemét sem módosították a Második Frissítésben.

Összesített = 0.35 × Strukturális + 0.55 × Klinikai + 0.10 × Késleltetés

A fennmaradó 0.20 százalékpontnyi mozgástér szinte teljes egészében a klinikai részpontszámra bomlik — kevés esetnél (elsősorban Hepatológiában és Reumatológiában) egy várt pontozási-rendszer kulcsszó hiányzott a motor értelmezéséből, annak ellenére, hogy a diagnosztikus tartalom helyes volt. A 100 000 esetből álló Második Frissítés kohorszban egyetlen eset sem hagyta ki magát a diagnózist. A késleltetés a V11 első kiadásában mért átlag 20.17 s-ról a Második Frissítésben 13.26 s-ra javult, tükrözve a két futás közötti gyártási motoroptimalizálásokat; a rubrika, a pontozási kód és az API-végpont változatlan.

Címkénkénti kompozit pontszámok 0,9971 és 0,9985 között mozogtak a 30 leggyakrabban előforduló országcímke esetén. A további 97 címke hosszú farka (összesen ≈7 300 eset) nem mutatott szisztematikus romlást. Az esetdarabszám alapján a leggyakoribb címkék: Egyesült Államok (10 500), Brazília (9 500), Spanyolország (9 000), Olaszország (8 000), Németország (7 800), Franciaország (7 400), Portugália (5 800), Türkiye (3 400), az Egyesült Királyság (2 900) és Mexikó (2 500).

15 esettől 100 000-ig: kohorszfejlődés 127 országcímke mentén

Az eredeti V11 esetsor hét szakterületet fedett le — hematológia, endokrinológia, anyagcsere-orvostan, hepatológia, nefrológia, kardiológia, reumatológia — plusz két dedikált hiperdetektálási (hyperdiagnosis) csapdaesetet, ahol minden eset egy szintetikusan generált vérvizsgálati panel volt. A V11 második frissítés kiterjeszti az értékelést a 100 000 szintetikus esetre 127 országcímke mentén, nyolc szakterületre elosztva (az eredeti hét plusz egy dedikált belgyógyászati „bucket”, amely a trap részhalmazt elnyeli). Ugyanaz a pontozási rubrika kerül alkalmazásra bájtazonosan mindkét futás során.

Mivel minden eset szintetikusan generált, nincsenek valódi azonosítók eltávolítására, és nincs bevonva személyes adat. Minden szintetikus esethez tartozik egy benchmarkon belüli esetszámkód (BT-NNN-LABEL a V11 kezdeti készletben, egy stabil case_uid a Második frissítésben). Személyes adat sehol nem jelenik meg a publikált keretrendszerben, a technikai jelentésben vagy a kiadott adatkészletekben.

V11 első kiadás — 15 kézzel válogatott eset

Az eredeti V11-es esetsor panelt Dr. Thomas Klein kézzel válogatta össze, hogy azokat a diagnosztikai mintázatokat gyakoroltassa, amelyeket a laboratóriumi medicina asszisztensei a leggyakrabban elrontanak. A tizenöt eset mindegyike egy-egy konkrét diagnosztikai tulajdonság alapján lett kiválasztva, az alábbiak szerint.

Hematológia (3) BT-001, BT-006, BT-007 Vashiányos anaemia · B12-hiány · Minor béta-thalasszémia

Endokrinológia (3) BT-002, BT-008, BT-012 Hashimoto-féle thyreoiditis · PCOS inzulinrezisztenciával · Súlyos D-vitamin hiány

Anyagcsere (2) BT-003, BT-013 T2DM metabolikus szindrómával · Hyperurikaemia köszvénykockázattal

Hepatológia (2) BT-004, BT-009 NAFLD / NASH · Akut virális hepatitis

Nefrológia · Kardiológia · Reumatológia (3) BT-005, BT-010, BT-011 3. stádiumú CKD · Atherogén diszlipidémia · Szisztémás lupus erythematosus

Csapdaesetek (2) BT-014, BT-015 Gilbert-kór (izolált indirekt hyperbilirubinaemia) · Teljesen normál felnőtt szűrés

Miért pont ez az eloszlás

A hematológia három esetet kap, mert a mikrocitás differenciáldiagnózisok és a makrocitás differenciáldiagnózisok a legnagyobb volumenű csapdák a valós laboratóriumi gyakorlatban. Az endokrinológia is három esetet kap, mert a Hashimoto-kór, a PCOS és a D-vitamin hiány megjelenési formái eltérő diagnosztikai alakzatokat gyakorolnak (autoantitest-vezérelt, hormonarany-vezérelt, egyetlen marker-vezérelt). Az egyeletes szakterületek továbbra is jelentősek, mert a CKD, az ASCVD-kockázat és az SLE mindegyikének saját pontozási rendszere van, amelyet a motor hívjon meg (KDIGO-stádium, ASCVD 10 éves kockázat, illetve 2019 EULAR/ACR SLE kritériumok).

V11 második frissítés — 100 000 szintetikus eset 127 országcímke mentén

A Második frissítés lecseréli az eredeti V11 15 esetből álló, hard-coded Python literált egy nagyobb, programozottan generált szintetikus esetsorra. Az esetsor minden futás elején betöltődik, és a konfigurációt átláthatóság céljából naplózzák. A kohorsz megoszlását tartalmi terület szerint az alábbiakban mutatjuk be.

Endokrinológia 23 900 eset (23,9%) Pajzsmirigy, PCOS, D-vitamin, gonadális tengely, hypophysis

Anyagcsere-orvostan 21 900 eset (21,9%) T2DM, metabolikus szindróma, lipidpanelek, hyperurikaemia

Hematológia 15 400 eset (15,4%) Mikrocytás és makrocytás differenciálok, B12/fólsav, vasvizsgálatok

Hepatológia 12 400 eset (12,4%) NAFLD/NASH, virális hepatitis, FIB-4, cholestasis

Belgyógyászat (incl. trap részhalmaz) 9 000 eset (9,0%) Vegyes megjelenési formák és 8 723 dedikált hyperdiagnosis trap eset

Kardiológia 7 500 eset (7,5%) ASCVD-kockázat, aterogén diszlipidémia, hs-CRP

Reumatológia 6 000 eset (6,0%) SLE, RA, vasculitis, autoantitest-panelek (EULAR/ACR kritériumok)

Nefrológia 4 000 eset (4,0%) CKD-stádiumbeosztás (KDIGO), eGFR-trendek, elektrolitzavar

Szintetikus országcímke-megoszlás — top 10 címke

A 100 000 szintetikus eset 127 országcímkét hordoz (ISO 3166-1 alpha-2), hogy a locale-kezelést gyakoroltassuk. Címke-hozzárendelés: Európa 57,7%, Amerika 25,4%, Ázsia–Csendes-óceán 6,2%, megnevezett Közel-Kelet/Afrika címkék 3,4%, valamint további 97 címke hosszú farka, amely összesen nagyjából 7,3%. A tíz leggyakoribb címke az esetdarabszám alapján: Egyesült Államok (10 500), Brazília (9 500), Spanyolország (9 000), Olaszország (8 000), Németország (7 800), Franciaország (7 400), Portugália (5 800), Türkiye (3 400), az Egyesült Királyság (2 900) és Mexikó (2 500). Címkénkénti kompozit pontszámok 0,9971 és 0,9985 között mozogtak. Ezek a címkeszámok a generált esetek tulajdonságai, amelyeket a locale-kezelés gyakorlására használnak — nem valós felhasználók, és nem valós földrajzi lefedettség.

Az előre regisztrált rubrika, magyarázata

Az előregisztráció a legfontosabb módszertani döntés ebben a benchmarkban. Minden várt diagnózis, minden klinikai pontozási rendszer és minden jelentésrész a forráskódba lett rögzítve mielőtt a motort meghívták. A rubrika utólagos finomhangolása tehát a motor „kényeztetésére” lehetetlen.

A kompozit pontszámot három komponens alkotja. A strukturális komponens 35 százalékot tesz ki, és azt méri, hogy a motor visszaadta-e a hét kötelező jelentésrészt (fejléc, összefoglaló, fő megállapítások, differenciál, pontozási rendszerek, ajánlások, utánkövetés) és a bennük lévő tizenhat kötelező alszakaszt. A szakasz-meglét 40 százalékot, az alszakasz-meglét pedig 60 százalékot nyom a strukturális számításban.

A klinikai komponens 55 százalékot tesz ki, és három dolgot egyesít: diagnózis-kulcsszó felidézés (a klinikai alszám 70 százaléka), pontozási rendszer felidézés (20 százalék — a motor kiszámítja-e a Mentzer-, FIB-4-, HOMA-IR-, ASCVD-kockázatot, a KDIGO-stádiumot, valamint az EULAR/ACR kritériumokat, ahol releváns), és egy valószínűség-összeg érvényességi ellenőrzést (10 százalék — a differenciál valószínűségeinek összege a [90, 110] intervallumon belül kell legyen). Csapdaeseteknél legfeljebb 0,30 explicit hiperdagnózis-büntetés kerül levonásra, amely 0,10/fabrikált patológia-flag alapján számolódik, és legfeljebb három flagig van korlátozva.

A késleltetési komponens 10 százalékot tesz ki. A 20 másodpercnél rövidebb válasz megkapja a teljes 0,10-et, a 40 másodpercnél rövidebb válasz 0,05-öt kap, és minden ennél lassabb válasz nulla. A 20 másodperces cél a gyártási elsődleges primary-path szolgáltatási szintű célkitűzést tükrözi; a 40 másodperces felső korlát a 2. fázisú visszaesési keretet jelenti a nagy terhelésű motorhívásokhoz.

Mit akadályoz meg az előregisztráció

Az első fél által készített benchmarkok hírhedtek amiatt, hogy utólagos rubrika-finomhangolással felfújják a saját számaikat. A minta szinte mindig ugyanaz: a csapat lefuttatja a motort, látja, hol teljesít alul, majd csendben úgy állítja át a rubrikát, hogy az alulteljesítő területek kevesebbet számítsanak. A rubrikának az első motorhívás előtt a forráskódba rögzítésével és a tesztkör MIT licenc alatti közzétételével ez az átalakítás láthatóvá válik a verziókezelésben. Bárki klónozhatja a repót, ellenőrizheti a rubrika szerzői dátumait, és igazolhatja, hogy a motor eredményeit nem használták a pontozás alakítására.

Hiperdagnózis-csapda esetek — miért a túlzott „rámondás” a valódi hibamód

A patológia agresszív túlhívása normál szűrőképernyőkön dokumentált hibamódja a fogyasztóknak szánt orvosi asszisztenseknek. Ennek a következményköltségei közé tartozik a szükségtelen kivizsgálás, a beteg szorongása és az iatrogén kivizsgálás. A benchmark két csapdaesete úgy van kialakítva, hogy ez a hibamód látható és pontozható legyen.

🟡 1. csapda — BT-014-GILBERT

Megjelenés. Egy 24 éves férfi összbilirubinszintje 2,4 mg/dL. A direkt frakció normális, a transzaminázok és az alkalikus foszfatáz a saját referencia-tartományukon belül vannak, a retikulociták nem feltűnőek, és a haptoglobin valamint az LDH kizárja a haemolysist.

Helyes értelmezés. Gilbert-kór — egy jóindulatú UGT1A1 polimorfizmus. Az értelmezés nem hivatkozhat hepatitisre, cirrhosisra, haemolyticus anaemiára vagy epeúti obstrukcióra.

V11 eredmény. Kompozit 1.000. A hat monitorozott túldiagnózis-flag közül egyik sem jelent meg aktív diagnózisként.

🟡 2. csapda — BT-015-HEALTHY

Megjelenés. Egy 35 éves nő egy tizenöt paraméteres rutin szűrőpanellel. Minden analit kényelmesen a saját referencia-tartományán belül van.

Helyes értelmezés. Megnyugtatás és életmódbeli fenntartás. Az értelmezés nem gyárthat határérték-közeli kórképeket pusztán azért, hogy klinikailag hasznosnak hasson.

V11 eredmény. Összetett 1.000. A hét monitorozott túldiagnosztizálási riasztás közül egyetlen sem jelent meg aktív diagnózisként — cukorbetegség, vérszegénység, hypothyreosis, diszlipidémia, hepatitis, vesebetegség, hiányállapot.

Mindkét mintavételi ponton összesen tizenhárom monitorozott hiperdianosztizálási riasztást ellenőriztek. Egyetlen sem aktiválódott. Ez az az eredmény, amely a legfontosabb bármely klinikus számára, aki mesterséges intelligencia motort triázs- vagy konzultációt megelőző eszközként kíván használni: a rendszer nem talált ki betegséget, ha nem létezett.

Mentzer-index: a vashiány elkülönítése a thalasszémia minor (thalaszszémia-hordozói) jellegtől

Egy másik, nagy értékű megállapítás a BT-001-es eset (vashiányos vérszegénység) és a BT-007-es eset (béta-thalasszémia minor) párosítása. Mindkettő mikrocitózissal jár, és ez egy jól ismert buktató a naiv osztályozók számára. A Mentzer-index, amelyet az MCV osztva az RBC-számmal számolnak, vashiányban 13 felett van, thalasszémia-hordozói állapotban pedig 13 alatt.

A BT-001-ben a beteg 34 éves nő volt, hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritin 6 ng/mL, valamint emelkedett TIBC. A körülbelül 17,7-es Mentzer-index igazolja a tényleges vashiányt. A BT-007-ben a beteg 28 éves férfi volt mikrocitózissal (MCV 65,8 fL), de magas RBC-számmal (6,2), normál RDW-vel, normál ferritinnel és 5,6 százalékos HbA2-vel. A körülbelül 10,6-os Mentzer-index thalasszémia-hordozói állapotra utal, és az emelkedett HbA2 megerősíti a béta-thalasszémia minort.

Vashiányos vérszegénység Mentzer > 13 Alacsony ferritin, alacsony TSAT, magas TIBC, emelkedett RDW

Béta-thalasszémia-hordozói állapot Mentzer < 13 Normál ferritin, normál RDW, emelkedett HbA2 (>3.5%), magas RBC-szám

Mindkét eset 1.000 pontszámot kapott. A motor mindkét értelmezésben kifejezetten a Mentzer-indexet használta, és minden alkalommal helyes diagnózist adott. Ez a teljes benchmark leginkább klinikailag megnyugtató eredménye, mert a thalasszémia-hordozói állapot vashiányként való téves besorolása nem megfelelő vaspótlást eredményez, és elmaradnak a családszűrési lehetőségek; a vashiány thalasszémiaként való téves besorolása pedig késlelteti az egyszerű helyettesítő kezelést. A mi ferritin-tartomány-irányelvünk magyarázza a tágabb differenciáldiagnosztikai kontextust.

Esetenkénti eredmények a V11 kezdeti referenciafuttatásból (2026. április 23.)

Az eredeti V11 referenciafuttatás a 15 esetből álló proof-of-concept kohorszon szolgál mint módszertani alap a Második frissítéshez: az alábbi, esetenkénti minden részlet bemutatja, hogyan kezeli a rubrika egy valós motorválaszt. A tizenöt esetből tizenkettő elérte az elsődleges útvonalon a maximális összetett pontszámot (1,000); három eset a 2. fázisú (Phase 2) visszaesésen (fallback) keresztül lett kiszolgálva, így elveszett a 0,05 késleltetési bónusz, de minden klinikai és strukturális tartalom megmaradt. Egy esetből hiányzott egyetlen kötelező alfejezet; egy eset visszaadott egy némileg csökkentett valószínűségi eloszlásösszeget.

Esetazonosító Szakirány Összesített Késleltetés Útvonal

BT-001-IDAHematológia1.00017,8 sprimer

BT-006-B12Hematológia1.00018,4 mpprimer

BT-007-THALHematológia1.00017,0 mpprimer

BT-002-HASHEndokrinológia0.95037,0 mpvisszaesés

BT-008-PCOSEndokrinológia0.98718,6 mpprimer

BT-003-T2DMMetabolikus1.00019,1 mpprimer

BT-013-GOUTMetabolikus1.00019,4 mpprimer

BT-004-NAFLDHepatológia1.00019,6 mpprimer

BT-009-VIRHEPHepatológia0.95023,4 mpvisszaesés

BT-014-GILBERTCsapda1.00018,9 mpprimer

BT-005-CKDNefrológia1.00017,4 mpprimer

BT-010-ASCVDKardiológia1.00019,7 mpprimer

BT-011-SLEReumatológia0.98118,2 mpprimer

BT-012-VITDEndokrinológia1.00019,3 mpprimer

BT-015-EGÉSZSÉGESCsapda1.00018,7 mpvisszaesés

A PCOS-eset (BT-008) elveszített egyetlen kötelező alfejezetet a válaszstruktúrában — tizenhatból tizenöt helyett tizenhatból tizenhat —, ami a strukturális pontszámot 1,000-ről 0,963-ra csökkentette. Az SLE-eset (BT-011) egy csekély mértékben csökkent valószínűségeloszlás-összeggel tért vissza, amely a klinikai pontszámot 0,965-re vitte le, miközben minden diagnosztikai kulcsszót és pontozási rendszert megőrzött. Egyik, tökéletlen alapeset sem mulasztott el egy helyes diagnózist.

V11 Második frissítés összesített eredményei – 100 000 eset

Népességi léptékben az egyes esetsorok nem olvashatók ember számára, ezért a Második frissítés összesített mutatókat közöl, nem pedig egy 100 000 soros táblát. A fő összesítés az alábbiakban látható; szakterületenkénti és országcímkénkénti bontás a technikai jelentésben és a Figshare feltöltésben érhető el. Egy rétegzett véletlen mintát veszünk n = 201 nyers motorválaszok (determinisztikus seed 20260426) a GitHub results/ könyvtárban kerül közzétételre ellenőrzés céljából.

Összetett pontszám V11 kezdeti: 0,9912 (99,12%) → Második frissítés: 0.9980 (99.80%) Δ = +0,0068 a 100 000-es esetszámú kohorszban

Strukturális pontszám (átlag) V11 kezdeti: 0,998 → Második frissítés: 1.000 Tökéletes strukturális megfelelés népesedési léptékben

Klinikai pontszám (átlag) V11 kezdeti: 0,998 → Második frissítés: 0.996 −0,002; egyetlen eset sem mulasztotta el magát a diagnózist

Késleltetés — átlag (tartomány) V11 kezdeti: 20,17 mp (17,0–37,0 mp) → Második frissítés: 13,26 mp (9,0–16,94 mp) A futások közötti gyártási motoroptimalizálások

Motorútvonal = elsődleges V11 kezdeti: 12 / 15 → Második frissítés: 100,000 / 100,000 A futás során bármely ponton nem volt szükség 2. fázisú visszaesésre

Csapda-részhalmaz hiperdiagnosztikai jelzők V11 kezdeti: 0 / 13 → Második frissítés: 0 / 87,412 Nulla álpozitív a populációs méretarányban (8 723 csapdaeset monitorozva)

Mit nem árul el a főcím pontszáma

Egy kompozit pontszám 99,80 százalék ebben a konkrét előre regisztrált rubrikában, egy 100 000 esetből álló, 127 országcímkét lefedő szintetikus kohorszban, közel a plafon teljesítményt jelenti — de gondos keretezést igényel. Az eredmény a motor viselkedését írja le a V11-ben a forráskódhoz rögzített rubrikához képest; ez nem egy univerzális állítás a motor minden létező, a valóságban előforduló vérvizsgálati panelen mutatott helyességéről.

A pontszám azt jelzi, hogy a motor a jelen értékeléshez kiválasztott diagnosztikai mintákat helyesen kezelte a populációs méretű kohorszban, egy publikált és reprodukálható módszertanon keresztül. Nem állítja, hogy a motor helyes minden vadon előforduló vérvizsgálati panelen. Nem állítja, hogy a motornak ki kellene váltania a klinikai döntéshozatalt. És nem állítja, hogy a motor felülmúlja a többi mesterséges intelligencia rendszert — az egyéb motorokkal végzett összehasonlító elemzések szándékosan ezen jelentés hatókörén kívül estek.

Amit a pontszám ténylegesen megalapoz, az egy alapérték. Mivel a rubrika és a keretrendszer nyilvános, a motor jövőbeli verziói ugyanazzal a rubrikával értékelhetők — alkalmazva a V11 kezdeti 15 esetre, a Második frissítés 100 000 esetből álló kohorszára, vagy bármely későbbi bővítésre — és a publikált pontszám és bármely későbbi futás közötti különbség maga is mérhető. Ez az előzetes regisztráció értéke: a teljesítményre vonatkozó állításokat tesztelhető állításokká alakítja.

Hogyan reprodukálható ez a benchmark 10 perc alatt

A reprodukáláshoz mindössze egy Kantesti API hitelesítő adatkészlet és egy Python 3.10 vagy újabb környezet szükséges, a következőkkel: requests és reportlab telepítve. A teljes futtató környezet egyetlen, önálló Python-modul, amelyet az MIT-licenc alatt adtak ki.

💻 GitHub MIT-licencű futtató környezet · nyers válaszok · referenciafuttatás 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanonikus tudományos nyilvántartás 🎓 ResearchGate Publikáció 404175463 · V11 Második frissítés · tudományos felfedezési réteg 📄 Academia.edu Tanulmány 165956808 · V11 Második frissítés · tudományos felfedezési réteg

Négy lépés egy friss futtatáshoz

Egy. Klónozd a repót: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Kettő. A függőségek telepítése ezzel: pip install -r requirements.txt (A Második frissítés hozzáadja: mysql-connector-python ≥ 8.0 az SQL-esetbetöltőhöz). Három. Állítsd be KANTESTI_USERNAME és KANTESTI_PASSWORD mint környezeti változók a motor API-jához. A Második frissítés SQL-esetbetöltőjéhez emellett állítsd be: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, és KANTESTI_DB_PASSWORD — a betöltő csak olvasási jogosultságú szerepkörön keresztül csatlakozik (bench_reader) amelynek nincsenek jogosultságai az azonosító táblákhoz. Négy. Futtasd python benchmark_bloodtest.py --limit 100000 a teljes Second-Update futtatáshoz, vagy python benchmark_bloodtest.py --limit 1000 gyors iterációhoz. A kimenetek ide kerülnek: ./benchmark_results/: egy CSV pontozólap országonkénti címke- és szakterületi oszlopokkal, egy JSON aggregátum, egy rétegzett-véletlen nyers-válasz minta és egy Markdown-jelentés.

A hivatkozási futtatások 2026. április 23-án (V11 kezdeti, 15 eset) és 2026. április 26-án (V11 Second Update, 100,000 eset) megőrződnek a results/ adattár könyvtárában. Egy új futtatás új, időbélyegzett pontozólapot hoz létre úgy, hogy a hivatkozási futtatások érintetlenek maradnak. Ha a futtatásod érdemben eltérő eredményt ad, kérjük, nyiss egy GitHub issue-t a futtatás időbélyegével és a válasz metaadataiban visszaadott motorverzióval.

Korlátok és jövőbeli munka

Még 100 000 esetnél is, 127 országcímke mellett, négy korlátozást érdemes kifejezetten megemlíteni: a hosszú farok címkék alulmintavételezése, az egyszeri lefuttatásos értékelés, az egyetlen motor hatóköre és az egyetlen forrásból származó adatok eredete. Ezeket aktív utánkövetési munkákban kezeljük.

Hosszú farok címke lefedettség. A Második frissítés 127 országcímkét ölel fel, de az eloszlás kiegyensúlyozatlan — a top 10 címke az esetek ≈66.4%-ját adja, és a 97 további címke hosszú farka együttesen ≈7.3%-ot járul hozzá (összesen kb. 7 300 eset, címkénként átlagosan ~75 eset). Ezért a hosszú farokban lévő címkenkénti kompozitok zajosabbak, mint amit a fő számok sugallnak. A jövőbeli futások újra fogják egyensúlyozni a címke-hozzárendelést, hogy megerősítsék a címkenkénti becsléseket.

Egyszeri kiértékelés. A kohorsz minden egyes esetét egyszer értékelték. A nagy nyelvi modellek nem elhanyagolható kimeneti varianciát mutatnak még alacsony mintavételi hőmérséklet mellett is, ezért a többfutásos protokoll, esetenként öt kiértékeléssel és jelentett varianciával a természetes következő lépés — különösen a csapdaeset-részhalmazon, ahol a mintavételi „jitter” melletti konzisztencia a biztonsági állítás része.

Egyetlen motor hatóköre. Ez a jelentés egyetlen motort jellemez. Az alternatív mesterséges intelligencia rendszerekkel végzett összehasonlító elemzések itt nem tartoznak a hatókörbe; ezeket külön, független vizsgálatként folytathatjuk megfelelő módszertannal, ugyanazzal a MIT-licencű keretrendszerrel szemben.

Szintetikus adatok. A 100 000 eset szintetikusan generált, nem pedig szintetikus esetek, és az eredmények nem vihetők át a valós klinikai teljesítményre. A valós, beleegyezésen alapuló, külső forrásból származó adatokon végzett értékeléshez megfelelő etikai felügyelet szükséges, és ez a szintetikus benchmark keretein kívül esik.

Ezen a négyen túl a legnagyobb hatású tervezett kiterjesztés az országonkénti többnyelvű paritás. Az Kantesti AI Engine 75+ nyelven szolgálja a felhasználókat, és a nyelv szerint rétegzett Second-Update rész-kohorszok (török, német, spanyol, francia, olasz, portugál, arab, mandarin) futtatása számszerűsíteni fogja a kimeneti minőséget a motor által támogatott nyelveken. Minden nyelv szerint rétegzett elemzés saját DOI-val és keretrendszer-ágával kerül publikálásra.

Próbáld ki ugyanazt a motort, amely 99.80% kompozit pontszámot ért el 100,000 esetnél

Töltsd fel a saját vérvizsgálati panelt ugyanarra a gyártási (production) végpontra, amelyet ebben a benchmarkban értékeltek. Világszerte több mint 2 millió felhasználó használja az Kantesti mesterséges intelligencia vérelemzést, hogy több mint 15 000 biomarkert értelmezzen 75+ nyelven.

🔬 Próbálja ki az ingyenes demót

Chrome-bővítmény App Store Google Play

📚 Hogyan hivatkozz erre a benchmarkra

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Külső módszertani hivatkozások

Mentzer, W. C. (1973). A vashiány elkülönítése a thalasszémiás traittól. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019-es Európai Liga a Reumatológiai Betegségek Ellen / Amerikai Reumatológiai Kollégium osztályozási kritériumai a szisztémás lupus erythematosusra. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Orvosi domén hallucinációs teszt nagy nyelvi modellekhez. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Kompozit pontszám

100,000Pontozott esetek

127Lefedett országcímkék

0 / 87,412Csapda álpozitívok

Gyakran Ismételt Kérdések

Mennyire pontos a Kantesti AI motor szintetikus tesztesetekben?

Egy előre regisztrált rubrikán, 100 000 szintetikusan generált teszteseten futtatva, nyolc tartalmi területen és 127 országcímkén (V11 Second Update), a motor 99,80 százalékos kompozit pontszámot ért el, 0 hiperdiagnózis-flaggel a 87 412 monitorozott trap-case lehetőségben, és 13,26 másodperces átlagos válaszidővel. Ez a kompozit a szintetikus bemeneteken mért kimeneti megfelelést méri, nem a diagnosztikai pontosságot. Az eredeti V11 kiadás ugyanazt a rubrikát 15 kézzel készített eseten futtatta (kompozit 99,12%); a Második frissítés a rubrikát byte-egyezően megtartja, és egy nagyobb szintetikus kohorszra kiterjeszti. A teljes pontozólap a Figshare-en megjelentetve, DOI 10.6084/m9.figshare.32095435 alatt, valamint a GitHub-on MIT licenc alatt érhető el.

A Kantesti mesterséges intelligencia motorja klinikailag validált?

Nem. A motort egy automatizált technikai benchmarkkal (nem klinikai validációval) értékelték, egy olyan rubrikával szemben, amely a V11 kezdeti futása előtt befagyasztásra került a forráskódban, és byte-egyezően megmaradt a V11 Second Update során, 100 000 szintetikus vérvizsgálati eseten értékelve, hematológiából, endokrinológiából, metabolikus medicinából, hepatológiából, nefrológiából, kardiológiából, reumatológiából és belgyógyászatból, 127 országcímkéből merítve. A klinikai felügyeletet Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) biztosította, okleveles klinikai hematológus és a Kantesti AI Chief Medical Officer-e.

Mi az a hiperdiagnózis csapdaeset?

A hiperdiagnózis-csapda (hyperdiagnosis trap) egy olyan klinikai szituáció, amelyet kifejezetten az AI-motorok túlzott diagnózisra hajlamos viselkedésének felismerésére terveztek. A V11 első benchmark két ilyen esetet használt módszertani bizonyítékként: egy izolált, indirekt hyperbilirubinaemiának megfelelő állapotot, amely összhangban van a Gilbert-kórral (ahol a helyes értelmezés a jóindulatú UGT1A1 polimorfizmus, nem pedig hepatitis vagy haemolysis), valamint egy teljesen normális felnőtt szűrőpanelt (ahol a helyes kimenet megnyugtatás, nem pedig legyártott határérték-közeli kóros eltérés). A V11 Második Frissítés ezt a csapda-eset alapú módszertant egy dedikált, 8 723 esetből álló részhalmazra skálázta, amely 87 412 monitorozott hiperdignózis-figyelmeztetési lehetőséget eredményezett — és a motor álpozitív rátája továbbra is nulla volt.

A Kantesti mesterséges intelligencia motor értékelése reprodukálható?

A teljes értékelési keretrendszer (evaluation harness) az MIT licence alatt kerül kiadásra egyetlen, önálló Python-modulként. A V11 első futtatásához csak egy Kantesti API hitelesítő adatkészlet és a Python 3.10 vagy újabb szükséges. A V11 Második Frissítés hozzáad egy paraméterezett, csak olvasható SQL-esetbetöltőt, amelyhez Kantesti klinikai-repozitóriumi hitelesítő adatok kellenek (egy bench_reader olyan szerepkör, amelynek nincs jogosultsága az azonosító táblák felismerésére). A kód, az esetbetöltő SQL-je, a rubrika (kiadások között byte-azonos), valamint a V11 első és a Második Frissítés referenciafuttatásából származó, rétegzett véletlen mintavételű nyers motorválaszok elérhetők a github.com/emirhanai/kantesti-blood-test-benchmark oldalon, és tükrözve vannak a Figshare-en, a ResearchGate-en és az Academia.edu-n.

Hogyan különbözteti meg az Kantesti mesterséges intelligencia motorja a vashiányt a béta-thalasszémia-hordozóságtól?

A motor alkalmazza a Mentzer-indexet, amelyet úgy számolnak ki, hogy az átlagos vörösvértest-térfogatot (MCV) elosztják a vörösvérsejtszámmal (RBC). A 13 feletti Mentzer-index vashiányos anaemiát támogat, míg a 13 alatti érték a béta-thalassaemia traitot támogatja. A V11 első benchmarkban mindkét megjelenést helyesen osztályozták, kifejezett Mentzer-index számítással, amelyet a ferritin, RDW és HbA2 kontextus is alátámasztott. A V11 Második Frissítés 100 000 esetből álló kohorszában ugyanaz a differenciáló viselkedés megmaradt populációs szinten is.

Hol találom a nyers benchmarkadatokat és a forráskódot?

A technikai jelentés a Figshare-en van letétbe helyezve a DOI 10.6084/m9.figshare.32095435 alatt (a V11 első kiadást és a V11 Második Frissítést is lefedve), tükrözve a ResearchGate publikáció 404175463 és az Academia.edu cikk 165956808 alatt — mindkettő frissítve a V11 Második Frissítés címével és a 100 000 eset eredményeivel —, valamint az MIT-licencű Python keretrendszerrel (harness) az összes referenciafuttatás eredményével a github.com/emirhanai/kantesti-blood-test-benchmark oldalon található. A négyplatformos tükörhálózat biztosítja a hosszú távú elérhetőséget és az idézési rugalmasságot.

Miért fontos az előzetes regisztráció az AI orvosi benchmarkoknál?

Az előzetes regisztráció megakadályozza a post-hoc rubrikhangolást, ami a vállalati futtatású benchmarkok saját számaikat felfújó leggyakoribb módja. Ha a rubrikát még bármelyik rendszerhívás előtt a forráskódhoz rögzítik, és a keretrendszert nyilvánosan közzéteszik, akkor a rubrika szerzőjének dátumai ellenőrizhetők a verziókezelésben, és a rendszereredmények nem tudták befolyásolni az értékelési kritériumokat.

Tartalmaz ez a benchmark összehasonlításokat más AI rendszerekkel?

Nem. A V11 jelentés — mind az első kiadás, mind a Második Frissítés — szándékosan egyetlen motort jellemez egy rögzített rubrikával szemben, nem pedig alternatív kereskedelmi rendszerekhez pozicionálva. A keretrendszer nyílt forráskódú az MIT licence alatt (most már tartalmazza az SQL-esetbetöltőt is), így a független kutatók bármely általuk választott motort értékelhetnek ugyanazzal a rubrikával és esetbetöltővel szemben, és publikálhatják az eredményeiket.

A betegesetek valósak vagy szintetikusak?

Minden eset szintetikusan generált — a V11 kezdeti kiadásban 15 kézzel készített eset, a Második frissítésben pedig 100 000. Nem szintetikus esetekről van szó: nincs szintetikus adat, nincs beleegyezési folyamat, és nincs de-identifikáció, mert a kohorszban nincs személyes adat. Személyes adat nem jelenik meg a publikált harnessben, a technikai jelentésben vagy a kiadott adatkészletekben.

⚕️ Orvosi nyilatkozat & összeférhetetlenség

Ezen benchmark-jelentés kutatási és módszertani átláthatósági célokat szolgál. Nem minősül orvosi tanácsnak, nem diagnózis, és nem helyettesíti a szakszerű orvosi ellátást; a jelen eredmények egyike sem használható arra, hogy késleltesse vagy elkerülje az orvos felkeresését. A diagnózisra és a kezelési döntésekre vonatkozóan mindig forduljon képzett egészségügyi szolgáltatóhoz. Ez a vállalat saját motorjának önállóan futtatott belső benchmarkja, amelyet nem validáltak függetlenül, és nem került lektorálásra. Az összpontszám egy rögzített rubrikának való megfelelést mér (jelentésszerkezet, kulcsszó- és pontozási-rendszer visszahívás, valamint késleltetés); nem a valós körülmények közötti diagnosztikai pontosság vagy klinikai biztonság mérőszáma. Mindkét szerző a Kantesti Ltd alkalmazásában áll, és részesedéssel rendelkezik a vállalatban, továbbá az értékelés alatt álló motor ugyanennek a szervezetnek a kereskedelmi terméke. Ezt az összeférhetetlenséget azáltal mérséklik, hogy a rubrikát előzetesen regisztrálják a forráskódban, a harness-t a MIT licence alatt teszik közzé, és publikálnak egy rétegzett, véletlenszerű mintát a motor nyers válaszaiból.

E-E-A-T bizalmi jelzések

⭐

Tapasztalat

15+ év klinikai hematológiai és laboratóriumi orvostani gyakorlat, amely a betegeset-panel kiválasztását felügyeli.

📋

Szakértelem

Előzetesen regisztrált rubrika-tervezés explicit hiperdiagnózis-büntetésekkel és elismert klinikai pontozási rendszerekkel (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Tekintélyesség

Fő szerző Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Megvalósítás: Julian Emirhan Bulut, a Kantesti Ltd vezérigazgatója.

🛡️

Megbízhatóság

MIT-licencű reprodukálható keretrendszer, közzétett nyers rendszerválaszok, nyílt összeférhetetlenségi nyilatkozat, négyplatformos kutatási tükörhálózat.

🏢 Kantesti Kft. Bejegyezve Angliában és Walesben · Cégszám. 17090423 London, Egyesült Királyság · kantesti.net