Miért létezik ez a benchmark, és mit tesztel

A mesterséges intelligencia által támogatott vérkép értelmezése egyre inkább elterjedt a fogyasztói és klinikai munkafolyamatokban, ugyanakkor a laboratóriumi orvoslásra szabott, reprodukálható értékelési keretrendszerek továbbra is ritkák. Ebben a környezetben a legfontosabb kérdések nem azok, amelyeket az általános orvosi kérdés-válasz benchmarkok lefednek: képes-e egy motor elkülöníteni a vashiányt a thalassaemia-tréjtől, ha a vörösvértestek átlagos térfogata (MCV) azonos, túldiagnosztizálja-e a Gilbert-kórt hepatitiszként, és képes-e kóros eltérést „gyártani” egy teljesen normális szűrőpanelben?

Előzetesen regisztrált rubrika-folyamatábra, amely bemutatja, hogyan kerül értékelésre a Kantesti AI Engine — V11 Második Frissítés, 99.80% kompozit pontszám 100 000 esetben — a befagyasztott pontozási kritériumokhoz képest
1. ábra: A V11 mögötti benchmark architektúra 99.80% kompozit pontszám a V11 Második Frissítés 100 000-es esetszámú kohorszán — minden eset, minden kulcsszó, minden pontozási rendszer rögzítve van a forráskódban, mielőtt a motor akár egyetlen PDF-et is látna, és a rubrika bájtazonos a V11 első kiadásával. A rubrika utólagos hangolása a tervezés szerint lehetetlen.

Egyetlen vérvizsgálati panel általában elég jelet tartalmaz ahhoz, hogy több, egymással versengő értelmezést is alátámasszon, és az értelmező klinikus feladata nem az, hogy tankönyvi választ „előhúzzon”, hanem hogy ezeket az értelmezéseket egymáshoz mérlegelje. Az a motor, amely jól teljesít a tankönyvi esetekben, még elbukhat azokon az eseteken, amelyek a legfontosabbak: a differenciáldiagnosztikai buktatókon, az ártalmatlan variánsokon, amelyek önmagukban riasztónak tűnnek, és a teljesen normális paneleken, amelyek arra csábítják a magabiztos asszisztenseket, hogy kóros eltérést „gyártsanak”.

Ezt a benchmarkot pontosan ezekre a hibamódokra építették. A tizenöt esetet mindegyikhez egy-egy konkrét diagnosztikai tulajdonság alapján választották ki: egy vashiányos mikrocitózist, amelyet el kell különíteni a azonos átlagos vörösvértest-térfogattal (MCV) járó béta-thalasszémia-hordozó állapottól; egy Gilbert-kór megjelenést, ahol az egyetlen eltérés a szisztolált (indirekt) hiperbilirubinémia; valamint egy tizenöt paraméteres szűrőpanelt, amelyben minden analit a saját referencia-tartományán belül van. A rubrika jutalmazza azokat a motorokat, amelyek az egyes eseteket a maguk feltételei szerint olvassák el, és bünteti azokat, amelyek olyan magabiztos diagnózist próbálnak megállapítani, amelyre nincs is indok.

Thomas Klein, MD-ként azért választottam ezt az esetsort, mert ezek azok a mintázatok, amelyeket a laboratóriumi medicina asszisztensei a leggyakrabban rosszul kezelnek. A költséges hibamód nem az, hogy "kihagynak egy ritka betegséget" — hanem az, hogy rutinszerű kóros leleteket gyártanak olyan páciensek számára, akiknél az nincs is jelen. A miénk Orvosi validáció A hub a tágabb keretrendszert írja le; ez az oldal a V11 kezdeti proof-of-conceptet és a V11 második frissítést mutatja be, amely 100 000 szintetikus esetre skálázta azt, egy olyan szintetikus esetsorból kiindulva, amely 127 országcímkét fed le — ugyanazt az értékelési rubrikát használva, byte-azonosan, utólagos (post-hoc) hangolás nélkül megengedett.

Legújabb referenciafuttatás — V11 Második Frissítés (2026. április 26.)

A 2026. április 26-i V11 Második Frissítés referenciafuttatása egy összetett pontszámot eredményezett: 99.80% ugyanazon az előzetesen regisztrált rubrikán, amelyet a V11 első kiadása használt, kiértékelve: 100 000 szintetikus eset a Kantesti szintetikus esetsorból származnak, és lefedik a 127 országcímkét és 75+ nyelvek. Minden eset a motor elsődleges útvonalán befejeződött; a trap-eset hiperdiagnózis jelző aktiválások szinten maradtak: 0 / 87,412. A V11 eredeti futása 2026. április 23-án 15 kézzel válogatott esetet fedett le (összetett 99.12%), és validálta a rubrikát; a Második Frissítés ezt a rubrikát bájtazonosan megőrzi, és a kiértékelést populációszintű kohorszra terjeszti ki.

Összesített 99.80% 100 000-ből 100 000 eset pontszáma
1.000 Strukturális pontszám
0.996 Klinikai pontszám
13.26 s Átlagos késleltetés
0 / 87,412 Csapda jellegű ál-pozitívok

Az összesített képlet három összetevőt kombinál: strukturális megfelelés a hét kötelező jelentési szekcióval és tizenhat kötelező alcímmel, tartalmi pontosság mérve kulcsszó-visszahívással + pontozási rendszer visszahívással + valószínűségi eloszlás érvényességi ellenőrzéssel, és válasz késleltetése az elsődleges útvonal szolgáltatási szintjének célértéke ellen. A pontos bontást az alábbi rubrikaformula mutatja — ezeknek a súlyoknak vagy rész-rubrikáknak egyetlen elemét sem módosították a Második Frissítésben.

Összesített = 0.35 × Strukturális + 0.55 × Klinikai + 0.10 × Késleltetés

A fennmaradó 0.20 százalékpontnyi mozgástér szinte teljes egészében a klinikai részpontszámra bomlik — kevés esetnél (elsősorban Hepatológiában és Reumatológiában) egy várt pontozási-rendszer kulcsszó hiányzott a motor értelmezéséből, annak ellenére, hogy a diagnosztikus tartalom helyes volt. A 100 000 esetből álló Második Frissítés kohorszban egyetlen eset sem hagyta ki magát a diagnózist. A késleltetés a V11 első kiadásában mért átlag 20.17 s-ról a Második Frissítésben 13.26 s-ra javult, tükrözve a két futás közötti gyártási motoroptimalizálásokat; a rubrika, a pontozási kód és az API-végpont változatlan.

Címkénkénti kompozit pontszámok 0,9971 és 0,9985 között mozogtak a 30 leggyakrabban előforduló országcímke esetén. A további 97 címke hosszú farka (összesen ≈7 300 eset) nem mutatott szisztematikus romlást. Az esetdarabszám alapján a leggyakoribb címkék: Egyesült Államok (10 500), Brazília (9 500), Spanyolország (9 000), Olaszország (8 000), Németország (7 800), Franciaország (7 400), Portugália (5 800), Türkiye (3 400), az Egyesült Királyság (2 900) és Mexikó (2 500).

15 esettől 100 000-ig: kohorszfejlődés 127 országcímke mentén

Az eredeti V11 esetsor hét szakterületet fedett le — hematológia, endokrinológia, anyagcsere-orvostan, hepatológia, nefrológia, kardiológia, reumatológia — plusz két dedikált hiperdetektálási (hyperdiagnosis) csapdaesetet, ahol minden eset egy szintetikusan generált vérvizsgálati panel volt. A V11 második frissítés kiterjeszti az értékelést a 100 000 szintetikus esetre 127 országcímke mentén, nyolc szakterületre elosztva (az eredeti hét plusz egy dedikált belgyógyászati „bucket”, amely a trap részhalmazt elnyeli). Ugyanaz a pontozási rubrika kerül alkalmazásra bájtazonosan mindkét futás során.

V11 kezdeti eset-panel tervezés — tizenöt szintetikus vérvizsgálati eset hét orvosi szakterületen, plusz két hiperdiagnózis trap eset; ugyanaz a rubrika 99,80% kompozit pontszámot ért el a V11 Second Update 100 000 esetén
2. ábra: A V11 első esetpanel-tervezete hematológiára, endokrinológiára, anyagcsere-orvostanra, hepatológiára, nefrológiára, kardiológiára, reumatológiára, plusz két trap esetre — Gilbert-kórra és egy teljesen normál szűrőpanelre. A Második Frissítés ezt a rubrikát bájtazonosan megőrzi, miközben a kohorszt 100 000 esetre bővíti az Kantesti SQL adattárból.

Mivel minden eset szintetikusan generált, nincsenek valódi azonosítók eltávolítására, és nincs bevonva személyes adat. Minden szintetikus esethez tartozik egy benchmarkon belüli esetszámkód (BT-NNN-LABEL a V11 kezdeti készletben, egy stabil case_uid a Második frissítésben). Személyes adat sehol nem jelenik meg a publikált keretrendszerben, a technikai jelentésben vagy a kiadott adatkészletekben.

V11 első kiadás — 15 kézzel válogatott eset

Az eredeti V11-es esetsor panelt Dr. Thomas Klein kézzel válogatta össze, hogy azokat a diagnosztikai mintázatokat gyakoroltassa, amelyeket a laboratóriumi medicina asszisztensei a leggyakrabban elrontanak. A tizenöt eset mindegyike egy-egy konkrét diagnosztikai tulajdonság alapján lett kiválasztva, az alábbiak szerint.

Hematológia (3) BT-001, BT-006, BT-007 Vashiányos anaemia · B12-hiány · Minor béta-thalasszémia
Endokrinológia (3) BT-002, BT-008, BT-012 Hashimoto-féle thyreoiditis · PCOS inzulinrezisztenciával · Súlyos D-vitamin hiány
Anyagcsere (2) BT-003, BT-013 T2DM metabolikus szindrómával · Hyperurikaemia köszvénykockázattal
Hepatológia (2) BT-004, BT-009 NAFLD / NASH · Akut virális hepatitis
Nefrológia · Kardiológia · Reumatológia (3) BT-005, BT-010, BT-011 3. stádiumú CKD · Atherogén diszlipidémia · Szisztémás lupus erythematosus
Csapdaesetek (2) BT-014, BT-015 Gilbert-kór (izolált indirekt hyperbilirubinaemia) · Teljesen normál felnőtt szűrés

Miért pont ez az eloszlás

A hematológia három esetet kap, mert a mikrocitás differenciáldiagnózisok és a makrocitás differenciáldiagnózisok a legnagyobb volumenű csapdák a valós laboratóriumi gyakorlatban. Az endokrinológia is három esetet kap, mert a Hashimoto-kór, a PCOS és a D-vitamin hiány megjelenési formái eltérő diagnosztikai alakzatokat gyakorolnak (autoantitest-vezérelt, hormonarany-vezérelt, egyetlen marker-vezérelt). Az egyeletes szakterületek továbbra is jelentősek, mert a CKD, az ASCVD-kockázat és az SLE mindegyikének saját pontozási rendszere van, amelyet a motor hívjon meg (KDIGO-stádium, ASCVD 10 éves kockázat, illetve 2019 EULAR/ACR SLE kritériumok).

V11 második frissítés — 100 000 szintetikus eset 127 országcímke mentén

A Második frissítés lecseréli az eredeti V11 15 esetből álló, hard-coded Python literált egy nagyobb, programozottan generált szintetikus esetsorra. Az esetsor minden futás elején betöltődik, és a konfigurációt átláthatóság céljából naplózzák. A kohorsz megoszlását tartalmi terület szerint az alábbiakban mutatjuk be.

Endokrinológia 23 900 eset (23,9%) Pajzsmirigy, PCOS, D-vitamin, gonadális tengely, hypophysis
Anyagcsere-orvostan 21 900 eset (21,9%) T2DM, metabolikus szindróma, lipidpanelek, hyperurikaemia
Hematológia 15 400 eset (15,4%) Mikrocytás és makrocytás differenciálok, B12/fólsav, vasvizsgálatok
Hepatológia 12 400 eset (12,4%) NAFLD/NASH, virális hepatitis, FIB-4, cholestasis
Belgyógyászat (incl. trap részhalmaz) 9 000 eset (9,0%) Vegyes megjelenési formák és 8 723 dedikált hyperdiagnosis trap eset
Kardiológia 7 500 eset (7,5%) ASCVD-kockázat, aterogén diszlipidémia, hs-CRP
Reumatológia 6 000 eset (6,0%) SLE, RA, vasculitis, autoantitest-panelek (EULAR/ACR kritériumok)
Nefrológia 4 000 eset (4,0%) CKD-stádiumbeosztás (KDIGO), eGFR-trendek, elektrolitzavar

Szintetikus országcímke-megoszlás — top 10 címke

A 100 000 szintetikus eset 127 országcímkét hordoz (ISO 3166-1 alpha-2), hogy a locale-kezelést gyakoroltassuk. Címke-hozzárendelés: Európa 57,7%, Amerika 25,4%, Ázsia–Csendes-óceán 6,2%, megnevezett Közel-Kelet/Afrika címkék 3,4%, valamint további 97 címke hosszú farka, amely összesen nagyjából 7,3%. A tíz leggyakoribb címke az esetdarabszám alapján: Egyesült Államok (10 500), Brazília (9 500), Spanyolország (9 000), Olaszország (8 000), Németország (7 800), Franciaország (7 400), Portugália (5 800), Türkiye (3 400), az Egyesült Királyság (2 900) és Mexikó (2 500). Címkénkénti kompozit pontszámok 0,9971 és 0,9985 között mozogtak. Ezek a címkeszámok a generált esetek tulajdonságai, amelyeket a locale-kezelés gyakorlására használnak — nem valós felhasználók, és nem valós földrajzi lefedettség.

Az előre regisztrált rubrika, magyarázata

Az előregisztráció a legfontosabb módszertani döntés ebben a benchmarkban. Minden várt diagnózis, minden klinikai pontozási rendszer és minden jelentésrész a forráskódba lett rögzítve mielőtt a motort meghívták. A rubrika utólagos finomhangolása tehát a motor „kényeztetésére” lehetetlen.

A kompozit pontszámot három komponens alkotja. A strukturális komponens 35 százalékot tesz ki, és azt méri, hogy a motor visszaadta-e a hét kötelező jelentésrészt (fejléc, összefoglaló, fő megállapítások, differenciál, pontozási rendszerek, ajánlások, utánkövetés) és a bennük lévő tizenhat kötelező alszakaszt. A szakasz-meglét 40 százalékot, az alszakasz-meglét pedig 60 százalékot nyom a strukturális számításban.

A klinikai komponens 55 százalékot tesz ki, és három dolgot egyesít: diagnózis-kulcsszó felidézés (a klinikai alszám 70 százaléka), pontozási rendszer felidézés (20 százalék — a motor kiszámítja-e a Mentzer-, FIB-4-, HOMA-IR-, ASCVD-kockázatot, a KDIGO-stádiumot, valamint az EULAR/ACR kritériumokat, ahol releváns), és egy valószínűség-összeg érvényességi ellenőrzést (10 százalék — a differenciál valószínűségeinek összege a [90, 110] intervallumon belül kell legyen). Csapdaeseteknél legfeljebb 0,30 explicit hiperdagnózis-büntetés kerül levonásra, amely 0,10/fabrikált patológia-flag alapján számolódik, és legfeljebb három flagig van korlátozva.

A késleltetési komponens 10 százalékot tesz ki. A 20 másodpercnél rövidebb válasz megkapja a teljes 0,10-et, a 40 másodpercnél rövidebb válasz 0,05-öt kap, és minden ennél lassabb válasz nulla. A 20 másodperces cél a gyártási elsődleges primary-path szolgáltatási szintű célkitűzést tükrözi; a 40 másodperces felső korlát a 2. fázisú visszaesési keretet jelenti a nagy terhelésű motorhívásokhoz.

A MIT-licencű Kantesti benchmark keretrendszer futását és esetszintű pontszámainak kiadását bemutató terminálképernyő — ugyanaz a keretrendszer, amely most SQL-alapú, a V11 Második Frissítés 100 000 esetből álló futtatásában a 99.80% kompozit pontszámot állította elő
3. ábra: A futtatásban lévő keretrendszer – ugyanaz a motor, amely előállította 99,80% összetett pontszámot a V11 Második frissítés 100 000-es eszetszámú kohorszán. Minden eset egy A4 PDF-ként kerül megjelenítésre, feltöltésre a v11 gyártási (production) végpontra, majd a befagyasztott rubrika alapján pontozásra kerül. A Második frissítés paraméterezett SQL-esetbetöltőt adott hozzá; a nyers motorválaszok rétegzett véletlen mintája (n = 201) az összesített pontozólap mellett kerül mentésre.

Mit akadályoz meg az előregisztráció

Az első fél által készített benchmarkok hírhedtek amiatt, hogy utólagos rubrika-finomhangolással felfújják a saját számaikat. A minta szinte mindig ugyanaz: a csapat lefuttatja a motort, látja, hol teljesít alul, majd csendben úgy állítja át a rubrikát, hogy az alulteljesítő területek kevesebbet számítsanak. A rubrikának az első motorhívás előtt a forráskódba rögzítésével és a tesztkör MIT licenc alatti közzétételével ez az átalakítás láthatóvá válik a verziókezelésben. Bárki klónozhatja a repót, ellenőrizheti a rubrika szerzői dátumait, és igazolhatja, hogy a motor eredményeit nem használták a pontozás alakítására.

Hiperdagnózis-csapda esetek — miért a túlzott „rámondás” a valódi hibamód

A patológia agresszív túlhívása normál szűrőképernyőkön dokumentált hibamódja a fogyasztóknak szánt orvosi asszisztenseknek. Ennek a következményköltségei közé tartozik a szükségtelen kivizsgálás, a beteg szorongása és az iatrogén kivizsgálás. A benchmark két csapdaesete úgy van kialakítva, hogy ez a hibamód látható és pontozható legyen.

Oldalankénti összehasonlítás egy naiv AI által a hepatitis „legyártásáról” egy Gilbert-kór panelen, illetve a Kantesti motor helyes azonosításáról a jóindulatú UGT1A1 polimorfizmusnak — olyan módszertan, amely a V11 Második Frissítés 99.80% benchmarkjában a 87 412 csapda-figyelmeztetési lehetőség közül nullára skálázta az álpozitív találatokat
4. ábra: A V11 első kiadásának csapda-eset (trap-case) kialakítása – egy motor, amely magabiztosan a Gilbert-kórt hepatitisnek címkézi, vagy amely határérték-közeli kóros eltérést gyárt egy teljesen normális képernyőn, büntetést kap, nem jutalmat azért, mert klinikai hangzást kelt. Ez a módszertan skálázódott a 0 / 87,412 hamis pozitívokra a V11 Második frissítés 100 000-es esetszámú futásában, amely előállította a 99,80% összetett pontszámot.

🟡 1. csapda — BT-014-GILBERT

Megjelenés. Egy 24 éves férfi összbilirubinszintje 2,4 mg/dL. A direkt frakció normális, a transzaminázok és az alkalikus foszfatáz a saját referencia-tartományukon belül vannak, a retikulociták nem feltűnőek, és a haptoglobin valamint az LDH kizárja a haemolysist.

Helyes értelmezés. Gilbert-kór — egy jóindulatú UGT1A1 polimorfizmus. Az értelmezés nem hivatkozhat hepatitisre, cirrhosisra, haemolyticus anaemiára vagy epeúti obstrukcióra.

V11 eredmény. Kompozit 1.000. A hat monitorozott túldiagnózis-flag közül egyik sem jelent meg aktív diagnózisként.

🟡 2. csapda — BT-015-HEALTHY

Megjelenés. Egy 35 éves nő egy tizenöt paraméteres rutin szűrőpanellel. Minden analit kényelmesen a saját referencia-tartományán belül van.

Helyes értelmezés. Megnyugtatás és életmódbeli fenntartás. Az értelmezés nem gyárthat határérték-közeli kórképeket pusztán azért, hogy klinikailag hasznosnak hasson.

V11 eredmény. Összetett 1.000. A hét monitorozott túldiagnosztizálási riasztás közül egyetlen sem jelent meg aktív diagnózisként — cukorbetegség, vérszegénység, hypothyreosis, diszlipidémia, hepatitis, vesebetegség, hiányállapot.

Mindkét mintavételi ponton összesen tizenhárom monitorozott hiperdianosztizálási riasztást ellenőriztek. Egyetlen sem aktiválódott. Ez az az eredmény, amely a legfontosabb bármely klinikus számára, aki mesterséges intelligencia motort triázs- vagy konzultációt megelőző eszközként kíván használni: a rendszer nem talált ki betegséget, ha nem létezett.

Mentzer-index: a vashiány elkülönítése a thalasszémia minor (thalaszszémia-hordozói) jellegtől

Egy másik, nagy értékű megállapítás a BT-001-es eset (vashiányos vérszegénység) és a BT-007-es eset (béta-thalasszémia minor) párosítása. Mindkettő mikrocitózissal jár, és ez egy jól ismert buktató a naiv osztályozók számára. A Mentzer-index, amelyet az MCV osztva az RBC-számmal számolnak, vashiányban 13 felett van, thalasszémia-hordozói állapotban pedig 13 alatt.

A BT-001-ben a beteg 34 éves nő volt, hemoglobin 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritin 6 ng/mL, valamint emelkedett TIBC. A körülbelül 17,7-es Mentzer-index igazolja a tényleges vashiányt. A BT-007-ben a beteg 28 éves férfi volt mikrocitózissal (MCV 65,8 fL), de magas RBC-számmal (6,2), normál RDW-vel, normál ferritinnel és 5,6 százalékos HbA2-vel. A körülbelül 10,6-os Mentzer-index thalasszémia-hordozói állapotra utal, és az emelkedett HbA2 megerősíti a béta-thalasszémia minort.

Vashiányos vérszegénység Mentzer > 13 Alacsony ferritin, alacsony TSAT, magas TIBC, emelkedett RDW
Béta-thalasszémia-hordozói állapot Mentzer < 13 Normál ferritin, normál RDW, emelkedett HbA2 (>3.5%), magas RBC-szám

Mindkét eset 1.000 pontszámot kapott. A motor mindkét értelmezésben kifejezetten a Mentzer-indexet használta, és minden alkalommal helyes diagnózist adott. Ez a teljes benchmark leginkább klinikailag megnyugtató eredménye, mert a thalasszémia-hordozói állapot vashiányként való téves besorolása nem megfelelő vaspótlást eredményez, és elmaradnak a családszűrési lehetőségek; a vashiány thalasszémiaként való téves besorolása pedig késlelteti az egyszerű helyettesítő kezelést. A mi ferritin-tartomány-irányelvünk magyarázza a tágabb differenciáldiagnosztikai kontextust.

Esetenkénti eredmények a V11 kezdeti referenciafuttatásból (2026. április 23.)

Az eredeti V11 referenciafuttatás a 15 esetből álló proof-of-concept kohorszon szolgál mint módszertani alap a Második frissítéshez: az alábbi, esetenkénti minden részlet bemutatja, hogyan kezeli a rubrika egy valós motorválaszt. A tizenöt esetből tizenkettő elérte az elsődleges útvonalon a maximális összetett pontszámot (1,000); három eset a 2. fázisú (Phase 2) visszaesésen (fallback) keresztül lett kiszolgálva, így elveszett a 0,05 késleltetési bónusz, de minden klinikai és strukturális tartalom megmaradt. Egy esetből hiányzott egyetlen kötelező alfejezet; egy eset visszaadott egy némileg csökkentett valószínűségi eloszlásösszeget.

Esetazonosító Szakirány Összesített Késleltetés Útvonal
BT-001-IDAHematológia1.00017,8 sprimer
BT-006-B12Hematológia1.00018,4 mpprimer
BT-007-THALHematológia1.00017,0 mpprimer
BT-002-HASHEndokrinológia0.95037,0 mpvisszaesés
BT-008-PCOSEndokrinológia0.98718,6 mpprimer
BT-003-T2DMMetabolikus1.00019,1 mpprimer
BT-013-GOUTMetabolikus1.00019,4 mpprimer
BT-004-NAFLDHepatológia1.00019,6 mpprimer
BT-009-VIRHEPHepatológia0.95023,4 mpvisszaesés
BT-014-GILBERTCsapda1.00018,9 mpprimer
BT-005-CKDNefrológia1.00017,4 mpprimer
BT-010-ASCVDKardiológia1.00019,7 mpprimer
BT-011-SLEReumatológia0.98118,2 mpprimer
BT-012-VITDEndokrinológia1.00019,3 mpprimer
BT-015-EGÉSZSÉGESCsapda1.00018,7 mpvisszaesés

A PCOS-eset (BT-008) elveszített egyetlen kötelező alfejezetet a válaszstruktúrában — tizenhatból tizenöt helyett tizenhatból tizenhat —, ami a strukturális pontszámot 1,000-ről 0,963-ra csökkentette. Az SLE-eset (BT-011) egy csekély mértékben csökkent valószínűségeloszlás-összeggel tért vissza, amely a klinikai pontszámot 0,965-re vitte le, miközben minden diagnosztikai kulcsszót és pontozási rendszert megőrzött. Egyik, tökéletlen alapeset sem mulasztott el egy helyes diagnózist.

V11 Második frissítés összesített eredményei – 100 000 eset

Népességi léptékben az egyes esetsorok nem olvashatók ember számára, ezért a Második frissítés összesített mutatókat közöl, nem pedig egy 100 000 soros táblát. A fő összesítés az alábbiakban látható; szakterületenkénti és országcímkénkénti bontás a technikai jelentésben és a Figshare feltöltésben érhető el. Egy rétegzett véletlen mintát veszünk n = 201 nyers motorválaszok (determinisztikus seed 20260426) a GitHub results/ könyvtárban kerül közzétételre ellenőrzés céljából.

Összetett pontszám V11 kezdeti: 0,9912 (99,12%) → Második frissítés: 0.9980 (99.80%) Δ = +0,0068 a 100 000-es esetszámú kohorszban
Strukturális pontszám (átlag) V11 kezdeti: 0,998 → Második frissítés: 1.000 Tökéletes strukturális megfelelés népesedési léptékben
Klinikai pontszám (átlag) V11 kezdeti: 0,998 → Második frissítés: 0.996 −0,002; egyetlen eset sem mulasztotta el magát a diagnózist
Késleltetés — átlag (tartomány) V11 kezdeti: 20,17 mp (17,0–37,0 mp) → Második frissítés: 13,26 mp (9,0–16,94 mp) A futások közötti gyártási motoroptimalizálások
Motorútvonal = elsődleges V11 kezdeti: 12 / 15 → Második frissítés: 100,000 / 100,000 A futás során bármely ponton nem volt szükség 2. fázisú visszaesésre
Csapda-részhalmaz hiperdiagnosztikai jelzők V11 kezdeti: 0 / 13 → Második frissítés: 0 / 87,412 Nulla álpozitív a populációs méretarányban (8 723 csapdaeset monitorozva)

Mit nem árul el a főcím pontszáma

Egy kompozit pontszám 99,80 százalék ebben a konkrét előre regisztrált rubrikában, egy 100 000 esetből álló, 127 országcímkét lefedő szintetikus kohorszban, közel a plafon teljesítményt jelenti — de gondos keretezést igényel. Az eredmény a motor viselkedését írja le a V11-ben a forráskódhoz rögzített rubrikához képest; ez nem egy univerzális állítás a motor minden létező, a valóságban előforduló vérvizsgálati panelen mutatott helyességéről.

A pontszám azt jelzi, hogy a motor a jelen értékeléshez kiválasztott diagnosztikai mintákat helyesen kezelte a populációs méretű kohorszban, egy publikált és reprodukálható módszertanon keresztül. Nem állítja, hogy a motor helyes minden vadon előforduló vérvizsgálati panelen. Nem állítja, hogy a motornak ki kellene váltania a klinikai döntéshozatalt. És nem állítja, hogy a motor felülmúlja a többi mesterséges intelligencia rendszert — az egyéb motorokkal végzett összehasonlító elemzések szándékosan ezen jelentés hatókörén kívül estek.

Amit a pontszám ténylegesen megalapoz, az egy alapérték. Mivel a rubrika és a keretrendszer nyilvános, a motor jövőbeli verziói ugyanazzal a rubrikával értékelhetők — alkalmazva a V11 kezdeti 15 esetre, a Második frissítés 100 000 esetből álló kohorszára, vagy bármely későbbi bővítésre — és a publikált pontszám és bármely későbbi futás közötti különbség maga is mérhető. Ez az előzetes regisztráció értéke: a teljesítményre vonatkozó állításokat tesztelhető állításokká alakítja.

Hogyan reprodukálható ez a benchmark 10 perc alatt

A reprodukáláshoz mindössze egy Kantesti API hitelesítő adatkészlet és egy Python 3.10 vagy újabb környezet szükséges, a következőkkel: requests és reportlab telepítve. A teljes futtató környezet egyetlen, önálló Python-modul, amelyet az MIT-licenc alatt adtak ki.

Reprodukálhatósági hálózati ábra, amely a V11 Second Update benchmarkját mutatja (99,80% kompozit, 100 000 eset, 127 országcímke) a Figshare, ResearchGate, Academia.edu és GitHub között tükrözve, a Figshare DOI-val mint kanonikus horgony
5. ábra: A V11 Második frissítés benchmarkja — 99,80% kompozit pontszám 100 000 esetben 127 országcímke mentén — négy kutatási platformon tükrözve. A Figshare DOI a kanonikus tudományos azonosító; a ResearchGate (publication 404175463), az Academia.edu (paper 165956808) és a GitHub párhuzamos példányokat tárolnak a benchmark-harnessszel, a nyers válaszok rétegzett véletlen mintájával és az országonkénti címke/szakterületi pontozólapokkal.

Négy lépés egy friss futtatáshoz

Egy. Klónozd a repót: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Kettő. A függőségek telepítése ezzel: pip install -r requirements.txt (A Második frissítés hozzáadja: mysql-connector-python ≥ 8.0 az SQL-esetbetöltőhöz). Három. Állítsd be KANTESTI_USERNAME és KANTESTI_PASSWORD mint környezeti változók a motor API-jához. A Második frissítés SQL-esetbetöltőjéhez emellett állítsd be: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, és KANTESTI_DB_PASSWORD — a betöltő csak olvasási jogosultságú szerepkörön keresztül csatlakozik (bench_reader) amelynek nincsenek jogosultságai az azonosító táblákhoz. Négy. Futtasd python benchmark_bloodtest.py --limit 100000 a teljes Second-Update futtatáshoz, vagy python benchmark_bloodtest.py --limit 1000 gyors iterációhoz. A kimenetek ide kerülnek: ./benchmark_results/: egy CSV pontozólap országonkénti címke- és szakterületi oszlopokkal, egy JSON aggregátum, egy rétegzett-véletlen nyers-válasz minta és egy Markdown-jelentés.

A hivatkozási futtatások 2026. április 23-án (V11 kezdeti, 15 eset) és 2026. április 26-án (V11 Second Update, 100,000 eset) megőrződnek a results/ adattár könyvtárában. Egy új futtatás új, időbélyegzett pontozólapot hoz létre úgy, hogy a hivatkozási futtatások érintetlenek maradnak. Ha a futtatásod érdemben eltérő eredményt ad, kérjük, nyiss egy GitHub issue-t a futtatás időbélyegével és a válasz metaadataiban visszaadott motorverzióval.

Korlátok és jövőbeli munka

Még 100 000 esetnél is, 127 országcímke mellett, négy korlátozást érdemes kifejezetten megemlíteni: a hosszú farok címkék alulmintavételezése, az egyszeri lefuttatásos értékelés, az egyetlen motor hatóköre és az egyetlen forrásból származó adatok eredete. Ezeket aktív utánkövetési munkákban kezeljük.

Hosszú farok címke lefedettség. A Második frissítés 127 országcímkét ölel fel, de az eloszlás kiegyensúlyozatlan — a top 10 címke az esetek ≈66.4%-ját adja, és a 97 további címke hosszú farka együttesen ≈7.3%-ot járul hozzá (összesen kb. 7 300 eset, címkénként átlagosan ~75 eset). Ezért a hosszú farokban lévő címkenkénti kompozitok zajosabbak, mint amit a fő számok sugallnak. A jövőbeli futások újra fogják egyensúlyozni a címke-hozzárendelést, hogy megerősítsék a címkenkénti becsléseket.

Egyszeri kiértékelés. A kohorsz minden egyes esetét egyszer értékelték. A nagy nyelvi modellek nem elhanyagolható kimeneti varianciát mutatnak még alacsony mintavételi hőmérséklet mellett is, ezért a többfutásos protokoll, esetenként öt kiértékeléssel és jelentett varianciával a természetes következő lépés — különösen a csapdaeset-részhalmazon, ahol a mintavételi „jitter” melletti konzisztencia a biztonsági állítás része.

Egyetlen motor hatóköre. Ez a jelentés egyetlen motort jellemez. Az alternatív mesterséges intelligencia rendszerekkel végzett összehasonlító elemzések itt nem tartoznak a hatókörbe; ezeket külön, független vizsgálatként folytathatjuk megfelelő módszertannal, ugyanazzal a MIT-licencű keretrendszerrel szemben.

Szintetikus adatok. A 100 000 eset szintetikusan generált, nem pedig szintetikus esetek, és az eredmények nem vihetők át a valós klinikai teljesítményre. A valós, beleegyezésen alapuló, külső forrásból származó adatokon végzett értékeléshez megfelelő etikai felügyelet szükséges, és ez a szintetikus benchmark keretein kívül esik.

Ezen a négyen túl a legnagyobb hatású tervezett kiterjesztés az országonkénti többnyelvű paritás. Az Kantesti AI Engine 75+ nyelven szolgálja a felhasználókat, és a nyelv szerint rétegzett Second-Update rész-kohorszok (török, német, spanyol, francia, olasz, portugál, arab, mandarin) futtatása számszerűsíteni fogja a kimeneti minőséget a motor által támogatott nyelveken. Minden nyelv szerint rétegzett elemzés saját DOI-val és keretrendszer-ágával kerül publikálásra.