Proč tento benchmark existuje a co testuje
AI asistované rozbory krevních výsledků se stále častěji používají v spotřebitelských i klinických pracovních postupech, avšak reprodukovatelné hodnoticí rámce přizpůsobené laboratorní medicíně zůstávají neobvyklé. Otázky, které v tomto kontextu nejvíce záleží, nejsou ty, na které se zaměřují obecné benchmarky pro zodpovídání zdravotnických otázek: dokáže engine oddělit anémii z nedostatku železa od talasémie při shodném středním objemu erytrocytů, nepře-diagnostikuje Gilbertův syndrom jako hepatitidu a nevytváří patologii v plně normálním screeningovém panelu?
Jednotlivý panel krevních testů obvykle obsahuje dostatek signálu pro několik konkurenčních interpretací a úkolem interpretujícího klinika je tyto interpretace navzájem zvážit, nikoli vyhledat odpověď v učebnici. Stroj, který si dobře vede v případech z učebnic, může přesto selhat v těch případech, na kterých nejvíc záleží: v úskalích diferenciální diagnostiky, v neškodných variantách, které při izolovaném pohledu vypadají znepokojivě, a v plně normálních panelech, které svádějí sebevědomé asistenty k „vyrábění“ patologie.
Tento benchmark byl postaven přesně na těchto typech selhání. Každý z patnácti případů byl vybrán pro konkrétní diagnostickou vlastnost: mikrocystóza z nedostatku železa, kterou je nutné udržet odděleně od znaku beta-talasémie se shodným průměrným objemem krvinek, prezentace Gilbertova syndromu, kde je jedinou odchylkou izolovaná nepřímá hyperbilirubinémie, a screeningový panel o patnácti parametrech, v němž se každá analyta nachází v rámci referenčního rozmezí. Hodnoticí kritérium odměňuje motory, které čtou každý případ podle jeho vlastních podmínek, a penalizuje motory, které sáhnou po sebevědomé diagnóze, pokud taková diagnóza není opodstatněná.
Jako Thomas Klein, MD, jsem vybral panel případů, protože to jsou vzorce, které asistenti v laboratorní medicíně nejčastěji chybují. Drahé selhání není "přehlédnout vzácné onemocnění" — je to vymýšlení běžné patologie u pacientů, kteří ji nemají. Náš Lékařské ověřování hub popisuje širší rámec; tato stránka popisuje jeho aplikovaný výsledek na enginu V11.
Nejnovější referenční spuštění — V11 (duben 2026)
Referenční běh z dubna 2026 pro Kantesti AI Engine V11 vytvořil kompozitní skóre 99.12% v předregistrovaném hodnoticím schématu patnácti případů. Oba případy „trap“ hyperdiagnózy dosáhly stropu. Mentzerův index byl v diferenciální diagnostice nedostatek železa vs. talasémie použit správně.
Kompozitní vzorec kombinuje tři složky: strukturální shoda se sedmi povinnými oddíly hlášení a šestnácti povinnými pododdíly, klinická přesnost měřená jako součet zapamatování klíčových slov, zapamatování v rámci bodovacího systému a kontrola validity pravděpodobnostního rozdělení, a latence odpovědi vůči primárnímu cíli úrovně služby 20 sekund. Přesné rozložení je uvedeno ve vzorci hodnoticího kritéria níže.
Zbývajících 0,88 procentního bodu volného prostoru se rozkládá téměř výhradně na ztrátu v latenci — tři záložní volání pro Phase 2, každé s kompozitním příspěvkem -0,05, přispěla přibližně 0,60 z deficitu 0,88 bodu — nikoli do klinického obsahu. Stroj v žádném z patnácti případů nezmeškal správnou diagnózu; kde se mu to nepodařilo, bylo to tím, že v malé menšině invokací trvalo o něco déle než primární cílových 20 sekund.
Patnáct případů napříč sedmi medicínskými specializacemi
Panel případů pokrývá sedm specializací — hematologii, endokrinologii, metabolickou medicínu, hepatologii, nefrologii, kardiologii, revmatologii — plus dva vyhrazené případy „hyperdiagnosis trap“. Každý případ je anonymizovaný reálný záznam pacienta čerpaný z repozitáře klinických dat Kantesti na základě písemného informovaného souhlasu.
Anonymizace byla provedena přístupem Safe Harbor: všechny přímé identifikátory byly odstraněny nebo nahrazeny a každému záznamu byl přiřazen interní kód případu v benchmark formátu BT-NNN-LABEL. Zpracování bylo provedeno v souladu s GDPR článek 9(2)(j) pro vědecký výzkum s odpovídajícími zárukami a s ekvivalentními ustanoveními UK GDPR. Žádné osobně identifikující informace se nikde nevyskytují v publikovaném „harness“, technické zprávě ani ve vydaných datových sadách.
Proč právě toto rozložení
Hematologie získá tři případy, protože mikrocytární diferenciály a makrocytární diferenciály jsou v reálné laboratorní praxi nejčastější „pastí“ s největším objemem. Endokrinologie získá tři případy, protože projevy Hashimotovy choroby, PCOS a nedostatku vitamínu D mají různé diagnostické „tvary“ (řízené autoprotilátkami, řízené poměry hormonů, řízené jedním markerem). Jednopřípadové specializace jsou však stále smysluplné, protože každý z CKD, rizika ASCVD a SLE má vlastní bodovací systém, který by měl engine vyvolat (KDIGO staging, ASCVD 10letové riziko, resp. kritéria SLE 2019 EULAR/ACR).
Předem registrovaná hodnoticí kritéria — vysvětleno
Předregistrace je v tomto benchmarku jediná nejdůležitější metodologická volba. Každá očekávaná diagnóza, každý klinický bodovací systém a každá část reportu byly zavázány ke zdrojovému kódu ještě předtím, než byl engine vyvolán. Dodatečné (post-hoc) dolaďování rubriky tak, aby lichotila enginu, je proto nemožné.
Složené skóre tvoří tři komponenty. strukturální komponenta přispívá 35 procenty a měří, zda engine vrátil sedm povinných částí reportu (hlavička, shrnutí, klíčová zjištění, diferenciál, bodovací systémy, doporučení, follow-up) a šestnáct povinných podsekcí v rámci nich. Přítomnost sekce váží 40 procent a přítomnost podsekce váží 60 procent v rámci strukturálního výpočtu.
The klinická komponenta přispívá 55 procenty a skládá se ze tří věcí: vybavení diagnóz podle klíčových slov (70 procent klinického dílčího skóre), vybavení bodovacích systémů (20 procent — zda engine vypočítá Mentzer, FIB-4, HOMA-IR, riziko ASCVD, staging KDIGO, kritéria EULAR/ACR, je-li relevantní), a kontrolu validity součtu pravděpodobností (10 procent — diferenciální pravděpodobnosti by se měly sčítat v intervalu [90, 110]). U „trap“ případů se odečítá explicitní penalizace za hyperdiagnózu až 0.30, vypočtená jako 0.10 za každý zfalšovaný příznak patologie, s maximem tří příznaků.
The komponenta latence přispívá 10 procenty. Odpověď do 20 sekund získá plných 0.10, odpověď do 40 sekund získá 0.05 a cokoli pomalejšího získá nulu. Cílových 20 sekund odráží produkční primární cíl úrovně služby pro path; strop 40 sekund odráží rozpočtovou rezervu pro fallback ve Fázi 2 při náročných vyvoláních enginu.
Co předregistrace brání
První-stranové benchmarky jsou proslulé tím, že nafukují vlastní čísla pomocí post-hoc dolaďování rubriky. Vzor je téměř vždy stejný: tým spustí engine, uvidí, kde podává horší výkon, a pak potichu upraví rubriku tak, aby oblasti s horším výkonem „počítaly méně“. Tím, že se rubrika zaváže ke zdrojovému kódu před prvním voláním enginu a že se testovací prostředí zveřejní pod licencí MIT, stane se tato úprava viditelnou v systému verzí. Každý si může repozitář naklonovat, zkontrolovat data autorů rubriky a ověřit, že výsledky enginu nebyly použity k formování skórování.
Pasti hyperdiagnózy — proč je skutečným selháním „přehnané volání“
Agresivní přehnané označování patologie na normálních obrazovkách je zdokumentovaný režim selhání u spotřebitelských zdravotnických asistentů. Jeho následné náklady zahrnují zbytečné vyšetřování, úzkost pacienta a iatrogenní rozpracování. Dva „trap“ případy v tomto benchmarku jsou navrženy tak, aby tento režim selhání byl viditelný a ohodnotitelný.
🟡 Trap 1 — BT-014-GILBERT
Prezentace. Muž, 24 let, s celkovým bilirubinem 2.4 mg/dL. Přímá frakce je v normě, transaminázy a alkalická fosfatáza jsou v rámci referenčních rozmezí, retikulocyty jsou bez pozoruhodností a haptoglobin a LDH vylučují hemolýzu.
Správná interpretace. Gilbertův syndrom — benigní polymorfismus UGT1A1. Interpretace by neměla vyvolávat hepatitidu, cirhózu, hemolytickou anémii ani biliární obstrukci.
Výsledek V11. Kompozitní 1.000. Žádný z šesti sledovaných příznaků přehnané diagnózy se neobjevil jako aktivní diagnóza.
🟡 Trap 2 — BT-015-HEALTHY
Prezentace. Žena, 35 let, s patnáctiparametrovým rutinním screeningovým panelem. Každý analyt pohodlně leží v rámci svého referenčního rozmezí.
Správná interpretace. Ujištění a udržování životního stylu. Interpretace by neměla uměle vytvářet hraniční patologii, aby působila klinicky užitečně.
Výsledek V11. Kompozit 1.000. Žádná ze sedmi sledovaných vlajek nadměrné diagnostiky — diabetes, anémie, hypotyreóza, dyslipidémie, hepatitida, onemocnění ledvin, nedostatek — se neobjevila jako aktivní diagnóza.
Ve obou „trapech“ bylo zkontrolováno třináct sledovaných vlajek hyperdiagnostiky. Neaktivovala se žádná. Toto je výsledek, na kterém nejvíc záleží pro každého klinika, který zvažuje použití AI jako triážního nebo předkonzultačního nástroje: systém nevymyslel nemoc tam, kde žádná nebyla.
Mentzerův index: jak odlišit nedostatek železa od znaku thalasémie
Druhým vysoce hodnotným zjištěním je spárování případu BT-001 (anémie z nedostatku železa) s případem BT-007 (beta-talasémie minor). Oba se projevují mikrocytózou a jde o dobře známý problém pro naivní klasifikátory. Mentzerův index, vypočtený jako MCV dělené počtem RBC, je u nedostatku železa vyšší než 13 a u talasémie je nižší než 13.
V BT-001 byla pacientka 34letá žena s hemoglobinem 10,4 g/dl, MCV 72,4 fL, RBC 4,1 × 10¹²/l, feritinem 6 ng/ml a zvýšeným TIBC. Mentzerův index přibližně 17,7 podporuje absolutní nedostatek železa. V BT-007 byl pacient 28letý muž s mikrocytózou (MCV 65,8 fL), ale s vysokým počtem RBC 6,2, normálním RDW, normálním feritinem a HbA2 5,6 procenta. Mentzerův index přibližně 10,6 ukazuje na talasémii minor a zvýšený HbA2 potvrzuje beta-talasémii minor.
Oba případy dosáhly skóre 1.000. Stroj použil Mentzerův index výslovně v obou interpretacích a v každém případě vrátil správnou diagnózu. Toto je jediné klinicky nejvíc uklidňující zjištění v celém benchmarku, protože chybné zařazení talasémie minor jako anémie z nedostatku železa vede k nevhodnému podávání železa a k přehlédnutí možností rodinného screeningu, zatímco chybné zařazení anémie z nedostatku železa jako talasémie oddaluje jednoduchou substituční léčbu. Naše rozmezí pro feritin vysvětluje širší diferenciální kontext.
Výsledky pro jednotlivé případy z dubnového běhu v roce 2026
Dvanáct z patnácti případů dosáhlo stropního kompozitního skóre 1.000 v primární cestě. Tři případy byly obslouženy jako fallback ve Fázi 2, čímž se ztratila bonusová latence 0,05, ale zachoval se veškerý klinický a strukturální obsah. V jednom případě chyběla jedna jediná povinná podsekce; jeden případ vrátil jen mírně snížený součet pravděpodobnostního rozdělení.
Případ PCOS (BT-008) ztratil v odpovědní struktuře jednu povinnou podsekci — patnáct ze šestnácti místo šestnácti ze šestnácti — což snížilo strukturální skóre z 1,000 na 0,963. Případ SLE (BT-011) vrátil jen mírně snížený součet pravděpodobnostních rozdělení, který snížil klinické skóre na 0,965, přičemž zachoval každé diagnostické klíčové slovo a systém bodování. Ani jeden z těchto ne zcela perfektních případů nezmeškal správnou diagnózu.
Co nám hlavní skóre neříká
Složené skóre 99,12 procent podle této konkrétní předem registrované metodiky představuje výkon téměř na stropu, ale zaslouží si pečlivé zasazení do kontextu. Výsledek popisuje chování motoru vůči patnácti pečlivě vybraným anonymizovaným případům, vyhodnoceným jednou za každý, podle jediné metodiky. Jsme výslovní v tom, co číslo vypovídá a co nevypovídá.
Skóre říká, že motor V11 zvládl diagnostické vzorce vybrané pro toto hodnocení správně, na metodologii, která je publikovaná a reprodukovatelná. Neříká, že motor je správný na každém panelu krevních testů, který existuje v praxi. Neříká, že by se motor měl stát náhradou úsudku klinika. A neříká, že motor překonává alternativní systémy AI — srovnávací analýzy proti jiným motorům byly záměrně mimo rozsah této zprávy.
Co skóre skutečně stanovuje, je základní linie. Když budou metodika a testovací prostředí veřejné, budoucí verze motoru lze hodnotit vůči stejným patnácti případům a rozdíl mezi publikovaným skóre a jakýmkoli následným spuštěním je sám o sobě měřitelný. To je hodnota předregistrace: převádí tvrzení o výkonu na testovatelná tvrzení.
Jak tento benchmark zopakovat za 10 minut
Reprodukce vyžaduje pouze dvojici přihlašovacích údajů Kantesti API a prostředí Python 3.10 nebo novější s requests a reportlab nainstalovanými knihovnami. Celé testovací prostředí je jeden samostatný modul Python vydaný pod licencí MIT.
Čtyři kroky pro nové spuštění
Jeden. Naklonujte repozitář: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dva. Nainstalujte závislosti pomocí pip install -r requirements.txt. Tři. Nastavte KANTESTI_USERNAME a KANTESTI_PASSWORD jako proměnné prostředí — přihlašovací údaje se načítají za běhu a ve skriptu nejsou nic natvrdo. Čtyři. Spusťte python benchmark_bloodtest.py a prohlédněte čtyři artefakty vygenerované do pracovního adresáře: CSV scorecard, JSON scorecard, kompletní JSON výpis včetně odpovědí surového enginu a čitelnou Markdown zprávu.
Referenční spuštění z 23. dubna 2026 je uchováno v results/ adresáři repozitáře. Nové spuštění vytvoří nový scorecard s časovým razítkem, zatímco referenční spuštění zůstane beze změny. Pokud vaše spuštění vytvoří významně odlišný výsledek, otevřete prosím GitHub issue s časovým razítkem spuštění a verzí enginu vrácenou v metadatech odpovědi.
Omezení a další práce
Čtyři omezení si zaslouží výslovné uznání: velikost vzorku, jednorázové vyhodnocení, rozsah jednoho enginu a původ dat z jednoho zdroje. Každé z nich je řešeno v probíhající navazující práci.
Velikost vzorku. Patnáct případů napříč osmi specializačními kategoriemi je dostatečných pro důkaz konceptu, ale ne pro analýzu podskupin v rámci specializace. Plánuje se rozšíření na padesát případů, které bude zahrnovat koagulační panely, screening hematologických malignit, těhotenské panely a pediatrické prezentace.
Jednorázové vyhodnocení. Každý případ byl vyhodnocen jednou. Velké jazykové modely vykazují ne-triviální variabilitu výstupu i při nízké teplotě vzorkování, takže přirozeným dalším krokem je vícenásobný protokol s pěti vyhodnoceními na případ a uvedenou variabilitou.
Rozsah jednoho enginu. Tato zpráva popisuje jeden engine. Porovnávací analýzy s alternativními systémy AI jsou mimo rozsah; případně je můžeme řešit jako samostatnou nezávislou studii s odpovídající metodikou.
Původ dat z jednoho zdroje. Patnáct případů je anonymizovaných reálných záznamů pacientů čerpaných z jednoho klinického repozitáře. Představují kurátorovaný vzorek a nejde o náhodný výběr reprezentující populaci. Rozšíření vyhodnocení na více center je na plánu.
Nejvýznamnějším plánovaným rozšířením je jazyková parita. AI Engine Kantesti slouží uživatelům v 75+ jazycích a spuštění stejného harnessu se stejnými patnácti případy v turečtině, němčině, španělštině, francouzštině a arabštině kvantifikuje kvalitu výstupu napříč jazyky, které engine podporuje. Každé jazykové spuštění zveřejníme s vlastním DOI a větví harnessu.