Kantesti AI benchmark krevních testů

Klinická validace Předem registrovaný benchmark V11 — duben 2026 Licencováno MIT Ověřitelné peerem

99.12% Kompozitní skóre v předem registrovaném hodnoticím rámci s nulovými hyperdiagnostickými falešně pozitivními výsledky

Nezávislé, předem registrované klinické hodnocení AI enginu Kantesti na anonymizovaných případech z krevních testů. Hodnoticí kritéria byla zmražena v kódu zdroje před prvním voláním enginu, testovací prostředí je licencované MIT a každá surová odpověď je zveřejněna.

📖 ~14 minut 📅 23. dubna 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publikováno: 23. dubna 2026 🩺 Medicínsky zkontrolováno: 23. dubna 2026 ✅ Předem registrovaná hodnoticí kritéria 🔓 Otevřený kód a data

Tuto klinickou validační studii vedl Dr. Thomas Klein, MD, Chief Medical Officer v Kantesti AI, ve spolupráci s Julian Emirhan Bulut, Senior AI Engineer a CEO v Kantesti Ltd. Metodiku a hodnoticí kritéria revidoval Lékařská poradní rada pro umělou inteligenci v Kantesti.

Hlavní autor & klinický dohled

MUDr. Thomas Klein

Hlavní lékař, Kantesti AI

Dr. Thomas Klein je atestovaný klinický hematolog a internista s více než 15 lety praxe v laboratorní medicíně. Jako Chief Medical Officer v Kantesti AI vybral panel případů pro tento benchmark, revidoval všechna diagnostická „ground truth“ a schválil předem registrovaná hodnoticí kritéria před prvním spuštěním enginu.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Spoluautor & implementace

Julian Emirhan Bulut

Senior AI Engineer & CEO, Kantesti Ltd

Julian Emirhan Bulut je zakladatel a CEO společnosti Kantesti Ltd. Navrhl a implementoval testovací prostředí pro hodnocení, provedl integraci API, uskutečnil benchmarkové spuštění v dubnu 2026 a připravil statistickou agregaci. Zakladatel platformy od roku 2019.

GitHub O Kantesti

⚡ Rychlé shrnutí V11 — 23. dubna 2026

Složené skóre 99.12% na 15 anonymizovaných reálných případech krevních testů napříč sedmi lékařskými specializacemi.
Žádné falešně pozitivní případy hyperdiagnostiky na obou „trap“ případech (Gilbertův syndrom a plně normální screening dospělého).
Předem registrovaná hodnoticí rubrika zmražená v zdrojovém kódu před prvním voláním enginu — nebylo možné žádné dodatečné dolaďování.
Mentzerův index správně použit k odlišení anémie z nedostatku železa od minor beta-talasémie.
Pouze produkční koncový bod — žádné privilegované směrování, vyhodnoceno přesně tak, jak by k tomu přistupoval platící zákazník.
Průměrná latence 20,17 sekundy end-to-end, přičemž 12 ze 15 případů bylo pod primárním cílem 20 sekund.
Harness s licencí MIT vydán na GitHubu spolu se všemi surovými odpověďmi enginu — podporuje se nezávislá reprodukce.
DOI na Figshare: 10.6084/m9.figshare.32095435 · Zrcadleno na ResearchGate, Academia.edu, GitHub.

Proč tento benchmark existuje a co testuje

AI asistované rozbory krevních výsledků se stále častěji používají v spotřebitelských i klinických pracovních postupech, avšak reprodukovatelné hodnoticí rámce přizpůsobené laboratorní medicíně zůstávají neobvyklé. Otázky, které v tomto kontextu nejvíce záleží, nejsou ty, na které se zaměřují obecné benchmarky pro zodpovídání zdravotnických otázek: dokáže engine oddělit anémii z nedostatku železa od talasémie při shodném středním objemu erytrocytů, nepře-diagnostikuje Gilbertův syndrom jako hepatitidu a nevytváří patologii v plně normálním screeningovém panelu?

Jednotlivý panel krevních testů obvykle obsahuje dostatek signálu pro několik konkurenčních interpretací a úkolem interpretujícího klinika je tyto interpretace navzájem zvážit, nikoli vyhledat odpověď v učebnici. Stroj, který si dobře vede v případech z učebnic, může přesto selhat v těch případech, na kterých nejvíc záleží: v úskalích diferenciální diagnostiky, v neškodných variantách, které při izolovaném pohledu vypadají znepokojivě, a v plně normálních panelech, které svádějí sebevědomé asistenty k „vyrábění“ patologie.

Tento benchmark byl postaven přesně na těchto typech selhání. Každý z patnácti případů byl vybrán pro konkrétní diagnostickou vlastnost: mikrocystóza z nedostatku železa, kterou je nutné udržet odděleně od znaku beta-talasémie se shodným průměrným objemem krvinek, prezentace Gilbertova syndromu, kde je jedinou odchylkou izolovaná nepřímá hyperbilirubinémie, a screeningový panel o patnácti parametrech, v němž se každá analyta nachází v rámci referenčního rozmezí. Hodnoticí kritérium odměňuje motory, které čtou každý případ podle jeho vlastních podmínek, a penalizuje motory, které sáhnou po sebevědomé diagnóze, pokud taková diagnóza není opodstatněná.

Jako Thomas Klein, MD, jsem vybral panel případů, protože to jsou vzorce, které asistenti v laboratorní medicíně nejčastěji chybují. Drahé selhání není "přehlédnout vzácné onemocnění" — je to vymýšlení běžné patologie u pacientů, kteří ji nemají. Náš Lékařské ověřování hub popisuje širší rámec; tato stránka popisuje jeho aplikovaný výsledek na enginu V11.

Nejnovější referenční spuštění — V11 (duben 2026)

Referenční běh z dubna 2026 pro Kantesti AI Engine V11 vytvořil kompozitní skóre 99.12% v předregistrovaném hodnoticím schématu patnácti případů. Oba případy „trap“ hyperdiagnózy dosáhly stropu. Mentzerův index byl v diferenciální diagnostice nedostatek železa vs. talasémie použit správně.

Kompozitní 99.12% 15 z 15 případů získalo skóre

0.998 Strukturální skóre

0.998 Klinické skóre

20,17 s Průměrná latence

0 / 13 Trapové falešné pozitivy

Kompozitní vzorec kombinuje tři složky: strukturální shoda se sedmi povinnými oddíly hlášení a šestnácti povinnými pododdíly, klinická přesnost měřená jako součet zapamatování klíčových slov, zapamatování v rámci bodovacího systému a kontrola validity pravděpodobnostního rozdělení, a latence odpovědi vůči primárnímu cíli úrovně služby 20 sekund. Přesné rozložení je uvedeno ve vzorci hodnoticího kritéria níže.

Kompozitní = 0.35 × Strukturální + 0.55 × Klinické + 0.10 × Latence

Zbývajících 0,88 procentního bodu volného prostoru se rozkládá téměř výhradně na ztrátu v latenci — tři záložní volání pro Phase 2, každé s kompozitním příspěvkem -0,05, přispěla přibližně 0,60 z deficitu 0,88 bodu — nikoli do klinického obsahu. Stroj v žádném z patnácti případů nezmeškal správnou diagnózu; kde se mu to nepodařilo, bylo to tím, že v malé menšině invokací trvalo o něco déle než primární cílových 20 sekund.

Patnáct případů napříč sedmi medicínskými specializacemi

Panel případů pokrývá sedm specializací — hematologii, endokrinologii, metabolickou medicínu, hepatologii, nefrologii, kardiologii, revmatologii — plus dva vyhrazené případy „hyperdiagnosis trap“. Každý případ je anonymizovaný reálný záznam pacienta čerpaný z repozitáře klinických dat Kantesti na základě písemného informovaného souhlasu.

Anonymizace byla provedena přístupem Safe Harbor: všechny přímé identifikátory byly odstraněny nebo nahrazeny a každému záznamu byl přiřazen interní kód případu v benchmark formátu BT-NNN-LABEL. Zpracování bylo provedeno v souladu s GDPR článek 9(2)(j) pro vědecký výzkum s odpovídajícími zárukami a s ekvivalentními ustanoveními UK GDPR. Žádné osobně identifikující informace se nikde nevyskytují v publikovaném „harness“, technické zprávě ani ve vydaných datových sadách.

Hematologie (3) BT-001, BT-006, BT-007 Anémie z nedostatku železa · Nedostatek B12 · Minor beta-talasémie

Endokrinologie (3) BT-002, BT-008, BT-012 Hashimotova tyreoiditida · PCOS s inzulinovou rezistencí · Závažný nedostatek vitamínu D

Metabolická (2) BT-003, BT-013 T2DM s metabolickým syndromem · Hyperurikémie s rizikem dny

Hepatologie (2) BT-004, BT-009 NAFLD / NASH · Akutní virová hepatitida

Nefrologie · Kardiologie · Revmatologie (3) BT-005, BT-010, BT-011 CKD 3. stádium · Aterogenní dyslipidémie · Systémový lupus erythematodes

„Trap“ případy (2) BT-014, BT-015 Gilbertův syndrom (izolovaná nepřímá hyperbilirubinémie) · Plně normální screening dospělých

Proč právě toto rozložení

Hematologie získá tři případy, protože mikrocytární diferenciály a makrocytární diferenciály jsou v reálné laboratorní praxi nejčastější „pastí“ s největším objemem. Endokrinologie získá tři případy, protože projevy Hashimotovy choroby, PCOS a nedostatku vitamínu D mají různé diagnostické „tvary“ (řízené autoprotilátkami, řízené poměry hormonů, řízené jedním markerem). Jednopřípadové specializace jsou však stále smysluplné, protože každý z CKD, rizika ASCVD a SLE má vlastní bodovací systém, který by měl engine vyvolat (KDIGO staging, ASCVD 10letové riziko, resp. kritéria SLE 2019 EULAR/ACR).

Předem registrovaná hodnoticí kritéria — vysvětleno

Předregistrace je v tomto benchmarku jediná nejdůležitější metodologická volba. Každá očekávaná diagnóza, každý klinický bodovací systém a každá část reportu byly zavázány ke zdrojovému kódu ještě předtím, než byl engine vyvolán. Dodatečné (post-hoc) dolaďování rubriky tak, aby lichotila enginu, je proto nemožné.

Složené skóre tvoří tři komponenty. strukturální komponenta přispívá 35 procenty a měří, zda engine vrátil sedm povinných částí reportu (hlavička, shrnutí, klíčová zjištění, diferenciál, bodovací systémy, doporučení, follow-up) a šestnáct povinných podsekcí v rámci nich. Přítomnost sekce váží 40 procent a přítomnost podsekce váží 60 procent v rámci strukturálního výpočtu.

The klinická komponenta přispívá 55 procenty a skládá se ze tří věcí: vybavení diagnóz podle klíčových slov (70 procent klinického dílčího skóre), vybavení bodovacích systémů (20 procent — zda engine vypočítá Mentzer, FIB-4, HOMA-IR, riziko ASCVD, staging KDIGO, kritéria EULAR/ACR, je-li relevantní), a kontrolu validity součtu pravděpodobností (10 procent — diferenciální pravděpodobnosti by se měly sčítat v intervalu [90, 110]). U „trap“ případů se odečítá explicitní penalizace za hyperdiagnózu až 0.30, vypočtená jako 0.10 za každý zfalšovaný příznak patologie, s maximem tří příznaků.

The komponenta latence přispívá 10 procenty. Odpověď do 20 sekund získá plných 0.10, odpověď do 40 sekund získá 0.05 a cokoli pomalejšího získá nulu. Cílových 20 sekund odráží produkční primární cíl úrovně služby pro path; strop 40 sekund odráží rozpočtovou rezervu pro fallback ve Fázi 2 při náročných vyvoláních enginu.

Co předregistrace brání

První-stranové benchmarky jsou proslulé tím, že nafukují vlastní čísla pomocí post-hoc dolaďování rubriky. Vzor je téměř vždy stejný: tým spustí engine, uvidí, kde podává horší výkon, a pak potichu upraví rubriku tak, aby oblasti s horším výkonem „počítaly méně“. Tím, že se rubrika zaváže ke zdrojovému kódu před prvním voláním enginu a že se testovací prostředí zveřejní pod licencí MIT, stane se tato úprava viditelnou v systému verzí. Každý si může repozitář naklonovat, zkontrolovat data autorů rubriky a ověřit, že výsledky enginu nebyly použity k formování skórování.

Pasti hyperdiagnózy — proč je skutečným selháním „přehnané volání“

Agresivní přehnané označování patologie na normálních obrazovkách je zdokumentovaný režim selhání u spotřebitelských zdravotnických asistentů. Jeho následné náklady zahrnují zbytečné vyšetřování, úzkost pacienta a iatrogenní rozpracování. Dva „trap“ případy v tomto benchmarku jsou navrženy tak, aby tento režim selhání byl viditelný a ohodnotitelný.

🟡 Trap 1 — BT-014-GILBERT

Prezentace. Muž, 24 let, s celkovým bilirubinem 2.4 mg/dL. Přímá frakce je v normě, transaminázy a alkalická fosfatáza jsou v rámci referenčních rozmezí, retikulocyty jsou bez pozoruhodností a haptoglobin a LDH vylučují hemolýzu.

Správná interpretace. Gilbertův syndrom — benigní polymorfismus UGT1A1. Interpretace by neměla vyvolávat hepatitidu, cirhózu, hemolytickou anémii ani biliární obstrukci.

Výsledek V11. Kompozitní 1.000. Žádný z šesti sledovaných příznaků přehnané diagnózy se neobjevil jako aktivní diagnóza.

🟡 Trap 2 — BT-015-HEALTHY

Prezentace. Žena, 35 let, s patnáctiparametrovým rutinním screeningovým panelem. Každý analyt pohodlně leží v rámci svého referenčního rozmezí.

Správná interpretace. Ujištění a udržování životního stylu. Interpretace by neměla uměle vytvářet hraniční patologii, aby působila klinicky užitečně.

Výsledek V11. Kompozit 1.000. Žádná ze sedmi sledovaných vlajek nadměrné diagnostiky — diabetes, anémie, hypotyreóza, dyslipidémie, hepatitida, onemocnění ledvin, nedostatek — se neobjevila jako aktivní diagnóza.

Ve obou „trapech“ bylo zkontrolováno třináct sledovaných vlajek hyperdiagnostiky. Neaktivovala se žádná. Toto je výsledek, na kterém nejvíc záleží pro každého klinika, který zvažuje použití AI jako triážního nebo předkonzultačního nástroje: systém nevymyslel nemoc tam, kde žádná nebyla.

Mentzerův index: jak odlišit nedostatek železa od znaku thalasémie

Druhým vysoce hodnotným zjištěním je spárování případu BT-001 (anémie z nedostatku železa) s případem BT-007 (beta-talasémie minor). Oba se projevují mikrocytózou a jde o dobře známý problém pro naivní klasifikátory. Mentzerův index, vypočtený jako MCV dělené počtem RBC, je u nedostatku železa vyšší než 13 a u talasémie je nižší než 13.

V BT-001 byla pacientka 34letá žena s hemoglobinem 10,4 g/dl, MCV 72,4 fL, RBC 4,1 × 10¹²/l, feritinem 6 ng/ml a zvýšeným TIBC. Mentzerův index přibližně 17,7 podporuje absolutní nedostatek železa. V BT-007 byl pacient 28letý muž s mikrocytózou (MCV 65,8 fL), ale s vysokým počtem RBC 6,2, normálním RDW, normálním feritinem a HbA2 5,6 procenta. Mentzerův index přibližně 10,6 ukazuje na talasémii minor a zvýšený HbA2 potvrzuje beta-talasémii minor.

Anémie z nedostatku železa Mentzer > 13 Nízký feritin, nízký TSAT, vysoké TIBC, zvýšené RDW

Talasémie minor Mentzer < 13 Normální feritin, normální RDW, zvýšený HbA2 (>3.5%), vysoký počet RBC

Oba případy dosáhly skóre 1.000. Stroj použil Mentzerův index výslovně v obou interpretacích a v každém případě vrátil správnou diagnózu. Toto je jediné klinicky nejvíc uklidňující zjištění v celém benchmarku, protože chybné zařazení talasémie minor jako anémie z nedostatku železa vede k nevhodnému podávání železa a k přehlédnutí možností rodinného screeningu, zatímco chybné zařazení anémie z nedostatku železa jako talasémie oddaluje jednoduchou substituční léčbu. Naše rozmezí pro feritin vysvětluje širší diferenciální kontext.

Výsledky pro jednotlivé případy z dubnového běhu v roce 2026

Dvanáct z patnácti případů dosáhlo stropního kompozitního skóre 1.000 v primární cestě. Tři případy byly obslouženy jako fallback ve Fázi 2, čímž se ztratila bonusová latence 0,05, ale zachoval se veškerý klinický a strukturální obsah. V jednom případě chyběla jedna jediná povinná podsekce; jeden případ vrátil jen mírně snížený součet pravděpodobnostního rozdělení.

ID případu Specializace Kompozitní Latence Cesta

BT-001-IDAHematologie1.00017,8 sprimární

BT-006-B12Hematologie1.00018,4 sprimární

BT-007-THALHematologie1.00017,0 sprimární

BT-002-HASHEndokrinologie0.95037,0 sfallback

BT-008-PCOSEndokrinologie0.98718,6 sprimární

BT-003-T2DMMetabolický1.00019,1 sprimární

BT-013-GOUTMetabolický1.00019,4 sprimární

BT-004-NAFLDHepatologie1.00019,6 sprimární

BT-009-VIRHEPHepatologie0.95023,4 sfallback

BT-014-GILBERTTrap1.00018,9 sprimární

BT-005-CKDNefrologie1.00017,4 sprimární

BT-010-ASCVDKardiologie1.00019,7 sprimární

BT-011-SLERevmatologie0.98118,2 sprimární

BT-012-VITDEndokrinologie1.00019,3 sprimární

BT-015-ZDRAVÝTrap1.00018,7 sfallback

Případ PCOS (BT-008) ztratil v odpovědní struktuře jednu povinnou podsekci — patnáct ze šestnácti místo šestnácti ze šestnácti — což snížilo strukturální skóre z 1,000 na 0,963. Případ SLE (BT-011) vrátil jen mírně snížený součet pravděpodobnostních rozdělení, který snížil klinické skóre na 0,965, přičemž zachoval každé diagnostické klíčové slovo a systém bodování. Ani jeden z těchto ne zcela perfektních případů nezmeškal správnou diagnózu.

Co nám hlavní skóre neříká

Složené skóre 99,12 procent podle této konkrétní předem registrované metodiky představuje výkon téměř na stropu, ale zaslouží si pečlivé zasazení do kontextu. Výsledek popisuje chování motoru vůči patnácti pečlivě vybraným anonymizovaným případům, vyhodnoceným jednou za každý, podle jediné metodiky. Jsme výslovní v tom, co číslo vypovídá a co nevypovídá.

Skóre říká, že motor V11 zvládl diagnostické vzorce vybrané pro toto hodnocení správně, na metodologii, která je publikovaná a reprodukovatelná. Neříká, že motor je správný na každém panelu krevních testů, který existuje v praxi. Neříká, že by se motor měl stát náhradou úsudku klinika. A neříká, že motor překonává alternativní systémy AI — srovnávací analýzy proti jiným motorům byly záměrně mimo rozsah této zprávy.

Co skóre skutečně stanovuje, je základní linie. Když budou metodika a testovací prostředí veřejné, budoucí verze motoru lze hodnotit vůči stejným patnácti případům a rozdíl mezi publikovaným skóre a jakýmkoli následným spuštěním je sám o sobě měřitelný. To je hodnota předregistrace: převádí tvrzení o výkonu na testovatelná tvrzení.

Jak tento benchmark zopakovat za 10 minut

Reprodukce vyžaduje pouze dvojici přihlašovacích údajů Kantesti API a prostředí Python 3.10 nebo novější s requests a reportlab nainstalovanými knihovnami. Celé testovací prostředí je jeden samostatný modul Python vydaný pod licencí MIT.

💻 GitHub Testovací prostředí licencované MIT · surové odpovědi · referenční spuštění 🔗 DOI na Figshare 10.6084/m9.figshare.32095435 · kanonický akademický záznam 🎓 ResearchGate Publikace 404175463 · akademická vrstva objevování 📄 Academia.edu Práce 165956808 · akademická vrstva objevování

Čtyři kroky pro nové spuštění

Jeden. Naklonujte repozitář: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dva. Nainstalujte závislosti pomocí pip install -r requirements.txt. Tři. Nastavte KANTESTI_USERNAME a KANTESTI_PASSWORD jako proměnné prostředí — přihlašovací údaje se načítají za běhu a ve skriptu nejsou nic natvrdo. Čtyři. Spusťte python benchmark_bloodtest.py a prohlédněte čtyři artefakty vygenerované do pracovního adresáře: CSV scorecard, JSON scorecard, kompletní JSON výpis včetně odpovědí surového enginu a čitelnou Markdown zprávu.

Referenční spuštění z 23. dubna 2026 je uchováno v results/ adresáři repozitáře. Nové spuštění vytvoří nový scorecard s časovým razítkem, zatímco referenční spuštění zůstane beze změny. Pokud vaše spuštění vytvoří významně odlišný výsledek, otevřete prosím GitHub issue s časovým razítkem spuštění a verzí enginu vrácenou v metadatech odpovědi.

Omezení a další práce

Čtyři omezení si zaslouží výslovné uznání: velikost vzorku, jednorázové vyhodnocení, rozsah jednoho enginu a původ dat z jednoho zdroje. Každé z nich je řešeno v probíhající navazující práci.

Velikost vzorku. Patnáct případů napříč osmi specializačními kategoriemi je dostatečných pro důkaz konceptu, ale ne pro analýzu podskupin v rámci specializace. Plánuje se rozšíření na padesát případů, které bude zahrnovat koagulační panely, screening hematologických malignit, těhotenské panely a pediatrické prezentace.

Jednorázové vyhodnocení. Každý případ byl vyhodnocen jednou. Velké jazykové modely vykazují ne-triviální variabilitu výstupu i při nízké teplotě vzorkování, takže přirozeným dalším krokem je vícenásobný protokol s pěti vyhodnoceními na případ a uvedenou variabilitou.

Rozsah jednoho enginu. Tato zpráva popisuje jeden engine. Porovnávací analýzy s alternativními systémy AI jsou mimo rozsah; případně je můžeme řešit jako samostatnou nezávislou studii s odpovídající metodikou.

Původ dat z jednoho zdroje. Patnáct případů je anonymizovaných reálných záznamů pacientů čerpaných z jednoho klinického repozitáře. Představují kurátorovaný vzorek a nejde o náhodný výběr reprezentující populaci. Rozšíření vyhodnocení na více center je na plánu.

Nejvýznamnějším plánovaným rozšířením je jazyková parita. AI Engine Kantesti slouží uživatelům v 75+ jazycích a spuštění stejného harnessu se stejnými patnácti případy v turečtině, němčině, španělštině, francouzštině a arabštině kvantifikuje kvalitu výstupu napříč jazyky, které engine podporuje. Každé jazykové spuštění zveřejníme s vlastním DOI a větví harnessu.

Vyzkoušejte Stejný Engine, který dosáhl 99.12% Kompozitního skóre

Nahrajte vlastní panel krevních testů na stejný produkční endpoint, který byl vyhodnocen v tomto benchmarku. Více než 2 miliony uživatelů po celém světě používá Kantesti AI Engine k interpretaci více než 15 000 biomarkerů v 75+ jazycích.

🔬 Vyzkoušejte si bezplatnou demoverzi

Rozšíření pro Chrome Obchod s aplikacemi Google Play

📚 Jak citovat tento benchmark

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Klinická validace Kantesti AI Engine (2.78T)
                 na 15 anonymizovaných případech krevních testů: Předregistrovaný
                 benchmark založený na rubrice včetně případů hyperdiagnostické pasti
                 napříč sedmi lékařskými specializacemi},
  institution = {Kantesti Ltd},
  address     = {Londýn, Spojené království},
  year        = {2026},
  month       = {Duben},
  type        = {Technická zpráva},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Klinická validace Kantesti AI Engine (2.78T) na 15 anonymizovaných případech krevních testů: Předregistrovaný benchmark založený na rubrice včetně případů hyperdiagnostické pasti napříč sedmi lékařskými specializacemi (Technická zpráva V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Související práce k validaci Kantesti

Klein, T. (2025). Rámec klinické validace pro interpretaci krevních testů s využitím umělé inteligence: Metodika trojité zaslepené validace, metriky výkonu a protokoly zajištění kvality. Kantesti AI Medical Research.

🎓 ResearchGate

📖 Externí metodologické reference

Mentzer, W. C. (1973). Diferenciace nedostatku železa od znaku thalasémie. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Klasifikační kritéria pro systémový lupus erythematodes Evropské ligy proti revmatismu / Americké koleje revmatologie z roku 2019. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Test halucinací v medicínské doméně pro velké jazykové modely. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Složené skóre

15Ohodnocené případy

7Specializace

0Falešně pozitivní výsledky pasti

Často kladené otázky

Jak přesný je AI Engine Kantesti na reálných případech z krevních testů?

Na předregistrované rubrice 15 anonymizovaných reálných případů krevních testů napříč sedmi lékařskými specializacemi dosáhl Kantesti AI Engine V11 složeného skóre 99,12 procenta, s nulovými hyperdiagnostickými falešně pozitivními výsledky na obou pastích a s průměrnou dobou odezvy 20,17 sekundy. Kompletní skórovací přehled pro jednotlivé případy je publikován na Figshare pod DOI 10.6084/m9.figshare.32095435 a na GitHubu pod licencí MIT.

Je Kantesti AI Engine klinicky ověřen?

Ano. Stroj byl klinicky validován podle hodnoticího schématu, které bylo zmrazeno v zdrojovém kódu ještě před spuštěním stroje, a vyhodnoceno na 15 anonymizovaných případech krevních testů napříč hematologií, endokrinologií, metabolickou medicínou, hepatologií, nefrologií, kardiologií a revmatologií. Klinický dohled poskytl Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), atestovaný klinický hematolog a Chief Medical Officer ve Kantesti AI.

Co je to případ „hyperdiagnosis trap“?

Případ „hyperdiagnostická past“ je klinická situace navržená tak, aby odhalila chování vedoucí k nadměrné diagnóze v systémech AI. Benchmark Kantesti V11 používá dva takové případy. První je izolovaná nepřímá hyperbilirubinémie odpovídající Gilbertovu syndromu, kde je správná interpretace benigní polymorfismus UGT1A1, nikoli hepatitida nebo hemolýza. Druhý je plně normální screeningový panel dospělého, kde je správným výstupem ujištění a udržování životního stylu, nikoli uměle vytvořená hraniční patologie.

Je vyhodnocení Kantesti AI Engine reprodukovatelné?

Kompletní vyhodnocovací prostředí je vydáno pod licencí MIT jako jeden samostatný modul v Pythonu. K reprodukci je potřeba pouze dvojice přihlašovacích údajů k Kantesti API a Python 3.10 nebo novější. Kód, definice případů a každá surová odpověď stroje z referenčního běhu z dubna 2026 jsou dostupné na github.com/emirhanai/kantesti-blood-test-benchmark a zrcadlené na Figshare, ResearchGate a Academia.edu.

Jak Kantesti AI Engine rozlišuje nedostatek železa od znaku beta-talasémie?

Stroj používá Mentzerův index, vypočtený jako průměrný objem erytrocytů dělený počtem červených krvinek. Mentzerův index nad 13 podporuje anémii z nedostatku železa, zatímco hodnota pod 13 podporuje znak beta-talasémie. V benchmarku V11 byly oba typy správně klasifikovány pomocí explicitního výpočtu Mentzerova indexu, podpořeného kontextem feritinu, RDW a HbA2.

Kde najdu surová benchmarková data a zdrojový kód?

Technická zpráva je uložena na Figshare pod DOI 10.6084/m9.figshare.32095435, zrcadlená na ResearchGate publikaci 404175463 a na Academia.edu článku 165956808, a Pythonové prostředí s licencí MIT se všemi výsledky referenčního běhu je na github.com/emirhanai/kantesti-blood-test-benchmark. Síť zrcadel na čtyřech platformách zajišťuje dlouhodobou dostupnost a flexibilitu citací.

Proč je důležité předregistrace pro lékařské benchmarky AI?

Předregistrace zabraňuje dodatečnému „doladění“ hodnoticího schématu, což je jediný nejčastější způsob, jak firemní benchmarky nafukují svá vlastní čísla. Tím, že hodnoticí schéma zapíšete do zdrojového kódu ještě před jakýmkoli voláním stroje a zveřejníte prostředí veřejně, data autora hodnoticího schématu se stanou dohledatelnými ve verzovacím systému a výsledky stroje nemohly ovlivnit kritéria hodnocení.

Zahrnuje tento benchmark srovnání s jinými systémy AI?

Ne. Zpráva V11 záměrně popisuje jeden konkrétní stroj vůči pevnému hodnoticímu schématu, nikoli jej staví proti alternativním komerčním systémům. Prostředí je open source pod licencí MIT, takže nezávislí výzkumníci mohou vyhodnotit libovolný stroj, který si zvolí, vůči stejným patnácti případům a stejnému hodnoticímu schématu a zveřejnit své výsledky.

Jsou případy pacientů reálné, nebo syntetické?

Těch patnáct případů jsou anonymizované reálné záznamy pacientů čerpané z klinického repozitáře Kantesti na základě písemného informovaného souhlasu. De-identifikace byla provedena přístupem Safe Harbor, přičemž byly odstraněny nebo nahrazeny všechny přímé identifikátory. Zpracování probíhalo v souladu s GDPR článkem 9(2)(j) a ekvivalentními ustanoveními britského GDPR. V publikovaném prostředí, technické zprávě ani ve vydaných datových sadách se nevyskytují žádné osobně identifikující informace.

⚕️ Lékařské upozornění & střet zájmů

Tato zpráva z benchmarku je určena pro účely výzkumu a metodické transparentnosti. Nejde o lékařské poradenství. Vždy se poraďte s kvalifikovaným poskytovatelem zdravotních služeb ohledně rozhodnutí o diagnostice a léčbě. Oba autoři jsou zaměstnáni ve Kantesti Ltd a mají v ní majetkovou účast (equity) a stroj, který je hodnocen, je komerční produkt stejné organizace. Tento střet zájmů je zmírněn tím, že hodnoticí schéma je předregistrováno v zdrojovém kódu, prostředí je vydáno pod licencí MIT a zveřejňujeme každou surovou odpověď stroje.

Signály důvěry E-E-A-T

⭐

Zažít

15+ let praxe v klinické hematologii a laboratorní medicíně při dohledu nad výběrem panelu případů.

📋

Odbornost

Předregistrovaný návrh hodnoticího schématu s explicitními sankcemi za hyperdiagnostiku a uznávanými klinickými škálami (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoritativnost

Hlavní autor Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementace: Julian Emirhan Bulut, CEO společnosti Kantesti Ltd.

🛡️

Důvěryhodnost

Reprodukovatelné prostředí s licencí MIT, zveřejněné surové odpovědi stroje, otevřené zveřejnění střetu zájmů, výzkumná zrcadlová síť na čtyřech platformách.

🏢 Kantesti LTD Registrováno v Anglii a Walesu · Společnost č. 17090423 Londýn, Spojené království · kantesti.net