Kantesti AI analýza krvi – klinická validácia

Automatizovaný benchmark Predregistrovaný benchmark V11 Druhá aktualizácia — apríl 2026 Licencované MIT Reprodukovateľné · Otvorené dáta 100K syntetický kohort · 127 štítkov krajín

99.80% kompozitné skóre podľa vopred zaregistrovaného hodnotiaceho kritéria — V11 druhá aktualizácia, kohorta 100 000 prípadov naprieč 127 štítkami krajín

Vopred zaregistrované, hodnotiace kritériumami riadené automatizované technické benchmarkovanie motora Kantesti na 100 000 synteticky vygenerovaných prípadoch krvných testov označených 127 štítkami krajín. Meria zhodu výstupu, nie diagnostickú presnosť. Hodnotiace kritérium bolo zmrazené v zdrojovom kóde pred počiatočným vydaním V11 a pre túto Druhú aktualizáciu zostalo byte-identické; hodnotiace prostredie je licencované MIT; stratifikovaný náhodný výber surových odpovedí motora je publikovaný na kontrolu. Všetky prípady sú syntetické; nepoužívajú sa žiadne osobné údaje.

📖 ~14 minút 📅 Zverejnené 23. apríla 2026 · Aktualizované 26. apríla 2026 (V11 Druhá aktualizácia) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publikované: 23. apríl 2026 🔄 V11 Druhá aktualizácia: 26. apríl 2026 🩺 Odborne medicínsky revidované: 26. apríl 2026 ✅ Vopred registrované hodnotiace kritérium (bajtovo identické) 🔓 Otvorený kód a dáta

Tento automatizovaný benchmark navrhol a spustil Julian Emirhan Bulut, Senior AI Engineer a CEO spoločnosti Kantesti Ltd. Skórovanie je plne automatizované v zdrojovom kóde; hodnotiace kritériá a panel prípadov boli vyvinuté s klinickým vstupom od Dr. Thomas Klein, MD, Chief Medical Officer v Kantesti AI, a boli revidované spoločnosťou Lekárska poradná rada AI v Kantesti. Ide o samostatne spustený interný benchmark, nie o nezávislé ani recenzované automatizované technické benchmarkovanie.

Hlavný autor a klinický dohľad

MUDr. Thomas Klein

Hlavný lekár, Kantesti AI

Dr. Thomas Klein je atestovaný klinický hematológ a internista s viac než 15-ročnou praxou v laboratórnej medicíne. Ako Chief Medical Officer v Kantesti AI vybral panel prípadov pre tento benchmark, revidoval klinický obsah a očakávané odpovede syntetických prípadov a schválil vopred zaregistrované hodnotiace kritérium pred prvým spustením motora.

ORCID 0009-0009-1490-1321 ResearchGate Študovňa Google

Spoluautor & implementácia

Julian Emirhan Bulut

Senior AI inžinier & CEO, Kantesti Ltd

Julian Emirhan Bulut je zakladateľ a generálny riaditeľ spoločnosti Kantesti Ltd. Navrhol a implementoval hodnotiaci rámec — vrátane SQL case loadera pridaného pre V11 Druhú aktualizáciu — vykonal integráciu API, uskutočnil počiatočný referenčný beh V11 aj beh V11 Druhá aktualizácia s 100 000 prípadmi a pripravil štatistickú agregáciu. Zakladateľ platformy od roku 2019.

GitHub O Kantesti

⚡ Rýchle zhrnutie V11 Druhá aktualizácia — 26. apríl 2026

Kompozitné skóre 99.80% na 100 000 syntetických prípadoch krvných testov v ôsmich medicínskych špecializáciách a 127 štítkoch krajín (V11 druhá aktualizácia).
Žiadne falošné pozitíva pri hyperdiagnostike naprieč 87 412 monitorovanými príležitosťami na „trap-case flag“ — rovnaká metodika „trap-case“ ako v počiatočnom behu V11, škálovaná na úroveň populácie.
Predregistrovaná rubrika zmrazené v zdrojovom kóde pred počiatočným behom V11 a ponechané bajtovo identické pre túto Druhú aktualizáciu — nebolo možné vykonať žiadne dodatočné dolaďovanie.
Mentzerov index správne použitý na odlíšenie anémie z nedostatku železa od minor beta-talazémie v počiatočnom vydaní V11; odlišné správanie sa zachovalo aj na úrovni populácie.
Iba produkčný cieľ (endpoint) — bez privilégiovaného smerovania, vyhodnotené presne tak, ako by k tomu pristupoval platiaci zákazník.
Priemerná latencia 13.26 sekundy end-to-end (rozsah 9.0–16.94 s), pričom všetkých 100 000 prípadov sa dokončilo na primárnej ceste motora.
Syntetická kohorta. 100 000 synteticky vygenerovaných testovacích prípadov načítaných za behu. Nepoužívajú sa žiadne syntetické dáta a žiadne osobné dáta.
Testovací rámec s licenciou MIT vydané na GitHube spolu so stratifikovaným náhodným vzorkom (n = 201) úplných surových odpovedí motora na kontrolu.
Figshare DOI: 10.6084/m9.figshare.32095435 · Zrkadlené na ResearchGate, Academia.edu, GitHub.

Prečo tento benchmark existuje a čo testuje

AI asistovaná interpretácia výsledkov krvných testov sa čoraz viac používa v spotrebiteľských aj klinických pracovných postupoch, no reprodukovateľné hodnotiace rámce prispôsobené laboratórnej medicíne zostávajú nezvyčajné. Otázky, na ktorých najviac záleží v tomto kontexte, nie sú tie, ktoré pokrývajú všeobecné benchmarky pre zodpovedanie medicínskych otázok: dokáže engine oddeliť anémiu z nedostatku železa od znaku talasémie, keď je priemerný objem erytrocytov identický, prediagnostikuje Gilbertov syndróm ako hepatitídu a vytvára patológiu v úplne normálnom skríningovom paneli?

Jednotný panel krvného testu typicky obsahuje dostatok signálu na podporu viacerých konkurenčných interpretácií a úlohou lekára, ktorý výsledky vyhodnocuje, je tieto interpretácie navzájom zvážiť, nie vyhľadať „učebnicovú“ odpoveď. Stroj, ktorý si dobre poradí s príkladmi z učebníc, môže zlyhať práve v prípadoch, na ktorých najviac záleží: v úskaliach diferenciálnej diagnostiky, v neškodných variantoch, ktoré pri izolovanom pohľade vyzerajú znepokojujúco, a v úplne normálnych paneloch, ktoré zvádzajú sebavedomých asistentov k „vytváraniu“ patológie.

Tento benchmark bol postavený presne na týchto režimoch zlyhania. Každý z pätnástich prípadov bol vybraný pre konkrétnu diagnostickú vlastnosť: mikrocystóza z nedostatku železa, ktorú treba odlíšiť od znaku beta-talazémie s identickým priemerným objemom červených krviniek, prezentácia pri Gilbertovej syndróme, kde jedinou abnormalitou je izolovaná nepriamá hyperbilirubinémia, a skríningový panel s pätnástimi parametrami, v ktorom sa každý analyt nachádza v rámci referenčného rozmedzia. Rubrika odmeňuje motory, ktoré čítajú každý prípad podľa jeho vlastných podmienok, a penalizuje motory, ktoré siahajú po sebavedomej diagnóze, keď takáto diagnóza nie je opodstatnená.

Ako Thomas Klein, MD, som vybral panel prípadov, pretože práve tieto vzorce vidím, že laboratórno-medicínski asistenti najčastejšie robia zle. Drahý režim zlyhania nie je "prehliadnuť zriedkú chorobu" — je to vymýšľanie bežnej patológie u pacientov, ktorí ju nemajú. Naše Lekárske overenie hub opisuje širší rámec; táto stránka opisuje počiatočný proof-of-concept V11 a V11 druhú aktualizáciu, ktorá ho škálovala na 100 000 syntetických prípadov odobratých zo syntetickej sady prípadov pokrývajúcej 127 štítkov krajín — s použitím rovnakého hodnotiaceho kritéria, byte-identicky, bez povolenia dodatočného (post-hoc) dolaďovania.

Najnovší referenčný beh — V11 Second Update (26. apríla 2026)

Referenčný beh V11 Second Update zo 26. apríla 2026 vygeneroval kompozitné skóre 99.80% na rovnakej vopred zaregistrovanej rubrike použitej v počiatočnom vydaní V11, vyhodnotené na 100 000 syntetických prípadov odobratých zo syntetickej sady prípadov Kantesti a pokrývajúcich 127 štítkov krajín a jazyky 75+. Každý prípad bol dokončený na primárnej ceste enginu; aktivácie príznaku hyperdiagnostiky v „trap-case“ zostali na 0 / 87,412. Pôvodný beh V11 z 23. apríla 2026 zahŕňal 15 ručne kurátorovaných prípadov (kompozit 99.12%) a overil rubriku; Second Update ponecháva túto rubriku bajtovo identickú a rozširuje vyhodnotenie na kohortu v populačnom meradle.

Kompozitné 99.80% 100 000 z 100 000 prípadov získalo skóre

1.000 Štrukturálne skóre

0.996 Klinické skóre

13.26 s Priemerná latencia

0 / 87,412 Falošné pozitíva v pasciach

Kompozitný vzorec kombinuje tri zložky: štrukturálna zhoda so siedmimi povinnými sekciami správy a šestnástimi povinnými podsekciami, presnosť obsahu meraná ako spätné vyvolanie kľúčových slov plus spätné vyvolanie v rámci bodovacieho systému plus kontrola platnosti pravdepodobnostno-distribučnej validity a latencia odpovede oproti cieľu úrovne služby pre primárnu cestu. Presné rozdelenie je uvedené v nižšie uvedenom vzorci rubriky — žiadna z týchto váh ani pod-rubrík sa pre Second Update nezmenila.

Kompozitné = 0.35 × Štrukturálne + 0.55 × Klinické + 0.10 × Latencia

Zvyšných 0.20 percentuálnych bodov rezervy sa takmer celé rozkladajú do klinického podskóre — malá časť prípadov (predovšetkým v hepatológii a reumatológii) mala jeden očakávaný kľúčový výraz hodnotiaceho systému neprítomný v interpretácii enginu, hoci diagnostický obsah bol správny. Žiadny prípad v kohorte 100 000 prípadov Second Update nezmeškal samotnú diagnózu. Latencia sa zlepšila z priemeru 20.17 s v počiatočnom vydaní V11 na 13.26 s v Second Update, čo odráža optimalizácie produkčného enginu medzi oboma behmi; rubrika, kód hodnotenia a koncový bod API sa nezmenili.

Kompozitné skóre na štítok sa pohybovalo od 0.9971 do 0.9985 naprieč 30 najzastúpenejšími štítkami krajín. Dlhý chvost ďalších 97 štítkov (spolu približne 7 300 prípadov) nevykazoval žiadnu systematickú degradáciu. Najčastejšie štítky podľa počtu prípadov boli Spojené štáty (10 500), Brazília (9 500), Španielsko (9 000), Taliansko (8 000), Nemecko (7 800), Francúzsko (7 400), Portugalsko (5 800), Türkiye (3 400), Spojené kráľovstvo (2 900) a Mexiko (2 500).

Od 15 prípadov po 100 000: vývoj kohorty naprieč 127 štítkami krajín

Pôvodný panel prípadov V11 pokrýval sedem špecializácií — hematológiu, endokrinológiu, metabolickú medicínu, hepatológiu, nefrológiu, kardiológiu, reumatológiu — plus dva vyhradené prípady „hyperdiagnosis trap“, pričom každý prípad bol synteticky vygenerovaný panel krvných testov. Druhá aktualizácia V11 rozširuje hodnotenie na 100 000 syntetických prípadov naprieč 127 štítkami krajín, rozdelených do ôsmich špecializácií (pôvodných sedem plus vyhradený internistický „bucket“, ktorý absorbuje podmnožinu trap). Rovnaká hodnotiaca rubrika sa uplatňuje bajtovo identicky v oboch behov.

Keďže všetky prípady sú synteticky vygenerované, neexistujú žiadne skutočné identifikátory na odstránenie a nezahŕňajú sa žiadne osobné údaje. Každý syntetický prípad nesie interný kód prípadu benchmarku (BT-NNN-LABEL v počiatočnej sade V11, stabilný case_uid v Druhej aktualizácii). Žiadne osobné údaje sa nikde nevyskytujú v publikovanom hodnotiacom prostredí, technickej správe ani v uvoľnených datasetoch.

počiatočným vydaním V11 — 15 ručne kurátorovaných prípadov

Pôvodný panel prípadov V11 bol ručne vybraný Dr. Thomasom Kleinom tak, aby precvičoval diagnostické vzorce, ktoré laboratórno-medicínski asistenti najčastejšie nesprávne interpretujú. Každý z pätnástich prípadov bol vybraný pre konkrétnu diagnostickú vlastnosť, uvedenú nižšie.

Hematológia (3) BT-001, BT-006, BT-007 Anémia z nedostatku železa · Nedostatok B12 · Minor beta-talasémie

Endokrinológia (3) BT-002, BT-008, BT-012 Hashimotova tyreoiditída · PCOS s inzulínovou rezistenciou · Ťažký nedostatok vitamínu D

Metabolické (2) BT-003, BT-013 T2DM s metabolickým syndrómom · Hyperurikémia s rizikom dny

Hepatológia (2) BT-004, BT-009 NAFLD / NASH · Akútna vírusová hepatitída

Nefrológia · Kardiológia · Reumatológia (3) BT-005, BT-010, BT-011 CKD štádium 3 · Aterogénna dyslipidémia · Systémový lupus erythematosus

„Trap“ prípady (2) BT-014, BT-015 Gilbertov syndróm (izolovaná nepriamá hyperbilirubinémia) · Úplne normálny skríning dospelých

Prečo je toto konkrétne rozdelenie

Hematológia dostane tri prípady, pretože mikrocytárne diferenciály a makrocytárne diferenciály sú v reálnej laboratórnej praxi najobjemnejšie „pasce“. Endokrinológia dostane tri, pretože prezentácie pri Hashimotovej chorobe, PCOS a nedostatku vitamínu D majú odlišné diagnostické „tvary“ (riadené autoprotilátkami, riadené pomermi hormónov, riadené jedným markerom). Špecializácie s jedným prípadom sú však stále významné, pretože každý z CKD, rizika ASCVD a SLE má vlastný bodovací systém, ktorý by mal engine vyvolať (staging KDIGO, 10-ročné riziko ASCVD, kritériá SLE 2019 EULAR/ACR, resp.).

V11 druhá aktualizácia — 100 000 syntetických prípadov naprieč 127 štítkami krajín

Druhá aktualizácia nahrádza pôvodný V11 hard-coded 15-prípadový Python literál väčšou, programovo vygenerovanou syntetickou sadou prípadov. Sada prípadov sa načíta na začiatku každého spustenia a konfigurácia sa loguje kvôli transparentnosti. Distribúcia kohorty podľa obsahovej oblasti je uvedená nižšie.

Endokrinológia 23 900 prípadov (23.9%) Štítna žľaza, PCOS, vitamín D, gonadálna os, hypofýza

Metabolická medicína 21 900 prípadov (21.9%) T2DM, metabolický syndróm, lipidové panely, hyperurikémia

Hematológia 15 400 prípadov (15.4%) Diferenciály mikrocytárne a makrocytárne, B12/folát, vyšetrenia železa

Hepatológia 12 400 prípadov (12.4%) NAFLD/NASH, vírusová hepatitída, FIB-4, cholestáza

Vnútorné lekárstvo (vrátane podmnožiny trap) 9 000 prípadov (9.0%) Zmiešané prezentácie a 8 723 vyhradených prípadov hyperdiagnostickej pasce

Kardiológia 7 500 prípadov (7.5%) Riziko ASCVD, aterogénna dyslipidémia, hs-CRP

Reumatológia 6 000 prípadov (6.0%) SLE, RA, vaskulitída, panely autoprotilátok (kritériá EULAR/ACR)

Nefrológia 4 000 prípadov (4.0%) Staging CKD (KDIGO), trendy eGFR, porucha elektrolytov

Syntetická distribúcia štítkov krajín — top 10 štítkov

Týchto 100 000 syntetických prípadov nesie 127 štítkov krajín (ISO 3166-1 alpha-2) na precvičenie spracovania lokality. Priradenie štítkov: Európa 57.7%, Americké kontinenty 25.4%, Ázia-Pacifik 6.2%, pomenované štítky Blízky východ/Afrika 3.4% a dlhý chvost ďalších 97 štítkov spolu približne 7.3%. Desať najčastejších štítkov podľa počtu prípadov sú Spojené štáty (10 500), Brazília (9 500), Španielsko (9 000), Taliansko (8 000), Nemecko (7 800), Francúzsko (7 400), Portugalsko (5 800), Türkiye (3 400), Spojené kráľovstvo (2 900) a Mexiko (2 500). Kompozitné skóre na štítok sa pohybovalo od 0.9971 do 0.9985. Tieto počty štítkov sú vlastnosťami vygenerovaných prípadov používaných na precvičenie spracovania lokality — nie sú to skutoční používatelia ani skutočné pokrytie geografickej oblasti.

Vysvetlená vopred registrovaná rubrika

Predregistrácia je jediná najdôležitejšia metodologická voľba v tomto benchmarku. Každá očakávaná diagnóza, každý klinický bodovací systém a každá sekcia reportu boli zaviazané do zdrojového kódu ešte predtým, než bol engine vyvolaný. Dodatočné (post-hoc) doladenie rubriky tak, aby lichotila engine, je preto nemožné.

Tri komponenty tvoria kompozitné skóre. Komponent štrukturálny prispieva 35 percentami a meria, či engine vrátil sedem povinných sekcií reportu (hlavička, súhrn, kľúčové zistenia, diferenciál, bodovacie systémy, odporúčania, follow-up) a šestnásť povinných podsekcií v rámci nich. Prítomnosť sekcie má váhu 40 percent a prítomnosť podsekcie má váhu 60 percent v rámci štrukturálneho výpočtu.

Ten/Tá/To klinický komponent prispieva 55 percentami a kombinuje tri veci: vybavenie diagnózy podľa kľúčových slov (70 percent klinického podskóre), vybavenie bodovacieho systému (20 percent — či engine vypočíta Mentzer, FIB-4, HOMA-IR, riziko ASCVD, staging KDIGO, kritériá EULAR/ACR, ak je to relevantné) a kontrolu validity súčtu pravdepodobností (10 percent — diferenciálne pravdepodobnosti by sa mali sčítať v intervale [90, 110]). Pri pascových prípadoch sa odpočíta explicitná hyperdiagnostická penalizácia až 0.30, vypočítaná ako 0.10 za každý vymyslený príznak patológie, s limitom na tri príznaky.

Ten/Tá/To komponent latencie prispieva 10 percentami. Odpoveď do 20 sekúnd získa plných 0.10, odpoveď do 40 sekúnd získa 0.05 a čokoľvek pomalšie získa nulu. Cieľ 20 sekúnd odráža produkčný primárny cieľ úrovne služby; strop 40 sekúnd odráža rozpočet na záložnú možnosť v Fáze 2 pre náročné vyvolania engine.

Čo predregistrácia zabraňuje

Prvostranové benchmarky sú notoricky známe tým, že nafukujú svoje vlastné čísla prostredníctvom post-hoc doladenia rubriky. Vzor je takmer vždy rovnaký: tím spustí engine, uvidí, kde podáva slabší výkon, a potom potichu upraví rubriku tak, aby oblasti s podpriemerným výkonom počítali menej. Tým, že sa rubrika zaviaže do zdrojového kódu ešte pred prvým volaním engine a že sa testovací mechanizmus publikuje pod licenciou MIT, sa táto úprava stane viditeľnou v systéme správy verzií. Každý si môže naklonovať repozitár, skontrolovať dátumy autorstva rubriky a overiť, že výsledky engine neboli použité na formovanie skórovania.

Prípady „hyperdiagnosis trap“ — prečo je skutočným režimom zlyhania prevolanie (over-calling)

Agresívne prevolávanie patológie na normálnych obrazovkách je zdokumentovaný režim zlyhania spotrebiteľsky orientovaných medicínskych asistentov. Jeho následné náklady zahŕňajú zbytočné vyšetrovanie, úzkosť pacienta a iatrogénne vyšetrovacie postupy. Dva pascové prípady v tomto benchmarku sú navrhnuté tak, aby tento režim zlyhania bol viditeľný a hodnotiteľný.

🟡 Pasca 1 — BT-014-GILBERT

Prezentácia. Muž, 24 rokov, s celkovým bilirubínom 2.4 mg/dL. Priama frakcia je normálna, transaminázy a alkalická fosfatáza sú v rámci referenčných hodnôt, retikulocyty sú bez pozoruhodností a haptoglobín a LDH vylučujú hemolýzu.

Správna interpretácia. Gilbertov syndróm — benígna polymorfizmus UGT1A1. Interpretácia by nemala vyvolávať hepatitídu, cirhózu, hemolytickú anémiu ani biliárnu obštrukciu.

Výsledok V11. Kompozitné 1.000. Žiadna z šiestich monitorovaných vlajok pre nadmernú diagnózu sa neobjavila ako aktívna diagnóza.

🟡 Pasca 2 — BT-015-ZDRAVÝ

Prezentácia. Žena, 35 rokov, s pätnásťparametrovým rutinným skríningovým panelom. Každý analyt sa pohodlne nachádza v rámci svojho referenčného rozsahu.

Správna interpretácia. Uistenie a udržiavanie životného štýlu. Interpretácia by nemala umelo vytvárať hraničnú patológiu, aby pôsobila klinicky užitočne.

Výsledok V11. Kompozit 1.000. Žiadna z ôsmich sledovaných vlajok pre nadmernú diagnostiku — diabetes, anémia, hypotyreóza, dyslipidémia, hepatitída, ochorenie obličiek, nedostatok — sa neobjavila ako aktívna diagnóza.

Vo všetkých dvoch pasciach bolo skontrolovaných trinásť sledovaných vlajok pre hyperdiagnostiku. Neaktivovala sa ani jedna. Toto je výsledok, na ktorom najviac záleží pre každého klinika, ktorý uvažuje o použití AI ako triážneho alebo predkonzultačného nástroja: systém nevymyslel ochorenie, ak žiadne neexistovalo.

Mentzerov index: odlíšenie nedostatku železa od znaku talasémie

Druhým vysoko hodnotným zistením je prepojenie prípadu BT-001 (anémia z nedostatku železa) s prípadom BT-007 (beta-talazémia minor). Oba sa prejavujú mikrocytózou a ide o dobre známu prekážku pre naivné klasifikátory. Mentzerov index, vypočítaný ako MCV delené počtom RBC, je v prípade nedostatku železa vyšší než 13 a v prípade znaku talazémie nižší než 13.

V BT-001 bola pacientka 34-ročná žena s hemoglobínom 10,4 g/dl, MCV 72,4 fl, RBC 4,1 × 10¹²/l, feritínom 6 ng/ml a zvýšeným TIBC. Mentzerov index približne 17,7 podporuje absolútny nedostatok železa. V BT-007 bol pacient 28-ročný muž s mikrocytózou (MCV 65,8 fl), ale s vysokým počtom RBC 6,2, normálnym RDW, normálnym feritínom a HbA2 5,6 percenta. Mentzerov index približne 10,6 poukazuje na znak talazémie a zvýšený HbA2 potvrdzuje beta-talazémiu minor.

Anémia z nedostatku železa Mentzer > 13 Nízky feritín, nízky TSAT, vysoké TIBC, zvýšené RDW

Znak beta-talazémie Mentzer < 13 Normálny feritín, normálne RDW, zvýšený HbA2 (>3,5%), vysoký počet RBC

Oba prípady dosiahli skóre 1.000. Stroj použil Mentzerov index explicitne v oboch interpretáciách a v každom prípade vrátil správnu diagnózu. Toto je jediný výsledok, ktorý je v celej benchmarkovej zostave najviac klinicky upokojujúci, pretože nesprávna klasifikácia znaku talazémie ako anémie z nedostatku železa vedie k nevhodnému podávaniu železa a k prehliadnutiu možností skríningu v rodine, a nesprávna klasifikácia anémie z nedostatku železa ako talazémie oneskoruje jednoduchú náhradnú liečbu. Naše usmernenie pre rozmedzie feritínu vysvetľuje širší diferenciálny kontext.

Výsledky po jednotlivých prípadoch z počiatočného referenčného behu V11 (23. apríla 2026)

Pôvodný referenčný beh V11 na 15-prípadovej proof-of-concept kohorte slúži ako metodologický základ pre Second Update: každý detail po jednotlivých prípadoch nižšie ilustruje, ako rubrika spracuje reálnu odpoveď enginu. Dvanásť z pätnástich prípadov dosiahlo stropné kompozitné skóre 1.000 na primárnej ceste; tri prípady boli obslúžené cez fallback Phase 2, pričom sa stratila bonusová latencia 0.05, no zachoval sa celý klinický a štrukturálny obsah. Jeden prípad chýbal v jednej povinnej podsekcii; jeden vrátil len mierne znížený súčet pravdepodobnostných distribúcií.

ID prípadu Špecializácia Kompozitné Latencia Cesta

BT-001-IDAHematológia1.00017,8 sprimárna

BT-006-B12Hematológia1.00018,4 sprimárna

BT-007-THALHematológia1.00017,0 sprimárna

BT-002-HASHEndokrinológia0.95037,0 sfallback

BT-008-PCOSEndokrinológia0.98718,6 sprimárna

BT-003-T2DMMetabolický1.00019,1 sprimárna

BT-013-GOUTMetabolický1.00019,4 sprimárna

BT-004-NAFLDHepatológia1.00019,6 sprimárna

BT-009-VIRHEPHepatológia0.95023,4 sfallback

BT-014-GILBERTPasca1.00018,9 sprimárna

BT-005-CKDNefrológia1.00017,4 sprimárna

BT-010-ASCVDKardiológia1.00019,7 sprimárna

BT-011-SLEReumatológia0.98118,2 sprimárna

BT-012-VITDEndokrinológia1.00019,3 sprimárna

BT-015-ZDRAVÝPasca1.00018,7 sfallback

Prípad PCOS (BT-008) stratil jednu povinnú podsekciu v štruktúre odpovede — pätnásť zo šestnástich namiesto šestnástich zo šestnástich — čo znížilo štrukturálne skóre z 1,000 na 0,963. Prípad SLE (BT-011) vrátil len mierne znížený súčet pravdepodobnostných distribúcií, ktorý znížil klinické skóre na 0,965, pričom zachoval každý diagnostický kľúčový výraz a systém bodovania. Ani jeden z týchto nie úplne dokonalých prípadov nezmeškal správnu diagnózu.

Agregát V11 Second Update — 100 000 prípadov

Vo veľkom meradle populácie nie sú jednotlivé riadky prípadov čitateľné pre človeka, preto Druhá aktualizácia uvádza agregované metriky namiesto tabuľky s 100 000 riadkami. Hlavný agregát je uvedený nižšie; rozpisy podľa špecializácie a podľa štítku krajiny sú publikované v technickej správe a v uložení na Figshare. Stratifikovaný náhodný výber z n = 201 surových odpovedí enginu (deterministické semeno 20260426) sa publikuje v adresári GitHub results/ na účely kontroly.

Kompozitné skóre V11 počiatočné: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 naprieč kohortou 100 000 prípadov

Štrukturálne skóre (priemer) V11 počiatočné: 0.998 → Second Update: 1.000 Perfektná štrukturálna zhoda vo veľkom meradle populácie

Klinické skóre (priemer) V11 počiatočné: 0.998 → Second Update: 0.996 −0.002; žiadny prípad nezlyhal v samotnej diagnóze

Latencia — priemer (rozsah) V11 počiatočné: 20,17 s (17,0–37,0 s) → Druhá aktualizácia: 13,26 s (9,0–16,94 s) Optimalizácie produkčného enginu medzi jednotlivými spusteniami

Cesta k enginu = primárna V11 počiatočné: 12 / 15 → Druhá aktualizácia: 100,000 / 100,000 V priebehu spustenia nebolo potrebné žiadne záložné riešenie pre fázu 2

Vlajky hyperdiagnostiky pre podmnožinu pascí V11 počiatočné: 0 / 13 → Druhá aktualizácia: 0 / 87,412 Žiadne falošné pozitíva v mierke populácie (8 723 sledovaných prípadov pascí)

Čo nám nehovorí titulné skóre

Kompozitné skóre 99.80 percenta podľa tohto konkrétneho vopred zaregistrovaného hodnotiaceho kritéria, na syntetickej kohorte 100 000 prípadov naprieč 127 štítkami krajín, predstavuje výkon takmer na úrovni stropu — no zaslúži si starostlivé zasadenie do kontextu. Výsledok opisuje správanie motora voči hodnotiaceho kritériu, ku ktorému sme sa zaviazali v zdrojovom kóde v V11; nejde o univerzálne tvrdenie o správnosti motora na každom existujúcom paneli krvných testov v reálnom svete.

Skóre hovorí, že engine správne spracoval diagnostické vzorce vybrané pre toto hodnotenie naprieč kohortou v mierke populácie, na metodológii, ktorá je publikovaná a reprodukovateľná. Nehovorí, že engine je správny na každom existujúcom paneli krvných testov v reálnom svete. Nehovorí, že by sa engine mal nahradiť klinickým úsudkom. A nehovorí, že engine prekonáva alternatívne systémy AI — porovnávacie analýzy s inými enginmi boli z tohto reportu zámerne mimo rozsahu.

To, čo skóre skutočne stanovuje, je východisková (baseline) hodnota. Keďže rubrika aj testovací nástroj (harness) sú verejné, budúce verzie enginu sa dajú hodnotiť podľa rovnakej rubriky — aplikovanej na V11 počiatočných 15 prípadov, na kohortu Druhej aktualizácie s 100 000 prípadmi, alebo na akékoľvek následné rozšírenie — a rozdiel medzi publikovaným skóre a akýmkoľvek následným spustením je sám o sebe merateľný. Toto je hodnota vopred registrácie: prevádza tvrdenia o výkone na testovateľné tvrdenia.

Ako zopakovať tento benchmark za 10 minút

Reprodukcia vyžaduje iba dvojicu poverení Kantesti API a prostredie Python 3.10 alebo novšie s requests a reportlab nainštalovanými knižnicami. Celý testovací rámec je jeden samostatný modul v Pythone vydaný pod licenciou MIT.

💻 GitHub Testovací rámec licencovaný MIT · surové odpovede · referenčné spustenie 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanonický akademický záznam 🎓 ResearchGate Publikácia 404175463 · V11 Druhá aktualizácia · akademická vrstva objavovania 📄 Academia.edu Práca 165956808 · V11 Druhá aktualizácia · akademická vrstva objavovania

Štyri kroky pre nové spustenie

Jeden. Naklonujte repozitár: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dva. Nainštalujte závislosti pomocou pip install -r requirements.txt (Druhá aktualizácia pridáva mysql-connector-python ≥ 8.0 pre SQL case loader). Tri. Nastavte KANTESTI_USERNAME a KANTESTI_PASSWORD ako premenné prostredia pre API enginu. Pre SQL case loader v Druhej aktualizácii tiež nastavte KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USERa KANTESTI_DB_PASSWORD — loader sa pripája cez rolu len na čítanie (bench_reader) ktorá nemá oprávnenia na identifikáciu tabuliek. Štyri. Spustite python benchmark_bloodtest.py --limit 100000 pre celý beh Second-Update, alebo python benchmark_bloodtest.py --limit 1000 pre rýchlu iteráciu. Výstupy sa ukladajú do ./benchmark_results/: CSV tabuľka so skóre s prehľadnými stĺpcami pre krajinu/štítok a špecializáciu, JSON agregát, stratifikovaný náhodný vzor surových odpovedí a Markdown report.

Referenčné behy z 23. apríla 2026 (V11 počiatočná verzia, 15 prípadov) a 26. apríla 2026 (V11 Second Update, 100,000 prípadov) sú zachované v results/ adresári repozitára. Nový beh vygeneruje nový scorecard s časovou pečiatkou, pričom referenčné behy ponechá nedotknuté. Ak váš beh prinesie zmysluplne odlišný výsledok, otvorte prosím issue na GitHube s časovou pečiatkou behu a verziou enginu uvedenou v metadátach odpovede.

Obmedzenia a ďalšia práca

Aj pri 100 000 prípadoch pre 127 štítkov krajín si zaslúžia explicitné uznanie štyri obmedzenia: nedostatočné vzorkovanie dlhého chvosta štítkov, jednorazové hodnotenie, obmedzený rozsah na jeden engine a pôvod dát z jedného zdroja. Každé z nich sa rieši v prebiehajúcich následných prácach.

Pokrytie štítkov s dlhým chvostom. Druhá aktualizácia pokrýva 127 štítkov krajín, no distribúcia je nevyvážená — prvých 10 štítkov tvorí ≈66.4% prípadov a dlhý chvost 97 ďalších štítkov spolu prispieva ≈7.3% (približne 7 300 prípadov dohromady, ~75 prípadov na štítok v priemere). Preto sú per-štítkové kompozity v tomto dlhom chvoste hlučnejšie, než naznačujú titulné čísla. Budúce behy znovu vyvážia priraďovanie štítkov, aby sa upevnili odhady pre jednotlivé štítky.

Jednorazové vyhodnotenie. Každý prípad v kohorte bol vyhodnotený raz. Veľké jazykové modely vykazujú nezanedbateľnú variabilitu výstupu aj pri nízkej teplote vzorkovania, takže prirodzeným ďalším krokom je protokol s viacerými behmi, kde sa na každý prípad vykoná päť vyhodnotení a uvedie sa variabilita — najmä na podmnožine trap-case, kde je konzistentnosť pri jitteri vzorkovania súčasťou bezpečnostného tvrdenia.

Rozsah jedného enginu. Táto správa charakterizuje jeden engine. Porovnávacie analýzy s alternatívnymi systémami AI sú mimo rozsahu; prípadne ich môžeme realizovať ako samostatnú nezávislú štúdiu s vhodnou metodikou, proti rovnakému MIT-licencovanému harnessu.

Syntetické dáta. Tých 100 000 prípadov je synteticky generovaných, nie ide o syntetické prípady, a výsledky sa neprenášajú na reálny klinický výkon. Hodnotenie na reálnych, so súhlasom získaných, externých dátach by si vyžadovalo primeraný etický dohľad a je mimo rozsahu tohto syntetického benchmarku.

Okrem týchto štyroch je najvýznamnejšie plánované rozšírenie viacjazyčná parita podľa jurisdikcie. Kantesti AI Engine slúži používateľom v 75+ jazykoch a spustenie jazykovo stratifikovaných podkohort Second-Update (turečtina, nemčina, španielčina, francúzština, taliančina, portugalčina, arabčina, mandarínčina) kvantifikuje kvalitu výstupov naprieč podporovanými jazykmi enginu. Každá jazykovo stratifikovaná analýza bude publikovaná s vlastným DOI a vetvou harnessu.

Vyskúšajte Ten Istý Engine, Ktorý Dosiahol 99.80% Kompozitné Skóre na 100,000 Prípadoch

Nahraj si vlastný panel krvných testov na rovnaký produkčný endpoint, ktorý bol vyhodnotený v tomto benchmarku. Viac ako 2 milióny používateľov na celom svete používa Kantesti AI Engine na interpretáciu viac než 15 000 biomarkerov v 75+ jazykoch.

🔬 Vyskúšajte bezplatnú demoverziu

Rozšírenie pre Chrome Obchod s aplikáciami Google Play

📚 Ako citovať tento benchmark

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Technická správa V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Externé metodologické referencie

Mentzer, W. C. (1973). Diferenciácia nedostatku železa od znaku talasémie. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Klasifikačné kritériá pre systémový lupus erythematosus Európskej ligy proti reumatizmu / Americkej vysokej školy reumatológie z roku 2019. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Test halucinácií v medicínskej doméne pre veľké jazykové modely. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Kompozitné skóre

100,000Prípady so skóre

127Pokryté štítky krajín

0 / 87,412Falošné pozitíva pasce

Často kladené otázky

Aká presná je Kantesti AI Engine na syntetických testovacích prípadoch?

Na vopred registrovanom rubrike, spustené na 100 000 synteticky vygenerovaných testovacích prípadoch v ôsmich oblastiach obsahu a na 127 štítkoch krajín (V11 Second Update), dosiahol engine kompozitné skóre 99,80 percenta, bez akýchkoľvek príznakov hyperdiagnózy v 87 412 monitorovaných príležitostiach pasce a s priemernou latenciou odpovede 13,26 sekundy. Tento kompozit meria zhodu výstupu so syntetickými vstupmi, nie diagnostickú presnosť. Pôvodné vydanie V11 aplikovalo rovnakú rubriku na 15 ručne zostavených prípadoch (kompozit 99,12%); Druhá aktualizácia ponecháva rubriku byte-identickú a rozširuje ju na väčšiu syntetickú kohortu. Celá scorecard je publikovaná na Figshare pod DOI 10.6084/m9.figshare.32095435 a na GitHube pod licenciou MIT.

Je Kantesti AI Engine klinicky overený?

Nie. Engine bol vyhodnotený pomocou automatizovaného technického benchmarku (nie klinickej validácie), oproti rubrike, ktorá bola zmrazená v zdrojovom kóde pred počiatočným spustením V11 a pre Druhú aktualizáciu V11 bola ponechaná byte-identická. Hodnotenie prebehlo na 100 000 syntetických prípadoch krvných testov naprieč hematológiou, endokrinológiou, metabolickou medicínou, hepatológiou, nefrológiou, kardiológiou, reumatológiou a internou medicínou, odobratých z 127 štítkov krajín. Klinický dohľad poskytol Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), certifikovaný klinický hematológ a Chief Medical Officer v Kantesti AI.

Čo je prípad „hyperdiagnostickej pasce“?

Prípad „hyperdiagnostickej pasce“ je klinická situácia špeciálne navrhnutá na odhalenie správania vedúceho k nadmernej diagnostike v AI motoroch. Počiatočný benchmark V11 použil dva takéto prípady ako metodický dôkaz konceptu: izolovanú nepriamu hyperbilirubinémiu zodpovedajúcu Gilbertovmu syndrómu (kde správna interpretácia je neškodný polymorfizmus UGT1A1, nie hepatitída ani hemolýza) a úplne normálny skríningový panel dospelých (kde správny výstup je uistenie, nie umelo vytvorená hraničná patológia). V11 Druhá aktualizácia škálovala túto metodiku pasce do vyhradenej podmnožiny 8 723 prípadov, čím vzniklo 87 412 monitorovaných príležitostí na príznak hyperdiagnostiky — a miera falošne pozitívnych výsledkov motora zostala na nule.

Je hodnotenie Kantesti AI Engine reprodukovateľné?

Celý hodnotiaci testovací rámec (evaluation harness) je vydaný pod licenciu MIT ako jeden samostatný modul v Pythone. Počiatočné spustenie V11 vyžaduje iba dvojicu poverení Kantesti API a Python 3.10 alebo novší. V11 Druhá aktualizácia pridáva parametrovateľný, iba na čítanie SQL loader prípadov, ktorý vyžaduje poverenia Kantesti klinického repozitára (a bench_reader rolu bez oprávnení na identifikáciu tabuliek). Kód, SQL loader prípadov, rubrika (byte-identická medzi vydaniami) a stratifikovaná náhodná vzorka surových odpovedí motora z počiatočného spustenia V11 aj z referenčných behov Druhej aktualizácie sú dostupné na github.com/emirhanai/kantesti-blood-test-benchmark a zrkadlené na Figshare, ResearchGate a Academia.edu.

Ako Kantesti AI Engine rozlišuje nedostatok železa od znaku beta-talasémie?

Motor používa Mentzerov index, vypočítaný ako priemerný objem červených krviniek vydelený počtom červených krviniek. Mentzerov index nad 13 podporuje anémiu z nedostatku železa, zatiaľ čo hodnota pod 13 podporuje znak beta-talasémie. V počiatočnom benchmarku V11 boli obe prezentácie klasifikované správne s explicitným výpočtom Mentzerovho indexu, podporeným kontextom feritínu, RDW a HbA2. Naprieč kohortou 100 000 prípadov v V11 Druhej aktualizácii sa rovnaké diferenciálne správanie zachovalo aj na úrovni populácie.

Kde nájdem surové benchmarkové údaje a zdrojový kód?

Technická správa je uložená na Figshare pod DOI 10.6084/m9.figshare.32095435 (zahŕňa počiatočné vydanie V11 aj V11 Druhú aktualizáciu), zrkadlená na ResearchGate publikácii 404175463 a Academia.edu článku 165956808 — oba aktualizované názvom V11 Druhej aktualizácie a výsledkami pre 100 000 prípadov — a MIT-licencovaný Pythonový testovací rámec (harness) so všetkými výsledkami referenčných behov je na github.com/emirhanai/kantesti-blood-test-benchmark. Sieť zrkadiel na štyroch platformách zabezpečuje dlhodobú dostupnosť a flexibilitu citovania.

Prečo je dôležitá predregistrácia pre medicínske benchmarky AI?

Predregistrácia zabraňuje dolaďovaniu rubriky spätne (post-hoc), čo je jediný najčastejší spôsob, ako firemné benchmarky nafukujú svoje vlastné čísla. Tým, že sa rubrika zaviaže do zdrojového kódu ešte pred akýmkoľvek volaním motora a testovací rámec sa zverejní verejne, dátumy autora rubriky sa dajú overiť v systéme správy verzií a výsledky motora nemohli ovplyvniť kritériá hodnotenia.

Obsahuje tento benchmark porovnania s inými AI motormi?

Nie. Správa V11 — či už počiatočné vydanie alebo Druhá aktualizácia — zámerne charakterizuje jeden motor oproti pevne stanovenej rubrike, nie jeho umiestnenie oproti alternatívnym komerčným systémom. Testovací rámec je open source pod licenciou MIT (teraz vrátane SQL loadera prípadov), takže nezávislí výskumníci môžu vyhodnotiť akýkoľvek motor, ktorý si zvolia, oproti rovnakej rubrike a loaderu prípadov a publikovať svoje výsledky.

Sú prípady pacientov reálne alebo syntetické?

Všetky prípady sú synteticky generované — 15 ručne zostavených prípadov v počiatočnom vydaní V11 a 100 000 v Druhej aktualizácii. Nejde o syntetické prípady: nie sú zahrnuté žiadne syntetické dáta, žiadny proces súhlasu a žiadna de-identifikácia, pretože v kohorte neexistujú žiadne osobné údaje. V publikovanom harness-e, technickej správe ani v uvoľnených datasetoch sa nevyskytujú žiadne osobné údaje.

⚕️ Lekárske upozornenie & konflikt záujmov

Táto správa z benchmarku je určená na výskumné a metodologické účely transparentnosti. Nejde o lekárske poradenstvo, nie je to diagnóza a nenahrádza odbornú zdravotnú starostlivosť; žiadny výsledok tu by sa nemal použiť na odklad alebo vyhnutie sa návšteve lekára. Pri rozhodovaní o diagnostike a liečbe sa vždy poraďte s kvalifikovaným poskytovateľom zdravotnej starostlivosti. Ide o samostatne spustený interný benchmark vlastného enginu spoločnosti a nebol nezávisle overený ani recenzovaný. Kompozitné skóre meria zhodu s pevne stanoveným hodnotiacim rámcom (štruktúra správy, spätné získanie kľúčových slov a systému skórovania a latencia); nie je to miera skutočnej diagnostickej presnosti ani klinickej bezpečnosti. Obaja autori sú zamestnaní v Kantesti Ltd a majú v nej majetkovú účasť (equity) a hodnotený engine je komerčným produktom tej istej organizácie. Tento konflikt záujmov sa zmierňuje tým, že hodnotiaci rámec je predregistrovaný v zdrojovom kóde, že harness je uvoľnený pod licenciou MIT a že je publikovaný stratifikovaný náhodný výber surových odpovedí enginu.

Signály dôvery E-E-A-T Trust Signals

⭐

Skúsenosti

15+ rokov praxe v klinickej hematológii a laboratórnej medicíne pri dohľade nad výberom panelu prípadov.

📋

Odbornosť

Predregistrovaný návrh rubriky s explicitnými sankciami za hyperdiagnostiku a uznávanými klinickými hodnotiacimi systémami (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoritatívnosť

Hlavný autor Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementácia: Julian Emirhan Bulut, CEO spoločnosti Kantesti Ltd.

🛡️

Dôveryhodnosť

Testovací rámec reprodukovateľný pod licenciou MIT, zverejnené surové odpovede motora, otvorené zverejnenie konfliktu záujmov, výskumná sieť zrkadiel na štyroch platformách.

🏢 Kantesti LTD Registrovaná v Anglicku a vo Walese · Spoločnosť č. 17090423 Londýn, Spojené kráľovstvo · kantesti.net