Kantesti AI анализа крвне слике — клиничка валидација

Automatizovano merilo performansi Унапред регистровани бенчмарк V11 Друго ажурирање — април 2026 MIT лиценцирано Reprodukovljivo · Otvoreni podaci 100K sintetički kohort · 127 oznaka zemalja

99.80% kompozitni rezultat prema unapred registrovanom rubrikom — V11 Drugo ažuriranje, kohorta od 100.000 slučajeva kroz 127 oznaka zemalja

Unapred registrovano, rubrikom zasnovano automatizovano tehničko merilo performansi motora Kantesti na 100.000 sintetički generisanih slučajeva krvnih testova označenih sa 127 oznaka zemalja. Meri usaglašenost izlaza, a ne dijagnostičku tačnost. Rubrika je zamrznuta u izvornom kodu pre početnog izdanja V11 i zadržana byte-identična za ovo Drugo ažuriranje; evaluacioni harness je licenciran MIT-om; stratifikovan slučajni uzorak sirovih odgovora motora objavljen je radi pregleda. Svi slučajevi su sintetički; ne koriste se lični podaci.

📖 ~14 минута 📅 Објављено 23. априла 2026 · Ажурирано 26. априла 2026 (V11 Друго ажурирање) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Објављено: 23. април 2026. 🔄 V11 Друго ажурирање: 26. април 2026. 🩺 Медицински прегледано: 26. април 2026. ✅ Унапред регистрована рубрика (идентична по бајтовима) 🔓 Отворен код и подаци

Ovo automatizovano merilo performansi je dizajnirano i pokrenuto od strane Јулијан Емирхан Булут, Senior AI inženjera i izvršnog direktora (CEO) kompanije Kantesti Ltd. Bodovanje je u potpunosti automatizovano u izvornom kodu; rubrika za bodovanje i panel slučajeva razvijeni su uz klinički doprinos od Др Томас Клајн, др мед., Chief Medical Officer (glavni medicinski direktor) u Kantesti AI, i pregledani od strane Медицински саветодавни одбор Кантести АИ. To je samostalno pokrenuto interno merilo, a ne nezavisno ili recenzirano automatizovano tehničko merilo performansi.

Главни аутор и клинички надзор

Томас Клајн, др мед.

Главни медицински службеник, Кантести АИ

Dr. Thomas Klein je sertifikovani klinički hematolog i internista sa više od 15 godina iskustva u laboratorijskoj medicini. Kao glavni medicinski direktor u Kantesti AI, odabrao je panel slučajeva za ovo merilo, pregledao klinički sadržaj i očekivane odgovore sintetičkih slučajeva i odobrio unapred registrovanu rubriku pre prvog poziva motora.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Коаутор и имплементација

Јулијан Емирхан Булут

Виши AI инжењер и извршни директор, Kantesti Ltd

Julian Emirhan Bulut је оснивач и извршни директор компаније Kantesti Ltd. Он је дизајнирао и имплементирао оквир за евалуацију — укључујући SQL loader случајева додат за V11 Друго ажурирање — извршио интеграцију API-ја, спровео и почетни референтни run за V11 и run за V11 Друго ажурирање са 100.000 случајева, и припремио статистичку агрегацију. Оснивач платформе од 2019. године.

GitHub О Кантестију

⚡ Брзи резиме V11 Друго ажурирање — 26. април 2026.

99.80% композитни резултат na 100.000 sintetičkih slučajeva krvnih testova iz osam medicinskih specijalnosti i 127 oznaka zemalja (V11 Drugo ažuriranje).
Nula lažno-pozitivnih slučajeva prekomerne dijagnoze преко 87.412 надгледаних прилика за trap-case flag — иста методологија trap-case као у почетном V11, скалирана на нивоу популације.
Unapred registrovan rubrik замрзнуто у изворном коду пре почетног run-а за V11 и задржано идентично по бајтовима за ово Друго ажурирање — није било могуће накнадно подешавање.
Mentzerov indeks pravilno primenjen да би се разликовала анемија услед недостатка гвожђа од бета-таласемије минор у почетном издању V11; диференцијално понашање је очувано на нивоу популације.
Samo produkcioni endpoint — bez privilegovanog rutiranja, evaluirano tačno onako kako bi mu pristupio plaćajući korisnik.
13.26 секунди просечна латенција енд-то-енд (опсег 9.0–16.94 s), при чему је свих 100.000 случајева завршено на примарном путу мотора.
Sintetička kohorta. 100.000 sintetički generisanih test slučajeva učitano u vreme izvođenja. Ne koristi se sintetički podatak i ne koriste se lični podaci.
Harness sa MIT licencom објављено на GitHub-у са стратификованим случајним узорком (n = 201) комплетних сирових одговора мотора за увид.
Figshare DOI: 10.6084/m9.figshare.32095435 · Preslikano na ResearchGate, Academia.edu, GitHub.

Зашто овај бенчмарк постоји и шта тестира

AI-potpomognuto tuмачење крвне слике se sve češće koristi u potrošačkim i kliničkim tokovima rada, ali okviri za proveru koji se mogu ponoviti i prilagođeni laboratorijskoj medicini ostaju neuobičajeni. Pitanja koja su najvažnija u ovom kontekstu nisu ona obuhvaćena opštim benchmarkovima za medicinska pitanja i odgovore: može li motor da razdvoji anemiju zbog nedostatka gvožđa od osobine talasemije kada je srednji volumen eritrocita identičan, da li prekomerno dijagnostikuje Gilbertovu bolest kao hepatitis i da li „izmišlja” patologiju u potpuno normalnom skrining panelu?

Један панел крвних анализа обично садржи довољно сигнала да подржи више конкурентских тумачења, а посао лекара који тумачи резултате је да та тумачења одмери једно према другима, а не да пронађе „тачан одговор“ из уџбеника. Мотор који се добро показује на примерима из уџбеника може ипак да падне на случајеве који су најважнији: замке у диференцијалној дијагнози, бенигне варијанте које изгледају алармантно када се посматрају изоловано и потпуно нормалне панеле који наводе самоуверене асистенте да „израде“ патологију.

Овај бенчмарк је направљен управо око тих начина неуспеха. Сваки од петнаест случајева изабран је због одређене дијагностичке особине: микоцитоза услед недостатка гвожђа која мора да се разликује од особине бета-таласемије са идентичним средњим корпускуларним волуменом, приказ који одговара Гилбертовом синдрому где је једина абнормалност изолована индиректна хипербилирубинемија и панел за скрининг са петнаест параметара у коме је сваки аналит унутар свог референтног опсега. Рубрика награђује моторе који читају сваки случај у његовим сопственим околностима, а кажњава моторе који посежу за самоувереном дијагнозом када таква дијагноза није оправдана.

Као Томас Клајн, др мед., изабрао сам овај панел случајева јер су то обрасци које асистенти у лабораторијској медицини најчешће погрешно разумеју. Скуп начин неуспеха није "пропустити ретку болест" — већ измишљати рутинску патологију код пацијената који је немају. Наше Медицинска валидација hub opisuje širi okvir; ova stranica opisuje početni dokaz koncepta V11 i V11 Drugo ažuriranje koje ga je skaliralo na 100.000 sintetičkih slučajeva izvedenih iz sintetičkog skupa slučajeva koji obuhvata 127 oznaka zemalja — koristeći istu rubriku bodovanja, byte-identično, bez dozvoljenog naknadnog podešavanja (post-hoc).

Најновије референтно извршавање — V11 Друго ажурирање (26. април 2026)

Референтно извршавање V11 Другог ажурирања од 26. априла 2026. произвело је композитни резултат од 99.80% на истој унапред регистрованој рубрици која је коришћена у почетном издању V11, процењено на 100.000 sintetičkih slučajeva izvedenih iz Kantesti sintetičkog skupa slučajeva i obuhvatajući 127 oznaka zemalja и 75+ језике. Сваки случај је завршен на примарном путу мотора; активације заставице хипердијагностичке замке остале су на 0 / 87,412. Оригинално V11 извршавање од 23. априла 2026. обухватило је 15 ручно одабраних случајева (композит 99.12%) и верификовало рубрику; Друго ажурирање задржава ту рубрику идентичну по бајтовима и проширује евалуацију на кохорту размера популације.

Композитни 99.80% 100.000 од 100.000 случајева оцењено

1.000 Структурни резултат

0.996 Клинички резултат

13.26 s Просечно кашњење

0 / 87,412 Замке лажних позитивних резултата

Композитна формула комбинује три компоненте: структурна усклађеност са седам обавезних секција извештаја и шеснаест обавезних подсеција, tačnost sadržaja мерена као присећање кључних речи плус присећање система бодовања плус провера валидности вероватносне расподеле, и кашњење одговора у односу на циљ услужног нивоа на примарном путу. Тачна декомпозиција је приказана у формули рубрике испод — ниједна од ових тежина или под-рубрика није мењана за Друго ажурирање.

Композитни = 0.35 × Структурни + 0.55 × Клинички + 0.10 × Кашњење

Преосталих 0.20 процентних поена слободног простора се готово у целости разлаже на клинички под-скор — мали део случајева (пре свега у Хепатологији и Реуматологији) имао је једну очекивану кључну реч система бодовања одсутну у тумачењу мотора, иако је дијагностички садржај био исправан. Ниједан случај у кохорти од 100.000 случајева Другог ажурирања није промашио саму дијагнозу. Латенција је побољшана са просека од 20.17 s у почетном издању V11 на 13.26 s у Другом ажурирању, што одражава оптимизације производног мотора између два извршавања; рубрика, код за бодовање и API крајња тачка су непромењени.

Kompozitni rezultati po oznaci kretali su se od 0.9971 do 0.9985 među 30 najzastupljenijih oznaka zemalja. Dugačak rep od 97 dodatnih oznaka (≈7.300 slučajeva ukupno) nije pokazao sistematsko pogoršanje. Najčešće oznake po broju slučajeva bile su Sjedinjene Američke Države (10.500), Brazil (9.500), Španija (9.000), Italija (8.000), Nemačka (7.800), Francuska (7.400), Portugal (5.800), Türkiye (3.400), Ujedinjeno Kraljevstvo (2.900) i Meksiko (2.500).

Od 15 slučajeva do 100.000: evolucija kohorte kroz 127 oznaka zemalja

Originalni V11 panel slučajeva obuhvatao je sedam specijalnosti — hematologiju, endokrinologiju, metaboličku medicinu, hepatologiju, nefrologiju, kardiologiju, reumatologiju — plus dva posvećena slučaja „hyperdiagnosis trap“, pri čemu je svaki slučaj sintetički generisan panel krvnih testova. V11 Drugo ažuriranje proširuje evaluaciju na 100.000 sintetičkih slučajeva kroz 127 oznaka zemalja, распоређених у осам специјалности (оригиналних седам плус посебна интерна-медицинска група која апсорбује подскуп замке). Иста рубрика бодовања се примењује идентично по бајтовима у оба извршавања.

Pošto su svi slučajevi sintetički generisani, ne postoje stvarni identifikatori za uklanjanje i ne uključuju se lični podaci. Svaki sintetički slučaj nosi internu šifru slučaja za merilo (BT-NNN-LABEL u početnom skupu V11, stabilna case_uid u Drugom ažuriranju). Niti jedan lični podatak se ne pojavljuje nigde u objavljenom harness-u, tehničkom izveštaju ili objavljenim skupovima podataka.

почетним издањем V11 — 15 ручно одабраних случајева

Оригинални V11 панел случајева ручно је одабрао др Томас Клајн како би се обухватили дијагностички обрасци које лабораторијски асистенти у медицини најчешће погрешно тумаче. Сваки од петнаест случајева изабран је на основу одређеног дијагностичког својства, наведеног у наставку.

Хематологија (3) BT-001, BT-006, BT-007 Анемија због недостатка гвожђа · Недостатак витамина B12 · Бета-таласемија, минор

Ендокринологија (3) BT-002, BT-008, BT-012 Хашимотов тиреоидитис · PCOS са инсулинском резистенцијом · Тешки недостатак витамина Д

Метаболичко (2) BT-003, BT-013 T2DM са метаболичким синдромом · Хиперурикемија са ризиком од гихта

Хепатологија (2) BT-004, BT-009 NAFLD / NASH · Акутни вирусни хепатитис

Нефрологија · Кардиологија · Реуматологија (3) BT-005, BT-010, BT-011 ХББ стадијум 3 · Атерогена дислипидемија · Системски еритематозни лупус

Случајеви „замке“ (2) BT-014, BT-015 Гилбертов синдром (изолована индиректна хипербилирубинемија) · Потпуно нормалан скрининг одраслих

Зашто је баш ова расподела

Хематологија добија три случаја јер су микоцитне диференцијале и макроцитне диференцијале највеће „замке“ по обиму у реалној лабораторијској пракси. Ендокринологија добија три јер се клиничке презентације Хашимотове болести, PCOS-а и недостатка витамина Д разликују по дијагностичким „облицима“ (вођеним аутоантителима, вођеним односима хормона, вођеним једним маркером). Специјалности са једним случајем и даље су значајне јер сваки од CKD-а, ризика за ASCVD и SLE има свој систем бодовања који мотор треба да позове (KDIGO стадирање, ASCVD ризик на 10 година, и критеријуме за SLE из 2019 EULAR/ACR, респективно).

V11 Drugo ažuriranje — 100.000 sintetičkih slučajeva kroz 127 oznaka zemalja

Drugo ažuriranje zamenjuje originalni V11 hardkodirani Python literal od 15 slučajeva većim, programski generisanim skupom sintetičkih slučajeva. Skup slučajeva učitava se na početku svakog pokretanja, a konfiguracija se beleži radi transparentnosti. Raspodela kohorte po oblasti sadržaja prikazana je ispod.

Ендокринологија 23.900 случајева (23.9%) Штитна жлезда, PCOS, витамин Д, гонадална осовина, хипофиза

Метаболичка медицина 21.900 случајева (21.9%) T2DM, метаболички синдром, липидни профили, хиперурикемија

Хематологија 15.400 случајева (15.4%) Микроцитне и макроцитне диференцијале, B12/фолат, студије гвожђа

хепатологија 12.400 случајева (12.4%) NAFLD/NASH, вирусни хепатитис, FIB-4, холестаза

Интерна медицина (укљ. trap подскуп) 9.000 случајева (9.0%) Мешовите презентације и 8.723 посвећена случаја „хипердијагностичке замке“

Кардиологија 7.500 случајева (7.5%) Ризик ASCVD, атерогена дислипидемија, hs-CRP

РЕУМАТОЛОГИЈА 6.000 случајева (6.0%) SLE, RA, васкулитис, панели аутоантитела (EULAR/ACR критеријуми)

Нефрологија 4.000 случајева (4.0%) Стадијум CKD (KDIGO), трендови eGFR, поремећај електролита

Sintetička raspodela oznaka zemalja — top 10 oznaka

100.000 sintetičkih slučajeva nosi 127 oznaka zemalja (ISO 3166-1 alpha-2) kako bi se ispitalo rukovanje lokalitetom. dodela oznaka: Evropa 57.7%, Amerike 25.4%, Azija-Pacifik 6.2%, imenovane oznake Bliski istok/Afrika 3.4% i dugačak rep od 97 dodatnih oznaka približno 7.3% ukupno. Deset najčešćih oznaka po broju slučajeva bile su Sjedinjene Američke Države (10.500), Brazil (9.500), Španija (9.000), Italija (8.000), Nemačka (7.800), Francuska (7.400), Portugal (5.800), Türkiye (3.400), Ujedinjeno Kraljevstvo (2.900) i Meksiko (2.500). Kompozitni rezultati po oznaci kretali su se od 0.9971 do 0.9985. Ovi brojevi oznaka su svojstva generisanih slučajeva korišćenih za ispitivanje rukovanja lokalitetom — nisu stvarni korisnici i nisu stvarno geografsko pokrivanje.

Унапред регистрована рубрика, објашњена

Предрегистрација је један најважнијих методолошких избора у овом бенчмарку. Свака очекивана дијагноза, сваки клинички систем бодовања и сваки одељак извештаја били су унапред посвећени изворном коду пре него што је мотор позван. Дакле, накнадно „подешавање“ рубрике да би се улепшала учинка мотора није могуће.

Три компоненте чине композитни резултат. структурна компонента доприноси 35 процената и мери да ли је мотор вратио седам обавезних одељака извештаја (заглавље, сажетак, кључни налази, диференцијал, системи бодовања, препоруке, праћење) и шеснаест обавезних пододељака унутар њих. Присуство одељка носи 40 процената, а присуство пододељка 60 процената унутар структурног израчуна.

Тхе клиничка компонента доприноси 55 процената и комбинује три ствари: присећање дијагнозе по кључним речима (70 процената клиничког подрезултата), присећање система бодовања (20 процената — да ли мотор израчунава Mentzer, FIB-4, HOMA-IR, ASCVD ризик, KDIGO стадирање, EULAR/ACR критеријуме где је релевантно) и проверу валидности збира вероватноћа (10 процената — диференцијалне вероватноће треба да се саберу унутар интервала [90, 110]). За „trap“ случајеве, експлицитна казна за хипердијагнозу до 0,30 се одузима, рачуна се као 0,10 по измишљеној заставици патологије, уз ограничење на три заставице.

Тхе компонента латенције доприноси 10 процената. Одговор испод 20 секунди добија пуних 0,10, одговор испод 40 секунди добија 0,05, а све што је спорије добија нула. Циљ од 20 секунди одражава производни примарни циљ услуге за пат сервис; плафон од 40 секунди одражава буџет за „fallback“ у Фази 2 за тешке позиве мотора.

Шта предрегистрација спречава

Први-страна бенчмаркови су познати по надувавању сопствених резултата кроз накнадно подешавање рубрике. Образац је скоро увек исти: тим покрене мотор, види где недовољно постиже, а затим тихо прилагоди рубрику тако да области које недовољно постижу мање „рачунају“. Када се рубрика посвети изворном коду пре првог позива мотора и када се хернес објави под MIT лиценцом, тај прилагођај постаје видљив у контролу верзија. Свако може да клонира репозиторијум, провери датуме ауторства рубрике и верификује да резултати мотора нису коришћени да би се обликовало бодовање.

Случајеви „замке хипердијагнозе“ — зашто је прекомерно пријављивање стварни режим неуспеха

Агресивно „прозивање“ патологије на нормалним екранима је документован начин неуспеха код медицинских асистената за потрошаче. Његови последични трошкови укључују непотребну истрагу, анксиозност пацијента и јатрогени обрађивачки поступак. Два „trap“ случаја у овом бенчмарку су дизајнирана да учине тај начин неуспеха видљивим и мерљивим.

🟡 Trap 1 — BT-014-GILBERT

Презентација. Мушкарац од 24 године са укупним билирубином од 2,4 mg/dL. Директна фракција је нормална, трансаминазе и алкална фосфатаза су унутар својих референтних опсега, ретикулоцити су без особености, а хаптоглобин и LDH искључују хемолизу.

Тачно тумачење. Гилбертов синдром — бенигна полиморфизам UGT1A1. Тумачење не треба да позива хепатитис, цирозу, хемолитичку анемију или билијарну опструкцију.

V11 резултат. Композитни 1,000. Ниједна од шест праћених заставица прекомерне дијагнозе није се појавила као активна дијагноза.

🟡 Trap 2 — BT-015-HEALTHY

Презентација. Жена од 35 година са рутинским скрининг панелом са петнаест параметара. Сваки аналит се удобно налази унутар свог референтног опсега.

Тачно тумачење. Утеха и одржавање начина живота. Тумачење не би требало да „измишља“ граничну патологију како би звучало клинички корисно.

V11 резултат. Композит 1.000. Ниједна од седам надгледаних заставица за прекомерно постављање дијагнозе — дијабетес, анемија, хипотиреоидизам, дислипидемија, хепатитис, болест бубрега, недостатак — није се појавила као активна дијагноза.

На оба „теста“ проверено је тринаест надгледаних заставица за хипердијагнозу. Ниједна није активирана. Ово је резултат који је најважнији за сваког клиничара који разматра коришћење AI мотора као алата за тријажу или пре-консултације: систем није „измислио“ болест тамо где је није било.

Ментцеров индекс: раздвајање недостатка гвожђа од особина таласемије

Друго вредно откриће односи се на повезивање случаја BT-001 (анемија због недостатка гвожђа) са случајем BT-007 (бета-таласемија, минор). Оба се јављају са микроцитозом и добро су позната препрека за наивне класификаторе. Ментцеров индекс, израчунат као MCV подељен бројем RBC, прелази 13 код недостатка гвожђа и пада испод 13 код особина таласемије.

У BT-001, пацијенткиња је имала 34 године, хемоглобин 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, феритин 6 ng/mL и повишен TIBC. Ментцеров индекс од приближно 17,7 подржава апсолутни недостатак гвожђа. У BT-007, пацијент је имао 28 година, микроцитозу (MCV 65,8 fL), али висок број RBC од 6,2, нормалан RDW, нормалан феритин и HbA2 од 5,6 процената. Ментцеров индекс од приближно 10,6 указује на особине таласемије, а повишен HbA2 потврђује бета-таласемију, минор.

Анемија због недостатка гвожђа Ментцер > 13 Низак феритин, низак TSAT, висок TIBC, повишен RDW

Особине бета-таласемије Ментцер < 13 Нормалан феритин, нормалан RDW, повишен HbA2 (>3.5%), висок број RBC

Обa случаја су постигла 1.000. Мотор је експлицитно позвао Ментцеров индекс у оба тумачења и вратио тачну дијагнозу у сваком случају. Ово је један највише клинички умирујући резултат у целом бенчмарку, јер погрешно класификовање особина таласемије као недостатка гвожђа доводи до неадекватног суплементирања гвожђем и пропуштених прилика за породични скрининг, а погрешно класификовање недостатка гвожђа као таласемије одлаже једноставну заменску терапију. Наш водич за опсег феритина објашњава шири диференцијални контекст.

Резултати по случају из V11 почетног референтног извођења (23. април 2026)

Оригинално V11 референтно извођење на кохорти proof-of-concept од 15 случајева служи као методолошка основа за Second Update: сваки детаљ по случају испод показује како рубрика обрађује стварни одговор мотора. Дванаест од петнаест случајева постигло је горњу границу композитног резултата од 1.000 на примарном путу; три случаја су послужена преко Phase 2 fallback-а, изгубивши бонус за латенцију од 0.05 уз очување свих клиничких и структурних садржаја. Један случај је недостајао у једној обавезној под-секцији; један је вратио маргинално смањен збир вероватносних расподела.

ИД случаја Специјалност Композитни Латенција Патх

BT-001-IDAХематологија1.00017,8 sпримарни

BT-006-B12Хематологија1.00018,4 sпримарни

BT-007-THALХематологија1.00017,0 sпримарни

BT-002-HASHЕндокринологија0.95037,0 sрезервни (fallback)

BT-008-PCOSЕндокринологија0.98718,6 sпримарни

BT-003-T2DMМетаболички1.00019,1 sпримарни

BT-013-GOUTМетаболички1.00019,4 sпримарни

BT-004-NAFLDхепатологија1.00019,6 sпримарни

BT-009-VIRHEPхепатологија0.95023,4 sрезервни (fallback)

BT-014-GILBERTЗамка (Trap)1.00018,9 sпримарни

BT-005-CKDНефрологија1.00017,4 sпримарни

BT-010-ASCVDКардиологија1.00019,7 sпримарни

BT-011-SLEРЕУМАТОЛОГИЈА0.98118,2 sпримарни

BT-012-VITDЕндокринологија1.00019,3 sпримарни

BT-015-HEALTHYЗамка (Trap)1.00018,7 sрезервни (fallback)

Случај PCOS-а (BT-008) изгубио је једну обавезну подсекцију у структури одговора — петнаест од шеснаест уместо шеснаест од шеснаест — што је смањило структурни резултат са 1,000 на 0,963. Случај SLE-а (BT-011) вратио је маргинално смањен збир вероватноћа-дистрибуције који је спустио клинички резултат на 0,965 уз очување сваке дијагностичке кључне речи и система бодовања. Ниједан од два случаја који нису били савршени није пропустио тачну дијагнозу.

Агрегат V11 Second Update — 100,000 случајева

Na nivou populacije, pojedinačni redovi slučajeva nisu čitljivi za ljude, pa Drugo ažuriranje izveštava o agregiranim metrikama umesto o tabeli sa 100.000 redova. Glavni agregat prikazan je ispod; razrade po specijalnosti i po oznaci zemlje objavljene su u tehničkom izveštaju i u Figshare depozitu. Stratifikovan slučajni uzorak od n = 201 сирових одговора мотора (детерминистички seed 20260426) објављује се у GitHub results/ директоријуму за преглед.

Композитни резултат V11 почетни: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 у кохорти од 100,000 случајева

Структурни резултат (средња вредност) V11 почетни: 0.998 → Second Update: 1.000 Савршено структурно усклађивање на нивоу популације

Клинички резултат (средња вредност) V11 почетни: 0.998 → Second Update: 0.996 −0.002; ниједан случај није промашио саму дијагнозу

Latency — просечно (опсег) V11 почетно: 20,17 s (17,0–37,0 s) → Друго ажурирање: 13,26 s (9,0–16,94 s) Оптимизације производног мотора између извршавања

Путања мотора = примарна V11 почетно: 12 / 15 → Друго ажурирање: 100,000 / 100,000 Ни у једном тренутку током извршавања није била потребна резервна опција за Фазу 2

Заставице хипердијагностике за подскуп замки V11 почетно: 0 / 13 → Друго ажурирање: 0 / 87,412 Нула лажних позитивних резултата на нивоу популације (8.723 случаја замки праћено)

Šta nam ne govori naslovni rezultat

Kompozitni rezultat od 99.80 procenata prema ovoj konkretnoj unapred registrovanoj rubriki, na sintetičkoj kohorti od 100.000 slučajeva koja obuhvata 127 oznaka zemalja, predstavlja performanse gotovo do plafona — ali zaslužuje pažljivo uokviravanje. Rezultat opisuje ponašanje motora u odnosu na rubriku koju smo obavezali u izvornom kodu u V11; to nije univerzalna tvrdnja o ispravnosti motora na svakom panelu krvnih testova koji postoji u stvarnom svetu.

Резултат каже да је мотор исправно обрадио дијагностичке обрасце изабране за ово вредновање на кохорти на нивоу популације, по методологији која је објављена и може да се понови. То не каже да је мотор исправан на свакој плочи крвне слике која постоји у „дивљини“. Не каже ни да мотор треба да замени клиничку процену. И не каже да мотор надмашује алтернативне системе вештачке интелигенције — компаративне анализе у односу на друге моторе намерно су изван обухвата овог извештаја.

Оно што резултат заиста утврђује јесте основа. Пошто су рубрика и „harness“ јавни, будуће верзије мотора могу се вредновати према истој рубрици — примењено на почетних 15 случајева у V11, кохорту од 100.000 случајева у Другом ажурирању, или било каквом каснијем проширењу — а разлика између објављеног резултата и било ког каснијег извршавања сама по себи је мерљива. То је вредност унапред регистрације: претвара тврдње о перформансама у проверљиве тврдње.

Kako da ponovite ovaj benchmark za 10 minuta

Репродукција захтева само пар Kantesti API акредитива и окружење са Python 3.10 или новијим, са requests и reportlab инсталираним библиотекама. Комплетан оквир је један самосталан Python модул објављен под MIT лиценцом.

💻 GitHub Оквир под MIT лиценцом · сирови одговори · референтно извршавање 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · канонски академски запис 🎓 ResearchGate Публикација 404175463 · V11 Другo ажурирање · академски слој за откривање 📄 Academia.edu Рад 165956808 · V11 Другo ажурирање · академски слој за откривање

Четири корака за ново извршавање

Један. Клонирај репозиторијум: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Инсталирајте зависности помоћу pip install -r requirements.txt (Друго ажурирање додаје mysql-connector-python ≥ 8.0 за SQL „case loader“). Три. Подесите KANTESTI_USERNAME и KANTESTI_PASSWORD као променљиве окружења за API мотора. За SQL „case loader“ у Другом ажурирању, такође подесите KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, и KANTESTI_DB_PASSWORD — учитач се повезује преко улоге само за читање (bench_reader) која нема привилегије за идентификовање табела. Четири. Покрените python benchmark_bloodtest.py --limit 100000 за комплетно извршавање Second-Update, или python benchmark_bloodtest.py --limit 1000 за брзу итерацију. Резултати се чувају у ./benchmark_results/: CSV scorecard sa kolonama po zemlji-oznaci i po specijalnosti, JSON agregat, stratifikovano-slučajni uzorak sirovih odgovora i Markdown izveštaj.

Референтна извршавања из 23. априла 2026. (V11 почетно, 15 случајева) и 26. априла 2026. (V11 Second Update, 100,000 случајева) су сачувана у results/ директоријуму репозиторијума. Свеже извршавање ће генерисати нову скор-картицу са новим временским жигом, док ће референтна извршавања остати нетакнута. Ако ваше извршавање даје значајно другачији резултат, молимо отворите GitHub issue са временским жигом извршавања и верзијом мотора враћеном у метаподацима одговора.

Ograničenja i budući rad

Čak i pri 100.000 slučajeva kroz 127 oznaka za zemlje, četiri ograničenja zaslužuju eksplicitno priznavanje: nedovoljno uzorkovanje oznaka dugog repa, evaluacija „jedanput“, obim ograničen na jedan engine i poreklo podataka iz jednog izvora. Svako od ovih se rešava u aktivnim naknadnim radovima.

Pokrivenost oznaka dugog repa. Drugo ažuriranje obuhvata 127 oznaka za zemlje, ali raspodela je neuravnotežena — top 10 oznaka čini ≈66.4% slučajeva, a dugi rep od 97 dodatnih oznaka zajedno doprinosi ≈7.3% (otprilike 7.300 slučajeva ukupno, ~75 slučajeva po oznaci u proseku). Stoga su kompoziti po oznaci u ovom dugom repu bučniji nego što sugerišu brojke sa naslovnih strana. Budući nalozi će ponovo uravnotežiti dodelu oznaka kako bi se učvrstile procene po oznaci.

Једнократно оцењивање. Сваки случај у кохорти је вреднован једном. Велики језички модели показују не-тривијалну варијансу излаза чак и при ниској температури узорковања, па је протокол са више извршавања са пет вредновања по случају и пријављеном варијансом природан следећи корак — посебно на подскупу „trap-case“, где је доследност под „jitter“-ом узорковања део тврдње о безбедности.

Обухват једног мотора. Овај извештај описује један мотор. Поређења са алтернативним AI системима нису у оквиру овог документа; можемо их спровести као засебну независну студију са одговарајућом методологијом, на истом MIT-licenciranom harness-у.

Sintetički podaci. Ovih 100.000 slučajeva je sintetički generisano, a ne „sintetički slučajevi“: rezultati se ne prenose na performanse u realnoj kliničkoj praksi. Evaluacija na stvarnim, pristankom odobrenim, eksterno pribavljenim podacima zahtevala bi odgovarajući etički nadzor i van je obima ovog sintetičkog benchmarka.

Поред ова четири, најзначајније планирано проширење је вишезичка паритетност по надлежности. Kantesti AI Engine служи корисницима на 75+ језика, а покретање језички стратификованих под-кохорти Second-Update (турски, немачки, шпански, француски, италијански, португалски, арапски, мандарински) ће квантификовати квалитет излаза на језицима које мотор подржава. Свака језички стратификована анализа биће објављена са сопственим DOI и harness граном.

Испробајте исти мотор који је постигао композитни скор од 99.80% на 100,000 случајева

Отпремите сопствену панел крвних анализа на исти производни (production) крајњи пункт који је процењен у овом бенчмарку. Преко 2 милиона корисника широм света користи Kantesti AI Engine за тумачење преко 15.000 биомаркера на 75+ језика.

🔬 Испробајте бесплатну демо верзију

Chrome екстензија Продавница апликација Google Play

📚 Како да цитирате овај бенчмарк

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Технички извештај V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Екстерне методолошке референце

Mentzer, W. C. (1973). Разликовање недостатка гвожђа од особина таласемије. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Европски савез против реуматизма / Амерички колеџ за реуматологију класификациони критеријуми за системски еритематозни лупус. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ДОИ 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Тест медицинске халуцинације за велике језичке моделе. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Композитни резултат

100,000Оцењени случајеви

127Pokrivene oznake za zemlje

0 / 87,412„Trap“ лажни позитивни резултати

Често постављана питања

Koliko je tačan Kantesti AI Engine na sintetičkim testnim slučajevima?

Na unapred registrovanom rubriku, sprovedeno na 100.000 sintetički generisanih test slučajeva kroz osam oblasti sadržaja i 127 oznaka za zemlje (V11 Second Update), engine je postigao kompozitni rezultat od 99,80 procenata, bez zastavica za hiperdijagnostiku u 87.412 nadgledanih prilika za „trap-case“, uz prosečno kašnjenje odgovora od 13,26 sekundi. Ovaj kompozit meri usaglašenost izlaza na sintetičkim ulazima, a ne dijagnostičku tačnost. Originalno V11 izdanje primenilo je isti rubrik na 15 ručno konstruisanih slučajeva (kompozit 99,12%); Drugo ažuriranje zadržava rubrik identičan po bajtovima i proširuje ga na veći sintetički kohort. Kompletan scorecard objavljen je na Figshare pod DOI 10.6084/m9.figshare.32095435 i na GitHub-u pod MIT licencom.

Да ли је Kantesti AI мотор клинички верификован?

Ne. Engine je evaluiran automatizovanim tehničkim benchmarkom (ne kliničkom validacijom), u odnosu na rubrik koji je zamrznut u izvornom kodu pre početnog V11 pokretanja i zadržan identičan po bajtovima za V11 Second Update, evaluiran na 100.000 sintetičkih slučajeva krvnih testova kroz hematologiju, endokrinologiju, metaboličku medicinu, hepatologiju, nefrologiju, kardiologiju, reumatologiju i internu medicinu, izvedenih iz 127 oznaka za zemlje. Klinički nadzor obezbedio je dr Thomas Klein, MD (ORCID 0009-0009-1490-1321), sertifikovani klinički hematolog i glavni medicinski direktor u Kantesti AI.

Шта је случај „хипердијагностичке замке“?

Случај „хипердијагностичке замке“ је клинички сценарио посебно дизајниран да открије понашање прекомерног дијагностиковања у AI моторима. Почетни V11 бенчмарк је користио два таква случаја као методолошки proof-of-concept: изоловану индиректну хипербилирубинемију у складу са Гилбертовим синдромом (где је исправно тумачење бенигни полиморфизам UGT1A1, а не хепатитис или хемолиза) и потпуно нормалан панел за скрининг одраслих (где је исправан исход уверавање, а не направљена гранична патологија). V11 Друго ажурирање је проширило ову методологију замке на посебан подскуп од 8.723 случаја, чиме је добијено 87.412 прилика за праћење заставица хипердијагностиковања — а стопа лажних позитивних резултата мотора остала је на нули.

Да ли је процена Kantesti AI мотора поновљива?

Комплетан оквир за евалуацију објављен је под MIT лиценцом као један самостални Python модул. Почетно V11 извршавање захтева само пар Kantesti API акредитива и Python 3.10 или новији. V11 Друго ажурирање додаје параметризовани, само-за-читање SQL учитавач случајева који захтева Kantesti акредитиве клиничког репозиторијума (улога bench_reader без привилегија за идентификовање табела). Код, SQL учитавача случајева, рубрика (byte-identical између издања) и стратификовани случајни узорак сирових одговора мотора из почетног V11 и референтних извршавања Другог ажурирања доступни су на github.com/emirhanai/kantesti-blood-test-benchmark и огледани су на Figshare, ResearchGate и Academia.edu.

Како Kantesti AI Engine разликује недостатак гвожђа од особина бета-таласемије?

Мотор примењује Mentzer индекс, израчунат као средњи волумен еритроцита подељен бројем црвених крвних зрнаца. Mentzer индекс изнад 13 подржава анемију услед недостатка гвожђа, док вредност испод 13 подржава особину бета-таласемије. У почетном V11 бенчмарку оба приказа су исправно класификована уз експлицитно израчунавање Mentzer индекса, уз подршку феритина, RDW и контекста HbA2. Током V11 Другог ажурирања, у кохорти од 100.000 случајева, исто диференцијално понашање је очувано на нивоу популације.

Где могу да пронађем сирове референтне податке и изворни код?

Технички извештај је депонован на Figshare под DOI 10.6084/m9.figshare.32095435 (обухватајући и почетно V11 издање и V11 Друго ажурирање), огледан на ResearchGate публикацији 404175463 и Academia.edu раду 165956808 — оба ажурирана насловом V11 Другог ажурирања и резултатима за 100.000 случајева — и MIT-licensed Python оквир са свим резултатима референтних извршавања налази се на github.com/emirhanai/kantesti-blood-test-benchmark. Мрежа огледала на четири платформе обезбеђује дугорочну доступност и флексибилност цитирања.

Зашто је претходна регистрација важна за AI медицинске бенчмаркове?

Претходна регистрација спречава накнадно подешавање рубрике, што је један од најчешћих начина на који бенчмаркови које води компанија надувавају сопствене бројеве. Обавезивањем рубрике на изворни код пре било каквог позива мотора и јавним објављивањем оквира, датуми аутора рубрике постају проверљиви у систему контроле верзија, а резултати мотора не могу да обликују критеријуме бодовања.

Да ли овај бенчмарк укључује поређења са другим AI моторима?

Не. V11 извештај — и почетно издање и Друго ажурирање — намерно описује један мотор у односу на фиксну рубрику, а не да га позиционира у односу на алтернативне комерцијалне системе. Оквир је отвореног кода под MIT лиценцом (сада укључује и SQL учитавач случајева), тако да независни истраживачи могу да процене било који мотор који изаберу у односу на исту рубрику и учитавач случајева и објаве своје резултате.

Да ли су случајеви пацијената стварни или синтетички?

Svi slučajevi su sintetički generisani — 15 ručno konstruisanih slučajeva u početnom V11 izdanju i 100.000 u Drugom ažuriranju. Nisu „sintetički slučajevi“: ne postoje sintetički podaci, ne postoji proces pristanka i ne postoji de-identifikacija, jer u kohorti ne postoje lični podaci. Nijedan lični podatak ne pojavljuje se u objavljenom harnessu, tehničkom izveštaju ili objavljenim datasetima.

⚕️ Медицинско одрицање одговорности и сукоб интереса

Ovaj izveštaj o merilu performansi namenjen je istraživačkim i metodološkim svrhama transparentnosti. Ne predstavlja medicinski savet, nije dijagnoza i nije zamena za profesionalnu medicinsku negu; nijedan rezultat ovde ne treba koristiti da bi se odložilo ili izbeglo odlazak lekaru. Uvek se obratite kvalifikovanom pružaocu zdravstvenih usluga radi odluka o dijagnozi i lečenju. Ovo je samostalno pokrenuto interno merilo performansi sopstvenog motora kompanije i nije nezavisno validirano niti peer-review-ovano. Kompozitni rezultat meri usaglašenost sa fiksnom rubrikom (struktura izveštaja, opoziv ključnih reči i sistema bodovanja, i latencija); nije mera stvarne dijagnostičke tačnosti u realnom svetu niti kliničke bezbednosti. Oba autora su zaposlena u Kantesti Ltd i imaju udeo u kapitalu, a motor koji se procenjuje je komercijalni proizvod iste organizacije. Ovaj sukob interesa ublažen je tako što je rubrika unapred registrovana u izvornom kodu, što je harness objavljen pod MIT licencom, i što je objavljen stratifikovan slučajni uzorak sirovih odgovora motora.

Е-Е-А-Т сигнали поверења

⭐

Искуство

15+ година клиничке праксе у хематологији и лабораторијској медицини, уз надзор над избором панела случајева.

📋

Експертиза

Дизајн рубрике унапред регистрован са експлицитним пеналима за хипердијагнозу и признатим клиничким системима бодовања (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Ауторитативност

Главни аутор др Томас Клајн, др мед. (ORCID 0009-0009-1490-1321). Имплементација: Џулијан Емирхан Булут, извршни директор Kantesti Ltd.

🛡️

Поузданост

Репродуктивни оквир под MIT лиценцом, објављени сирови одговори мотора, отворено обелодањивање сукоба интереса, истраживачка мрежа огледала на четири платформе.

🏢 Кантести Д.О.О. Регистовано у Енглеској и Велсу · Број компаније. 17090423 Лондон, Уједињено Краљевство · кантести.нет