Kantesti AI анализа крвне слике — клиничка валидација

Клиничка валидација Унапред регистровани бенчмарк V11 — април 2026. MIT лиценцирано Може да се верификује од стране вршњака

99.12% композитни резултат на унапред регистрованој рубрици са нултом хипердијагностиком лажним позитивним налазима

Независна, унапред регистрована клиничка процена Kantesti AI мотора на анонимизованим примерима крвних тестова. Рубрика је замрзнута у изворном коду пре првог позива мотора, оквир за евалуацију је MIT лиценциран, а сваки сиров одговор се објављује.

📖 ~14 минута 📅 23. април 2026. 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Објављено: 23. април 2026. 🩺 Медицински прегледано: 23. април 2026. ✅ Унапред регистрована рубрика 🔓 Отворен код и подаци

Ову студију клиничке валидације водио је Др Томас Клајн, др мед., главни медицински директор у Kantesti AI, у сарадњи са Јулијан Емирхан Булут, вишим AI инжењером и извршним директором компаније Kantesti Ltd. Методологију и рубрику је прегледао Медицински саветодавни одбор Кантести АИ.

Главни аутор и клинички надзор

Томас Клајн, др мед.

Главни медицински службеник, Кантести АИ

Др Томас Клајн је сертификовани клинички хематолог и интерниста са више од 15 година искуства у лабораторијској медицини. Као главни медицински директор у Kantesti AI, он је одабрао панел случајева за овај бенчмарк, прегледао сва дијагностичка „ground truth“ и одобрио унапред регистровану рубрику пре првог позива мотора.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Коаутор и имплементација

Јулијан Емирхан Булут

Виши AI инжењер и извршни директор, Kantesti Ltd

Џулијан Емирхан Булут је оснивач и извршни директор компаније Kantesti Ltd. Он је осмислио и имплементирао оквир за евалуацију, извршио интеграцију API-ја, спровео бенчмарк извршавање у априлу 2026. и припремио статистичку агрегацију. Оснивач платформе од 2019. године.

GitHub О Кантестију

⚡ Брзи резиме V11 — 23. април 2026.

Kompozitni rezultat 99.12% na 15 anonimizovanih stvarnih slučajeva krvnih testova pacijenata iz sedam medicinskih specijalnosti.
Nula lažno-pozitivnih slučajeva prekomerne dijagnoze na oba „trap” slučaja (Gilbertova bolest i potpuno normalan skrining odrasle osobe).
Unapred registrovan rubrik zamrznut u izvornom kodu pre prvog poziva motora — nije bilo moguće naknadno podešavanje.
Mentzerov indeks pravilno primenjen da razlikuje anemiju zbog nedostatka gvožđa od beta-talasemije minor.
Samo produkcioni endpoint — bez privilegovanog rutiranja, evaluirano tačno onako kako bi mu pristupio plaćajući korisnik.
Prosečna latencija 20,17 sekundi end-to-end, pri čemu je 12 od 15 slučajeva ispod primarnog cilja od 20 sekundi.
Harness sa MIT licencom objavljen na GitHub-u uz svaki sirovi odgovor motora — podržana je nezavisna reprodukcija.
Figshare DOI: 10.6084/m9.figshare.32095435 · Preslikano na ResearchGate, Academia.edu, GitHub.

Зашто овај бенчмарк постоји и шта тестира

AI-potpomognuto tuмачење крвне слике se sve češće koristi u potrošačkim i kliničkim tokovima rada, ali okviri za proveru koji se mogu ponoviti i prilagođeni laboratorijskoj medicini ostaju neuobičajeni. Pitanja koja su najvažnija u ovom kontekstu nisu ona obuhvaćena opštim benchmarkovima za medicinska pitanja i odgovore: može li motor da razdvoji anemiju zbog nedostatka gvožđa od osobine talasemije kada je srednji volumen eritrocita identičan, da li prekomerno dijagnostikuje Gilbertovu bolest kao hepatitis i da li „izmišlja” patologiju u potpuno normalnom skrining panelu?

Један панел крвних анализа обично садржи довољно сигнала да подржи више конкурентских тумачења, а посао лекара који тумачи резултате је да та тумачења одмери једно према другима, а не да пронађе „тачан одговор“ из уџбеника. Мотор који се добро показује на примерима из уџбеника може ипак да падне на случајеве који су најважнији: замке у диференцијалној дијагнози, бенигне варијанте које изгледају алармантно када се посматрају изоловано и потпуно нормалне панеле који наводе самоуверене асистенте да „израде“ патологију.

Овај бенчмарк је направљен управо око тих начина неуспеха. Сваки од петнаест случајева изабран је због одређене дијагностичке особине: микоцитоза услед недостатка гвожђа која мора да се разликује од особине бета-таласемије са идентичним средњим корпускуларним волуменом, приказ који одговара Гилбертовом синдрому где је једина абнормалност изолована индиректна хипербилирубинемија и панел за скрининг са петнаест параметара у коме је сваки аналит унутар свог референтног опсега. Рубрика награђује моторе који читају сваки случај у његовим сопственим околностима, а кажњава моторе који посежу за самоувереном дијагнозом када таква дијагноза није оправдана.

Као Томас Клајн, др мед., изабрао сам овај панел случајева јер су то обрасци које асистенти у лабораторијској медицини најчешће погрешно разумеју. Скуп начин неуспеха није "пропустити ретку болест" — већ измишљати рутинску патологију код пацијената који је немају. Наше Медицинска валидација hub описује шири оквир; ова страница описује његов примењени резултат на V11 мотору.

Најновије референтно извршавање — V11 (април 2026)

Референтно тестирање из априла 2026. за Kantesti AI Engine V11 произвело је композитни резултат од 99.12% на унапред регистрованој рубрици са петнаест случајева. Обa случаја у замци хипердијагнозе постигла су максимум. Ментцеров индекс је исправно примењен у диференцијалној дијагнози недостатка гвожђа наспрам таласемије.

Композитни 99.12% 15 од 15 случајева је постигло

0.998 Структурни резултат

0.998 Клинички резултат

20.17 s Просечно кашњење

0 / 13 Замке лажних позитивних резултата

Композитна формула комбинује три компоненте: структурна усклађеност са седам обавезних секција извештаја и шеснаест обавезних подсеција, клиничка тачност мерена као присећање кључних речи плус присећање система бодовања плус провера валидности вероватносне расподеле, и кашњење одговора у односу на примарни циљ услуге од 20 секунди. Тачна декомпозиција приказана је у формули рубрике испод.

Композитни = 0.35 × Структурни + 0.55 × Клинички + 0.10 × Кашњење

Преосталих 0,88 процентних поена „простора“ (headroom) разлаже се готово у потпуности на губитак због кашњења (latency loss) — три позива за резервне (fallback) инстанце Фазе 2, сваки са сложеним доприносом од око -0,05, допринела су око 0,60 од дефицита од 0,88 поена — уместо у клинички садржај. Мотор није промашио тачну дијагнозу ни у једном од петнаест случајева; где је заостао, то је било тако што је у малом мањинском броју позива трајао нешто дуже од примарног циља од 20 секунди.

Петнаест случајева у седам медицинских специјалности

Панел случајева обухвата седам специјалности — хематологију, ендокринологију, метаболичку медицину, хепатологију, нефрологију, кардиологију, реуматологију — као и два посебно издвојена случаја „замке“ за хипердијагнозу. Сваки случај је анонимизовани реални медицински запис пацијента, из репозиторијума клиничких података Kantesti, уз писани информисани пристанак.

Де-идентификација је спроведена према приступу Safe Harbor: сви директни идентификатори су уклоњени или замењени, а сваки запис је добио интерни код случаја у формату BT-NNN-LABEL. Обрада је извршена у складу са GDPR чланом 9(2)(j) за научна истраживања уз одговарајуће заштитне мере, као и са еквивалентним одредбама UK GDPR-а. Никакви подаци који лично идентификују особу не појављују се ни у једном делу објављеног „harness“-а, техничког извештаја или објављених скупова података.

Хематологија (3) BT-001, BT-006, BT-007 Анемија због недостатка гвожђа · Недостатак витамина B12 · Бета-таласемија, минор

Ендокринологија (3) BT-002, BT-008, BT-012 Хашимотов тиреоидитис · PCOS са инсулинском резистенцијом · Тешки недостатак витамина Д

Метаболичко (2) BT-003, BT-013 T2DM са метаболичким синдромом · Хиперурикемија са ризиком од гихта

Хепатологија (2) BT-004, BT-009 NAFLD / NASH · Акутни вирусни хепатитис

Нефрологија · Кардиологија · Реуматологија (3) BT-005, BT-010, BT-011 ХББ стадијум 3 · Атерогена дислипидемија · Системски еритематозни лупус

Случајеви „замке“ (2) BT-014, BT-015 Гилбертов синдром (изолована индиректна хипербилирубинемија) · Потпуно нормалан скрининг одраслих

Зашто је баш ова расподела

Хематологија добија три случаја јер су микоцитне диференцијале и макроцитне диференцијале највеће „замке“ по обиму у реалној лабораторијској пракси. Ендокринологија добија три јер се клиничке презентације Хашимотове болести, PCOS-а и недостатка витамина Д разликују по дијагностичким „облицима“ (вођеним аутоантителима, вођеним односима хормона, вођеним једним маркером). Специјалности са једним случајем и даље су значајне јер сваки од CKD-а, ризика за ASCVD и SLE има свој систем бодовања који мотор треба да позове (KDIGO стадирање, ASCVD ризик на 10 година, и критеријуме за SLE из 2019 EULAR/ACR, респективно).

Унапред регистрована рубрика, објашњена

Предрегистрација је један најважнијих методолошких избора у овом бенчмарку. Свака очекивана дијагноза, сваки клинички систем бодовања и сваки одељак извештаја били су унапред посвећени изворном коду пре него што је мотор позван. Дакле, накнадно „подешавање“ рубрике да би се улепшала учинка мотора није могуће.

Три компоненте чине композитни резултат. структурна компонента доприноси 35 процената и мери да ли је мотор вратио седам обавезних одељака извештаја (заглавље, сажетак, кључни налази, диференцијал, системи бодовања, препоруке, праћење) и шеснаест обавезних пододељака унутар њих. Присуство одељка носи 40 процената, а присуство пододељка 60 процената унутар структурног израчуна.

Тхе клиничка компонента доприноси 55 процената и комбинује три ствари: присећање дијагнозе по кључним речима (70 процената клиничког подрезултата), присећање система бодовања (20 процената — да ли мотор израчунава Mentzer, FIB-4, HOMA-IR, ASCVD ризик, KDIGO стадирање, EULAR/ACR критеријуме где је релевантно) и проверу валидности збира вероватноћа (10 процената — диференцијалне вероватноће треба да се саберу унутар интервала [90, 110]). За „trap“ случајеве, експлицитна казна за хипердијагнозу до 0,30 се одузима, рачуна се као 0,10 по измишљеној заставици патологије, уз ограничење на три заставице.

Тхе компонента латенције доприноси 10 процената. Одговор испод 20 секунди добија пуних 0,10, одговор испод 40 секунди добија 0,05, а све што је спорије добија нула. Циљ од 20 секунди одражава производни примарни циљ услуге за пат сервис; плафон од 40 секунди одражава буџет за „fallback“ у Фази 2 за тешке позиве мотора.

Шта предрегистрација спречава

Први-страна бенчмаркови су познати по надувавању сопствених резултата кроз накнадно подешавање рубрике. Образац је скоро увек исти: тим покрене мотор, види где недовољно постиже, а затим тихо прилагоди рубрику тако да области које недовољно постижу мање „рачунају“. Када се рубрика посвети изворном коду пре првог позива мотора и када се хернес објави под MIT лиценцом, тај прилагођај постаје видљив у контролу верзија. Свако може да клонира репозиторијум, провери датуме ауторства рубрике и верификује да резултати мотора нису коришћени да би се обликовало бодовање.

Случајеви „замке хипердијагнозе“ — зашто је прекомерно пријављивање стварни режим неуспеха

Агресивно „прозивање“ патологије на нормалним екранима је документован начин неуспеха код медицинских асистената за потрошаче. Његови последични трошкови укључују непотребну истрагу, анксиозност пацијента и јатрогени обрађивачки поступак. Два „trap“ случаја у овом бенчмарку су дизајнирана да учине тај начин неуспеха видљивим и мерљивим.

🟡 Trap 1 — BT-014-GILBERT

Презентација. Мушкарац од 24 године са укупним билирубином од 2,4 mg/dL. Директна фракција је нормална, трансаминазе и алкална фосфатаза су унутар својих референтних опсега, ретикулоцити су без особености, а хаптоглобин и LDH искључују хемолизу.

Тачно тумачење. Гилбертов синдром — бенигна полиморфизам UGT1A1. Тумачење не треба да позива хепатитис, цирозу, хемолитичку анемију или билијарну опструкцију.

V11 резултат. Композитни 1,000. Ниједна од шест праћених заставица прекомерне дијагнозе није се појавила као активна дијагноза.

🟡 Trap 2 — BT-015-HEALTHY

Презентација. Жена од 35 година са рутинским скрининг панелом са петнаест параметара. Сваки аналит се удобно налази унутар свог референтног опсега.

Тачно тумачење. Утеха и одржавање начина живота. Тумачење не би требало да „измишља“ граничну патологију како би звучало клинички корисно.

V11 резултат. Композит 1.000. Ниједна од седам надгледаних заставица за прекомерно постављање дијагнозе — дијабетес, анемија, хипотиреоидизам, дислипидемија, хепатитис, болест бубрега, недостатак — није се појавила као активна дијагноза.

На оба „теста“ проверено је тринаест надгледаних заставица за хипердијагнозу. Ниједна није активирана. Ово је резултат који је најважнији за сваког клиничара који разматра коришћење AI мотора као алата за тријажу или пре-консултације: систем није „измислио“ болест тамо где је није било.

Ментцеров индекс: раздвајање недостатка гвожђа од особина таласемије

Друго вредно откриће односи се на повезивање случаја BT-001 (анемија због недостатка гвожђа) са случајем BT-007 (бета-таласемија, минор). Оба се јављају са микроцитозом и добро су позната препрека за наивне класификаторе. Ментцеров индекс, израчунат као MCV подељен бројем RBC, прелази 13 код недостатка гвожђа и пада испод 13 код особина таласемије.

У BT-001, пацијенткиња је имала 34 године, хемоглобин 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, феритин 6 ng/mL и повишен TIBC. Ментцеров индекс од приближно 17,7 подржава апсолутни недостатак гвожђа. У BT-007, пацијент је имао 28 година, микроцитозу (MCV 65,8 fL), али висок број RBC од 6,2, нормалан RDW, нормалан феритин и HbA2 од 5,6 процената. Ментцеров индекс од приближно 10,6 указује на особине таласемије, а повишен HbA2 потврђује бета-таласемију, минор.

Анемија због недостатка гвожђа Ментцер > 13 Низак феритин, низак TSAT, висок TIBC, повишен RDW

Особине бета-таласемије Ментцер < 13 Нормалан феритин, нормалан RDW, повишен HbA2 (>3.5%), висок број RBC

Обa случаја су постигла 1.000. Мотор је експлицитно позвао Ментцеров индекс у оба тумачења и вратио тачну дијагнозу у сваком случају. Ово је један највише клинички умирујући резултат у целом бенчмарку, јер погрешно класификовање особина таласемије као недостатка гвожђа доводи до неадекватног суплементирања гвожђем и пропуштених прилика за породични скрининг, а погрешно класификовање недостатка гвожђа као таласемије одлаже једноставну заменску терапију. Наш водич за опсег феритина објашњава шири диференцијални контекст.

Rezultati po slučaju iz pokretanja u aprilu 2026.

Дванаест од петнаест случајева постигло је максимални композитни резултат 1.000 на примарном путу. Три случаја су послужена преко „Phase 2“ резервног механизма, изгубивши бонус за латенцију од 0,05 уз очување свих клиничких и структурних садржаја. Један случај је недостајао у једној обавезној под-секцији; један је вратио маргинално смањен збир вероватносних расподела.

ИД случаја Специјалност Композитни Латенција Патх

BT-001-IDAХематологија1.00017,8 sпримарни

BT-006-B12Хематологија1.00018,4 sпримарни

BT-007-THALХематологија1.00017,0 sпримарни

BT-002-HASHЕндокринологија0.95037,0 sрезервни (fallback)

BT-008-PCOSЕндокринологија0.98718,6 sпримарни

BT-003-T2DMМетаболички1.00019,1 sпримарни

BT-013-GOUTМетаболички1.00019,4 sпримарни

BT-004-NAFLDхепатологија1.00019,6 sпримарни

BT-009-VIRHEPхепатологија0.95023,4 sрезервни (fallback)

BT-014-GILBERTЗамка (Trap)1.00018,9 sпримарни

BT-005-CKDНефрологија1.00017,4 sпримарни

BT-010-ASCVDКардиологија1.00019,7 sпримарни

BT-011-SLEРЕУМАТОЛОГИЈА0.98118,2 sпримарни

BT-012-VITDЕндокринологија1.00019,3 sпримарни

BT-015-HEALTHYЗамка (Trap)1.00018,7 sрезервни (fallback)

Случај PCOS-а (BT-008) изгубио је једну обавезну подсекцију у структури одговора — петнаест од шеснаест уместо шеснаест од шеснаест — што је смањило структурни резултат са 1,000 на 0,963. Случај SLE-а (BT-011) вратио је маргинално смањен збир вероватноћа-дистрибуције који је спустио клинички резултат на 0,965 уз очување сваке дијагностичке кључне речи и система бодовања. Ниједан од два случаја који нису били савршени није пропустио тачну дијагнозу.

Šta nam ne govori naslovni rezultat

Композитни резултат од 99,12 процената по овој конкретно унапред регистрованој рубрици представља перформансе на самом врху, али заслужује пажљиво уоквиривање. Резултат описује понашање мотора у односу на петнаест пажљиво одабраних анонимизованих случајева, процењених по једном, према једној рубрици. Јасно наводимо шта број показује, а шта не показује.

Резултат каже да је V11 мотор исправно обрадио дијагностичке обрасце одабране за ову евалуацију, по методологији која је објављена и репродуктивна. Не каже да је мотор тачан на свакој постојећој плочи крвних тестова у стварном свету. Не каже да мотор треба да замени клиничку процену. И не каже да мотор надмашује алтернативне AI системе — компаративне анализе у односу на друге моторе намерно су изван обухвата овог извештаја.

Оно што резултат заиста утврђује јесте основа. Пошто су рубрика и оквир (harness) јавни, будуће верзије мотора могу се процењивати на истих петнаест случајева, а разлика између објављеног резултата и било ког каснијег извршавања сама по себи је мерљива. То је вредност унапред регистрације: претвара тврдње о перформансама у проверљиве тврдње.

Kako da ponovite ovaj benchmark za 10 minuta

Репродукција захтева само пар Kantesti API акредитива и окружење са Python 3.10 или новијим, са requests и reportlab инсталираним библиотекама. Комплетан оквир је један самосталан Python модул објављен под MIT лиценцом.

💻 GitHub Оквир под MIT лиценцом · сирови одговори · референтно извршавање 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · канонски академски запис 🎓 ResearchGate Публикација 404175463 · академски слој откривања 📄 Academia.edu Рад 165956808 · академски слој откривања

Четири корака за ново извршавање

Један. Клонирај репозиторијум: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Инсталирајте зависности помоћу pip install -r requirements.txt. Три. Подесите KANTESTI_USERNAME и KANTESTI_PASSWORD као променљиве окружења — креденцијали се читају у време извршавања и ништа није хардкодовано у скрипти. Четири. Покрените python benchmark_bloodtest.py и прегледајте четири артефакта која се емитују у радни директоријум: CSV scorecard, JSON scorecard, потпуни JSON dump који укључује сирове одговоре мотора и читљив Markdown извештај.

Референтно извршавање од 23. априла 2026. је сачувано у results/ директоријуму репозиторијума. Свеже извршавање ће генерисати нови scorecard са временском ознаком, док ће референтно извршавање остати нетакнуто. Ако ваше извршавање даје значајно другачији резултат, отворите GitHub issue са временском ознаком извршавања и верзијом мотора враћеном у метаподацима одговора.

Ograničenja i budući rad

Четири ограничења заслужују експлицитно признање: величина узорка, једнократно оцењивање, обухват једног мотора и порекло података из једног извора. Сваки од ових аспеката се адресира у активном праћењу.

Величина узорка. Петнаест случајева у осам специјалистичких категорија довољно је за доказ концепта, али није довољно за анализу подгрупа у оквиру једне специјалности. Планирано је проширење на педесет случајева, које ће укључити панеле за коагулацију, скрининг хематолошких малигнитета, панеле за трудноћу и педијатријске презентације.

Једнократно оцењивање. Сваки случај је оцењен једном. Велики језички модели показују не-тривијалну варијансу излаза чак и при ниској температури узорковања, па је протокол са више извршавања са пет евалуација по случају и пријављеном варијансом природан следећи корак.

Обухват једног мотора. Овај извештај описује један мотор. Поређења са алтернативним AI системима нису у оквиру овог домета; можда ћемо их спровести као засебну независну студију са одговарајућом методологијом.

Порекло података из једног извора. Петнаест случајева су анонимизовани стварни медицински записи пацијената из једног клиничког репозиторијума. Они представљају куриран узорак и нису случајни узорак који је репрезентативан за популацију. Проширење евалуације на више центара је на путоказу.

Најзначајније планирано проширење је паритет на више језика. Kantesti AI Engine служи корисницима на 75+ језика, а покретање истог хардверског оквира са петнаест случајева на турском, немачком, шпанском, француском и арапском ће квантификовати квалитет излаза на језицима које мотор подржава. Објавићемо свако извршавање за појединачни језик са сопственим DOI и граном harness-а.

Покушајте исти мотор који је постигао 99.12% композитни резултат

Отпремите сопствену панел крвних анализа на исти производни (production) крајњи пункт који је процењен у овом бенчмарку. Преко 2 милиона корисника широм света користи Kantesti AI Engine за тумачење преко 15.000 биомаркера на 75+ језика.

🔬 Испробајте бесплатну демо верзију

Chrome екстензија Продавница апликација Google Play

📚 Како да цитирате овај бенчмарк

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Клиничка валидација Kantesti AI Engine (2.78T)
                 на 15 анонимизованих случајева крвних анализа: унапред регистрован
                 бенчмарк заснован на рубрици, који укључује „trap“ случајеве хипердијагнозе
                 у оквиру седам медицинских специјалности},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Клиничка валидација Kantesti AI Engine (2.78T) на 15 анонимизованих случајева крвних анализа: унапред регистрован бенчмарк заснован на рубрици, који укључује „trap“ случајеве хипердијагнозе у оквиру седам медицинских специјалности (Технички извештај V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Повезани радови на валидацији Kantesti

Klein, T. (2025). Оквир клиничке валидације за интерпретацију крвних тестова засновану на вештачкој интелигенцији: методологија троструко слепе валидације, метрике учинка и протоколи за осигурање квалитета. Kantesti AI Medical Research.

🎓 ResearchGate

📖 Екстерне методолошке референце

Mentzer, W. C. (1973). Разликовање недостатка гвожђа од особина таласемије. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Европски савез против реуматизма / Амерички колеџ за реуматологију класификациони критеријуми за системски еритематозни лупус. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ДОИ 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Тест медицинске халуцинације за велике језичке моделе. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Композитни резултат

15Оцењени случајеви

7Специјалности

0„Trap“ лажни позитивни резултати

Често постављана питања

Колико је тачан Kantesti AI мотор на стварним случајевима крвне слике?

На унапред регистрованој рубрици од 15 анонимизованих стварних случајева крвних анализа из седам медицинских специјалности, Kantesti AI Engine V11 је постигао композитни резултат од 99,12 процента, са нула лажних позитивних резултата хипердијагнозе и на „trap“ случајевима и са просечним временом одговора од 20,17 секунди. Комплетна табела резултата по случају објављена је на Figshare под DOI 10.6084/m9.figshare.32095435 и на GitHub-у под MIT лиценцом.

Да ли је Kantesti AI мотор клинички верификован?

Да. Мотор је клинички валидован у односу на рубрику која је замрзнута у изворном коду пре него што је мотор позван, а процењена је на 15 анонимизованих случајева крвних тестова из хематологије, ендокринологије, метаболичке медицине, хепатологије, нефрологије, кардиологије и реуматологије. Клинички надзор је обезбедио др Томас Клајн, др мед. (ORCID 0009-0009-1490-1321), сертификовани клинички хематолог и главни медицински директор у Kantesti AI.

Шта је случај „хипердијагностичке замке“?

Случај „хипердијагностичке замке“ је клинички сценарио посебно осмишљен да открије понашање прекомерног постављања дијагнозе у AI моторима. Бенчмарк Kantesti V11 користи два таква случаја. Први је изолована индиректна хипербилирубинемија у складу са Гилбертовим синдромом, где је исправно тумачење бенигна полиморфност UGT1A1, а не хепатитис или хемолиза. Други је потпуно нормалан скрининг панел за одрасле, где је исправан исход уверавање и одржавање начина живота, а не „направљена“ гранична патологија.

Да ли је процена Kantesti AI мотора поновљива?

Комплетан оквир за евалуацију објављен је под MIT лиценцом као један самосталан Python модул. Репродукција захтева само пар Kantesti API акредитива и Python 3.10 или новији. Код, дефиниције случајева и сваки сирови одговор мотора из референтног извршавања у априлу 2026. доступни су на github.com/emirhanai/kantesti-blood-test-benchmark и огледани су на Figshare, ResearchGate и Academia.edu.

Како Kantesti AI Engine разликује недостатак гвожђа од особина бета-таласемије?

Мотор примењује Ментцеров индекс, израчунат као средњи волумен еритроцита подељен бројем црвених крвних зрнаца. Ментцеров индекс изнад 13 подржава анемију због недостатка гвожђа, док вредност испод 13 подржава особину бета-таласемије. У V11 бенчмарку оба приказа су исправно класификована уз експлицитно израчунавање Ментцеровог индекса, уз контекст феритина, RDW и HbA2.

Где могу да пронађем сирове референтне податке и изворни код?

Технички извештај је депонован на Figshare под DOI 10.6084/m9.figshare.32095435, огледан на ResearchGate публикацији 404175463 и Academia.edu раду 165956808, а MIT-licensed Python оквир са свим резултатима референтног извршавања налази се на github.com/emirhanai/kantesti-blood-test-benchmark. Мрежа огледала на четири платформе обезбеђује дугорочну доступност и флексибилност цитирања.

Зашто је претходна регистрација важна за AI медицинске бенчмаркове?

Претходна регистрација спречава накнадно подешавање рубрике, што је један од најчешћих начина на који бенчмаркови које води компанија надувавају сопствене бројеве. Обавезивањем рубрике на изворни код пре било каквог позива мотора и јавним објављивањем оквира, датуми аутора рубрике постају проверљиви у систему контроле верзија, а резултати мотора не могу да обликују критеријуме бодовања.

Да ли овај бенчмарк укључује поређења са другим AI моторима?

Не. Извештај V11 намерно описује један мотор у односу на фиксну рубрику, а не да га позиционира у односу на алтернативне комерцијалне системе. Оквир је отвореног кода под MIT лиценцом, па независни истраживачи могу да процене било који мотор који изаберу у односу на истих петнаест случајева и рубрику и да објаве своје резултате.

Да ли су случајеви пацијената стварни или синтетички?

Петнаест случајева су анонимизовани стварни медицински записи пацијената, изведени из клиничког репозиторијума Kantesti под писаним информисаним пристанком. Де-идентификација је извршена применом Safe Harbor приступа, при чему су сви директни идентификатори уклоњени или замењени. Обрада је спроведена у складу са GDPR чланом 9(2)(j) и еквивалентним одредбама UK GDPR-а. Ниједна лично идентификујућа информација не појављује се у објављеном оквиру, техничком извештају или објављеним скуповима података.

⚕️ Медицинско одрицање одговорности и сукоб интереса

Овај извештај о бенчмарку намењен је за истраживачке и методолошке сврхе транспарентности. Он не представља медицински савет. Увек се консултујте са квалификованим здравственим радником за одлуке о дијагнози и лечењу. Обa аутора су запослена у Kantesti Ltd и имају удео у капиталу, а мотор који се процењује је комерцијални производ исте организације. Овај сукоб интереса ублажава се претходном регистрацијом рубрике у изворном коду, објављивањем оквира под MIT лиценцом и објављивањем сваког сировог одговора мотора.

Е-Е-А-Т сигнали поверења

⭐

Искуство

15+ година клиничке праксе у хематологији и лабораторијској медицини, уз надзор над избором панела случајева.

📋

Експертиза

Дизајн рубрике унапред регистрован са експлицитним пеналима за хипердијагнозу и признатим клиничким системима бодовања (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Ауторитативност

Главни аутор др Томас Клајн, др мед. (ORCID 0009-0009-1490-1321). Имплементација: Џулијан Емирхан Булут, извршни директор Kantesti Ltd.

🛡️

Поузданост

Репродуктивни оквир под MIT лиценцом, објављени сирови одговори мотора, отворено обелодањивање сукоба интереса, истраживачка мрежа огледала на четири платформе.

🏢 Кантести Д.О.О. Регистовано у Енглеској и Велсу · Број компаније. 17090423 Лондон, Уједињено Краљевство · кантести.нет