Зашто овај бенчмарк постоји и шта тестира

AI-potpomognuto tuмачење крвне слике se sve češće koristi u potrošačkim i kliničkim tokovima rada, ali okviri za proveru koji se mogu ponoviti i prilagođeni laboratorijskoj medicini ostaju neuobičajeni. Pitanja koja su najvažnija u ovom kontekstu nisu ona obuhvaćena opštim benchmarkovima za medicinska pitanja i odgovore: može li motor da razdvoji anemiju zbog nedostatka gvožđa od osobine talasemije kada je srednji volumen eritrocita identičan, da li prekomerno dijagnostikuje Gilbertovu bolest kao hepatitis i da li „izmišlja” patologiju u potpuno normalnom skrining panelu?

Дијаграм тока унапред регистроване рубрике који приказује како се Kantesti AI Engine оцењује у односу на замрзнуте критеријуме бодовања
Слика 1: Arhitektura benchmarka — svaki slučaj, svaka ključna reč, svaki sistem bodovanja je fiksiran u izvornom kodu pre nego što motor vidi ijedan PDF. Naknadno podešavanje rubrika nije moguće po dizajnu.

Један панел крвних анализа обично садржи довољно сигнала да подржи више конкурентских тумачења, а посао лекара који тумачи резултате је да та тумачења одмери једно према другима, а не да пронађе „тачан одговор“ из уџбеника. Мотор који се добро показује на примерима из уџбеника може ипак да падне на случајеве који су најважнији: замке у диференцијалној дијагнози, бенигне варијанте које изгледају алармантно када се посматрају изоловано и потпуно нормалне панеле који наводе самоуверене асистенте да „израде“ патологију.

Овај бенчмарк је направљен управо око тих начина неуспеха. Сваки од петнаест случајева изабран је због одређене дијагностичке особине: микоцитоза услед недостатка гвожђа која мора да се разликује од особине бета-таласемије са идентичним средњим корпускуларним волуменом, приказ који одговара Гилбертовом синдрому где је једина абнормалност изолована индиректна хипербилирубинемија и панел за скрининг са петнаест параметара у коме је сваки аналит унутар свог референтног опсега. Рубрика награђује моторе који читају сваки случај у његовим сопственим околностима, а кажњава моторе који посежу за самоувереном дијагнозом када таква дијагноза није оправдана.

Као Томас Клајн, др мед., изабрао сам овај панел случајева јер су то обрасци које асистенти у лабораторијској медицини најчешће погрешно разумеју. Скуп начин неуспеха није "пропустити ретку болест" — већ измишљати рутинску патологију код пацијената који је немају. Наше Медицинска валидација hub описује шири оквир; ова страница описује његов примењени резултат на V11 мотору.

Најновије референтно извршавање — V11 (април 2026)

Референтно тестирање из априла 2026. за Kantesti AI Engine V11 произвело је композитни резултат од 99.12% на унапред регистрованој рубрици са петнаест случајева. Обa случаја у замци хипердијагнозе постигла су максимум. Ментцеров индекс је исправно примењен у диференцијалној дијагнози недостатка гвожђа наспрам таласемије.

Композитни 99.12% 15 од 15 случајева је постигло
0.998 Структурни резултат
0.998 Клинички резултат
20.17 s Просечно кашњење
0 / 13 Замке лажних позитивних резултата

Композитна формула комбинује три компоненте: структурна усклађеност са седам обавезних секција извештаја и шеснаест обавезних подсеција, клиничка тачност мерена као присећање кључних речи плус присећање система бодовања плус провера валидности вероватносне расподеле, и кашњење одговора у односу на примарни циљ услуге од 20 секунди. Тачна декомпозиција приказана је у формули рубрике испод.

Композитни = 0.35 × Структурни + 0.55 × Клинички + 0.10 × Кашњење

Преосталих 0,88 процентних поена „простора“ (headroom) разлаже се готово у потпуности на губитак због кашњења (latency loss) — три позива за резервне (fallback) инстанце Фазе 2, сваки са сложеним доприносом од око -0,05, допринела су око 0,60 од дефицита од 0,88 поена — уместо у клинички садржај. Мотор није промашио тачну дијагнозу ни у једном од петнаест случајева; где је заостао, то је било тако што је у малом мањинском броју позива трајао нешто дуже од примарног циља од 20 секунди.

Петнаест случајева у седам медицинских специјалности

Панел случајева обухвата седам специјалности — хематологију, ендокринологију, метаболичку медицину, хепатологију, нефрологију, кардиологију, реуматологију — као и два посебно издвојена случаја „замке“ за хипердијагнозу. Сваки случај је анонимизовани реални медицински запис пацијента, из репозиторијума клиничких података Kantesti, уз писани информисани пристанак.

Мапа покривености петнаест анонимизованих случајева крвних тестова распоређених у седам медицинских специјалности, плус случајеви „хипердијагностичке замке“
Слика 2: Расподела случајева по хематологији, ендокринологији, метаболичкој медицини, хепатологији, нефрологији, кардиологији, реуматологији, плус два случаја „замке“ — Гилбертов синдром и потпуно нормалан скрининг панел.

Де-идентификација је спроведена према приступу Safe Harbor: сви директни идентификатори су уклоњени или замењени, а сваки запис је добио интерни код случаја у формату BT-NNN-LABEL. Обрада је извршена у складу са GDPR чланом 9(2)(j) за научна истраживања уз одговарајуће заштитне мере, као и са еквивалентним одредбама UK GDPR-а. Никакви подаци који лично идентификују особу не појављују се ни у једном делу објављеног „harness“-а, техничког извештаја или објављених скупова података.

Хематологија (3) BT-001, BT-006, BT-007 Анемија због недостатка гвожђа · Недостатак витамина B12 · Бета-таласемија, минор
Ендокринологија (3) BT-002, BT-008, BT-012 Хашимотов тиреоидитис · PCOS са инсулинском резистенцијом · Тешки недостатак витамина Д
Метаболичко (2) BT-003, BT-013 T2DM са метаболичким синдромом · Хиперурикемија са ризиком од гихта
Хепатологија (2) BT-004, BT-009 NAFLD / NASH · Акутни вирусни хепатитис
Нефрологија · Кардиологија · Реуматологија (3) BT-005, BT-010, BT-011 ХББ стадијум 3 · Атерогена дислипидемија · Системски еритематозни лупус
Случајеви „замке“ (2) BT-014, BT-015 Гилбертов синдром (изолована индиректна хипербилирубинемија) · Потпуно нормалан скрининг одраслих

Зашто је баш ова расподела

Хематологија добија три случаја јер су микоцитне диференцијале и макроцитне диференцијале највеће „замке“ по обиму у реалној лабораторијској пракси. Ендокринологија добија три јер се клиничке презентације Хашимотове болести, PCOS-а и недостатка витамина Д разликују по дијагностичким „облицима“ (вођеним аутоантителима, вођеним односима хормона, вођеним једним маркером). Специјалности са једним случајем и даље су значајне јер сваки од CKD-а, ризика за ASCVD и SLE има свој систем бодовања који мотор треба да позове (KDIGO стадирање, ASCVD ризик на 10 година, и критеријуме за SLE из 2019 EULAR/ACR, респективно).

Унапред регистрована рубрика, објашњена

Предрегистрација је један најважнијих методолошких избора у овом бенчмарку. Свака очекивана дијагноза, сваки клинички систем бодовања и сваки одељак извештаја били су унапред посвећени изворном коду пре него што је мотор позван. Дакле, накнадно „подешавање“ рубрике да би се улепшала учинка мотора није могуће.

Три компоненте чине композитни резултат. структурна компонента доприноси 35 процената и мери да ли је мотор вратио седам обавезних одељака извештаја (заглавље, сажетак, кључни налази, диференцијал, системи бодовања, препоруке, праћење) и шеснаест обавезних пододељака унутар њих. Присуство одељка носи 40 процената, а присуство пододељка 60 процената унутар структурног израчуна.

Тхе клиничка компонента доприноси 55 процената и комбинује три ствари: присећање дијагнозе по кључним речима (70 процената клиничког подрезултата), присећање система бодовања (20 процената — да ли мотор израчунава Mentzer, FIB-4, HOMA-IR, ASCVD ризик, KDIGO стадирање, EULAR/ACR критеријуме где је релевантно) и проверу валидности збира вероватноћа (10 процената — диференцијалне вероватноће треба да се саберу унутар интервала [90, 110]). За „trap“ случајеве, експлицитна казна за хипердијагнозу до 0,30 се одузима, рачуна се као 0,10 по измишљеној заставици патологије, уз ограничење на три заставице.

Тхе компонента латенције доприноси 10 процената. Одговор испод 20 секунди добија пуних 0,10, одговор испод 40 секунди добија 0,05, а све што је спорије добија нула. Циљ од 20 секунди одражава производни примарни циљ услуге за пат сервис; плафон од 40 секунди одражава буџет за „fallback“ у Фази 2 за тешке позиве мотора.

Завршни снимак екрана MIT-licenciranog Kantesti benchmark harness-а који се покреће и емитује резултате по случају
Слика 3: Хернес у извршавању. Сваки случај се рендерује у A4 PDF, поставља на production v11 endpoint и бодова се према замрзнутој рубрици. Сваки сиров одговор се чува заједно са агрегираним скоркардом.

Шта предрегистрација спречава

Први-страна бенчмаркови су познати по надувавању сопствених резултата кроз накнадно подешавање рубрике. Образац је скоро увек исти: тим покрене мотор, види где недовољно постиже, а затим тихо прилагоди рубрику тако да области које недовољно постижу мање „рачунају“. Када се рубрика посвети изворном коду пре првог позива мотора и када се хернес објави под MIT лиценцом, тај прилагођај постаје видљив у контролу верзија. Свако може да клонира репозиторијум, провери датуме ауторства рубрике и верификује да резултати мотора нису коришћени да би се обликовало бодовање.

Случајеви „замке хипердијагнозе“ — зашто је прекомерно пријављивање стварни режим неуспеха

Агресивно „прозивање“ патологије на нормалним екранима је документован начин неуспеха код медицинских асистената за потрошаче. Његови последични трошкови укључују непотребну истрагу, анксиозност пацијента и јатрогени обрађивачки поступак. Два „trap“ случаја у овом бенчмарку су дизајнирана да учине тај начин неуспеха видљивим и мерљивим.

Поређење један поред другог: наивни AI који измишља хепатитис на панелу за Гилбертов синдром, у односу на Kantesti engine који исправно идентификује бенигну полиморфност UGT1A1
Слика 4: Дизајн „trap-case“ случајева. Мотор који са самопоуздањем означи Гилбертову болест као хепатитис, или који „израђује“ граничну патологију на потпуно нормалном екрану, бива кажњен — није награђен за звучање клинички.

🟡 Trap 1 — BT-014-GILBERT

Презентација. Мушкарац од 24 године са укупним билирубином од 2,4 mg/dL. Директна фракција је нормална, трансаминазе и алкална фосфатаза су унутар својих референтних опсега, ретикулоцити су без особености, а хаптоглобин и LDH искључују хемолизу.

Тачно тумачење. Гилбертов синдром — бенигна полиморфизам UGT1A1. Тумачење не треба да позива хепатитис, цирозу, хемолитичку анемију или билијарну опструкцију.

V11 резултат. Композитни 1,000. Ниједна од шест праћених заставица прекомерне дијагнозе није се појавила као активна дијагноза.

🟡 Trap 2 — BT-015-HEALTHY

Презентација. Жена од 35 година са рутинским скрининг панелом са петнаест параметара. Сваки аналит се удобно налази унутар свог референтног опсега.

Тачно тумачење. Утеха и одржавање начина живота. Тумачење не би требало да „измишља“ граничну патологију како би звучало клинички корисно.

V11 резултат. Композит 1.000. Ниједна од седам надгледаних заставица за прекомерно постављање дијагнозе — дијабетес, анемија, хипотиреоидизам, дислипидемија, хепатитис, болест бубрега, недостатак — није се појавила као активна дијагноза.

На оба „теста“ проверено је тринаест надгледаних заставица за хипердијагнозу. Ниједна није активирана. Ово је резултат који је најважнији за сваког клиничара који разматра коришћење AI мотора као алата за тријажу или пре-консултације: систем није „измислио“ болест тамо где је није било.

Ментцеров индекс: раздвајање недостатка гвожђа од особина таласемије

Друго вредно откриће односи се на повезивање случаја BT-001 (анемија због недостатка гвожђа) са случајем BT-007 (бета-таласемија, минор). Оба се јављају са микроцитозом и добро су позната препрека за наивне класификаторе. Ментцеров индекс, израчунат као MCV подељен бројем RBC, прелази 13 код недостатка гвожђа и пада испод 13 код особина таласемије.

У BT-001, пацијенткиња је имала 34 године, хемоглобин 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, феритин 6 ng/mL и повишен TIBC. Ментцеров индекс од приближно 17,7 подржава апсолутни недостатак гвожђа. У BT-007, пацијент је имао 28 година, микроцитозу (MCV 65,8 fL), али висок број RBC од 6,2, нормалан RDW, нормалан феритин и HbA2 од 5,6 процената. Ментцеров индекс од приближно 10,6 указује на особине таласемије, а повишен HbA2 потврђује бета-таласемију, минор.

Анемија због недостатка гвожђа Ментцер > 13 Низак феритин, низак TSAT, висок TIBC, повишен RDW
Особине бета-таласемије Ментцер < 13 Нормалан феритин, нормалан RDW, повишен HbA2 (>3.5%), висок број RBC

Обa случаја су постигла 1.000. Мотор је експлицитно позвао Ментцеров индекс у оба тумачења и вратио тачну дијагнозу у сваком случају. Ово је један највише клинички умирујући резултат у целом бенчмарку, јер погрешно класификовање особина таласемије као недостатка гвожђа доводи до неадекватног суплементирања гвожђем и пропуштених прилика за породични скрининг, а погрешно класификовање недостатка гвожђа као таласемије одлаже једноставну заменску терапију. Наш водич за опсег феритина објашњава шири диференцијални контекст.

Rezultati po slučaju iz pokretanja u aprilu 2026.

Дванаест од петнаест случајева постигло је максимални композитни резултат 1.000 на примарном путу. Три случаја су послужена преко „Phase 2“ резервног механизма, изгубивши бонус за латенцију од 0,05 уз очување свих клиничких и структурних садржаја. Један случај је недостајао у једној обавезној под-секцији; један је вратио маргинално смањен збир вероватносних расподела.

ИД случаја Специјалност Композитни Латенција Патх
BT-001-IDAХематологија1.00017,8 sпримарни
BT-006-B12Хематологија1.00018,4 sпримарни
BT-007-THALХематологија1.00017,0 sпримарни
BT-002-HASHЕндокринологија0.95037,0 sрезервни (fallback)
BT-008-PCOSЕндокринологија0.98718,6 sпримарни
BT-003-T2DMМетаболички1.00019,1 sпримарни
BT-013-GOUTМетаболички1.00019,4 sпримарни
BT-004-NAFLDхепатологија1.00019,6 sпримарни
BT-009-VIRHEPхепатологија0.95023,4 sрезервни (fallback)
BT-014-GILBERTЗамка (Trap)1.00018,9 sпримарни
BT-005-CKDНефрологија1.00017,4 sпримарни
BT-010-ASCVDКардиологија1.00019,7 sпримарни
BT-011-SLEРЕУМАТОЛОГИЈА0.98118,2 sпримарни
BT-012-VITDЕндокринологија1.00019,3 sпримарни
BT-015-HEALTHYЗамка (Trap)1.00018,7 sрезервни (fallback)

Случај PCOS-а (BT-008) изгубио је једну обавезну подсекцију у структури одговора — петнаест од шеснаест уместо шеснаест од шеснаест — што је смањило структурни резултат са 1,000 на 0,963. Случај SLE-а (BT-011) вратио је маргинално смањен збир вероватноћа-дистрибуције који је спустио клинички резултат на 0,965 уз очување сваке дијагностичке кључне речи и система бодовања. Ниједан од два случаја који нису били савршени није пропустио тачну дијагнозу.

Šta nam ne govori naslovni rezultat

Композитни резултат од 99,12 процената по овој конкретно унапред регистрованој рубрици представља перформансе на самом врху, али заслужује пажљиво уоквиривање. Резултат описује понашање мотора у односу на петнаест пажљиво одабраних анонимизованих случајева, процењених по једном, према једној рубрици. Јасно наводимо шта број показује, а шта не показује.

Резултат каже да је V11 мотор исправно обрадио дијагностичке обрасце одабране за ову евалуацију, по методологији која је објављена и репродуктивна. Не каже да је мотор тачан на свакој постојећој плочи крвних тестова у стварном свету. Не каже да мотор треба да замени клиничку процену. И не каже да мотор надмашује алтернативне AI системе — компаративне анализе у односу на друге моторе намерно су изван обухвата овог извештаја.

Оно што резултат заиста утврђује јесте основа. Пошто су рубрика и оквир (harness) јавни, будуће верзије мотора могу се процењивати на истих петнаест случајева, а разлика између објављеног резултата и било ког каснијег извршавања сама по себи је мерљива. То је вредност унапред регистрације: претвара тврдње о перформансама у проверљиве тврдње.

Kako da ponovite ovaj benchmark za 10 minuta

Репродукција захтева само пар Kantesti API акредитива и окружење са Python 3.10 или новијим, са requests и reportlab инсталираним библиотекама. Комплетан оквир је један самосталан Python модул објављен под MIT лиценцом.

Дијаграм мреже репродуктивности који приказује да је benchmark огледан на Figshare, ResearchGate, Academia.edu и GitHub, при чему је Figshare DOI као канонска сидрена тачка
Слика 5: Бенчмарк је огледан на четири истраживачке платформе. Figshare DOI је канонски научни идентификатор; ResearchGate, Academia.edu и GitHub хостују паралелне копије са кодом и сировим подацима.

Четири корака за ново извршавање

Један. Клонирај репозиторијум: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Инсталирајте зависности помоћу pip install -r requirements.txt. Три. Подесите KANTESTI_USERNAME и KANTESTI_PASSWORD као променљиве окружења — креденцијали се читају у време извршавања и ништа није хардкодовано у скрипти. Четири. Покрените python benchmark_bloodtest.py и прегледајте четири артефакта која се емитују у радни директоријум: CSV scorecard, JSON scorecard, потпуни JSON dump који укључује сирове одговоре мотора и читљив Markdown извештај.

Референтно извршавање од 23. априла 2026. је сачувано у results/ директоријуму репозиторијума. Свеже извршавање ће генерисати нови scorecard са временском ознаком, док ће референтно извршавање остати нетакнуто. Ако ваше извршавање даје значајно другачији резултат, отворите GitHub issue са временском ознаком извршавања и верзијом мотора враћеном у метаподацима одговора.

Ograničenja i budući rad

Четири ограничења заслужују експлицитно признање: величина узорка, једнократно оцењивање, обухват једног мотора и порекло података из једног извора. Сваки од ових аспеката се адресира у активном праћењу.

Величина узорка. Петнаест случајева у осам специјалистичких категорија довољно је за доказ концепта, али није довољно за анализу подгрупа у оквиру једне специјалности. Планирано је проширење на педесет случајева, које ће укључити панеле за коагулацију, скрининг хематолошких малигнитета, панеле за трудноћу и педијатријске презентације.

Једнократно оцењивање. Сваки случај је оцењен једном. Велики језички модели показују не-тривијалну варијансу излаза чак и при ниској температури узорковања, па је протокол са више извршавања са пет евалуација по случају и пријављеном варијансом природан следећи корак.

Обухват једног мотора. Овај извештај описује један мотор. Поређења са алтернативним AI системима нису у оквиру овог домета; можда ћемо их спровести као засебну независну студију са одговарајућом методологијом.

Порекло података из једног извора. Петнаест случајева су анонимизовани стварни медицински записи пацијената из једног клиничког репозиторијума. Они представљају куриран узорак и нису случајни узорак који је репрезентативан за популацију. Проширење евалуације на више центара је на путоказу.

Најзначајније планирано проширење је паритет на више језика. Kantesti AI Engine служи корисницима на 75+ језика, а покретање истог хардверског оквира са петнаест случајева на турском, немачком, шпанском, француском и арапском ће квантификовати квалитет излаза на језицима које мотор подржава. Објавићемо свако извршавање за појединачни језик са сопственим DOI и граном harness-а.