Зошто постои оваа референтна вредност и што тестира
AI-помогнато толкување крвна слика сè повеќе се користи во потрошувачки и клинички работни текови, но репродуцибилни рамки за евалуација прилагодени за лабораториска медицина остануваат ретки. Прашањата што најмногу се важни во оваа средина не се оние опфатени со општи бенчмаркови за медицинско одговарање на прашања: дали моторот може да разликува недостаток на железо од таласемиска особина кога средниот волумен на еритроцитите е идентичен, дали прекумерно дијагностицира синдром на Жилберт како хепатитис и дали создава патологија во целосно нормален панел за скрининг?
Една единствена панел-крвна анализа обично содржи доволно сигнал за да поддржи повеќе конкурирачки толкувања, а задачата на клиничарот што го толкува наодот е да ги одмери тие толкувања меѓусебно, наместо да извлече „точен одговор“ од учебник. Мотор што добро се снаоѓа на случаи од учебник сепак може да потфрли на оние случаи што се најважни: стапиците во диференцијалната дијагноза, бенигните варијанти што изгледаат алармантно кога се гледаат изолирано и целосно нормалните панели што ги наведуваат самоуверените асистенти да „произведуваат“ патологија.
Овој бенчмарк е изграден токму околу тие начини на неуспех. Секој од петнаесетте случаи беше избран за одредена дијагностичка карактеристика: микроцитоза поради недостаток на железо што мора да се разликува од носителство на бета-таласемија со идентичен просечен волумен на еритроцитите, презентација на Гилберт-ов синдром каде единствената абнормалност е изолирана индиректна хипербилирубинемија и панел за скрининг со петнаесет параметри во кој секој аналит се наоѓа во својот референтен опсег. Рубриката ги наградува моторите што го читаат секој случај според неговите сопствени услови и ги казнува моторите што се впуштаат во самоуверена дијагноза кога таква дијагноза не е оправдана.
Како Томас Клајн, д-р, го избрав панелот со случаи затоа што токму овие шеми најчесто ги погрешуваат асистентите за лабораториска медицина. Скапиот начин на неуспех не е "да се пропушти ретка болест" — туку да се измислува рутинска патологија кај пациенти кај кои таа не постои. Нашето Медицинска валидација hub го опишува поширокиот рамковен пристап; оваа страница го опишува неговиот применет резултат на моторот V11.
Најново референтно извршување — V11 (април 2026)
Референтното извршување од април 2026 на Kantesti AI Engine V11 даде композитен резултат од 99.12% на претходно регистрираната рубрика со петнаесет случаи. Двата случаи во стапицата за хипердијагноза постигнаа резултат на самиот врв. Ментцеровиот индекс беше применет правилно во диференцијалот железо-дефицитна состојба наспроти таласемија.
Композитната формула ги комбинира три компоненти: структурна усогласеност со седумте задолжителни делови за извештај и шеснаесет задолжителни подделови, клиничка точност мерена како поврат на клучни зборови плус поврат на елементи од системот за бодување плус проверка на валидноста на веројатносната дистрибуција, и доцнење на одговорот спроти примарната цел од 20 секунди за сервисно ниво. Точната декомпозиција е прикажана во формулата на рубриката подолу.
Преостанатите 0,88 процентни поени слободен простор речиси целосно се разложуваат на загуба поради латентност — три повици за резервни сценарија од Фаза 2, секој со составен резултат од минус 0,05, придонесоа со околу 0,60 од дефицитот од 0,88 поени — наместо во клиничка содржина. Моторот не пропушти точна дијагноза ниту во една од петнаесетте случаи; таму каде што потфрли, тоа го направи така што траеше малку подолго од примарната цел од 20 секунди во малцинство од повиците.
Петнаесет случаи низ седум медицински специјалности
Панелот за случаи опфаќа седум специјалности — хематологија, ендокринологија, метаболна медицина, хепатологија, нефрологија, кардиологија, реуматологија — плус два посветени случаи за стапица за хипердијагноза. Секој случај е анонимизиран реален запис на пациент, извлечен од складиштето на клинички податоци Kantesti, со писмена информирана согласност.
Де-идентификацијата беше изведена според пристапот Safe Harbor: сите директни идентификатори беа отстранети или заменети, и на секој запис му беше доделен внатрешен код за случај во формат BT-NNN-LABEL. Обработката беше извршена во согласност со GDPR член 9(2)(j) за научно истражување со соодветни заштитни мерки, и со еквивалентните одредби на UK GDPR. Никакви лични информации за идентификација не се појавуваат никаде во објавениот хардвер, техничкиот извештај или објавените збирки податоци.
Зошто токму оваа распределба
Хематологијата добива три случаи затоа што микоцитните диференцијали и макроцитните диференцијали се најголемите „замки“ со најголем обем во реалната лабораториска пракса. Ендокринологијата добива три затоа што презентациите на Хашимото, PCOS и недостаток на витамин D вежбаат различни дијагностички форми (управувани од автоантитела, управувани од сооднос на хормони, управувани од единствен маркер). Специјалностите со по еден случај сè уште се значајни затоа што секоја од CKD, ризикот за ASCVD и SLE има сопствен систем за бодување што моторот треба да го повика (KDIGO стадирање, ASCVD 10-годишен ризик, и критериуми за 2019 EULAR/ACR за SLE, соодветно).
Однапред регистрираната рубрика, објаснета
Предрегистрацијата е единствениот најважен методолошки избор во оваа споредба. Секое очекувано дијагностицирање, секој клинички систем за бодување и секој дел од извештајот беа посветени на изворниот код пред да биде повикан моторот. Затоа, пост-хок прилагодување на рубриката за да го „пофали“ моторот е невозможно.
Три компоненти го сочинуваат композитниот резултат. структурната компонента придонесува со 35 проценти и мери дали моторот ги врати седумте задолжителни делови од извештајот (заглавје, резиме, клучни наоди, диференцијал, системи за бодување, препораки, следење) и шестнаесетте задолжителни подделови во рамките на нив. Присуството на дел тежи 40 проценти, а присуството на поддел тежи 60 проценти во структурната пресметка.
На клиничката компонента придонесува со 55 проценти и комбинира три работи: повикување на дијагностички клучни зборови (70 проценти од клиничкиот под-резултат), повикување на системи за бодување (20 проценти — дали моторот пресметува Mentzer, FIB-4, HOMA-IR, ризик за ASCVD, KDIGO стадирање, критериуми EULAR/ACR кога е релевантно) и проверка на валидност на збир на веројатности (10 проценти — диференцијалните веројатности треба да се соберат во интервалот [90, 110]). За „замкови“ случаи, се одзема експлицитна казна за хипердијагноза до 0.30, пресметана како 0.10 по измислено знаме за патологија, ограничено на три знамиња.
На компонента на латентност придонесува со 10 проценти. Одговор под 20 секунди добива целосни 0.10, одговор под 40 секунди добива 0.05, а сè што е побавно добива нула. Целта од 20 секунди ја одразува производната примарна услужна цел за ниво на услуга; таванот од 40 секунди ја одразува буџетската резерва за Фаза 2 при тешки повици на моторот.
Што спречува предрегистрацијата
Првостепените споредби се познати по тоа што ги надувуваат сопствените бројки преку пост-хок прилагодување на рубриката. Шаблонот речиси секогаш е ист: тимот го пушта моторот, гледа каде потфрла, а потоа тивко ја прилагодува рубриката така што подфрлањата да бројат помалку. Со тоа што рубриката се посветува на изворниот код пред првиот повик на моторот и се објавува хранеcот под MIT лиценца, ова прилагодување станува видливо во контролата на верзии. Секој може да го клонира репозиториумот, да ги провери датумите на авторите на рубриката и да потврди дека резултатите од моторот не биле користени за обликување на бодувањето.
Случаи „замка за хипердијагноза“ — зошто прекумерното повикување е вистинскиот режим на неуспех
Агресивното прекумерно повикување патологија на нормални екрани е документиран начин на неуспех кај потрошувачки медицински асистенти. Неговите последователни трошоци вклучуваат непотребна истрага, вознемиреност кај пациентот и јатрогена обработка. Двата „замкови“ случаи во оваа споредба се дизајнирани да го направат овој начин на неуспех видлив и податлив за бодување.
🟡 Замка 1 — BT-014-GILBERT
Презентација. Маж на 24 години со вкупен билирубин од 2.4 mg/dL. Директната фракција е нормална, трансаминазите и алкалната фосфатаза се во нивните референтни опсези, ретикулоцитите се без особености, а хаптоглобинот и LDH исклучуваат хемолиза.
Точна толкување. Gilbert-ов синдром — бенигна полиморфизам на UGT1A1. Толкувањето не треба да повикува хепатитис, цироза, хемолитичка анемија или опструкција на жолчни патишта.
Резултат v11. Композитен 1.000. Ниту едно од шесте следени знамиња за прекумерно дијагностицирање не се појави како активна дијагноза.
🟡 Замка 2 — BT-015-HEALTHY
Презентација. Жена на 35 години со рутински панел за скрининг со петнаесет параметри. Секој аналит удобно се наоѓа во рамките на својот референтен опсег.
Точна толкување. Уверување и одржување на животниот стил. Толкувањето не треба да „измислува“ гранична патологија за да звучи клинички корисно.
Резултат v11. Композит 1.000. Ниту една од седумте следени алармни ознаки за прекумерно дијагностицирање — дијабетес, анемија, хипотироидизам, дислипидемија, хепатитис, бубрежна болест, дефицит — не се појави како активна дијагноза.
На двата „трап“ беа проверени тринаесет следени алармни ознаки за хипердијагностицирање. Ниту една не беше активирана. Ова е резултатот што најмногу е важен за секој клиничар што размислува да користи AI мотор како алатка за тријажа или пред-консултација: системот не измисли болест таму каде што не постоела.
Ментцеров индекс: одвојување на дефицит на железо од носителство на таласемија
Вториот наод со висока вредност се однесува на спојувањето на случајот BT-001 (анемија поради недостаток на железо) со случајот BT-007 (бета-таласемија минор). И двата се јавуваат со микроцитоза и се добро позната „кочница“ за наивни класификатори. Индексот на Mentzer, пресметан како MCV поделено со бројот на RBC, е над 13 кај недостаток на железо и паѓа под 13 кај таласемиска особина.
Во BT-001, пациентката имала 34 години, хемоглобин 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, феритин 6 ng/mL и покачен TIBC. Индексот на Mentzer од приближно 17.7 поддржува апсолутен недостаток на железо. Во BT-007, пациентот имал 28 години, микроцитоза (MCV 65.8 fL) но висок број на RBC од 6.2, нормален RDW, нормален феритин и HbA2 од 5.6 проценти. Индексот на Mentzer од приближно 10.6 укажува на таласемиска особина, а покачениот HbA2 ја потврдува бета-таласемија минор.
И двата случаи постигнаа 1.000. Моторот експлицитно го повика индексот на Mentzer во двете интерпретации и ја врати точната дијагноза во секој случај. Ова е единствениот резултат со најголема клиничка уверливост во целиот бенчмарк, бидејќи погрешното класифицирање на таласемиска особина како недостаток на железо води до несоодветна суплементација со железо и пропуштени можности за семејно скринирање, а погрешното класифицирање на недостаток на железо како таласемија ја одложува едноставната терапија за замена. Нашето водич за опсегот на феритин објаснува поширок контекст на диференцијалот.
Резултати по случај од извршувањето во април 2026 година
Дванаесет од петнаесет случаи го достигнаа максималниот композитен резултат од 1.000 на примарната патека. Три случаи беа опслужени преку резервната „Phase 2“ опција, губејќи ја бонусот за латентност од 0.05, но зачувувајќи ја целата клиничка и структурна содржина. Еден случај недостигаше една единствена задолжителна под-секција; еден врати маргинално намалена сума на распределбата на веројатности.
Случајот со PCOS (BT-008) изгуби една задолжителна под-секција во структурата на одговорот — петнаесет од шеснаесет наместо шеснаесет од шеснаесет — што го намали структурниот резултат од 1,000 на 0,963. Случајот со SLE (BT-011) врати малку намалена сума на веројатносно-распределување што го спушти клиничкиот резултат на 0,965, притоа зачувувајќи секој дијагностички клучен збор и систем за бодување. Ниту еден од двата случаи со резултат под совршен не пропушти точна дијагноза.
Што не ни кажува насловниот резултат
Композитен резултат од 99,12 проценти според оваа конкретна претходно регистрирана рубрика претставува речиси перформанси до горна граница, но заслужува внимателно поставување во контекст. Резултатот ја опишува однесувањето на моторот спроти петнаесет внимателно избрани анонимизирани случаи, оценети по еднаш, според една единствена рубрика. Јасно кажуваме што бројката прави и што не докажува.
Резултатот кажува дека моторот V11 ги обработил дијагностичките обрасци избрани за оваа евалуација правилно, по методологија што е објавена и може да се репродуцира. Не кажува дека моторот е точен за секој панел од крвни тестови што постои во реалниот свет. Не кажува дека моторот треба да го замени клиничкото мислење. И не кажува дека моторот ги надминува алтернативните системи со вештачка интелигенција — споредбените анализи со други мотори намерно беа надвор од опсегот на овој извештај.
Она што резултатот навистина го утврдува е основна линија. Со рубриката и хaрнесот јавно достапни, идните верзии на моторот може да се оценуваат според истите петнаесет случаи, а разликата меѓу објавениот резултат и секое последователно извршување е самата по себе мерлива. Вредноста на претходната регистрација е: ги претвора тврдењата за перформанси во проверливи тврдења.
Како да го репродуцирате овој бенчмарк за 10 минути
Репродукцијата бара само пар Kantesti API акредитиви и средина со Python 3.10 или понова верзија со requests и reportlab инсталирани библиотеки. Целиот хaрнес е еден самостоен Python модул објавен под MIT лиценца.
Четири чекори за ново извршување
Еден. Клонирај го репозиториумот: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Инсталирајте ги зависностите со pip install -r requirements.txt. Три. Поставете KANTESTI_USERNAME и KANTESTI_PASSWORD како променливи на околината — ингеренциите се читаат при извршување и ништо не е вградено во скриптата. Четири. Извршете python benchmark_bloodtest.py и прегледајте ги четирите артефакти што се издаваат во работната папка: CSV скоркартичка, JSON скоркартичка, целосен JSON-дамп (вклучувајќи сурови одговори на моторот) и читлив за човек Markdown-извештај.
Референтното извршување од 23 април 2026 е зачувано во results/ директориумот на репозиториумот. Ново извршување ќе создаде нова скоркартичка со нов временски печат, притоа оставајќи го референтното извршување недопрено. Ако вашето извршување даде значително различен резултат, ве молиме отворете GitHub issue со временскиот печат на извршувањето и верзијата на моторот вратена во метаподатоците на одговорот.
Ограничувања и идни работи
Четири ограничувања заслужуваат експлицитно признавање: големина на примерокот, еднократно оценување, опфат на единствен мотор и потекло на податоци од единствен извор. Секое од нив се адресира во тековна дополнителна работа.
Големина на примерокот. Петнаесет случаи низ осум специјалистички категории се доволни за доказ на концепт, но не и за анализа по подгрупи во рамките на една специјалност. Планирано е проширување на педесет случаи и ќе вклучи панели за коагулација, скрининг за хематолошки малигнитети, панели за бременост и педијатриски презентации.
Еднократно оценување. Секој случај беше оценет еднаш. Големите јазични модели покажуваат не-тривијална варијанса на излезот дури и при ниска температура на семплирање, па протокол со повеќе извршувања со пет евалуации по случај и пријавена варијанса е природен следен чекор.
Опфат на единствен мотор. Овој извештај карактеризира еден мотор. Компаративни анализи со алтернативни AI системи се вон опсегот овде; можеби ќе ги спроведеме како посебна независна студија со соодветна методологија.
Потекло на податоци од единствен извор. Петнаесетте случаи се анонимизирани реални медицински досиеја на пациенти извлечени од единствен клинички репозиториум. Тие претставуваат куриран примерок и не се случаен избор репрезентативен за популација. Проширување на евалуацијата на повеќе центри е на патоказот.
Највлијателното планирано проширување е паритет на повеќе јазици. AI Engine Kantesti им служи на корисници на 75+ јазици, а извршувањето на истиот хардвер со петнаесет случаи на турски, германски, шпански, француски и арапски ќе го квантифицира квалитетот на излезот низ поддржаните јазици на моторот. Ќе го објавиме секое извршување специфично за јазикот со сопствен DOI и гранка на хардверот.