Kantesti AI анализа на крв — клиничка валидација

Клиничка валидација Предрегистрирана референтна вредност V11 — април 2026 Лиценцирано под MIT Проверливо од врсници

99.12% композитен резултат на однапред регистрирана рубрика со нула хипердијагноза лажни позитивни резултати

Независна, однапред регистрирана клиничка евалуација на Kantesti AI Engine на анонимизирани случаи од крвни тестови. Рубриката беше замрзната во изворниот код пред првото повикување на моторот, евалуацискиот хардвер е лиценциран под MIT, и секој суров одговор е објавен.

📖 ~14 минути 📅 23 април 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Објавено: 23 април 2026 🩺 Медицински прегледано: 23 април 2026 ✅ Рубрика однапред регистрирана 🔓 Отворен код и податоци

Оваа клиничка студија за валидација беше водена од Д-р Томас Клајн, доктор по медицина, директор за медицински работи (Chief Medical Officer) во Kantesti AI, во соработка со Џулијан Емирхан Булут, виш AI инженер и извршен директор (CEO) на Kantesti Ltd. Методологијата и рубриката ги разгледа Медицински советодавен одбор за вештачка интелигенција „Кантести“.

Главен автор и клинички надзор

Томас Клајн, доктор по медицина

Главен медицински директор, Кантести АИ

Д-р Томас Клајн е сертифициран клинички хематолог и интернист со над 15 години искуство во лабораториска медицина. Како директор за медицински работи во Kantesti AI, тој го избра панелот на случаи за оваа референтна вредност, ги разгледа сите дијагностички вистини (ground truths) и ја одобри однапред регистрираната рубрика пред првото повикување на моторот.

ORCID 0009-0009-1490-1321 Истражувачка порта Google Scholar

Ко-автор & имплементација

Џулијан Емирхан Булут

Виш AI инженер & извршен директор (CEO), Kantesti Ltd

Џулијан Емирхан Булут е основач и извршен директор (CEO) на Kantesti Ltd. Тој го дизајнираше и имплементираше евалуацискиот хардвер, ја изврши интеграцијата на API, го спроведе тестот за референтната вредност во април 2026 и ја подготви статистичката агрегација. Основач на платформата од 2019 година.

GitHub За Кантести

⚡ Краток преглед V11 — 23 април 2026

Композитен резултат 99.12% на 15 анонимизирани реални случаи со крвни тестови, од седум медицински специјалности.
Нула лажни позитиви за хипердијагноза и на двата „trap“ случаи (синдром на Жилберт и целосно нормален скрининг кај возрасен).
Рубрика регистрирана однапред замрзната во изворниот код пред првиот повик на моторот — не беше можно дополнително подесување „post-hoc“.
Ментцеров индекс правилно применет за разликување на анемија поради недостаток на железо од бета-таласемија минор.
Само производствен краен резултат — без привилегирано рутирање, оценувано точно како што би пристапил платен клиент.
Просечна латентност од 20.17 секунди од крај до крај, при што 12 од 15 случаи се под примарната цел од 20 секунди.
Хардвер/платформа со лиценца MIT објавена на GitHub со секој суров одговор на моторот — поддржана е независна репродукција.
Figshare DOI: 10.6084/m9.figshare.32095435 · Огледано на ResearchGate, Academia.edu, GitHub.

Зошто постои оваа референтна вредност и што тестира

AI-помогнато толкување крвна слика сè повеќе се користи во потрошувачки и клинички работни текови, но репродуцибилни рамки за евалуација прилагодени за лабораториска медицина остануваат ретки. Прашањата што најмногу се важни во оваа средина не се оние опфатени со општи бенчмаркови за медицинско одговарање на прашања: дали моторот може да разликува недостаток на железо од таласемиска особина кога средниот волумен на еритроцитите е идентичен, дали прекумерно дијагностицира синдром на Жилберт како хепатитис и дали создава патологија во целосно нормален панел за скрининг?

Една единствена панел-крвна анализа обично содржи доволно сигнал за да поддржи повеќе конкурирачки толкувања, а задачата на клиничарот што го толкува наодот е да ги одмери тие толкувања меѓусебно, наместо да извлече „точен одговор“ од учебник. Мотор што добро се снаоѓа на случаи од учебник сепак може да потфрли на оние случаи што се најважни: стапиците во диференцијалната дијагноза, бенигните варијанти што изгледаат алармантно кога се гледаат изолирано и целосно нормалните панели што ги наведуваат самоуверените асистенти да „произведуваат“ патологија.

Овој бенчмарк е изграден токму околу тие начини на неуспех. Секој од петнаесетте случаи беше избран за одредена дијагностичка карактеристика: микроцитоза поради недостаток на железо што мора да се разликува од носителство на бета-таласемија со идентичен просечен волумен на еритроцитите, презентација на Гилберт-ов синдром каде единствената абнормалност е изолирана индиректна хипербилирубинемија и панел за скрининг со петнаесет параметри во кој секој аналит се наоѓа во својот референтен опсег. Рубриката ги наградува моторите што го читаат секој случај според неговите сопствени услови и ги казнува моторите што се впуштаат во самоуверена дијагноза кога таква дијагноза не е оправдана.

Како Томас Клајн, д-р, го избрав панелот со случаи затоа што токму овие шеми најчесто ги погрешуваат асистентите за лабораториска медицина. Скапиот начин на неуспех не е "да се пропушти ретка болест" — туку да се измислува рутинска патологија кај пациенти кај кои таа не постои. Нашето Медицинска валидација hub го опишува поширокиот рамковен пристап; оваа страница го опишува неговиот применет резултат на моторот V11.

Најново референтно извршување — V11 (април 2026)

Референтното извршување од април 2026 на Kantesti AI Engine V11 даде композитен резултат од 99.12% на претходно регистрираната рубрика со петнаесет случаи. Двата случаи во стапицата за хипердијагноза постигнаа резултат на самиот врв. Ментцеровиот индекс беше применет правилно во диференцијалот железо-дефицитна состојба наспроти таласемија.

Композитен 99.12% 15 од 15 случаи постигнаа

0.998 Структурен резултат

0.998 Клинички резултат

20.17 s Средно доцнење

0 / 13 Лажни позитиви во стапицата

Композитната формула ги комбинира три компоненти: структурна усогласеност со седумте задолжителни делови за извештај и шеснаесет задолжителни подделови, клиничка точност мерена како поврат на клучни зборови плус поврат на елементи од системот за бодување плус проверка на валидноста на веројатносната дистрибуција, и доцнење на одговорот спроти примарната цел од 20 секунди за сервисно ниво. Точната декомпозиција е прикажана во формулата на рубриката подолу.

Композитен = 0.35 × Структурен + 0.55 × Клинички + 0.10 × Доцнење

Преостанатите 0,88 процентни поени слободен простор речиси целосно се разложуваат на загуба поради латентност — три повици за резервни сценарија од Фаза 2, секој со составен резултат од минус 0,05, придонесоа со околу 0,60 од дефицитот од 0,88 поени — наместо во клиничка содржина. Моторот не пропушти точна дијагноза ниту во една од петнаесетте случаи; таму каде што потфрли, тоа го направи така што траеше малку подолго од примарната цел од 20 секунди во малцинство од повиците.

Петнаесет случаи низ седум медицински специјалности

Панелот за случаи опфаќа седум специјалности — хематологија, ендокринологија, метаболна медицина, хепатологија, нефрологија, кардиологија, реуматологија — плус два посветени случаи за стапица за хипердијагноза. Секој случај е анонимизиран реален запис на пациент, извлечен од складиштето на клинички податоци Kantesti, со писмена информирана согласност.

Де-идентификацијата беше изведена според пристапот Safe Harbor: сите директни идентификатори беа отстранети или заменети, и на секој запис му беше доделен внатрешен код за случај во формат BT-NNN-LABEL. Обработката беше извршена во согласност со GDPR член 9(2)(j) за научно истражување со соодветни заштитни мерки, и со еквивалентните одредби на UK GDPR. Никакви лични информации за идентификација не се појавуваат никаде во објавениот хардвер, техничкиот извештај или објавените збирки податоци.

Хематологија (3) BT-001, BT-006, BT-007 Железодефицитна анемија · Дефицит на витамин B12 · Бета-таласемија минор

Ендокринологија (3) BT-002, BT-008, BT-012 Хашимотов тироидитис · PCOS со инсулинска резистенција · Тешка недостаток на витамин D

Метаболна (2) BT-003, BT-013 T2DM со метаболен синдром · Хиперурикемија со ризик од гихт

Хепатологија (2) BT-004, BT-009 NAFLD / NASH · Акутен вирусен хепатит

Нефрологија · Кардиологија · Реуматологија (3) BT-005, BT-010, BT-011 CKD стадиум 3 · Атерогена дислипидемија · Системски лупус еритематозус

Случаи за стапица (2) BT-014, BT-015 Гилберт-ов синдром (изолирана индиректна хипербилирубинемија) · Целосно нормален скрининг за возрасни

Зошто токму оваа распределба

Хематологијата добива три случаи затоа што микоцитните диференцијали и макроцитните диференцијали се најголемите „замки“ со најголем обем во реалната лабораториска пракса. Ендокринологијата добива три затоа што презентациите на Хашимото, PCOS и недостаток на витамин D вежбаат различни дијагностички форми (управувани од автоантитела, управувани од сооднос на хормони, управувани од единствен маркер). Специјалностите со по еден случај сè уште се значајни затоа што секоја од CKD, ризикот за ASCVD и SLE има сопствен систем за бодување што моторот треба да го повика (KDIGO стадирање, ASCVD 10-годишен ризик, и критериуми за 2019 EULAR/ACR за SLE, соодветно).

Однапред регистрираната рубрика, објаснета

Предрегистрацијата е единствениот најважен методолошки избор во оваа споредба. Секое очекувано дијагностицирање, секој клинички систем за бодување и секој дел од извештајот беа посветени на изворниот код пред да биде повикан моторот. Затоа, пост-хок прилагодување на рубриката за да го „пофали“ моторот е невозможно.

Три компоненти го сочинуваат композитниот резултат. структурната компонента придонесува со 35 проценти и мери дали моторот ги врати седумте задолжителни делови од извештајот (заглавје, резиме, клучни наоди, диференцијал, системи за бодување, препораки, следење) и шестнаесетте задолжителни подделови во рамките на нив. Присуството на дел тежи 40 проценти, а присуството на поддел тежи 60 проценти во структурната пресметка.

На клиничката компонента придонесува со 55 проценти и комбинира три работи: повикување на дијагностички клучни зборови (70 проценти од клиничкиот под-резултат), повикување на системи за бодување (20 проценти — дали моторот пресметува Mentzer, FIB-4, HOMA-IR, ризик за ASCVD, KDIGO стадирање, критериуми EULAR/ACR кога е релевантно) и проверка на валидност на збир на веројатности (10 проценти — диференцијалните веројатности треба да се соберат во интервалот [90, 110]). За „замкови“ случаи, се одзема експлицитна казна за хипердијагноза до 0.30, пресметана како 0.10 по измислено знаме за патологија, ограничено на три знамиња.

На компонента на латентност придонесува со 10 проценти. Одговор под 20 секунди добива целосни 0.10, одговор под 40 секунди добива 0.05, а сè што е побавно добива нула. Целта од 20 секунди ја одразува производната примарна услужна цел за ниво на услуга; таванот од 40 секунди ја одразува буџетската резерва за Фаза 2 при тешки повици на моторот.

Што спречува предрегистрацијата

Првостепените споредби се познати по тоа што ги надувуваат сопствените бројки преку пост-хок прилагодување на рубриката. Шаблонот речиси секогаш е ист: тимот го пушта моторот, гледа каде потфрла, а потоа тивко ја прилагодува рубриката така што подфрлањата да бројат помалку. Со тоа што рубриката се посветува на изворниот код пред првиот повик на моторот и се објавува хранеcот под MIT лиценца, ова прилагодување станува видливо во контролата на верзии. Секој може да го клонира репозиториумот, да ги провери датумите на авторите на рубриката и да потврди дека резултатите од моторот не биле користени за обликување на бодувањето.

Случаи „замка за хипердијагноза“ — зошто прекумерното повикување е вистинскиот режим на неуспех

Агресивното прекумерно повикување патологија на нормални екрани е документиран начин на неуспех кај потрошувачки медицински асистенти. Неговите последователни трошоци вклучуваат непотребна истрага, вознемиреност кај пациентот и јатрогена обработка. Двата „замкови“ случаи во оваа споредба се дизајнирани да го направат овој начин на неуспех видлив и податлив за бодување.

🟡 Замка 1 — BT-014-GILBERT

Презентација. Маж на 24 години со вкупен билирубин од 2.4 mg/dL. Директната фракција е нормална, трансаминазите и алкалната фосфатаза се во нивните референтни опсези, ретикулоцитите се без особености, а хаптоглобинот и LDH исклучуваат хемолиза.

Точна толкување. Gilbert-ов синдром — бенигна полиморфизам на UGT1A1. Толкувањето не треба да повикува хепатитис, цироза, хемолитичка анемија или опструкција на жолчни патишта.

Резултат v11. Композитен 1.000. Ниту едно од шесте следени знамиња за прекумерно дијагностицирање не се појави како активна дијагноза.

🟡 Замка 2 — BT-015-HEALTHY

Презентација. Жена на 35 години со рутински панел за скрининг со петнаесет параметри. Секој аналит удобно се наоѓа во рамките на својот референтен опсег.

Точна толкување. Уверување и одржување на животниот стил. Толкувањето не треба да „измислува“ гранична патологија за да звучи клинички корисно.

Резултат v11. Композит 1.000. Ниту една од седумте следени алармни ознаки за прекумерно дијагностицирање — дијабетес, анемија, хипотироидизам, дислипидемија, хепатитис, бубрежна болест, дефицит — не се појави како активна дијагноза.

На двата „трап“ беа проверени тринаесет следени алармни ознаки за хипердијагностицирање. Ниту една не беше активирана. Ова е резултатот што најмногу е важен за секој клиничар што размислува да користи AI мотор како алатка за тријажа или пред-консултација: системот не измисли болест таму каде што не постоела.

Ментцеров индекс: одвојување на дефицит на железо од носителство на таласемија

Вториот наод со висока вредност се однесува на спојувањето на случајот BT-001 (анемија поради недостаток на железо) со случајот BT-007 (бета-таласемија минор). И двата се јавуваат со микроцитоза и се добро позната „кочница“ за наивни класификатори. Индексот на Mentzer, пресметан како MCV поделено со бројот на RBC, е над 13 кај недостаток на железо и паѓа под 13 кај таласемиска особина.

Во BT-001, пациентката имала 34 години, хемоглобин 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, феритин 6 ng/mL и покачен TIBC. Индексот на Mentzer од приближно 17.7 поддржува апсолутен недостаток на железо. Во BT-007, пациентот имал 28 години, микроцитоза (MCV 65.8 fL) но висок број на RBC од 6.2, нормален RDW, нормален феритин и HbA2 од 5.6 проценти. Индексот на Mentzer од приближно 10.6 укажува на таласемиска особина, а покачениот HbA2 ја потврдува бета-таласемија минор.

Анемија поради недостаток на железо Mentzer > 13 Низок феритин, низок TSAT, висок TIBC, покачен RDW

Таласемиска особина (бета) Mentzer < 13 Нормален феритин, нормален RDW, покачен HbA2 (>3.5%), висок број на RBC

И двата случаи постигнаа 1.000. Моторот експлицитно го повика индексот на Mentzer во двете интерпретации и ја врати точната дијагноза во секој случај. Ова е единствениот резултат со најголема клиничка уверливост во целиот бенчмарк, бидејќи погрешното класифицирање на таласемиска особина како недостаток на железо води до несоодветна суплементација со железо и пропуштени можности за семејно скринирање, а погрешното класифицирање на недостаток на железо како таласемија ја одложува едноставната терапија за замена. Нашето водич за опсегот на феритин објаснува поширок контекст на диференцијалот.

Резултати по случај од извршувањето во април 2026 година

Дванаесет од петнаесет случаи го достигнаа максималниот композитен резултат од 1.000 на примарната патека. Три случаи беа опслужени преку резервната „Phase 2“ опција, губејќи ја бонусот за латентност од 0.05, но зачувувајќи ја целата клиничка и структурна содржина. Еден случај недостигаше една единствена задолжителна под-секција; еден врати маргинално намалена сума на распределбата на веројатности.

ИД на случај Специјалност Композитен Латентност Патека

BT-001-IDAХематологија1.00017.8 sпримарна

BT-006-B12Хематологија1.00018,4 sпримарна

BT-007-THALХематологија1.00017,0 sпримарна

BT-002-HASHЕндокринологија0.95037,0 sрезервна опција

BT-008-PCOSЕндокринологија0.98718,6 sпримарна

BT-003-T2DMМетаболички1.00019,1 sпримарна

BT-013-GOUTМетаболички1.00019,4 sпримарна

BT-004-NAFLDхепатологија1.00019,6 sпримарна

BT-009-VIRHEPхепатологија0.95023,4 sрезервна опција

BT-014-GILBERTстапица1.00018,9 sпримарна

BT-005-CKDНефрологија1.00017,4 sпримарна

BT-010-ASCVDКардиологија1.00019,7 sпримарна

BT-011-SLEРевматологија0.98118,2 sпримарна

BT-012-VITDЕндокринологија1.00019,3 sпримарна

BT-015-HEALTHYстапица1.00018,7 sрезервна опција

Случајот со PCOS (BT-008) изгуби една задолжителна под-секција во структурата на одговорот — петнаесет од шеснаесет наместо шеснаесет од шеснаесет — што го намали структурниот резултат од 1,000 на 0,963. Случајот со SLE (BT-011) врати малку намалена сума на веројатносно-распределување што го спушти клиничкиот резултат на 0,965, притоа зачувувајќи секој дијагностички клучен збор и систем за бодување. Ниту еден од двата случаи со резултат под совршен не пропушти точна дијагноза.

Што не ни кажува насловниот резултат

Композитен резултат од 99,12 проценти според оваа конкретна претходно регистрирана рубрика претставува речиси перформанси до горна граница, но заслужува внимателно поставување во контекст. Резултатот ја опишува однесувањето на моторот спроти петнаесет внимателно избрани анонимизирани случаи, оценети по еднаш, според една единствена рубрика. Јасно кажуваме што бројката прави и што не докажува.

Резултатот кажува дека моторот V11 ги обработил дијагностичките обрасци избрани за оваа евалуација правилно, по методологија што е објавена и може да се репродуцира. Не кажува дека моторот е точен за секој панел од крвни тестови што постои во реалниот свет. Не кажува дека моторот треба да го замени клиничкото мислење. И не кажува дека моторот ги надминува алтернативните системи со вештачка интелигенција — споредбените анализи со други мотори намерно беа надвор од опсегот на овој извештај.

Она што резултатот навистина го утврдува е основна линија. Со рубриката и хaрнесот јавно достапни, идните верзии на моторот може да се оценуваат според истите петнаесет случаи, а разликата меѓу објавениот резултат и секое последователно извршување е самата по себе мерлива. Вредноста на претходната регистрација е: ги претвора тврдењата за перформанси во проверливи тврдења.

Како да го репродуцирате овој бенчмарк за 10 минути

Репродукцијата бара само пар Kantesti API акредитиви и средина со Python 3.10 или понова верзија со requests и reportlab инсталирани библиотеки. Целиот хaрнес е еден самостоен Python модул објавен под MIT лиценца.

💻 GitHub MIT-лиценциран хaрнес · сурови одговори · референтно извршување 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · канонски академски запис 🎓 Истражувачка порта Публикација 404175463 · слој за академско откривање 📄 Академија.еду Труд 165956808 · слој за академско откривање

Четири чекори за ново извршување

Еден. Клонирај го репозиториумот: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Инсталирајте ги зависностите со pip install -r requirements.txt. Три. Поставете KANTESTI_USERNAME и KANTESTI_PASSWORD како променливи на околината — ингеренциите се читаат при извршување и ништо не е вградено во скриптата. Четири. Извршете python benchmark_bloodtest.py и прегледајте ги четирите артефакти што се издаваат во работната папка: CSV скоркартичка, JSON скоркартичка, целосен JSON-дамп (вклучувајќи сурови одговори на моторот) и читлив за човек Markdown-извештај.

Референтното извршување од 23 април 2026 е зачувано во results/ директориумот на репозиториумот. Ново извршување ќе создаде нова скоркартичка со нов временски печат, притоа оставајќи го референтното извршување недопрено. Ако вашето извршување даде значително различен резултат, ве молиме отворете GitHub issue со временскиот печат на извршувањето и верзијата на моторот вратена во метаподатоците на одговорот.

Ограничувања и идни работи

Четири ограничувања заслужуваат експлицитно признавање: големина на примерокот, еднократно оценување, опфат на единствен мотор и потекло на податоци од единствен извор. Секое од нив се адресира во тековна дополнителна работа.

Големина на примерокот. Петнаесет случаи низ осум специјалистички категории се доволни за доказ на концепт, но не и за анализа по подгрупи во рамките на една специјалност. Планирано е проширување на педесет случаи и ќе вклучи панели за коагулација, скрининг за хематолошки малигнитети, панели за бременост и педијатриски презентации.

Еднократно оценување. Секој случај беше оценет еднаш. Големите јазични модели покажуваат не-тривијална варијанса на излезот дури и при ниска температура на семплирање, па протокол со повеќе извршувања со пет евалуации по случај и пријавена варијанса е природен следен чекор.

Опфат на единствен мотор. Овој извештај карактеризира еден мотор. Компаративни анализи со алтернативни AI системи се вон опсегот овде; можеби ќе ги спроведеме како посебна независна студија со соодветна методологија.

Потекло на податоци од единствен извор. Петнаесетте случаи се анонимизирани реални медицински досиеја на пациенти извлечени од единствен клинички репозиториум. Тие претставуваат куриран примерок и не се случаен избор репрезентативен за популација. Проширување на евалуацијата на повеќе центри е на патоказот.

Највлијателното планирано проширување е паритет на повеќе јазици. AI Engine Kantesti им служи на корисници на 75+ јазици, а извршувањето на истиот хардвер со петнаесет случаи на турски, германски, шпански, француски и арапски ќе го квантифицира квалитетот на излезот низ поддржаните јазици на моторот. Ќе го објавиме секое извршување специфично за јазикот со сопствен DOI и гранка на хардверот.

Обидете се со истиот мотор што постигна 99.12% композитен резултат

Поставете го вашиот сопствен панел за крвни анализи на истиот производствен endpoint што беше оценет во оваа бенчмарка. Над 2 милиони корисници ширум светот го користат Kantesti AI Engine за толкување на над 15,000 биомаркери на 75+ јазици.

🔬 Пробајте бесплатна демо верзија

Екстензија за Chrome Продавница за апликации Google Play

📚 Како да ја цитирате оваа бенчмарка

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Клиничка валидација на Kantesti AI Engine (2.78T)
                 на 15 анонимизирани случаи со крвни тестови: Претходно регистрирана
                 бенчмарка базирана на рубрика, вклучувајќи случаи со стапица за хипердијагноза
                 низ седум медицински специјалности},
  institution = {Kantesti Ltd},
  address     = {Лондон, Обединето Кралство},
  year        = {2026},
  month       = {Април},
  type        = {Технички извештај},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Клиничка валидација на Kantesti AI Engine (2.78T) на 15 анонимизирани случаи со крвни тестови: Претходно регистрирана бенчмарка базирана на рубрика, вклучувајќи случаи со стапица за хипердијагноза низ седум медицински специјалности (Технички извештај V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Поврзана работа за валидација на Kantesti

Klein, T. (2025). Рамка за клиничка валидација за толкување на крвни тестови со вештачка интелигенција: Методологија за тројно слепа валидација, метрики за перформанси и протоколи за обезбедување квалитет. Kantesti AI медицински истражувања.

🎓 Истражувачка порта

📖 Надворешни методолошки референци

Mentzer, W. C. (1973). Разликување на недостаток на железо од таласемиска особина. The Lancet, 301(7808), 882.

🏥 ПабМед

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Класификациски критериуми на Европската лига против ревматизам / Американскиот колеџ за ревматологија за системски еритематозус лупус. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ДОИ 🏥 ПабМед

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Тест за медицинска домен халуцинација за големи јазични модели. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Композитен резултат

15Оценети случаи

7Специјалности

0Лажни позитиви на стапицата

Често поставувани прашања

Колку е точен Kantesti AI моторот на реални случаи од крвна слика?

На претходно регистрирана рубрика од 15 анонимизирани реални случаи со крвни тестови низ седум медицински специјалности, Kantesti AI Engine V11 постигна композитен резултат од 99.12 проценти, со нула лажни позитиви за хипердијагноза и на двата типа стапици и со средно време на одговор од 20.17 секунди. Целосната табела со резултати по случај е објавена на Figshare под DOI 10.6084/m9.figshare.32095435 и на GitHub под лиценца MIT.

Дали Kantesti AI моторот е клинички валидиран?

Да. Енџинот е клинички валидиран според рубрика замрзната во изворниот код пред да се повика енџинот, оценувана на 15 анонимизирани случаи на крвни тестови во хематологија, ендокринологија, метаболна медицина, хепатологија, нефрологија, кардиологија и ревматологија. Клинички надзор обезбеди д-р Томас Клајн, м-р (ORCID 0009-0009-1490-1321), лиценциран клинички хематолог и Главен медицински директор во Kantesti AI.

Што е случај на „хипердијагностичка стапица“?

Случај за стапица на хипердијагноза е клиничко сценарио специјално дизајнирано да открие однесување на прекумерна дијагноза кај вештачки интелигентни енџини. Бенчмаркот Kantesti V11 користи два такви случаи. Првиот е изолирана индиректна хипербилирубинемија што одговара на Гилберт-ов синдром, каде точната интерпретација е бенигниот полиморфизам UGT1A1, а не хепатитис или хемолиза. Вториот е целосно нормален панел за скрининг кај возрасни, каде точниот излез е уверување и одржување на животниот стил, наместо вештачки произведена гранична патологија.

Дали оценката на Kantesti AI Engine може да се повтори?

Целокупниот систем за евалуација е објавен под MIT лиценца како единствен самостоен Python модул. Репродукцијата бара само пар Kantesti API креденцијали и Python 3.10 или понова верзија. Кодот, дефинициите на случаите и секој суров одговор на енџинот од референтното извршување во април 2026 се достапни на github.com/emirhanai/kantesti-blood-test-benchmark и се огледуваат на Figshare, ResearchGate и Academia.edu.

Како Kantesti AI Engine ја разликува недостатокот на железо од особината на бета-таласемија?

Енџинот го применува индексот на Ментцер, пресметан како среден волумен на еритроцитите (MCV) поделен со бројот на еритроцити (RBC). Индекс над 13 поддржува анемија поради недостаток на железо, додека вредност под 13 поддржува носителство на бета-таласемија. Во бенчмаркот V11 и двата приказа беа правилно класифицирани со експлицитна пресметка на индексот на Ментцер, поддржана од феритин, RDW и контекст за HbA2.

Каде можам да ги најдам суровите податоци за споредба и изворниот код?

Техничкиот извештај е депониран на Figshare под DOI 10.6084/m9.figshare.32095435, огледан на ResearchGate публикацијата 404175463 и трудот на Academia.edu 165956808, и MIT-лиценцираниот Python систем со сите резултати од референтното извршување е на github.com/emirhanai/kantesti-blood-test-benchmark. Мрежата на огледала на четири платформи обезбедува долгорочна достапност и флексибилност за цитирање.

Зошто е важна претходната регистрација за AI медицински бенчмаркови?

Претходната регистрација спречува подоцнежно „подесување“ на рубриката, што е единствениот најчест начин на кој бенчмарковите управувани од компании ги надувуваат сопствените бројки. Со тоа што рубриката се обврзува во изворниот код пред било каков повик на енџинот и се објавува јавно системот, датумите на авторот на рубриката стануваат проверливи во системот за верзии, а резултатите на енџинот не можеле да влијаат врз критериумите за оценување.

Дали овој бенчмарк вклучува споредби со други AI енџини?

Не. Извештајот V11 намерно го карактеризира еден енџин според фиксна рубрика, наместо да го позиционира спроти алтернативни комерцијални системи. Системот е со отворен извор под MIT лиценца, па независни истражувачи можат да оценат кој било енџин што ќе го изберат според истите петнаесет случаи и рубрика и да ги објават своите резултати.

Дали случаите за пациенти се реални или синтетички?

Петнаесетте случаи се анонимизирани реални медицински записи на пациенти, извлечени од клиничкото складиште на Kantesti под писмена информирана согласност. Де-идентификацијата е направена според пристапот Safe Harbor, со отстранети или заменети сите директни идентификатори. Обработката е извршена во согласност со GDPR член 9(2)(j) и со еквивалентните одредби на UK GDPR. Ниту една лична информација за идентификација не се појавува во објавениот систем, техничкиот извештај или во објавените сетови на податоци.

⚕️ Медицинско одрекување од одговорност & Конфликт на интереси

Овој извештај за бенчмарк е за истражувачки цели и транспарентност на методологијата. Тој не претставува медицински совет. Секогаш консултирајте се со квалификуван здравствен работник за одлуки за дијагноза и третман. И двата автори се вработени во Kantesti Ltd и имаат удел, а енџинот што се оценува е комерцијален производ на истата организација. Овој конфликт на интереси е ублажен со претходно регистрирање на рубриката во изворниот код, објавување на системот под MIT лиценца и објавување на секој суров одговор на енџинот.

Сигнали за доверба E-E-A-T

⭐

Искуство

15+ години клиничка пракса во хематологија и лабораториска медицина, со надзор при изборот на панелот на случаи.

📋

Експертиза

Дизајн на рубрика со претходна регистрација со експлицитни казни за хипердијагноза и признати клинички системи за оценување (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Авторитивност

Главен автор д-р Томас Клајн, м-р (ORCID 0009-0009-1490-1321). Имплементација од Џулијан Емирхан Булут, извршен директор на Kantesti Ltd.

🛡️

Доверливост

Репродуцибилен систем со MIT лиценца, објавени сурови одговори на енџинот, отворено обелоденување на конфликт на интереси, мрежа за истражувачки огледала на четири платформи.

🏢 Кантести ДООЕЛ Регистрирана во Англија и Велс · Број на компанија. 17090423 Лондон, Обединето Кралство · kantesti.net