Kantesti AI кръвен анализ — клинична валидация

Клинично валидиране Предварително регистриран бенчмарк V11 — април 2026 Лиценз MIT Проверяем от независими участници

99.12% композитен резултат по предварително регистрирана рубрика с нулеви фалшиви положителни резултати при хипердиагностика

Независима, предварително регистрирана клинична оценка на Kantesti AI Engine върху анонимизирани случаи от кръвни изследвания. Критерият (рубрика) беше замразен в изходния код преди първото извикване на двигателя, средата за оценка е с лиценз MIT, а всяка сурова реакция е публикувана.

📖 ~14 минути 📅 23 април 2026 г. 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Публикувано: 23 април 2026 г. 🩺 Медицински прегледано: 23 април 2026 г. ✅ Предварително регистрирана рубрика 🔓 Отворен код и данни

Това клинично валидиращо проучване беше ръководено от Д-р Томас Клайн, главен медицински директор в Kantesti AI, в сътрудничество с Джулиан Емирхан Булут, старши AI инженер и главен изпълнителен директор на Kantesti Ltd. Методологията и рубриката бяха прегледани от Медицински консултативен съвет на Кантести ИИ.

Водещ автор & клиничен надзор

Томас Клайн, д-р

Главен медицински директор, Кантести АИ

Д-р Томас Клайн е сертифициран клиничен хематолог и интернист с над 15 години опит в лабораторната медицина. Като главен медицински директор в Kantesti AI, той избра панела от случаи за този бенчмарк, прегледа всички диагностични „ground truths“ и одобри предварително регистрираната рубрика преди първото извикване на двигателя.

ORCID 0009-0009-1490-1321 ResearchGate Google Наука

Съавтор & внедряване

Джулиан Емирхан Булут

Старши AI инженер & главен изпълнителен директор, Kantesti Ltd

Джулиан Емирхан Булут е основател и главен изпълнителен директор на Kantesti Ltd. Той проектира и внедри средата за оценка, извърши интеграцията на API, проведе бенчмарк изпълнението през април 2026 и подготви статистическата агрегация. Основател на платформата от 2019 г.

GitHub Относно Кантести

⚡ Кратко резюме V11 — 23 април 2026 г.

Композитен резултат 99.12% на 15 анонимизирани реални случаи с кръвни изследвания в седем медицински специалности.
Нулеви фалшиви позитиви при свръхдиагностика и при двата „trap“ случая (синдром на Гилбърт и напълно нормален скрининг при възрастен).
Предварително регистрирана рубрика „замразена“ в изходния код преди първото извикване на двигателя — не е възможно настройване „post-hoc“.
Индексът на Ментцер е приложен коректно за разграничаване на желязодефицитна анемия от бета-таласемия минор.
Само производствена крайна точка (endpoint) — без привилегирано маршрутизиране; оценявано точно както би го достъпил платен клиент.
Средна латентност 20.17 секунди от край до край, като 12 от 15 случая са под целта за 20 секунди по основния път.
Хранилище (harness) с лиценз MIT публикувано в GitHub с всеки суров отговор на двигателя — подкрепя се независима репликация.
DOI в Figshare: 10.6084/m9.figshare.32095435 · Огледално копие в ResearchGate, Academia.edu, GitHub.

Защо съществува този бенчмарк и какво тества

AI подпомогнатото кръвни изследвания тълкуване все по-често се използва в потребителски и клинични процеси, но възпроизводими рамки за оценка, пригодени за лабораторна медицина, остават сравнително редки. Въпросите, които имат най-голямо значение в тази среда, не са тези, обхванати от общи бенчмаркове за медицинско въпрос-отговор: може ли един двигател да отдели желязодефицит от таласемична черта, когато средният обем на еритроцитите е идентичен; наддиагностицира ли синдрома на Гилбърт като хепатит; и създава ли „патология“ в напълно нормален скринингов панел?

Единен панел от кръвни изследвания обикновено съдържа достатъчно информация, за да подкрепи няколко конкуриращи се интерпретации, а задачата на лекаря, който интерпретира, е да претегли тези интерпретации една спрямо друга, вместо да извлече „правилен“ отговор от учебник. Двигател, който се справя добре с казуси от учебников тип, може все пак да се провали именно в най-важните случаи: капаните при диференциалната диагноза, доброкачествените варианти, които изглеждат тревожни, когато се разглеждат изолирано, и напълно нормалните панели, които изкушават уверени асистенти да „произвеждат“ патология.

Този бенчмарк е създаден точно около тези механизми на провал. Всеки от петнадесетте случая е подбран за конкретна диагностична особеност: микроцитоза при дефицит на желязо, която трябва да се различава от носителство на бета-таласемия с идентичен среден обем на еритроцитите, клинична картина при синдром на Гилбърт, при която единствената аномалия е изолирана индиректна хипербилирубинемия, и скринингов панел с петнадесет параметъра, в който всяка анализирана величина се намира в референтния си диапазон. Критерият възнаграждава двигатели, които четат всеки случай според собствените му условия, и наказва двигатели, които стигат до уверена диагноза, когато такава диагноза не е оправдана.

Като д-р Томас Клайн избрах панелите от случаи, защото това са моделите, които асистентите по лабораторна медицина най-често разбират погрешно. Скъпият механизъм на провал не е "пропускане на рядко заболяване" — а измисляне на рутинна патология при пациенти, които нямат такава. Нашите Медицинско валидиране hub описва по-широката рамка; тази страница описва приложния ѝ резултат върху двигател V11.

Последно референтно изпълнение — V11 (април 2026)

Референтното изпитване от април 2026 г. на Kantesti AI Engine V11 даде композитен резултат от 99.12% по предварително регистрираната рубрика с петнадесет случая. И двата случая в капана на хипердиагнозата получиха максималния резултат. Индексът на Mentzer беше приложен правилно при диференциалната диагноза желязодефицитност срещу таласемия.

Композитен 99.12% 15 от 15 случая са с резултат

0.998 Структурен резултат

0.998 Клиничен резултат

20.17 s Средна латентност

0 / 13 Фалшиви позитиви в капаните

Композитната формула комбинира три компонента: структурно съответствие с седемте задължителни раздела на отчета и шестнадесет задължителни подраздела, клинична точност измерена като припомняне на ключови думи плюс припомняне на резултатната система плюс проверка за валидност на вероятностното разпределение, и латентност на отговора спрямо основната цел за ниво на услугата от 20 секунди. Точното разлагане е показано във формулата на рубриката по-долу.

Композитен = 0.35 × Структурен + 0.55 × Клиничен + 0.10 × Латентност

Останалите 0,88 процентни пункта свободен резерв се разлагат почти изцяло на загуба от латентност — три извиквания за резервни сценарии от фаза 2, всяко с композитен принос по -0,05, са допринесли с около 0,60 от недостига от 0,88 пункта — вместо в клинично съдържание. Двигателят не е пропуснал правилна диагноза нито в нито един от петнадесетте случая; където е отстъпил, го е направил, като е отнел малко повече от целевите 20 секунди за първичния път в малка част от извикванията.

Петнадесет случая в седем медицински специалности

Панелът по случаи обхваща седем специалности — хематология, ендокринология, метаболитна медицина, хепатология, нефрология, кардиология, ревматология — плюс два специално предназначени „капана“ за хипердиагностика. Всеки случай представлява анонимизиран реален медицински запис на пациент, извлечен от репозитория за клинични данни Kantesti при писмено информирано съгласие.

Анонимизацията е извършена по подхода Safe Harbor: всички директни идентификатори са премахнати или заменени, и на всеки запис е присвоен вътрешен код за случая в бенчмарк формат BT-NNN-LABEL. Обработката е извършена в съответствие с GDPR, член 9(2)(j) за научни изследвания с подходящи предпазни мерки и еквивалентните разпоредби на UK GDPR. Никаква лична информация, която може да идентифицира дадено лице, не се появява никъде в публикуваното „harness“, техническия доклад или предоставените набори от данни.

Хематология (3) BT-001, BT-006, BT-007 Желязодефицитна анемия · Дефицит на B12 · Малка бета-таласемия

Ендокринология (3) BT-002, BT-008, BT-012 Тиреоидит на Хашимото · PCOS със инсулинова резистентност · Тежък дефицит на витамин D

Метаболитни (2) BT-003, BT-013 T2DM със метаболитен синдром · Хиперурикемия с риск от подагра

Хепатология (2) BT-004, BT-009 NAFLD / NASH · Остро вирусно хепатитно заболяване

Нефрология · Кардиология · Ревматология (3) BT-005, BT-010, BT-011 ХБН стадий 3 · Атерогенна дислипидемия · Системен лупус еритематозус

„Капан“ случаи (2) BT-014, BT-015 Синдром на Гилбърт (изолирана индиректна хипербилирубинемия) · Напълно нормален скрининг при възрастни

Защо точно това разпределение

Хематология получава три случая, защото микрoцитните диференциални диагнози и макроцитните диференциални диагнози са най-обемните „капани“ в реалната лабораторна практика. Ендокринологията получава три, защото проявите при Хашимото, PCOS и дефицит на витамин D имат различни диагностични „форми“ (задвижвани от автоантитела, задвижвани от хормонални съотношения, задвижвани от единичен маркер). Специалностите с по един случай остават значими, защото при всеки от CKD, риска от ASCVD и SLE има собствена система за оценяване, която двигателят трябва да извика (съответно стадиране по KDIGO, 10-годишен риск по ASCVD, критерии за SLE от 2019 EULAR/ACR).

Предварително регистрираната рубрика, обяснена

Регистрацията преди започване (pre-registration) е най-важният методологичен избор в този бенчмарк. Всяка очаквана диагноза, всяка клинична система за оценяване и всяка секция в отчета са ангажирани към изходния код преди да бъде извикан двигателят. Следователно пост-хок настройване на рубриката, за да „погали“ двигателят, е невъзможно.

Три компонента формират композитния резултат. структурният компонент допринася 35 процента и измерва дали двигателят е върнал седемте задължителни секции на отчета (заглавна част, обобщение, ключови находки, диференциал, системи за оценяване, препоръки, проследяване) и шестнадесетте задължителни под-секции в рамките на тях. Наличието на секции тежи 40 процента, а наличието на под-секции тежи 60 процента в структурното изчисление.

The клиничният компонент допринася 55 процента и комбинира три неща: припомняне на диагностични ключови думи (70 процента от клиничния под-резултат), припомняне на системи за оценяване (20 процента — дали двигателят изчислява Mentzer, FIB-4, HOMA-IR, риска по ASCVD, стадирането по KDIGO, критериите EULAR/ACR, когато е релевантно) и проверка за валидност на сумата на вероятностите (10 процента — диференциалните вероятности трябва да се сумират в интервала [90, 110]). За „капановите“ случаи се изважда изрично наказание за хипердиагностика до 0.30, изчислено като 0.10 за всяко измислено флагче за патология, с ограничение до три флага.

The компонентът за латентност допринася 10 процента. Отговор под 20 секунди получава пълните 0.10, отговор под 40 секунди получава 0.05, а всичко по-бавно получава нула. Целта от 20 секунди отразява производствената цел за ниво на обслужване за първичната услуга; таванът от 40 секунди отразява резервния бюджет за „fallback“ във Фаза 2 при тежки извиквания на двигател.

Какво предотвратява pre-registration

Първо-лицевите (first-party) бенчмаркове са известни с това, че надуват собствените си резултати чрез пост-хок настройване на рубриката. Моделът почти винаги е същият: екипът пуска двигателят, вижда къде се представя зле, а след това тихо настройва рубриката така, че зоните с недостатъчно представяне да „тежат“ по-малко. Като ангажира рубриката към изходния код преди първото извикване на двигател и публикува хранилището под лиценз MIT, тази настройка става видима в системата за контрол на версиите. Всеки може да клонира репозитория, да провери датите на авторство на рубриката и да потвърди, че резултатите от двигателят не са били използвани за оформяне на оценяването.

Казуси за хипердиагностика — защо прекаленото „обаждане“ е истинският режим на провал

Агресивното прекомерно „обаждане“ на патология при нормални екрани е документиран режим на отказ при медицински асистенти, насочени към потребители. Последващите разходи включват ненужно изследване, тревожност на пациента и ятрогенна обработка. Двата „капанови“ случая в този бенчмарк са проектирани да направят този режим на отказ видим и подлежащ на оценяване.

🟡 Капан 1 — BT-014-GILBERT

Проява. Мъж на 24 години с общ билирубин 2.4 mg/dL. Директната фракция е нормална, трансаминазите и алкалната фосфатаза са в рамките на референтните им стойности, ретикулоцитите са без особености, а хаптоглобинът и LDH изключват хемолиза.

Правилно тълкуване. Синдром на Гилбърт — доброкачествен полиморфизъм на UGT1A1. Тълкуването не трябва да извиква хепатит, цироза, хемолитична анемия или билиарна обструкция.

Резултат v11. Композитен 1.000. Нито един от шестте наблюдавани флага за свръхдиагностика не се появи като активна диагноза.

🟡 Капан 2 — BT-015-HEALTHY

Проява. Жена на 35 години с рутинен скринингов панел с петнадесет параметъра. Всяка аналитична стойност се намира удобно в рамките на референтния си диапазон.

Правилно тълкуване. Успокоение и поддържане на начина на живот. Тълкуването не трябва да „измисля“ гранична патология, за да звучи клинично полезно.

Резултат v11. Композит 1.000. Нито една от седемте наблюдавани аларми за свръхдиагностициране — диабет, анемия, хипотиреоидизъм, дислипидемия, хепатит, бъбречно заболяване, дефицит — не се появи като активна диагноза.

И в двата „капака“ бяха проверени тринадесет наблюдавани аларми за свръхдиагностициране. Нито една не се задейства. Това е резултатът, който има най-голямо значение за всеки клиницист, който обмисля използването на AI двигател като инструмент за триаж или предконсултационна оценка: системата не е измислила заболяване, когато такова не е съществувало.

Индекс на Mentzer: разграничаване на дефицит на желязо от носителство на таласемия

Второто високостойностно откритие се отнася до съчетаването на случай BT-001 (желязодефицитна анемия) с случай BT-007 (бета-таласемия минор). И двата случая се представят с микроцитоза и са добре известна спънка за наивни класификатори. Индексът на Mentzer, изчислен като MCV, разделено на броя на RBC, е над 13 при желязодефицит и пада под 13 при таласемичен признак.

В BT-001 пациентът е 34-годишна жена с хемоглобин 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, феритин 6 ng/mL и повишен TIBC. Индексът на Mentzer, приблизително 17.7, подкрепя абсолютен железен дефицит. В BT-007 пациентът е 28-годишен мъж с микроцитоза (MCV 65.8 fL), но с висок брой RBC 6.2, нормален RDW, нормален феритин и HbA2 5.6 процента. Индексът на Mentzer, приблизително 10.6, насочва към таласемичен признак, а повишеният HbA2 потвърждава бета-таласемия минор.

Желязодефицитна анемия Mentzer > 13 Нисък феритин, нисък TSAT, висок TIBC, повишен RDW

Таласемичен признак (бета) Mentzer < 13 Нормален феритин, нормален RDW, повишен HbA2 (>3.5%), висок брой RBC

И двата случая са получили 1.000. Двигателят е използвал изрично индекса на Mentzer и в двете интерпретации и е върнал правилната диагноза във всеки отделен случай. Това е най-еднозначно успокояващият клинично резултат в целия бенчмарк, защото грешното класифициране на таласемичен признак като желязодефицит води до неподходяща добавка с желязо и пропуснати възможности за скрининг на фамилията, а грешното класифициране на желязодефицит като таласемия забавя лесната заместителна терапия. Нашият диапазон за феритин обяснява по-широкия диференциален контекст.

Резултати за всеки случай от изпълнението през април 2026 г.

Дванадесет от петнадесет случая постигнаха таванния композитен резултат 1.000 по основния път. Три случая бяха обслужени чрез „fallback“ от Фаза 2, като загубиха бонуса за латентност 0.05, но запазиха цялото клинично и структурно съдържание. В един случай липсваше една единствена задължителна подсекция; в един случай сумата на вероятностното разпределение беше леко намалена.

Идентификатор на случая Специалност Композитен Латентност Път

BT-001-IDAХематология1.00017.8 sосновен

BT-006-B12Хематология1.00018.4 sосновен

BT-007-THALХематология1.00017.0 sосновен

BT-002-HASHЕндокринология0.95037.0 sрезервен вариант

BT-008-PCOSЕндокринология0.98718.6 sосновен

BT-003-T2DMМетаболитен1.00019.1 sосновен

BT-013-GOUTМетаболитен1.00019.4 sосновен

BT-004-NAFLDХепатология1.00019.6 sосновен

BT-009-VIRHEPХепатология0.95023.4 sрезервен вариант

BT-014-GILBERTКапан1.00018.9 sосновен

BT-005-CKDНефрология1.00017.4 sосновен

BT-010-ASCVDКардиология1.00019.7 sосновен

BT-011-SLEРевматология0.98118,2 sосновен

BT-012-VITDЕндокринология1.00019,3 sосновен

BT-015-HEALTHYКапан1.00018,7 sрезервен вариант

Случаят с PCOS (BT-008) загуби една задължителна подрубрика в структурата на отговора — петнадесет от шестнадесет вместо шестнадесет от шестнадесет — което свали структурния резултат от 1,000 до 0,963. Случаят със SLE (BT-011) върна гранично намалена сума на вероятностното разпределение, която понижи клиничния резултат до 0,965, като запази всяка диагностична ключова дума и система за оценяване. Нито един от двата случая с резултат под перфектния не пропусна правилна диагноза.

Какво не ни казва водещият (headline) резултат

Композитен резултат от 99,12 процента по тази конкретна предварително регистрирана рубрика представлява почти таванно представяне, но заслужава внимателно рамкиране. Резултатът описва поведението на двигателя спрямо петнадесет внимателно подбрани анонимизирани случая, оценявани по веднъж всеки, спрямо една-единствена рубрика. Ние сме категорични какво установява числото и какво не установява.

Резултатът казва, че двигателят V11 е обработил правилно диагностичните модели, избрани за това оценяване, по методология, която е публикувана и възпроизводима. Той не казва, че двигателят е коректен за всеки панел от кръвни изследвания, който съществува в реалния свят. Не казва, че двигателят трябва да замени клиничната преценка. И не казва, че двигателят превъзхожда алтернативни AI системи — сравнителните анализи спрямо други двигатели умишлено бяха извън обхвата на този доклад.

Това, което резултатът установява, е базова линия. С рубриката и „хънарнес“-а, които са публични, бъдещите версии на двигателя могат да бъдат оценявани спрямо същите петнадесет случая, а разликата между публикувания резултат и всяко последващо изпълнение е самата по себе си измерима. Това е стойността на предварителната регистрация: тя превръща твърденията за представяне в проверими твърдения.

Как да възпроизведете този бенчмарк за 10 минути

Възпроизводимостта изисква само двойка идентификационни данни за Kantesti API и среда с Python 3.10 или по-нова, с requests и reportlab инсталирани библиотеки. Пълният „хънарнес“ е един-единствен самостоятелен Python модул, пуснат под MIT лиценза.

💻 GitHub „Хънарнес“ с MIT лиценз · сурови отговори · референтно изпълнение 🔗 DOI в Figshare 10.6084/m9.figshare.32095435 · каноничен академичен запис 🎓 ResearchGate Публикация 404175463 · академичен слой за откриване 📄 Academia.edu Доклад 165956808 · академичен слой за откриване

Четири стъпки за ново изпълнение

Една. Клонирайте хранилището: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Две. Инсталирайте зависимостите с pip install -r requirements.txt. Три. Задайте KANTESTI_USERNAME и KANTESTI_PASSWORD като променливи на средата — идентификационните данни се четат по време на изпълнение и нищо не е вградено твърдо в скрипта. Четири. Стартирайте python benchmark_bloodtest.py и прегледайте четирите артефакта, излъчени в работната директория: CSV scorecard, JSON scorecard, пълен JSON dump, включително сурови отговори на двигателя, и четим за хора Markdown отчет.

Референтното изпълнение от 23 април 2026 г. е запазено в results/ директорията на хранилището. Ново изпълнение ще генерира нов scorecard с времеви печат, като остави референтното изпълнение непокътнато. Ако вашето изпълнение даде съществено различен резултат, моля, отворете GitHub issue с времевия печат на изпълнението и версията на двигателя, върната в метаданните на отговора.

Ограничения и бъдеща работа

Четири ограничения заслужават изрично признаване: размер на извадката, еднократно оценяване, обхват само на един двигател и произход на данните само от един източник. Всяко от тях се адресира в текуща последваща работа.

Размер на извадката. Петнадесет случая в осем специализирани категории са достатъчни за доказателство на концепцията, но не и за анализ по подгрупи в рамките на специалност. Планирано е разширяване до петдесет случая, което ще включва коагулационни панели, скрининг за хематологични злокачествени заболявания, панели за бременност и педиатрични представяния.

Еднократно оценяване. Всеки случай беше оценен веднъж. Големите езикови модели показват съществена вариативност в изхода дори при ниска температура на семплиране, така че протокол с множество изпълнения — пет оценки на случай и отчетена вариативност — е естествена следваща стъпка.

Обхват само на един двигател. Този отчет описва един двигател. Сравнителни анализи с алтернативни AI системи са извън обхвата тук; може да ги разгледаме като отделно независимo изследване с подходяща методология.

Произход на данните само от един източник. Петнадесетте случая са анонимизирани реални медицински досиета на пациенти, извлечени от едно клинично хранилище. Те представляват подбрана извадка и не са случайно представителна извадка за популацията. Разширяването на оценката до данни от множество центрове е в пътната карта.

Най-влиятелното планирано разширение е многоезичният паритет. AI Engine на Kantesti обслужва потребители на 75+ езика, а стартирането на същия набор от петнадесет случая на турски, немски, испански, френски и арабски ще измери качеството на изхода в поддържаните от двигателя езици. Ще публикуваме всяко езиково изпълнение с негов собствен DOI и клон на harness.

Опитайте същия двигател, който постигна 99.12% композитен резултат

Качи(те) своя собствена панел(а) с кръвни изследвания към същата производствена крайна точка, която беше оценена в този бенчмарк. Над 2 милиона потребители по целия свят използват Kantesti AI Engine, за да интерпретират над 15,000 биомаркера на 75+ езика.

🔬 Опитайте безплатна демо версия

Разширение за Chrome Магазин за приложения Google Play

📚 Как да цитирате този бенчмарк

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Клинична валидация на Kantesti AI Engine (2.78T)
                 върху 15 анонимизирани случая с кръвни изследвания: предварително регистриран
                 бенчмарк, базиран на рубрика, включващ
                 случаи с капан за хипердиагностика},
  institution = {Kantesti Ltd},
  address     = {Лондон, Обединено кралство},
  year        = {2026},
  month       = {април},
  type        = {Технически доклад},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Клинична валидация на Kantesti AI Engine (2.78T) върху 15 анонимизирани случая с кръвни изследвания: предварително регистриран бенчмарк, базиран на рубрика, включващ случаи с капан за хипердиагностика в седем медицински специалности (Технически доклад V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Свързана работа по валидация на Kantesti

Клайн, Т. (2025). Рамка за клинична валидация за интерпретация на кръвни тестове, задвижвани от изкуствен интелект: Методология за тройно сляпо валидиране, показатели за ефективност и протоколи за осигуряване на качество. Kantesti AI медицински изследвания.

🎓 ResearchGate

📖 Външни методологични референции

Mentzer, W. C. (1973). Разграничаване на дефицит на желязо от таласемична черта. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Европейска лига срещу ревматизма / Американски колеж по ревматология критерии за класификация на системен еритематозен лупус. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ДОИ 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Тест за медицински халюцинации за големи езикови модели. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Композитен резултат

15Оценени случаи

7Специалности

0Фалшиви позитиви в капана

Често задавани въпроси

Колко точен е Kantesti AI Engine при реални случаи с кръвни изследвания?

По предварително регистрирана рубрика от 15 анонимизирани реални случаи с кръвни изследвания в седем медицински специалности, Kantesti AI Engine V11 постигна композитен резултат от 99.12 процента, с нулеви фалшиви позитиви за хипердиагностика както в капанните случаи, така и със средно време за отговор от 20.17 секунди. Пълната таблица с резултатите за всеки случай е публикувана във Figshare под DOI 10.6084/m9.figshare.32095435 и в GitHub под лиценз MIT.

Клинично валидиран ли е Kantesti AI Engine?

Да. Двигателят е клинично валидиран спрямо рубрика, която е била „замразена“ в изходния код преди извикването на двигателя, оценена върху 15 анонимизирани случая с кръвни изследвания в хематология, ендокринология, метаболитна медицина, хепатология, нефрология, кардиология и ревматология. Клиничен надзор е осигурен от д-р Томас Клайн, д.м. (ORCID 0009-0009-1490-1321), сертифициран клиничен хематолог и главен медицински директор в Kantesti AI.

Какво е случай на „хипердиагностичен капан“?

Случай „капана за хипердиагностика“ е клиничен сценарий, специално създаден да открива поведение на свръхдиагностициране в AI двигатели. Бенчмаркът Kantesti V11 използва два такива случая. Първият е изолирана индиректна хипербилирубинемия, съответстваща на синдрома на Гилбърт, при която правилното тълкуване е доброкачественият полиморфизъм на UGT1A1, а не хепатит или хемолиза. Вторият е напълно нормален скринингов панел за възрастни, при който правилният изход е успокоение и поддържане на начина на живот, а не „създадена“ гранична патология.

Възпроизводима ли е оценката на AI двигателя Kantesti?

Пълният оценъчен „harness“ е публикуван под MIT лиценз като един самостоятелен Python модул. Възпроизвеждането изисква само двойка Kantesti API идентификационни данни и Python 3.10 или по-нова версия. Кодът, дефинициите на случаите и всеки суров отговор на двигателя от референтното изпълнение през април 2026 г. са достъпни на github.com/emirhanai/kantesti-blood-test-benchmark и са огледално публикувани във Figshare, ResearchGate и Academia.edu.

Как Kantesti AI Engine разграничават дефицита на желязо от носителството на бета-таласемия?

Двигателят прилага индекса на Mentzer, изчислен като среден обем на еритроцитите, разделен на броя на червените кръвни клетки. Индекс на Mentzer над 13 подкрепя желязодефицитна анемия, докато стойност под 13 подкрепя носителство на бета-таласемия. В бенчмарка V11 и двата случая са класифицирани правилно с изрично изчисляване на индекса на Mentzer, подкрепено от контекст с феритин, RDW и HbA2.

Къде мога да намеря суровите данни за сравнителния анализ и изходния код?

Техническият доклад е депозиран във Figshare под DOI 10.6084/m9.figshare.32095435, огледално публикуван в ResearchGate публикация 404175463 и в Academia.edu статия 165956808, а MIT-лицензираният Python „harness“ с всички резултати от референтното изпълнение е на github.com/emirhanai/kantesti-blood-test-benchmark. Мрежата от огледални копия на четири платформи гарантира дългосрочна наличност и гъвкавост при цитиране.

Защо е важно предварителното регистриране за AI медицински бенчмаркове?

Предварителното регистриране предотвратява настройка „след факта“ на рубриката, което е единственият най-често срещан начин, по който бенчмаркове, управлявани от компании, надуват собствените си резултати. Като се ангажира рубриката в изходния код преди всяко извикване на двигател и се публикува „harness“-ът публично, датите на автора на рубриката стават проверими в системите за контрол на версиите и резултатите от двигателя не могат да са повлияли на критериите за оценяване.

Този бенчмарк включва ли сравнения с други AI двигатели?

Не. Докладът V11 умишлено характеризира един-единствен двигател спрямо фиксирана рубрика, вместо да го позиционира спрямо алтернативни търговски системи. „Harness“-ът е с отворен код под MIT лиценз, така че независими изследователи могат да оценят всеки двигател, който изберат, спрямо същите петнадесет случая и рубрика и да публикуват резултатите си.

Реални ли са случаите на пациенти или синтетични?

Петнадесетте случая са анонимизирани реални медицински записи на пациенти, извлечени от клиничното хранилище с данни на Kantesti при писмено информирано съгласие. Деидентификацията е извършена по подхода Safe Harbor, като всички директни идентификатори са премахнати или заменени. Обработката е извършена в съответствие с GDPR член 9(2)(j) и еквивалентните разпоредби на UK GDPR. Никаква лична идентифицираща информация не се съдържа в публикувания „harness“, техническия доклад или предоставените набори от данни.

⚕️ Медицински отказ от отговорност и конфликт на интереси

Този доклад за бенчмарка е предназначен за изследователски цели и прозрачност на методологията. Той не представлява медицински съвет. Винаги се консултирайте с квалифициран медицински специалист за решения относно диагностика и лечение. И двамата автори са наети от и притежават дялове в Kantesti Ltd, а двигателят, който се оценява, е търговски продукт на същата организация. Този конфликт на интереси е смекчен чрез предварително регистриране на рубриката в изходния код, публикуване на „harness“-а под MIT лиценз и публикуване на всеки суров отговор на двигателя.

Сигнали за доверие E-E-A-T

⭐

Опит

15+ години клинична практика в хематологията и лабораторната медицина, с надзор при подбора на панела от случаи.

📋

Експертиза

Дизайн на рубриката с предварително регистриране, с изрични наказания за хипердиагностика и признати клинични системи за оценяване (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Авторитетност

Водещ автор д-р Томас Клайн, д.м. (ORCID 0009-0009-1490-1321). Имплементация от Джулиан Емирхан Булут, главен изпълнителен директор на Kantesti Ltd.

🛡️

Надеждност

Възпроизведим „harness“ с MIT лиценз, публикувани сурови отговори на двигателя, открито оповестяване на конфликт на интереси, мрежа от изследователски огледални копия на четири платформи.

🏢 Кантести ООД Регистрирано в Англия и Уелс · Дружество №. 17090423 Лондон, Великобритания · kantesti.net