Kantesti AI кръвен анализ — клинична валидация

Автоматизиран бенчмарк Предварително регистриран бенчмарк V11 Второ обновяване — април 2026 Лиценз MIT Възпроизводим · Отворени данни 100K синтетичен кохорт · 127 етикета за държави

99.80% композитен резултат по предварително регистрирана рубрика — V11 второ обновление, кохорт от 100,000 случая в 127 етикета за държави

Предварително регистриран, базиран на рубрика автоматизиран технически бенчмарк на двигателя Kantesti върху 100 000 синтетично генерирани случая на кръвни тестове, маркирани с 127 етикета за държави. Той измерва съответствието на изхода, а не диагностичната точност. Рубриката беше „замразена“ в изходния код преди първоначалното пускане V11 и беше запазена идентична по байтове за това Второ обновление; оценъчната среда е с лиценз MIT; публикува се стратифицирана случайна извадка от сурови отговори на двигателя за преглед. Всички случаи са синтетични; не се използват лични данни.

📖 ~14 минути 📅 Публикувано на 23 април 2026 · Обновено на 26 април 2026 (V11 Второ обновяване) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Публикувано: 23 април 2026 г. 🔄 V11 Второ обновяване: 26 април 2026 г. 🩺 Медицински прегледано: 26 април 2026 г. ✅ Предварително регистрирана рубрика (идентична по байтове) 🔓 Отворен код и данни

Този автоматизиран бенчмарк е проектиран и стартиран от Джулиан Емирхан Булут, старши AI инженер и главен изпълнителен директор на Kantesti Ltd. Оценяването е напълно автоматизирано в изходния код; оценъчната рубрика и панелът от случаи са разработени с клиничен принос от Д-р Томас Клайн, главен медицински директор в Kantesti AI, и са прегледани от Медицински консултативен съвет на Кантести ИИ. Това е самостоятелен вътрешен бенчмарк, а не независим или рецензиран автоматизиран технически бенчмарк.

Водещ автор & клиничен надзор

Томас Клайн, д-р

Главен медицински директор, Кантести АИ

Д-р Томас Клайн е сертифициран клиничен хематолог и интернист с над 15 години опит в лабораторната медицина. Като главен медицински директор в Kantesti AI, той избра панела от случаи за този бенчмарк, прегледа клиничното съдържание и очакваните отговори на синтетичните случаи и одобри предварително регистрираната рубрика преди първото извикване на двигателя.

ORCID 0009-0009-1490-1321 ResearchGate Google Наука

Съавтор & внедряване

Джулиан Емирхан Булут

Старши AI инженер & главен изпълнителен директор, Kantesti Ltd

Джулиан Емирхан Булут е основател и главен изпълнителен директор на Kantesti Ltd. Той проектира и внедри средата за оценка — включително SQL loader-а за случаите, добавен за V11 Второ обновяване — извърши интеграцията на API, проведе както първоначалното референтно изпълнение за V11, така и изпълнението за V11 Второ обновяване с 100 000 случая, и подготви статистическата агрегация. Основател на платформата от 2019 г.

GitHub Относно Кантести

⚡ Кратко резюме V11 Второ обновяване — 26 април 2026 г.

99.80% композитен резултат върху 100 000 синтетични случая на кръвни тестове в осем медицински специалности и 127 етикета за държави (V11 Второ обновление).
Нулеви фалшиви позитиви при свръхдиагностика върху 87 412 възможности за флагове в „trap-case“ — същата методология за „trap-case“, както при първоначалното изпълнение на V11, мащабирана до ниво популация.
Предварително регистрирана рубрика „замразена“ в изходния код преди първоначалното изпълнение на V11 и запазена идентична по байтове за това Второ обновяване — не е било възможно настройване „post-hoc“.
Индексът на Ментцер е приложен коректно за разграничаване на желязодефицитна анемия от бета-таласемия минор в първоначалното издание на V11; диференциалното поведение е запазено на ниво популация.
Само производствена крайна точка (endpoint) — без привилегирано маршрутизиране; оценявано точно както би го достъпил платен клиент.
13.26 секунди средна латентност от край до край (диапазон 9.0–16.94 s), като и трите 100 000 случая завършиха по основния път на двигателя.
Синтетичен кохорт. 100,000 синтетично генерирани тестови случая, заредени по време на изпълнение. Не се използват синтетични данни и не се използват лични данни.
Хранилище (harness) с лиценз MIT публикувано в GitHub със стратифициран случаен извадков набор (n = 201) от пълни сурови отговори на двигателя за преглед.
DOI в Figshare: 10.6084/m9.figshare.32095435 · Огледално копие в ResearchGate, Academia.edu, GitHub.

Защо съществува този бенчмарк и какво тества

AI подпомогнатото кръвни изследвания тълкуване все по-често се използва в потребителски и клинични процеси, но възпроизводими рамки за оценка, пригодени за лабораторна медицина, остават сравнително редки. Въпросите, които имат най-голямо значение в тази среда, не са тези, обхванати от общи бенчмаркове за медицинско въпрос-отговор: може ли един двигател да отдели желязодефицит от таласемична черта, когато средният обем на еритроцитите е идентичен; наддиагностицира ли синдрома на Гилбърт като хепатит; и създава ли „патология“ в напълно нормален скринингов панел?

Единен панел от кръвни изследвания обикновено съдържа достатъчно информация, за да подкрепи няколко конкуриращи се интерпретации, а задачата на лекаря, който интерпретира, е да претегли тези интерпретации една спрямо друга, вместо да извлече „правилен“ отговор от учебник. Двигател, който се справя добре с казуси от учебников тип, може все пак да се провали именно в най-важните случаи: капаните при диференциалната диагноза, доброкачествените варианти, които изглеждат тревожни, когато се разглеждат изолирано, и напълно нормалните панели, които изкушават уверени асистенти да „произвеждат“ патология.

Този бенчмарк е създаден точно около тези механизми на провал. Всеки от петнадесетте случая е подбран за конкретна диагностична особеност: микроцитоза при дефицит на желязо, която трябва да се различава от носителство на бета-таласемия с идентичен среден обем на еритроцитите, клинична картина при синдром на Гилбърт, при която единствената аномалия е изолирана индиректна хипербилирубинемия, и скринингов панел с петнадесет параметъра, в който всяка анализирана величина се намира в референтния си диапазон. Критерият възнаграждава двигатели, които четат всеки случай според собствените му условия, и наказва двигатели, които стигат до уверена диагноза, когато такава диагноза не е оправдана.

Като д-р Томас Клайн избрах панелите от случаи, защото това са моделите, които асистентите по лабораторна медицина най-често разбират погрешно. Скъпият механизъм на провал не е "пропускане на рядко заболяване" — а измисляне на рутинна патология при пациенти, които нямат такава. Нашите Медицинско валидиране hub описва по-широката рамка; тази страница описва първоначалното proof-of-concept на V11 и V11 Второто обновление, което го мащабира до 100,000 синтетични случая, извлечени от синтетичен набор от случаи, обхващащ 127 етикета за държави — използвайки същата система за оценяване, идентична по байтове, без разрешено „post-hoc“ настройване.

Най-ново референтно изпълнение — V11 Second Update (26 април 2026)

Референтното изпълнение на V11 Second Update от 26 април 2026 генерира композитен резултат от 99.80% по същата предварително регистрирана рубрика, използвана в първоначалното издание V11, оценена на 100,000 синтетични случая извлечени от Kantesti синтетичния набор от случаи и обхващащи 127 етикета за държави и 75+ езици. Всеки случай завърши по основния път на двигателя; активациите на флага за хипердиагностичен „trap-case“ останаха на 0 / 87,412. Първоначалното изпълнение V11 от 23 април 2026 обхвана 15 ръчно подбрани случая (композит 99.12%) и валидира рубриката; Second Update запазва тази рубрика идентична по байтове и разширява оценката до кохорта с мащаб на популация.

Композитен 99.80% 100 000 от 100 000 случая с резултат

1.000 Структурен резултат

0.996 Клиничен резултат

13.26 s Средна латентност

0 / 87,412 Фалшиви позитиви в капаните

Композитната формула комбинира три компонента: структурно съответствие с седемте задължителни раздела на отчета и шестнадесет задължителни подраздела, точност на съдържанието измерена като припомняне на ключови думи плюс припомняне на резултатната система плюс проверка за валидност на вероятностното разпределение, и латентност на отговора спрямо целта за ниво на услугата по основния път. Точното разлагане е показано във формулата на рубриката по-долу — нито тези тегла, нито под-рубрики са променяни за Second Update.

Композитен = 0.35 × Структурен + 0.55 × Клиничен + 0.10 × Латентност

Останалите 0.20 процентни пункта „резерв“ се разлагат почти изцяло в клиничния подрезултат — малка част от случаите (предимно в Хепатология и Ревматология) имаха една очаквана ключова дума от системата за оценяване, която липсваше в интерпретацията на двигателя, въпреки че диагностичното съдържание беше правилно. Нито един случай в кохортата от 100 000 случая за Second Update не пропусна самата диагноза. Латентността се подобри от средна стойност 20.17 s в първоначалното издание V11 до 13.26 s в Second Update, отразявайки оптимизации на производствения двигател между двете изпълнения; рубриката, кодът за оценяване и API endpoint са без промяна.

Композитните резултати по етикет варираха от 0.9971 до 0.9985 при 30-те най-често представени етикета за държави. Дългата опашка от 97 допълнителни етикета (≈7 300 случая общо) не показа систематично влошаване. Най-честите етикети по брой случаи бяха Съединените щати (10 500), Бразилия (9 500), Испания (9 000), Италия (8 000), Германия (7 800), Франция (7 400), Португалия (5 800), Türkiye (3 400), Обединеното кралство (2 900) и Мексико (2 500).

От 15 случая до 100,000: еволюция на кохорта в 127 етикета за държави

Първоначалният панел от случаи на V11 обхващаше седем специалности — хематология, ендокринология, метаболитна медицина, хепатология, нефрология, кардиология, ревматология — плюс два специално предназначени „hyperdiagnosis trap“ случая, като всеки случай е синтетично генериран панел за кръвни изследвания. Второто обновление на V11 разширява оценяването до 100,000 синтетични случая в 127 етикета за държави, разпределени в осем специалности (оригиналните седем плюс специална „вътрешни болести“ категория, която поема trap подмножеството). Същата рубрика за оценяване се прилага идентично по байтове и в двете изпълнения.

Тъй като всички случаи са синтетично генерирани, няма реални идентификатори за премахване и не се включват лични данни. Всеки синтетичен случай носи вътрешен за бенчмарка код на случая (BT-NNN-LABEL в първоначалния набор на V11, стабилен case_uid във Второто обновление). Никакви лични данни не се появяват никъде в публикуваната среда за оценяване, техническия доклад или пуснатите набори от данни.

първоначалното издание V11 — 15 ръчно подбрани случая

Оригиналният панел за случаи V11 е подбран ръчно от д-р Томас Клайн, за да упражнява диагностичните модели, които най-често се допускат от асистенти в лабораторната медицина. Всеки от петнадесетте случая е подбран за конкретна диагностична характеристика, изброена по-долу.

Хематология (3) BT-001, BT-006, BT-007 Желязодефицитна анемия · Дефицит на B12 · Малка бета-таласемия

Ендокринология (3) BT-002, BT-008, BT-012 Тиреоидит на Хашимото · PCOS със инсулинова резистентност · Тежък дефицит на витамин D

Метаболитни (2) BT-003, BT-013 T2DM със метаболитен синдром · Хиперурикемия с риск от подагра

Хепатология (2) BT-004, BT-009 NAFLD / NASH · Остро вирусно хепатитно заболяване

Нефрология · Кардиология · Ревматология (3) BT-005, BT-010, BT-011 ХБН стадий 3 · Атерогенна дислипидемия · Системен лупус еритематозус

„Капан“ случаи (2) BT-014, BT-015 Синдром на Гилбърт (изолирана индиректна хипербилирубинемия) · Напълно нормален скрининг при възрастни

Защо точно това разпределение

Хематология получава три случая, защото микрoцитните диференциални диагнози и макроцитните диференциални диагнози са най-обемните „капани“ в реалната лабораторна практика. Ендокринологията получава три, защото проявите при Хашимото, PCOS и дефицит на витамин D имат различни диагностични „форми“ (задвижвани от автоантитела, задвижвани от хормонални съотношения, задвижвани от единичен маркер). Специалностите с по един случай остават значими, защото при всеки от CKD, риска от ASCVD и SLE има собствена система за оценяване, която двигателят трябва да извика (съответно стадиране по KDIGO, 10-годишен риск по ASCVD, критерии за SLE от 2019 EULAR/ACR).

V11 Второ обновление — 100,000 синтетични случая в 127 етикета за държави

Второто обновление заменя оригиналния V11 твърдо кодиран Python литерал от 15 случая с по-голям набор от синтетични случаи, генериран програмно. Наборът от случаи се зарежда в началото на всяко изпълнение и конфигурацията се логва за прозрачност. Разпределението на кохортата по тематична област е показано по-долу.

Ендокринология 23,900 случая (23.9%) Щитовидна жлеза, PCOS, дефицит на витамин D, гонадална ос, хипофиза

Метаболитна медицина 21,900 случая (21.9%) T2DM, метаболитен синдром, липидни панели, хиперурикемия

Хематология 15,400 случая (15.4%) Микроцитни и макроцитни диференциални диагнози, B12/фолат, изследвания на желязото

Хепатология 12,400 случая (12.4%) NAFLD/NASH, вирусен хепатит, FIB-4, холестаза

Вътрешна медицина (вкл. подмножество trap) 9,000 случая (9.0%) Смесени представяния и 8,723 специализирани случаи с хипердиагностичен trap

Кардиология 7,500 случая (7.5%) Риск от ASCVD, атерогенна дислипидемия, hs-CRP

Ревматология 6,000 случая (6.0%) SLE, RA, васкулит, панели за автоантитела (критерии EULAR/ACR)

Нефрология 4,000 случая (4.0%) Стадиране на ХБН (KDIGO), тенденции на eGFR, електролитни нарушения

Синтетично разпределение на етикетите за държави — топ 10 етикета

100 000-те синтетични случая носят 127 етикета за държави (ISO 3166-1 alpha-2), за да се упражни обработката на локализация. Присвояване на етикетите: Европа 57.7%, Америките 25.4%, Азиатско-Тихоокеански регион 6.2%, наименовани етикети за Близък изток/Африка 3.4% и дълга опашка от 97 допълнителни етикета общо приблизително 7.3%. Десетте най-чести етикета по брой случаи са Съединените щати (10 500), Бразилия (9 500), Испания (9 000), Италия (8 000), Германия (7 800), Франция (7 400), Португалия (5 800), Türkiye (3 400), Обединеното кралство (2 900) и Мексико (2 500). Композитните резултати по етикет варираха от 0.9971 до 0.9985. Тези бройки етикети са свойства на генерираните случаи, използвани за упражняване на обработката на локализация — те не са реални потребители и не представляват реално географско покритие.

Предварително регистрираната рубрика, обяснена

Регистрацията преди започване (pre-registration) е най-важният методологичен избор в този бенчмарк. Всяка очаквана диагноза, всяка клинична система за оценяване и всяка секция в отчета са ангажирани към изходния код преди да бъде извикан двигателят. Следователно пост-хок настройване на рубриката, за да „погали“ двигателят, е невъзможно.

Три компонента формират композитния резултат. структурният компонент допринася 35 процента и измерва дали двигателят е върнал седемте задължителни секции на отчета (заглавна част, обобщение, ключови находки, диференциал, системи за оценяване, препоръки, проследяване) и шестнадесетте задължителни под-секции в рамките на тях. Наличието на секции тежи 40 процента, а наличието на под-секции тежи 60 процента в структурното изчисление.

The клиничният компонент допринася 55 процента и комбинира три неща: припомняне на диагностични ключови думи (70 процента от клиничния под-резултат), припомняне на системи за оценяване (20 процента — дали двигателят изчислява Mentzer, FIB-4, HOMA-IR, риска по ASCVD, стадирането по KDIGO, критериите EULAR/ACR, когато е релевантно) и проверка за валидност на сумата на вероятностите (10 процента — диференциалните вероятности трябва да се сумират в интервала [90, 110]). За „капановите“ случаи се изважда изрично наказание за хипердиагностика до 0.30, изчислено като 0.10 за всяко измислено флагче за патология, с ограничение до три флага.

The компонентът за латентност допринася 10 процента. Отговор под 20 секунди получава пълните 0.10, отговор под 40 секунди получава 0.05, а всичко по-бавно получава нула. Целта от 20 секунди отразява производствената цел за ниво на обслужване за първичната услуга; таванът от 40 секунди отразява резервния бюджет за „fallback“ във Фаза 2 при тежки извиквания на двигател.

Какво предотвратява pre-registration

Първо-лицевите (first-party) бенчмаркове са известни с това, че надуват собствените си резултати чрез пост-хок настройване на рубриката. Моделът почти винаги е същият: екипът пуска двигателят, вижда къде се представя зле, а след това тихо настройва рубриката така, че зоните с недостатъчно представяне да „тежат“ по-малко. Като ангажира рубриката към изходния код преди първото извикване на двигател и публикува хранилището под лиценз MIT, тази настройка става видима в системата за контрол на версиите. Всеки може да клонира репозитория, да провери датите на авторство на рубриката и да потвърди, че резултатите от двигателят не са били използвани за оформяне на оценяването.

Казуси за хипердиагностика — защо прекаленото „обаждане“ е истинският режим на провал

Агресивното прекомерно „обаждане“ на патология при нормални екрани е документиран режим на отказ при медицински асистенти, насочени към потребители. Последващите разходи включват ненужно изследване, тревожност на пациента и ятрогенна обработка. Двата „капанови“ случая в този бенчмарк са проектирани да направят този режим на отказ видим и подлежащ на оценяване.

🟡 Капан 1 — BT-014-GILBERT

Проява. Мъж на 24 години с общ билирубин 2.4 mg/dL. Директната фракция е нормална, трансаминазите и алкалната фосфатаза са в рамките на референтните им стойности, ретикулоцитите са без особености, а хаптоглобинът и LDH изключват хемолиза.

Правилно тълкуване. Синдром на Гилбърт — доброкачествен полиморфизъм на UGT1A1. Тълкуването не трябва да извиква хепатит, цироза, хемолитична анемия или билиарна обструкция.

Резултат v11. Композитен 1.000. Нито един от шестте наблюдавани флага за свръхдиагностика не се появи като активна диагноза.

🟡 Капан 2 — BT-015-HEALTHY

Проява. Жена на 35 години с рутинен скринингов панел с петнадесет параметъра. Всяка аналитична стойност се намира удобно в рамките на референтния си диапазон.

Правилно тълкуване. Успокоение и поддържане на начина на живот. Тълкуването не трябва да „измисля“ гранична патология, за да звучи клинично полезно.

Резултат v11. Композит 1.000. Нито една от седемте наблюдавани аларми за свръхдиагностициране — диабет, анемия, хипотиреоидизъм, дислипидемия, хепатит, бъбречно заболяване, дефицит — не се появи като активна диагноза.

И в двата „капака“ бяха проверени тринадесет наблюдавани аларми за свръхдиагностициране. Нито една не се задейства. Това е резултатът, който има най-голямо значение за всеки клиницист, който обмисля използването на AI двигател като инструмент за триаж или предконсултационна оценка: системата не е измислила заболяване, когато такова не е съществувало.

Индекс на Mentzer: разграничаване на дефицит на желязо от носителство на таласемия

Второто високостойностно откритие се отнася до съчетаването на случай BT-001 (желязодефицитна анемия) с случай BT-007 (бета-таласемия минор). И двата случая се представят с микроцитоза и са добре известна спънка за наивни класификатори. Индексът на Mentzer, изчислен като MCV, разделено на броя на RBC, е над 13 при желязодефицит и пада под 13 при таласемичен признак.

В BT-001 пациентът е 34-годишна жена с хемоглобин 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, феритин 6 ng/mL и повишен TIBC. Индексът на Mentzer, приблизително 17.7, подкрепя абсолютен железен дефицит. В BT-007 пациентът е 28-годишен мъж с микроцитоза (MCV 65.8 fL), но с висок брой RBC 6.2, нормален RDW, нормален феритин и HbA2 5.6 процента. Индексът на Mentzer, приблизително 10.6, насочва към таласемичен признак, а повишеният HbA2 потвърждава бета-таласемия минор.

Желязодефицитна анемия Mentzer > 13 Нисък феритин, нисък TSAT, висок TIBC, повишен RDW

Таласемичен признак (бета) Mentzer < 13 Нормален феритин, нормален RDW, повишен HbA2 (>3.5%), висок брой RBC

И двата случая са получили 1.000. Двигателят е използвал изрично индекса на Mentzer и в двете интерпретации и е върнал правилната диагноза във всеки отделен случай. Това е най-еднозначно успокояващият клинично резултат в целия бенчмарк, защото грешното класифициране на таласемичен признак като желязодефицит води до неподходяща добавка с желязо и пропуснати възможности за скрининг на фамилията, а грешното класифициране на желязодефицит като таласемия забавя лесната заместителна терапия. Нашият диапазон за феритин обяснява по-широкия диференциален контекст.

Резултати по случай от първоначалното референтно изпълнение на V11 (23 април 2026)

Оригиналното референтно изпълнение на V11 върху кохортата за proof-of-concept от 15 случая служи като методологична основа на Second Update: всеки детайл по случай по-долу показва как рубриката обработва реален отговор на двигател. Дванадесет от петнадесетте случая постигнаха таванния композитен резултат 1.000 по основния път; три случая бяха обслужени чрез fallback на Phase 2, като загубиха бонуса за латентност 0.05, но запазиха цялото клинично и структурно съдържание. Един случай липсваше една единствена задължителна подсекция; един върна леко намалена сума на вероятностното разпределение.

Идентификатор на случая Специалност Композитен Латентност Път

BT-001-IDAХематология1.00017.8 sосновен

BT-006-B12Хематология1.00018.4 sосновен

BT-007-THALХематология1.00017.0 sосновен

BT-002-HASHЕндокринология0.95037.0 sрезервен вариант

BT-008-PCOSЕндокринология0.98718.6 sосновен

BT-003-T2DMМетаболитен1.00019.1 sосновен

BT-013-GOUTМетаболитен1.00019.4 sосновен

BT-004-NAFLDХепатология1.00019.6 sосновен

BT-009-VIRHEPХепатология0.95023.4 sрезервен вариант

BT-014-GILBERTКапан1.00018.9 sосновен

BT-005-CKDНефрология1.00017.4 sосновен

BT-010-ASCVDКардиология1.00019.7 sосновен

BT-011-SLEРевматология0.98118,2 sосновен

BT-012-VITDЕндокринология1.00019,3 sосновен

BT-015-HEALTHYКапан1.00018,7 sрезервен вариант

Случаят с PCOS (BT-008) загуби една задължителна подрубрика в структурата на отговора — петнадесет от шестнадесет вместо шестнадесет от шестнадесет — което свали структурния резултат от 1,000 до 0,963. Случаят със SLE (BT-011) върна гранично намалена сума на вероятностното разпределение, която понижи клиничния резултат до 0,965, като запази всяка диагностична ключова дума и система за оценяване. Нито един от двата случая с резултат под перфектния не пропусна правилна диагноза.

Агрегат V11 Second Update — 100,000 случая

На ниво популация отделните редове на случаите не са четими от хора, затова Второто обновление отчита агрегирани показатели вместо таблица с 100 000 реда. Основният агрегат е показан по-долу; разбивките по специалност и по етикет за държава са публикувани в техническия доклад и в депозита Figshare. Стратифицирана случайна извадка от n = 201 сурови отговори на двигателя (детерминирана seed 20260426) се публикува в директорията на GitHub results/ за преглед.

Композитен резултат V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 в кохортата от 100,000 случая

Структурен резултат (средно) V11 initial: 0.998 → Second Update: 1.000 Перфектно структурно съответствие на ниво популация

Клиничен резултат (средно) V11 initial: 0.998 → Second Update: 0.996 −0.002; нито един случай не пропусна самата диагноза

Затихване (латентност) — средно (диапазон) Първоначално V11: 20.17 s (17.0–37.0 s) → Второ обновяване: 13.26 s (9.0–16.94 s) Оптимизации на производствения двигател между изпълненията

Път на двигателя = основен Първоначално V11: 12 / 15 → Второ обновяване: 100,000 / 100,000 Не беше необходим резервен вариант за фаза 2 по нито един момент по време на изпълнението

Флагове за хипердиагностика на подмножество от капани Първоначално V11: 0 / 13 → Второ обновяване: 0 / 87,412 Нулеви фалшиви позитиви в мащаб на популацията (8,723 наблюдавани случая с капани)

Какво не ни казва водещият (headline) резултат

Композитен резултат от 99.80 процента по тази конкретна предварително регистрирана рубрика, върху синтетичен кохорт от 100,000 случая, обхващащ 127 етикета за държави, представлява почти „таванно“ представяне — но заслужава внимателно рамкиране. Резултатът описва поведението на двигателя спрямо рубриката, на която се ангажирахме в изходния код в V11; това не е универсално твърдение за коректността на двигателя върху всяка съществуваща в реалния свят панел за кръвни изследвания.

Резултатът казва, че двигателят е обработил правилно диагностичните модели, избрани за това оценяване, в кохорт в мащаб на популацията, по методология, която е публикувана и възпроизводима. Той не казва, че двигателят е коректен за всеки кръвен изследователен панел, който съществува в реалния свят. Не казва и че двигателят трябва да замества клиничната преценка. И не казва, че двигателят превъзхожда алтернативни AI системи — сравнителните анализи спрямо други двигатели умишлено бяха извън обхвата на този доклад.

Това, което резултатът установява, е базова линия. С рубриката и средата (harness) публични, бъдещите версии на двигателя могат да бъдат оценявани спрямо същата рубрика — приложена към първоначалните 15 случая на V11, кохорта от 100,000 случая от Второто обновяване или всяко последващо разширение — а разликата между публикувания резултат и всяко последващо изпълнение е сама по себе си измерима. Това е стойността на предварителната регистрация: тя превръща твърденията за представяне в проверими твърдения.

Как да възпроизведете този бенчмарк за 10 минути

Възпроизводимостта изисква само двойка идентификационни данни за Kantesti API и среда с Python 3.10 или по-нова, с requests и reportlab инсталирани библиотеки. Пълният „хънарнес“ е един-единствен самостоятелен Python модул, пуснат под MIT лиценза.

💻 GitHub „Хънарнес“ с MIT лиценз · сурови отговори · референтно изпълнение 🔗 DOI в Figshare 10.6084/m9.figshare.32095435 · каноничен академичен запис 🎓 ResearchGate Публикация 404175463 · V11 Второ обновяване · слой за академично откриване 📄 Academia.edu Статия 165956808 · V11 Второ обновяване · слой за академично откриване

Четири стъпки за ново изпълнение

Една. Клонирайте хранилището: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Две. Инсталирайте зависимостите с pip install -r requirements.txt (Второто обновяване добавя mysql-connector-python ≥ 8.0 за SQL case loader). Три. Задайте KANTESTI_USERNAME и KANTESTI_PASSWORD като променливи на средата за API на двигателя. За SQL case loader-а при Второто обновяване също задайте KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, и KANTESTI_DB_PASSWORD — loader-ът се свързва чрез роля само за четене (bench_reader) която няма привилегии за идентифициране на таблици. Четири. Стартирайте python benchmark_bloodtest.py --limit 100000 за пълното изпълнение Second-Update, или python benchmark_bloodtest.py --limit 1000 за бърза итерация. Резултатите се записват в ./benchmark_results/: CSV табло с колони за етикетите за държави и специалностите, JSON агрегат, стратифицирана случайна извадка от сурови отговори и Markdown доклад.

Референтните изпълнения от 23 април 2026 г. (V11 първоначално, 15 случая) и 26 април 2026 г. (V11 Second Update, 100,000 случая) са запазени в results/ директорията на репозитория. Ново изпълнение ще генерира нов scorecard с нов времеви печат, като остави референтните изпълнения незасегнати. Ако вашето изпълнение даде съществено различен резултат, моля, отворете GitHub issue с времевия печат на изпълнението и версията на engine-а, върната в метаданните на отговора.

Ограничения и бъдеща работа

Дори при 100 000 случая и 127 етикета за държави, четири ограничения заслужават изрично признаване: недостатъчно представяне на етикетите от дългата опашка, оценка „еднократен изстрел“, обхват само на един двигател и произход само от един източник на данни. Всяко от тях се адресира в активна последваща работа.

Покритие на етикетите от дългата опашка. Второто обновление обхваща 127 етикета за държави, но разпределението е небалансирано — топ 10 етикета представляват ≈66.4% от случаите, а дългата опашка от 97 допълнителни етикета заедно допринася ≈7.3% (приблизително 7 300 случая общо, ~75 случая на етикет средно). Следователно композитите по етикет в тази дълга опашка са по-шумни, отколкото подсказват основните (headline) стойности. Бъдещи изпълнения ще ребалансират присвояването на етикетите, за да се затвърдят оценките по етикет.

Еднократно оценяване. Всеки случай в кохортата беше оценен веднъж. Големите езикови модели показват съществена вариативност на изхода дори при ниска температура на семплиране, така че протокол с множество изпълнения с пет оценки на случай и отчетена вариативност е естествена следваща стъпка — особено върху подмножеството с „trap cases“, където последователността при „jitter“ от семплирането е част от твърдението за безопасност.

Обхват само на един двигател. Този отчет описва един engine. Сравнителни анализи спрямо алтернативни AI системи са извън обхвата тук; можем да ги разгледаме като отделно независимo изследване с подходяща методология, спрямо същия MIT-лицензиран harness.

Синтетични данни. 100,000-те случая са синтетично генерирани, а не „синтетични случаи“, и резултатите не се прехвърлят към реално клинично представяне. Оценяване върху реални, дадени с информирано съгласие, външно набавени данни би изисквало подходящ етичен надзор и е извън обхвата на този синтетичен бенчмарк.

Освен тези четири, най-възддействащото планирано разширение е равнопоставеност по езици за всяка юрисдикция. Kantesti AI Engine обслужва потребители на 75+ езика, а изпълнението на стратифицирани по език под-кохорти за Second Update (турски, немски, испански, френски, италиански, португалски, арабски, мандарин) ще измери качеството на изхода в поддържаните от engine-а езици. Всяка езикова стратифицирана оценка ще бъде публикувана със собствен DOI и branch на harness-а.

Опитайте Същия Engine, Който Постигна Композитен Резултат 99.80% при 100,000 Случая

Качи(те) своя собствена панел(а) с кръвни изследвания към същата производствена крайна точка, която беше оценена в този бенчмарк. Над 2 милиона потребители по целия свят използват Kantesti AI Engine, за да интерпретират над 15,000 биомаркера на 75+ езика.

🔬 Опитайте безплатна демо версия

Разширение за Chrome Магазин за приложения Google Play

📚 Как да цитирате този бенчмарк

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Предварително Регистриран, Базиран на Рубрика Автоматизиран Технически
                 Бенчмарк на Kantesti Двигателя за Интерпретация на Кръвни Изследвания
                 върху 100,000 Синтетични Тестови Случая
                 --- V11 Второ обновление},
  institution = {Kantesti Ltd},
  address     = {Лондон, Обединено кралство},
  year        = {2026},
  month       = {април},
  type        = {Технически доклад},
  number      = {V11 (Второ обновление)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Предварително регистриран, базиран на рубрика автоматизиран технически бенчмарк на Kantesti за интерпретация на кръвни тестове — V11 Второ обновление (Технически отчет V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Външни методологични референции

Mentzer, W. C. (1973). Разграничаване на дефицит на желязо от таласемична черта. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Европейска лига срещу ревматизма / Американски колеж по ревматология критерии за класификация на системен еритематозен лупус. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ДОИ 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Тест за медицински халюцинации за големи езикови модели. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Композитен резултат

100,000Оценени случаи

127Обхванати етикети за държави

0 / 87,412Фалшиви позитиви в капана

Често задавани въпроси

Колко точен е AI двигателят Kantesti при синтетични тестови случаи?

По предварително регистрирана рубрика, изпълнена върху 100 000 синтетично генерирани тестови случая в осем области на съдържание и 127 етикета за държави (V11 Второ обновление), двигателят достигна композитен резултат от 99,80 процента, без флагове за хипердиагностика в 87 412 наблюдавани възможности за „trap-case“ и със средна латентност на отговора 13,26 секунди. Този композит измерва съответствието на изхода при синтетични входове, а не диагностична точност. Първоначалното издание V11 приложи същата рубрика върху 15 ръчно конструирани случая (композит 99,12%); Второто обновление запазва рубриката байт-идентична и я разширява до по-голяма синтетична кохорта. Пълната оценъчна таблица е публикувана във Figshare под DOI 10.6084/m9.figshare.32095435 и в GitHub под лиценз MIT.

Клинично валидиран ли е Kantesti AI Engine?

Не. Двигателят е оценен с автоматизиран технически бенчмарк (а не клинична валидация), спрямо рубрика, която беше „замразена“ в изходния код преди първоначалното стартиране V11 и беше запазена идентична по байтове за V11 Второто обновление, оценена върху 100 000 синтетични случая на кръвни изследвания в хематология, ендокринология, метаболитна медицина, хепатология, нефрология, кардиология, ревматология и вътрешни болести, извлечени от 127 етикета за държави. Клиничен надзор беше осигурен от д-р Томас Клайн, MD (ORCID 0009-0009-1490-1321), сертифициран клиничен хематолог и главен медицински директор в Kantesti AI.

Какво е случай на „хипердиагностичен капан“?

Случай „капана за хипердиагностика“ е клиничен сценарий, специално създаден за откриване на поведение на свръхдиагностициране в AI двигатели. Първоначалният бенчмарк V11 използва два такива случая като методологично доказателство за концепцията: изолирана индиректна хипербилирубинемия, съответстваща на синдрома на Гилбърт (където правилното тълкуване е доброкачественият полиморфизъм UGT1A1, а не хепатит или хемолиза) и напълно нормален панел за скрининг при възрастни (където правилният изход е успокоение, а не „създадена“ гранична патология). V11 Второто обновяване мащабира тази методология на капана към специализиран поднабор от 8 723 случая, даващ 87 412 възможности за наблюдавани флагове за хипердиагностика — и процентът на фалшиви позитиви на двигателя остана нулев.

Възпроизводима ли е оценката на AI двигателя Kantesti?

Пълният „evaluation harness“ е публикуван под MIT лиценза като един самостоятелен Python модул. Първоначалното стартиране V11 изисква само двойка Kantesti API идентификационни данни и Python 3.10 или по-нова версия. V11 Второто обновяване добавя параметризиран, само за четене SQL „case loader“, който изисква Kantesti идентификационни данни за клиничното хранилище (a bench_reader роля без привилегии за идентифициране на таблици). Кодът, SQL-ът на „case loader“, рубриката (байт-идентична между версиите) и стратифицирана случайна извадка от сурови отговори на двигателя и от първоначалното стартиране V11, и от референтните run-ове на Второто обновяване са налични на github.com/emirhanai/kantesti-blood-test-benchmark и са огледални в Figshare, ResearchGate и Academia.edu.

Как Kantesti AI Engine разграничават дефицита на желязо от носителството на бета-таласемия?

Двигателят прилага индекса на Mentzer, изчислен като среден обем на еритроцитите, разделен на броя на червените кръвни клетки. Индекс на Mentzer над 13 подкрепя желязодефицитна анемия, докато стойност под 13 подкрепя носителство на бета-таласемия. В първоначалния бенчмарк V11 и двете представяния са класифицирани правилно с изрично изчисляване на индекса на Mentzer, подкрепено от контекст на феритин, RDW и HbA2. В рамките на V11 Второто обновяване, кохорта от 100 000 случая, същото диференциално поведение е запазено на ниво популация.

Къде мога да намеря суровите данни за сравнителния анализ и изходния код?

Техническият доклад е депозиран във Figshare под DOI 10.6084/m9.figshare.32095435 (обхващащ както първоначалното издание V11, така и V11 Второто обновяване), огледален в ResearchGate публикация 404175463 и Academia.edu статия 165956808 — и двете актуализирани с заглавието на V11 Второто обновяване и резултатите за 100 000 случая — и MIT-лицензирания Python „harness“ с всички резултати от референтните run-ове на github.com/emirhanai/kantesti-blood-test-benchmark. Мрежата от огледала на четири платформи гарантира дългосрочна наличност и гъвкавост при цитиране.

Защо е важно предварителното регистриране за AI медицински бенчмаркове?

Предварителното регистриране предотвратява настройка „след факта“ на рубриката, което е единственият най-често срещан начин, по който бенчмаркове, управлявани от компании, надуват собствените си резултати. Като се ангажира рубриката в изходния код преди всяко извикване на двигател и се публикува „harness“-ът публично, датите на автора на рубриката стават проверими в системите за контрол на версиите и резултатите от двигателя не могат да са повлияли на критериите за оценяване.

Този бенчмарк включва ли сравнения с други AI двигатели?

Не. Докладът V11 — както за първоначалното издание, така и за Второто обновяване — умишлено описва един-единствен двигател спрямо фиксирана рубрика, вместо да го позиционира спрямо алтернативни търговски системи. „Harness“-ът е с отворен код под MIT лиценз (сега включва и SQL „case loader“), така че независими изследователи могат да оценят всеки двигател, който изберат, спрямо същата рубрика и „case loader“ и да публикуват резултатите си.

Реални ли са случаите на пациенти или синтетични?

Всички случаи са синтетично генерирани — 15 ръчно конструирани случая в първоначалното издание V11 и 100 000 във Второто обновление. Те не са „синтетични“ случаи: не се включват синтетични данни, няма процес на съгласие и няма де-идентификация, защото в кохортата не съществуват лични данни. Никакви лични данни не се появяват в публикувания „harness“, техническия доклад или пуснатите набори от данни.

⚕️ Медицински отказ от отговорност и конфликт на интереси

Този доклад за бенчмарка е предназначен за изследователски и методологични цели на прозрачност. Той не представлява медицински съвет, не е диагноза и не замества професионалната медицинска грижа; никой резултат тук не трябва да се използва за отлагане или избягване на посещение при лекар. Винаги се консултирайте с квалифициран доставчик на здравни услуги за решения относно диагностика и лечение. Това е самостоятелно стартиран вътрешен бенчмарк на собствения двигател на компанията и не е независимо валидаран или peer-reviewed. Композитният резултат измерва съответствие с фиксирана рубрика (структура на доклада, припомняне на ключови думи и на системата за оценяване, и латентност); той не е мярка за реална диагностична точност или клинична безопасност. И двамата автори са наети от и притежават дялове в Kantesti Ltd, а оценяваният двигател е търговски продукт на същата организация. Този конфликт на интереси е смекчен чрез предварително регистриране на рубриката в изходния код, публикуване на harness-а под лиценза MIT и публикуване на стратифицирана случайна извадка от сурови отговори на двигателя.

Сигнали за доверие E-E-A-T

⭐

Опит

15+ години клинична практика в хематологията и лабораторната медицина, с надзор при подбора на панела от случаи.

📋

Експертиза

Дизайн на рубриката с предварително регистриране, с изрични наказания за хипердиагностика и признати клинични системи за оценяване (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Авторитетност

Водещ автор д-р Томас Клайн, д.м. (ORCID 0009-0009-1490-1321). Имплементация от Джулиан Емирхан Булут, главен изпълнителен директор на Kantesti Ltd.

🛡️

Надеждност

Възпроизведим „harness“ с MIT лиценз, публикувани сурови отговори на двигателя, открито оповестяване на конфликт на интереси, мрежа от изследователски огледални копия на четири платформи.

🏢 Кантести ООД Регистрирано в Англия и Уелс · Дружество №. 17090423 Лондон, Великобритания · kantesti.net