Навіщо існує цей еталон і що він перевіряє

ШІ-асистована розшифровка аналізу крові дедалі частіше використовується в споживчих і клінічних процесах, однак відтворювані оцінювальні рамки, адаптовані під лабораторну медицину, залишаються рідкісними. Найважливіші питання в цьому контексті — не ті, що охоплюються загальними бенчмарками для медичного питання-відповіді: чи може рушій відрізнити залізодефіцит від ознаки таласемії, коли середній об’єм еритроцитів однаковий; чи ставить він надмірний діагноз синдрому Жильбера як гепатит; і чи «конструює» патологію в повністю нормальній скринінговій панелі?

Діаграма робочого процесу попередньо зареєстрованої рубрики, що показує, як оцінюється Kantesti AI Engine відповідно до заморожених критеріїв оцінювання
Рисунок 1: Архітектура бенчмарку — кожен випадок, кожне ключове слово, кожна система оцінювання — зафіксовані в початковому коді до того, як рушій побачить будь-який PDF. Постфактум налаштування рубрики неможливе за задумом.

Одна панель аналізу крові зазвичай містить достатньо сигналу, щоб підтримувати кілька конкуруючих інтерпретацій, і завдання лікаря, який інтерпретує, — зважити ці інтерпретації одна проти одної, а не витягнути «правильну відповідь» з підручника. Двигун, який добре працює на підручникових випадках, може все одно зазнати невдачі в тих ситуаціях, що мають найбільше значення: у пастках диференційної діагностики, у доброякісних варіантах, які виглядають тривожно лише в ізоляції, та в повністю нормальних панелях, що спокушають упевнених асистентів «виготовляти» патологію.

Цей бенчмарк був побудований саме навколо таких режимів невдачі. Кожен із п’ятнадцяти випадків було відібрано за певною діагностичною властивістю: мікроцитоз через дефіцит заліза, який потрібно чітко відрізняти від носійства бета-таласемії з ідентичним середнім об’ємом еритроцитів, клінічну картину синдрому Жильбера, де єдина аномалія — ізольована непряма гіпербілірубінемія, та скринінгову панель із п’ятнадцяти параметрів, у якій кожен аналіт перебуває в межах референтного діапазону. Рубрика винагороджує двигуни, які читають кожен випадок у його власних умовах, і штрафує двигуни, які намагаються поставити впевнений діагноз там, де для цього немає підстав.

Як Томас Кляйн, доктор медицини, я обрав панель випадків, тому що саме ці патерни лабораторно-медичні асистенти найчастіше трактують неправильно. Дорогий режим невдачі — це не "пропустити рідкісне захворювання", а вигадувати рутинну патологію в пацієнтів, у яких її немає. Наш Медична валідація hub описує ширшу рамку; ця сторінка описує її прикладний результат для двигуна V11.

Останній референсний запуск — V11 (квітень 2026)

Довідковий прогін за квітень 2026 року для Kantesti AI Engine V11 дав композитний бал 99.12% за попередньо зареєстрованою рубрикою з п’ятнадцяти випадків. Обидва випадки-пастки гіпердіагностики набрали максимум. Індекс Ментцера було застосовано правильно в диференціалі «дефіцит заліза проти таласемії».

Композитний 99.12% 15 із 15 випадків набрали
0.998 Структурний бал
0.998 Клінічний бал
20.17 с Середня затримка
0 / 13 Хибнопозитивні відповіді в пастках

Композитна формула поєднує три компоненти: структурна відповідність із сімома обов’язковими розділами звіту та шістнадцятьма обов’язковими підрозділами, клінічна точність вимірювана як відтворення ключових слів плюс відтворення за системою оцінювання плюс перевірка валідності ймовірнісного розподілу, і затримка відповіді щодо основної цілі сервісного рівня 20 секунд. Точний розклад показано в формулі рубрики нижче.

Композитний = 0.35 × Структурний + 0.55 × Клінічний + 0.10 × Затримка

Залишкові 0,88 відсоткового пункту «запасу» майже повністю розкладаються на втрати через затримку — три резервні виклики Phase 2 із композитом по -0,05 кожен дали приблизно 0,60 із дефіциту в 0,88 пункту — а не на клінічний контент. Двигун не пропустив жодного коректного діагнозу в жодному з п’ятнадцяти випадків; там, де він не дотягнув, це було через те, що в невеликій меншості викликів він працював трохи довше за основну ціль у 20 секунд.

П’ятнадцять випадків у семи медичних спеціальностях

Панель випадків охоплює сім спеціальностей — гематологію, ендокринологію, метаболічну медицину, гепатологію, нефрологію, кардіологію, ревматологію — а також два окремі випадки пастки для гіпердіагностики. Кожен випадок — це анонімізована реальна медична картка пацієнта, взята з репозиторію клінічних даних Kantesti за наявності письмової інформованої згоди.

Карта покриття п’ятнадцяти анонімізованих випадків аналізу крові, розподілених між сімома медичними спеціальностями, а також випадки пастки гіпердіагностики
Рисунок 2: Розподіл випадків між гематологією, ендокринологією, метаболічною медициною, гепатологією, нефрологією, кардіологією, ревматологією, а також двома випадками-пастками — синдромом Жильбера та повністю нормальною скринінговою панеллю.

Деідентифікацію виконано за підходом Safe Harbor: усі прямі ідентифікатори було видалено або замінено, а кожному запису присвоєно внутрішній код випадку-бенчмарку у форматі BT-NNN-LABEL. Обробку виконано відповідно до статті 9(2)(j) GDPR для наукових досліджень із належними запобіжними заходами та еквівалентними положеннями UK GDPR. Жодна персонально ідентифікуюча інформація не з’являється ніде в опублікованому стенді, технічному звіті чи в оприлюднених наборах даних.

Гематологія (3) BT-001, BT-006, BT-007 Залізодефіцитна анемія · Дефіцит B12 · Малий варіант бета-таласемії
Ендокринологія (3) BT-002, BT-008, BT-012 Тиреоїдит Хашимото · PCOS із інсулінорезистентністю · Тяжкий дефіцит вітаміну D
Метаболічні (2) BT-003, BT-013 T2DM із метаболічним синдромом · Гіперурикемія з ризиком подагри
Гепатологія (2) BT-004, BT-009 НАЖХП / НАСГ · Гострий вірусний гепатит
Нефрологія · Кардіологія · Ревматологія (3) BT-005, BT-010, BT-011 ХЗН стадія 3 · Атерогенна дисліпідемія · Системний червоний вовчак
Випадки-пастки (2) BT-014, BT-015 Синдром Жильбера (ізольована непряма гіпербілірубінемія) · Повністю нормальний скринінг дорослого

Чому саме такий розподіл

Гематологія отримує три кейси, оскільки мікроцитарні диференціали та макроцитарні диференціали є пастками з найбільшим обсягом у реальній лабораторній практиці. Ендокринологія отримує три, бо прояви хвороби Хашимото, СПКЯ та дефіциту вітаміну D мають різні діагностичні «форми» (керовані аутоантитілами, керовані співвідношеннями гормонів, керовані одним маркером). Однокейсові спеціальності все ще є змістовними, тому що кожна з ХЗН, ризику ASCVD та СЧВ має власну систему оцінювання, яку двигун має викликати (стадіювання KDIGO, 10-річний ризик ASCVD, критерії 2019 EULAR/ACR для СЧВ відповідно).

Попередньо зареєстрована рубрика — пояснення

Попередня реєстрація — це єдиний найважливіший методологічний вибір у цьому бенчмарку. Кожен очікуваний діагноз, кожна клінічна система оцінювання та кожен розділ звіту були зафіксовані в початковому коді до того, як двигун було викликано. Отже, постфактум «тонке налаштування» рубрики, щоб підхвалити двигун, неможливе.

Три компоненти формують підсумковий композитний бал. структурний компонент становить 35 відсотків і вимірює, чи двигун повернув сім обов’язкових розділів звіту (заголовок, підсумок, ключові знахідки, диференціал, системи оцінювання, рекомендації, подальші дії) та шістнадцять обов’язкових підрозділів у межах кожного з них. Наявність розділу важить 40 відсотків, а наявність підрозділу — 60 відсотків у структурному розрахунку.

The клінічний компонент становить 55 відсотків і поєднує три речі: пригадування діагнозу за ключовими словами (70 відсотків клінічної підоцінки), пригадування системи оцінювання (20 відсотків — чи двигун обчислює Mentzer, FIB-4, HOMA-IR, ризик ASCVD, стадіювання KDIGO, критерії EULAR/ACR, де це доречно), та перевірку валідності суми ймовірностей (10 відсотків — імовірності в диференціалі мають сумуватися в межах інтервалу [90, 110]). Для кейсів-пасток застосовується явний штраф за гіпердіагностику до 0.30, який віднімається: 0.10 за кожен сфабрикований прапорець патології, з обмеженням максимум трьома прапорцями.

The компонент затримки становить 10 відсотків. Відповідь менш ніж за 20 секунд отримує повні 0.10, відповідь менш ніж за 40 секунд — 0.05, а все, що повільніше, — нуль. Ціль у 20 секунд відображає виробничу основну ціль рівня сервісу для первинного primary-path; стеля 40 секунд відображає резерв бюджету для запасного варіанту Phase 2 при важких викликах двигуна.

Кінцевий знімок екрана бенчмарку Kantesti із ліцензією MIT: запущений стенд і виведення оцінок для кожного випадку
Рисунок 3: Хостинг під час виконання. Кожен кейс рендериться в A4 PDF, публікується на production v11 endpoint і оцінюється за замороженою рубрикою. Кожна «сирa» відповідь зберігається разом із агрегованою карткою оцінювання.

Що запобігає попередній реєстрації

Першоособові бенчмарки відомі тим, що роздувають власні показники через постфактум налаштування рубрики. Шаблон майже завжди однаковий: команда запускає двигун, бачить, де він недопрацьовує, а потім тихо коригує рубрику так, щоб недопрацьовані області враховувалися менше. За умови фіксації рубрики в початковому коді до першого виклику двигуна та публікації хостингу під ліцензією MIT, це коригування стає видимим у системі керування версіями. Будь-хто може клонувати репозиторій, перевірити дати авторства рубрики та підтвердити, що результати двигуна не використовувалися для формування оцінювання.

Випадки пастки гіпердіагностики — чому надмірне «викликання» є реальною точкою відмови

Агресивне «перекликання» патології на нормальних екранах — задокументований режим відмови медичних асистентів для споживачів. Його наслідкові витрати включають непотрібне обстеження, тривогу пацієнта та ятрогенну діагностику. Два кейси-пастки в цьому бенчмарку розроблені, щоб зробити цей режим відмови видимим і таким, що піддається оцінюванню.

Порівняння пліч-о-пліч: наївний ШІ вигадує гепатит на панелі при синдромі Жильбера проти того, як двигун Kantesti коректно ідентифікує доброякісний поліморфізм UGT1A1
Рисунок 4: Дизайн кейсів-пасток. Двигун, який упевнено маркує синдром Жильбера як гепатит, або який «виготовляє» прикордонну патологію на повністю нормальному екрані, отримує штраф — а не винагороду за те, що звучить клінічно.

🟡 Пастка 1 — BT-014-GILBERT

Прояв. Чоловік 24 років із загальним білірубіном 2.4 мг/дл. Пряма фракція нормальна, трансамінази та лужна фосфатаза перебувають у межах своїх референсних діапазонів, ретикулоцити без особливостей, а гаптоглобін і LDH виключають гемоліз.

Правильна інтерпретація. Синдром Жильбера — доброякісна поліморфність UGT1A1. Інтерпретація не повинна викликати гепатит, цироз, гемолітичну анемію або біліарну обструкцію.

Результат V11. Композитний 1.000. Жоден із шести контрольованих прапорців надмірної діагностики не з’явився як активний діагноз.

🟡 Пастка 2 — BT-015-HEALTHY

Прояв. Жінка 35 років із рутинною скринінговою панеллю на п’ятнадцять параметрів. Кожен аналізований показник комфортно перебуває в межах свого референсного діапазону.

Правильна інтерпретація. Заспокоєння та підтримка способу життя. Інтерпретація не повинна вигадувати прикордонну патологію, щоб звучати клінічно корисно.

Результат V11. Композит 1.000. Жоден із семи відстежуваних прапорців надмірної діагностики — діабет, анемія, гіпотиреоз, дисліпідемія, гепатит, хвороби нирок, дефіцит — не з’явився як активні діагнози.

У обох «трапах» було перевірено тринадцять відстежуваних прапорців гіпердіагностики. Жоден не спрацював. Це результат, який найбільше важить для будь-якого клініциста, що розглядає використання ШІ-двигуна як інструменту триажу або передконсультаційної оцінки: система не вигадувала хворобу там, де її не було.

Індекс Ментцера: розмежування дефіциту заліза та ознаки таласемії

Друге високовартісне відкриття стосується поєднання кейсу BT-001 (залізодефіцитна анемія) з кейсом BT-007 (бета-таласемія мала). Обидва випадки мають мікроцитоз і є добре відомою «пасткою» для наївних класифікаторів. Індекс Ментцера, обчислений як MCV, поділене на кількість еритроцитів (RBC), перевищує 13 при залізодефіциті та падає нижче 13 при ознаці таласемії.

У BT-001 пацієнткою була 34-річна жінка з гемоглобіном 10,4 г/дл, MCV 72,4 фл, RBC 4,1 × 10¹²/л, феритином 6 нг/мл та підвищеним TIBC. Індекс Ментцера приблизно 17,7 підтримує абсолютний дефіцит заліза. У BT-007 пацієнтом був 28-річний чоловік із мікроцитозом (MCV 65,8 фл), але з високою кількістю RBC 6,2, нормальним RDW, нормальним феритином і HbA2 5,6 відсотка. Індекс Ментцера приблизно 10,6 вказує на ознаку таласемії, а підвищений HbA2 підтверджує бета-таласемію малу.

Залізодефіцитна анемія Ментцер > 13 Низький феритин, низький TSAT, високий TIBC, підвищений RDW
Ознака бета-таласемії Ментцер < 13 Нормальний феритин, нормальний RDW, підвищений HbA2 (>3,5%), висока кількість RBC

Обидва випадки набрали 1.000. Двигун явно використав індекс Ментцера в обох інтерпретаціях і повернув правильний діагноз у кожному випадку. Це єдиний результат, який найбільше клінічно заспокоює в усьому бенчмарку, оскільки помилкова класифікація ознаки таласемії як залізодефіциту призводить до неадекватного призначення препаратів заліза та пропуску можливостей сімейного скринінгу, а помилкова класифікація залізодефіциту як таласемії затримує просту замісну терапію. Наш діапазон феритину пояснює ширший диференційно-діагностичний контекст.

Результати для кожного випадку з запуску в квітні 2026 року

Дванадцять із п’ятнадцяти випадків досягли верхньої межі композитного бала 1.000 за первинним шляхом. Три випадки були обслуговані через резервний варіант Phase 2, втративши бонус до латентності 0,05, але зберігши весь клінічний і структурний зміст. В одному випадку бракувало однієї обов’язкової підрубрики; в одному випадку сума ймовірностей була дещо зменшена.

Ідентифікатор випадку Спеціальність Композитний Латентність Шлях
BT-001-IDAГематологія1.00017,8 спервинний
BT-006-B12Гематологія1.00018,4 спервинний
BT-007-THALГематологія1.00017,0 спервинний
BT-002-HASHЕндокринологія0.95037,0 срезервний варіант
BT-008-PCOSЕндокринологія0.98718,6 спервинний
BT-003-T2DMМетаболічний1.00019,1 спервинний
BT-013-GOUTМетаболічний1.00019,4 спервинний
BT-004-NAFLDГепатологія1.00019,6 спервинний
BT-009-VIRHEPГепатологія0.95023,4 срезервний варіант
BT-014-GILBERTпастка1.00018,9 спервинний
BT-005-CKDНефрологія1.00017,4 спервинний
BT-010-ASCVDКардіологія1.00019,7 спервинний
BT-011-SLEРевматологія0.98118,2 спервинний
BT-012-VITDЕндокринологія1.00019,3 спервинний
BT-015-HEALTHYпастка1.00018,7 срезервний варіант

Справа про СПКЯ (BT-008) втратила одну обов’язкову підсекцію в структурі відповіді — п’ятнадцять із шістнадцяти замість шістнадцяти із шістнадцяти — через що структурний бал знизився з 1,000 до 0,963. Справа про СЧВ (BT-011) повернула дещо зменшену суму ймовірнісного розподілу, що знизило клінічний бал до 0,965, зберігши кожне діагностичне ключове слово та систему оцінювання. Жодна з двох справ із неідеальним результатом не пропустила правильний діагноз.

Що не повідомляє нам загальний підсумковий бал

Композитний бал 99,12 відсотка за цією конкретною попередньо зареєстрованою рубрикою відображає майже стельову продуктивність, але це потребує обережного формулювання. Результат описує поведінку рушія щодо п’ятнадцяти ретельно відібраних анонімізованих випадків, оцінених по одному разу, за однією рубрикою. Ми чітко зазначаємо, що саме число підтверджує і чого не підтверджує.

Бал говорить про те, що рушій V11 коректно обробив діагностичні патерни, вибрані для цього оцінювання, за методологією, яка опублікована та відтворювана. Він не означає, що рушій є правильним для кожної панелі аналізів крові, яка існує в реальному світі. Він не означає, що рушій має замінити клінічне судження. І він не означає, що рушій перевершує альтернативні системи ШІ — порівняльні аналізи з іншими рушіями навмисно не входили до сфери цього звіту.

Те, що бал справді встановлює, — це базовий рівень. Оскільки рубрика та середовище (harness) оприлюднені, майбутні версії рушія можна оцінювати за тими самими п’ятнадцятьма випадками, а різниця між опублікованим балом і будь-яким наступним запуском є вимірюваною сама по собі. У цьому цінність попередньої реєстрації: вона перетворює твердження про продуктивність на перевірювані твердження.

Як відтворити цей бенчмарк за 10 хвилин

Для відтворення потрібна лише пара облікових даних API Kantesti і середовище Python 3.10 або новішої версії з requests і reportlab бібліотеки встановлені. Повний harness — це один самодостатній модуль Python, випущений під ліцензією MIT.

Діаграма мережі відтворюваності, що показує бенчмарк, віддзеркалений на Figshare, ResearchGate, Academia.edu та GitHub, із Figshare DOI як канонічним якорем
Рисунок 5: Бенчмарк віддзеркалено на чотирьох дослідницьких платформах. Figshare DOI є канонічним науковим ідентифікатором; ResearchGate, Academia.edu та GitHub розміщують паралельні копії з кодом і сирими даними.

Чотири кроки для нового запуску

Один. Клонувати репозиторій: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Встановіть залежності за допомогою pip install -r requirements.txt. Три. Встановіть KANTESTI_USERNAME і KANTESTI_PASSWORD як змінні середовища — облікові дані зчитуються під час виконання, і в скрипті нічого не зашито. Чотири. Запустіть python benchmark_bloodtest.py і перегляньте чотири артефакти, що буде виведено в робочий каталог: CSV scorecard, JSON scorecard, повний JSON-дамп, що включає сирі відповіді рушія, та читабельний звіт у форматі Markdown.

Еталонний запуск від 23 квітня 2026 року збережено в results/ каталозі репозиторію. Новий запуск створить нову scorecard із часовою міткою, не змінюючи еталонний запуск. Якщо ваш запуск дає суттєво інший результат, будь ласка, відкрийте issue на GitHub із часовою міткою запуску та версією рушія, що повернута в метаданих відповіді.

Обмеження та подальші роботи

Чотири обмеження заслуговують на явне підтвердження: розмір вибірки, оцінювання за один прогін, обмеження одним рушієм і походження даних з одного джерела. Кожне з них опрацьовується в активній подальшій роботі.

Розмір вибірки. П’ятнадцять випадків у восьми спеціалізованих категоріях достатні для proof of concept, але недостатні для аналізу підгруп у межах спеціальності. Планується розширення до п’ятдесяти випадків, які включатимуть панелі коагуляції, скринінг гематологічних злоякісних новоутворень, панелі для вагітності та педіатричні звернення.

Оцінювання за один прогін. Кожен випадок було оцінено один раз. Великі мовні моделі демонструють суттєву варіативність виходу навіть за низької температури вибірки, тож наступним природним кроком є протокол із кількома прогінами: п’ять оцінювань на випадок із повідомленням про дисперсію.

Обмеження одним рушієм. Цей звіт описує роботу одного рушія. Порівняльні аналізи з альтернативними системами ШІ тут не розглядаються; ми можемо виконати їх як окреме незалежне дослідження з відповідною методологією.

Походження даних з одного джерела. П’ятнадцять випадків — це анонімізовані реальні медичні записи пацієнтів, взяті з одного клінічного репозиторію. Вони становлять відібрану вибірку і не є випадковим набором, репрезентативним для популяції. Розширення оцінювання до даних з кількох центрів планується в дорожній карті.

Найбільш впливовим запланованим розширенням є паритет між мовами. AI Engine Kantesti обслуговує користувачів 75+ мовами, і запуск того самого тестового стенду з п’ятнадцяти випадків турецькою, німецькою, іспанською, французькою та арабською дозволить кількісно оцінити якість виходу в межах підтримуваних рушієм мов. Ми опублікуємо кожен мовний запуск із власним DOI та гілкою тестового стенду.