Kantesti ШІ-бенчмарк аналізу крові — клінічна валідація

Клінічна валідація Попередньо зареєстрований еталон V11 — квітень 2026 Ліцензія MIT Перевіряється незалежними експертами

99.12% Композитний бал за попередньо зареєстрованою рубрикою з нульовими гіпердіагностичними хибнопозитивними результатами

Незалежна попередньо зареєстрована клінічна оцінка AI-двигуна Kantesti на анонімізованих випадках аналізів крові. Критерії (рубрика) були зафіксовані в початковому коді до першого виклику двигуна, середовище для оцінювання має ліцензію MIT, і кожна первинна відповідь опублікована.

📖 ~14 хвилин 📅 23 квітня 2026 року 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Опубліковано: 23 квітня 2026 року 🩺 Медично переглянуто: 23 квітня 2026 року ✅ Попередньо зареєстрована рубрика 🔓 Відкритий код і дані

Це клінічне валідаційне дослідження очолив(ла) Доктор Томас Кляйн, доктор медичних наук, головний медичний директор (Chief Medical Officer) в Kantesti AI, у співпраці з Джуліан Емірхан Булут, старшим інженером з ШІ та CEO Kantesti Ltd. Методологію та рубрику переглянув(ла) Медична консультативна рада Кантесті ШІ.

Головний автор і клінічний нагляд

Томас Кляйн, доктор медичних наук

Головний лікар, Кантесті А.І.

Доктор Томас Кляйн — сертифікований лікар-клінічний гематолог і терапевт із понад 15 роками досвіду в лабораторній медицині. Як головний медичний директор у Kantesti AI, він обрав панель випадків для цього еталону, переглянув усі діагностичні істини (ground truths) та затвердив попередньо зареєстровану рубрику до першого виклику двигуна.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Співавтор і впровадження

Джуліан Емірхан Булут

Старший інженер з ШІ та CEO, Kantesti Ltd

Джуліан Емірхан Булут — засновник і CEO Kantesti Ltd. Він розробив і впровадив середовище для оцінювання, виконав інтеграцію API, провів запуск еталону в квітні 2026 року та підготував статистичну агрегацію. Засновник платформи з 2019 року.

GitHub Про Кантесті

⚡ Короткий підсумок V11 — 23 квітня 2026 року

Композитний бал 99.12% на 15 анонімізованих реальних випадках аналізу крові пацієнтів у семи медичних спеціальностях.
Нуль хибнопозитивних випадків гіпердіагностики як для обох «тестових пасток» (синдром Жильбера та повністю нормальний скринінг дорослого).
Попередньо зареєстрована рубрика зафіксована в початковому коді до першого виклику рушія — не було можливості постфактум налаштовувати параметри.
Індекс Ментцера коректно застосовано щоб відрізнити залізодефіцитну анемію від β-таласемії (легка форма).
Лише виробнича кінцева точка — без привілейованої маршрутизації; оцінювання виконувалося точно так, як отримує доступ платний клієнт.
Середня затримка 20,17 секунди end-to-end, причому 12 із 15 випадків — у межах первинної цільової затримки 20 секунд.
Тестовий каркас під ліцензією MIT опубліковано на GitHub з кожною сирою відповіддю рушія — підтримується незалежне відтворення.
DOI на Figshare: 10.6084/m9.figshare.32095435 · Віддзеркалено на ResearchGate, Academia.edu, GitHub.

Навіщо існує цей еталон і що він перевіряє

ШІ-асистована розшифровка аналізу крові дедалі частіше використовується в споживчих і клінічних процесах, однак відтворювані оцінювальні рамки, адаптовані під лабораторну медицину, залишаються рідкісними. Найважливіші питання в цьому контексті — не ті, що охоплюються загальними бенчмарками для медичного питання-відповіді: чи може рушій відрізнити залізодефіцит від ознаки таласемії, коли середній об’єм еритроцитів однаковий; чи ставить він надмірний діагноз синдрому Жильбера як гепатит; і чи «конструює» патологію в повністю нормальній скринінговій панелі?

Одна панель аналізу крові зазвичай містить достатньо сигналу, щоб підтримувати кілька конкуруючих інтерпретацій, і завдання лікаря, який інтерпретує, — зважити ці інтерпретації одна проти одної, а не витягнути «правильну відповідь» з підручника. Двигун, який добре працює на підручникових випадках, може все одно зазнати невдачі в тих ситуаціях, що мають найбільше значення: у пастках диференційної діагностики, у доброякісних варіантах, які виглядають тривожно лише в ізоляції, та в повністю нормальних панелях, що спокушають упевнених асистентів «виготовляти» патологію.

Цей бенчмарк був побудований саме навколо таких режимів невдачі. Кожен із п’ятнадцяти випадків було відібрано за певною діагностичною властивістю: мікроцитоз через дефіцит заліза, який потрібно чітко відрізняти від носійства бета-таласемії з ідентичним середнім об’ємом еритроцитів, клінічну картину синдрому Жильбера, де єдина аномалія — ізольована непряма гіпербілірубінемія, та скринінгову панель із п’ятнадцяти параметрів, у якій кожен аналіт перебуває в межах референтного діапазону. Рубрика винагороджує двигуни, які читають кожен випадок у його власних умовах, і штрафує двигуни, які намагаються поставити впевнений діагноз там, де для цього немає підстав.

Як Томас Кляйн, доктор медицини, я обрав панель випадків, тому що саме ці патерни лабораторно-медичні асистенти найчастіше трактують неправильно. Дорогий режим невдачі — це не "пропустити рідкісне захворювання", а вигадувати рутинну патологію в пацієнтів, у яких її немає. Наш Медична валідація hub описує ширшу рамку; ця сторінка описує її прикладний результат для двигуна V11.

Останній референсний запуск — V11 (квітень 2026)

Довідковий прогін за квітень 2026 року для Kantesti AI Engine V11 дав композитний бал 99.12% за попередньо зареєстрованою рубрикою з п’ятнадцяти випадків. Обидва випадки-пастки гіпердіагностики набрали максимум. Індекс Ментцера було застосовано правильно в диференціалі «дефіцит заліза проти таласемії».

Композитний 99.12% 15 із 15 випадків набрали

0.998 Структурний бал

0.998 Клінічний бал

20.17 с Середня затримка

0 / 13 Хибнопозитивні відповіді в пастках

Композитна формула поєднує три компоненти: структурна відповідність із сімома обов’язковими розділами звіту та шістнадцятьма обов’язковими підрозділами, клінічна точність вимірювана як відтворення ключових слів плюс відтворення за системою оцінювання плюс перевірка валідності ймовірнісного розподілу, і затримка відповіді щодо основної цілі сервісного рівня 20 секунд. Точний розклад показано в формулі рубрики нижче.

Композитний = 0.35 × Структурний + 0.55 × Клінічний + 0.10 × Затримка

Залишкові 0,88 відсоткового пункту «запасу» майже повністю розкладаються на втрати через затримку — три резервні виклики Phase 2 із композитом по -0,05 кожен дали приблизно 0,60 із дефіциту в 0,88 пункту — а не на клінічний контент. Двигун не пропустив жодного коректного діагнозу в жодному з п’ятнадцяти випадків; там, де він не дотягнув, це було через те, що в невеликій меншості викликів він працював трохи довше за основну ціль у 20 секунд.

П’ятнадцять випадків у семи медичних спеціальностях

Панель випадків охоплює сім спеціальностей — гематологію, ендокринологію, метаболічну медицину, гепатологію, нефрологію, кардіологію, ревматологію — а також два окремі випадки пастки для гіпердіагностики. Кожен випадок — це анонімізована реальна медична картка пацієнта, взята з репозиторію клінічних даних Kantesti за наявності письмової інформованої згоди.

Деідентифікацію виконано за підходом Safe Harbor: усі прямі ідентифікатори було видалено або замінено, а кожному запису присвоєно внутрішній код випадку-бенчмарку у форматі BT-NNN-LABEL. Обробку виконано відповідно до статті 9(2)(j) GDPR для наукових досліджень із належними запобіжними заходами та еквівалентними положеннями UK GDPR. Жодна персонально ідентифікуюча інформація не з’являється ніде в опублікованому стенді, технічному звіті чи в оприлюднених наборах даних.

Гематологія (3) BT-001, BT-006, BT-007 Залізодефіцитна анемія · Дефіцит B12 · Малий варіант бета-таласемії

Ендокринологія (3) BT-002, BT-008, BT-012 Тиреоїдит Хашимото · PCOS із інсулінорезистентністю · Тяжкий дефіцит вітаміну D

Метаболічні (2) BT-003, BT-013 T2DM із метаболічним синдромом · Гіперурикемія з ризиком подагри

Гепатологія (2) BT-004, BT-009 НАЖХП / НАСГ · Гострий вірусний гепатит

Нефрологія · Кардіологія · Ревматологія (3) BT-005, BT-010, BT-011 ХЗН стадія 3 · Атерогенна дисліпідемія · Системний червоний вовчак

Випадки-пастки (2) BT-014, BT-015 Синдром Жильбера (ізольована непряма гіпербілірубінемія) · Повністю нормальний скринінг дорослого

Чому саме такий розподіл

Гематологія отримує три кейси, оскільки мікроцитарні диференціали та макроцитарні диференціали є пастками з найбільшим обсягом у реальній лабораторній практиці. Ендокринологія отримує три, бо прояви хвороби Хашимото, СПКЯ та дефіциту вітаміну D мають різні діагностичні «форми» (керовані аутоантитілами, керовані співвідношеннями гормонів, керовані одним маркером). Однокейсові спеціальності все ще є змістовними, тому що кожна з ХЗН, ризику ASCVD та СЧВ має власну систему оцінювання, яку двигун має викликати (стадіювання KDIGO, 10-річний ризик ASCVD, критерії 2019 EULAR/ACR для СЧВ відповідно).

Попередньо зареєстрована рубрика — пояснення

Попередня реєстрація — це єдиний найважливіший методологічний вибір у цьому бенчмарку. Кожен очікуваний діагноз, кожна клінічна система оцінювання та кожен розділ звіту були зафіксовані в початковому коді до того, як двигун було викликано. Отже, постфактум «тонке налаштування» рубрики, щоб підхвалити двигун, неможливе.

Три компоненти формують підсумковий композитний бал. структурний компонент становить 35 відсотків і вимірює, чи двигун повернув сім обов’язкових розділів звіту (заголовок, підсумок, ключові знахідки, диференціал, системи оцінювання, рекомендації, подальші дії) та шістнадцять обов’язкових підрозділів у межах кожного з них. Наявність розділу важить 40 відсотків, а наявність підрозділу — 60 відсотків у структурному розрахунку.

The клінічний компонент становить 55 відсотків і поєднує три речі: пригадування діагнозу за ключовими словами (70 відсотків клінічної підоцінки), пригадування системи оцінювання (20 відсотків — чи двигун обчислює Mentzer, FIB-4, HOMA-IR, ризик ASCVD, стадіювання KDIGO, критерії EULAR/ACR, де це доречно), та перевірку валідності суми ймовірностей (10 відсотків — імовірності в диференціалі мають сумуватися в межах інтервалу [90, 110]). Для кейсів-пасток застосовується явний штраф за гіпердіагностику до 0.30, який віднімається: 0.10 за кожен сфабрикований прапорець патології, з обмеженням максимум трьома прапорцями.

The компонент затримки становить 10 відсотків. Відповідь менш ніж за 20 секунд отримує повні 0.10, відповідь менш ніж за 40 секунд — 0.05, а все, що повільніше, — нуль. Ціль у 20 секунд відображає виробничу основну ціль рівня сервісу для первинного primary-path; стеля 40 секунд відображає резерв бюджету для запасного варіанту Phase 2 при важких викликах двигуна.

Що запобігає попередній реєстрації

Першоособові бенчмарки відомі тим, що роздувають власні показники через постфактум налаштування рубрики. Шаблон майже завжди однаковий: команда запускає двигун, бачить, де він недопрацьовує, а потім тихо коригує рубрику так, щоб недопрацьовані області враховувалися менше. За умови фіксації рубрики в початковому коді до першого виклику двигуна та публікації хостингу під ліцензією MIT, це коригування стає видимим у системі керування версіями. Будь-хто може клонувати репозиторій, перевірити дати авторства рубрики та підтвердити, що результати двигуна не використовувалися для формування оцінювання.

Випадки пастки гіпердіагностики — чому надмірне «викликання» є реальною точкою відмови

Агресивне «перекликання» патології на нормальних екранах — задокументований режим відмови медичних асистентів для споживачів. Його наслідкові витрати включають непотрібне обстеження, тривогу пацієнта та ятрогенну діагностику. Два кейси-пастки в цьому бенчмарку розроблені, щоб зробити цей режим відмови видимим і таким, що піддається оцінюванню.

🟡 Пастка 1 — BT-014-GILBERT

Прояв. Чоловік 24 років із загальним білірубіном 2.4 мг/дл. Пряма фракція нормальна, трансамінази та лужна фосфатаза перебувають у межах своїх референсних діапазонів, ретикулоцити без особливостей, а гаптоглобін і LDH виключають гемоліз.

Правильна інтерпретація. Синдром Жильбера — доброякісна поліморфність UGT1A1. Інтерпретація не повинна викликати гепатит, цироз, гемолітичну анемію або біліарну обструкцію.

Результат V11. Композитний 1.000. Жоден із шести контрольованих прапорців надмірної діагностики не з’явився як активний діагноз.

🟡 Пастка 2 — BT-015-HEALTHY

Прояв. Жінка 35 років із рутинною скринінговою панеллю на п’ятнадцять параметрів. Кожен аналізований показник комфортно перебуває в межах свого референсного діапазону.

Правильна інтерпретація. Заспокоєння та підтримка способу життя. Інтерпретація не повинна вигадувати прикордонну патологію, щоб звучати клінічно корисно.

Результат V11. Композит 1.000. Жоден із семи відстежуваних прапорців надмірної діагностики — діабет, анемія, гіпотиреоз, дисліпідемія, гепатит, хвороби нирок, дефіцит — не з’явився як активні діагнози.

У обох «трапах» було перевірено тринадцять відстежуваних прапорців гіпердіагностики. Жоден не спрацював. Це результат, який найбільше важить для будь-якого клініциста, що розглядає використання ШІ-двигуна як інструменту триажу або передконсультаційної оцінки: система не вигадувала хворобу там, де її не було.

Індекс Ментцера: розмежування дефіциту заліза та ознаки таласемії

Друге високовартісне відкриття стосується поєднання кейсу BT-001 (залізодефіцитна анемія) з кейсом BT-007 (бета-таласемія мала). Обидва випадки мають мікроцитоз і є добре відомою «пасткою» для наївних класифікаторів. Індекс Ментцера, обчислений як MCV, поділене на кількість еритроцитів (RBC), перевищує 13 при залізодефіциті та падає нижче 13 при ознаці таласемії.

У BT-001 пацієнткою була 34-річна жінка з гемоглобіном 10,4 г/дл, MCV 72,4 фл, RBC 4,1 × 10¹²/л, феритином 6 нг/мл та підвищеним TIBC. Індекс Ментцера приблизно 17,7 підтримує абсолютний дефіцит заліза. У BT-007 пацієнтом був 28-річний чоловік із мікроцитозом (MCV 65,8 фл), але з високою кількістю RBC 6,2, нормальним RDW, нормальним феритином і HbA2 5,6 відсотка. Індекс Ментцера приблизно 10,6 вказує на ознаку таласемії, а підвищений HbA2 підтверджує бета-таласемію малу.

Залізодефіцитна анемія Ментцер > 13 Низький феритин, низький TSAT, високий TIBC, підвищений RDW

Ознака бета-таласемії Ментцер < 13 Нормальний феритин, нормальний RDW, підвищений HbA2 (>3,5%), висока кількість RBC

Обидва випадки набрали 1.000. Двигун явно використав індекс Ментцера в обох інтерпретаціях і повернув правильний діагноз у кожному випадку. Це єдиний результат, який найбільше клінічно заспокоює в усьому бенчмарку, оскільки помилкова класифікація ознаки таласемії як залізодефіциту призводить до неадекватного призначення препаратів заліза та пропуску можливостей сімейного скринінгу, а помилкова класифікація залізодефіциту як таласемії затримує просту замісну терапію. Наш діапазон феритину пояснює ширший диференційно-діагностичний контекст.

Результати для кожного випадку з запуску в квітні 2026 року

Дванадцять із п’ятнадцяти випадків досягли верхньої межі композитного бала 1.000 за первинним шляхом. Три випадки були обслуговані через резервний варіант Phase 2, втративши бонус до латентності 0,05, але зберігши весь клінічний і структурний зміст. В одному випадку бракувало однієї обов’язкової підрубрики; в одному випадку сума ймовірностей була дещо зменшена.

Ідентифікатор випадку Спеціальність Композитний Латентність Шлях

BT-001-IDAГематологія1.00017,8 спервинний

BT-006-B12Гематологія1.00018,4 спервинний

BT-007-THALГематологія1.00017,0 спервинний

BT-002-HASHЕндокринологія0.95037,0 срезервний варіант

BT-008-PCOSЕндокринологія0.98718,6 спервинний

BT-003-T2DMМетаболічний1.00019,1 спервинний

BT-013-GOUTМетаболічний1.00019,4 спервинний

BT-004-NAFLDГепатологія1.00019,6 спервинний

BT-009-VIRHEPГепатологія0.95023,4 срезервний варіант

BT-014-GILBERTпастка1.00018,9 спервинний

BT-005-CKDНефрологія1.00017,4 спервинний

BT-010-ASCVDКардіологія1.00019,7 спервинний

BT-011-SLEРевматологія0.98118,2 спервинний

BT-012-VITDЕндокринологія1.00019,3 спервинний

BT-015-HEALTHYпастка1.00018,7 срезервний варіант

Справа про СПКЯ (BT-008) втратила одну обов’язкову підсекцію в структурі відповіді — п’ятнадцять із шістнадцяти замість шістнадцяти із шістнадцяти — через що структурний бал знизився з 1,000 до 0,963. Справа про СЧВ (BT-011) повернула дещо зменшену суму ймовірнісного розподілу, що знизило клінічний бал до 0,965, зберігши кожне діагностичне ключове слово та систему оцінювання. Жодна з двох справ із неідеальним результатом не пропустила правильний діагноз.

Що не повідомляє нам загальний підсумковий бал

Композитний бал 99,12 відсотка за цією конкретною попередньо зареєстрованою рубрикою відображає майже стельову продуктивність, але це потребує обережного формулювання. Результат описує поведінку рушія щодо п’ятнадцяти ретельно відібраних анонімізованих випадків, оцінених по одному разу, за однією рубрикою. Ми чітко зазначаємо, що саме число підтверджує і чого не підтверджує.

Бал говорить про те, що рушій V11 коректно обробив діагностичні патерни, вибрані для цього оцінювання, за методологією, яка опублікована та відтворювана. Він не означає, що рушій є правильним для кожної панелі аналізів крові, яка існує в реальному світі. Він не означає, що рушій має замінити клінічне судження. І він не означає, що рушій перевершує альтернативні системи ШІ — порівняльні аналізи з іншими рушіями навмисно не входили до сфери цього звіту.

Те, що бал справді встановлює, — це базовий рівень. Оскільки рубрика та середовище (harness) оприлюднені, майбутні версії рушія можна оцінювати за тими самими п’ятнадцятьма випадками, а різниця між опублікованим балом і будь-яким наступним запуском є вимірюваною сама по собі. У цьому цінність попередньої реєстрації: вона перетворює твердження про продуктивність на перевірювані твердження.

Як відтворити цей бенчмарк за 10 хвилин

Для відтворення потрібна лише пара облікових даних API Kantesti і середовище Python 3.10 або новішої версії з requests і reportlab бібліотеки встановлені. Повний harness — це один самодостатній модуль Python, випущений під ліцензією MIT.

💻 GitHub harness з ліцензією MIT · сирі відповіді · reference run 🔗 DOI на Figshare 10.6084/m9.figshare.32095435 · канонічний академічний запис 🎓 ResearchGate Publication 404175463 · академічний шар відкриттів 📄 Academia.edu Paper 165956808 · академічний шар відкриттів

Чотири кроки для нового запуску

Один. Клонувати репозиторій: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Встановіть залежності за допомогою pip install -r requirements.txt. Три. Встановіть KANTESTI_USERNAME і KANTESTI_PASSWORD як змінні середовища — облікові дані зчитуються під час виконання, і в скрипті нічого не зашито. Чотири. Запустіть python benchmark_bloodtest.py і перегляньте чотири артефакти, що буде виведено в робочий каталог: CSV scorecard, JSON scorecard, повний JSON-дамп, що включає сирі відповіді рушія, та читабельний звіт у форматі Markdown.

Еталонний запуск від 23 квітня 2026 року збережено в results/ каталозі репозиторію. Новий запуск створить нову scorecard із часовою міткою, не змінюючи еталонний запуск. Якщо ваш запуск дає суттєво інший результат, будь ласка, відкрийте issue на GitHub із часовою міткою запуску та версією рушія, що повернута в метаданих відповіді.

Обмеження та подальші роботи

Чотири обмеження заслуговують на явне підтвердження: розмір вибірки, оцінювання за один прогін, обмеження одним рушієм і походження даних з одного джерела. Кожне з них опрацьовується в активній подальшій роботі.

Розмір вибірки. П’ятнадцять випадків у восьми спеціалізованих категоріях достатні для proof of concept, але недостатні для аналізу підгруп у межах спеціальності. Планується розширення до п’ятдесяти випадків, які включатимуть панелі коагуляції, скринінг гематологічних злоякісних новоутворень, панелі для вагітності та педіатричні звернення.

Оцінювання за один прогін. Кожен випадок було оцінено один раз. Великі мовні моделі демонструють суттєву варіативність виходу навіть за низької температури вибірки, тож наступним природним кроком є протокол із кількома прогінами: п’ять оцінювань на випадок із повідомленням про дисперсію.

Обмеження одним рушієм. Цей звіт описує роботу одного рушія. Порівняльні аналізи з альтернативними системами ШІ тут не розглядаються; ми можемо виконати їх як окреме незалежне дослідження з відповідною методологією.

Походження даних з одного джерела. П’ятнадцять випадків — це анонімізовані реальні медичні записи пацієнтів, взяті з одного клінічного репозиторію. Вони становлять відібрану вибірку і не є випадковим набором, репрезентативним для популяції. Розширення оцінювання до даних з кількох центрів планується в дорожній карті.

Найбільш впливовим запланованим розширенням є паритет між мовами. AI Engine Kantesti обслуговує користувачів 75+ мовами, і запуск того самого тестового стенду з п’ятнадцяти випадків турецькою, німецькою, іспанською, французькою та арабською дозволить кількісно оцінити якість виходу в межах підтримуваних рушієм мов. Ми опублікуємо кожен мовний запуск із власним DOI та гілкою тестового стенду.

Спробуйте той самий рушій, який досяг 99.12% композитного бала

Завантажте власну панель аналізу крові на той самий production-ендпойнт, який було оцінено в цьому бенчмарку. Понад 2 мільйони користувачів у всьому світі використовують Kantesti AI Engine, щоб інтерпретувати понад 15,000 біомаркерів на 75+ мовах.

🔬 Спробуйте безкоштовну демо-версію

Розширення Chrome Магазин додатків Google Play

📚 Як цитувати цей бенчмарк

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Клінічна валідація Kantesti AI Engine (2.78T)
                 на 15 анонімізованих випадках аналізу крові: попередньо зареєстрований
                 бенчмарк на основі рубрики, що включає пастки гіпердіагностики
                 для випадків у семи медичних спеціальностях},
  institution = {Kantesti Ltd},
  address     = {Лондон, Сполучене Королівство},
  year        = {2026},
  month       = {Квітень},
  type        = {Технічний звіт},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Клінічна валідація Kantesti AI Engine (2.78T) на 15 анонімізованих випадках аналізу крові: попередньо зареєстрований бенчмарк на основі рубрики, що включає пастки гіпердіагностики для випадків у семи медичних спеціальностях (Технічний звіт V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Пов’язані роботи з валідації Kantesti

Klein, T. (2025). Клінічна валідаційна структура для інтерпретації аналізів крові на основі штучного інтелекту: методологія потрійної сліпої валідації, показники ефективності та протоколи забезпечення якості. Kantesti ШІ медичні дослідження.

🎓 ResearchGate

📖 Зовнішні методологічні посилання

Mentzer, W. C. (1973). Диференціація дефіциту заліза від ознаки таласемії. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Європейська ліга проти ревматизму / Американський коледж ревматологів Класифікаційні критерії системного червоного вовчака. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: тест на галюцинації в медичній предметній області для великих мовних моделей. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Композитний показник

15Оцінені випадки

7Спеціальності

0Хибнопозитивні спрацьовування пастки

Часті запитання

Наскільки точний ШІ-двигун Kantesti на реальних випадках аналізу крові?

На попередньо зареєстрованій рубриці з 15 анонімізованих реальних випадків аналізу крові в семи медичних спеціальностях Kantesti AI Engine V11 досяг композитного показника 99.12 відсотка, не маючи жодних хибнопозитивних випадків гіпердіагностики як у пасткових випадках, так і в середній затримці відповіді 20.17 секунди. Повна таблиця оцінювання для кожного випадку опублікована на Figshare за DOI 10.6084/m9.figshare.32095435 і на GitHub під ліцензією MIT.

Чи має Kantesti AI Engine клінічну валідацію?

Так. Двигун було клінічно валідовано за рубрикою, яка була зафіксована в початковому коді до того, як двигун було запущено, і оцінено на 15 анонімізованих випадках аналізів крові в гематології, ендокринології, метаболічній медицині, гепатології, нефрології, кардіології та ревматології. Клінічний нагляд здійснював д-р Томас Кляйн, MD (ORCID 0009-0009-1490-1321), сертифікований лікар-гематолог і головний медичний директор у Kantesti AI.

Що таке випадок «пастки гіпердіагностики»?

«Пастка гіпердіагностики» — це клінічний сценарій, спеціально розроблений для виявлення поведінки надмірної діагностики в AI-двигунах. Бенчмарк Kantesti V11 використовує два таких випадки. Перший — ізольована непряма гіпербілірубінемія, що відповідає синдрому Жильбера, де правильна інтерпретація — доброякісна поліморфна варіація UGT1A1, а не гепатит чи гемоліз. Другий — повністю нормальна доросла скринінг-панель, де правильний результат — заспокоєння та підтримання здорового способу життя, а не «змодельована» прикордонна патологія.

Чи є оцінювання Kantesti AI Engine відтворюваним?

Повний випробувальний стенд опубліковано під ліцензією MIT як один самодостатній модуль Python. Для відтворення потрібні лише пара облікових даних Kantesti API та Python 3.10 або новіша версія. Код, визначення випадків і кожна первинна відповідь двигуна з референсного запуску за квітень 2026 доступні на github.com/emirhanai/kantesti-blood-test-benchmark і дублюються на Figshare, ResearchGate та Academia.edu.

Як ШІ-двигун Kantesti відрізняє дефіцит заліза від носійства бета-таласемії?

Двигун застосовує індекс Ментцера, який обчислюється як середній об’єм еритроцитів, поділений на кількість еритроцитів. Індекс Ментцера понад 13 підтримує залізодефіцитну анемію, тоді як значення нижче 13 підтримує ознаку бета-таласемії. У бенчмарку V11 обидва варіанти були класифіковані правильно з явним обчисленням індексу Ментцера, що підтверджувалося контекстом феритину, RDW та HbA2.

Де я можу знайти необроблені дані еталонних показників і вихідний код?

Технічний звіт розміщено на Figshare під DOI 10.6084/m9.figshare.32095435, дубльовано на публікацію ResearchGate 404175463 та статтю Academia.edu 165956808, а стенд Python з ліцензією MIT із усіма результатами референсного запуску — на github.com/emirhanai/kantesti-blood-test-benchmark. Мережа дзеркал на чотирьох платформах забезпечує довгострокову доступність і гнучкість цитування.

Чому важлива попередня реєстрація для медичних бенчмарків на основі ШІ?

Попередня реєстрація запобігає «післяфактум» налаштуванню рубрики, що є єдиним найпоширенішим способом, у який компанійні бенчмарки роздувають власні показники. Зафіксувавши рубрику в початковому коді до будь-якого виклику двигуна та опублікувавши стенд публічно, дати авторства рубрики стають доступними для перевірки в системі керування версіями, а результати двигуна не могли вплинути на критерії оцінювання.

Чи цей бенчмарк включає порівняння з іншими AI-двигунами?

Ні. Звіт V11 навмисно описує один двигун за фіксованою рубрикою, а не позиціонує його відносно альтернативних комерційних систем. Стенд є відкритим кодом під ліцензією MIT, тож незалежні дослідники можуть оцінити будь-який двигун, який вони оберуть, за тими самими п’ятнадцятьма випадками та рубрикою і опублікувати свої результати.

Випадки пацієнтів реальні чи синтетичні?

П’ятнадцять випадків — це анонімізовані реальні медичні записи пацієнтів, взяті з клінічного репозиторію Kantesti за наявності письмової інформованої згоди. Деідентифікацію виконано за підходом Safe Harbor, при цьому всі прямі ідентифікатори видалено або замінено. Обробку здійснено відповідно до статті 9(2)(j) GDPR та еквівалентних положень UK GDPR. Жодна персонально ідентифікуюча інформація не міститься в опублікованому стенді, технічному звіті чи в оприлюднених наборах даних.

⚕️ Медичне застереження та конфлікт інтересів

Цей звіт бенчмарку призначено для дослідницьких і методологічних цілей прозорості. Він не є медичною порадою. Завжди консультуйтеся з кваліфікованим медичним працівником щодо рішень про діагностику та лікування. Обидва автори працюють у Kantesti Ltd і мають частку в компанії, а двигун, що оцінюється, є комерційним продуктом тієї самої організації. Цей конфлікт інтересів зменшено шляхом попередньої реєстрації рубрики в початковому коді, випуску стенду під ліцензією MIT та публікації кожної первинної відповіді двигуна.

Сигнали довіри E-E-A-T

⭐

Досвід

15+ років клінічної практики в гематології та лабораторній медицині з наглядом за відбором панелі випадків.

📋

Експертиза

Дизайн рубрики, попередньо зареєстрований, із явними штрафами за гіпердіагностику та визнаними клінічними системами оцінювання (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Авторитетність

Головний автор д-р Томас Кляйн, MD (ORCID 0009-0009-1490-1321). Реалізація — Джуліан Емірхан Булут, CEO Kantesti Ltd.

🛡️

Довірливість

Відтворюваний стенд з ліцензією MIT, опубліковані первинні відповіді двигуна, відкрите розкриття конфлікту інтересів, дослідницька мережа дзеркал на чотирьох платформах.

🏢 Кантесті ЛТД Зареєстровано в Англії та Уельсі · Компанія №. 17090423 Лондон, Велика Британія · kantesti.net