Kantesti ШІ-бенчмарк аналізу крові — клінічна валідація

Автоматизований бенчмарк Попередньо зареєстрований еталон Оновлення V11, друге — квітень 2026 Ліцензія MIT Відтворюваний · Відкриті дані 100K синтетична когорта · 127 міток країн

99.80% композитний бал за попередньо зареєстрованою рубрикою — V11 Друге оновлення, когорта на 100,000 випадків у 127 мітках країн

Попередньо зареєстрований, рубрикаторний автоматизований технічний бенчмарк двигуна Kantesti на 100 000 синтетично згенерованих випадків аналізів крові з мітками 127 країн. Він вимірює відповідність виходу, а не діагностичну точність. Рубрику було зафіксовано в коді джерела до початкового релізу V11 і збережено байт-ідентичною для цього Другого Оновлення; оцінювальний стенд має ліцензію MIT; опубліковано стратифіковану випадкову вибірку сирих відповідей двигуна для перевірки. Усі випадки є синтетичними; не використано персональні дані.

📖 ~14 хвилин 📅 Опубліковано 23 квітня 2026 · Оновлено 26 квітня 2026 (V11, друге оновлення) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Опубліковано: 23 квітня 2026 року 🔄 V11, друге оновлення: 26 квітня 2026 року 🩺 Медично переглянуто: 26 квітня 2026 року ✅ Попередньо зареєстрована рубрика (байт-у-байт) 🔓 Відкритий код і дані

Цей автоматизований бенчмарк було розроблено та запущено Джуліан Емірхан Булут, Senior AI Engineer і CEO Kantesti Ltd. Оцінювання повністю автоматизоване в коді; оціночна рубрика та панель кейсів були розроблені за клінічними вхідними даними від Доктор Томас Кляйн, доктор медичних наук, Chief Medical Officer в Kantesti AI, і переглянуті Медична консультативна рада Кантесті ШІ. Це самостійний внутрішній бенчмарк, а не незалежний або рецензований автоматизований технічний бенчмарк.

Головний автор і клінічний нагляд

Томас Кляйн, доктор медичних наук

Головний лікар, Кантесті А.І.

Доктор Томас Кляйн — сертифікований лікар-лабораторний гематолог і терапевт із понад 15 роками досвіду в лабораторній медицині. Як головний медичний офіцер у Kantesti AI, він обрав панель випадків для цього бенчмарку, переглянув клінічний зміст і очікувані відповіді синтетичних випадків та затвердив попередньо зареєстровану рубрику до першого виклику рушія.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Співавтор і впровадження

Джуліан Емірхан Булут

Старший інженер з ШІ та CEO, Kantesti Ltd

Джуліан Емірхан Булут є засновником і генеральним директором Kantesti Ltd. Він розробив і впровадив середовище оцінювання — зокрема SQL-завантажувач кейсів, доданий для V11, другого оновлення — виконав інтеграцію API, провів як початковий референсний запуск V11, так і запуск V11, друге оновлення, на 100 000 кейсів, а також підготував статистичну агрегацію. Засновник платформи з 2019 року.

GitHub Про Кантесті

⚡ Короткий підсумок V11, друге оновлення — 26 квітня 2026 року

композитний бал 99.80% на 100 000 синтетичних випадків аналізів крові в межах восьми медичних спеціальностей і 127 міток країн (V11 Друге Оновлення).
Нуль хибнопозитивних випадків гіпердіагностики у межах 87 412 можливостей для позначення «trap-case» під наглядом — та сама методологія «trap-case», що й у початковому V11, масштабована до рівня популяції.
Попередньо зареєстрована рубрика «заморожено» в початковому коді до початкового запуску V11 і збережено байт-у-байт для цього другого оновлення — неможливо було виконати постфактум налаштування.
Індекс Ментцера коректно застосовано щоб відрізнити залізодефіцитну анемію від бета-таласемії малої у початковому випуску V11; диференційована поведінка була збережена на рівні популяції.
Лише виробнича кінцева точка — без привілейованої маршрутизації; оцінювання виконувалося точно так, як отримує доступ платний клієнт.
Середня затримка 13,26 секунди кінець-до-кінець (діапазон 9,0–16,94 с), причому всі 100 000 кейсів завершилися на основному шляху двигуна.
Синтетична когорта. 100,000 синтетично згенерованих тестових випадків, завантажених під час запуску. Не використовуються синтетичні дані та персональні дані.
Тестовий каркас під ліцензією MIT опубліковано на GitHub із стратифікованою випадковою вибіркою (n = 201) повних сирих відповідей двигуна для перевірки.
DOI на Figshare: 10.6084/m9.figshare.32095435 · Віддзеркалено на ResearchGate, Academia.edu, GitHub.

Навіщо існує цей еталон і що він перевіряє

ШІ-асистована розшифровка аналізу крові дедалі частіше використовується в споживчих і клінічних процесах, однак відтворювані оцінювальні рамки, адаптовані під лабораторну медицину, залишаються рідкісними. Найважливіші питання в цьому контексті — не ті, що охоплюються загальними бенчмарками для медичного питання-відповіді: чи може рушій відрізнити залізодефіцит від ознаки таласемії, коли середній об’єм еритроцитів однаковий; чи ставить він надмірний діагноз синдрому Жильбера як гепатит; і чи «конструює» патологію в повністю нормальній скринінговій панелі?

Одна панель аналізу крові зазвичай містить достатньо сигналу, щоб підтримувати кілька конкуруючих інтерпретацій, і завдання лікаря, який інтерпретує, — зважити ці інтерпретації одна проти одної, а не витягнути «правильну відповідь» з підручника. Двигун, який добре працює на підручникових випадках, може все одно зазнати невдачі в тих ситуаціях, що мають найбільше значення: у пастках диференційної діагностики, у доброякісних варіантах, які виглядають тривожно лише в ізоляції, та в повністю нормальних панелях, що спокушають упевнених асистентів «виготовляти» патологію.

Цей бенчмарк був побудований саме навколо таких режимів невдачі. Кожен із п’ятнадцяти випадків було відібрано за певною діагностичною властивістю: мікроцитоз через дефіцит заліза, який потрібно чітко відрізняти від носійства бета-таласемії з ідентичним середнім об’ємом еритроцитів, клінічну картину синдрому Жильбера, де єдина аномалія — ізольована непряма гіпербілірубінемія, та скринінгову панель із п’ятнадцяти параметрів, у якій кожен аналіт перебуває в межах референтного діапазону. Рубрика винагороджує двигуни, які читають кожен випадок у його власних умовах, і штрафує двигуни, які намагаються поставити впевнений діагноз там, де для цього немає підстав.

Як Томас Кляйн, доктор медицини, я обрав панель випадків, тому що саме ці патерни лабораторно-медичні асистенти найчастіше трактують неправильно. Дорогий режим невдачі — це не "пропустити рідкісне захворювання", а вигадувати рутинну патологію в пацієнтів, у яких її немає. Наш Медична валідація hub описує ширшу рамку; ця сторінка описує початковий proof-of-concept V11 та V11 Друге оновлення, яке масштабувало його до 100,000 синтетичних випадків, взятих із синтетичного набору випадків, що охоплює 127 міток країн — із використанням тієї самої рубрики оцінювання, байт-ідентичної, без дозволеного постфактум налаштування.

Останній референсний запуск — V11 Second Update (26 квітня 2026)

Референсний запуск V11 Second Update від 26 квітня 2026 дав композитний бал 99.80% за тією самою попередньо зареєстрованою рубрикою, що використовувалася у початковому випуску V11, оцінену на 100,000 синтетичних випадків взятих із синтетичного набору випадків Kantesti і охоплюють 127 міток країн та мови 75+. Кожен випадок завершився на основному шляху рушія; активації прапорців гіпердіагностичного «trap-case» залишалися на 0 / 87,412. Початковий запуск V11 від 23 квітня 2026 охопив 15 вручну відібраних випадків (композит 99.12%) і валідовував рубрику; Second Update зберігає цю рубрику байт-ідентичною та розширює оцінювання до когорти популяційного масштабу.

Композитний 99.80% 100 000 із 100 000 випадків отримали оцінку

1.000 Структурний бал

0.996 Клінічний бал

13.26 с Середня затримка

0 / 87,412 Хибнопозитивні відповіді в пастках

Композитна формула поєднує три компоненти: структурна відповідність із сімома обов’язковими розділами звіту та шістнадцятьма обов’язковими підрозділами, точність змісту вимірювана як відтворення ключових слів плюс відтворення за системою оцінювання плюс перевірка валідності ймовірнісного розподілу, і затримка відповіді відносно цільового показника рівня сервісу для основного шляху. Точна декомпозиція показана в формулі рубрики нижче — жодні з цих ваг або підрубрик не були змінені для Second Update.

Композитний = 0.35 × Структурний + 0.55 × Клінічний + 0.10 × Затримка

Решта 0.20 відсоткового пункту «запасу» майже повністю розкладається на клінічний підбал — невелика частка випадків (переважно в Гепатології та Ревматології) мала відсутнє в інтерпретації рушія одне очікуване ключове слово системи оцінювання, попри те, що діагностичний зміст був коректним. Жоден випадок у когорти Second Update зі 100 000 випадків не пропустив сам діагноз. Затримка покращилася з середнього значення 20.17 с у початковому випуску V11 до 13.26 с у Second Update, що відображає оптимізації рушія в продакшені між двома запусками; рубрика, код оцінювання та кінцева точка API незмінні.

Композитні бали для кожної мітки коливалися від 0,9971 до 0,9985 у межах 30 найпоширеніших міток країн. Довгий хвіст із 97 додаткових міток (≈7 300 випадків у сумі) не демонстрував систематичного погіршення. Найчастіші мітки за кількістю випадків: Сполучені Штати (10 500), Бразилія (9 500), Іспанія (9 000), Італія (8 000), Німеччина (7 800), Франція (7 400), Португалія (5 800), Türkiye (3 400), Сполучене Королівство (2 900) і Мексика (2 500).

Від 15 випадків до 100,000: еволюція когорти в 127 мітках країн

Початкова панель випадків V11 охоплювала сім спеціальностей — гематологію, ендокринологію, метаболічну медицину, гепатологію, нефрологію, кардіологію, ревматологію — а також два окремі випадки-трапи для гіпердіагностики, причому кожен випадок являв собою синтетично згенеровану панель аналізів крові. Друге оновлення V11 розширює оцінювання до 100,000 синтетичних випадків у 127 мітках країн, розподілених між вісьмома спеціальностями (оригінальні сім плюс окремий внутрішньомедичний «блок», який поглинає підмножину trap). Та сама рубрика оцінювання застосовується байт-ідентично в обох запусках.

Оскільки всі випадки синтетично згенеровані, немає реальних ідентифікаторів, які потрібно видаляти, і не задіяні персональні дані. Кожен синтетичний випадок має внутрішній код випадку бенчмарку (BT-NNN-LABEL у початковому наборі V11, стабільний case_uid у Другому оновленні). Жодні персональні дані не з’являються ніде в опублікованому стенді, технічному звіті чи в оприлюднених наборах даних.

початкового випуску V11 — 15 вручну відібраних випадків

Початкову панель кейсів V11 було вручну підібрано доктором Томасом Кляйном, щоб охопити діагностичні патерни, які найчастіше неправильно інтерпретують помічники в лабораторній медицині. Кожен із п’ятнадцяти кейсів було відібрано за певною діагностичною ознакою, наведеною нижче.

Гематологія (3) BT-001, BT-006, BT-007 Залізодефіцитна анемія · Дефіцит B12 · Малий варіант бета-таласемії

Ендокринологія (3) BT-002, BT-008, BT-012 Тиреоїдит Хашимото · PCOS із інсулінорезистентністю · Тяжкий дефіцит вітаміну D

Метаболічні (2) BT-003, BT-013 T2DM із метаболічним синдромом · Гіперурикемія з ризиком подагри

Гепатологія (2) BT-004, BT-009 НАЖХП / НАСГ · Гострий вірусний гепатит

Нефрологія · Кардіологія · Ревматологія (3) BT-005, BT-010, BT-011 ХЗН стадія 3 · Атерогенна дисліпідемія · Системний червоний вовчак

Випадки-пастки (2) BT-014, BT-015 Синдром Жильбера (ізольована непряма гіпербілірубінемія) · Повністю нормальний скринінг дорослого

Чому саме такий розподіл

Гематологія отримує три кейси, оскільки мікроцитарні диференціали та макроцитарні диференціали є пастками з найбільшим обсягом у реальній лабораторній практиці. Ендокринологія отримує три, бо прояви хвороби Хашимото, СПКЯ та дефіциту вітаміну D мають різні діагностичні «форми» (керовані аутоантитілами, керовані співвідношеннями гормонів, керовані одним маркером). Однокейсові спеціальності все ще є змістовними, тому що кожна з ХЗН, ризику ASCVD та СЧВ має власну систему оцінювання, яку двигун має викликати (стадіювання KDIGO, 10-річний ризик ASCVD, критерії 2019 EULAR/ACR для СЧВ відповідно).

V11 Друге оновлення — 100,000 синтетичних випадків у 127 мітках країн

Друге оновлення замінює оригінальний жорстко закодований Python-літерал із 15 випадків V11 на більший, програмно згенерований синтетичний набір випадків. Набір випадків завантажується на початку кожного запуску, а конфігурація логгується для прозорості. Розподіл когорти за тематичними областями показано нижче.

Ендокринологія 23,900 кейсів (23.9%) Щитоподібна залоза, СПКЯ, вітамін D, гонадальна вісь, гіпофіз

Метаболічна медицина 21,900 кейсів (21.9%) ЦД2, метаболічний синдром, ліпідні панелі, гіперурикемія

Гематологія 15,400 кейсів (15.4%) Мікроцитарні та макроцитарні диференціали, B12/фолат, дослідження заліза

Гепатологія 12,400 кейсів (12.4%) НАЖХП/НАСГ, вірусні гепатити, FIB-4, холестаз

Внутрішня медицина (включно з підвибіркою trap) 9,000 кейсів (9.0%) Змішані клінічні прояви та 8,723 окремо виділені кейси пастки гіпердіагностики

Кардіологія 7,500 кейсів (7.5%) Ризик ASCVD, атерогенна дисліпідемія, hs-CRP

Ревматологія 6,000 кейсів (6.0%) SLE, РА, васкуліти, панелі аутоантитіл (критерії EULAR/ACR)

Нефрологія 4,000 кейсів (4.0%) Стадіювання ХХН (KDIGO), тренди eGFR, порушення електролітів

Синтетичний розподіл міток країн — топ 10 міток

100 000 синтетичних випадків містять 127 міток країн (ISO 3166-1 alpha-2), щоб перевірити обробку локалі. Призначення міток: Європа 57,7%, Америки 25,4%, Азія-Тихоокеанський регіон 6,2%, названі мітки Близький Схід/Африка 3,4% і довгий хвіст із 97 додаткових міток приблизно 7,3% у сумі. Десять найчастіших міток за кількістю випадків: Сполучені Штати (10 500), Бразилія (9 500), Іспанія (9 000), Італія (8 000), Німеччина (7 800), Франція (7 400), Португалія (5 800), Türkiye (3 400), Сполучене Королівство (2 900) і Мексика (2 500). Композитні бали для кожної мітки коливалися від 0,9971 до 0,9985. Ці кількості міток є властивостями згенерованих випадків, використаних для перевірки обробки локалі — це не реальні користувачі і не реальне географічне охоплення.

Попередньо зареєстрована рубрика — пояснення

Попередня реєстрація — це єдиний найважливіший методологічний вибір у цьому бенчмарку. Кожен очікуваний діагноз, кожна клінічна система оцінювання та кожен розділ звіту були зафіксовані в початковому коді до того, як двигун було викликано. Отже, постфактум «тонке налаштування» рубрики, щоб підхвалити двигун, неможливе.

Три компоненти формують підсумковий композитний бал. структурний компонент становить 35 відсотків і вимірює, чи двигун повернув сім обов’язкових розділів звіту (заголовок, підсумок, ключові знахідки, диференціал, системи оцінювання, рекомендації, подальші дії) та шістнадцять обов’язкових підрозділів у межах кожного з них. Наявність розділу важить 40 відсотків, а наявність підрозділу — 60 відсотків у структурному розрахунку.

The клінічний компонент становить 55 відсотків і поєднує три речі: пригадування діагнозу за ключовими словами (70 відсотків клінічної підоцінки), пригадування системи оцінювання (20 відсотків — чи двигун обчислює Mentzer, FIB-4, HOMA-IR, ризик ASCVD, стадіювання KDIGO, критерії EULAR/ACR, де це доречно), та перевірку валідності суми ймовірностей (10 відсотків — імовірності в диференціалі мають сумуватися в межах інтервалу [90, 110]). Для кейсів-пасток застосовується явний штраф за гіпердіагностику до 0.30, який віднімається: 0.10 за кожен сфабрикований прапорець патології, з обмеженням максимум трьома прапорцями.

The компонент затримки становить 10 відсотків. Відповідь менш ніж за 20 секунд отримує повні 0.10, відповідь менш ніж за 40 секунд — 0.05, а все, що повільніше, — нуль. Ціль у 20 секунд відображає виробничу основну ціль рівня сервісу для первинного primary-path; стеля 40 секунд відображає резерв бюджету для запасного варіанту Phase 2 при важких викликах двигуна.

Що запобігає попередній реєстрації

Першоособові бенчмарки відомі тим, що роздувають власні показники через постфактум налаштування рубрики. Шаблон майже завжди однаковий: команда запускає двигун, бачить, де він недопрацьовує, а потім тихо коригує рубрику так, щоб недопрацьовані області враховувалися менше. За умови фіксації рубрики в початковому коді до першого виклику двигуна та публікації хостингу під ліцензією MIT, це коригування стає видимим у системі керування версіями. Будь-хто може клонувати репозиторій, перевірити дати авторства рубрики та підтвердити, що результати двигуна не використовувалися для формування оцінювання.

Випадки пастки гіпердіагностики — чому надмірне «викликання» є реальною точкою відмови

Агресивне «перекликання» патології на нормальних екранах — задокументований режим відмови медичних асистентів для споживачів. Його наслідкові витрати включають непотрібне обстеження, тривогу пацієнта та ятрогенну діагностику. Два кейси-пастки в цьому бенчмарку розроблені, щоб зробити цей режим відмови видимим і таким, що піддається оцінюванню.

🟡 Пастка 1 — BT-014-GILBERT

Прояв. Чоловік 24 років із загальним білірубіном 2.4 мг/дл. Пряма фракція нормальна, трансамінази та лужна фосфатаза перебувають у межах своїх референсних діапазонів, ретикулоцити без особливостей, а гаптоглобін і LDH виключають гемоліз.

Правильна інтерпретація. Синдром Жильбера — доброякісна поліморфність UGT1A1. Інтерпретація не повинна викликати гепатит, цироз, гемолітичну анемію або біліарну обструкцію.

Результат V11. Композитний 1.000. Жоден із шести контрольованих прапорців надмірної діагностики не з’явився як активний діагноз.

🟡 Пастка 2 — BT-015-HEALTHY

Прояв. Жінка 35 років із рутинною скринінговою панеллю на п’ятнадцять параметрів. Кожен аналізований показник комфортно перебуває в межах свого референсного діапазону.

Правильна інтерпретація. Заспокоєння та підтримка способу життя. Інтерпретація не повинна вигадувати прикордонну патологію, щоб звучати клінічно корисно.

Результат V11. Композит 1.000. Жоден із семи відстежуваних прапорців надмірної діагностики — діабет, анемія, гіпотиреоз, дисліпідемія, гепатит, хвороби нирок, дефіцит — не з’явився як активні діагнози.

У обох «трапах» було перевірено тринадцять відстежуваних прапорців гіпердіагностики. Жоден не спрацював. Це результат, який найбільше важить для будь-якого клініциста, що розглядає використання ШІ-двигуна як інструменту триажу або передконсультаційної оцінки: система не вигадувала хворобу там, де її не було.

Індекс Ментцера: розмежування дефіциту заліза та ознаки таласемії

Друге високовартісне відкриття стосується поєднання кейсу BT-001 (залізодефіцитна анемія) з кейсом BT-007 (бета-таласемія мала). Обидва випадки мають мікроцитоз і є добре відомою «пасткою» для наївних класифікаторів. Індекс Ментцера, обчислений як MCV, поділене на кількість еритроцитів (RBC), перевищує 13 при залізодефіциті та падає нижче 13 при ознаці таласемії.

У BT-001 пацієнткою була 34-річна жінка з гемоглобіном 10,4 г/дл, MCV 72,4 фл, RBC 4,1 × 10¹²/л, феритином 6 нг/мл та підвищеним TIBC. Індекс Ментцера приблизно 17,7 підтримує абсолютний дефіцит заліза. У BT-007 пацієнтом був 28-річний чоловік із мікроцитозом (MCV 65,8 фл), але з високою кількістю RBC 6,2, нормальним RDW, нормальним феритином і HbA2 5,6 відсотка. Індекс Ментцера приблизно 10,6 вказує на ознаку таласемії, а підвищений HbA2 підтверджує бета-таласемію малу.

Залізодефіцитна анемія Ментцер > 13 Низький феритин, низький TSAT, високий TIBC, підвищений RDW

Ознака бета-таласемії Ментцер < 13 Нормальний феритин, нормальний RDW, підвищений HbA2 (>3,5%), висока кількість RBC

Обидва випадки набрали 1.000. Двигун явно використав індекс Ментцера в обох інтерпретаціях і повернув правильний діагноз у кожному випадку. Це єдиний результат, який найбільше клінічно заспокоює в усьому бенчмарку, оскільки помилкова класифікація ознаки таласемії як залізодефіциту призводить до неадекватного призначення препаратів заліза та пропуску можливостей сімейного скринінгу, а помилкова класифікація залізодефіциту як таласемії затримує просту замісну терапію. Наш діапазон феритину пояснює ширший диференційно-діагностичний контекст.

Результати по кожному випадку з початкового референсного запуску V11 (23 квітня 2026)

Оригінальний референсний запуск V11 на 15-випадковій proof-of-concept когорті слугує як методологічна основа Second Update: кожна деталь по кожному випадку нижче ілюструє, як рубрика обробляє реальну відповідь рушія. Дванадцять із п’ятнадцяти випадків досягли стелі композитного бала 1.000 на основному шляху; три випадки були обслуговані через резервний варіант Phase 2, втративши бонус до латентності 0.05, але зберігши весь клінічний і структурний контент. Один випадок не мав однієї обов’язкової підсекції; один повернув дещо зменшену суму розподілу ймовірностей.

Ідентифікатор випадку Спеціальність Композитний Латентність Шлях

BT-001-IDAГематологія1.00017,8 спервинний

BT-006-B12Гематологія1.00018,4 спервинний

BT-007-THALГематологія1.00017,0 спервинний

BT-002-HASHЕндокринологія0.95037,0 срезервний варіант

BT-008-PCOSЕндокринологія0.98718,6 спервинний

BT-003-T2DMМетаболічний1.00019,1 спервинний

BT-013-GOUTМетаболічний1.00019,4 спервинний

BT-004-NAFLDГепатологія1.00019,6 спервинний

BT-009-VIRHEPГепатологія0.95023,4 срезервний варіант

BT-014-GILBERTпастка1.00018,9 спервинний

BT-005-CKDНефрологія1.00017,4 спервинний

BT-010-ASCVDКардіологія1.00019,7 спервинний

BT-011-SLEРевматологія0.98118,2 спервинний

BT-012-VITDЕндокринологія1.00019,3 спервинний

BT-015-HEALTHYпастка1.00018,7 срезервний варіант

Справа про СПКЯ (BT-008) втратила одну обов’язкову підсекцію в структурі відповіді — п’ятнадцять із шістнадцяти замість шістнадцяти із шістнадцяти — через що структурний бал знизився з 1,000 до 0,963. Справа про СЧВ (BT-011) повернула дещо зменшену суму ймовірнісного розподілу, що знизило клінічний бал до 0,965, зберігши кожне діагностичне ключове слово та систему оцінювання. Жодна з двох справ із неідеальним результатом не пропустила правильний діагноз.

Агрегат V11 Second Update — 100,000 випадків

У масштабі популяції окремі рядки випадків не є читабельними людиною, тому Друге Оновлення звітує про агреговані метрики, а не про таблицю з 100 000 рядків. Головний агрегат показано нижче; деталізацію за спеціальностями та за мітками країн опубліковано в технічному звіті та в депозиторії Figshare. Стратифікована випадкова вибірка n = 201 сирих відповідей рушія (детермінований seed 20260426) опублікована в директорії GitHub results/ для перегляду.

Композитний бал V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 у когорти на 100,000 випадків

Структурний бал (середнє) V11 initial: 0.998 → Second Update: 1.000 Ідеальна структурна відповідність на рівні популяції

Клінічний бал (середнє) V11 initial: 0.998 → Second Update: 0.996 −0.002; жоден випадок не пропустив сам діагноз

Затримка — середнє (діапазон) Початкове V11: 20,17 с (17,0–37,0 с) → Друге оновлення: 13,26 с (9,0–16,94 с) Оптимізації продуктивності рушія між запусками

Шлях рушія = основний Початкове V11: 12 / 15 → Друге оновлення: 100,000 / 100,000 Не було потреби в резервному варіанті Phase 2 у жодний момент під час запуску

Прапорці гіпердіагностики для підмножини пасток Початкове V11: 0 / 13 → Друге оновлення: 0 / 87,412 Нуль хибнопозитивних результатів у масштабі популяції (відстежено 8 723 випадки пасток)

Що не повідомляє нам загальний підсумковий бал

Композитний бал 99.80 відсотка за цією конкретною попередньо зареєстрованою рубрикою для синтетичної когорти з 100,000 випадків, що охоплює 127 міток країн, відображає майже «стельову» продуктивність — але це потребує обережного формулювання. Результат описує поведінку рушія щодо рубрики, яку ми зобов’язалися закласти в код джерела в V11; це не універсальне твердження про коректність рушія для кожної панелі аналізів крові, що існує в реальному світі.

Показник говорить про те, що рушій коректно обробляв діагностичні патерни, вибрані для цього оцінювання, на когорті в масштабі популяції за методологією, яка опублікована та відтворювана. Це не означає, що рушій є правильним для кожної панелі аналізу крові, що існує в реальному світі. Це не означає, що рушій має замінити клінічне судження. І це не означає, що рушій перевершує альтернативні системи ШІ — порівняльні аналізи з іншими рушіями навмисно не входили до сфери цього звіту.

Що цей показник справді встановлює — це базову лінію. Оскільки рубрика та середовище виконання є публічними, майбутні версії рушія можна оцінювати за тією самою рубрикою — застосовуючи до початкових 15 випадків V11, до когорти з 100 000 випадків Другого оновлення або до будь-якого подальшого розширення — а різниця між опублікованим показником і будь-яким наступним запуском є вимірюваною сама по собі. У цьому цінність попередньої реєстрації: вона перетворює твердження про продуктивність на перевірювані твердження.

Як відтворити цей бенчмарк за 10 хвилин

Для відтворення потрібна лише пара облікових даних API Kantesti і середовище Python 3.10 або новішої версії з requests і reportlab бібліотеки встановлені. Повний harness — це один самодостатній модуль Python, випущений під ліцензією MIT.

💻 GitHub harness з ліцензією MIT · сирі відповіді · reference run 🔗 DOI на Figshare 10.6084/m9.figshare.32095435 · канонічний академічний запис 🎓 ResearchGate Publication 404175463 · V11 Second Update · academic discovery layer 📄 Academia.edu Paper 165956808 · V11 Second Update · academic discovery layer

Чотири кроки для нового запуску

Один. Клонувати репозиторій: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Встановіть залежності за допомогою pip install -r requirements.txt (Second Update додає mysql-connector-python ≥ 8.0 для SQL case loader). Три. Встановіть KANTESTI_USERNAME і KANTESTI_PASSWORD як змінні середовища для API рушія. Для SQL case loader Другого оновлення також задайте KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, та KANTESTI_DB_PASSWORD — завантажувач підключається через роль лише для читання (bench_reader) яка не має привілеїв для ідентифікації таблиць. Чотири. Запустіть python benchmark_bloodtest.py --limit 100000 для повного запуску Second-Update або python benchmark_bloodtest.py --limit 1000 для швидкої ітерації. Результати потрапляють у ./benchmark_results/: CSV-картка балів із колонками для мітки країни та спеціальності, JSON-агрегат, стратифіковано-випадкова вибірка сирих відповідей і звіт у Markdown.

Референсні запуски від 23 квітня 2026 року (V11 початковий, 15 випадків) і 26 квітня 2026 року (V11 Second Update, 100,000 випадків) збережені в results/ директорії репозиторію. Новий запуск створить нову таблицю оцінок із часовою міткою, не змінюючи референсні запуски. Якщо ваш запуск дає суттєво інший результат, будь ласка, відкрийте issue на GitHub із часовою міткою запуску та версією рушія, що повертається в метаданих відповіді.

Обмеження та подальші роботи

Навіть для 100 000 випадків із 127 мітками країн, чотири обмеження потребують явного визнання: недостатнє охоплення міток довгого хвоста, оцінювання в один прохід, обмеження одним двигуном і походження даних з одного джерела. Кожне з них опрацьовується в активній подальшій роботі.

Охоплення міток довгого хвоста. Друге Оновлення охоплює 127 міток країн, але розподіл є незбалансованим — топ-10 міток становлять ≈66,4% випадків, а довгий хвіст із 97 додаткових міток разом дає ≈7,3% (приблизно 7 300 випадків у сумі, ~75 випадків на мітку в середньому). Тому композитні бали для кожної мітки в цьому довгому хвості є більш «шумними», ніж припускають заголовні цифри. Майбутні запуски перезбалансують призначення міток, щоб уточнити оцінки для кожної мітки.

Оцінювання за один прогін. Кожен випадок у когорті оцінювався один раз. Великі мовні моделі демонструють суттєву варіативність виходу навіть за низької температури вибірки, тож протокол із кількома запусками, п’ятьма оцінюваннями на випадок і повідомленою дисперсією є природним наступним кроком — особливо для підмножини «trap-case», де узгодженість під час «джитеру» вибірки є частиною заяви про безпеку.

Обмеження одним рушієм. Цей звіт описує роботу одного рушія. Порівняльні аналізи з альтернативними системами ШІ тут не розглядаються; ми можемо виконати їх як окреме незалежне дослідження з відповідною методологією, використовуючи той самий каркас MIT-ліцензії.

Синтетичні дані. 100,000 випадків синтетично згенеровані, а не є «синтетичними випадками», і результати не переносяться на реальну клінічну продуктивність. Оцінювання на реальних, наданих за згодою, даних із зовнішніх джерел вимагало б належного етичного нагляду і не входить до сфери цього синтетичного бенчмарку.

Поза цими чотирма найбільш суттєве заплановане розширення — паритет багатьма мовами для кожної юрисдикції. Kantesti AI Engine обслуговує користувачів 75+ мовами, а запуск стратифікованих за мовою підкогорт Second-Update (турецька, німецька, іспанська, французька, італійська, португальська, арабська, мандарин) дозволить кількісно оцінити якість виходів у підтримуваних рушієм мовах. Кожен аналіз, стратифікований за мовою, буде опубліковано з власним DOI та гілкою каркаса.

Спробуйте той самий рушій, який досяг композитної оцінки 99.80% на 100,000 випадків

Завантажте власну панель аналізу крові на той самий production-ендпойнт, який було оцінено в цьому бенчмарку. Понад 2 мільйони користувачів у всьому світі використовують Kantesti AI Engine, щоб інтерпретувати понад 15,000 біомаркерів на 75+ мовах.

🔬 Спробуйте безкоштовну демо-версію

Розширення Chrome Магазин додатків Google Play

📚 Як цитувати цей бенчмарк

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {A Pre-Registered, Rubric-Based Automated Technical  
                 Benchmark of the Kantesti Blood-Test Interpretation  
                 Engine on 100,000 Synthetic Test Cases  
                 --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Попередньо зареєстрований, рубрикаторний автоматизований технічний бенчмарк інтерпретаційного рушія аналізу крові Kantesti на 100 000 синтетичних тестових випадках — V11 Друге оновлення (Технічний звіт V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Зовнішні методологічні посилання

Mentzer, W. C. (1973). Диференціація дефіциту заліза від ознаки таласемії. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Європейська ліга проти ревматизму / Американський коледж ревматологів Класифікаційні критерії системного червоного вовчака. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: тест на галюцинації в медичній предметній області для великих мовних моделей. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Композитний показник

100,000Оцінені випадки

127Охоплені мітки країн

0 / 87,412Хибнопозитивні спрацьовування пастки

Часті запитання

Наскільки точний AI-двигун Kantesti на синтетичних тестових випадках?

На попередньо зареєстрованій рубриці, виконаний на 100 000 синтетично згенерованих тестових випадках у восьми сферах контенту та 127 мітках країн (V11 Друге оновлення), рушій досяг композитного показника 99,80 відсотка, без жодних прапорців гіпердіагностики в 87 412 можливостях пасток, що відстежувалися, і із середньою затримкою відповіді 13,26 секунди. Цей композит вимірює відповідність виходу на синтетичних вхідних даних, а не діагностичну точність. Початковий реліз V11 застосував ту саму рубрику до 15 вручну створених випадків (композит 99,12%); Друге оновлення зберігає рубрику байт-ідентичною та розширює її до більшої синтетичної когорти. Повна картка оцінювання опублікована на Figshare за DOI 10.6084/m9.figshare.32095435 і на GitHub під ліцензією MIT.

Чи має Kantesti AI Engine клінічну валідацію?

Ні. Двигун було оцінено за допомогою автоматизованого технічного бенчмарку (а не клінічної валідації) за рубрикою, яку було зафіксовано в коді джерела до початкового запуску V11 і збережено байт-ідентичною для Другого Оновлення V11, на 100 000 синтетичних випадків аналізів крові в межах гематології, ендокринології, метаболічної медицини, гепатології, нефрології, кардіології, ревматології та внутрішньої медицини, відібраних із 127 міток країн. Клінічний нагляд забезпечував Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), сертифікований радою клінічний гематолог і головний медичний директор в Kantesti AI.

Що таке випадок «пастки гіпердіагностики»?

«Пастка гіпердіагностики» — це клінічний сценарій, спеціально розроблений для виявлення поведінки надмірної діагностики в AI-двигунах. Початковий бенчмарк V11 використовував два таких випадки як методологічний proof-of-concept: ізольовану непряму гіпербілірубінемію, що відповідає синдрому Жильбера (де правильна інтерпретація — доброякісний поліморфізм UGT1A1, а не гепатит чи гемоліз), та повністю нормальну панель скринінгу для дорослих (де правильний результат — заспокоєння, а не згенерована прикордонна патологія). V11 Second Update масштабував цю методологію пастки до спеціалізованої підвибірки з 8 723 випадків, що дало 87 412 можливостей для моніторингу прапорців гіпердіагностики — і частота хибнопозитивних спрацювань двигуна залишалася нульовою.

Чи є оцінювання Kantesti AI Engine відтворюваним?

Повний оцінювальний фреймворк опубліковано за ліцензією MIT як один самодостатній модуль Python. Для початкового запуску V11 потрібна лише пара облікових даних API Kantesti і Python 3.10 або новіший. V11 Second Update додає параметризований модуль завантаження SQL справ у режимі лише читання, який потребує облікових даних клінічного репозиторію Kantesti (роль bench_reader без привілеїв для ідентифікації таблиць). Код, SQL для завантажувача справ, рубрика (байт-ідентична між релізами) та стратифікована випадкова вибірка сирих відповідей двигуна з обох референсних запусків V11 initial і Second Update доступні на github.com/emirhanai/kantesti-blood-test-benchmark і дублюються на Figshare, ResearchGate та Academia.edu.

Як ШІ-двигун Kantesti відрізняє дефіцит заліза від носійства бета-таласемії?

Двигун застосовує індекс Ментцера, який обчислюють як середній об’єм еритроцитів, поділений на кількість еритроцитів. Індекс Ментцера понад 13 підтримує залізодефіцитну анемію, тоді як значення нижче 13 підтримує ознаку бета-таласемії. У початковому бенчмарку V11 обидва варіанти були класифіковані правильно з явним обчисленням індексу Ментцера, підкріпленим контекстом феритину, RDW і HbA2. Упродовж V11 Second Update в когорті з 100 000 випадків та сама диференційна поведінка зберігалася на рівні популяції.

Де я можу знайти необроблені дані еталонних показників і вихідний код?

Технічний звіт розміщено на Figshare за DOI 10.6084/m9.figshare.32095435 (включно з початковим релізом V11 та V11 Second Update), дубльовано на ResearchGate (публікація 404175463) та Academia.edu (стаття 165956808) — обидва оновлено назвою V11 Second Update і результатами для 100 000 випадків — а оцінювальний фреймворк Python за ліцензією MIT з усіма результатами референсних запусків доступний на github.com/emirhanai/kantesti-blood-test-benchmark. Мережа дзеркал на чотирьох платформах забезпечує довгострокову доступність і гнучкість цитування.

Чому важлива попередня реєстрація для медичних бенчмарків на основі ШІ?

Попередня реєстрація запобігає «післяфактум» налаштуванню рубрики, що є єдиним найпоширенішим способом, у який компанійні бенчмарки роздувають власні показники. Зафіксувавши рубрику в початковому коді до будь-якого виклику двигуна та опублікувавши стенд публічно, дати авторства рубрики стають доступними для перевірки в системі керування версіями, а результати двигуна не могли вплинути на критерії оцінювання.

Чи цей бенчмарк включає порівняння з іншими AI-двигунами?

Ні. Звіт V11 — як для початкового релізу, так і для Second Update — навмисно описує один конкретний двигун щодо фіксованої рубрики, а не позиціонує його проти альтернативних комерційних систем. Фреймворк є відкритим кодом за ліцензією MIT (зараз включно із завантажувачем SQL справ), тож незалежні дослідники можуть оцінювати будь-який двигун, який вони оберуть, за тією самою рубрикою та завантажувачем справ і публікувати свої результати.

Випадки пацієнтів реальні чи синтетичні?

Усі випадки синтетично згенеровані — 15 вручну створених випадків у початковому релізі V11 і 100 000 у Другому оновленні. Це не синтетичні випадки: не використовуються синтетичні дані, не передбачено процесу згоди, і не здійснюється деідентифікація, оскільки в когорті не існує персональних даних. Жодні персональні дані не з’являються в опублікованому harness, технічному звіті чи в оприлюднених наборах даних.

⚕️ Медичне застереження та конфлікт інтересів

Цей звіт про бенчмарк призначено для дослідницьких цілей і методологічної прозорості. Він не є медичною порадою, не є діагнозом і не замінює професійну медичну допомогу; жоден результат тут не слід використовувати, щоб відкласти або уникнути звернення до лікаря. Завжди консультуйтеся з кваліфікованим медичним працівником для рішень щодо діагностики та лікування. Це самостійно запущений внутрішній бенчмарк власного рушія компанії, який не був незалежно валідуваний або пройшов експертну оцінку. Композитний бал вимірює відповідність фіксованій рубриці (структура звіту, відтворення за ключовими словами та системою оцінювання, а також латентність); він не є мірою реальної діагностичної точності або клінічної безпеки. Обидва автори працюють у Kantesti Ltd і мають частку в компанії, а рушій, що оцінюється, є комерційним продуктом тієї ж організації. Цей конфлікт інтересів зменшено шляхом попередньої реєстрації рубрики в коді, оприлюднення harness під ліцензією MIT та публікації стратифікованої випадкової вибірки сирих відповідей рушія.

Сигнали довіри E-E-A-T

⭐

Досвід

15+ років клінічної практики в гематології та лабораторній медицині з наглядом за відбором панелі випадків.

📋

Експертиза

Дизайн рубрики, попередньо зареєстрований, із явними штрафами за гіпердіагностику та визнаними клінічними системами оцінювання (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Авторитетність

Головний автор д-р Томас Кляйн, MD (ORCID 0009-0009-1490-1321). Реалізація — Джуліан Емірхан Булут, CEO Kantesti Ltd.

🛡️

Довірливість

Відтворюваний стенд з ліцензією MIT, опубліковані первинні відповіді двигуна, відкрите розкриття конфлікту інтересів, дослідницька мережа дзеркал на чотирьох платформах.

🏢 Кантесті ЛТД Зареєстровано в Англії та Уельсі · Компанія №. 17090423 Лондон, Велика Британія · kantesti.net