Навіщо існує цей еталон і що він перевіряє

ШІ-асистована розшифровка аналізу крові дедалі частіше використовується в споживчих і клінічних процесах, однак відтворювані оцінювальні рамки, адаптовані під лабораторну медицину, залишаються рідкісними. Найважливіші питання в цьому контексті — не ті, що охоплюються загальними бенчмарками для медичного питання-відповіді: чи може рушій відрізнити залізодефіцит від ознаки таласемії, коли середній об’єм еритроцитів однаковий; чи ставить він надмірний діагноз синдрому Жильбера як гепатит; і чи «конструює» патологію в повністю нормальній скринінговій панелі?

Діаграма потоку попередньо зареєстрованої рубрики, що показує, як Kantesti AI Engine — V11 Second Update, оцінка 99.80% композиту на 100 000 випадків — оцінюється за замороженими критеріями оцінювання
Рисунок 1: Базова еталонна архітектура, що стоїть за композитний бал 99.80% оновленням V11 Second Update для когорти зі 100 000 випадків — кожен випадок, кожне ключове слово, кожна система оцінювання зафіксовані в початковому коді до того, як рушій побачить хоча б один PDF, а рубрика є байт-ідентичною початковому випуску V11. Післяфактум налаштування рубрики неможливе за задумом.

Одна панель аналізу крові зазвичай містить достатньо сигналу, щоб підтримувати кілька конкуруючих інтерпретацій, і завдання лікаря, який інтерпретує, — зважити ці інтерпретації одна проти одної, а не витягнути «правильну відповідь» з підручника. Двигун, який добре працює на підручникових випадках, може все одно зазнати невдачі в тих ситуаціях, що мають найбільше значення: у пастках диференційної діагностики, у доброякісних варіантах, які виглядають тривожно лише в ізоляції, та в повністю нормальних панелях, що спокушають упевнених асистентів «виготовляти» патологію.

Цей бенчмарк був побудований саме навколо таких режимів невдачі. Кожен із п’ятнадцяти випадків було відібрано за певною діагностичною властивістю: мікроцитоз через дефіцит заліза, який потрібно чітко відрізняти від носійства бета-таласемії з ідентичним середнім об’ємом еритроцитів, клінічну картину синдрому Жильбера, де єдина аномалія — ізольована непряма гіпербілірубінемія, та скринінгову панель із п’ятнадцяти параметрів, у якій кожен аналіт перебуває в межах референтного діапазону. Рубрика винагороджує двигуни, які читають кожен випадок у його власних умовах, і штрафує двигуни, які намагаються поставити впевнений діагноз там, де для цього немає підстав.

Як Томас Кляйн, доктор медицини, я обрав панель випадків, тому що саме ці патерни лабораторно-медичні асистенти найчастіше трактують неправильно. Дорогий режим невдачі — це не "пропустити рідкісне захворювання", а вигадувати рутинну патологію в пацієнтів, у яких її немає. Наш Медична валідація hub описує ширшу рамку; ця сторінка описує початковий proof-of-concept V11 та V11 Друге оновлення, яке масштабувало його до 100,000 синтетичних випадків, взятих із синтетичного набору випадків, що охоплює 127 міток країн — із використанням тієї самої рубрики оцінювання, байт-ідентичної, без дозволеного постфактум налаштування.

Останній референсний запуск — V11 Second Update (26 квітня 2026)

Референсний запуск V11 Second Update від 26 квітня 2026 дав композитний бал 99.80% за тією самою попередньо зареєстрованою рубрикою, що використовувалася у початковому випуску V11, оцінену на 100,000 синтетичних випадків взятих із синтетичного набору випадків Kantesti і охоплюють 127 міток країн та мови 75+. Кожен випадок завершився на основному шляху рушія; активації прапорців гіпердіагностичного «trap-case» залишалися на 0 / 87,412. Початковий запуск V11 від 23 квітня 2026 охопив 15 вручну відібраних випадків (композит 99.12%) і валідовував рубрику; Second Update зберігає цю рубрику байт-ідентичною та розширює оцінювання до когорти популяційного масштабу.

Композитний 99.80% 100 000 із 100 000 випадків отримали оцінку
1.000 Структурний бал
0.996 Клінічний бал
13.26 с Середня затримка
0 / 87,412 Хибнопозитивні відповіді в пастках

Композитна формула поєднує три компоненти: структурна відповідність із сімома обов’язковими розділами звіту та шістнадцятьма обов’язковими підрозділами, точність змісту вимірювана як відтворення ключових слів плюс відтворення за системою оцінювання плюс перевірка валідності ймовірнісного розподілу, і затримка відповіді відносно цільового показника рівня сервісу для основного шляху. Точна декомпозиція показана в формулі рубрики нижче — жодні з цих ваг або підрубрик не були змінені для Second Update.

Композитний = 0.35 × Структурний + 0.55 × Клінічний + 0.10 × Затримка

Решта 0.20 відсоткового пункту «запасу» майже повністю розкладається на клінічний підбал — невелика частка випадків (переважно в Гепатології та Ревматології) мала відсутнє в інтерпретації рушія одне очікуване ключове слово системи оцінювання, попри те, що діагностичний зміст був коректним. Жоден випадок у когорти Second Update зі 100 000 випадків не пропустив сам діагноз. Затримка покращилася з середнього значення 20.17 с у початковому випуску V11 до 13.26 с у Second Update, що відображає оптимізації рушія в продакшені між двома запусками; рубрика, код оцінювання та кінцева точка API незмінні.

Композитні бали для кожної мітки коливалися від 0,9971 до 0,9985 у межах 30 найпоширеніших міток країн. Довгий хвіст із 97 додаткових міток (≈7 300 випадків у сумі) не демонстрував систематичного погіршення. Найчастіші мітки за кількістю випадків: Сполучені Штати (10 500), Бразилія (9 500), Іспанія (9 000), Італія (8 000), Німеччина (7 800), Франція (7 400), Португалія (5 800), Türkiye (3 400), Сполучене Королівство (2 900) і Мексика (2 500).

Від 15 випадків до 100,000: еволюція когорти в 127 мітках країн

Початкова панель випадків V11 охоплювала сім спеціальностей — гематологію, ендокринологію, метаболічну медицину, гепатологію, нефрологію, кардіологію, ревматологію — а також два окремі випадки-трапи для гіпердіагностики, причому кожен випадок являв собою синтетично згенеровану панель аналізів крові. Друге оновлення V11 розширює оцінювання до 100,000 синтетичних випадків у 127 мітках країн, розподілених між вісьмома спеціальностями (оригінальні сім плюс окремий внутрішньомедичний «блок», який поглинає підмножину trap). Та сама рубрика оцінювання застосовується байт-ідентично в обох запусках.

Дизайн панелі випадків початкового V11 — п’ятнадцять синтетичних випадків аналізу крові в семи медичних спеціальностях плюс два трап-випадки для гіпердіагностики; та сама рубрика досягла композитного показника 99,80% на 100 000 випадках у V11 Другому оновленні
Рисунок 2: Дизайн початкової панелі випадків V11 для гематології, ендокринології, метаболічної медицини, гепатології, нефрології, кардіології, ревматології, плюс два trap-випадки — синдром Гілберта та повністю нормальна скринінг-панель. Second Update зберігає цю рубрику байт-ідентичною, одночасно розширюючи когорту до 100 000 випадків, відібраних із репозиторію SQL Kantesti.

Оскільки всі випадки синтетично згенеровані, немає реальних ідентифікаторів, які потрібно видаляти, і не задіяні персональні дані. Кожен синтетичний випадок має внутрішній код випадку бенчмарку (BT-NNN-LABEL у початковому наборі V11, стабільний case_uid у Другому оновленні). Жодні персональні дані не з’являються ніде в опублікованому стенді, технічному звіті чи в оприлюднених наборах даних.

початкового випуску V11 — 15 вручну відібраних випадків

Початкову панель кейсів V11 було вручну підібрано доктором Томасом Кляйном, щоб охопити діагностичні патерни, які найчастіше неправильно інтерпретують помічники в лабораторній медицині. Кожен із п’ятнадцяти кейсів було відібрано за певною діагностичною ознакою, наведеною нижче.

Гематологія (3) BT-001, BT-006, BT-007 Залізодефіцитна анемія · Дефіцит B12 · Малий варіант бета-таласемії
Ендокринологія (3) BT-002, BT-008, BT-012 Тиреоїдит Хашимото · PCOS із інсулінорезистентністю · Тяжкий дефіцит вітаміну D
Метаболічні (2) BT-003, BT-013 T2DM із метаболічним синдромом · Гіперурикемія з ризиком подагри
Гепатологія (2) BT-004, BT-009 НАЖХП / НАСГ · Гострий вірусний гепатит
Нефрологія · Кардіологія · Ревматологія (3) BT-005, BT-010, BT-011 ХЗН стадія 3 · Атерогенна дисліпідемія · Системний червоний вовчак
Випадки-пастки (2) BT-014, BT-015 Синдром Жильбера (ізольована непряма гіпербілірубінемія) · Повністю нормальний скринінг дорослого

Чому саме такий розподіл

Гематологія отримує три кейси, оскільки мікроцитарні диференціали та макроцитарні диференціали є пастками з найбільшим обсягом у реальній лабораторній практиці. Ендокринологія отримує три, бо прояви хвороби Хашимото, СПКЯ та дефіциту вітаміну D мають різні діагностичні «форми» (керовані аутоантитілами, керовані співвідношеннями гормонів, керовані одним маркером). Однокейсові спеціальності все ще є змістовними, тому що кожна з ХЗН, ризику ASCVD та СЧВ має власну систему оцінювання, яку двигун має викликати (стадіювання KDIGO, 10-річний ризик ASCVD, критерії 2019 EULAR/ACR для СЧВ відповідно).

V11 Друге оновлення — 100,000 синтетичних випадків у 127 мітках країн

Друге оновлення замінює оригінальний жорстко закодований Python-літерал із 15 випадків V11 на більший, програмно згенерований синтетичний набір випадків. Набір випадків завантажується на початку кожного запуску, а конфігурація логгується для прозорості. Розподіл когорти за тематичними областями показано нижче.

Ендокринологія 23,900 кейсів (23.9%) Щитоподібна залоза, СПКЯ, вітамін D, гонадальна вісь, гіпофіз
Метаболічна медицина 21,900 кейсів (21.9%) ЦД2, метаболічний синдром, ліпідні панелі, гіперурикемія
Гематологія 15,400 кейсів (15.4%) Мікроцитарні та макроцитарні диференціали, B12/фолат, дослідження заліза
Гепатологія 12,400 кейсів (12.4%) НАЖХП/НАСГ, вірусні гепатити, FIB-4, холестаз
Внутрішня медицина (включно з підвибіркою trap) 9,000 кейсів (9.0%) Змішані клінічні прояви та 8,723 окремо виділені кейси пастки гіпердіагностики
Кардіологія 7,500 кейсів (7.5%) Ризик ASCVD, атерогенна дисліпідемія, hs-CRP
Ревматологія 6,000 кейсів (6.0%) SLE, РА, васкуліти, панелі аутоантитіл (критерії EULAR/ACR)
Нефрологія 4,000 кейсів (4.0%) Стадіювання ХХН (KDIGO), тренди eGFR, порушення електролітів

Синтетичний розподіл міток країн — топ 10 міток

100 000 синтетичних випадків містять 127 міток країн (ISO 3166-1 alpha-2), щоб перевірити обробку локалі. Призначення міток: Європа 57,7%, Америки 25,4%, Азія-Тихоокеанський регіон 6,2%, названі мітки Близький Схід/Африка 3,4% і довгий хвіст із 97 додаткових міток приблизно 7,3% у сумі. Десять найчастіших міток за кількістю випадків: Сполучені Штати (10 500), Бразилія (9 500), Іспанія (9 000), Італія (8 000), Німеччина (7 800), Франція (7 400), Португалія (5 800), Türkiye (3 400), Сполучене Королівство (2 900) і Мексика (2 500). Композитні бали для кожної мітки коливалися від 0,9971 до 0,9985. Ці кількості міток є властивостями згенерованих випадків, використаних для перевірки обробки локалі — це не реальні користувачі і не реальне географічне охоплення.

Попередньо зареєстрована рубрика — пояснення

Попередня реєстрація — це єдиний найважливіший методологічний вибір у цьому бенчмарку. Кожен очікуваний діагноз, кожна клінічна система оцінювання та кожен розділ звіту були зафіксовані в початковому коді до того, як двигун було викликано. Отже, постфактум «тонке налаштування» рубрики, щоб підхвалити двигун, неможливе.

Три компоненти формують підсумковий композитний бал. структурний компонент становить 35 відсотків і вимірює, чи двигун повернув сім обов’язкових розділів звіту (заголовок, підсумок, ключові знахідки, диференціал, системи оцінювання, рекомендації, подальші дії) та шістнадцять обов’язкових підрозділів у межах кожного з них. Наявність розділу важить 40 відсотків, а наявність підрозділу — 60 відсотків у структурному розрахунку.

The клінічний компонент становить 55 відсотків і поєднує три речі: пригадування діагнозу за ключовими словами (70 відсотків клінічної підоцінки), пригадування системи оцінювання (20 відсотків — чи двигун обчислює Mentzer, FIB-4, HOMA-IR, ризик ASCVD, стадіювання KDIGO, критерії EULAR/ACR, де це доречно), та перевірку валідності суми ймовірностей (10 відсотків — імовірності в диференціалі мають сумуватися в межах інтервалу [90, 110]). Для кейсів-пасток застосовується явний штраф за гіпердіагностику до 0.30, який віднімається: 0.10 за кожен сфабрикований прапорець патології, з обмеженням максимум трьома прапорцями.

The компонент затримки становить 10 відсотків. Відповідь менш ніж за 20 секунд отримує повні 0.10, відповідь менш ніж за 40 секунд — 0.05, а все, що повільніше, — нуль. Ціль у 20 секунд відображає виробничу основну ціль рівня сервісу для первинного primary-path; стеля 40 секунд відображає резерв бюджету для запасного варіанту Phase 2 при важких викликах двигуна.

Кінцевий скріншот фреймворку бенчмарку Kantesti за ліцензією MIT під час запуску та генерації оцінок для кожного випадку — той самий фреймворк, тепер керований SQL, дав оцінку 99.80% композиту в запуску на 100 000 випадків V11 Second Update
Рисунок 3: Тестовий стенд у виконанні — той самий рушій, який створив 99.80% композит у V11 Second Update когорти на 100,000 випадків. Кожен випадок рендериться в A4 PDF, публікується в кінцеву точку production v11 та оцінюється за замороженою рубрикою. Second Update додав параметризований SQL case loader; стратифікована випадкова вибірка сирих відповідей рушія (n = 201) зберігається разом із агрегованою scorecard.

Що запобігає попередній реєстрації

Першоособові бенчмарки відомі тим, що роздувають власні показники через постфактум налаштування рубрики. Шаблон майже завжди однаковий: команда запускає двигун, бачить, де він недопрацьовує, а потім тихо коригує рубрику так, щоб недопрацьовані області враховувалися менше. За умови фіксації рубрики в початковому коді до першого виклику двигуна та публікації хостингу під ліцензією MIT, це коригування стає видимим у системі керування версіями. Будь-хто може клонувати репозиторій, перевірити дати авторства рубрики та підтвердити, що результати двигуна не використовувалися для формування оцінювання.

Випадки пастки гіпердіагностики — чому надмірне «викликання» є реальною точкою відмови

Агресивне «перекликання» патології на нормальних екранах — задокументований режим відмови медичних асистентів для споживачів. Його наслідкові витрати включають непотрібне обстеження, тривогу пацієнта та ятрогенну діагностику. Два кейси-пастки в цьому бенчмарку розроблені, щоб зробити цей режим відмови видимим і таким, що піддається оцінюванню.

Порівняння пліч-о-пліч наївного AI, який «вигадує» гепатит у панелі синдрому Жильбера, проти двигуна Kantesti, який правильно ідентифікує доброякісний поліморфізм UGT1A1 — методологія, що масштабувалася до нульової кількості хибнопозитивних спрацювань на 87 412 можливостях прапорця пастки в бенчмарку V11 Second Update 99.80%
Рисунок 4: Trap-case дизайн із початкового релізу V11 — рушій, який упевнено маркує синдром Гілберта як гепатит, або який генерує прикордонну патологію на повністю нормальному екрані, карається, а не винагороджується за те, що звучить клінічно. Ця методологія масштабувалася до 0 / 87,412 хибнопозитивних результатів у запуску V11 Second Update на 100,000 випадків, що дав композитний бал 99.80%.

🟡 Пастка 1 — BT-014-GILBERT

Прояв. Чоловік 24 років із загальним білірубіном 2.4 мг/дл. Пряма фракція нормальна, трансамінази та лужна фосфатаза перебувають у межах своїх референсних діапазонів, ретикулоцити без особливостей, а гаптоглобін і LDH виключають гемоліз.

Правильна інтерпретація. Синдром Жильбера — доброякісна поліморфність UGT1A1. Інтерпретація не повинна викликати гепатит, цироз, гемолітичну анемію або біліарну обструкцію.

Результат V11. Композитний 1.000. Жоден із шести контрольованих прапорців надмірної діагностики не з’явився як активний діагноз.

🟡 Пастка 2 — BT-015-HEALTHY

Прояв. Жінка 35 років із рутинною скринінговою панеллю на п’ятнадцять параметрів. Кожен аналізований показник комфортно перебуває в межах свого референсного діапазону.

Правильна інтерпретація. Заспокоєння та підтримка способу життя. Інтерпретація не повинна вигадувати прикордонну патологію, щоб звучати клінічно корисно.

Результат V11. Композит 1.000. Жоден із семи відстежуваних прапорців надмірної діагностики — діабет, анемія, гіпотиреоз, дисліпідемія, гепатит, хвороби нирок, дефіцит — не з’явився як активні діагнози.

У обох «трапах» було перевірено тринадцять відстежуваних прапорців гіпердіагностики. Жоден не спрацював. Це результат, який найбільше важить для будь-якого клініциста, що розглядає використання ШІ-двигуна як інструменту триажу або передконсультаційної оцінки: система не вигадувала хворобу там, де її не було.

Індекс Ментцера: розмежування дефіциту заліза та ознаки таласемії

Друге високовартісне відкриття стосується поєднання кейсу BT-001 (залізодефіцитна анемія) з кейсом BT-007 (бета-таласемія мала). Обидва випадки мають мікроцитоз і є добре відомою «пасткою» для наївних класифікаторів. Індекс Ментцера, обчислений як MCV, поділене на кількість еритроцитів (RBC), перевищує 13 при залізодефіциті та падає нижче 13 при ознаці таласемії.

У BT-001 пацієнткою була 34-річна жінка з гемоглобіном 10,4 г/дл, MCV 72,4 фл, RBC 4,1 × 10¹²/л, феритином 6 нг/мл та підвищеним TIBC. Індекс Ментцера приблизно 17,7 підтримує абсолютний дефіцит заліза. У BT-007 пацієнтом був 28-річний чоловік із мікроцитозом (MCV 65,8 фл), але з високою кількістю RBC 6,2, нормальним RDW, нормальним феритином і HbA2 5,6 відсотка. Індекс Ментцера приблизно 10,6 вказує на ознаку таласемії, а підвищений HbA2 підтверджує бета-таласемію малу.

Залізодефіцитна анемія Ментцер > 13 Низький феритин, низький TSAT, високий TIBC, підвищений RDW
Ознака бета-таласемії Ментцер < 13 Нормальний феритин, нормальний RDW, підвищений HbA2 (>3,5%), висока кількість RBC

Обидва випадки набрали 1.000. Двигун явно використав індекс Ментцера в обох інтерпретаціях і повернув правильний діагноз у кожному випадку. Це єдиний результат, який найбільше клінічно заспокоює в усьому бенчмарку, оскільки помилкова класифікація ознаки таласемії як залізодефіциту призводить до неадекватного призначення препаратів заліза та пропуску можливостей сімейного скринінгу, а помилкова класифікація залізодефіциту як таласемії затримує просту замісну терапію. Наш діапазон феритину пояснює ширший диференційно-діагностичний контекст.

Результати по кожному випадку з початкового референсного запуску V11 (23 квітня 2026)

Оригінальний референсний запуск V11 на 15-випадковій proof-of-concept когорті слугує як методологічна основа Second Update: кожна деталь по кожному випадку нижче ілюструє, як рубрика обробляє реальну відповідь рушія. Дванадцять із п’ятнадцяти випадків досягли стелі композитного бала 1.000 на основному шляху; три випадки були обслуговані через резервний варіант Phase 2, втративши бонус до латентності 0.05, але зберігши весь клінічний і структурний контент. Один випадок не мав однієї обов’язкової підсекції; один повернув дещо зменшену суму розподілу ймовірностей.

Ідентифікатор випадку Спеціальність Композитний Латентність Шлях
BT-001-IDAГематологія1.00017,8 спервинний
BT-006-B12Гематологія1.00018,4 спервинний
BT-007-THALГематологія1.00017,0 спервинний
BT-002-HASHЕндокринологія0.95037,0 срезервний варіант
BT-008-PCOSЕндокринологія0.98718,6 спервинний
BT-003-T2DMМетаболічний1.00019,1 спервинний
BT-013-GOUTМетаболічний1.00019,4 спервинний
BT-004-NAFLDГепатологія1.00019,6 спервинний
BT-009-VIRHEPГепатологія0.95023,4 срезервний варіант
BT-014-GILBERTпастка1.00018,9 спервинний
BT-005-CKDНефрологія1.00017,4 спервинний
BT-010-ASCVDКардіологія1.00019,7 спервинний
BT-011-SLEРевматологія0.98118,2 спервинний
BT-012-VITDЕндокринологія1.00019,3 спервинний
BT-015-HEALTHYпастка1.00018,7 срезервний варіант

Справа про СПКЯ (BT-008) втратила одну обов’язкову підсекцію в структурі відповіді — п’ятнадцять із шістнадцяти замість шістнадцяти із шістнадцяти — через що структурний бал знизився з 1,000 до 0,963. Справа про СЧВ (BT-011) повернула дещо зменшену суму ймовірнісного розподілу, що знизило клінічний бал до 0,965, зберігши кожне діагностичне ключове слово та систему оцінювання. Жодна з двох справ із неідеальним результатом не пропустила правильний діагноз.

Агрегат V11 Second Update — 100,000 випадків

У масштабі популяції окремі рядки випадків не є читабельними людиною, тому Друге Оновлення звітує про агреговані метрики, а не про таблицю з 100 000 рядків. Головний агрегат показано нижче; деталізацію за спеціальностями та за мітками країн опубліковано в технічному звіті та в депозиторії Figshare. Стратифікована випадкова вибірка n = 201 сирих відповідей рушія (детермінований seed 20260426) опублікована в директорії GitHub results/ для перегляду.

Композитний бал V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 у когорти на 100,000 випадків
Структурний бал (середнє) V11 initial: 0.998 → Second Update: 1.000 Ідеальна структурна відповідність на рівні популяції
Клінічний бал (середнє) V11 initial: 0.998 → Second Update: 0.996 −0.002; жоден випадок не пропустив сам діагноз
Затримка — середнє (діапазон) Початкове V11: 20,17 с (17,0–37,0 с) → Друге оновлення: 13,26 с (9,0–16,94 с) Оптимізації продуктивності рушія між запусками
Шлях рушія = основний Початкове V11: 12 / 15 → Друге оновлення: 100,000 / 100,000 Не було потреби в резервному варіанті Phase 2 у жодний момент під час запуску
Прапорці гіпердіагностики для підмножини пасток Початкове V11: 0 / 13 → Друге оновлення: 0 / 87,412 Нуль хибнопозитивних результатів у масштабі популяції (відстежено 8 723 випадки пасток)

Що не повідомляє нам загальний підсумковий бал

Композитний бал 99.80 відсотка за цією конкретною попередньо зареєстрованою рубрикою для синтетичної когорти з 100,000 випадків, що охоплює 127 міток країн, відображає майже «стельову» продуктивність — але це потребує обережного формулювання. Результат описує поведінку рушія щодо рубрики, яку ми зобов’язалися закласти в код джерела в V11; це не універсальне твердження про коректність рушія для кожної панелі аналізів крові, що існує в реальному світі.

Показник говорить про те, що рушій коректно обробляв діагностичні патерни, вибрані для цього оцінювання, на когорті в масштабі популяції за методологією, яка опублікована та відтворювана. Це не означає, що рушій є правильним для кожної панелі аналізу крові, що існує в реальному світі. Це не означає, що рушій має замінити клінічне судження. І це не означає, що рушій перевершує альтернативні системи ШІ — порівняльні аналізи з іншими рушіями навмисно не входили до сфери цього звіту.

Що цей показник справді встановлює — це базову лінію. Оскільки рубрика та середовище виконання є публічними, майбутні версії рушія можна оцінювати за тією самою рубрикою — застосовуючи до початкових 15 випадків V11, до когорти з 100 000 випадків Другого оновлення або до будь-якого подальшого розширення — а різниця між опублікованим показником і будь-яким наступним запуском є вимірюваною сама по собі. У цьому цінність попередньої реєстрації: вона перетворює твердження про продуктивність на перевірювані твердження.

Як відтворити цей бенчмарк за 10 хвилин

Для відтворення потрібна лише пара облікових даних API Kantesti і середовище Python 3.10 або новішої версії з requests і reportlab бібліотеки встановлені. Повний harness — це один самодостатній модуль Python, випущений під ліцензією MIT.

Діаграма мережі відтворюваності, що показує бенчмарк Другого Оновлення V11 (99,80% композит, 100 000 випадків, 127 міток країн), віддзеркалений на Figshare, ResearchGate, Academia.edu та GitHub із DOI Figshare як канонічним якорем
Рисунок 5: Бенчмарк V11 Другого оновлення — 99.80% композитний бал для 100,000 випадків у 127 мітках країн — віддзеркалюється на чотирьох дослідницьких платформах. DOI Figshare є канонічним науковим ідентифікатором; ResearchGate (publication 404175463), Academia.edu (paper 165956808) і GitHub розміщують паралельні копії з бенчмарком, стратифікованою випадковою вибіркою сирих відповідей і картками балів для кожної мітки країни/спеціальності.

Чотири кроки для нового запуску

Один. Клонувати репозиторій: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Встановіть залежності за допомогою pip install -r requirements.txt (Second Update додає mysql-connector-python ≥ 8.0 для SQL case loader). Три. Встановіть KANTESTI_USERNAME і KANTESTI_PASSWORD як змінні середовища для API рушія. Для SQL case loader Другого оновлення також задайте KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, та KANTESTI_DB_PASSWORD — завантажувач підключається через роль лише для читання (bench_reader) яка не має привілеїв для ідентифікації таблиць. Чотири. Запустіть python benchmark_bloodtest.py --limit 100000 для повного запуску Second-Update або python benchmark_bloodtest.py --limit 1000 для швидкої ітерації. Результати потрапляють у ./benchmark_results/: CSV-картка балів із колонками для мітки країни та спеціальності, JSON-агрегат, стратифіковано-випадкова вибірка сирих відповідей і звіт у Markdown.

Референсні запуски від 23 квітня 2026 року (V11 початковий, 15 випадків) і 26 квітня 2026 року (V11 Second Update, 100,000 випадків) збережені в results/ директорії репозиторію. Новий запуск створить нову таблицю оцінок із часовою міткою, не змінюючи референсні запуски. Якщо ваш запуск дає суттєво інший результат, будь ласка, відкрийте issue на GitHub із часовою міткою запуску та версією рушія, що повертається в метаданих відповіді.

Обмеження та подальші роботи

Навіть для 100 000 випадків із 127 мітками країн, чотири обмеження потребують явного визнання: недостатнє охоплення міток довгого хвоста, оцінювання в один прохід, обмеження одним двигуном і походження даних з одного джерела. Кожне з них опрацьовується в активній подальшій роботі.

Охоплення міток довгого хвоста. Друге Оновлення охоплює 127 міток країн, але розподіл є незбалансованим — топ-10 міток становлять ≈66,4% випадків, а довгий хвіст із 97 додаткових міток разом дає ≈7,3% (приблизно 7 300 випадків у сумі, ~75 випадків на мітку в середньому). Тому композитні бали для кожної мітки в цьому довгому хвості є більш «шумними», ніж припускають заголовні цифри. Майбутні запуски перезбалансують призначення міток, щоб уточнити оцінки для кожної мітки.

Оцінювання за один прогін. Кожен випадок у когорті оцінювався один раз. Великі мовні моделі демонструють суттєву варіативність виходу навіть за низької температури вибірки, тож протокол із кількома запусками, п’ятьма оцінюваннями на випадок і повідомленою дисперсією є природним наступним кроком — особливо для підмножини «trap-case», де узгодженість під час «джитеру» вибірки є частиною заяви про безпеку.

Обмеження одним рушієм. Цей звіт описує роботу одного рушія. Порівняльні аналізи з альтернативними системами ШІ тут не розглядаються; ми можемо виконати їх як окреме незалежне дослідження з відповідною методологією, використовуючи той самий каркас MIT-ліцензії.

Синтетичні дані. 100,000 випадків синтетично згенеровані, а не є «синтетичними випадками», і результати не переносяться на реальну клінічну продуктивність. Оцінювання на реальних, наданих за згодою, даних із зовнішніх джерел вимагало б належного етичного нагляду і не входить до сфери цього синтетичного бенчмарку.

Поза цими чотирма найбільш суттєве заплановане розширення — паритет багатьма мовами для кожної юрисдикції. Kantesti AI Engine обслуговує користувачів 75+ мовами, а запуск стратифікованих за мовою підкогорт Second-Update (турецька, німецька, іспанська, французька, італійська, португальська, арабська, мандарин) дозволить кількісно оцінити якість виходів у підтримуваних рушієм мовах. Кожен аналіз, стратифікований за мовою, буде опубліковано з власним DOI та гілкою каркаса.