Kantesti AI-эталон аналізу крыві — клінічная валідацыя

Клінічная праверка Папярэдне зарэгістраваны эталон V11 — красавік 2026 Пад ліцэнзіяй MIT Правяраецца калегамі

99.12% кампазітны бал па загадзя зарэгістраванай рубрыцы з нулявымі гіпердыягнастычнымі ілжыва-станоўчымі вынікамі

Незалежная, папярэдне зарэгістраваная клінічная ацэнка працы AI-рухавіка Kantesti на ананімізаваных выпадках аналізаў крыві. Крытэрыі (rubric) былі замарожаныя ў зыходным кодзе да першага выкліку рухавіка, ацэначны каркас (evaluation harness) мае ліцэнзію MIT, і кожны сыры адказ апублікаваны.

📖 ~14 хвілін 📅 23 красавіка 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 апублікавана: 23 красавіка 2026 🩺 медыцынскі агляд: 23 красавіка 2026 ✅ Папярэдне зарэгістраваныя крытэрыі (Rubric) 🔓 Адкрыты код і даныя

Гэта даследаванне клінічнай валідацыі было ініцыявана Доктар Томас Кляйн, доктар медыцынскіх навук, галоўным медыцынскім дырэктарам (Chief Medical Officer) у Kantesti AI, у супрацоўніцтве з Джуліян Эмірхан Булут, старшым інжынерам па AI і генеральным дырэктарам (CEO) Kantesti Ltd. Метадалогія і крытэрыі былі разгледжаны Медыцынскі кансультатыўны савет Кантэсці ШІ.

Галоўным аўтарам і клінічным наглядам

Томас Кляйн, доктар медыцынскіх навук

Галоўны ўрач, Кантэсці А.І.

Доктар Томас Кляйн — сертыфікаваны ўрач-клінічны гематолаг і інтэрніст з больш чым 15-гадовым досведам у лабараторнай медыцыне. Як галоўны медыцынскі дырэктар у Kantesti AI, ён выбраў панэль выпадкаў для гэтага эталону, разгледзеў усе дыягнастычныя «сапраўдныя» (ground truths) і зацвердзіў папярэдне зарэгістраваныя крытэрыі да першага запуску рухавіка.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Суаўтар і ўкараненне

Джуліян Эмірхан Булут

Старшы інжынер па AI і генеральны дырэктар, Kantesti Ltd

Джуліан Эмірхан Булут — заснавальнік і генеральны дырэктар Kantesti Ltd. Ён распрацаваў і ўкараніў ацэначны каркас, выканаў інтэграцыю API, правёў запуск эталону ў красавіку 2026 і падрыхтаваў статыстычную агрэгацыю. Заснавальнік платформы з 2019 года.

GitHub Пра Кантэшці

⚡ Кароткае рэзюмэ V11 — 23 красавіка 2026

99.12% кампазітны бал на 15 ананімізаваных рэальных выпадках аналізу крыві па сямі медыцынскіх спецыяльнасцях.
Нуль ілжывых спрацоўванняў гіпердыягностыкі як для «trap»-выпадкаў (сіндром Жыльбера і цалкам нармальны скрынінг дарослага).
Папярэдне зарэгістраваная рубрыка замарожана ў зыходным кодзе да першага выкліку рухавіка — немагчыма было зрабіць постфактумную наладку.
Індэкс Ментцэра карэктна ўжыты каб адрозніць жалезадэфіцытную анемію ад малой бэта-таласеміі.
Толькі вытворчы канчатковы пункт (endpoint) — без прывілеяванай маршрутызацыі; ацэнка выканана дакладна так, як бы да яго атрымаў доступ платны кліент.
Сярэдняя затрымка 20.17 секунды ад пачатку да канца, прычым 12 з 15 выпадкаў — у межах першаснай мэтавай затрымкі 20 секунд.
Тэставы каркас з ліцэнзіяй MIT апублікаваны на GitHub з кожным сырым адказам рухавіка — падтрымваецца незалежнае паўтарэнне.
DOI Figshare: 10.6084/m9.figshare.32095435 · Адлюстравана на ResearchGate, Academia.edu, GitHub.

Чаму існуе гэты эталон і што ён правярае

AI-дапамога ў расшыфроўцы аналізу крыві ўсё часцей выкарыстоўваецца ў спажывецкіх і клінічных працоўных працэсах, аднак паўтаральныя ацэначныя рамкі, адаптаваныя пад лабараторную медыцыну, застаюцца рэдкасцю. Пытанні, якія найбольш важныя ў гэтай сітуацыі, — не тыя, што ахоплены агульнымі бенчмаркамі для медыцынскага пытанне-адказу: ці можа рухавік адрозніць жалезадэфіцыт ад прыкмет таласеміі, калі сярэдні аб’ём эрытрацытаў ідэнтычны, ці не ставіць ён лішні дыягназ сіндрому Жыльбера як гепатыт, і ці «стварае» ён паталогію ў цалкам нармальнай скрынінгавай панэлі?

А адзінкавая панэль аналізу крыві звычайна змяшчае дастаткова сігналу, каб падтрымліваць некалькі канкуруючых інтэрпрэтацый, і задача ўрача, які інтэрпрэтуе, — узважваць гэтыя інтэрпрэтацыі адна супраць адной, а не шукаць падручнікавы адказ. Двiгатель, які добра спраўляецца з падручнікавымі кейсамі, усё яшчэ можа праваліцца ў тых выпадках, якія найбольш важныя: у пастках дыферэнцыяльнай дыягностыкі, у дабраякасных варыянтах, якія ў ізаляцыі выглядаюць трывожна, і ў цалкам нармальных панэлях, што спакушаюць упэўненых асістэнтаў выдумляць паталогію.

Гэты бенчмарк быў пабудаваны менавіта вакол такіх рэжымаў памылкі. Кожны з пятнаццаці кейсаў быў адабраны з улікам пэўнай дыягнастычнай уласцівасці: мікрацытоз пры дэфіцыце жалеза, які трэба адрозніваць ад прыкметы бэта-таласеміі з ідэнтычным сярэднім аб’ёмам эрытрацытаў, клінічная карціна сіндрому Гілберта, дзе адзіная анамалія — ізаляваная непрамяя гіпербілірубінемія, і панэль скрынінгу на пятнаццаць параметраў, у якой кожны аналізатар знаходзіцца ў межах свайго даведачнага дыяпазону. Рубрыка ўзнагароджвае рухавікі, якія чытаюць кожны кейс у яго ўласных умовах, і карае рухавікі, якія прыходзяць да ўпэўненага дыягназу там, дзе такая дыягностыка не абгрунтаваная.

Як Томас Кляйн, доктар медыцынскіх навук, я выбраў панэль кейсаў, бо менавіта гэтыя шаблоны часцей за ўсё памыляюцца ў асістэнтах лабараторнай медыцыны. Дарагая памылка — гэта не "прапусціць рэдкую хваробу"; гэта вырабляць звычайную паталогію ў пацыентаў, у якіх яе няма. Наш Медыцынская праверка hub апісвае шырэйшую рамку; гэтая старонка апісвае яе прыкладны вынік для рухавіка V11.

Апошні эталонны запуск — V11 (красавік 2026)

Даведачны прагон за красавік 2026 для Kantesti AI Engine V11 даў сукупны бал 99.12% па папярэдне зарэгістраванай рубрыцы з пятнаццаццю кейсамі. Абодва кейсы-пасткі гіпердыягностыкі набралі максімум. Індэкс Ментцэра быў ужыты правільна ў дыферэнцыяцыі дэфіцыту жалеза супраць таласеміі.

Сукупны 99.12% 15 з 15 кейсаў набралі

0.998 Структурны бал

0.998 Клінічны бал

20.17 с Сярэдняя затрымка

0 / 13 Пасткі ілжывых спрацоўванняў

Сукупная формула аб’ядноўвае тры кампаненты: структурнае адпаведнасць з сямю абавязковымі раздзеламі справаздачы і шаснаццаццю абавязковымі падраздзеламі, клінічная дакладнасць вымераная як успамін па ключавых словах плюс успамін па сістэме ацэнкі плюс праверка сапраўднасці размеркавання верагоднасцяў, і затрымка адказу адносна асноўнай мэты па ўзроўні сэрвісу 20 секунд. Дакладная разбіўка паказана ў формуле рубрыкі ніжэй.

Сукупны = 0.35 × Структурны + 0.55 × Клінічны + 0.10 × Затрымка

Астатнія 0,88 працэнтнага пункта запасу амаль цалкам раскладаюцца на страту з-за затрымкі — тры запасныя выклікі Phase 2 з узаемазвязаным унёскам па -0,05 кожны дадалі прыкладна 0,60 з дэфіцыту ў 0,88 пункта — а не ў клінічны кантэнт. Рухавік не прапусціў правільны дыягназ ні ў адным з пятнаццаці выпадкаў; там, дзе ён не дацягнуў, гэта было з-за таго, што ў невялікай меншасці выклікаў ён працаваў крыху даўжэй за першасную мэта ў 20 секунд.

Пятнаццаць выпадкаў па сямі медыцынскіх спецыяльнасцях

Панэль выпадкаў ахоплівае сем спецыяльнасцей — гематалогію, эндакрыналогію, метабалічную медыцыну, гепаталогію, нефралогію, кардыялогію, рэўматалогію — а таксама два спецыяльна прызначаныя выпадкі-пасткі для гіпердыягностыкі. Кожны выпадак — гэта ананімізаваная рэальная медыцынская карта пацыента, узятая з рэпазітара клінічных даных Kantesti на падставе пісьмовай інфармаванай згоды.

Дэідэнтыфікацыя была выканана па падыходзе Safe Harbor: усе прамыя ідэнтыфікатары былі выдалены або заменены, і кожнаму запісу прысвоены ўнутраны эталонны код выпадку ў фармаце BT-NNN-LABEL. Апрацоўка выконвалася ў адпаведнасці з GDPR артыкул 9(2)(j) для навуковых даследаванняў з адпаведнымі гарантыямі, а таксама з эквівалентнымі палажэннямі UK GDPR. Ніводная персанальна ідэнтыфікуючая інфармацыя не сустракаецца ні ў апублікаваным стендзе, ні ў тэхнічным справаздачы, ні ў выпушчаных наборах даных.

Гематалогія (3) BT-001, BT-006, BT-007 Жалезадэфіцытная анемія · дэфіцыт вітаміну B12 · малая бэта-таласемія

Эндакрыналогія (3) BT-002, BT-008, BT-012 Тырэяідыт Хасімота · ПКЯ з інсулінарэзістэнтнасцю · цяжкі дэфіцыт вітаміну D

Метабалічная (2) BT-003, BT-013 T2DM з метабалічным сіндромам · гіперурыкемія з рызыкай падагры

Гепаталогія (2) BT-004, BT-009 НАЖБП / НАСГ · востры вірусны гепатыт

Нефралогія · Кардыялогія · Рэўматалогія (3) BT-005, BT-010, BT-011 ХБП стадыя 3 · атерогенная дысліпідэмія · сістэмная чырвоная ваўчанка

Пасткавые выпадкі (2) BT-014, BT-015 Сіндром Гілберта (ізаляваная ўскосная гіпербілірубінемія) · цалкам нармальны дарослы скрынінг

Чаму менавіта такое размеркаванне

Гематалогія атрымлівае тры кейсы, бо мікрацытарныя дыферэнцыялы і макрацытарныя дыферэнцыялы — гэта пасткі з найбольшай частатой у рэальнай лабараторнай практыцы. Эндакрыналогія атрымлівае тры, бо праявы хваробы Хашымота, СПКЯ і дэфіцыту вітаміну D фармуюць розныя дыягнастычныя «формы» (правадзяцца аутаантыцеламі, каэфіцыентамі гармонаў, адным маркерам). Адзіночныя спецыялізацыі ўсё яшчэ маюць сэнс, бо кожная з ХБП, рызыкі ASCVD і СКВ мае ўласную сістэму ацэньвання, якую рухавік павінен выклікаць (стадзіраванне KDIGO, 10-гадовая рызыка ASCVD, крытэрыі 2019 EULAR/ACR для СКВ адпаведна).

Папярэдне зарэгістраваныя крытэрыі (rubric), растлумачаныя

Папярэдняя рэгістрацыя — адзінае найбольш важнае метадалагічнае рашэнне ў гэтым бенчмарку. Кожная чаканая дыягностыка, кожная клінічная сістэма ацэньвання і кожны раздзел справаздачы былі зафіксаваныя ў зыходным кодзе перш чым рухавік быў выкліканы. Такім чынам, постфактумная налада рубрыкі, каб «падладзіць» рухавік, немагчыма.

Тры кампаненты складаюць сукупны бал. структурны кампанент уносіць 35 працэнтаў і вымярае, ці вярнуў рухавік сем абавязковых раздзелаў справаздачы (загаловак, кароткі змест, ключавыя знаходкі, дыферэнцыялы, сістэмы ацэньвання, рэкамендацыі, назіранне) і шаснаццаць абавязковых падраздзелаў у іх. Наяўнасць раздзелаў важыць 40 працэнтаў, а наяўнасць падраздзелаў — 60 працэнтаў у межах структурнага разліку.

Гэты клінічны кампанент уносіць 55 працэнтаў і аб’ядноўвае тры рэчы: адклік па дыягназных ключавых словах (70 працэнтаў клінічнай падацэнкі), адклік па сістэмах ацэньвання (20 працэнтаў — ці вылічвае рухавік Mentzer, FIB-4, HOMA-IR, рызыку ASCVD, стадыраванне KDIGO, крытэрыі EULAR/ACR, калі гэта дарэчы), і праверку валіднасці сумы верагоднасцяў (10 працэнтаў — дыферэнцыяльныя верагоднасці павінны скласціся ў межах інтэрвалу [90, 110]). Для кейсаў-пастак ужываецца відавочны штраф за гіпердыягностыку да 0.30, які аднімаецца, разлічаны як 0.10 за кожны сфабрыкаваны сцяг паталогіі, з абмежаваннем да трох сцяжкоў.

Гэты кампанент затрымкі уносіць 10 працэнтаў. Адказ менш чым за 20 секунд атрымлівае поўныя 0.10, адказ менш чым за 40 секунд — 0.05, а ўсё, што павольней, — нуль. Мэта ў 20 секунд адлюстроўвае вытворчую мэту ўзроўню сэрвісу для асноўнага primary-path; столь у 40 секунд адлюстроўвае бюджэт запасу Phase 2 для цяжкіх выклікаў рухавіка.

Што папярэдняя рэгістрацыя прадухіляе

Першасныя бенчмаркі вядомыя тым, што раздуваюць уласныя лічбы праз постфактумную наладу рубрыкі. Узор амаль заўсёды аднолькавы: каманда запускае рухавік, бачыць, дзе ён недаацэньвае, а потым ціха карэктуе рубрыку так, каб недаацэненыя вобласці ўлічваліся менш. Калі зафіксаваць рубрыку ў зыходным кодзе да першага выкліку рухавіка і апублікаваць хэйрнэс пад ліцэнзіяй MIT, гэтая карэкцыя становіцца бачнай у сістэме кантролю версій. Любая асоба можа кланаваць рэпазіторый, праверыць даты аўтарства рубрыкі і пераканацца, што вынікі рухавіка не выкарыстоўваліся для фармавання ацэнкі.

Пасткі гіпердыягностыкі — чаму празмернае «закліканне» (over-calling) з’яўляецца сапраўдным рэжымам збою

Агрэсыўнае празмернае «прызначэнне» паталогіі на нармальных скрынінгах — задокументаваны рэжым збою спажывецкіх медыцынскіх асістэнтаў. Яго наступныя выдаткі ўключаюць непатрэбнае абследаванне, трывожнасць пацыента і ятрагенную (пабочную) дыягнастычную/лячэбную праверку. Два кейсы-пасткі ў гэтым бенчмарку распрацаваны, каб зрабіць гэты рэжым збою бачным і ацэнюемым.

🟡 Пастка 1 — BT-014-GILBERT

Прадстаўленне. Мужчына 24 гадоў з агульным білірубіну 2.4 мг/дл. Прамое фракцыя нармальная, трансаміназы і шчолачная фасфатаза знаходзяцца ў межах сваіх даведачных дыяпазонаў, ретыкулоциты нічым не вылучаюцца, а гаптаглабін і LDH выключаюць гемоліз.

Правільная інтэрпрэтацыя. Сіндром Гілберта — дабраякасны палімарфізм UGT1A1. Інтэрпрэтацыя не павінна выклікаць гепатыт, цыроз, гемалітычную анемію або біліярную абструкцыю.

Вынік V11. Сукупны 1.000. Ні адзін з шасці кантраляваных сцяжкоў празмернай дыягностыкі не з’явіўся як актыўны дыягназ.

🟡 Пастка 2 — BT-015-HEALTHY

Прадстаўленне. Жанчына 35 гадоў з пятнаццаціпараметровай звычайнай панэллю скрынінгу. Кожны аналізат знаходзіцца зручна ў межах свайго даведачнага дыяпазону.

Правільная інтэрпрэтацыя. Пацверджанне і падтрымка здаровага ладу жыцця. Расшыфроўка не павінна выдумляць пагранічную паталогію, каб выглядаць клінічна карыснай.

Вынік V11. Кампазіт 1.000. Ні адзін з сямі кантраляваных сцяжкоў гіпердыягностыкі — дыябет, анемія, гіпатырэёз, дысліпідэмія, гепатыт, хвароба нырак, дэфіцыт — не з’явіўся як актыўны дыягназ.

Праз абодва пасткі было праверана трынаццаць кантраляваных сцяжкоў гіпердыягностыкі. Нічога не спрацавала. Гэта вынік, які найбольш важны для любога клініцыста, які разглядае выкарыстанне AI-рухавіка як інструмента трыяжу або перадкансультацыйнай ацэнкі: сістэма не вынайшла хваробу там, дзе яе не было.

Індэкс Ментзера: адрозненне дэфіцыту жалеза ад прыкметы таласеміі

Другі вынік высокай каштоўнасці датычыцца спалучэння кейса BT-001 (жалезадэфіцытная анемія) з кейсам BT-007 (бэта-таласемія малая). Абодва станы праяўляюцца мікрацытозам і з’яўляюцца добра вядомай перашкодай для наіўных класіфікатараў. Індэкс Ментцэра, разлічаны як MCV, падзелены на колькасць RBC, перавышае 13 пры жалезадэфіцыце і падае ніжэй за 13 пры прыкметах таласеміі.

У BT-001 пацыенткай была 34-гадовая жанчына з гемаглабінам 10.4 г/дл, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферытын 6 нг/мл і павышаным TIBC. Індэкс Ментцэра прыкладна 17.7 падтрымлівае абсалютны жалезадэфіцыт. У BT-007 пацыент быў 28-гадовым мужчынам з мікрацытозам (MCV 65.8 фл), але з высокай колькасцю RBC 6.2, нармальным RDW, нармальным ферытыном і HbA2 5.6 працэнта. Індэкс Ментцэра прыкладна 10.6 паказвае на прыкметы таласеміі, а павышаны HbA2 пацвярджае бэта-таласемію малую.

Жалезадэфіцытная анемія Ментцэр > 13 Нізкі ферытын, нізкі TSAT, высокі TIBC, павышаны RDW

Прыкметы бэта-таласеміі Ментцэр < 13 Нармальны ферытын, нармальны RDW, павышаны HbA2 (>3.5%), высокая колькасць RBC

Абодва кейсы набралі 1.000. Рухавік выкарыстаў індэкс Ментцэра экспліцытна ў абодвух інтэрпрэтацыях і вярнуў правільны дыягназ у кожным выпадку. Гэта адзіны найбольш клінічна заспакойваючы вынік ва ўсім бенчмарку, бо памылковае класіфікаванне прыкмет таласеміі як жалезадэфіцыту прыводзіць да неадпаведнага прызначэння прэпаратаў жалеза і да прапушчаных магчымасцяў сямейнага скрынінгу, а памылковае класіфікаванне жалезадэфіцыту як таласеміі затрымлівае простую замяшчальную тэрапію. Наша дыяпазон для ферытыну тлумачыць шырэйшы дыферэнцыяльны кантэкст.

Выніковыя вынікі па кожным выпадку з запуску за красавік 2026 года

Дванаццаць з пятнаццаці кейсаў дасягнулі верхняй мяжы кампазітнага бала 1.000 па асноўным шляху. Тры кейсы былі апрацаваны праз рэзервовы механізм Phase 2, страціўшы бонус да латэнтнасці 0.05, але захаваўшы ўвесь клінічны і структурны змест. Адзін кейс не меў аднаго абавязковага падраздзелу; адзін вярнуў маргінальна зніжаную суму размеркавання верагоднасцяў.

Ідэнтыфікатар кейса Спецыяльнасць Сукупны Латэнтнасць Шлях

BT-001-IDAГематалогія1.00017.8 сасноўны

BT-006-B12Гематалогія1.00018.4 сасноўны

BT-007-THALГематалогія1.00017.0 сасноўны

BT-002-HASHЭндакрыналогія0.95037.0 сзапасны варыянт

BT-008-PCOSЭндакрыналогія0.98718.6 сасноўны

BT-003-T2DMМетабалічны1.00019.1 сасноўны

BT-013-GOUTМетабалічны1.00019.4 сасноўны

BT-004-NAFLDгепаталогія1.00019.6 сасноўны

BT-009-VIRHEPгепаталогія0.95023.4 сзапасны варыянт

BT-014-GILBERTпастка1.00018.9 сасноўны

BT-005-CKDНефралогія1.00017.4 сасноўны

BT-010-ASCVDКардыялогія1.00019.7 сасноўны

BT-011-SLEРэўматалогія0.98118.2 сасноўны

BT-012-VITDЭндакрыналогія1.00019.3 сасноўны

BT-015-HEALTHYпастка1.00018.7 сзапасны варыянт

Справа з ПКЯ (BT-008) страціла адну абавязковую падраздзел у структуры адказу — пятнаццаць з шаснаццаці замест шаснаццаці з шаснаццаці — што знізіла структурны бал з 1.000 да 0.963. Справа з СКВ (BT-011) вярнула нязначна зніжаную суму верагоднасна-размеркаваных значэнняў, якая знізіла клінічны бал да 0.965, пры гэтым захаваўшы кожны дыягнастычны ключавы тэрмін і сістэму ацэнкі. Ні адна з дзвюх спраў з недахопам не прапусціла правільны дыягназ.

Што не паведамляе нам загалоўны бал

Састаўны бал 99.12 працэнта па дадзенай канкрэтнай загадзя зарэгістраванай рубрыцы азначае амаль максімальную прадукцыйнасць, але гэта патрабуе ўважлівага акрэслення. Вынік апісвае паводзіны рухавіка ў параўнанні з пятнаццаццю старанна адабранымі ананімізаванымі выпадкамі, ацэненымі па адным разе кожны, па адной рубрыцы. Мы дакладна тлумачым, што гэтая лічба робіць і чаго не ўстанаўлівае.

Бал паказвае, што рухавік V11 апрацаваў дыягнастычныя ўзоры, адабраныя для гэтай ацэнкі, правільна, на метадалогіі, якая апублікаваная і якую можна паўтарыць. Гэта не азначае, што рухавік правільны для кожнай панэлі аналізу крыві, якая існуе ў рэальным свеце. Гэта не азначае, што рухавік павінен замяняць меркаванне клініцыста. І гэта не азначае, што рухавік пераўзыходзіць альтэрнатыўныя сістэмы AI — параўнальныя аналізы з іншымі рухавікамі свядома не ўваходзілі ў межы гэтага справаздачы.

Тое, што гэты бал сапраўды ўстанаўлівае, — гэта базавы ўзровень. Калі рубрыка і апарат (harness) будуць публічнымі, будучыя версіі рухавіка можна будзе ацэньваць у параўнанні з тымі ж пятнаццаццю выпадкамі, а розніца паміж апублікаваным балам і любым наступным запускам — гэта таксама можна вымераць. Вось у чым каштоўнасць загадзя рэгістрацыі: яна пераўтварае сцвярджэнні аб прадукцыйнасці ў правяральныя сцвярджэнні.

Як паўтарыць гэты бенчмарк за 10 хвілін

Для паўтарэння патрэбна толькі пара ўліковых дадзеных API Kantesti і асяроддзе Python 3.10 або пазнейшае з requests і reportlab бібліятэкі, усталяваныя. Поўны апарат — гэта адзін адзіны самадастатковы модуль Python, выпушчаны пад ліцэнзіяй MIT.

💻 GitHub Апараты з ліцэнзіяй MIT · сырыя адказы · эталонны запуск 🔗 DOI Figshare 10.6084/m9.figshare.32095435 · кананічны акадэмічны запіс 🎓 ResearchGate Публікацыя 404175463 · акадэмічны пласт адкрыцця 📄 Academia.edu Папера 165956808 · акадэмічны пласт адкрыцця

Чатыры крокі для новага запуску

Адзін. Кланіруйце рэпазіторый: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Усталюйце залежнасці з pip install -r requirements.txt. Тры. Усталюйце KANTESTI_USERNAME і KANTESTI_PASSWORD як зменныя асяроддзя — уліковыя даныя чытваюцца падчас выканання, і ў скрыпце нічога не зашыта. Чатыры. Запусціце python benchmark_bloodtest.py і агледзьце чатыры артэфакты, якія будуць створаны ў працоўнай дырэкторыі: CSV scorecard, JSON scorecard, поўны JSON-дамп, уключаючы сырыя адказы рухавіка, і зручны для чытання Markdown-справаздачу.

Даведачны запуск ад 23 красавіка 2026 года захаваны ў results/ дырэкторыі рэпазіторыя. Новы запуск створыць новы scorecard з пазнакай часу, не змяняючы даведачны запуск. Калі ваш запуск дае істотна іншы вынік, калі ласка, адкрыйце GitHub issue з пазнакай часу запуску і версіяй рухавіка, якая вяртаецца ў метаданых адказу.

Абмежаванні і будучыя працы

Чатыры абмежаванні патрабуюць асобнага прызнання: памер выбаркі, ацэнка за адзін раз, абмежаванне адным рухавіком і паходжанне даных з адной крыніцы. Кожнае з іх ужо разглядаецца ў актыўнай наступнай працы.

Памер выбаркі. Пятнаццаць кейсаў па васьмі спецыялізаваных катэгорыях дастаткова для proof of concept, але недастаткова для аналізу падгруп у межах адной спецыяльнасці. Плануецца пашырэнне да пяцідзесяці кейсаў, якія будуць уключаць каагуляцыйныя панэлі, скрынінг на гематалагічныя злаякасныя новаўтварэнні, панэлі для цяжарнасці і педыятрычныя выпадкі.

Ацэнка за адзін раз. Кожны кейс быў ацэнены адзін раз. Вялікія моўныя мадэлі дэманструюць істотную варыябельнасць вываду нават пры нізкай тэмпературы выбаркі, таму шматразовы пратакол з пяццю ацэнкамі на кейс і паведамленай варыябельнасцю — натуральны наступны крок.

Абмежаванне адным рухавіком. Гэтая справаздача характарызуе адзін рухавік. Параўнальныя аналізы з альтэрнатыўнымі сістэмамі AI тут не ўваходзяць у абсяг; магчыма, мы правядзем іх як асобнае незалежнае даследаванне з адпаведнай методыкай.

Паходжанне даных з адной крыніцы. Пятнаццаць кейсаў — гэта ананімізаваныя рэальныя медыцынскія запісы пацыентаў, узятыя з адной клінічнай базы даных. Яны ўяўляюць сабой адабраную выбарку і не з’яўляюцца выпадковым выбарам, які адпавядае папуляцыі. Пашырэнне ацэнкі да шматцэнтравых даных знаходзіцца ў дарожнай карце.

Найбольш уплывовае запланаванае пашырэнне — парнасць па мовах. AI Engine Kantesti абслугоўвае карыстальнікаў на 75+ мовах, і запуск таго ж каркаса з пяцідзесяці? (пятнаццаці) кейсаў у турэцкай, нямецкай, іспанскай, французскай і арабскай мовах дазволіць колькасна ацаніць якасць вываду на падтрымоўваных рухавіком мовах. Мы апублікуем кожны моўны запуск з уласным DOI і галінай каркаса.

Паспрабуйце той самы рухавік, які дасягнуў 99.12% кампазітнага бала

Загрузіце ўласную панэль аналізу крыві ў тую ж вытворчую канчатковую кропку (endpoint), якая была ацэненая ў гэтым бенчмарку. Больш за 2 мільёны карыстальнікаў па ўсім свеце выкарыстоўваюць Kantesti AI Engine, каб расшыфроўваць больш за 15,000 біямаркераў на 75+ мовах.

🔬 Паспрабуйце бясплатную дэма-версію

Пашырэнне Chrome Крама праграм Google Play

📚 Як цытаваць гэты бенчмарк

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Клінічная валідацыя Kantesti AI Engine (2.78T)
                 на 15 ананімізаваных выпадках аналізу крыві: папярэдне зарэгістраваны
                 бенчмарк на аснове рубрыкі, які ўключае пастку гіпердыягностыкі
                 для выпадкаў у сямі медыцынскіх спецыяльнасцях},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Клінічная валідацыя Kantesti AI Engine (2.78T) на 15 ананімізаваных выпадках аналізу крыві: папярэдне зарэгістраваны бенчмарк на аснове рубрыкі, які ўключае пастку гіпердыягностыкі для выпадкаў у сямі медыцынскіх спецыяльнасцях (Technical Report V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Спадарожныя працы па валідацыі Kantesti

Klein, T. (2025). Клінічная сістэма праверкі інтэрпрэтацыі аналізаў крыві з дапамогай штучнага інтэлекту: метадалогія патройнай сляпой праверкі, паказчыкі эфектыўнасці і пратаколы забеспячэння якасці. Медыцынскія даследаванні AI Kantesti.

🎓 ResearchGate

📖 Знешнія метадалагічныя спасылкі

Mentzer, W. C. (1973). Адрозненне дэфіцыту жалеза ад прыкметы таласеміі. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Класіфікацыйныя крытэрыі Еўрапейскай лігі супраць рэўматызму / Амерыканскага каледжа рэўматалогіі для сістэмнага чырвонага ваўчанку (2019). Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Тэст на галюцынацыі ў медыцынскай дамене для вялікіх моўных мадэляў. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Кампазітны бал

15Ацэненыя выпадкі

7Спецыяльнасці

0Пастка ілжывых спрацоўванняў

Часта задаваныя пытанні

Насколько дакладны Kantesti AI Engine на рэальных выпадках аналізу крыві?

На папярэдне зарэгістраванай рубрыцы з 15 ананімізаваных рэальных выпадкаў аналізу крыві ў сямі медыцынскіх спецыяльнасцях Kantesti AI Engine V11 дасягнуў кампазітнага бала 99.12 працэнта, з нулявымі ілжывымі спрацоўваннямі гіпердыягностыкі як у пасткавых выпадках, так і з сярэдняй затрымкай адказу 20.17 секунды. Поўная табліца балаў па кожным выпадку апублікавана на Figshare пад DOI 10.6084/m9.figshare.32095435 і на GitHub пад ліцэнзіяй MIT.

Ці прайшоў Kantesti AI Engine клінічную валідацыю?

Так. Двiгатель быў клінічна правераны ў адпаведнасці з рубрыкай, якая была замарожана ў зыходным кодзе да таго, як быў выкліканы рухавік, і ацэнена на 15 ананімізаваных выпадках аналізаў крыві ў гематалогіі, эндакрыналогіі, метабалічнай медыцыне, гепаталогіі, нефралогіі, кардыялогіі і рэўматалогіі. Клінічны нагляд ажыццяўляў доктар Томас Кляйн, доктар медыцынскіх навук (ORCID 0009-0009-1490-1321), сертыфікаваны клінічны гематолаг і галоўны медыцынскі дырэктар у Kantesti AI.

Што такое выпадак «гіпердыягнастычнай пасткі»?

«Пастка гіпердыягностыкі» — гэта клінічны сцэнар, спецыяльна распрацаваны для выяўлення паводзін з празмернай дыягностыкай у AI-рухавіках. Бенчмарк Kantesti V11 выкарыстоўвае два такія выпадкі. Першы — ізаляваная ўскосная гіпербілірубінемія, якая адпавядае сіндрому Гілберта, дзе правільная інтэрпрэтацыя — дабраякасны палімарфізм UGT1A1, а не гепатыт або гемоліз. Другі — цалкам нармальная дарослая скрынінгавая панэль, дзе правільны вынік — супакаенне і падтрымка ладу жыцця, а не «сфабрыкаваная» пагранічная паталогія.

Ці можна паўтарыць ацэнку Kantesti AI Engine?

Поўны ацэначны «harness» (платформа для ацэнкі) выдаецца па ліцэнзіі MIT як адзін самадастатковы модуль Python. Для паўтарэння патрэбныя толькі пары ўліковых дадзеных API Kantesti і Python 3.10 або пазней. Код, вызначэнні выпадкаў і кожны сыры адказ рухавіка з эталоннага запуску за красавік 2026 даступныя на github.com/emirhanai/kantesti-blood-test-benchmark і адлюстраваныя на Figshare, ResearchGate і Academia.edu.

Як Kantesti AI Engine адрознівае дэфіцыт жалеза ад прыкметы бэта-таласеміі?

Рухавік прымяняе індэкс Ментзера, разлічаны як сярэдні аб’ём эрытрацытаў, падзелены на колькасць эрытрацытаў. Індэкс Ментзера вышэй за 13 падтрымлівае жалезадэфіцытную анемію, а значэнне ніжэй за 13 — прыкмету бэта-таласеміі. У бенчмарку V11 абодва варыянты былі класіфікаваныя правільна з відавочным разлікам індэкса Ментзера, што падтрымліваецца кантэкстам ферытыну, RDW і HbA2.

Дзе я магу знайсці зыходныя даныя для параўнальных паказчыкаў і зыходны код?

Тэхнічны справаздачны даклад размешчаны на Figshare пад DOI 10.6084/m9.figshare.32095435, адлюстраваны на публікацыі ResearchGate 404175463 і артыкуле Academia.edu 165956808, а таксама «harness» на Python з ліцэнзіяй MIT з усімі вынікамі эталоннага запуску даступны на github.com/emirhanai/kantesti-blood-test-benchmark. Сетка люстэркаў на чатырох платформах забяспечвае доўгатэрміновую даступнасць і гнуткасць цытавання.

Чаму важная папярэдняя рэгістрацыя для AI-медыцынскіх бенчмаркаў?

Папярэдняя рэгістрацыя прадухіляе «постфактум» наладку рубрыкі, што з’яўляецца адным з самых распаўсюджаных спосабаў, як бенчмаркі, якія праводзяцца кампаніямі, штучна павялічваюць свае ўласныя паказчыкі. Калі рубрыку фіксуюць у зыходным кодзе да любога выкліку рухавіка і публікуюць «harness» публічна, даты аўтара рубрыкі становяцца правяральнымі ў сістэме кіравання версіямі, і вынікі рухавіка не маглі паўплываць на крытэрыі ацэнкі.

Ці ўключае гэты бенчмарк параўнанні з іншымі AI-рухавікамі?

Не. Справаздача V11 наўмысна характарызуе адзін рухавік адносна фіксаванай рубрыкі, а не размяшчае яго ў параўнанні з альтэрнатыўнымі камерцыйнымі сістэмамі. «Harness» з адкрытым зыходным кодам пад ліцэнзіяй MIT, таму незалежныя даследчыкі могуць ацэньваць любы рухавік, які яны выберуць, адносна тых жа пятнаццаці выпадкаў і рубрыкі, і публікаваць свае вынікі.

Ці рэальныя выпадкі пацыентаў або сінтэтычныя?

Пятнаццаць выпадкаў — гэта ананімізаваныя сапраўдныя медыцынскія запісы пацыентаў, узятыя з клінічнага рэпазітара даных Kantesti па пісьмовай інфармаванай згоды. Дэідэнтыфікацыя выконвалася па падыходзе Safe Harbor, пры гэтым усе прамыя ідэнтыфікатары былі выдалены або заменены. Апрацоўка праводзілася ў адпаведнасці са Статутам GDPR артыкул 9(2)(j) і адпаведнымі палажэннямі UK GDPR. Ніякая асабістая ідэнтыфікацыйная інфармацыя не прысутнічае ў апублікаваным «harness», тэхнічным дакладзе або ў выпушчаных наборах даных.

⚕️ Медыцынскае папярэджанне і канфлікт інтарэсаў

Гэты справаздачны даклад бенчмарка прызначаны для даследчых і метадалагічных мэтаў празрыстасці. Ён не з’яўляецца медыцынскай парадай. Заўсёды кансультуйцеся з кваліфікаваным медыцынскім спецыялістам для прыняцця рашэнняў адносна дыягностыкі і лячэння. Абодва аўтары працуюць у Kantesti Ltd і маюць долю ўласнасці ў гэтай кампаніі, а рухавік, які ацэньваецца, з’яўляецца камерцыйным прадуктам той жа арганізацыі. Гэты канфлікт інтарэсаў змякчаецца шляхам папярэдняй рэгістрацыі рубрыкі ў зыходным кодзе, выпуску «harness» пад ліцэнзіяй MIT і публікацыі кожнага сырага адказу рухавіка.

Сігналы даверу E-E-A-T

⭐

Вопыт

15+ гадоў клінічнай практыкі ў гематалогіі і лабараторнай медыцыне, з наглядам за адборнай панэллю выпадкаў.

📋

Экспертыза

Дызайн рубрыкі, зарэгістраваны загадзя, з відавочнымі штрафамі за гіпердыягностыку і прызнанымі клінічнымі сістэмамі ацэнкі (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Аўтарытэтнасць

Галоўны аўтар доктар Томас Кляйн, доктар медыцынскіх навук (ORCID 0009-0009-1490-1321). Укараненне — Джуліан Эмірхан Булут, генеральны дырэктар Kantesti Ltd.

🛡️

Надзейнасць

«Harness» для паўтарэння з ліцэнзіяй MIT, апублікаваныя сырыя адказы рухавіка, адкрытае раскрыццё канфлікту інтарэсаў, сетка даследчых люстэркаў на чатырох платформах.

🏢 ТАА «Кантэсці» Зарэгістравана ў Англіі і Уэльсе · Кампанія №. 17090423 Лондан, Вялікабрытанія · kantesti.net