Чаму існуе гэты эталон і што ён правярае
AI-дапамога ў расшыфроўцы аналізу крыві ўсё часцей выкарыстоўваецца ў спажывецкіх і клінічных працоўных працэсах, аднак паўтаральныя ацэначныя рамкі, адаптаваныя пад лабараторную медыцыну, застаюцца рэдкасцю. Пытанні, якія найбольш важныя ў гэтай сітуацыі, — не тыя, што ахоплены агульнымі бенчмаркамі для медыцынскага пытанне-адказу: ці можа рухавік адрозніць жалезадэфіцыт ад прыкмет таласеміі, калі сярэдні аб’ём эрытрацытаў ідэнтычны, ці не ставіць ён лішні дыягназ сіндрому Жыльбера як гепатыт, і ці «стварае» ён паталогію ў цалкам нармальнай скрынінгавай панэлі?
А адзінкавая панэль аналізу крыві звычайна змяшчае дастаткова сігналу, каб падтрымліваць некалькі канкуруючых інтэрпрэтацый, і задача ўрача, які інтэрпрэтуе, — узважваць гэтыя інтэрпрэтацыі адна супраць адной, а не шукаць падручнікавы адказ. Двiгатель, які добра спраўляецца з падручнікавымі кейсамі, усё яшчэ можа праваліцца ў тых выпадках, якія найбольш важныя: у пастках дыферэнцыяльнай дыягностыкі, у дабраякасных варыянтах, якія ў ізаляцыі выглядаюць трывожна, і ў цалкам нармальных панэлях, што спакушаюць упэўненых асістэнтаў выдумляць паталогію.
Гэты бенчмарк быў пабудаваны менавіта вакол такіх рэжымаў памылкі. Кожны з пятнаццаці кейсаў быў адабраны з улікам пэўнай дыягнастычнай уласцівасці: мікрацытоз пры дэфіцыце жалеза, які трэба адрозніваць ад прыкметы бэта-таласеміі з ідэнтычным сярэднім аб’ёмам эрытрацытаў, клінічная карціна сіндрому Гілберта, дзе адзіная анамалія — ізаляваная непрамяя гіпербілірубінемія, і панэль скрынінгу на пятнаццаць параметраў, у якой кожны аналізатар знаходзіцца ў межах свайго даведачнага дыяпазону. Рубрыка ўзнагароджвае рухавікі, якія чытаюць кожны кейс у яго ўласных умовах, і карае рухавікі, якія прыходзяць да ўпэўненага дыягназу там, дзе такая дыягностыка не абгрунтаваная.
Як Томас Кляйн, доктар медыцынскіх навук, я выбраў панэль кейсаў, бо менавіта гэтыя шаблоны часцей за ўсё памыляюцца ў асістэнтах лабараторнай медыцыны. Дарагая памылка — гэта не "прапусціць рэдкую хваробу"; гэта вырабляць звычайную паталогію ў пацыентаў, у якіх яе няма. Наш Медыцынская праверка hub апісвае шырэйшую рамку; гэтая старонка апісвае яе прыкладны вынік для рухавіка V11.
Апошні эталонны запуск — V11 (красавік 2026)
Даведачны прагон за красавік 2026 для Kantesti AI Engine V11 даў сукупны бал 99.12% па папярэдне зарэгістраванай рубрыцы з пятнаццаццю кейсамі. Абодва кейсы-пасткі гіпердыягностыкі набралі максімум. Індэкс Ментцэра быў ужыты правільна ў дыферэнцыяцыі дэфіцыту жалеза супраць таласеміі.
Сукупная формула аб’ядноўвае тры кампаненты: структурнае адпаведнасць з сямю абавязковымі раздзеламі справаздачы і шаснаццаццю абавязковымі падраздзеламі, клінічная дакладнасць вымераная як успамін па ключавых словах плюс успамін па сістэме ацэнкі плюс праверка сапраўднасці размеркавання верагоднасцяў, і затрымка адказу адносна асноўнай мэты па ўзроўні сэрвісу 20 секунд. Дакладная разбіўка паказана ў формуле рубрыкі ніжэй.
Астатнія 0,88 працэнтнага пункта запасу амаль цалкам раскладаюцца на страту з-за затрымкі — тры запасныя выклікі Phase 2 з узаемазвязаным унёскам па -0,05 кожны дадалі прыкладна 0,60 з дэфіцыту ў 0,88 пункта — а не ў клінічны кантэнт. Рухавік не прапусціў правільны дыягназ ні ў адным з пятнаццаці выпадкаў; там, дзе ён не дацягнуў, гэта было з-за таго, што ў невялікай меншасці выклікаў ён працаваў крыху даўжэй за першасную мэта ў 20 секунд.
Пятнаццаць выпадкаў па сямі медыцынскіх спецыяльнасцях
Панэль выпадкаў ахоплівае сем спецыяльнасцей — гематалогію, эндакрыналогію, метабалічную медыцыну, гепаталогію, нефралогію, кардыялогію, рэўматалогію — а таксама два спецыяльна прызначаныя выпадкі-пасткі для гіпердыягностыкі. Кожны выпадак — гэта ананімізаваная рэальная медыцынская карта пацыента, узятая з рэпазітара клінічных даных Kantesti на падставе пісьмовай інфармаванай згоды.
Дэідэнтыфікацыя была выканана па падыходзе Safe Harbor: усе прамыя ідэнтыфікатары былі выдалены або заменены, і кожнаму запісу прысвоены ўнутраны эталонны код выпадку ў фармаце BT-NNN-LABEL. Апрацоўка выконвалася ў адпаведнасці з GDPR артыкул 9(2)(j) для навуковых даследаванняў з адпаведнымі гарантыямі, а таксама з эквівалентнымі палажэннямі UK GDPR. Ніводная персанальна ідэнтыфікуючая інфармацыя не сустракаецца ні ў апублікаваным стендзе, ні ў тэхнічным справаздачы, ні ў выпушчаных наборах даных.
Чаму менавіта такое размеркаванне
Гематалогія атрымлівае тры кейсы, бо мікрацытарныя дыферэнцыялы і макрацытарныя дыферэнцыялы — гэта пасткі з найбольшай частатой у рэальнай лабараторнай практыцы. Эндакрыналогія атрымлівае тры, бо праявы хваробы Хашымота, СПКЯ і дэфіцыту вітаміну D фармуюць розныя дыягнастычныя «формы» (правадзяцца аутаантыцеламі, каэфіцыентамі гармонаў, адным маркерам). Адзіночныя спецыялізацыі ўсё яшчэ маюць сэнс, бо кожная з ХБП, рызыкі ASCVD і СКВ мае ўласную сістэму ацэньвання, якую рухавік павінен выклікаць (стадзіраванне KDIGO, 10-гадовая рызыка ASCVD, крытэрыі 2019 EULAR/ACR для СКВ адпаведна).
Папярэдне зарэгістраваныя крытэрыі (rubric), растлумачаныя
Папярэдняя рэгістрацыя — адзінае найбольш важнае метадалагічнае рашэнне ў гэтым бенчмарку. Кожная чаканая дыягностыка, кожная клінічная сістэма ацэньвання і кожны раздзел справаздачы былі зафіксаваныя ў зыходным кодзе перш чым рухавік быў выкліканы. Такім чынам, постфактумная налада рубрыкі, каб «падладзіць» рухавік, немагчыма.
Тры кампаненты складаюць сукупны бал. структурны кампанент уносіць 35 працэнтаў і вымярае, ці вярнуў рухавік сем абавязковых раздзелаў справаздачы (загаловак, кароткі змест, ключавыя знаходкі, дыферэнцыялы, сістэмы ацэньвання, рэкамендацыі, назіранне) і шаснаццаць абавязковых падраздзелаў у іх. Наяўнасць раздзелаў важыць 40 працэнтаў, а наяўнасць падраздзелаў — 60 працэнтаў у межах структурнага разліку.
Гэты клінічны кампанент уносіць 55 працэнтаў і аб’ядноўвае тры рэчы: адклік па дыягназных ключавых словах (70 працэнтаў клінічнай падацэнкі), адклік па сістэмах ацэньвання (20 працэнтаў — ці вылічвае рухавік Mentzer, FIB-4, HOMA-IR, рызыку ASCVD, стадыраванне KDIGO, крытэрыі EULAR/ACR, калі гэта дарэчы), і праверку валіднасці сумы верагоднасцяў (10 працэнтаў — дыферэнцыяльныя верагоднасці павінны скласціся ў межах інтэрвалу [90, 110]). Для кейсаў-пастак ужываецца відавочны штраф за гіпердыягностыку да 0.30, які аднімаецца, разлічаны як 0.10 за кожны сфабрыкаваны сцяг паталогіі, з абмежаваннем да трох сцяжкоў.
Гэты кампанент затрымкі уносіць 10 працэнтаў. Адказ менш чым за 20 секунд атрымлівае поўныя 0.10, адказ менш чым за 40 секунд — 0.05, а ўсё, што павольней, — нуль. Мэта ў 20 секунд адлюстроўвае вытворчую мэту ўзроўню сэрвісу для асноўнага primary-path; столь у 40 секунд адлюстроўвае бюджэт запасу Phase 2 для цяжкіх выклікаў рухавіка.
Што папярэдняя рэгістрацыя прадухіляе
Першасныя бенчмаркі вядомыя тым, што раздуваюць уласныя лічбы праз постфактумную наладу рубрыкі. Узор амаль заўсёды аднолькавы: каманда запускае рухавік, бачыць, дзе ён недаацэньвае, а потым ціха карэктуе рубрыку так, каб недаацэненыя вобласці ўлічваліся менш. Калі зафіксаваць рубрыку ў зыходным кодзе да першага выкліку рухавіка і апублікаваць хэйрнэс пад ліцэнзіяй MIT, гэтая карэкцыя становіцца бачнай у сістэме кантролю версій. Любая асоба можа кланаваць рэпазіторый, праверыць даты аўтарства рубрыкі і пераканацца, што вынікі рухавіка не выкарыстоўваліся для фармавання ацэнкі.
Пасткі гіпердыягностыкі — чаму празмернае «закліканне» (over-calling) з’яўляецца сапраўдным рэжымам збою
Агрэсыўнае празмернае «прызначэнне» паталогіі на нармальных скрынінгах — задокументаваны рэжым збою спажывецкіх медыцынскіх асістэнтаў. Яго наступныя выдаткі ўключаюць непатрэбнае абследаванне, трывожнасць пацыента і ятрагенную (пабочную) дыягнастычную/лячэбную праверку. Два кейсы-пасткі ў гэтым бенчмарку распрацаваны, каб зрабіць гэты рэжым збою бачным і ацэнюемым.
🟡 Пастка 1 — BT-014-GILBERT
Прадстаўленне. Мужчына 24 гадоў з агульным білірубіну 2.4 мг/дл. Прамое фракцыя нармальная, трансаміназы і шчолачная фасфатаза знаходзяцца ў межах сваіх даведачных дыяпазонаў, ретыкулоциты нічым не вылучаюцца, а гаптаглабін і LDH выключаюць гемоліз.
Правільная інтэрпрэтацыя. Сіндром Гілберта — дабраякасны палімарфізм UGT1A1. Інтэрпрэтацыя не павінна выклікаць гепатыт, цыроз, гемалітычную анемію або біліярную абструкцыю.
Вынік V11. Сукупны 1.000. Ні адзін з шасці кантраляваных сцяжкоў празмернай дыягностыкі не з’явіўся як актыўны дыягназ.
🟡 Пастка 2 — BT-015-HEALTHY
Прадстаўленне. Жанчына 35 гадоў з пятнаццаціпараметровай звычайнай панэллю скрынінгу. Кожны аналізат знаходзіцца зручна ў межах свайго даведачнага дыяпазону.
Правільная інтэрпрэтацыя. Пацверджанне і падтрымка здаровага ладу жыцця. Расшыфроўка не павінна выдумляць пагранічную паталогію, каб выглядаць клінічна карыснай.
Вынік V11. Кампазіт 1.000. Ні адзін з сямі кантраляваных сцяжкоў гіпердыягностыкі — дыябет, анемія, гіпатырэёз, дысліпідэмія, гепатыт, хвароба нырак, дэфіцыт — не з’явіўся як актыўны дыягназ.
Праз абодва пасткі было праверана трынаццаць кантраляваных сцяжкоў гіпердыягностыкі. Нічога не спрацавала. Гэта вынік, які найбольш важны для любога клініцыста, які разглядае выкарыстанне AI-рухавіка як інструмента трыяжу або перадкансультацыйнай ацэнкі: сістэма не вынайшла хваробу там, дзе яе не было.
Індэкс Ментзера: адрозненне дэфіцыту жалеза ад прыкметы таласеміі
Другі вынік высокай каштоўнасці датычыцца спалучэння кейса BT-001 (жалезадэфіцытная анемія) з кейсам BT-007 (бэта-таласемія малая). Абодва станы праяўляюцца мікрацытозам і з’яўляюцца добра вядомай перашкодай для наіўных класіфікатараў. Індэкс Ментцэра, разлічаны як MCV, падзелены на колькасць RBC, перавышае 13 пры жалезадэфіцыце і падае ніжэй за 13 пры прыкметах таласеміі.
У BT-001 пацыенткай была 34-гадовая жанчына з гемаглабінам 10.4 г/дл, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферытын 6 нг/мл і павышаным TIBC. Індэкс Ментцэра прыкладна 17.7 падтрымлівае абсалютны жалезадэфіцыт. У BT-007 пацыент быў 28-гадовым мужчынам з мікрацытозам (MCV 65.8 фл), але з высокай колькасцю RBC 6.2, нармальным RDW, нармальным ферытыном і HbA2 5.6 працэнта. Індэкс Ментцэра прыкладна 10.6 паказвае на прыкметы таласеміі, а павышаны HbA2 пацвярджае бэта-таласемію малую.
Абодва кейсы набралі 1.000. Рухавік выкарыстаў індэкс Ментцэра экспліцытна ў абодвух інтэрпрэтацыях і вярнуў правільны дыягназ у кожным выпадку. Гэта адзіны найбольш клінічна заспакойваючы вынік ва ўсім бенчмарку, бо памылковае класіфікаванне прыкмет таласеміі як жалезадэфіцыту прыводзіць да неадпаведнага прызначэння прэпаратаў жалеза і да прапушчаных магчымасцяў сямейнага скрынінгу, а памылковае класіфікаванне жалезадэфіцыту як таласеміі затрымлівае простую замяшчальную тэрапію. Наша дыяпазон для ферытыну тлумачыць шырэйшы дыферэнцыяльны кантэкст.
Выніковыя вынікі па кожным выпадку з запуску за красавік 2026 года
Дванаццаць з пятнаццаці кейсаў дасягнулі верхняй мяжы кампазітнага бала 1.000 па асноўным шляху. Тры кейсы былі апрацаваны праз рэзервовы механізм Phase 2, страціўшы бонус да латэнтнасці 0.05, але захаваўшы ўвесь клінічны і структурны змест. Адзін кейс не меў аднаго абавязковага падраздзелу; адзін вярнуў маргінальна зніжаную суму размеркавання верагоднасцяў.
Справа з ПКЯ (BT-008) страціла адну абавязковую падраздзел у структуры адказу — пятнаццаць з шаснаццаці замест шаснаццаці з шаснаццаці — што знізіла структурны бал з 1.000 да 0.963. Справа з СКВ (BT-011) вярнула нязначна зніжаную суму верагоднасна-размеркаваных значэнняў, якая знізіла клінічны бал да 0.965, пры гэтым захаваўшы кожны дыягнастычны ключавы тэрмін і сістэму ацэнкі. Ні адна з дзвюх спраў з недахопам не прапусціла правільны дыягназ.
Што не паведамляе нам загалоўны бал
Састаўны бал 99.12 працэнта па дадзенай канкрэтнай загадзя зарэгістраванай рубрыцы азначае амаль максімальную прадукцыйнасць, але гэта патрабуе ўважлівага акрэслення. Вынік апісвае паводзіны рухавіка ў параўнанні з пятнаццаццю старанна адабранымі ананімізаванымі выпадкамі, ацэненымі па адным разе кожны, па адной рубрыцы. Мы дакладна тлумачым, што гэтая лічба робіць і чаго не ўстанаўлівае.
Бал паказвае, што рухавік V11 апрацаваў дыягнастычныя ўзоры, адабраныя для гэтай ацэнкі, правільна, на метадалогіі, якая апублікаваная і якую можна паўтарыць. Гэта не азначае, што рухавік правільны для кожнай панэлі аналізу крыві, якая існуе ў рэальным свеце. Гэта не азначае, што рухавік павінен замяняць меркаванне клініцыста. І гэта не азначае, што рухавік пераўзыходзіць альтэрнатыўныя сістэмы AI — параўнальныя аналізы з іншымі рухавікамі свядома не ўваходзілі ў межы гэтага справаздачы.
Тое, што гэты бал сапраўды ўстанаўлівае, — гэта базавы ўзровень. Калі рубрыка і апарат (harness) будуць публічнымі, будучыя версіі рухавіка можна будзе ацэньваць у параўнанні з тымі ж пятнаццаццю выпадкамі, а розніца паміж апублікаваным балам і любым наступным запускам — гэта таксама можна вымераць. Вось у чым каштоўнасць загадзя рэгістрацыі: яна пераўтварае сцвярджэнні аб прадукцыйнасці ў правяральныя сцвярджэнні.
Як паўтарыць гэты бенчмарк за 10 хвілін
Для паўтарэння патрэбна толькі пара ўліковых дадзеных API Kantesti і асяроддзе Python 3.10 або пазнейшае з requests і reportlab бібліятэкі, усталяваныя. Поўны апарат — гэта адзін адзіны самадастатковы модуль Python, выпушчаны пад ліцэнзіяй MIT.
Чатыры крокі для новага запуску
Адзін. Кланіруйце рэпазіторый: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Усталюйце залежнасці з pip install -r requirements.txt. Тры. Усталюйце KANTESTI_USERNAME і KANTESTI_PASSWORD як зменныя асяроддзя — уліковыя даныя чытваюцца падчас выканання, і ў скрыпце нічога не зашыта. Чатыры. Запусціце python benchmark_bloodtest.py і агледзьце чатыры артэфакты, якія будуць створаны ў працоўнай дырэкторыі: CSV scorecard, JSON scorecard, поўны JSON-дамп, уключаючы сырыя адказы рухавіка, і зручны для чытання Markdown-справаздачу.
Даведачны запуск ад 23 красавіка 2026 года захаваны ў results/ дырэкторыі рэпазіторыя. Новы запуск створыць новы scorecard з пазнакай часу, не змяняючы даведачны запуск. Калі ваш запуск дае істотна іншы вынік, калі ласка, адкрыйце GitHub issue з пазнакай часу запуску і версіяй рухавіка, якая вяртаецца ў метаданых адказу.
Абмежаванні і будучыя працы
Чатыры абмежаванні патрабуюць асобнага прызнання: памер выбаркі, ацэнка за адзін раз, абмежаванне адным рухавіком і паходжанне даных з адной крыніцы. Кожнае з іх ужо разглядаецца ў актыўнай наступнай працы.
Памер выбаркі. Пятнаццаць кейсаў па васьмі спецыялізаваных катэгорыях дастаткова для proof of concept, але недастаткова для аналізу падгруп у межах адной спецыяльнасці. Плануецца пашырэнне да пяцідзесяці кейсаў, якія будуць уключаць каагуляцыйныя панэлі, скрынінг на гематалагічныя злаякасныя новаўтварэнні, панэлі для цяжарнасці і педыятрычныя выпадкі.
Ацэнка за адзін раз. Кожны кейс быў ацэнены адзін раз. Вялікія моўныя мадэлі дэманструюць істотную варыябельнасць вываду нават пры нізкай тэмпературы выбаркі, таму шматразовы пратакол з пяццю ацэнкамі на кейс і паведамленай варыябельнасцю — натуральны наступны крок.
Абмежаванне адным рухавіком. Гэтая справаздача характарызуе адзін рухавік. Параўнальныя аналізы з альтэрнатыўнымі сістэмамі AI тут не ўваходзяць у абсяг; магчыма, мы правядзем іх як асобнае незалежнае даследаванне з адпаведнай методыкай.
Паходжанне даных з адной крыніцы. Пятнаццаць кейсаў — гэта ананімізаваныя рэальныя медыцынскія запісы пацыентаў, узятыя з адной клінічнай базы даных. Яны ўяўляюць сабой адабраную выбарку і не з’яўляюцца выпадковым выбарам, які адпавядае папуляцыі. Пашырэнне ацэнкі да шматцэнтравых даных знаходзіцца ў дарожнай карце.
Найбольш уплывовае запланаванае пашырэнне — парнасць па мовах. AI Engine Kantesti абслугоўвае карыстальнікаў на 75+ мовах, і запуск таго ж каркаса з пяцідзесяці? (пятнаццаці) кейсаў у турэцкай, нямецкай, іспанскай, французскай і арабскай мовах дазволіць колькасна ацаніць якасць вываду на падтрымоўваных рухавіком мовах. Мы апублікуем кожны моўны запуск з уласным DOI і галінай каркаса.