Чаму існуе гэты эталон і што ён правярае

AI-дапамога ў расшыфроўцы аналізу крыві ўсё часцей выкарыстоўваецца ў спажывецкіх і клінічных працоўных працэсах, аднак паўтаральныя ацэначныя рамкі, адаптаваныя пад лабараторную медыцыну, застаюцца рэдкасцю. Пытанні, якія найбольш важныя ў гэтай сітуацыі, — не тыя, што ахоплены агульнымі бенчмаркамі для медыцынскага пытанне-адказу: ці можа рухавік адрозніць жалезадэфіцыт ад прыкмет таласеміі, калі сярэдні аб’ём эрытрацытаў ідэнтычны, ці не ставіць ён лішні дыягназ сіндрому Жыльбера як гепатыт, і ці «стварае» ён паталогію ў цалкам нармальнай скрынінгавай панэлі?

Дыяграма патоку папярэдне зарэгістраванай рубрыкі, якая паказвае, як Kantesti AI Engine — V11 Second Update, 99.80% кампазітны бал на 100 000 выпадкаў — ацэньваецца адносна замарожаных крытэрыяў ацэньвання
Малюнак 1: Базавая архітэктура эталону, якая стаіць за 99.80% кампазітны бал у V11 Другім абнаўленні кагорты на 100 000 выпадкаў — кожны выпадак, кожнае ключавое слова, кожная сістэма ацэнкі зафіксаваныя ў зыходным кодзе яшчэ да таго, як рухавік убачыць хо адзін PDF, а рубрыка байт-у-байт ідэнтычная першапачатковаму выпуску V11. Пасляфактум наладка рубрыкі немагчыма па вызначэнні.

А адзінкавая панэль аналізу крыві звычайна змяшчае дастаткова сігналу, каб падтрымліваць некалькі канкуруючых інтэрпрэтацый, і задача ўрача, які інтэрпрэтуе, — узважваць гэтыя інтэрпрэтацыі адна супраць адной, а не шукаць падручнікавы адказ. Двiгатель, які добра спраўляецца з падручнікавымі кейсамі, усё яшчэ можа праваліцца ў тых выпадках, якія найбольш важныя: у пастках дыферэнцыяльнай дыягностыкі, у дабраякасных варыянтах, якія ў ізаляцыі выглядаюць трывожна, і ў цалкам нармальных панэлях, што спакушаюць упэўненых асістэнтаў выдумляць паталогію.

Гэты бенчмарк быў пабудаваны менавіта вакол такіх рэжымаў памылкі. Кожны з пятнаццаці кейсаў быў адабраны з улікам пэўнай дыягнастычнай уласцівасці: мікрацытоз пры дэфіцыце жалеза, які трэба адрозніваць ад прыкметы бэта-таласеміі з ідэнтычным сярэднім аб’ёмам эрытрацытаў, клінічная карціна сіндрому Гілберта, дзе адзіная анамалія — ізаляваная непрамяя гіпербілірубінемія, і панэль скрынінгу на пятнаццаць параметраў, у якой кожны аналізатар знаходзіцца ў межах свайго даведачнага дыяпазону. Рубрыка ўзнагароджвае рухавікі, якія чытаюць кожны кейс у яго ўласных умовах, і карае рухавікі, якія прыходзяць да ўпэўненага дыягназу там, дзе такая дыягностыка не абгрунтаваная.

Як Томас Кляйн, доктар медыцынскіх навук, я выбраў панэль кейсаў, бо менавіта гэтыя шаблоны часцей за ўсё памыляюцца ў асістэнтах лабараторнай медыцыны. Дарагая памылка — гэта не "прапусціць рэдкую хваробу"; гэта вырабляць звычайную паталогію ў пацыентаў, у якіх яе няма. Наш Медыцынская праверка hub апісвае больш шырокую рамку; гэтая старонка апісвае першапачатковы proof-of-concept V11 і V11 Другое абнаўленне, якія маштабавалі яго да 100,000 сінтэтычна згенераваных кейсаў, узятых з сінтэтычнага набору кейсаў, што ахоплівае 127 краінавых пазнак — з выкарыстаннем той самай рубрыкі ацэнкі, байт-у-байт, без дазволу на post-hoc наладку.

Апошні эталонны запуск — V11 Другое абнаўленне (26 красавіка 2026)

Эталонны запуск V11 Другога абнаўлення ад 26 красавіка 2026 года даў сукупны бал 99.80% па той самай загадзя зарэгістраванай рубрыцы, што выкарыстоўвалася ў першапачатковым выпуску V11, ацэненай 100,000 сінтэтычныя кейсы узятыя з сінтэтычнага набору кейсаў Kantesti і ахопліваючы 127 краінных мітак і мовы 75+. Кожны выпадак быў завершаны па асноўным шляху рухавіка; актывацыі флага гіпердыягностыкі для trap-выпадкаў заставаліся на 0 / 87,412. Першапачатковы запуск V11 ад 23 красавіка 2026 года ахопліваў 15 уручную адабраных выпадкаў (сукупны 99.12%) і пацвердзіў рубрыку; Другое абнаўленне захоўвае гэтую рубрыку байт-у-байт і пашырае ацэнку да кагорты маштабу насельніцтва.

Сукупны 99.80% 100 000 з 100 000 выпадкаў атрымалі ацэнку
1.000 Структурны бал
0.996 Клінічны бал
13.26 s Сярэдняя затрымка
0 / 87,412 Пасткі ілжывых спрацоўванняў

Сукупная формула аб’ядноўвае тры кампаненты: структурнае адпаведнасць з сямю абавязковымі раздзеламі справаздачы і шаснаццаццю абавязковымі падраздзеламі, дакладнасць змесціва вымераная як успамін па ключавых словах плюс успамін па сістэме ацэнкі плюс праверка сапраўднасці размеркавання верагоднасцяў, і затрымка адказу адносна мэтавага ўзроўню сэрвісу для асноўнага шляху. Дакладнае раскладанне паказана ў формуле рубрыкі ніжэй — ні гэтыя вагі, ні падрубрыкі не былі зменены для Другога абнаўлення.

Сукупны = 0.35 × Структурны + 0.55 × Клінічны + 0.10 × Затрымка

Астатнія 0.20 працэнтных пунктаў запасу амаль цалкам раскладаюцца ў клінічны падбал — невялікая доля выпадкаў (пераважна ў гепаталогіі і рэўматалогіі) мела адсутнае ў інтэрпрэтацыі рухавіка адно чаканае ключавое слова сістэмы ацэнкі, нягледзячы на тое, што дыягнастычны змест быў правільным. Ніводзін выпадак у кагорце Другога абнаўлення на 100 000 выпадкаў не прапусціў сам дыягназ. Латэнтнасць палепшылася з сярэдняга значэння 20.17 s у першапачатковым выпуску V11 да 13.26 s у Другім абнаўленні, што адлюстроўвае аптымізацыі вытворчага рухавіка паміж двума запускмі; рубрыка, код ацэнкі і канчатковая кропка API не зменены.

Пера-міткавыя кампазітныя балы вар’іраваліся ад 0.9971 да 0.9985 па 30 найбольш прадстаўленых краінных мітках. Доўгі хвост з 97 дадатковых мітак (≈7 300 выпадкаў разам) не паказаў сістэматычнай дэградацыі. Найбольш частыя міткі паводле колькасці выпадкаў: Злучаныя Штаты (10 500), Бразілія (9 500), Іспанія (9 000), Італія (8 000), Германія (7 800), Францыя (7 400), Партугалія (5 800), Türkiye (3 400), Вялікабрытанія (2 900) і Мексіка (2 500).

Ад 15 кейсаў да 100,000: эвалюцыя кагорты ў 127 краінавых пазнаках

Першапачатковая панэль кейсаў V11 ахоплівала сем спецыяльнасцей — гематалогію, эндакрыналогію, метабалічную медыцыну, гепаталогію, нефралогію, кардыялогію, рэўматалогію — а таксама два спецыяльна прызначаныя кейсы-пасткі для гіпердыягностыкі, прычым кожны кейс быў сінтэтычна згенераванай панэллю аналізу крыві. Другое абнаўленне V11 пашырае ацэнку да 100,000 сінтэтычна згенераваных кейсаў у 127 краінавых пазнаках, размеркаваных па васьмі спецыяльнасцях (першапачатковыя сем плюс спецыяльны сегмент унутранай медыцыны, які паглынае trap-падмноства). Та самая рубрыка ацэнкі прымяняецца байт-у-байт у абодвух запусках.

Дызайн панэлі выпадкаў V11 (першапачатковы) — пятнаццаць сінтэтычных выпадкаў аналізу крыві па сямі медыцынскіх спецыяльнасцях плюс два выпадкі пасткі гіпердыягностыкі; тая ж рубрыка дасягнула складанага бала 99,80% на 100 000 выпадках у V11 Другім абнаўленні
Малюнак 2: Дызайн першапачатковай панэлі выпадкаў V11 для гематалогіі, эндакрыналогіі, метабалічнай медыцыны, гепаталогіі, нефралогіі, кардыялогіі, рэўматалогіі, а таксама для двух trap-выпадкаў — сіндрому Гілберта і цалкам нармальнай скрынінгавай панэлі. Другое абнаўленне захоўвае гэтую рубрыку байт-у-байт, пашыраючы кагорту да 100 000 выпадкаў, узятых з рэпазітара Kantesti SQL.

Паколькі ўсе кейсы сінтэтычна згенераваныя, няма рэальных ідэнтыфікатараў, якія трэба выдаляць, і не задзейнічаны персанальныя даныя. Кожны сінтэтычны кейс нясе ўнутраны код кейса бенчмарку (BT-NNN-LABEL у першапачатковым наборы V11, устойлівы case_uid у Другім абнаўленні). Нідзе ў апублікаваным каркасе, тэхнічным справаздачным дакуменце або ў выпушчаных датасетах не з’яўляецца персанальная інфармацыя.

першапачатковым выпускам V11 — 15 уручную адабраных выпадкаў

Першапачатковая панэль кейсаў V11 была ўручную адабрана доктарам Томасам Кляйнам, каб адпрацоўваць дыягнастычныя шаблоны, якія часцей за ўсё памыляюцца лабараторныя памочнікі ў галіне медыцыны. Кожны з пятнаццаці кейсаў быў выбраны для пэўнай дыягнастычнай уласцівасці, пералічанай ніжэй.

Гематалогія (3) BT-001, BT-006, BT-007 Жалезадэфіцытная анемія · дэфіцыт вітаміну B12 · малая бэта-таласемія
Эндакрыналогія (3) BT-002, BT-008, BT-012 Тырэяідыт Хасімота · ПКЯ з інсулінарэзістэнтнасцю · цяжкі дэфіцыт вітаміну D
Метабалічная (2) BT-003, BT-013 T2DM з метабалічным сіндромам · гіперурыкемія з рызыкай падагры
Гепаталогія (2) BT-004, BT-009 НАЖБП / НАСГ · востры вірусны гепатыт
Нефралогія · Кардыялогія · Рэўматалогія (3) BT-005, BT-010, BT-011 ХБП стадыя 3 · атерогенная дысліпідэмія · сістэмная чырвоная ваўчанка
Пасткавые выпадкі (2) BT-014, BT-015 Сіндром Гілберта (ізаляваная ўскосная гіпербілірубінемія) · цалкам нармальны дарослы скрынінг

Чаму менавіта такое размеркаванне

Гематалогія атрымлівае тры кейсы, бо мікрацытарныя дыферэнцыялы і макрацытарныя дыферэнцыялы — гэта пасткі з найбольшай частатой у рэальнай лабараторнай практыцы. Эндакрыналогія атрымлівае тры, бо праявы хваробы Хашымота, СПКЯ і дэфіцыту вітаміну D фармуюць розныя дыягнастычныя «формы» (правадзяцца аутаантыцеламі, каэфіцыентамі гармонаў, адным маркерам). Адзіночныя спецыялізацыі ўсё яшчэ маюць сэнс, бо кожная з ХБП, рызыкі ASCVD і СКВ мае ўласную сістэму ацэньвання, якую рухавік павінен выклікаць (стадзіраванне KDIGO, 10-гадовая рызыка ASCVD, крытэрыі 2019 EULAR/ACR для СКВ адпаведна).

V11 Другое абнаўленне — 100,000 сінтэтычна згенераваных кейсаў у 127 краінавых пазнаках

Другое абнаўленне замяняе арыгінальны жорстка закадаваны Python-літэрал з 15 кейсаў V11 на большы набор сінтэтычна згенераваных кейсаў, які ствараецца праграмна. Набор кейсаў загружаецца на пачатку кожнага запуску, а канфігурацыя рэгіструецца для празрыстасці. Размеркаванне кагорты па тэматычных галінах паказана ніжэй.

Эндакрыналогія 23,900 кейсаў (23.9%) Шчытападобная залоза, ПКОС, дэфіцыт вітаміну D, гонадавая вось, гіпофіз
Метабалічная медыцына 21,900 кейсаў (21.9%) ЦД2, метабалічны сіндром, ліпідныя панэлі, гіперурыкемія
Гематалогія 15,400 кейсаў (15.4%) Мікрацытарныя і макрацытарныя дыферэнцыяцыі, B12/фолат, даследаванні жалеза
гепаталогія 12,400 кейсаў (12.4%) НАЖБП/НАСГ, вірусныя гепатыты, FIB-4, халестаз
Унутраная медыцына (у т.л. падмноства trap) 9,000 кейсаў (9.0%) Змешаныя прэзентацыі і 8,723 спецыяльна прызначаныя кейсы пасткі гіпердыягностыкі
Кардыялогія 7,500 кейсаў (7.5%) Рызыка ASCVD, атерогенныя дысліпідэміі, hs-CRP
Рэўматалогія 6,000 кейсаў (6.0%) СКВ, РА, васкуліт, панэлі аутаантыцелаў (крытэрыі EULAR/ACR)
Нефралогія 4,000 кейсаў (4.0%) Стадыяванне ХНН (KDIGO), тэндэнцыі eGFR, парушэнні электралітаў

Размеркаванне сінтэтычных краінных мітак — топ-10 мітак

100 000 сінтэтычных выпадкаў нясуць 127 краінных мітак (ISO 3166-1 alpha-2), каб праверыць апрацоўку лакалі. Прызначэнне мітак: Еўропа 57.7%, Амерыкі 25.4%, Азія-Ціхаакіян 6.2%, названыя міткі Блізкі Усход/Афрыка 3.4% і доўгі хвост з 97 дадатковых мітак прыкладна 7.3% разам. Дзесяць найбольш частых мітак паводле колькасці выпадкаў: Злучаныя Штаты (10 500), Бразілія (9 500), Іспанія (9 000), Італія (8 000), Германія (7 800), Францыя (7 400), Партугалія (5 800), Türkiye (3 400), Вялікабрытанія (2 900) і Мексіка (2 500). Пера-міткавыя кампазітныя балы вар’іраваліся ад 0.9971 да 0.9985. Гэтыя колькасці мітак з’яўляюцца ўласцівасцямі згенераваных выпадкаў, якія выкарыстоўваюцца для праверкі апрацоўкі лакалі — гэта не рэальныя карыстальнікі і не рэальнае геаграфічнае ахопленне.

Папярэдне зарэгістраваныя крытэрыі (rubric), растлумачаныя

Папярэдняя рэгістрацыя — адзінае найбольш важнае метадалагічнае рашэнне ў гэтым бенчмарку. Кожная чаканая дыягностыка, кожная клінічная сістэма ацэньвання і кожны раздзел справаздачы былі зафіксаваныя ў зыходным кодзе перш чым рухавік быў выкліканы. Такім чынам, постфактумная налада рубрыкі, каб «падладзіць» рухавік, немагчыма.

Тры кампаненты складаюць сукупны бал. структурны кампанент уносіць 35 працэнтаў і вымярае, ці вярнуў рухавік сем абавязковых раздзелаў справаздачы (загаловак, кароткі змест, ключавыя знаходкі, дыферэнцыялы, сістэмы ацэньвання, рэкамендацыі, назіранне) і шаснаццаць абавязковых падраздзелаў у іх. Наяўнасць раздзелаў важыць 40 працэнтаў, а наяўнасць падраздзелаў — 60 працэнтаў у межах структурнага разліку.

Гэты клінічны кампанент уносіць 55 працэнтаў і аб’ядноўвае тры рэчы: адклік па дыягназных ключавых словах (70 працэнтаў клінічнай падацэнкі), адклік па сістэмах ацэньвання (20 працэнтаў — ці вылічвае рухавік Mentzer, FIB-4, HOMA-IR, рызыку ASCVD, стадыраванне KDIGO, крытэрыі EULAR/ACR, калі гэта дарэчы), і праверку валіднасці сумы верагоднасцяў (10 працэнтаў — дыферэнцыяльныя верагоднасці павінны скласціся ў межах інтэрвалу [90, 110]). Для кейсаў-пастак ужываецца відавочны штраф за гіпердыягностыку да 0.30, які аднімаецца, разлічаны як 0.10 за кожны сфабрыкаваны сцяг паталогіі, з абмежаваннем да трох сцяжкоў.

Гэты кампанент затрымкі уносіць 10 працэнтаў. Адказ менш чым за 20 секунд атрымлівае поўныя 0.10, адказ менш чым за 40 секунд — 0.05, а ўсё, што павольней, — нуль. Мэта ў 20 секунд адлюстроўвае вытворчую мэту ўзроўню сэрвісу для асноўнага primary-path; столь у 40 секунд адлюстроўвае бюджэт запасу Phase 2 для цяжкіх выклікаў рухавіка.

Тэрмінальны скрыншот «harness» бенчмарка Kantesti з ліцэнзіяй MIT, які запускаецца і выдае балы для кожнага выпадку — той самы «harness», цяпер кіраваны SQL, атрымаў 99.80% кампазітны бал у прагоне на 100 000 выпадкаў Другога абнаўлення V11
Малюнак 3: Выпрабавальны «хайнэс» у выкананні — той самы рухавік, які стварыў 99.80% компазіт у V11 Second Update кагорце на 100,000 кейсаў. Кожны кейс адлюстроўваецца ў A4 PDF, размяшчаецца на вытворчым endpoint V11 і ацэньваецца паводле замарожанай рубрыкі. Second Update дадаў параметрызаваны SQL-загрузчык кейсаў; стратыфікаваны выпадковы выбар сырых адказаў рухавіка (n = 201) захоўваецца разам з агульным scorecard.

Што папярэдняя рэгістрацыя прадухіляе

Першасныя бенчмаркі вядомыя тым, што раздуваюць уласныя лічбы праз постфактумную наладу рубрыкі. Узор амаль заўсёды аднолькавы: каманда запускае рухавік, бачыць, дзе ён недаацэньвае, а потым ціха карэктуе рубрыку так, каб недаацэненыя вобласці ўлічваліся менш. Калі зафіксаваць рубрыку ў зыходным кодзе да першага выкліку рухавіка і апублікаваць хэйрнэс пад ліцэнзіяй MIT, гэтая карэкцыя становіцца бачнай у сістэме кантролю версій. Любая асоба можа кланаваць рэпазіторый, праверыць даты аўтарства рубрыкі і пераканацца, што вынікі рухавіка не выкарыстоўваліся для фармавання ацэнкі.

Пасткі гіпердыягностыкі — чаму празмернае «закліканне» (over-calling) з’яўляецца сапраўдным рэжымам збою

Агрэсыўнае празмернае «прызначэнне» паталогіі на нармальных скрынінгах — задокументаваны рэжым збою спажывецкіх медыцынскіх асістэнтаў. Яго наступныя выдаткі ўключаюць непатрэбнае абследаванне, трывожнасць пацыента і ятрагенную (пабочную) дыягнастычную/лячэбную праверку. Два кейсы-пасткі ў гэтым бенчмарку распрацаваны, каб зрабіць гэты рэжым збою бачным і ацэнюемым.

Параўнанне бок аб бок: наіўны AI, які выдумляе гепатыт на панэлі сіндрому Гілберта, супраць рухавіка Kantesti, які правільна ідэнтыфікуе дабраякасны палімарфізм UGT1A1 — метадалогія, якая маштабавалася да нуля ілжыва-пазітыўных вынікаў на 87 412 магчымасцях флагаў пасткі ў бенчмарку V11 Second Update 99.80%
Малюнак 4: Канструкцыя «trap-case» з першапачатковага выпуску V11 — рухавік, які ўпэўнена маркіруе сіндром Гілберта як гепатыт, або які вырабляе пагранічную паталогію на цалкам нармальным экране, караецца, а не ўзнагароджваецца за гучанне клінічна. Гэтая методыка маштабуецца на 0 / 87,412 ілжывыя спрацоўванні ў запуску V11 Second Update на 100,000 кейсаў, які і даў компазітны бал 99.80%.

🟡 Пастка 1 — BT-014-GILBERT

Прадстаўленне. Мужчына 24 гадоў з агульным білірубіну 2.4 мг/дл. Прамое фракцыя нармальная, трансаміназы і шчолачная фасфатаза знаходзяцца ў межах сваіх даведачных дыяпазонаў, ретыкулоциты нічым не вылучаюцца, а гаптаглабін і LDH выключаюць гемоліз.

Правільная інтэрпрэтацыя. Сіндром Гілберта — дабраякасны палімарфізм UGT1A1. Інтэрпрэтацыя не павінна выклікаць гепатыт, цыроз, гемалітычную анемію або біліярную абструкцыю.

Вынік V11. Сукупны 1.000. Ні адзін з шасці кантраляваных сцяжкоў празмернай дыягностыкі не з’явіўся як актыўны дыягназ.

🟡 Пастка 2 — BT-015-HEALTHY

Прадстаўленне. Жанчына 35 гадоў з пятнаццаціпараметровай звычайнай панэллю скрынінгу. Кожны аналізат знаходзіцца зручна ў межах свайго даведачнага дыяпазону.

Правільная інтэрпрэтацыя. Пацверджанне і падтрымка здаровага ладу жыцця. Расшыфроўка не павінна выдумляць пагранічную паталогію, каб выглядаць клінічна карыснай.

Вынік V11. Кампазіт 1.000. Ні адзін з сямі кантраляваных сцяжкоў гіпердыягностыкі — дыябет, анемія, гіпатырэёз, дысліпідэмія, гепатыт, хвароба нырак, дэфіцыт — не з’явіўся як актыўны дыягназ.

Праз абодва пасткі было праверана трынаццаць кантраляваных сцяжкоў гіпердыягностыкі. Нічога не спрацавала. Гэта вынік, які найбольш важны для любога клініцыста, які разглядае выкарыстанне AI-рухавіка як інструмента трыяжу або перадкансультацыйнай ацэнкі: сістэма не вынайшла хваробу там, дзе яе не было.

Індэкс Ментзера: адрозненне дэфіцыту жалеза ад прыкметы таласеміі

Другі вынік высокай каштоўнасці датычыцца спалучэння кейса BT-001 (жалезадэфіцытная анемія) з кейсам BT-007 (бэта-таласемія малая). Абодва станы праяўляюцца мікрацытозам і з’яўляюцца добра вядомай перашкодай для наіўных класіфікатараў. Індэкс Ментцэра, разлічаны як MCV, падзелены на колькасць RBC, перавышае 13 пры жалезадэфіцыце і падае ніжэй за 13 пры прыкметах таласеміі.

У BT-001 пацыенткай была 34-гадовая жанчына з гемаглабінам 10.4 г/дл, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферытын 6 нг/мл і павышаным TIBC. Індэкс Ментцэра прыкладна 17.7 падтрымлівае абсалютны жалезадэфіцыт. У BT-007 пацыент быў 28-гадовым мужчынам з мікрацытозам (MCV 65.8 фл), але з высокай колькасцю RBC 6.2, нармальным RDW, нармальным ферытыном і HbA2 5.6 працэнта. Індэкс Ментцэра прыкладна 10.6 паказвае на прыкметы таласеміі, а павышаны HbA2 пацвярджае бэта-таласемію малую.

Жалезадэфіцытная анемія Ментцэр > 13 Нізкі ферытын, нізкі TSAT, высокі TIBC, павышаны RDW
Прыкметы бэта-таласеміі Ментцэр < 13 Нармальны ферытын, нармальны RDW, павышаны HbA2 (>3.5%), высокая колькасць RBC

Абодва кейсы набралі 1.000. Рухавік выкарыстаў індэкс Ментцэра экспліцытна ў абодвух інтэрпрэтацыях і вярнуў правільны дыягназ у кожным выпадку. Гэта адзіны найбольш клінічна заспакойваючы вынік ва ўсім бенчмарку, бо памылковае класіфікаванне прыкмет таласеміі як жалезадэфіцыту прыводзіць да неадпаведнага прызначэння прэпаратаў жалеза і да прапушчаных магчымасцяў сямейнага скрынінгу, а памылковае класіфікаванне жалезадэфіцыту як таласеміі затрымлівае простую замяшчальную тэрапію. Наша дыяпазон для ферытыну тлумачыць шырэйшы дыферэнцыяльны кантэкст.

Вынікі па кожным кейсе з першапачатковага эталоннага запуску V11 (23 красавіка 2026)

Арыгінальны эталонны запуск V11 у кагорце proof-of-concept на 15 кейсаў служыць як метадалагічная аснова Second Update: кожная дэталь па кожным кейсе ніжэй паказвае, як рубрыка апрацоўвае рэальны адказ рухавіка. Дванаццаць з пятнаццаці кейсаў дасягнулі столі компазітнага бала 1.000 па асноўным шляху; тры кейсы былі апрацаваныя праз запасны шлях Phase 2, страціўшы бонус да затрымкі 0.05, але захаваўшы ўвесь клінічны і структурны змест. Адзін кейс не меў аднаго абавязковага падраздзелу; адзін вярнуў суму размеркавання верагоднасцяў, зменшану на нязначную велічыню.

Ідэнтыфікатар кейса Спецыяльнасць Сукупны Латэнтнасць Шлях
BT-001-IDAГематалогія1.00017.8 сасноўны
BT-006-B12Гематалогія1.00018.4 сасноўны
BT-007-THALГематалогія1.00017.0 сасноўны
BT-002-HASHЭндакрыналогія0.95037.0 сзапасны варыянт
BT-008-PCOSЭндакрыналогія0.98718.6 сасноўны
BT-003-T2DMМетабалічны1.00019.1 сасноўны
BT-013-GOUTМетабалічны1.00019.4 сасноўны
BT-004-NAFLDгепаталогія1.00019.6 сасноўны
BT-009-VIRHEPгепаталогія0.95023.4 сзапасны варыянт
BT-014-GILBERTпастка1.00018.9 сасноўны
BT-005-CKDНефралогія1.00017.4 сасноўны
BT-010-ASCVDКардыялогія1.00019.7 сасноўны
BT-011-SLEРэўматалогія0.98118.2 сасноўны
BT-012-VITDЭндакрыналогія1.00019.3 сасноўны
BT-015-HEALTHYпастка1.00018.7 сзапасны варыянт

Справа з ПКЯ (BT-008) страціла адну абавязковую падраздзел у структуры адказу — пятнаццаць з шаснаццаці замест шаснаццаці з шаснаццаці — што знізіла структурны бал з 1.000 да 0.963. Справа з СКВ (BT-011) вярнула нязначна зніжаную суму верагоднасна-размеркаваных значэнняў, якая знізіла клінічны бал да 0.965, пры гэтым захаваўшы кожны дыягнастычны ключавы тэрмін і сістэму ацэнкі. Ні адна з дзвюх спраў з недахопам не прапусціла правільны дыягназ.

Агульны (aggregate) бал V11 Second Update — 100,000 кейсаў

У маштабе насельніцтва асобныя радкі выпадкаў не чытэльныя для чалавека, таму Другі абнаўленне паведамляе агрэгаваныя метрыкі, а не табліцу з 100 000 радкоў. Асноўны агрэгат паказаны ніжэй; разбіўкі па спецыяльнасцях і па краінных мітках апублікаваны ў тэхнічным справаздачы і ў дэпазіце Figshare. Стратыфікаваны выпадковы выбар n = 201 сырых адказаў рухавіка (дэтэрмінаваны seed 20260426) апублікаваны ў GitHub results/ дырэкторыі для агляду.

Компазітны бал V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 па ўсёй кагорце з 100,000 кейсаў
Структурны бал (сярэдні) V11 initial: 0.998 → Second Update: 1.000 Ідэальнае структурнае адпаведнасць на ўзроўні насельніцтва
Клінічны бал (сярэдні) V11 initial: 0.998 → Second Update: 0.996 −0.002; ніводны кейс не прапусціў сам дыягназ
Затрымка — сярэдняе (дыяпазон) Пачатковае V11: 20,17 с (17,0–37,0 с) → Другое абнаўленне: 13,26 с (9,0–16,94 с) Аптымізацыі вытворчага рухавіка паміж запускамі
Шлях рухавіка = асноўны Пачатковае V11: 12 / 15 → Другое абнаўленне: 100,000 / 100,000 Ні ў адной момант падчас запуску не спатрэбілася рэзервовае рашэнне Phase 2
Прапускныя (trap-subset) гіпердыягнастычныя флагі Пачатковае V11: 0 / 13 → Другое абнаўленне: 0 / 87,412 Нулявыя ілжывыя спрацоўванні ў маштабе папуляцыі (8 723 выпадкі trap кантраляваліся)

Што не паведамляе нам загалоўны бал

Кампазітны бал 99.80 працэнта па гэтай канкрэтнай загадзя зарэгістраванай рубрыцы для сінтэтычнай кагорты з 100,000 кейсаў, што ахоплівае 127 краінавых пазнак, адпавядае амаль «потолкавай» прадукцыйнасці — але гэта патрабуе ўважлівага фармулёўкі. Вынік апісвае паводзіны рухавіка адносна рубрыкі, якую мы абавязаліся ўключыць у зыходны код у V11; гэта не ўніверсальная заява пра карэктнасць рухавіка для кожнай панэлі аналізу крыві, якая існуе ў рэальным свеце.

Паказчык кажа, што рухавік правільна апрацаваў дыягнастычныя шаблоны, выбраныя для гэтай ацэнкі, на кагорце маштабу папуляцыі, з выкарыстаннем метадалогіі, якая апублікаваная і якую можна паўтарыць. Ён не кажа, што рухавік правільны для кожнай панэлі аналізу крыві, якая існуе ў рэальным свеце. Ён не кажа, што рухавік павінен замяніць меркаванне клініцыста. І ён не кажа, што рухавік пераўзыходзіць альтэрнатыўныя сістэмы AI — параўнальныя аналізы з іншымі рухавікамі наўмысна не ўваходзілі ў межы гэтага справаздачы.

Што гэты паказчык сапраўды ўстанаўлівае — гэта базавы ўзровень. Калі рубрыка і «хайрнэс» (harness) публічныя, будучыя версіі рухавіка можна ацэньваць адносна той самай рубрыкі — прымяняючы яе да пачатковых 15 кейсаў V11, кагорты з 100 000 кейсаў Другога абнаўлення або да любога наступнага пашырэння — а розніца паміж апублікаваным паказчыкам і любым наступным запускам сама па сабе паддаецца вымярэнню. Вось каштоўнасць загадзя рэгістрацыі: яна пераўтварае сцвярджэнні аб прадукцыйнасці ў правяральныя сцвярджэнні.

Як паўтарыць гэты бенчмарк за 10 хвілін

Для паўтарэння патрэбна толькі пара ўліковых дадзеных API Kantesti і асяроддзе Python 3.10 або пазнейшае з requests і reportlab бібліятэкі, усталяваныя. Поўны апарат — гэта адзін адзіны самадастатковы модуль Python, выпушчаны пад ліцэнзіяй MIT.

Дыяграма сеткі рэпрадукцыйнасці, якая паказвае бенчмарк Другога абнаўлення V11 (99.80% кампазіт, 100 000 выпадкаў, 127 краінных мітак), адлюстраваны на Figshare, ResearchGate, Academia.edu і GitHub, з DOI Figshare як кананічным якаром
Малюнак 5: Бенчмарк V11 Другога абнаўлення — Кампазітны бал 99.80% для 100,000 кейсаў у 127 краінавых пазнаках — адлюстроўваецца на чатырох даследчых платформах. DOI Figshare — кананічны навуковы ідэнтыфікатар; ResearchGate (публікацыя 404175463), Academia.edu (папера 165956808) і GitHub размяшчаюць паралельныя копіі з бенчмаркам, стратыфікаваны выпадковы выбар сырых адказаў і карткі балаў па краінных мітках/па спецыяльнасцях.

Чатыры крокі для новага запуску

Адзін. Кланіруйце рэпазіторый: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Усталюйце залежнасці з pip install -r requirements.txt (Другое абнаўленне дадае mysql-connector-python ≥ 8.0 для SQL case loader). Тры. Усталюйце KANTESTI_USERNAME і KANTESTI_PASSWORD як зменныя асяроддзя для API рухавіка. Для SQL case loader Другога абнаўлення таксама задайце KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USERі KANTESTI_DB_PASSWORD — загрузчык падключаецца праз ролю толькі для чытання (bench_reader) якая не мае прывілеяў на ідэнтыфікацыю табліц. Чатыры. Запусціце python benchmark_bloodtest.py --limit 100000 для поўнага запуску Second-Update, або python benchmark_bloodtest.py --limit 1000 для хуткай ітэрацыі. Вынікі трапляюць у ./benchmark_results/: CSV-картка балаў з калонкамі па краінных мітках і спецыяльнасцях, JSON-агрэгат, стратыфікаваны выпадковы выбар сырых адказаў і Markdown-справаздача.

Даведачныя запускі ад 23 красавіка 2026 г. (V11 пачатковы, 15 кейсаў) і ад 26 красавіка 2026 г. (V11 Second Update, 100,000 кейсаў) захаваны ў results/ каталогу рэпазіторыя. Новы запуск створыць новую картку ацэнак з пазнакай часу, не змяняючы даведачныя запускі. Калі ваш запуск дае істотна іншы вынік, калі ласка, адкрыйце GitHub issue з пазнакай часу запуску і версіяй рухавіка, указанай у метаданых адказу.

Абмежаванні і будучыя працы

Нават пры 100 000 выпадкаў па 127 краінных мітках, чатыры абмежаванні заслугоўваюць відавочнага прызнання: недастатковая выбарка мітак доўгага хваста, ацэнка за адзін раз, абмежаваны ахоп адной мадэллю рухавіка і паходжанне даных з адной крыніцы. Кожнае з іх апрацоўваецца ў актыўнай наступнай працы.

Ахоп мітак доўгага хваста. Другі абнаўленне ахоплівае 127 краінных мітак, але размеркаванне нераўнамернае — топ-10 мітак складаюць ≈66.4% выпадкаў, а доўгі хвост з 97 дадатковых мітак разам дае ≈7.3% (прыкладна 7 300 выпадкаў разам, ~75 выпадкаў на мітку ў сярэднім). Такім чынам, пера-міткавыя кампазіты ў гэтым доўгім хвасце больш шумныя, чым мяркуе загалоўная статыстыка. Будучыя запускі перабалансуюць прызначэнне мітак, каб удакладніць ацэнкі па кожнай мітцы.

Ацэнка за адзін раз. Кожны кейс у кагорце ацэньваўся адзін раз. Вялікія моўныя мадэлі дэманструюць істотную варыябельнасць вываду нават пры нізкай тэмпературы выбаркі, таму шматразавы пратакол з пяццю ацэнкамі на кейс і паведамленай дысперсіяй з’яўляецца натуральным наступным крокам — асабліва для падмноства trap-case, дзе ўзгодненасць пры «джітэры» выбаркі з’яўляецца часткай сцвярджэння аб бяспецы.

Абмежаванне адным рухавіком. Гэтая справаздача характарызуе адзін рухавік. Параўнальныя аналізы з альтэрнатыўнымі сістэмамі AI тут не ўваходзяць у абсяг; мы можам правесці іх як асобнае незалежнае даследаванне з адпаведнай методыкай, выкарыстоўваючы той самы harness, ліцэнзаваны MIT.

Сінтэтычныя даныя. 100,000 кейсаў сінтэтычна згенераваныя, а не «сінтэтычныя кейсы», і вынікі не пераносяцца на рэальную клінічную прадукцыйнасць. Ацэнка на рэальных, атрыманых з згоды і знешніх крыніц даных патрабавала б адпаведнага этычнага нагляду і не ўваходзіць у рамкі гэтага сінтэтычнага бенчмарку.

Акрамя гэтых чатырох, найбольш значнае запланаванае пашырэнне — шматмоўная параўнальнасць па юрысдыкцыях. Kantesti AI Engine абслугоўвае карыстальнікаў на 75+ мовах, і запуск моўна-стратыфікаваных падкагорт Second-Update (турэцкая, нямецкая, іспанская, французская, італьянская, партугальская, арабская, мандарынская) дазволіць колькасна ацаніць якасць вываду на падтрымоўваных рухавіком мовах. Кожны моўна-стратыфікаваны аналіз будзе апублікаваны з уласным DOI і галінай harness.