Чаму існуе гэты эталон і што ён правярае
AI-дапамога ў расшыфроўцы аналізу крыві ўсё часцей выкарыстоўваецца ў спажывецкіх і клінічных працоўных працэсах, аднак паўтаральныя ацэначныя рамкі, адаптаваныя пад лабараторную медыцыну, застаюцца рэдкасцю. Пытанні, якія найбольш важныя ў гэтай сітуацыі, — не тыя, што ахоплены агульнымі бенчмаркамі для медыцынскага пытанне-адказу: ці можа рухавік адрозніць жалезадэфіцыт ад прыкмет таласеміі, калі сярэдні аб’ём эрытрацытаў ідэнтычны, ці не ставіць ён лішні дыягназ сіндрому Жыльбера як гепатыт, і ці «стварае» ён паталогію ў цалкам нармальнай скрынінгавай панэлі?
А адзінкавая панэль аналізу крыві звычайна змяшчае дастаткова сігналу, каб падтрымліваць некалькі канкуруючых інтэрпрэтацый, і задача ўрача, які інтэрпрэтуе, — узважваць гэтыя інтэрпрэтацыі адна супраць адной, а не шукаць падручнікавы адказ. Двiгатель, які добра спраўляецца з падручнікавымі кейсамі, усё яшчэ можа праваліцца ў тых выпадках, якія найбольш важныя: у пастках дыферэнцыяльнай дыягностыкі, у дабраякасных варыянтах, якія ў ізаляцыі выглядаюць трывожна, і ў цалкам нармальных панэлях, што спакушаюць упэўненых асістэнтаў выдумляць паталогію.
Гэты бенчмарк быў пабудаваны менавіта вакол такіх рэжымаў памылкі. Кожны з пятнаццаці кейсаў быў адабраны з улікам пэўнай дыягнастычнай уласцівасці: мікрацытоз пры дэфіцыце жалеза, які трэба адрозніваць ад прыкметы бэта-таласеміі з ідэнтычным сярэднім аб’ёмам эрытрацытаў, клінічная карціна сіндрому Гілберта, дзе адзіная анамалія — ізаляваная непрамяя гіпербілірубінемія, і панэль скрынінгу на пятнаццаць параметраў, у якой кожны аналізатар знаходзіцца ў межах свайго даведачнага дыяпазону. Рубрыка ўзнагароджвае рухавікі, якія чытаюць кожны кейс у яго ўласных умовах, і карае рухавікі, якія прыходзяць да ўпэўненага дыягназу там, дзе такая дыягностыка не абгрунтаваная.
Як Томас Кляйн, доктар медыцынскіх навук, я выбраў панэль кейсаў, бо менавіта гэтыя шаблоны часцей за ўсё памыляюцца ў асістэнтах лабараторнай медыцыны. Дарагая памылка — гэта не "прапусціць рэдкую хваробу"; гэта вырабляць звычайную паталогію ў пацыентаў, у якіх яе няма. Наш Медыцынская праверка hub апісвае больш шырокую рамку; гэтая старонка апісвае першапачатковы proof-of-concept V11 і V11 Другое абнаўленне, якія маштабавалі яго да 100,000 сінтэтычна згенераваных кейсаў, узятых з сінтэтычнага набору кейсаў, што ахоплівае 127 краінавых пазнак — з выкарыстаннем той самай рубрыкі ацэнкі, байт-у-байт, без дазволу на post-hoc наладку.
Апошні эталонны запуск — V11 Другое абнаўленне (26 красавіка 2026)
Эталонны запуск V11 Другога абнаўлення ад 26 красавіка 2026 года даў сукупны бал 99.80% па той самай загадзя зарэгістраванай рубрыцы, што выкарыстоўвалася ў першапачатковым выпуску V11, ацэненай 100,000 сінтэтычныя кейсы узятыя з сінтэтычнага набору кейсаў Kantesti і ахопліваючы 127 краінных мітак і мовы 75+. Кожны выпадак быў завершаны па асноўным шляху рухавіка; актывацыі флага гіпердыягностыкі для trap-выпадкаў заставаліся на 0 / 87,412. Першапачатковы запуск V11 ад 23 красавіка 2026 года ахопліваў 15 уручную адабраных выпадкаў (сукупны 99.12%) і пацвердзіў рубрыку; Другое абнаўленне захоўвае гэтую рубрыку байт-у-байт і пашырае ацэнку да кагорты маштабу насельніцтва.
Сукупная формула аб’ядноўвае тры кампаненты: структурнае адпаведнасць з сямю абавязковымі раздзеламі справаздачы і шаснаццаццю абавязковымі падраздзеламі, дакладнасць змесціва вымераная як успамін па ключавых словах плюс успамін па сістэме ацэнкі плюс праверка сапраўднасці размеркавання верагоднасцяў, і затрымка адказу адносна мэтавага ўзроўню сэрвісу для асноўнага шляху. Дакладнае раскладанне паказана ў формуле рубрыкі ніжэй — ні гэтыя вагі, ні падрубрыкі не былі зменены для Другога абнаўлення.
Астатнія 0.20 працэнтных пунктаў запасу амаль цалкам раскладаюцца ў клінічны падбал — невялікая доля выпадкаў (пераважна ў гепаталогіі і рэўматалогіі) мела адсутнае ў інтэрпрэтацыі рухавіка адно чаканае ключавое слова сістэмы ацэнкі, нягледзячы на тое, што дыягнастычны змест быў правільным. Ніводзін выпадак у кагорце Другога абнаўлення на 100 000 выпадкаў не прапусціў сам дыягназ. Латэнтнасць палепшылася з сярэдняга значэння 20.17 s у першапачатковым выпуску V11 да 13.26 s у Другім абнаўленні, што адлюстроўвае аптымізацыі вытворчага рухавіка паміж двума запускмі; рубрыка, код ацэнкі і канчатковая кропка API не зменены.
Пера-міткавыя кампазітныя балы вар’іраваліся ад 0.9971 да 0.9985 па 30 найбольш прадстаўленых краінных мітках. Доўгі хвост з 97 дадатковых мітак (≈7 300 выпадкаў разам) не паказаў сістэматычнай дэградацыі. Найбольш частыя міткі паводле колькасці выпадкаў: Злучаныя Штаты (10 500), Бразілія (9 500), Іспанія (9 000), Італія (8 000), Германія (7 800), Францыя (7 400), Партугалія (5 800), Türkiye (3 400), Вялікабрытанія (2 900) і Мексіка (2 500).
Ад 15 кейсаў да 100,000: эвалюцыя кагорты ў 127 краінавых пазнаках
Першапачатковая панэль кейсаў V11 ахоплівала сем спецыяльнасцей — гематалогію, эндакрыналогію, метабалічную медыцыну, гепаталогію, нефралогію, кардыялогію, рэўматалогію — а таксама два спецыяльна прызначаныя кейсы-пасткі для гіпердыягностыкі, прычым кожны кейс быў сінтэтычна згенераванай панэллю аналізу крыві. Другое абнаўленне V11 пашырае ацэнку да 100,000 сінтэтычна згенераваных кейсаў у 127 краінавых пазнаках, размеркаваных па васьмі спецыяльнасцях (першапачатковыя сем плюс спецыяльны сегмент унутранай медыцыны, які паглынае trap-падмноства). Та самая рубрыка ацэнкі прымяняецца байт-у-байт у абодвух запусках.
Паколькі ўсе кейсы сінтэтычна згенераваныя, няма рэальных ідэнтыфікатараў, якія трэба выдаляць, і не задзейнічаны персанальныя даныя. Кожны сінтэтычны кейс нясе ўнутраны код кейса бенчмарку (BT-NNN-LABEL у першапачатковым наборы V11, устойлівы case_uid у Другім абнаўленні). Нідзе ў апублікаваным каркасе, тэхнічным справаздачным дакуменце або ў выпушчаных датасетах не з’яўляецца персанальная інфармацыя.
першапачатковым выпускам V11 — 15 уручную адабраных выпадкаў
Першапачатковая панэль кейсаў V11 была ўручную адабрана доктарам Томасам Кляйнам, каб адпрацоўваць дыягнастычныя шаблоны, якія часцей за ўсё памыляюцца лабараторныя памочнікі ў галіне медыцыны. Кожны з пятнаццаці кейсаў быў выбраны для пэўнай дыягнастычнай уласцівасці, пералічанай ніжэй.
Чаму менавіта такое размеркаванне
Гематалогія атрымлівае тры кейсы, бо мікрацытарныя дыферэнцыялы і макрацытарныя дыферэнцыялы — гэта пасткі з найбольшай частатой у рэальнай лабараторнай практыцы. Эндакрыналогія атрымлівае тры, бо праявы хваробы Хашымота, СПКЯ і дэфіцыту вітаміну D фармуюць розныя дыягнастычныя «формы» (правадзяцца аутаантыцеламі, каэфіцыентамі гармонаў, адным маркерам). Адзіночныя спецыялізацыі ўсё яшчэ маюць сэнс, бо кожная з ХБП, рызыкі ASCVD і СКВ мае ўласную сістэму ацэньвання, якую рухавік павінен выклікаць (стадзіраванне KDIGO, 10-гадовая рызыка ASCVD, крытэрыі 2019 EULAR/ACR для СКВ адпаведна).
V11 Другое абнаўленне — 100,000 сінтэтычна згенераваных кейсаў у 127 краінавых пазнаках
Другое абнаўленне замяняе арыгінальны жорстка закадаваны Python-літэрал з 15 кейсаў V11 на большы набор сінтэтычна згенераваных кейсаў, які ствараецца праграмна. Набор кейсаў загружаецца на пачатку кожнага запуску, а канфігурацыя рэгіструецца для празрыстасці. Размеркаванне кагорты па тэматычных галінах паказана ніжэй.
Размеркаванне сінтэтычных краінных мітак — топ-10 мітак
100 000 сінтэтычных выпадкаў нясуць 127 краінных мітак (ISO 3166-1 alpha-2), каб праверыць апрацоўку лакалі. Прызначэнне мітак: Еўропа 57.7%, Амерыкі 25.4%, Азія-Ціхаакіян 6.2%, названыя міткі Блізкі Усход/Афрыка 3.4% і доўгі хвост з 97 дадатковых мітак прыкладна 7.3% разам. Дзесяць найбольш частых мітак паводле колькасці выпадкаў: Злучаныя Штаты (10 500), Бразілія (9 500), Іспанія (9 000), Італія (8 000), Германія (7 800), Францыя (7 400), Партугалія (5 800), Türkiye (3 400), Вялікабрытанія (2 900) і Мексіка (2 500). Пера-міткавыя кампазітныя балы вар’іраваліся ад 0.9971 да 0.9985. Гэтыя колькасці мітак з’яўляюцца ўласцівасцямі згенераваных выпадкаў, якія выкарыстоўваюцца для праверкі апрацоўкі лакалі — гэта не рэальныя карыстальнікі і не рэальнае геаграфічнае ахопленне.
Папярэдне зарэгістраваныя крытэрыі (rubric), растлумачаныя
Папярэдняя рэгістрацыя — адзінае найбольш важнае метадалагічнае рашэнне ў гэтым бенчмарку. Кожная чаканая дыягностыка, кожная клінічная сістэма ацэньвання і кожны раздзел справаздачы былі зафіксаваныя ў зыходным кодзе перш чым рухавік быў выкліканы. Такім чынам, постфактумная налада рубрыкі, каб «падладзіць» рухавік, немагчыма.
Тры кампаненты складаюць сукупны бал. структурны кампанент уносіць 35 працэнтаў і вымярае, ці вярнуў рухавік сем абавязковых раздзелаў справаздачы (загаловак, кароткі змест, ключавыя знаходкі, дыферэнцыялы, сістэмы ацэньвання, рэкамендацыі, назіранне) і шаснаццаць абавязковых падраздзелаў у іх. Наяўнасць раздзелаў важыць 40 працэнтаў, а наяўнасць падраздзелаў — 60 працэнтаў у межах структурнага разліку.
Гэты клінічны кампанент уносіць 55 працэнтаў і аб’ядноўвае тры рэчы: адклік па дыягназных ключавых словах (70 працэнтаў клінічнай падацэнкі), адклік па сістэмах ацэньвання (20 працэнтаў — ці вылічвае рухавік Mentzer, FIB-4, HOMA-IR, рызыку ASCVD, стадыраванне KDIGO, крытэрыі EULAR/ACR, калі гэта дарэчы), і праверку валіднасці сумы верагоднасцяў (10 працэнтаў — дыферэнцыяльныя верагоднасці павінны скласціся ў межах інтэрвалу [90, 110]). Для кейсаў-пастак ужываецца відавочны штраф за гіпердыягностыку да 0.30, які аднімаецца, разлічаны як 0.10 за кожны сфабрыкаваны сцяг паталогіі, з абмежаваннем да трох сцяжкоў.
Гэты кампанент затрымкі уносіць 10 працэнтаў. Адказ менш чым за 20 секунд атрымлівае поўныя 0.10, адказ менш чым за 40 секунд — 0.05, а ўсё, што павольней, — нуль. Мэта ў 20 секунд адлюстроўвае вытворчую мэту ўзроўню сэрвісу для асноўнага primary-path; столь у 40 секунд адлюстроўвае бюджэт запасу Phase 2 для цяжкіх выклікаў рухавіка.
Што папярэдняя рэгістрацыя прадухіляе
Першасныя бенчмаркі вядомыя тым, што раздуваюць уласныя лічбы праз постфактумную наладу рубрыкі. Узор амаль заўсёды аднолькавы: каманда запускае рухавік, бачыць, дзе ён недаацэньвае, а потым ціха карэктуе рубрыку так, каб недаацэненыя вобласці ўлічваліся менш. Калі зафіксаваць рубрыку ў зыходным кодзе да першага выкліку рухавіка і апублікаваць хэйрнэс пад ліцэнзіяй MIT, гэтая карэкцыя становіцца бачнай у сістэме кантролю версій. Любая асоба можа кланаваць рэпазіторый, праверыць даты аўтарства рубрыкі і пераканацца, што вынікі рухавіка не выкарыстоўваліся для фармавання ацэнкі.
Пасткі гіпердыягностыкі — чаму празмернае «закліканне» (over-calling) з’яўляецца сапраўдным рэжымам збою
Агрэсыўнае празмернае «прызначэнне» паталогіі на нармальных скрынінгах — задокументаваны рэжым збою спажывецкіх медыцынскіх асістэнтаў. Яго наступныя выдаткі ўключаюць непатрэбнае абследаванне, трывожнасць пацыента і ятрагенную (пабочную) дыягнастычную/лячэбную праверку. Два кейсы-пасткі ў гэтым бенчмарку распрацаваны, каб зрабіць гэты рэжым збою бачным і ацэнюемым.
🟡 Пастка 1 — BT-014-GILBERT
Прадстаўленне. Мужчына 24 гадоў з агульным білірубіну 2.4 мг/дл. Прамое фракцыя нармальная, трансаміназы і шчолачная фасфатаза знаходзяцца ў межах сваіх даведачных дыяпазонаў, ретыкулоциты нічым не вылучаюцца, а гаптаглабін і LDH выключаюць гемоліз.
Правільная інтэрпрэтацыя. Сіндром Гілберта — дабраякасны палімарфізм UGT1A1. Інтэрпрэтацыя не павінна выклікаць гепатыт, цыроз, гемалітычную анемію або біліярную абструкцыю.
Вынік V11. Сукупны 1.000. Ні адзін з шасці кантраляваных сцяжкоў празмернай дыягностыкі не з’явіўся як актыўны дыягназ.
🟡 Пастка 2 — BT-015-HEALTHY
Прадстаўленне. Жанчына 35 гадоў з пятнаццаціпараметровай звычайнай панэллю скрынінгу. Кожны аналізат знаходзіцца зручна ў межах свайго даведачнага дыяпазону.
Правільная інтэрпрэтацыя. Пацверджанне і падтрымка здаровага ладу жыцця. Расшыфроўка не павінна выдумляць пагранічную паталогію, каб выглядаць клінічна карыснай.
Вынік V11. Кампазіт 1.000. Ні адзін з сямі кантраляваных сцяжкоў гіпердыягностыкі — дыябет, анемія, гіпатырэёз, дысліпідэмія, гепатыт, хвароба нырак, дэфіцыт — не з’явіўся як актыўны дыягназ.
Праз абодва пасткі было праверана трынаццаць кантраляваных сцяжкоў гіпердыягностыкі. Нічога не спрацавала. Гэта вынік, які найбольш важны для любога клініцыста, які разглядае выкарыстанне AI-рухавіка як інструмента трыяжу або перадкансультацыйнай ацэнкі: сістэма не вынайшла хваробу там, дзе яе не было.
Індэкс Ментзера: адрозненне дэфіцыту жалеза ад прыкметы таласеміі
Другі вынік высокай каштоўнасці датычыцца спалучэння кейса BT-001 (жалезадэфіцытная анемія) з кейсам BT-007 (бэта-таласемія малая). Абодва станы праяўляюцца мікрацытозам і з’яўляюцца добра вядомай перашкодай для наіўных класіфікатараў. Індэкс Ментцэра, разлічаны як MCV, падзелены на колькасць RBC, перавышае 13 пры жалезадэфіцыце і падае ніжэй за 13 пры прыкметах таласеміі.
У BT-001 пацыенткай была 34-гадовая жанчына з гемаглабінам 10.4 г/дл, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферытын 6 нг/мл і павышаным TIBC. Індэкс Ментцэра прыкладна 17.7 падтрымлівае абсалютны жалезадэфіцыт. У BT-007 пацыент быў 28-гадовым мужчынам з мікрацытозам (MCV 65.8 фл), але з высокай колькасцю RBC 6.2, нармальным RDW, нармальным ферытыном і HbA2 5.6 працэнта. Індэкс Ментцэра прыкладна 10.6 паказвае на прыкметы таласеміі, а павышаны HbA2 пацвярджае бэта-таласемію малую.
Абодва кейсы набралі 1.000. Рухавік выкарыстаў індэкс Ментцэра экспліцытна ў абодвух інтэрпрэтацыях і вярнуў правільны дыягназ у кожным выпадку. Гэта адзіны найбольш клінічна заспакойваючы вынік ва ўсім бенчмарку, бо памылковае класіфікаванне прыкмет таласеміі як жалезадэфіцыту прыводзіць да неадпаведнага прызначэння прэпаратаў жалеза і да прапушчаных магчымасцяў сямейнага скрынінгу, а памылковае класіфікаванне жалезадэфіцыту як таласеміі затрымлівае простую замяшчальную тэрапію. Наша дыяпазон для ферытыну тлумачыць шырэйшы дыферэнцыяльны кантэкст.
Вынікі па кожным кейсе з першапачатковага эталоннага запуску V11 (23 красавіка 2026)
Арыгінальны эталонны запуск V11 у кагорце proof-of-concept на 15 кейсаў служыць як метадалагічная аснова Second Update: кожная дэталь па кожным кейсе ніжэй паказвае, як рубрыка апрацоўвае рэальны адказ рухавіка. Дванаццаць з пятнаццаці кейсаў дасягнулі столі компазітнага бала 1.000 па асноўным шляху; тры кейсы былі апрацаваныя праз запасны шлях Phase 2, страціўшы бонус да затрымкі 0.05, але захаваўшы ўвесь клінічны і структурны змест. Адзін кейс не меў аднаго абавязковага падраздзелу; адзін вярнуў суму размеркавання верагоднасцяў, зменшану на нязначную велічыню.
Справа з ПКЯ (BT-008) страціла адну абавязковую падраздзел у структуры адказу — пятнаццаць з шаснаццаці замест шаснаццаці з шаснаццаці — што знізіла структурны бал з 1.000 да 0.963. Справа з СКВ (BT-011) вярнула нязначна зніжаную суму верагоднасна-размеркаваных значэнняў, якая знізіла клінічны бал да 0.965, пры гэтым захаваўшы кожны дыягнастычны ключавы тэрмін і сістэму ацэнкі. Ні адна з дзвюх спраў з недахопам не прапусціла правільны дыягназ.
Агульны (aggregate) бал V11 Second Update — 100,000 кейсаў
У маштабе насельніцтва асобныя радкі выпадкаў не чытэльныя для чалавека, таму Другі абнаўленне паведамляе агрэгаваныя метрыкі, а не табліцу з 100 000 радкоў. Асноўны агрэгат паказаны ніжэй; разбіўкі па спецыяльнасцях і па краінных мітках апублікаваны ў тэхнічным справаздачы і ў дэпазіце Figshare. Стратыфікаваны выпадковы выбар n = 201 сырых адказаў рухавіка (дэтэрмінаваны seed 20260426) апублікаваны ў GitHub results/ дырэкторыі для агляду.
Што не паведамляе нам загалоўны бал
Кампазітны бал 99.80 працэнта па гэтай канкрэтнай загадзя зарэгістраванай рубрыцы для сінтэтычнай кагорты з 100,000 кейсаў, што ахоплівае 127 краінавых пазнак, адпавядае амаль «потолкавай» прадукцыйнасці — але гэта патрабуе ўважлівага фармулёўкі. Вынік апісвае паводзіны рухавіка адносна рубрыкі, якую мы абавязаліся ўключыць у зыходны код у V11; гэта не ўніверсальная заява пра карэктнасць рухавіка для кожнай панэлі аналізу крыві, якая існуе ў рэальным свеце.
Паказчык кажа, што рухавік правільна апрацаваў дыягнастычныя шаблоны, выбраныя для гэтай ацэнкі, на кагорце маштабу папуляцыі, з выкарыстаннем метадалогіі, якая апублікаваная і якую можна паўтарыць. Ён не кажа, што рухавік правільны для кожнай панэлі аналізу крыві, якая існуе ў рэальным свеце. Ён не кажа, што рухавік павінен замяніць меркаванне клініцыста. І ён не кажа, што рухавік пераўзыходзіць альтэрнатыўныя сістэмы AI — параўнальныя аналізы з іншымі рухавікамі наўмысна не ўваходзілі ў межы гэтага справаздачы.
Што гэты паказчык сапраўды ўстанаўлівае — гэта базавы ўзровень. Калі рубрыка і «хайрнэс» (harness) публічныя, будучыя версіі рухавіка можна ацэньваць адносна той самай рубрыкі — прымяняючы яе да пачатковых 15 кейсаў V11, кагорты з 100 000 кейсаў Другога абнаўлення або да любога наступнага пашырэння — а розніца паміж апублікаваным паказчыкам і любым наступным запускам сама па сабе паддаецца вымярэнню. Вось каштоўнасць загадзя рэгістрацыі: яна пераўтварае сцвярджэнні аб прадукцыйнасці ў правяральныя сцвярджэнні.
Як паўтарыць гэты бенчмарк за 10 хвілін
Для паўтарэння патрэбна толькі пара ўліковых дадзеных API Kantesti і асяроддзе Python 3.10 або пазнейшае з requests і reportlab бібліятэкі, усталяваныя. Поўны апарат — гэта адзін адзіны самадастатковы модуль Python, выпушчаны пад ліцэнзіяй MIT.
Чатыры крокі для новага запуску
Адзін. Кланіруйце рэпазіторый: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Усталюйце залежнасці з pip install -r requirements.txt (Другое абнаўленне дадае mysql-connector-python ≥ 8.0 для SQL case loader). Тры. Усталюйце KANTESTI_USERNAME і KANTESTI_PASSWORD як зменныя асяроддзя для API рухавіка. Для SQL case loader Другога абнаўлення таксама задайце KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USERі KANTESTI_DB_PASSWORD — загрузчык падключаецца праз ролю толькі для чытання (bench_reader) якая не мае прывілеяў на ідэнтыфікацыю табліц. Чатыры. Запусціце python benchmark_bloodtest.py --limit 100000 для поўнага запуску Second-Update, або python benchmark_bloodtest.py --limit 1000 для хуткай ітэрацыі. Вынікі трапляюць у ./benchmark_results/: CSV-картка балаў з калонкамі па краінных мітках і спецыяльнасцях, JSON-агрэгат, стратыфікаваны выпадковы выбар сырых адказаў і Markdown-справаздача.
Даведачныя запускі ад 23 красавіка 2026 г. (V11 пачатковы, 15 кейсаў) і ад 26 красавіка 2026 г. (V11 Second Update, 100,000 кейсаў) захаваны ў results/ каталогу рэпазіторыя. Новы запуск створыць новую картку ацэнак з пазнакай часу, не змяняючы даведачныя запускі. Калі ваш запуск дае істотна іншы вынік, калі ласка, адкрыйце GitHub issue з пазнакай часу запуску і версіяй рухавіка, указанай у метаданых адказу.
Абмежаванні і будучыя працы
Нават пры 100 000 выпадкаў па 127 краінных мітках, чатыры абмежаванні заслугоўваюць відавочнага прызнання: недастатковая выбарка мітак доўгага хваста, ацэнка за адзін раз, абмежаваны ахоп адной мадэллю рухавіка і паходжанне даных з адной крыніцы. Кожнае з іх апрацоўваецца ў актыўнай наступнай працы.
Ахоп мітак доўгага хваста. Другі абнаўленне ахоплівае 127 краінных мітак, але размеркаванне нераўнамернае — топ-10 мітак складаюць ≈66.4% выпадкаў, а доўгі хвост з 97 дадатковых мітак разам дае ≈7.3% (прыкладна 7 300 выпадкаў разам, ~75 выпадкаў на мітку ў сярэднім). Такім чынам, пера-міткавыя кампазіты ў гэтым доўгім хвасце больш шумныя, чым мяркуе загалоўная статыстыка. Будучыя запускі перабалансуюць прызначэнне мітак, каб удакладніць ацэнкі па кожнай мітцы.
Ацэнка за адзін раз. Кожны кейс у кагорце ацэньваўся адзін раз. Вялікія моўныя мадэлі дэманструюць істотную варыябельнасць вываду нават пры нізкай тэмпературы выбаркі, таму шматразавы пратакол з пяццю ацэнкамі на кейс і паведамленай дысперсіяй з’яўляецца натуральным наступным крокам — асабліва для падмноства trap-case, дзе ўзгодненасць пры «джітэры» выбаркі з’яўляецца часткай сцвярджэння аб бяспецы.
Абмежаванне адным рухавіком. Гэтая справаздача характарызуе адзін рухавік. Параўнальныя аналізы з альтэрнатыўнымі сістэмамі AI тут не ўваходзяць у абсяг; мы можам правесці іх як асобнае незалежнае даследаванне з адпаведнай методыкай, выкарыстоўваючы той самы harness, ліцэнзаваны MIT.
Сінтэтычныя даныя. 100,000 кейсаў сінтэтычна згенераваныя, а не «сінтэтычныя кейсы», і вынікі не пераносяцца на рэальную клінічную прадукцыйнасць. Ацэнка на рэальных, атрыманых з згоды і знешніх крыніц даных патрабавала б адпаведнага этычнага нагляду і не ўваходзіць у рамкі гэтага сінтэтычнага бенчмарку.
Акрамя гэтых чатырох, найбольш значнае запланаванае пашырэнне — шматмоўная параўнальнасць па юрысдыкцыях. Kantesti AI Engine абслугоўвае карыстальнікаў на 75+ мовах, і запуск моўна-стратыфікаваных падкагорт Second-Update (турэцкая, нямецкая, іспанская, французская, італьянская, партугальская, арабская, мандарынская) дазволіць колькасна ацаніць якасць вываду на падтрымоўваных рухавіком мовах. Кожны моўна-стратыфікаваны аналіз будзе апублікаваны з уласным DOI і галінай harness.