Kantesti AI-эталон аналізу крыві — клінічная валідацыя

Аўтаматызаваны бенчмарк Папярэдне зарэгістраваны эталон Абнаўленне V11 (другі выпуск) — красавік 2026 Пад ліцэнзіяй MIT Паўтаральны · Адкрытыя даныя 100K сінтэтычная кагорта · 127 краінавых пазнак

99.80% кампазітны бал па загадзя зарэгістраванай рубрыцы — V11 другая абнаўленне, кагорта з 100,000 кейсаў у 127 краінавых пазнаках

Папярэдне зарэгістраваны, рубрыка-арыентаваны аўтаматызаваны тэхнічны бенчмарк рухавіка Kantesti на 100 000 сінтэтычна згенераваных выпадках аналізу крыві, пазначаных 127 краіннымі міткамі. Ён вымярае адпаведнасць вываду, а не дыягнастычную дакладнасць. Рубрыка была замарожана ў зыходным кодзе да першапачатковага выпуску V11 і захавана байт-у-байт ідэнтычнай для гэтага Другога абнаўлення; ацэначны каркас ліцэнзуецца MIT; апублікаваны стратыфікаваны выпадковы выбар сырых адказаў рухавіка для агляду. Усе выпадкі сінтэтычныя; не выкарыстоўваюцца персанальныя даныя.

📖 ~14 хвілін 📅 Апублікавана 23 красавіка 2026 · Абноўлена 26 красавіка 2026 (V11 (другі выпуск)) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 апублікавана: 23 красавіка 2026 🔄 Абнаўленне V11 (другі выпуск): 26 красавіка 2026 🩺 медыцынскі агляд: 26 красавіка 2026 ✅ Загадзя зарэгістраваная рубрыка (байт-у-байт ідэнтычная) 🔓 Адкрыты код і даныя

Гэты аўтаматызаваны бенчмарк быў распрацаваны і запушчаны Джуліян Эмірхан Булут, старшым інжынерам па штучным інтэлекце і генеральным дырэктарам Kantesti Ltd. Ацэнка цалкам аўтаматызавана ў зыходным кодзе; ацэначная рубрыка і панэль кейсаў былі распрацаваны з клінічным уводам ад Доктар Томас Кляйн, доктар медыцынскіх навук, галоўнага медыцынскага дырэктара ў Kantesti AI, і разгледжаны Медыцынскі кансультатыўны савет Кантэсці ШІ. Гэта ўнутраны бенчмарк, які запускаецца самастойна, а не незалежны або прайшоўшы экспертную ацэнку аўтаматызаваны тэхнічны бенчмарк.

Галоўным аўтарам і клінічным наглядам

Томас Кляйн, доктар медыцынскіх навук

Галоўны ўрач, Кантэсці А.І.

Доктар Томас Кляйн — сертыфікаваны саветам клінічны гематолаг і інтэрніст з больш чым 15-гадовым досведам у лабараторнай медыцыне. Як галоўны медыцынскі дырэктар у Kantesti AI, ён выбраў панэль кейсаў для гэтага бенчмарку, разгледзеў клінічны змест і чаканыя адказы сінтэтычна згенераваных кейсаў і зацвердзіў загадзя зарэгістраваную рубрыку перад першым выклікам рухавіка.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Суаўтар і ўкараненне

Джуліян Эмірхан Булут

Старшы інжынер па AI і генеральны дырэктар, Kantesti Ltd

Джуліян Эмірхан Булут — заснавальнік і генеральны дырэктар Kantesti Ltd. Ён распрацаваў і рэалізаваў ацэначны каркас — уключаючы SQL case loader, дададзены для V11 (другога выпуску) — выканаў інтэграцыю API, правёў як першапачатковы эталонны запуск V11, так і запуск V11 (другі выпуск) з 100 000 выпадкаў, а таксама падрыхтаваў статыстычную агрэгацыю. Заснавальнік платформы з 2019 года.

GitHub Пра Кантэшці

⚡ Кароткае рэзюмэ V11 (другі выпуск) — 26 красавіка 2026

99.80% кампазітны бал на 100 000 сінтэтычных выпадкаў аналізу крыві па васьмі медыцынскіх спецыяльнасцях і 127 краінных мітках (V11 Другі абнаўленне).
Нуль ілжывых спрацоўванняў гіпердыягностыкі па 87 412 магчымасцях для маніторынгу trap-case flag — тая ж метадалогія trap-case, што і ў першапачатковым запуску V11, маштабаваная да ўзроўню насельніцтва.
Папярэдне зарэгістраваная рубрыка «замарожана» ў зыходным кодзе да першапачатковага запуску V11 і захавана байт-у-байт для гэтага другога выпуску — не было магчымасці постфактум наладжваць.
Індэкс Ментцэра карэктна ўжыты каб адрозніць жалезадэфіцытную анемію ад бэта-таласеміі малой у першапачатковым выпуску V11; дыферэнцыяльная паводзіна была захавана на ўзроўні насельніцтва.
Толькі вытворчы канчатковы пункт (endpoint) — без прывілеяванай маршрутызацыі; ацэнка выканана дакладна так, як бы да яго атрымаў доступ платны кліент.
Сярэдняя затрымка 13.26 секунды канец-у-канец (дыяпазон 9.0–16.94 с), прычым усе 100 000 выпадкаў завяршыліся па асноўным шляху рухавіка.
Сінтэтычная кагорта. 100,000 сінтэтычна згенераваных тэставых кейсаў, загружаных падчас запуску. Не выкарыстоўваюцца сінтэтычныя даныя і не выкарыстоўваюцца персанальныя даныя.
Тэставы каркас з ліцэнзіяй MIT апублікавана на GitHub са стратыфікаваным выпадковым выбарам (n = 201) поўных сырых адказаў рухавіка для агляду.
DOI Figshare: 10.6084/m9.figshare.32095435 · Адлюстравана на ResearchGate, Academia.edu, GitHub.

Чаму існуе гэты эталон і што ён правярае

AI-дапамога ў расшыфроўцы аналізу крыві ўсё часцей выкарыстоўваецца ў спажывецкіх і клінічных працоўных працэсах, аднак паўтаральныя ацэначныя рамкі, адаптаваныя пад лабараторную медыцыну, застаюцца рэдкасцю. Пытанні, якія найбольш важныя ў гэтай сітуацыі, — не тыя, што ахоплены агульнымі бенчмаркамі для медыцынскага пытанне-адказу: ці можа рухавік адрозніць жалезадэфіцыт ад прыкмет таласеміі, калі сярэдні аб’ём эрытрацытаў ідэнтычны, ці не ставіць ён лішні дыягназ сіндрому Жыльбера як гепатыт, і ці «стварае» ён паталогію ў цалкам нармальнай скрынінгавай панэлі?

А адзінкавая панэль аналізу крыві звычайна змяшчае дастаткова сігналу, каб падтрымліваць некалькі канкуруючых інтэрпрэтацый, і задача ўрача, які інтэрпрэтуе, — узважваць гэтыя інтэрпрэтацыі адна супраць адной, а не шукаць падручнікавы адказ. Двiгатель, які добра спраўляецца з падручнікавымі кейсамі, усё яшчэ можа праваліцца ў тых выпадках, якія найбольш важныя: у пастках дыферэнцыяльнай дыягностыкі, у дабраякасных варыянтах, якія ў ізаляцыі выглядаюць трывожна, і ў цалкам нармальных панэлях, што спакушаюць упэўненых асістэнтаў выдумляць паталогію.

Гэты бенчмарк быў пабудаваны менавіта вакол такіх рэжымаў памылкі. Кожны з пятнаццаці кейсаў быў адабраны з улікам пэўнай дыягнастычнай уласцівасці: мікрацытоз пры дэфіцыце жалеза, які трэба адрозніваць ад прыкметы бэта-таласеміі з ідэнтычным сярэднім аб’ёмам эрытрацытаў, клінічная карціна сіндрому Гілберта, дзе адзіная анамалія — ізаляваная непрамяя гіпербілірубінемія, і панэль скрынінгу на пятнаццаць параметраў, у якой кожны аналізатар знаходзіцца ў межах свайго даведачнага дыяпазону. Рубрыка ўзнагароджвае рухавікі, якія чытаюць кожны кейс у яго ўласных умовах, і карае рухавікі, якія прыходзяць да ўпэўненага дыягназу там, дзе такая дыягностыка не абгрунтаваная.

Як Томас Кляйн, доктар медыцынскіх навук, я выбраў панэль кейсаў, бо менавіта гэтыя шаблоны часцей за ўсё памыляюцца ў асістэнтах лабараторнай медыцыны. Дарагая памылка — гэта не "прапусціць рэдкую хваробу"; гэта вырабляць звычайную паталогію ў пацыентаў, у якіх яе няма. Наш Медыцынская праверка hub апісвае больш шырокую рамку; гэтая старонка апісвае першапачатковы proof-of-concept V11 і V11 Другое абнаўленне, якія маштабавалі яго да 100,000 сінтэтычна згенераваных кейсаў, узятых з сінтэтычнага набору кейсаў, што ахоплівае 127 краінавых пазнак — з выкарыстаннем той самай рубрыкі ацэнкі, байт-у-байт, без дазволу на post-hoc наладку.

Апошні эталонны запуск — V11 Другое абнаўленне (26 красавіка 2026)

Эталонны запуск V11 Другога абнаўлення ад 26 красавіка 2026 года даў сукупны бал 99.80% па той самай загадзя зарэгістраванай рубрыцы, што выкарыстоўвалася ў першапачатковым выпуску V11, ацэненай 100,000 сінтэтычныя кейсы узятыя з сінтэтычнага набору кейсаў Kantesti і ахопліваючы 127 краінных мітак і мовы 75+. Кожны выпадак быў завершаны па асноўным шляху рухавіка; актывацыі флага гіпердыягностыкі для trap-выпадкаў заставаліся на 0 / 87,412. Першапачатковы запуск V11 ад 23 красавіка 2026 года ахопліваў 15 уручную адабраных выпадкаў (сукупны 99.12%) і пацвердзіў рубрыку; Другое абнаўленне захоўвае гэтую рубрыку байт-у-байт і пашырае ацэнку да кагорты маштабу насельніцтва.

Сукупны 99.80% 100 000 з 100 000 выпадкаў атрымалі ацэнку

1.000 Структурны бал

0.996 Клінічны бал

13.26 s Сярэдняя затрымка

0 / 87,412 Пасткі ілжывых спрацоўванняў

Сукупная формула аб’ядноўвае тры кампаненты: структурнае адпаведнасць з сямю абавязковымі раздзеламі справаздачы і шаснаццаццю абавязковымі падраздзеламі, дакладнасць змесціва вымераная як успамін па ключавых словах плюс успамін па сістэме ацэнкі плюс праверка сапраўднасці размеркавання верагоднасцяў, і затрымка адказу адносна мэтавага ўзроўню сэрвісу для асноўнага шляху. Дакладнае раскладанне паказана ў формуле рубрыкі ніжэй — ні гэтыя вагі, ні падрубрыкі не былі зменены для Другога абнаўлення.

Сукупны = 0.35 × Структурны + 0.55 × Клінічны + 0.10 × Затрымка

Астатнія 0.20 працэнтных пунктаў запасу амаль цалкам раскладаюцца ў клінічны падбал — невялікая доля выпадкаў (пераважна ў гепаталогіі і рэўматалогіі) мела адсутнае ў інтэрпрэтацыі рухавіка адно чаканае ключавое слова сістэмы ацэнкі, нягледзячы на тое, што дыягнастычны змест быў правільным. Ніводзін выпадак у кагорце Другога абнаўлення на 100 000 выпадкаў не прапусціў сам дыягназ. Латэнтнасць палепшылася з сярэдняга значэння 20.17 s у першапачатковым выпуску V11 да 13.26 s у Другім абнаўленні, што адлюстроўвае аптымізацыі вытворчага рухавіка паміж двума запускмі; рубрыка, код ацэнкі і канчатковая кропка API не зменены.

Пера-міткавыя кампазітныя балы вар’іраваліся ад 0.9971 да 0.9985 па 30 найбольш прадстаўленых краінных мітках. Доўгі хвост з 97 дадатковых мітак (≈7 300 выпадкаў разам) не паказаў сістэматычнай дэградацыі. Найбольш частыя міткі паводле колькасці выпадкаў: Злучаныя Штаты (10 500), Бразілія (9 500), Іспанія (9 000), Італія (8 000), Германія (7 800), Францыя (7 400), Партугалія (5 800), Türkiye (3 400), Вялікабрытанія (2 900) і Мексіка (2 500).

Ад 15 кейсаў да 100,000: эвалюцыя кагорты ў 127 краінавых пазнаках

Першапачатковая панэль кейсаў V11 ахоплівала сем спецыяльнасцей — гематалогію, эндакрыналогію, метабалічную медыцыну, гепаталогію, нефралогію, кардыялогію, рэўматалогію — а таксама два спецыяльна прызначаныя кейсы-пасткі для гіпердыягностыкі, прычым кожны кейс быў сінтэтычна згенераванай панэллю аналізу крыві. Другое абнаўленне V11 пашырае ацэнку да 100,000 сінтэтычна згенераваных кейсаў у 127 краінавых пазнаках, размеркаваных па васьмі спецыяльнасцях (першапачатковыя сем плюс спецыяльны сегмент унутранай медыцыны, які паглынае trap-падмноства). Та самая рубрыка ацэнкі прымяняецца байт-у-байт у абодвух запусках.

Паколькі ўсе кейсы сінтэтычна згенераваныя, няма рэальных ідэнтыфікатараў, якія трэба выдаляць, і не задзейнічаны персанальныя даныя. Кожны сінтэтычны кейс нясе ўнутраны код кейса бенчмарку (BT-NNN-LABEL у першапачатковым наборы V11, устойлівы case_uid у Другім абнаўленні). Нідзе ў апублікаваным каркасе, тэхнічным справаздачным дакуменце або ў выпушчаных датасетах не з’яўляецца персанальная інфармацыя.

першапачатковым выпускам V11 — 15 уручную адабраных выпадкаў

Першапачатковая панэль кейсаў V11 была ўручную адабрана доктарам Томасам Кляйнам, каб адпрацоўваць дыягнастычныя шаблоны, якія часцей за ўсё памыляюцца лабараторныя памочнікі ў галіне медыцыны. Кожны з пятнаццаці кейсаў быў выбраны для пэўнай дыягнастычнай уласцівасці, пералічанай ніжэй.

Гематалогія (3) BT-001, BT-006, BT-007 Жалезадэфіцытная анемія · дэфіцыт вітаміну B12 · малая бэта-таласемія

Эндакрыналогія (3) BT-002, BT-008, BT-012 Тырэяідыт Хасімота · ПКЯ з інсулінарэзістэнтнасцю · цяжкі дэфіцыт вітаміну D

Метабалічная (2) BT-003, BT-013 T2DM з метабалічным сіндромам · гіперурыкемія з рызыкай падагры

Гепаталогія (2) BT-004, BT-009 НАЖБП / НАСГ · востры вірусны гепатыт

Нефралогія · Кардыялогія · Рэўматалогія (3) BT-005, BT-010, BT-011 ХБП стадыя 3 · атерогенная дысліпідэмія · сістэмная чырвоная ваўчанка

Пасткавые выпадкі (2) BT-014, BT-015 Сіндром Гілберта (ізаляваная ўскосная гіпербілірубінемія) · цалкам нармальны дарослы скрынінг

Чаму менавіта такое размеркаванне

Гематалогія атрымлівае тры кейсы, бо мікрацытарныя дыферэнцыялы і макрацытарныя дыферэнцыялы — гэта пасткі з найбольшай частатой у рэальнай лабараторнай практыцы. Эндакрыналогія атрымлівае тры, бо праявы хваробы Хашымота, СПКЯ і дэфіцыту вітаміну D фармуюць розныя дыягнастычныя «формы» (правадзяцца аутаантыцеламі, каэфіцыентамі гармонаў, адным маркерам). Адзіночныя спецыялізацыі ўсё яшчэ маюць сэнс, бо кожная з ХБП, рызыкі ASCVD і СКВ мае ўласную сістэму ацэньвання, якую рухавік павінен выклікаць (стадзіраванне KDIGO, 10-гадовая рызыка ASCVD, крытэрыі 2019 EULAR/ACR для СКВ адпаведна).

V11 Другое абнаўленне — 100,000 сінтэтычна згенераваных кейсаў у 127 краінавых пазнаках

Другое абнаўленне замяняе арыгінальны жорстка закадаваны Python-літэрал з 15 кейсаў V11 на большы набор сінтэтычна згенераваных кейсаў, які ствараецца праграмна. Набор кейсаў загружаецца на пачатку кожнага запуску, а канфігурацыя рэгіструецца для празрыстасці. Размеркаванне кагорты па тэматычных галінах паказана ніжэй.

Эндакрыналогія 23,900 кейсаў (23.9%) Шчытападобная залоза, ПКОС, дэфіцыт вітаміну D, гонадавая вось, гіпофіз

Метабалічная медыцына 21,900 кейсаў (21.9%) ЦД2, метабалічны сіндром, ліпідныя панэлі, гіперурыкемія

Гематалогія 15,400 кейсаў (15.4%) Мікрацытарныя і макрацытарныя дыферэнцыяцыі, B12/фолат, даследаванні жалеза

гепаталогія 12,400 кейсаў (12.4%) НАЖБП/НАСГ, вірусныя гепатыты, FIB-4, халестаз

Унутраная медыцына (у т.л. падмноства trap) 9,000 кейсаў (9.0%) Змешаныя прэзентацыі і 8,723 спецыяльна прызначаныя кейсы пасткі гіпердыягностыкі

Кардыялогія 7,500 кейсаў (7.5%) Рызыка ASCVD, атерогенныя дысліпідэміі, hs-CRP

Рэўматалогія 6,000 кейсаў (6.0%) СКВ, РА, васкуліт, панэлі аутаантыцелаў (крытэрыі EULAR/ACR)

Нефралогія 4,000 кейсаў (4.0%) Стадыяванне ХНН (KDIGO), тэндэнцыі eGFR, парушэнні электралітаў

Размеркаванне сінтэтычных краінных мітак — топ-10 мітак

100 000 сінтэтычных выпадкаў нясуць 127 краінных мітак (ISO 3166-1 alpha-2), каб праверыць апрацоўку лакалі. Прызначэнне мітак: Еўропа 57.7%, Амерыкі 25.4%, Азія-Ціхаакіян 6.2%, названыя міткі Блізкі Усход/Афрыка 3.4% і доўгі хвост з 97 дадатковых мітак прыкладна 7.3% разам. Дзесяць найбольш частых мітак паводле колькасці выпадкаў: Злучаныя Штаты (10 500), Бразілія (9 500), Іспанія (9 000), Італія (8 000), Германія (7 800), Францыя (7 400), Партугалія (5 800), Türkiye (3 400), Вялікабрытанія (2 900) і Мексіка (2 500). Пера-міткавыя кампазітныя балы вар’іраваліся ад 0.9971 да 0.9985. Гэтыя колькасці мітак з’яўляюцца ўласцівасцямі згенераваных выпадкаў, якія выкарыстоўваюцца для праверкі апрацоўкі лакалі — гэта не рэальныя карыстальнікі і не рэальнае геаграфічнае ахопленне.

Папярэдне зарэгістраваныя крытэрыі (rubric), растлумачаныя

Папярэдняя рэгістрацыя — адзінае найбольш важнае метадалагічнае рашэнне ў гэтым бенчмарку. Кожная чаканая дыягностыка, кожная клінічная сістэма ацэньвання і кожны раздзел справаздачы былі зафіксаваныя ў зыходным кодзе перш чым рухавік быў выкліканы. Такім чынам, постфактумная налада рубрыкі, каб «падладзіць» рухавік, немагчыма.

Тры кампаненты складаюць сукупны бал. структурны кампанент уносіць 35 працэнтаў і вымярае, ці вярнуў рухавік сем абавязковых раздзелаў справаздачы (загаловак, кароткі змест, ключавыя знаходкі, дыферэнцыялы, сістэмы ацэньвання, рэкамендацыі, назіранне) і шаснаццаць абавязковых падраздзелаў у іх. Наяўнасць раздзелаў важыць 40 працэнтаў, а наяўнасць падраздзелаў — 60 працэнтаў у межах структурнага разліку.

Гэты клінічны кампанент уносіць 55 працэнтаў і аб’ядноўвае тры рэчы: адклік па дыягназных ключавых словах (70 працэнтаў клінічнай падацэнкі), адклік па сістэмах ацэньвання (20 працэнтаў — ці вылічвае рухавік Mentzer, FIB-4, HOMA-IR, рызыку ASCVD, стадыраванне KDIGO, крытэрыі EULAR/ACR, калі гэта дарэчы), і праверку валіднасці сумы верагоднасцяў (10 працэнтаў — дыферэнцыяльныя верагоднасці павінны скласціся ў межах інтэрвалу [90, 110]). Для кейсаў-пастак ужываецца відавочны штраф за гіпердыягностыку да 0.30, які аднімаецца, разлічаны як 0.10 за кожны сфабрыкаваны сцяг паталогіі, з абмежаваннем да трох сцяжкоў.

Гэты кампанент затрымкі уносіць 10 працэнтаў. Адказ менш чым за 20 секунд атрымлівае поўныя 0.10, адказ менш чым за 40 секунд — 0.05, а ўсё, што павольней, — нуль. Мэта ў 20 секунд адлюстроўвае вытворчую мэту ўзроўню сэрвісу для асноўнага primary-path; столь у 40 секунд адлюстроўвае бюджэт запасу Phase 2 для цяжкіх выклікаў рухавіка.

Што папярэдняя рэгістрацыя прадухіляе

Першасныя бенчмаркі вядомыя тым, што раздуваюць уласныя лічбы праз постфактумную наладу рубрыкі. Узор амаль заўсёды аднолькавы: каманда запускае рухавік, бачыць, дзе ён недаацэньвае, а потым ціха карэктуе рубрыку так, каб недаацэненыя вобласці ўлічваліся менш. Калі зафіксаваць рубрыку ў зыходным кодзе да першага выкліку рухавіка і апублікаваць хэйрнэс пад ліцэнзіяй MIT, гэтая карэкцыя становіцца бачнай у сістэме кантролю версій. Любая асоба можа кланаваць рэпазіторый, праверыць даты аўтарства рубрыкі і пераканацца, што вынікі рухавіка не выкарыстоўваліся для фармавання ацэнкі.

Пасткі гіпердыягностыкі — чаму празмернае «закліканне» (over-calling) з’яўляецца сапраўдным рэжымам збою

Агрэсыўнае празмернае «прызначэнне» паталогіі на нармальных скрынінгах — задокументаваны рэжым збою спажывецкіх медыцынскіх асістэнтаў. Яго наступныя выдаткі ўключаюць непатрэбнае абследаванне, трывожнасць пацыента і ятрагенную (пабочную) дыягнастычную/лячэбную праверку. Два кейсы-пасткі ў гэтым бенчмарку распрацаваны, каб зрабіць гэты рэжым збою бачным і ацэнюемым.

🟡 Пастка 1 — BT-014-GILBERT

Прадстаўленне. Мужчына 24 гадоў з агульным білірубіну 2.4 мг/дл. Прамое фракцыя нармальная, трансаміназы і шчолачная фасфатаза знаходзяцца ў межах сваіх даведачных дыяпазонаў, ретыкулоциты нічым не вылучаюцца, а гаптаглабін і LDH выключаюць гемоліз.

Правільная інтэрпрэтацыя. Сіндром Гілберта — дабраякасны палімарфізм UGT1A1. Інтэрпрэтацыя не павінна выклікаць гепатыт, цыроз, гемалітычную анемію або біліярную абструкцыю.

Вынік V11. Сукупны 1.000. Ні адзін з шасці кантраляваных сцяжкоў празмернай дыягностыкі не з’явіўся як актыўны дыягназ.

🟡 Пастка 2 — BT-015-HEALTHY

Прадстаўленне. Жанчына 35 гадоў з пятнаццаціпараметровай звычайнай панэллю скрынінгу. Кожны аналізат знаходзіцца зручна ў межах свайго даведачнага дыяпазону.

Правільная інтэрпрэтацыя. Пацверджанне і падтрымка здаровага ладу жыцця. Расшыфроўка не павінна выдумляць пагранічную паталогію, каб выглядаць клінічна карыснай.

Вынік V11. Кампазіт 1.000. Ні адзін з сямі кантраляваных сцяжкоў гіпердыягностыкі — дыябет, анемія, гіпатырэёз, дысліпідэмія, гепатыт, хвароба нырак, дэфіцыт — не з’явіўся як актыўны дыягназ.

Праз абодва пасткі было праверана трынаццаць кантраляваных сцяжкоў гіпердыягностыкі. Нічога не спрацавала. Гэта вынік, які найбольш важны для любога клініцыста, які разглядае выкарыстанне AI-рухавіка як інструмента трыяжу або перадкансультацыйнай ацэнкі: сістэма не вынайшла хваробу там, дзе яе не было.

Індэкс Ментзера: адрозненне дэфіцыту жалеза ад прыкметы таласеміі

Другі вынік высокай каштоўнасці датычыцца спалучэння кейса BT-001 (жалезадэфіцытная анемія) з кейсам BT-007 (бэта-таласемія малая). Абодва станы праяўляюцца мікрацытозам і з’яўляюцца добра вядомай перашкодай для наіўных класіфікатараў. Індэкс Ментцэра, разлічаны як MCV, падзелены на колькасць RBC, перавышае 13 пры жалезадэфіцыце і падае ніжэй за 13 пры прыкметах таласеміі.

У BT-001 пацыенткай была 34-гадовая жанчына з гемаглабінам 10.4 г/дл, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферытын 6 нг/мл і павышаным TIBC. Індэкс Ментцэра прыкладна 17.7 падтрымлівае абсалютны жалезадэфіцыт. У BT-007 пацыент быў 28-гадовым мужчынам з мікрацытозам (MCV 65.8 фл), але з высокай колькасцю RBC 6.2, нармальным RDW, нармальным ферытыном і HbA2 5.6 працэнта. Індэкс Ментцэра прыкладна 10.6 паказвае на прыкметы таласеміі, а павышаны HbA2 пацвярджае бэта-таласемію малую.

Жалезадэфіцытная анемія Ментцэр > 13 Нізкі ферытын, нізкі TSAT, высокі TIBC, павышаны RDW

Прыкметы бэта-таласеміі Ментцэр < 13 Нармальны ферытын, нармальны RDW, павышаны HbA2 (>3.5%), высокая колькасць RBC

Абодва кейсы набралі 1.000. Рухавік выкарыстаў індэкс Ментцэра экспліцытна ў абодвух інтэрпрэтацыях і вярнуў правільны дыягназ у кожным выпадку. Гэта адзіны найбольш клінічна заспакойваючы вынік ва ўсім бенчмарку, бо памылковае класіфікаванне прыкмет таласеміі як жалезадэфіцыту прыводзіць да неадпаведнага прызначэння прэпаратаў жалеза і да прапушчаных магчымасцяў сямейнага скрынінгу, а памылковае класіфікаванне жалезадэфіцыту як таласеміі затрымлівае простую замяшчальную тэрапію. Наша дыяпазон для ферытыну тлумачыць шырэйшы дыферэнцыяльны кантэкст.

Вынікі па кожным кейсе з першапачатковага эталоннага запуску V11 (23 красавіка 2026)

Арыгінальны эталонны запуск V11 у кагорце proof-of-concept на 15 кейсаў служыць як метадалагічная аснова Second Update: кожная дэталь па кожным кейсе ніжэй паказвае, як рубрыка апрацоўвае рэальны адказ рухавіка. Дванаццаць з пятнаццаці кейсаў дасягнулі столі компазітнага бала 1.000 па асноўным шляху; тры кейсы былі апрацаваныя праз запасны шлях Phase 2, страціўшы бонус да затрымкі 0.05, але захаваўшы ўвесь клінічны і структурны змест. Адзін кейс не меў аднаго абавязковага падраздзелу; адзін вярнуў суму размеркавання верагоднасцяў, зменшану на нязначную велічыню.

Ідэнтыфікатар кейса Спецыяльнасць Сукупны Латэнтнасць Шлях

BT-001-IDAГематалогія1.00017.8 сасноўны

BT-006-B12Гематалогія1.00018.4 сасноўны

BT-007-THALГематалогія1.00017.0 сасноўны

BT-002-HASHЭндакрыналогія0.95037.0 сзапасны варыянт

BT-008-PCOSЭндакрыналогія0.98718.6 сасноўны

BT-003-T2DMМетабалічны1.00019.1 сасноўны

BT-013-GOUTМетабалічны1.00019.4 сасноўны

BT-004-NAFLDгепаталогія1.00019.6 сасноўны

BT-009-VIRHEPгепаталогія0.95023.4 сзапасны варыянт

BT-014-GILBERTпастка1.00018.9 сасноўны

BT-005-CKDНефралогія1.00017.4 сасноўны

BT-010-ASCVDКардыялогія1.00019.7 сасноўны

BT-011-SLEРэўматалогія0.98118.2 сасноўны

BT-012-VITDЭндакрыналогія1.00019.3 сасноўны

BT-015-HEALTHYпастка1.00018.7 сзапасны варыянт

Справа з ПКЯ (BT-008) страціла адну абавязковую падраздзел у структуры адказу — пятнаццаць з шаснаццаці замест шаснаццаці з шаснаццаці — што знізіла структурны бал з 1.000 да 0.963. Справа з СКВ (BT-011) вярнула нязначна зніжаную суму верагоднасна-размеркаваных значэнняў, якая знізіла клінічны бал да 0.965, пры гэтым захаваўшы кожны дыягнастычны ключавы тэрмін і сістэму ацэнкі. Ні адна з дзвюх спраў з недахопам не прапусціла правільны дыягназ.

Агульны (aggregate) бал V11 Second Update — 100,000 кейсаў

У маштабе насельніцтва асобныя радкі выпадкаў не чытэльныя для чалавека, таму Другі абнаўленне паведамляе агрэгаваныя метрыкі, а не табліцу з 100 000 радкоў. Асноўны агрэгат паказаны ніжэй; разбіўкі па спецыяльнасцях і па краінных мітках апублікаваны ў тэхнічным справаздачы і ў дэпазіце Figshare. Стратыфікаваны выпадковы выбар n = 201 сырых адказаў рухавіка (дэтэрмінаваны seed 20260426) апублікаваны ў GitHub results/ дырэкторыі для агляду.

Компазітны бал V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 па ўсёй кагорце з 100,000 кейсаў

Структурны бал (сярэдні) V11 initial: 0.998 → Second Update: 1.000 Ідэальнае структурнае адпаведнасць на ўзроўні насельніцтва

Клінічны бал (сярэдні) V11 initial: 0.998 → Second Update: 0.996 −0.002; ніводны кейс не прапусціў сам дыягназ

Затрымка — сярэдняе (дыяпазон) Пачатковае V11: 20,17 с (17,0–37,0 с) → Другое абнаўленне: 13,26 с (9,0–16,94 с) Аптымізацыі вытворчага рухавіка паміж запускамі

Шлях рухавіка = асноўны Пачатковае V11: 12 / 15 → Другое абнаўленне: 100,000 / 100,000 Ні ў адной момант падчас запуску не спатрэбілася рэзервовае рашэнне Phase 2

Прапускныя (trap-subset) гіпердыягнастычныя флагі Пачатковае V11: 0 / 13 → Другое абнаўленне: 0 / 87,412 Нулявыя ілжывыя спрацоўванні ў маштабе папуляцыі (8 723 выпадкі trap кантраляваліся)

Што не паведамляе нам загалоўны бал

Кампазітны бал 99.80 працэнта па гэтай канкрэтнай загадзя зарэгістраванай рубрыцы для сінтэтычнай кагорты з 100,000 кейсаў, што ахоплівае 127 краінавых пазнак, адпавядае амаль «потолкавай» прадукцыйнасці — але гэта патрабуе ўважлівага фармулёўкі. Вынік апісвае паводзіны рухавіка адносна рубрыкі, якую мы абавязаліся ўключыць у зыходны код у V11; гэта не ўніверсальная заява пра карэктнасць рухавіка для кожнай панэлі аналізу крыві, якая існуе ў рэальным свеце.

Паказчык кажа, што рухавік правільна апрацаваў дыягнастычныя шаблоны, выбраныя для гэтай ацэнкі, на кагорце маштабу папуляцыі, з выкарыстаннем метадалогіі, якая апублікаваная і якую можна паўтарыць. Ён не кажа, што рухавік правільны для кожнай панэлі аналізу крыві, якая існуе ў рэальным свеце. Ён не кажа, што рухавік павінен замяніць меркаванне клініцыста. І ён не кажа, што рухавік пераўзыходзіць альтэрнатыўныя сістэмы AI — параўнальныя аналізы з іншымі рухавікамі наўмысна не ўваходзілі ў межы гэтага справаздачы.

Што гэты паказчык сапраўды ўстанаўлівае — гэта базавы ўзровень. Калі рубрыка і «хайрнэс» (harness) публічныя, будучыя версіі рухавіка можна ацэньваць адносна той самай рубрыкі — прымяняючы яе да пачатковых 15 кейсаў V11, кагорты з 100 000 кейсаў Другога абнаўлення або да любога наступнага пашырэння — а розніца паміж апублікаваным паказчыкам і любым наступным запускам сама па сабе паддаецца вымярэнню. Вось каштоўнасць загадзя рэгістрацыі: яна пераўтварае сцвярджэнні аб прадукцыйнасці ў правяральныя сцвярджэнні.

Як паўтарыць гэты бенчмарк за 10 хвілін

Для паўтарэння патрэбна толькі пара ўліковых дадзеных API Kantesti і асяроддзе Python 3.10 або пазнейшае з requests і reportlab бібліятэкі, усталяваныя. Поўны апарат — гэта адзін адзіны самадастатковы модуль Python, выпушчаны пад ліцэнзіяй MIT.

💻 GitHub Апараты з ліцэнзіяй MIT · сырыя адказы · эталонны запуск 🔗 DOI Figshare 10.6084/m9.figshare.32095435 · кананічны акадэмічны запіс 🎓 ResearchGate Публікацыя 404175463 · V11 Другое абнаўленне · акадэмічны ўзровень адкрыцця 📄 Academia.edu Праца 165956808 · V11 Другое абнаўленне · акадэмічны ўзровень адкрыцця

Чатыры крокі для новага запуску

Адзін. Кланіруйце рэпазіторый: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Усталюйце залежнасці з pip install -r requirements.txt (Другое абнаўленне дадае mysql-connector-python ≥ 8.0 для SQL case loader). Тры. Усталюйце KANTESTI_USERNAME і KANTESTI_PASSWORD як зменныя асяроддзя для API рухавіка. Для SQL case loader Другога абнаўлення таксама задайце KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USERі KANTESTI_DB_PASSWORD — загрузчык падключаецца праз ролю толькі для чытання (bench_reader) якая не мае прывілеяў на ідэнтыфікацыю табліц. Чатыры. Запусціце python benchmark_bloodtest.py --limit 100000 для поўнага запуску Second-Update, або python benchmark_bloodtest.py --limit 1000 для хуткай ітэрацыі. Вынікі трапляюць у ./benchmark_results/: CSV-картка балаў з калонкамі па краінных мітках і спецыяльнасцях, JSON-агрэгат, стратыфікаваны выпадковы выбар сырых адказаў і Markdown-справаздача.

Даведачныя запускі ад 23 красавіка 2026 г. (V11 пачатковы, 15 кейсаў) і ад 26 красавіка 2026 г. (V11 Second Update, 100,000 кейсаў) захаваны ў results/ каталогу рэпазіторыя. Новы запуск створыць новую картку ацэнак з пазнакай часу, не змяняючы даведачныя запускі. Калі ваш запуск дае істотна іншы вынік, калі ласка, адкрыйце GitHub issue з пазнакай часу запуску і версіяй рухавіка, указанай у метаданых адказу.

Абмежаванні і будучыя працы

Нават пры 100 000 выпадкаў па 127 краінных мітках, чатыры абмежаванні заслугоўваюць відавочнага прызнання: недастатковая выбарка мітак доўгага хваста, ацэнка за адзін раз, абмежаваны ахоп адной мадэллю рухавіка і паходжанне даных з адной крыніцы. Кожнае з іх апрацоўваецца ў актыўнай наступнай працы.

Ахоп мітак доўгага хваста. Другі абнаўленне ахоплівае 127 краінных мітак, але размеркаванне нераўнамернае — топ-10 мітак складаюць ≈66.4% выпадкаў, а доўгі хвост з 97 дадатковых мітак разам дае ≈7.3% (прыкладна 7 300 выпадкаў разам, ~75 выпадкаў на мітку ў сярэднім). Такім чынам, пера-міткавыя кампазіты ў гэтым доўгім хвасце больш шумныя, чым мяркуе загалоўная статыстыка. Будучыя запускі перабалансуюць прызначэнне мітак, каб удакладніць ацэнкі па кожнай мітцы.

Ацэнка за адзін раз. Кожны кейс у кагорце ацэньваўся адзін раз. Вялікія моўныя мадэлі дэманструюць істотную варыябельнасць вываду нават пры нізкай тэмпературы выбаркі, таму шматразавы пратакол з пяццю ацэнкамі на кейс і паведамленай дысперсіяй з’яўляецца натуральным наступным крокам — асабліва для падмноства trap-case, дзе ўзгодненасць пры «джітэры» выбаркі з’яўляецца часткай сцвярджэння аб бяспецы.

Абмежаванне адным рухавіком. Гэтая справаздача характарызуе адзін рухавік. Параўнальныя аналізы з альтэрнатыўнымі сістэмамі AI тут не ўваходзяць у абсяг; мы можам правесці іх як асобнае незалежнае даследаванне з адпаведнай методыкай, выкарыстоўваючы той самы harness, ліцэнзаваны MIT.

Сінтэтычныя даныя. 100,000 кейсаў сінтэтычна згенераваныя, а не «сінтэтычныя кейсы», і вынікі не пераносяцца на рэальную клінічную прадукцыйнасць. Ацэнка на рэальных, атрыманых з згоды і знешніх крыніц даных патрабавала б адпаведнага этычнага нагляду і не ўваходзіць у рамкі гэтага сінтэтычнага бенчмарку.

Акрамя гэтых чатырох, найбольш значнае запланаванае пашырэнне — шматмоўная параўнальнасць па юрысдыкцыях. Kantesti AI Engine абслугоўвае карыстальнікаў на 75+ мовах, і запуск моўна-стратыфікаваных падкагорт Second-Update (турэцкая, нямецкая, іспанская, французская, італьянская, партугальская, арабская, мандарынская) дазволіць колькасна ацаніць якасць вываду на падтрымоўваных рухавіком мовах. Кожны моўна-стратыфікаваны аналіз будзе апублікаваны з уласным DOI і галінай harness.

Паспрабуйце той самы рухавік, які дасягнуў кампазітнага бала 99.80% на 100,000 кейсаў

Загрузіце ўласную панэль аналізу крыві ў тую ж вытворчую канчатковую кропку (endpoint), якая была ацэненая ў гэтым бенчмарку. Больш за 2 мільёны карыстальнікаў па ўсім свеце выкарыстоўваюць Kantesti AI Engine, каб расшыфроўваць больш за 15,000 біямаркераў на 75+ мовах.

🔬 Паспрабуйце бясплатную дэма-версію

Пашырэнне Chrome Крама праграм Google Play

📚 Як цытаваць гэты бенчмарк

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Папярэдне зарэгістраваны, рубрыка-арыентаваны аўтаматызаваны тэхнічны бенчмарк інтэрпрэтацыйнага рухавіка аналізу крыві Kantesti на 100 000 сінтэтычных тэставых выпадках — V11 Другое абнаўленне (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Знешнія метадалагічныя спасылкі

Mentzer, W. C. (1973). Адрозненне дэфіцыту жалеза ад прыкметы таласеміі. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Класіфікацыйныя крытэрыі Еўрапейскай лігі супраць рэўматызму / Амерыканскага каледжа рэўматалогіі для сістэмнага чырвонага ваўчанку (2019). Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Тэст на галюцынацыі ў медыцынскай дамене для вялікіх моўных мадэляў. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Кампазітны бал

100,000Ацэненыя выпадкі

127Ахопленыя краінныя міткі

0 / 87,412Пастка ілжывых спрацоўванняў

Часта задаваныя пытанні

Насколько точно працуе AI-рухавік Kantesti на сінтэтычных тэставых выпадках?

На папярэдне зарэгістраванай рубрыцы, на 100 000 сінтэтычна згенераваных тэставых выпадках у васьмі сферах зместу і 127 краінах (V11 Другое абнаўленне) рухавік дасяг складанага бала 99,80 працэнта, без прапускаў гіпердыягностыкі ў 87 412 адсочваных магчымасцях пасткі і сярэдняй затрымкі адказу 13,26 секунды. Гэты складаны паказчык вымярае адпаведнасць вываду на сінтэтычных уводах, а не дыягнастычную дакладнасць. Першапачатковы выпуск V11 правяраў тую ж рубрыку на 15 уручную сфарміраваных выпадках (складаны бал 99,12%); Другое абнаўленне захоўвае рубрыку байт-у-байт і пашырае яе да большай сінтэтычнай кагорты. Поўная табліца вынікаў апублікавана на Figshare пад DOI 10.6084/m9.figshare.32095435 і на GitHub пад ліцэнзіяй MIT.

Ці прайшоў Kantesti AI Engine клінічную валідацыю?

Не. Рухавік быў ацэнены з дапамогай аўтаматызаванага тэхнічнага бенчмарка (не клінічнай валідацыі) па рубрыцы, якая была замарожана ў зыходным кодзе да першапачатковага запуску V11 і захавана байт-у-байт ідэнтычнай для Другога абнаўлення V11, на 100 000 сінтэтычных выпадках аналізу крыві па гематалогіі, эндакрыналогіі, метабалічнай медыцыне, гепаталогіі, нефралогіі, кардыялогіі, рэўматалогіі і ўнутранай медыцыне, узятых з 127 краінных мітак. Клінічны нагляд ажыццяўляў доктар Томас Кляйн, MD (ORCID 0009-0009-1490-1321), сертыфікаваны саветам клінічны гематолаг і галоўны медыцынскі дырэктар у Kantesti AI.

Што такое выпадак «гіпердыягнастычнай пасткі»?

«Пастка гіпердыягностыкі» — гэта клінічны сцэнар, спецыяльна распрацаваны для выяўлення паводзін празмернай дыягностыкі ў AI-рухавіках. Першапачатковы бенчмарк V11 выкарыстоўваў два такія выпадкі як метадалагічны доказ канцэпцыі: ізаляваную ўскосную гіпербілірубінемію, адпаведную сіндрому Гілберта (дзе правільная інтэрпрэтацыя — дабраякасны палімарфізм UGT1A1, а не гепатыт або гемоліз), і цалкам нармальную панэль скрынінгу для дарослых (дзе правільны вынік — заспакаенне, а не сфармаваная памежная паталогія). Другое абнаўленне V11 маштабавала гэтую метадалогію пасткі да спецыяльнай падвыбаркі з 8 723 выпадкаў, што дало 87 412 магчымасцяў для маніторынгу флагаў гіпердыягностыкі — і хібна-пазітыўны паказчык рухавіка заставаўся роўным нулю.

Ці можна паўтарыць ацэнку Kantesti AI Engine?

Поўны ацэначны «harness» (платформа для праверкі) выдадзены па ліцэнзіі MIT як адзін самадастатковы модуль Python. Для першапачатковага запуску V11 патрэбныя толькі пары ўліковых дадзеных API Kantesti і Python 3.10 або пазней. Другое абнаўленне V11 дадае параметрызаваны, толькі для чытання загрузчык SQL-выпадкаў, які патрабуе ўліковых дадзеных клінічнага рэпазітара Kantesti (роля bench_reader без прывілеяў на ідэнтыфікацыю табліц). Код, SQL загрузчыка выпадкаў, рубрыка (байт-у-байт ідэнтычная паміж рэлізамі) і стратыфікаваная выпадковая выбарка сырых адказаў рухавіка як з першапачатковага запуску V11, так і з эталонных прагонаў Другога абнаўлення даступныя на github.com/emirhanai/kantesti-blood-test-benchmark і адлюстраваныя на Figshare, ResearchGate і Academia.edu.

Як Kantesti AI Engine адрознівае дэфіцыт жалеза ад прыкметы бэта-таласеміі?

Рухавік прымяняе індэкс Ментцэра, разлічаны як сярэдні аб’ём эрытрацытаў, падзелены на колькасць эрытрацытаў. Індэкс Ментцэра вышэй за 13 падтрымлівае жалезадэфіцытную анемію, а значэнне ніжэй за 13 — прыкмету бэта-таласеміі. У першапачатковым бенчмарку V11 абодва сцэнары былі класіфікаваныя правільна з відавочным разлікам індэкса Ментцэра, што падтрымліваўся ферытыном, RDW і кантэкстам HbA2. Падчас Другога абнаўлення V11 у кагорце з 100 000 выпадкаў тая ж дыферэнцыяльная паводзіна захоўвалася на ўзроўні папуляцыі.

Дзе я магу знайсці зыходныя даныя для параўнальных паказчыкаў і зыходны код?

Тэхнічны справаздачны дакумент размешчаны на Figshare пад DOI 10.6084/m9.figshare.32095435 (ахоплівае і першапачатковы рэліз V11, і Другое абнаўленне V11), адлюстраваны на ResearchGate publication 404175463 і Academia.edu paper 165956808 — абодва абноўлены назвай Другога абнаўлення V11 і вынікамі для 100 000 выпадкаў — а Python-«harness» з ліцэнзіяй MIT з усімі вынікамі эталонных прагонаў даступны на github.com/emirhanai/kantesti-blood-test-benchmark. Сетка люстэркаў на чатырох платформах забяспечвае доўгатэрміновую даступнасць і гнуткасць цытавання.

Чаму важная папярэдняя рэгістрацыя для AI-медыцынскіх бенчмаркаў?

Папярэдняя рэгістрацыя прадухіляе «постфактум» наладку рубрыкі, што з’яўляецца адным з самых распаўсюджаных спосабаў, як бенчмаркі, якія праводзяцца кампаніямі, штучна павялічваюць свае ўласныя паказчыкі. Калі рубрыку фіксуюць у зыходным кодзе да любога выкліку рухавіка і публікуюць «harness» публічна, даты аўтара рубрыкі становяцца правяральнымі ў сістэме кіравання версіямі, і вынікі рухавіка не маглі паўплываць на крытэрыі ацэнкі.

Ці ўключае гэты бенчмарк параўнанні з іншымі AI-рухавікамі?

Не. Справаздача V11 — і для першапачатковага рэлізу, і для Другога абнаўлення — наўмысна характарызуе адзін рухавік у параўнанні з фіксаванай рубрыкай, а не размяшчае яго ў параўнанні з альтэрнатыўнымі камерцыйнымі сістэмамі. «Harness» з адкрытым зыходным кодам па ліцэнзіі MIT (цяпер уключаючы SQL-загрузчык выпадкаў), таму незалежныя даследчыкі могуць ацэньваць любы рухавік, які яны выберуць, у параўнанні з той самай рубрыкай і загрузчыкам выпадкаў і публікаваць свае вынікі.

Ці рэальныя выпадкі пацыентаў або сінтэтычныя?

Усе выпадкі сінтэтычна згенераваныя — 15 уручную сфарміраваных выпадкаў у першапачатковым выпуску V11 і 100 000 у Другім абнаўленні. Гэта не сінтэтычныя выпадкі: не выкарыстоўваюцца сінтэтычныя даныя, няма працэсу згоды і няма дэідэнтыфікацыі, бо ў кагорце не існуе персанальных даных. Ніякія персанальныя даныя не з’яўляюцца ў апублікаваным harness, тэхнічным справаздачы або выпушчаных наборах даных.

⚕️ Медыцынскае папярэджанне і канфлікт інтарэсаў

Гэты справаздачны даклад бенчмарка прызначаны для даследчых і метадалагічных мэтаў празрыстасці. Ён не з’яўляецца медыцынскай парадай, не з’яўляецца дыягназам і не замяняе прафесійную медыцынскую дапамогу; ніводны вынік тут не павінен выкарыстоўвацца, каб адкласці або пазбегнуць наведвання ўрача. Заўсёды кансультуйцеся з кваліфікаваным спецыялістам у галіне аховы здароўя для прыняцця рашэнняў адносна дыягностыкі і лячэння. Гэта самастойна запушчаны ўнутраны бенчмарк уласнага рухавіка кампаніі і не быў незалежна правераны або peer-reviewed. Компазітны бал вымярае адпаведнасць фіксаванай рубрыцы (структура справаздачы, адкліканне па ключавых словах і сістэме ацэнкі, а таксама латэнтнасць); ён не з’яўляецца мерай рэальнай дыягнастычнай дакладнасці або клінічнай бяспекі. Абодва аўтары працуюць у Kantesti Ltd і маюць долю ўласнасці, а рухавік, які ацэньваецца, з’яўляецца камерцыйным прадуктам той жа арганізацыі. Гэты канфлікт інтарэсаў змякчаецца шляхам папярэдняй рэгістрацыі рубрыкі ў зыходным кодзе, выпуску harness па ліцэнзіі MIT і публікацыі стратыфікаванага выпадковага выбарчага набору сырых адказаў рухавіка.

Сігналы даверу E-E-A-T

⭐

Вопыт

15+ гадоў клінічнай практыкі ў гематалогіі і лабараторнай медыцыне, з наглядам за адборнай панэллю выпадкаў.

📋

Экспертыза

Дызайн рубрыкі, зарэгістраваны загадзя, з відавочнымі штрафамі за гіпердыягностыку і прызнанымі клінічнымі сістэмамі ацэнкі (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Аўтарытэтнасць

Галоўны аўтар доктар Томас Кляйн, доктар медыцынскіх навук (ORCID 0009-0009-1490-1321). Укараненне — Джуліан Эмірхан Булут, генеральны дырэктар Kantesti Ltd.

🛡️

Надзейнасць

«Harness» для паўтарэння з ліцэнзіяй MIT, апублікаваныя сырыя адказы рухавіка, адкрытае раскрыццё канфлікту інтарэсаў, сетка даследчых люстэркаў на чатырох платформах.

🏢 ТАА «Кантэсці» Зарэгістравана ў Англіі і Уэльсе · Кампанія №. 17090423 Лондан, Вялікабрытанія · kantesti.net