Нигә бу эталон бар һәм ул нәрсәне тикшерә
AI ярдәме белән кан анализы нәтиҗәләрен ничек укырга куллану кулланучылар һәм клиник эш процессларында көннән-көн арта бара, әмма лаборатория медицинасына туры китерелгән кабатланырлык бәяләү рамкалары сирәк очрый. Бу шартларда иң мөһим сораулар гомуми медицина сорау-җавап күрсәткечләре белән капланмый: уртача эритроцит күләме бер үк булганда двигатель тимер җитешмәүне талассемия билгеләреннән аера аламы, Гилберт синдромын гепатит итеп артык диагноз куямы, һәм тулы нормаль скрининг панелендә патология «ясый» аламы?
Бер кан анализы панеле гадәттә берничә көндәшле аңлатманы дәвам итәрлек сигналны үз эченә ала, ә аңлатучы табибның бурычы — аларны бер-берсенә чагыштырып үлчәү, ә дәреслек җавабын эзләп табу түгел. Дәреслек очракларында яхшы эшли торган «двигатель» иң мөһим булган очракларда һаман да уңышсыз булырга мөмкин: дифференциаль-диагноздагы «тозаклар», аерым алганда куркыныч булып күренгән, әмма зарарсыз вариантлар, һәм 100% нормаль панельләр — алар ышанычлы ярдәмчеләрне патология «ясап чыгару»га этәрә.
Бу бенчмарк нәкъ шушы уңышсызлык режимнары тирәсендә төзелде. Унбиш очракның һәркайсы билгеле бер диагностик үзлек өчен сайланды: тимер җитешмәү аркасындагы микроситоз, аны бер үк уртача эритроцит күләме (MCV) булган бета-талассемия билгесеннән аерым тотарга кирәк; Гилберт синдромы күренеше, анда бердәнбер аномалия — аерымланган непрям (индирект) гипербилирубинемия; һәм унбиш параметрлы скрининг панеле, анда һәр анализ күрсәткече үзенең белешмә диапазоны эчендә. Рубрика һәр очракны үз шартларында укый торган двигательләрне бүләкли һәм андый диагноз нигезле булмаган очракта ышанычлы диагнозга «тотынган» двигательләрне җәзалый.
Доктор Томас Кляйн буларак, мин очраклар панелен сайладым, чөнки лаборатория-медицина ярдәмчеләре иң еш ялгыша торган үрнәкләр шулар. Иң кыйммәтле уңышсызлык режимы "сирәк авыруны үткәреп җибәрү" түгел — ә аны булмаган пациентларда гадәти патологияне уйлап чыгару. Безнең Медицина тикшерүе hub киңрәк рамканы тасвирлый; бу бит аның V11 двигателендә кулланылган нәтиҗәсен тасвирлый.
Соңгы белешмә йөгереш — V11 (2026 елның апреле)
Kantesti AI Engine V11 өчен 2026 елның апрель айындагы белешмә йөгертү (reference run) түбәндәге составлы баллны бирде: 99.12% алдан теркәлгән унбиш очраклы рубрика буенча. Гипердиагноз тозакларының икесе дә иң югары чиккә кадәр балл җыйды. Тимер җитешмәү — талассемия дифференциалы буенча Mentzer индексы дөрес кулланылды.
Составлы формула өч компонентны берләштерә: структур туры килү җиде мәҗбүри отчет бүлеге һәм унбиш алты мәҗбүри бүлекчә белән, клиник төгәллек ачкыч сүзләрне искә төшерү (keyword recall) + балллау системасын искә төшерү (scoring-system recall) + ихтималлык-тарату дөреслеген тикшерү аша үлчәнә, һәм җавап тоткарлыгы 20 секундлык төп сервис дәрәҗәсе максатына каршы. Төгәл бүленеш түбәндәге рубрика формуласында күрсәтелгән.
Калган 0,88 процент пункт «запас»ның диярлек барысы да тоткарлык югалтуына таркала — һәрберсе составлы бәясе -0,05 булган өч Phase 2 кире планга чакыру 0,88 пунктлык кимчелекнең якынча 0,60 өлешен китерде — клиник эчтәлеккә түгел. Мотор унбиш очракның берсендә дә дөрес диагнозны «сагынмады»; кайда җитешмәде, ул күпчелек чакыруларда түгел, ә азчылык очракларда 20 секундлык төп максаттан бераз озаграк эшләп җитмәү рәвешендә булды.
Җиде медицина белгечлеге буенча унбиш очрак
Очраклар панеле җиде белгечлекне — гематология, эндокринология, метаболик медицина, гепатология, нефрология, кардиология, ревматология — һәм шулай ук ике махсус гипердиагностика «капкан» очрагын үз эченә ала. Һәр очрак — язмача мәгълүматлы ризалык нигезендә Kantesti клиник мәгълүматлар репозитарийыннан алынган анонимлаштырылган реаль пациент язмасы.
Де-идентификация Safe Harbor алымы буенча башкарылды: барлык туры идентификаторлар бетерелде яки алыштырылды, һәм һәр язма BT-NNN-LABEL форматында «benchmark-internal» очрак коды белән билгеләнде. Процессләү GDPR 9(2)(j) маддәсе нигезендә тиешле саклагычлар белән фәнни тикшеренү өчен, һәм аңа тиң булган Бөекбритания GDPR нигезләмәләре буенча башкарылды. Басылып чыккан «harness»та, техник докладта яки чыгарылган мәгълүмат җыелмаларының берсендә дә шәхесне ачыклаучы мәгълүмат күренми.
Нигә нәкъ бу бүленеш
Гематология өч очрак ала, чөнки микроситик дифференциальләр һәм макроситик дифференциальләр реаль дөнья лаборатория практикасы өчен иң күп күләмле «капкан» булып тора. Эндокринология өч очрак ала, чөнки Хашимото, PCOS һәм D витамины җитешсезлеге күренешләре төрле диагностик формаларны күнектерә (автоантитәнгә нигезләнгән, гормон нисбәтенә нигезләнгән, бер маркерга нигезләнгән). Бер очраклы белгечлекләр һаман да мәгънәле, чөнки һәрберсе — CKD, ASCVD куркынычы һәм SLE — үзенең балллау системасына ия, ә двигатель аны чакырырга тиеш (KDIGO стадиясе, ASCVD 10 еллык куркыныч, һәм 2019 EULAR/ACR SLE критерийлары).
Алдан теркәлгән rubric-ны аңлату
Регистрга алдан кертү (pre-registration) — бу бенчмаркта иң мөһим методологик сайлау. Көтелгән һәрбер диагноз, һәрбер клиник балллау системасы һәм һәрбер доклад бүлеге чыганак кодка беркетелгән двигатель чакырылганчы. Шуңа күрә двигательне «ялагайлау» өчен рубриканы пост-хок көйләү мөмкин түгел.
Композит баллны өч компонент тәшкил итә. структур компонент 35 процент өлеш кертә һәм двигательнең җиде мәҗбүри доклад бүлеген (башлык, кыскача йомгак, төп нәтиҗәләр, дифференциаль, балллау системалары, тәкъдимнәр, күзәтү) һәм алар эчендәге ун алты мәҗбүри бүлекчәне кайтарган-кайтармаганын үлчәп чыга. Бүлек булуы структур исәпләүдә 40 процент, ә бүлекчә булуы 60 процент авырлыкка ия.
.Әр сүзнең клиник компонент 55 процент өлеш кертә һәм өч нәрсәне берләштерә: диагноз-төп сүзләрне искә төшерү (клиник суб-баллның 70 проценты), балллау системасын искә төшерү (20 процент — двигатель кирәк булганда Mentzer, FIB-4, HOMA-IR, ASCVD куркынычын, KDIGO стадиясен, EULAR/ACR критерийларын исәплиме), һәм ихтималлар суммасының дөреслеген тикшерү (10 процент — дифференциаль ихтималлар [90, 110] интервалында суммаланырга тиеш). «Капкан» очраклар өчен ачык гипердиагноз штрафы максимум 0.30 итеп алына, ул ясалма патология флагы өчен 0.10 итеп исәпләнә һәм өч флаг белән чикләнә.
.Әр сүзнең тоткарлык (latency) компоненты 10 процент өлеш кертә. 20 секундтан ким җавап тулы 0.10 ала, 40 секундтан ким җавап 0.05 ала, ә аннан әкренрәкнең барысы нуль. 20 секундлык максат — җитештерүнең төп primary-path сервис дәрәҗәсе максаты; 40 секундлык чик — авыр-двигатель чакырулары өчен 2 нче фаза fallback бюджеты.
Pre-registration нәрсәне булдырмый
Беренче зат (first-party) бенчмарклар пост-хок рубриканы көйләү аша үз саннарын арттыру белән данлы. Үрнәк диярлек һәрвакыт бер үк: команда двигательне эшләтә, кайда түбәнрәк эшләвен күрә, аннары түбәнрәк эшләгән өлкәләр азрак санала торган итеп рубриканы тыныч кына көйләп куя. Рубриканы беренче двигатель чакыруы алдыннан чыганак кодка беркетеп һәм harness-ны MIT лицензиясе астында бастырып, бу көйләү версия контролендә күренеп тора. Кем дә булса репозиторийны клонлый, рубрика автор даталарын тикшерә һәм двигатель нәтиҗәләре балллауны формалаштыру өчен кулланылмаганын раслый ала.
Гипердиагностика капканы — ни өчен артык әйтү (over-calling) төп уңышсызлык режимы
Нормаль экраннарда патологияне катырак «әйтеп җибәрү» — кулланучыга юнәлтелгән медицина ассистентлары өчен документлаштырылган уңышсызлык режимы. Аның түбәндәге чыгымнары кирәксез тикшерү, пациент борчылуы һәм яратып эшләнгән (iatrogenic) тикшерү-дәвалау эшләре белән бәйле. Бу бенчмарктагы ике «капкан» очрагы шушы уңышсызлык режимын күренеп торырлык һәм бәяләнә торлык итеп эшләнгән.
🟡 Trap 1 — BT-014-GILBERT
Күренеш. Гомуми билирубин 2.4 мг/дл булган 24 яшьлек ир-ат. Директ фракция нормаль, трансаминазалар һәм эшкәртүле фосфатаза үзләренең белешмә диапазоннарында, ретикулоцитлар берни белән аерылмый, һәм гаптоглобин белән LDH гемолизны кире кага.
Дөрес аңлатма. Гилберт синдромы — зарарсыз UGT1A1 полиморфизмы. Аңлатма гепатит, цирроз, гемолизлы анемия яки билиар обструкцияне чакырмаска тиеш.
V11 нәтиҗәсе. Композит 1.000. Алты күзәтелгән артык-диагноз флагының берсе дә актив диагноз булып чыкмады.
🟡 Trap 2 — BT-015-HEALTHY
Күренеш. Унбиш параметрлы гадәти скрининг панеле булган 35 яшьлек хатын-кыз. Һәрбер аналит үзенең белешмә диапазоны эчендә уңайлы урнаша.
Дөрес аңлатма. Ышандыру һәм яшәү рәвешен саклау. Төшендерү клиник яктан файдалы булып күренсен өчен чик арасы патологиясен уйлап чыгарырга тиеш түгел.
V11 нәтиҗәсе. Композит 1.000. Җиде күзәтелгән артык диагноз кую сигналларының берсе дә — диабет, анемия, гипотиреоз, дислипидемия, гепатит, бөер авыруы, җитешсезлек — актив диагноз булып чыкмады.
Ике «капкан» буенча да унөч күзәтелгән гипердиагноз сигналлары тикшерелде. Берсе дә эшләтелмәде. Бу — теләсә кайсы клиницист AI двигательне триаж яки консультациягә кадәрге корал итеп кулланырга уйлаганда иң мөһим нәтиҗә: система авыру булмаган урында авыру уйлап чыгармады.
Ментцер индексы: тимер җитешмәүне талассемия билгеләреннән аеру
Икенче югары кыйммәтле табыш — BT-001 очрагын (тимер җитешсезлеге анемиясе) BT-007 очрагы белән (бета-талассемиянең кечкенә формасы) парлаштыру. Икесендә дә микроситоз күзәтелә һәм бу наив классификаторлар өчен киң таралган «тоткарлык». Ментцер индексы, MCV-ны RBC санынә бүлеп исәпләнә, тимер җитешсезлегендә 13-тән артып китә һәм талассемия сыйфатында 13-тән түбән төшә.
BT-001дә пациент 34 яшьлек хатын-кыз иде: гемоглобин 10.4 г/дл, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферритин 6 нг/мл һәм TIBC күтәрелгән. Якынча 17.7 булган Ментцер индексы абсолют тимер җитешсезлеген хуплый. BT-007дә пациент 28 яшьлек ир-ат иде: микроситоз (MCV 65.8 фл), ләкин RBC саны 6.2, RDW нормаль, ферритин нормаль, HbA2 5.6 процент. Якынча 10.6 булган Ментцер индексы талассемия сыйфатын күрсәтә, һәм HbA2-нең күтәрелүе бета-талассемиянең кечкенә формасын раслый.
Ике очрак та 1.000 балл җыйды. Двигатель ике аңлатмада да Ментцер индексын ачык итеп кулланды һәм һәр очракта дөрес диагнозны кайтарды. Бу — бөтен бенчмаркта иң клиник яктан ышандыручы бердәнбер нәтиҗә, чөнки талассемия сыйфатын тимер җитешсезлеге дип ялгыш классификацияләү дөрес булмаган тимер өстәмәләре бирүгә һәм гаилә буенча скрининг мөмкинлекләрен кулдан ычкындыруга китерә, ә тимер җитешсезлеген талассемия дип ялгыш классификацияләү гади алмаштыру терапиясен тоткарлый. Безнең ферритин диапазоны буенча кулланма киңрәк дифференциаль контекстны аңлата.
2026 елның апрель йөгереше нәтиҗәләре (һәр очрак буенча)
Унбиш очрактан ун икесе төп юлда 1.000 максималь композит баллга иреште. Өч очрак 2-нче фаза «fallback» аша хезмәт күрсәтелде, 0.05 латентлык бонусын югалтты, әмма барлык клиник һәм структур эчтәлекне саклап калды. Бер очракта бер генә мәҗбүри бүлек җитмәде; берсе минималь киметелгән ихтималлыклар суммасын кайтарды.
PCOS очрагы (BT-008) җавап структурасында бер мәҗбүри бүлекчә югалтты — алтынадцедән унбиш түгел, ә унбиштән унбиш түгел — бу структур баллны 1,000 дән 0,963 ка киметте. SLE очрагы (BT-011) клиник баллны 0,965 кә төшергән, әмма һәр диагностик ачкыч сүзне һәм балллау системасын саклаган, бераз кимегән ихтимал-распределение суммасын кире кайтарды. Ике дә камил булмаган очрак дөрес диагнозны үткәреп җибәрмәде.
Баш исем баллы безгә нәрсә әйтми
Бу махсус алдан теркәлгән рубрика буенча 99,12 процентлы композит балл түбәгә бик якын эш башкаруны күрсәтә, әмма аны җентекләп аңлатырга кирәк. Нәтиҗә двигательнең унбиш игътибар белән сайланган анонимлаштырылган очракка карата үз-үзен тотышын тасвирлый: һәрберсе бер тапкыр бәяләнгән, һәм барысы да бер генә рубрика буенча. Сан нәрсәгә дә, нәрсәгә дә дәлил булмавын без ачык итеп әйтәбез.
Балл V11 двигателе бу бәяләү өчен сайланган диагностик үрнәкләрне дөрес эшкәрткәнен әйтә, һәм моны басылып чыккан, кабатлап була торган методика буенча эшләгән. Ул двигательнең табигатьтә булган һәрбер кан анализы панелендә дә дөрес булуын әйтми. Ул двигательнең табиб карарын алыштырырга тиешлеген әйтми. Һәм ул двигательнең башка альтернатив AI системаларыннан өстенрәк булуын да әйтми — башка двигательләргә карата чагыштырма анализлар бу доклад кысасына әдейләп кертелмәгән.
Баллның раслый торган нәрсәсе — нигез (база). Рубрика һәм хәрби (harness) җәмәгатьтә булгач, двигательнең киләчәк версияләрен шул ук унбиш очракка каршы бәяләргә мөмкин, һәм басылып чыккан балл белән аннан соңгы һәрбер йөгереш арасындагы аерма үзе дә үлчәнергә мөмкин. Алдан теркәүнең кыйммәте менә шунда: ул эш күрсәтү турындагы дәгъваларны тикшереп була торган дәгъваларга әйләндерә.
Бу күрсәткечне 10 минут эчендә ничек кабатларга
Кабатлау өчен бары тик Kantesti API таныклык парлары һәм Python 3.10 яки аннан соңгы мохит кирәк, анда requests һәм reportlab китапханәләре урнаштырылган. Тулы хәрби бер генә, үз эченә алган Python модуле булып, MIT лицензиясе астында чыгарыла.
Яңа йөгереш өчен дүрт адым
Беренче. Репозиторийны клонлагыз: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Икенче. Бәйлелекләрне урнаштырыгыз pip install -r requirements.txt. Өч. Куй KANTESTI_USERNAME һәм KANTESTI_PASSWORD әйләнә-тирә үзгәрүчәннәре буларак — таныклыклар эш вакытында укыла һәм скриптта бернәрсә дә каты кодланмый. Дүрт. Башкарыгыз python benchmark_bloodtest.py һәм эшләүче каталогка чыгарылган дүрт артефактны тикшерегез: CSV scorecard, JSON scorecard, чимал двигатель җавапларын да кертеп тулы JSON dump һәм кеше укый торган Markdown отчёты.
2026 елның 23 апреленнән булган белешмә йөгереш repository-ның results/ каталогында саклана. Яңа йөгереш яңа вакыт тамгалы scorecard чыгарачак, ә белешмә йөгереш үзгәрешсез калачак. Әгәр сезнең йөгереш мәгънәле рәвештә башка нәтиҗә бирсә, зинһар, GitHub issue ачыгыз: йөгереш вакыт тамгасы һәм җавап мета-мәгълүматында кайтарылган двигатель версиясе белән.
Чикләүләр һәм киләчәк эш
Дүрт чикләүне ачык итеп тану кирәк: үрнәк күләме, бер тапкыр бәяләү, бер двигатель масштабы һәм бер чыганактан алынган мәгълүмат килеп чыгышы. Боларның һәркайсы актив дәвам итүче тикшерү эшендә хәл ителә.
Үрнәк күләме. Сигез белгечлек төркеменә бүленгән унбиш очрак концепцияне раслау өчен җитә, әмма бер белгечлек эчендә төркемчәләр анализы өчен түгел. Иллюстрацияне илле очракка кадәр киңәйтү планлаштырыла һәм анда коагуляция панельләре, гематологик яман шешләрне скриннинглау, йөклелек панельләре һәм педиатрия очраклары кертеләчәк.
Бер тапкыр бәяләү. Һәр очрак бер генә тапкыр бәяләнде. Зур тел модельләре хәтта түбән sampling температурасы шартларында да җитди дәрәҗәдә чыгыш вариативлыгы күрсәтә, шуңа күрә очракка биш бәяләү белән күпйөгерешле протокол һәм хәбәр ителгән вариативлык — табигый чииләгән адым.
Бер двигатель масштабы. Бу отчёт бер двигательне характерлый. Монда альтернатив AI системалар белән чагыштырма анализлар кертелми; без аларны тиешле методология белән аерым бәйсез тикшеренү буларак карарга мөмкин.
Бер чыганактан алынган мәгълүмат килеп чыгышы. Унбиш очрак — бер клиник репозиторийдан алынган реаль пациент язмалары, анонимлаштырылган. Алар — сайлап алынган үрнәк һәм популяциягә хас очракларның очраклы рәвештә алынган җыелмасы түгел. Бәяләүне күп үзәкле мәгълүматка киңәйтү юл картасында.
Иң зур йогынты ясаячак планлаштырылган киңәйтү — күп теллелек тигезлеге. Kantesti AI Engine 75+ телдә кулланучыларга хезмәт күрсәтә, һәм шул ук унбиш очраклы хәрби-җиһазны төрекчә, немецча, испанча, французча һәм гарәпчә эшләтү двигательнең ярдәм ителгән телләрендә чыгыш сыйфатын санап күрсәтәчәк. Без һәр телгә хас йөгерешне аның үз DOI һәм harness branch белән бастырып чыгарачакбыз.