Нигә бу эталон бар һәм ул нәрсәне тикшерә

AI ярдәме белән кан анализы нәтиҗәләрен ничек укырга куллану кулланучылар һәм клиник эш процессларында көннән-көн арта бара, әмма лаборатория медицинасына туры китерелгән кабатланырлык бәяләү рамкалары сирәк очрый. Бу шартларда иң мөһим сораулар гомуми медицина сорау-җавап күрсәткечләре белән капланмый: уртача эритроцит күләме бер үк булганда двигатель тимер җитешмәүне талассемия билгеләреннән аера аламы, Гилберт синдромын гепатит итеп артык диагноз куямы, һәм тулы нормаль скрининг панелендә патология «ясый» аламы?

Алдан теркәлгән рубрика агым диаграммасы: Kantesti AI Engine — V11 Икенче яңарту, 100 000 очракта 99.80% композит баллы — туңдырылган бәяләү критерийлары белән ничек бәяләнә
1 нче рәсем: V11 башлангыч чыгарылышы артындагы эталон архитектурасы 99.80% композит балл V11 Икенче яңарту 100,000 очраклы когортта — һәр очрак, һәр ачкыч сүз, һәр бәяләү системасы двигатель бер генә PDF күргәнче үк чыганак кодында беркетелгән, ә рубрика V11 башлангыч чыгарылышына карата байт-бертигез. Дизайн буенча пост-хок рубрика көйләү мөмкин түгел.

Бер кан анализы панеле гадәттә берничә көндәшле аңлатманы дәвам итәрлек сигналны үз эченә ала, ә аңлатучы табибның бурычы — аларны бер-берсенә чагыштырып үлчәү, ә дәреслек җавабын эзләп табу түгел. Дәреслек очракларында яхшы эшли торган «двигатель» иң мөһим булган очракларда һаман да уңышсыз булырга мөмкин: дифференциаль-диагноздагы «тозаклар», аерым алганда куркыныч булып күренгән, әмма зарарсыз вариантлар, һәм 100% нормаль панельләр — алар ышанычлы ярдәмчеләрне патология «ясап чыгару»га этәрә.

Бу бенчмарк нәкъ шушы уңышсызлык режимнары тирәсендә төзелде. Унбиш очракның һәркайсы билгеле бер диагностик үзлек өчен сайланды: тимер җитешмәү аркасындагы микроситоз, аны бер үк уртача эритроцит күләме (MCV) булган бета-талассемия билгесеннән аерым тотарга кирәк; Гилберт синдромы күренеше, анда бердәнбер аномалия — аерымланган непрям (индирект) гипербилирубинемия; һәм унбиш параметрлы скрининг панеле, анда һәр анализ күрсәткече үзенең белешмә диапазоны эчендә. Рубрика һәр очракны үз шартларында укый торган двигательләрне бүләкли һәм андый диагноз нигезле булмаган очракта ышанычлы диагнозга «тотынган» двигательләрне җәзалый.

Доктор Томас Кляйн буларак, мин очраклар панелен сайладым, чөнки лаборатория-медицина ярдәмчеләре иң еш ялгыша торган үрнәкләр шулар. Иң кыйммәтле уңышсызлык режимы "сирәк авыруны үткәреп җибәрү" түгел — ә аны булмаган пациентларда гадәти патологияне уйлап чыгару. Безнең Медицина тикшерүе hub киңрәк фреймворкны тасвирлый; бу бит V11 беренчел proof-of-conceptын һәм аны 127 ил ярлыкларын колачлаган синтетик очраклар җыелмасыннан алынган 100,000 синтетик очракка кадәр киңәйткән V11 икенче яңартуын тасвирлый — шул ук бәяләү рубрикасы, byte-бертигез, пост-хок көйләү рөхсәт ителми.

Соңгы белешмә йөгереш — V11 Икенче яңарту (26 апрель, 2026)

26 апрель 2026 даталы V11 Икенче яңарту белешмә йөгереше берләштерелгән балл чыгарды: 99.80% V11 башлангыч чыгарылышта кулланылган алдан теркәлгән рубрика буенча бәяләнде, ул бәяләнде: 100,000 синтетик очрак Kantesti синтетик очраклар җыелмасыннан алынган һәм 127 ил ярлыгы һәм 75+ телләрен колачлаган. Һәр очрак двигательнең төп юлында тәмамланды; «trap-case» гипердиагностика флагы активлашулары калды: 0 / 87,412. 23 апрель 2026 даталы оригиналь V11 йөгереше 15 кулдан сайлап алынган очракны (берләштерелгән 99.12%) үз эченә алган һәм рубриканы раслаган; Икенче яңарту шул ук рубриканы байт-бертигез саклый һәм бәяләүне популяция күләмендәге когортка киңәйтә.

Составлы 99.80% 100,000 очракның 100,000е балл җыйды
1.000 Структур балл
0.996 Клиник балл
13.26 с Уртача тоткарлык
0 / 87,412 Тозаклы ялган-позитивлар

Составлы формула өч компонентны берләштерә: структур туры килү җиде мәҗбүри отчет бүлеге һәм унбиш алты мәҗбүри бүлекчә белән, эчтәлекнең төгәллеге ачкыч сүзләрне искә төшерү (keyword recall) + балллау системасын искә төшерү (scoring-system recall) + ихтималлык-тарату дөреслеген тикшерү аша үлчәнә, һәм җавап тоткарлыгы төп юл сервис дәрәҗәсе максатына каршы. Төгәл бүленеш түбәндәге рубрика формуласында күрсәтелгән — бу авырлыкларның яки суб-рубрикаларның берсе дә Икенче яңарту өчен үзгәртелмәде.

Составлы = 0.35 × Структур + 0.55 × Клиник + 0.10 × Тоткарлык

Калган 0.20 процент пункт «запас»ның күпчелеге диярлек клиник суб-баллга бүленә — очракларның кечкенә өлешендә (күбесенчә Гепатология һәм Ревматологиядә) диагностика эчтәлеге дөрес булуга карамастан, двигательнең аңлатмасында бер көтелгән бәяләү-системасы ачкыч сүзе юк иде. 100,000 очраклы Икенче яңарту когортында бер генә очрак та диагнозны үзе дә үткәреп җибәрмәде. Көтү вакыты V11 башлангыч чыгарылышта уртача 20.17 стан Икенче яңартуда 13.26 ска кадәр яхшырды, ике йөгереш арасында җитештерү двигателе оптимизацияләрен чагылдыра; рубрика, бәяләү коды һәм API-эндпойнт үзгәрешсез.

Ярлык буенча составлы баллар 30 иң күп очраган ил ярлыгы буенча 0.9971 дән 0.9985 кадәр диапазонда булды. Өстәмә 97 ярлыктан торган озын койрык (≈7 300 очрак бергә) системалы начараю күрсәтмәде. Очрак саны буенча иң еш очраган ярлыклар: АКШ (10 500), Бразилия (9 500), Испания (9 000), Италия (8 000), Германия (7 800), Франция (7 400), Португалия (5 800), Türkiye (3 400), Бөекбритания (2 900) һәм Мексика (2 500). Ярлык буенча составлы баллар 0.9971 дән 0.9985 кадәр диапазонда булды.

15 очрактан 100,000 гә кадәр: 127 ил ярлыклары буенча когорта эволюциясе

Оригиналь V11 очраклар панеле җиде белгечлекне — гематология, эндокринология, метаболик медицина, гепатология, нефрология, кардиология, ревматология — һәм ике махсус гипердиагностика тозагы очрагын үз эченә алган; һәр очрак синтетиклаштырылган кан анализы панелыннан тора. V11 икенче яңарту бәяләүне киңәйтә 127 ил ярлыклары буенча 100,000 синтетик очракка, сигез белгечлеккә бүленгән (оригиналь җидесе плюс trap өлешен үзләштерүче махсус «эчке медицина» төркеме). Шул ук бәяләү рубрикасы ике йөгерештә дә байт-бертигез кулланыла.

V11 башлангыч case-panel дизайны — җиде медицина белгечлеге буенча унбиш синтетик кан анализы очрагы плюс ике гипердиагноз «trap-case»; шул ук рубрика V11 Икенче яңартуда 100 000 очракта 99,80% гомуми баллга иреште
2 нче рәсем: V11 башлангыч очраклар панеле гематология, эндокринология, метаболик медицина, гепатология, нефрология, кардиология, ревматология буенча — шулай ук ике trap очрагы: Гилберт синдромы һәм тулы нормаль скрининг панеле. Икенче яңарту шул ук рубриканы байт-бертигез саклый, ә когортны Kantesti SQL репозиторийыннан алынган 100,000 очракка кадәр киңәйтә.

Барлык очраклар да синтетиклаштырылган булганга, бетерергә кирәкле реаль идентификаторлар юк һәм шәхси мәгълүмат катнашмый. Һәр синтетик очракта бенчмарк-эчке очрак коды йөртелә (V11 беренчел җыелмасында BT-NNN-LABEL, икенче яңартуда тотрыклы case_uid ). Басылган инфраструктурада, техник докладда яки чыгарылган мәгълүмат җыелмаларында беркайда да шәхси мәгълүмат күренми.

V11 initial release — 15 hand-curated cases

V11 оригинал очраклар панелен Dr. Thomas Klein лаборатория-медицина ярдәмчеләре иң еш ялгыша торган диагностик үрнәкләрне тикшерү өчен кулдан сайлап төзегән. Унбиш очракның һәркайсы түбәндә күрсәтелгән билгеле бер диагностик үзлек өчен сайланган.

Гематология (3) BT-001, BT-006, BT-007 тимер җитешмәү анемиясе · B12 җитешмәү · кечкенә бета-талассемия
Эндокринология (3) BT-002, BT-008, BT-012 Хашимото тиреоидиты · инсулин резистентлыгы белән PCOS · D витаминының каты җитешмәве
Метаболик (2) BT-003, BT-013 метаболик синдром белән T2DM · подагра куркынычы белән гиперурикемия
Гепатология (2) BT-004, BT-009 NAFLD / NASH · кискен вируслы гепатит
Нефрология · Кардиология · Ревматология (3) BT-005, BT-010, BT-011 CKD 3 стадиясе · атероген дислипидемия · системалы кызыл бүре авыруы
Капкан очраклар (2) BT-014, BT-015 Гилберт синдромы (аерымланган турыдан-туры булмаган гипербилирубинемия) · өлкәннәр өчен тулы нормаль скрининг

Нигә нәкъ бу бүленеш

Гематология өч очрак ала, чөнки микроситик дифференциальләр һәм макроситик дифференциальләр реаль дөнья лаборатория практикасы өчен иң күп күләмле «капкан» булып тора. Эндокринология өч очрак ала, чөнки Хашимото, PCOS һәм D витамины җитешсезлеге күренешләре төрле диагностик формаларны күнектерә (автоантитәнгә нигезләнгән, гормон нисбәтенә нигезләнгән, бер маркерга нигезләнгән). Бер очраклы белгечлекләр һаман да мәгънәле, чөнки һәрберсе — CKD, ASCVD куркынычы һәм SLE — үзенең балллау системасына ия, ә двигатель аны чакырырга тиеш (KDIGO стадиясе, ASCVD 10 еллык куркыныч, һәм 2019 EULAR/ACR SLE критерийлары).

V11 икенче яңарту — 127 ил ярлыклары буенча 100,000 синтетик очрак

Икенче яңарту оригиналь V11 hard-coded 15 очраклы Python literalын зуррак, программалы рәвештә генерацияләнгән синтетик очраклар җыелмасы белән алыштыра. Очраклар җыелмасы һәр йөгереш башында йөкләнә һәм конфигурация ачыклык өчен теркәлә. Эчтәлек өлкәләре буенча когорта бүленеше түбәндә күрсәтелгән.

Эндокринология һәм ачыклык өчен һәр бенчмарк эшләнеше башында бастырыла. Когортаның белгечлекләр буенча бүленеше түбәндә күрсәтелгән. 23,900 очрак (23.9%)
Тиреоид, PCOS, D витамины, гонадаль күчәр, гипофиз Метаболик медицина 21,900 очрак (21.9%)
Гематология T2DM, метаболик синдром, липид панельләре, гиперурикемия 15,400 очрак (15.4%)
Гепатология Микроцитик һәм макроцитик дифференциаллар, B12/фолат, тимер тикшеренүләре 12,400 очрак (12.4%)
NAFLD/NASH, вируслы гепатит, FIB-4, холестаз Эчке медицина (шул исәптән trap subset) 9,000 очрак (9.0%)
Кардиология Катнаш күренешләр һәм 8,723 махсуслаштырылган гипердиагноз trap очрагы 7,500 очрак (7.5%)
Ревматология ASCVD рискы, атероген дислипидемия, hs-CRP 6,000 очрак (6.0%)
Нефрология SLE, RA, васкулит, аутоантибодия панельләре (EULAR/ACR критерийлары) 4,000 очрак (4.0%)

Синтетик ил-ярлык таратуы — иң яхшы 10 ярлык

100 000 синтетик очрак 127 ил ярлыгын йөртә (ISO 3166-1 alpha-2) локаль эшкәртүне тикшерү өчен. Ярлык бирү: Европа 57.7%, Америка континентлары 25.4%, Көньяк-Көнчыгыш Азия-Тын океан 6.2%, Көньяк-Көнчыгыш Якын Көнчыгыш/Африка исемле ярлыклар 3.4%, һәм өстәмә 97 ярлыктан торган озын койрык бергәләп якынча 7.3% тәшкил итә. Очрак саны буенча иң еш очраган ун ярлык: АКШ (10 500), Бразилия (9 500), Испания (9 000), Италия (8 000), Германия (7 800), Франция (7 400), Португалия (5 800), Türkiye (3 400), Бөекбритания (2 900) һәм Мексика (2 500). Ярлык буенча составлы баллар 0.9971 дән 0.9985 кадәр диапазонда. Бу ярлык саннары локаль эшкәртүне тикшерү өчен кулланылган генерацияләнгән очракларның үзлекләре — алар реаль кулланучылар да түгел, реаль дөнья географик қамтуы да түгел.

Алдан теркәлгән rubric-ны аңлату

Регистрга алдан кертү (pre-registration) — бу бенчмаркта иң мөһим методологик сайлау. Көтелгән һәрбер диагноз, һәрбер клиник балллау системасы һәм һәрбер доклад бүлеге чыганак кодка беркетелгән двигатель чакырылганчы. Шуңа күрә двигательне «ялагайлау» өчен рубриканы пост-хок көйләү мөмкин түгел.

Композит баллны өч компонент тәшкил итә. структур компонент 35 процент өлеш кертә һәм двигательнең җиде мәҗбүри доклад бүлеген (башлык, кыскача йомгак, төп нәтиҗәләр, дифференциаль, балллау системалары, тәкъдимнәр, күзәтү) һәм алар эчендәге ун алты мәҗбүри бүлекчәне кайтарган-кайтармаганын үлчәп чыга. Бүлек булуы структур исәпләүдә 40 процент, ә бүлекчә булуы 60 процент авырлыкка ия.

.Әр сүзнең клиник компонент 55 процент өлеш кертә һәм өч нәрсәне берләштерә: диагноз-төп сүзләрне искә төшерү (клиник суб-баллның 70 проценты), балллау системасын искә төшерү (20 процент — двигатель кирәк булганда Mentzer, FIB-4, HOMA-IR, ASCVD куркынычын, KDIGO стадиясен, EULAR/ACR критерийларын исәплиме), һәм ихтималлар суммасының дөреслеген тикшерү (10 процент — дифференциаль ихтималлар [90, 110] интервалында суммаланырга тиеш). «Капкан» очраклар өчен ачык гипердиагноз штрафы максимум 0.30 итеп алына, ул ясалма патология флагы өчен 0.10 итеп исәпләнә һәм өч флаг белән чикләнә.

.Әр сүзнең тоткарлык (latency) компоненты 10 процент өлеш кертә. 20 секундтан ким җавап тулы 0.10 ала, 40 секундтан ким җавап 0.05 ала, ә аннан әкренрәкнең барысы нуль. 20 секундлык максат — җитештерүнең төп primary-path сервис дәрәҗәсе максаты; 40 секундлык чик — авыр-двигатель чакырулары өчен 2 нче фаза fallback бюджеты.

MIT лицензияле Kantesti бенчмарк “harness”ының эшләвен һәм очрак-очрак буенча баллар чыгаруын күрсәткән терминал скриншоты — шул ук “harness”, хәзер SQL белән идарә ителгән, V11 Икенче яңарту 100 000 очраклы эшләтүдә 99.80% композит баллы чыгарды
3 нче рәсем: Башкарылыштагы “хәрәзер” — шул ук двигатель, ул 99.80% составлы балл чыгарды V11 Икенче яңарту 100,000 очрак когортасында. Һәр очрак A4 PDF форматында күрсәтелә, җитештерү v11 ноктасына җибәрелә һәм туңдырылган рубрика буенча бәяләнә. Икенче яңарту параметрлаштырылган SQL очрак йөкләүчесен өстәде; чимал двигатель җавапларының стратификацияләнгән очраклы үрнәге (n = 201) тупланган scorecard белән бергә саклана.

Pre-registration нәрсәне булдырмый

Беренче зат (first-party) бенчмарклар пост-хок рубриканы көйләү аша үз саннарын арттыру белән данлы. Үрнәк диярлек һәрвакыт бер үк: команда двигательне эшләтә, кайда түбәнрәк эшләвен күрә, аннары түбәнрәк эшләгән өлкәләр азрак санала торган итеп рубриканы тыныч кына көйләп куя. Рубриканы беренче двигатель чакыруы алдыннан чыганак кодка беркетеп һәм harness-ны MIT лицензиясе астында бастырып, бу көйләү версия контролендә күренеп тора. Кем дә булса репозиторийны клонлый, рубрика автор даталарын тикшерә һәм двигатель нәтиҗәләре балллауны формалаштыру өчен кулланылмаганын раслый ала.

Гипердиагностика капканы — ни өчен артык әйтү (over-calling) төп уңышсызлык режимы

Нормаль экраннарда патологияне катырак «әйтеп җибәрү» — кулланучыга юнәлтелгән медицина ассистентлары өчен документлаштырылган уңышсызлык режимы. Аның түбәндәге чыгымнары кирәксез тикшерү, пациент борчылуы һәм яратып эшләнгән (iatrogenic) тикшерү-дәвалау эшләре белән бәйле. Бу бенчмарктагы ике «капкан» очрагы шушы уңышсызлык режимын күренеп торырлык һәм бәяләнә торлык итеп эшләнгән.

Гилберт синдромы панелендә гепатитны уйлап чыгаручы наив АИ белән, зарарсыз UGT1A1 полиморфизмын дөрес ачыклаучы Kantesti моторны янәшә чагыштыру — методика V11 Икенче яңарту 99.80% бенчмаркында 87 412 тозак-флаг мөмкинлегендә нуль ялган-позитивка кадәр киңәйтелде
4 нче рәсем: V11 башлангыч чыгарылыштагы “капкан-очрак” дизайны — двигатель Гилберт синдромын гепатит дип ышаныч белән билгеләсә, яисә тулы нормаль экранда чик буенда патология “ясаса”, клиник яңгырау өчен бүләкләнми, ә киресенчә җәза ала. Бу методика 0 / 87,412 V11 Икенче яңарту 100,000 очрак йөгерешендә ясалган ялган-позитивларга кадәр киңәйтелде һәм 99.80% составлы баллны китерде.

🟡 Trap 1 — BT-014-GILBERT

Күренеш. Гомуми билирубин 2.4 мг/дл булган 24 яшьлек ир-ат. Директ фракция нормаль, трансаминазалар һәм эшкәртүле фосфатаза үзләренең белешмә диапазоннарында, ретикулоцитлар берни белән аерылмый, һәм гаптоглобин белән LDH гемолизны кире кага.

Дөрес аңлатма. Гилберт синдромы — зарарсыз UGT1A1 полиморфизмы. Аңлатма гепатит, цирроз, гемолизлы анемия яки билиар обструкцияне чакырмаска тиеш.

V11 нәтиҗәсе. Композит 1.000. Алты күзәтелгән артык-диагноз флагының берсе дә актив диагноз булып чыкмады.

🟡 Trap 2 — BT-015-HEALTHY

Күренеш. Унбиш параметрлы гадәти скрининг панеле булган 35 яшьлек хатын-кыз. Һәрбер аналит үзенең белешмә диапазоны эчендә уңайлы урнаша.

Дөрес аңлатма. Ышандыру һәм яшәү рәвешен саклау. Төшендерү клиник яктан файдалы булып күренсен өчен чик арасы патологиясен уйлап чыгарырга тиеш түгел.

V11 нәтиҗәсе. Композит 1.000. Җиде күзәтелгән артык диагноз кую сигналларының берсе дә — диабет, анемия, гипотиреоз, дислипидемия, гепатит, бөер авыруы, җитешсезлек — актив диагноз булып чыкмады.

Ике «капкан» буенча да унөч күзәтелгән гипердиагноз сигналлары тикшерелде. Берсе дә эшләтелмәде. Бу — теләсә кайсы клиницист AI двигательне триаж яки консультациягә кадәрге корал итеп кулланырга уйлаганда иң мөһим нәтиҗә: система авыру булмаган урында авыру уйлап чыгармады.

Ментцер индексы: тимер җитешмәүне талассемия билгеләреннән аеру

Икенче югары кыйммәтле табыш — BT-001 очрагын (тимер җитешсезлеге анемиясе) BT-007 очрагы белән (бета-талассемиянең кечкенә формасы) парлаштыру. Икесендә дә микроситоз күзәтелә һәм бу наив классификаторлар өчен киң таралган «тоткарлык». Ментцер индексы, MCV-ны RBC санынә бүлеп исәпләнә, тимер җитешсезлегендә 13-тән артып китә һәм талассемия сыйфатында 13-тән түбән төшә.

BT-001дә пациент 34 яшьлек хатын-кыз иде: гемоглобин 10.4 г/дл, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферритин 6 нг/мл һәм TIBC күтәрелгән. Якынча 17.7 булган Ментцер индексы абсолют тимер җитешсезлеген хуплый. BT-007дә пациент 28 яшьлек ир-ат иде: микроситоз (MCV 65.8 фл), ләкин RBC саны 6.2, RDW нормаль, ферритин нормаль, HbA2 5.6 процент. Якынча 10.6 булган Ментцер индексы талассемия сыйфатын күрсәтә, һәм HbA2-нең күтәрелүе бета-талассемиянең кечкенә формасын раслый.

Тимер җитешсезлеге анемиясе Ментцер > 13 Ферритин түбән, TSAT түбән, TIBC югары, RDW күтәрелгән
Бета-талассемия сыйфаты Ментцер < 13 Ферритин нормаль, RDW нормаль, HbA2 күтәрелгән (>3.5%), RBC саны югары

Ике очрак та 1.000 балл җыйды. Двигатель ике аңлатмада да Ментцер индексын ачык итеп кулланды һәм һәр очракта дөрес диагнозны кайтарды. Бу — бөтен бенчмаркта иң клиник яктан ышандыручы бердәнбер нәтиҗә, чөнки талассемия сыйфатын тимер җитешсезлеге дип ялгыш классификацияләү дөрес булмаган тимер өстәмәләре бирүгә һәм гаилә буенча скрининг мөмкинлекләрен кулдан ычкындыруга китерә, ә тимер җитешсезлеген талассемия дип ялгыш классификацияләү гади алмаштыру терапиясен тоткарлый. Безнең ферритин диапазоны буенча кулланма киңрәк дифференциаль контекстны аңлата.

V11 башлангыч белешмә йөгерешеннән очраклар буенча нәтиҗәләр (2026 елның 23 апреле)

15 очраклы proof-of-concept когортасында ясалган оригиналь V11 белешмә йөгереш хезмәт итә методик нигез булып Икенче яңарту өчен: түбәндәге һәр очрак детале рубриканың реаль двигатель җавабын ничек эшкәртүен күрсәтә. Уникаль 15 очрактан 12се төп юлда 1.000 түбә составлы баллына иреште; өч очрак 2-Фаза fallback аша хезмәт күрсәтелде, 0.05 латентлык бонусын югалтты, әмма барлык клиник һәм структур эчтәлек сакланды. Бер очракта бер генә мәҗбүри бүлекчә югалган; берсе маргиналь рәвештә киметелгән ихтималлар бүлү суммасын кайтарды.

Очрак ID Белгечлек Составлы Латентлык Патология
BT-001-IDAГематология1.00017.8 стөп
BT-006-B12Гематология1.00018,4 стөп
BT-007-THALГематология1.00017,0 стөп
BT-002-HASHЭндокринология0.95037,0 срезервка
BT-008-PCOSЭндокринология0.98718,6 стөп
BT-003-T2DMМетаболик1.00019,1 стөп
BT-013-GOUTМетаболик1.00019,4 стөп
BT-004-NAFLDГепатология1.00019,6 стөп
BT-009-VIRHEPГепатология0.95023,4 срезервка
BT-014-GILBERTТозак1.00018,9 стөп
BT-005-CKDНефрология1.00017,4 стөп
BT-010-ASCVDКардиология1.00019,7 стөп
BT-011-SLEРевматология0.98118,2 стөп
BT-012-VITDЭндокринология1.00019,3 стөп
BT-015-HEALTHYТозак1.00018,7 срезервка

PCOS очрагы (BT-008) җавап структурасында бер мәҗбүри бүлекчә югалтты — алтынадцедән унбиш түгел, ә унбиштән унбиш түгел — бу структур баллны 1,000 дән 0,963 ка киметте. SLE очрагы (BT-011) клиник баллны 0,965 кә төшергән, әмма һәр диагностик ачкыч сүзне һәм балллау системасын саклаган, бераз кимегән ихтимал-распределение суммасын кире кайтарды. Ике дә камил булмаган очрак дөрес диагнозны үткәреп җибәрмәде.

V11 Икенче яңарту агрегаты — 100,000 очрак

Халык масштабына күчкәндә, аерым очракларның рәтләре кеше өчен укылмый, шуңа күрә Икенче яңарту 100 000 рәтле таблица урынына тупланган күрсәткечләрне (aggregated metrics) хәбәр итә. Төп тупланма түбәндә күрсәтелгән; белгечлек һәм ил-ярлык буенча бүленешләр техник докладта һәм Figshare депозиты эчендә бастырылган. Стратификацияләнгән очраклы үрнәк n = 201 чимал двигатель җаваплары (детерминирланган seed 20260426) тикшерү өчен GitHub results/ каталогында бастырылган.

Составлы балл V11 башлангыч: 0.9912 (99.12%) → Икенче яңарту: 0.9980 (99.80%) Δ = +0.0068 100,000 очрак когортасы буенча
Структур балл (уртача) V11 башлангыч: 0.998 → Икенче яңарту: 1.000 Популяция масштабына камил структур туры килү
Клиник балл (уртача) V11 башлангыч: 0.998 → Икенче яңарту: 0.996 −0.002; бер генә очракта да диагноз үзе үткәрелмәде
Көтү вакыты — уртача (диапазон) V11 башлангыч: 20.17 с (17.0–37.0 с) → Икенче яңарту: 13.26 с (9.0–16.94 с) Йөгерешләр арасында җитештерү двигателе оптимизацияләре
Двигатель юлы = төп V11 башлангыч: 12 / 15 → Икенче яңарту: 100,000 / 100,000 Йөгереш вакытында беркайчан да 2-фазага кире кайту (fallback) кирәк булмады
Тозак-кисәкчә (trap-subset) гипердиагностика флаглары V11 башлангыч: 0 / 13 → Икенче яңарту: 0 / 87,412 Халык күләмендә нуль ялган-позитивлар (8,723 тозак очрагы күзәтелде)

Баш исем баллы безгә нәрсә әйтми

Шушы алдан теркәлгән рубрика буенча 99.80 процентлы алымлы балл, 127 ил ярлыкларын колачлаган 100,000 очраклы синтетик когортада, түшәмгә бик якын күрсәткечне аңлата — әмма аны җентекләп рамкалау кирәк. Нәтиҗә V11-та без чыганак кодына беркеткән рубрикага каршы двигательнең тәртибен тасвирлый; ул дөньяда булган һәр кан анализы панелында двигательнең дөреслегенә универсаль дәгъва түгел.

Балл двигательнең бу бәяләү өчен сайланган диагностик үрнәкләрне халык күләмендәге когордада дөрес эшкәрткәнен әйтә, һәм ул басылып чыккан һәм кабатлап була торган методологиягә нигезләнә. Ул двигательнең кырда булган һәр кан анализы панелендә дөрес булуын әйтми. Ул двигательнең клиницист фикерен алыштырырга тиешлеген әйтми. Һәм ул двигательнең башка AI системаларыннан өстенрәк булуын да әйтми — башка двигательләргә чагыштырма анализлар бу доклад кысасына әдейләп кертелмәгән.

Баллның раслый торган нәрсә — нигез (baseline). Рубрика һәм хәрби (harness) җәмәгатькә ачык булгач, двигательнең киләчәк версияләрен шул ук рубрика буенча бәяләргә мөмкин булачак — V11 башлангыч 15 очракка, Икенче яңарту 100,000 очраклы когордага, яисә аннан соңгы киңәйтүләргә дә кулланып — басылып чыккан балл белән аннан соңгы һәрбер йөгереш арасындагы аерма үзе үк үлчәнергә мөмкин. Алдан теркәүнең кыйммәте менә шунда: ул эш күрсәтү турындагы дәгъваларны тикшереп була торган дәгъваларга әйләндерә.

Бу күрсәткечне 10 минут эчендә ничек кабатларга

Кабатлау өчен бары тик Kantesti API таныклык парлары һәм Python 3.10 яки аннан соңгы мохит кирәк, анда requests һәм reportlab китапханәләре урнаштырылган. Тулы хәрби бер генә, үз эченә алган Python модуле булып, MIT лицензиясе астында чыгарыла.

V11 Икенче яңарту күрсәткечен (99.80% состав, 100 000 очрак, 127 ил ярлыгы) күрсәтүче репродуцирлык челтәре диаграммасы Figshare, ResearchGate, Academia.edu һәм GitHub аша чагылыш таба, Figshare DOI каноник бәйләүче (anchor) булып тора
5 нче рәсем: V11 Икенче яңарту бенчмаркы — 127 ил ярлыклары буенча 100,000 очракта 99.80% алымлы балл — дүрт тикшеренү платформасында да чагылыш таба. Figshare DOI — каноник фәнни идентификатор; ResearchGate (publication 404175463), Academia.edu (paper 165956808) һәм GitHub бәяләү утыргычы белән, чимал җавапларның стратификацияләнгән очраклы үрнәге белән, шулай ук ил-ярлык/белгечлек буенча бал карточкалары белән параллель күчермәләрне урнаштыра.

Яңа йөгереш өчен дүрт адым

Беренче. Репозиторийны клонлагыз: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Икенче. Бәйлелекләрне урнаштырыгыз pip install -r requirements.txt (Икенче яңарту өсти mysql-connector-python ≥ 8.0 SQL case loader өчен). Өч. Куй KANTESTI_USERNAME һәм KANTESTI_PASSWORD двигатель API өчен әйләнә-тирә үзгәрүчәннәре буларак. Икенче яңарту SQL case loader өчен шулай ук куегыз KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, һәм KANTESTI_DB_PASSWORD — йөкләүче тик укый торган роль аша тоташа (bench_reader) ул таблицаларны ачыклау буенча өстенлекләргә ия түгел. Дүрт. Башкарыгыз python benchmark_bloodtest.py --limit 100000 тулы Second-Update эшләнеше өчен, яисә python benchmark_bloodtest.py --limit 1000 тизрәк кабатлау өчен. Нәтиҗәләр түбәндәге урында чыга: ./benchmark_results/: ил-ярлык һәм белгечлек буенча баганалары булган CSV scorecard, JSON тупланмасы, стратификацияләнгән очраклы чимал җавап үрнәге һәм Markdown доклады.

Белешмә эшләнешләр 23 апрель 2026 (V11 башлангыч, 15 очрак) һәм 26 апрель 2026 (V11 Second Update, 100,000 очрак) репозиторийның results/ каталогында саклана. Яңа эшләнеш яңа вакыт тамгасы белән балл таблицасын чыгарачак, ә белешмә эшләнешләр үзгәрешсез калачак. Әгәр сезнең эшләнеш нәтиҗәсе мәгънәле рәвештә аерылып торса, зинһар, GitHub issue ачыгыз: эшләнеш вакыт тамгасы һәм җавап мета-мәгълүматында кайтарылган двигатель версиясе белән.

Чикләүләр һәм киләчәк эш

127 ил ярлыгы буенча 100 000 очрак булса да, дүрт чикләүне ачык итеп тану кирәк: озын койрык ярлыкларының аз үрнәкләнүе, бер тапкырлы бәяләү, бер двигатель масштабы, һәм бер чыганактан алынган мәгълүмат килеп чыгышы. Боларның һәрберсе актив дәвам итүче эштә карала.

Озын койрык ярлыкларының қамтуы. Икенче яңарту 127 ил ярлыгын үз эченә ала, әмма тарату тигез түгел — иң яхшы 10 ярлык очракларның ≈66.4% өлешен тәшкил итә, ә өстәмә 97 ярлыктан торган озын койрык бергәләп ≈7.3% (якынча 7 300 очрак бергә, ярлыкка уртача ~75 очрак) өлеш кертә. Шуңа күрә бу озын койрыкта ярлык буенча составлы күрсәткечләр төп саннар күрсәткәннән дә күбрәк шау-шу (noisier). Киләчәк эшләнмәләр ярлык бирүне яңадан тигезләп, ярлык буенча бәяләүләрне ныгытачак.

Бер тапкыр бәяләү. Кохорттагы һәр очрак бер тапкыр бәяләнде. Зур тел модельләре хәтта түбән үрнәкләү температурасы шартларында да әһәмиятле чыгыш вариативлыгын күрсәтә, шуңа күрә очракка биш бәяләү һәм хәбәр ителгән вариативлык белән күп тапкырлы протокол — табигый чираттагы адым, аеруча «trap-case» өлешендә, анда үрнәкләү тибрәнешенә карата эзлеклелек куркынычсызлык турындагы дәгъва кысасында өлеш булып тора.

Бер двигатель масштабы. Бу доклад бер двигательне характерлый. Төрле альтернатив AI системалары белән чагыштырма анализлар монда кертелми; без аларны бер үк MIT лицензияле harnessка каршы, тиешле методология белән аерым бәйсез тикшерү буларак карарга мөмкин.

Синтетик мәгълүмат. 100,000 очрак синтетиклаштырылган, синтетик очраклар түгел, һәм нәтиҗәләр реаль дөнья клиник күрсәткечләренә күчми. Реаль, ризалык бирелгән, тыштан алынган мәгълүмат белән бәяләү тиешле этик күзәтчелекне таләп итәр иде һәм бу синтетик бенчмарк кысасына керми.

Бу дүрт чикләүдән тыш, иң зур йогынтылы планлаштырылган киңәйтү — юрисдикция буенча күп теллелек тигезлеге. Kantesti AI Engine 75+ телдә кулланучыларга хезмәт күрсәтә, һәм тел-стратификацияләнгән Second-Update суб-когортларын (төрек, немец, испан, француз, итальян, португал, гарәп, мандарин) эшләтү двигательнең ярдәм ителгән телләрендә чыгыш сыйфатын санап күрсәтәчәк. Һәр тел-стратификацияләнгән анализ үзенең DOI һәм harness веткасы белән бастырылачак.