Нигә бу эталон бар һәм ул нәрсәне тикшерә
AI ярдәме белән кан анализы нәтиҗәләрен ничек укырга куллану кулланучылар һәм клиник эш процессларында көннән-көн арта бара, әмма лаборатория медицинасына туры китерелгән кабатланырлык бәяләү рамкалары сирәк очрый. Бу шартларда иң мөһим сораулар гомуми медицина сорау-җавап күрсәткечләре белән капланмый: уртача эритроцит күләме бер үк булганда двигатель тимер җитешмәүне талассемия билгеләреннән аера аламы, Гилберт синдромын гепатит итеп артык диагноз куямы, һәм тулы нормаль скрининг панелендә патология «ясый» аламы?
Бер кан анализы панеле гадәттә берничә көндәшле аңлатманы дәвам итәрлек сигналны үз эченә ала, ә аңлатучы табибның бурычы — аларны бер-берсенә чагыштырып үлчәү, ә дәреслек җавабын эзләп табу түгел. Дәреслек очракларында яхшы эшли торган «двигатель» иң мөһим булган очракларда һаман да уңышсыз булырга мөмкин: дифференциаль-диагноздагы «тозаклар», аерым алганда куркыныч булып күренгән, әмма зарарсыз вариантлар, һәм 100% нормаль панельләр — алар ышанычлы ярдәмчеләрне патология «ясап чыгару»га этәрә.
Бу бенчмарк нәкъ шушы уңышсызлык режимнары тирәсендә төзелде. Унбиш очракның һәркайсы билгеле бер диагностик үзлек өчен сайланды: тимер җитешмәү аркасындагы микроситоз, аны бер үк уртача эритроцит күләме (MCV) булган бета-талассемия билгесеннән аерым тотарга кирәк; Гилберт синдромы күренеше, анда бердәнбер аномалия — аерымланган непрям (индирект) гипербилирубинемия; һәм унбиш параметрлы скрининг панеле, анда һәр анализ күрсәткече үзенең белешмә диапазоны эчендә. Рубрика һәр очракны үз шартларында укый торган двигательләрне бүләкли һәм андый диагноз нигезле булмаган очракта ышанычлы диагнозга «тотынган» двигательләрне җәзалый.
Доктор Томас Кляйн буларак, мин очраклар панелен сайладым, чөнки лаборатория-медицина ярдәмчеләре иң еш ялгыша торган үрнәкләр шулар. Иң кыйммәтле уңышсызлык режимы "сирәк авыруны үткәреп җибәрү" түгел — ә аны булмаган пациентларда гадәти патологияне уйлап чыгару. Безнең Медицина тикшерүе hub киңрәк фреймворкны тасвирлый; бу бит V11 беренчел proof-of-conceptын һәм аны 127 ил ярлыкларын колачлаган синтетик очраклар җыелмасыннан алынган 100,000 синтетик очракка кадәр киңәйткән V11 икенче яңартуын тасвирлый — шул ук бәяләү рубрикасы, byte-бертигез, пост-хок көйләү рөхсәт ителми.
Соңгы белешмә йөгереш — V11 Икенче яңарту (26 апрель, 2026)
26 апрель 2026 даталы V11 Икенче яңарту белешмә йөгереше берләштерелгән балл чыгарды: 99.80% V11 башлангыч чыгарылышта кулланылган алдан теркәлгән рубрика буенча бәяләнде, ул бәяләнде: 100,000 синтетик очрак Kantesti синтетик очраклар җыелмасыннан алынган һәм 127 ил ярлыгы һәм 75+ телләрен колачлаган. Һәр очрак двигательнең төп юлында тәмамланды; «trap-case» гипердиагностика флагы активлашулары калды: 0 / 87,412. 23 апрель 2026 даталы оригиналь V11 йөгереше 15 кулдан сайлап алынган очракны (берләштерелгән 99.12%) үз эченә алган һәм рубриканы раслаган; Икенче яңарту шул ук рубриканы байт-бертигез саклый һәм бәяләүне популяция күләмендәге когортка киңәйтә.
Составлы формула өч компонентны берләштерә: структур туры килү җиде мәҗбүри отчет бүлеге һәм унбиш алты мәҗбүри бүлекчә белән, эчтәлекнең төгәллеге ачкыч сүзләрне искә төшерү (keyword recall) + балллау системасын искә төшерү (scoring-system recall) + ихтималлык-тарату дөреслеген тикшерү аша үлчәнә, һәм җавап тоткарлыгы төп юл сервис дәрәҗәсе максатына каршы. Төгәл бүленеш түбәндәге рубрика формуласында күрсәтелгән — бу авырлыкларның яки суб-рубрикаларның берсе дә Икенче яңарту өчен үзгәртелмәде.
Калган 0.20 процент пункт «запас»ның күпчелеге диярлек клиник суб-баллга бүленә — очракларның кечкенә өлешендә (күбесенчә Гепатология һәм Ревматологиядә) диагностика эчтәлеге дөрес булуга карамастан, двигательнең аңлатмасында бер көтелгән бәяләү-системасы ачкыч сүзе юк иде. 100,000 очраклы Икенче яңарту когортында бер генә очрак та диагнозны үзе дә үткәреп җибәрмәде. Көтү вакыты V11 башлангыч чыгарылышта уртача 20.17 стан Икенче яңартуда 13.26 ска кадәр яхшырды, ике йөгереш арасында җитештерү двигателе оптимизацияләрен чагылдыра; рубрика, бәяләү коды һәм API-эндпойнт үзгәрешсез.
Ярлык буенча составлы баллар 30 иң күп очраган ил ярлыгы буенча 0.9971 дән 0.9985 кадәр диапазонда булды. Өстәмә 97 ярлыктан торган озын койрык (≈7 300 очрак бергә) системалы начараю күрсәтмәде. Очрак саны буенча иң еш очраган ярлыклар: АКШ (10 500), Бразилия (9 500), Испания (9 000), Италия (8 000), Германия (7 800), Франция (7 400), Португалия (5 800), Türkiye (3 400), Бөекбритания (2 900) һәм Мексика (2 500). Ярлык буенча составлы баллар 0.9971 дән 0.9985 кадәр диапазонда булды.
15 очрактан 100,000 гә кадәр: 127 ил ярлыклары буенча когорта эволюциясе
Оригиналь V11 очраклар панеле җиде белгечлекне — гематология, эндокринология, метаболик медицина, гепатология, нефрология, кардиология, ревматология — һәм ике махсус гипердиагностика тозагы очрагын үз эченә алган; һәр очрак синтетиклаштырылган кан анализы панелыннан тора. V11 икенче яңарту бәяләүне киңәйтә 127 ил ярлыклары буенча 100,000 синтетик очракка, сигез белгечлеккә бүленгән (оригиналь җидесе плюс trap өлешен үзләштерүче махсус «эчке медицина» төркеме). Шул ук бәяләү рубрикасы ике йөгерештә дә байт-бертигез кулланыла.
Барлык очраклар да синтетиклаштырылган булганга, бетерергә кирәкле реаль идентификаторлар юк һәм шәхси мәгълүмат катнашмый. Һәр синтетик очракта бенчмарк-эчке очрак коды йөртелә (V11 беренчел җыелмасында BT-NNN-LABEL, икенче яңартуда тотрыклы case_uid ). Басылган инфраструктурада, техник докладда яки чыгарылган мәгълүмат җыелмаларында беркайда да шәхси мәгълүмат күренми.
V11 initial release — 15 hand-curated cases
V11 оригинал очраклар панелен Dr. Thomas Klein лаборатория-медицина ярдәмчеләре иң еш ялгыша торган диагностик үрнәкләрне тикшерү өчен кулдан сайлап төзегән. Унбиш очракның һәркайсы түбәндә күрсәтелгән билгеле бер диагностик үзлек өчен сайланган.
Нигә нәкъ бу бүленеш
Гематология өч очрак ала, чөнки микроситик дифференциальләр һәм макроситик дифференциальләр реаль дөнья лаборатория практикасы өчен иң күп күләмле «капкан» булып тора. Эндокринология өч очрак ала, чөнки Хашимото, PCOS һәм D витамины җитешсезлеге күренешләре төрле диагностик формаларны күнектерә (автоантитәнгә нигезләнгән, гормон нисбәтенә нигезләнгән, бер маркерга нигезләнгән). Бер очраклы белгечлекләр һаман да мәгънәле, чөнки һәрберсе — CKD, ASCVD куркынычы һәм SLE — үзенең балллау системасына ия, ә двигатель аны чакырырга тиеш (KDIGO стадиясе, ASCVD 10 еллык куркыныч, һәм 2019 EULAR/ACR SLE критерийлары).
V11 икенче яңарту — 127 ил ярлыклары буенча 100,000 синтетик очрак
Икенче яңарту оригиналь V11 hard-coded 15 очраклы Python literalын зуррак, программалы рәвештә генерацияләнгән синтетик очраклар җыелмасы белән алыштыра. Очраклар җыелмасы һәр йөгереш башында йөкләнә һәм конфигурация ачыклык өчен теркәлә. Эчтәлек өлкәләре буенча когорта бүленеше түбәндә күрсәтелгән.
Синтетик ил-ярлык таратуы — иң яхшы 10 ярлык
100 000 синтетик очрак 127 ил ярлыгын йөртә (ISO 3166-1 alpha-2) локаль эшкәртүне тикшерү өчен. Ярлык бирү: Европа 57.7%, Америка континентлары 25.4%, Көньяк-Көнчыгыш Азия-Тын океан 6.2%, Көньяк-Көнчыгыш Якын Көнчыгыш/Африка исемле ярлыклар 3.4%, һәм өстәмә 97 ярлыктан торган озын койрык бергәләп якынча 7.3% тәшкил итә. Очрак саны буенча иң еш очраган ун ярлык: АКШ (10 500), Бразилия (9 500), Испания (9 000), Италия (8 000), Германия (7 800), Франция (7 400), Португалия (5 800), Türkiye (3 400), Бөекбритания (2 900) һәм Мексика (2 500). Ярлык буенча составлы баллар 0.9971 дән 0.9985 кадәр диапазонда. Бу ярлык саннары локаль эшкәртүне тикшерү өчен кулланылган генерацияләнгән очракларның үзлекләре — алар реаль кулланучылар да түгел, реаль дөнья географик қамтуы да түгел.
Алдан теркәлгән rubric-ны аңлату
Регистрга алдан кертү (pre-registration) — бу бенчмаркта иң мөһим методологик сайлау. Көтелгән һәрбер диагноз, һәрбер клиник балллау системасы һәм һәрбер доклад бүлеге чыганак кодка беркетелгән двигатель чакырылганчы. Шуңа күрә двигательне «ялагайлау» өчен рубриканы пост-хок көйләү мөмкин түгел.
Композит баллны өч компонент тәшкил итә. структур компонент 35 процент өлеш кертә һәм двигательнең җиде мәҗбүри доклад бүлеген (башлык, кыскача йомгак, төп нәтиҗәләр, дифференциаль, балллау системалары, тәкъдимнәр, күзәтү) һәм алар эчендәге ун алты мәҗбүри бүлекчәне кайтарган-кайтармаганын үлчәп чыга. Бүлек булуы структур исәпләүдә 40 процент, ә бүлекчә булуы 60 процент авырлыкка ия.
.Әр сүзнең клиник компонент 55 процент өлеш кертә һәм өч нәрсәне берләштерә: диагноз-төп сүзләрне искә төшерү (клиник суб-баллның 70 проценты), балллау системасын искә төшерү (20 процент — двигатель кирәк булганда Mentzer, FIB-4, HOMA-IR, ASCVD куркынычын, KDIGO стадиясен, EULAR/ACR критерийларын исәплиме), һәм ихтималлар суммасының дөреслеген тикшерү (10 процент — дифференциаль ихтималлар [90, 110] интервалында суммаланырга тиеш). «Капкан» очраклар өчен ачык гипердиагноз штрафы максимум 0.30 итеп алына, ул ясалма патология флагы өчен 0.10 итеп исәпләнә һәм өч флаг белән чикләнә.
.Әр сүзнең тоткарлык (latency) компоненты 10 процент өлеш кертә. 20 секундтан ким җавап тулы 0.10 ала, 40 секундтан ким җавап 0.05 ала, ә аннан әкренрәкнең барысы нуль. 20 секундлык максат — җитештерүнең төп primary-path сервис дәрәҗәсе максаты; 40 секундлык чик — авыр-двигатель чакырулары өчен 2 нче фаза fallback бюджеты.
Pre-registration нәрсәне булдырмый
Беренче зат (first-party) бенчмарклар пост-хок рубриканы көйләү аша үз саннарын арттыру белән данлы. Үрнәк диярлек һәрвакыт бер үк: команда двигательне эшләтә, кайда түбәнрәк эшләвен күрә, аннары түбәнрәк эшләгән өлкәләр азрак санала торган итеп рубриканы тыныч кына көйләп куя. Рубриканы беренче двигатель чакыруы алдыннан чыганак кодка беркетеп һәм harness-ны MIT лицензиясе астында бастырып, бу көйләү версия контролендә күренеп тора. Кем дә булса репозиторийны клонлый, рубрика автор даталарын тикшерә һәм двигатель нәтиҗәләре балллауны формалаштыру өчен кулланылмаганын раслый ала.
Гипердиагностика капканы — ни өчен артык әйтү (over-calling) төп уңышсызлык режимы
Нормаль экраннарда патологияне катырак «әйтеп җибәрү» — кулланучыга юнәлтелгән медицина ассистентлары өчен документлаштырылган уңышсызлык режимы. Аның түбәндәге чыгымнары кирәксез тикшерү, пациент борчылуы һәм яратып эшләнгән (iatrogenic) тикшерү-дәвалау эшләре белән бәйле. Бу бенчмарктагы ике «капкан» очрагы шушы уңышсызлык режимын күренеп торырлык һәм бәяләнә торлык итеп эшләнгән.
🟡 Trap 1 — BT-014-GILBERT
Күренеш. Гомуми билирубин 2.4 мг/дл булган 24 яшьлек ир-ат. Директ фракция нормаль, трансаминазалар һәм эшкәртүле фосфатаза үзләренең белешмә диапазоннарында, ретикулоцитлар берни белән аерылмый, һәм гаптоглобин белән LDH гемолизны кире кага.
Дөрес аңлатма. Гилберт синдромы — зарарсыз UGT1A1 полиморфизмы. Аңлатма гепатит, цирроз, гемолизлы анемия яки билиар обструкцияне чакырмаска тиеш.
V11 нәтиҗәсе. Композит 1.000. Алты күзәтелгән артык-диагноз флагының берсе дә актив диагноз булып чыкмады.
🟡 Trap 2 — BT-015-HEALTHY
Күренеш. Унбиш параметрлы гадәти скрининг панеле булган 35 яшьлек хатын-кыз. Һәрбер аналит үзенең белешмә диапазоны эчендә уңайлы урнаша.
Дөрес аңлатма. Ышандыру һәм яшәү рәвешен саклау. Төшендерү клиник яктан файдалы булып күренсен өчен чик арасы патологиясен уйлап чыгарырга тиеш түгел.
V11 нәтиҗәсе. Композит 1.000. Җиде күзәтелгән артык диагноз кую сигналларының берсе дә — диабет, анемия, гипотиреоз, дислипидемия, гепатит, бөер авыруы, җитешсезлек — актив диагноз булып чыкмады.
Ике «капкан» буенча да унөч күзәтелгән гипердиагноз сигналлары тикшерелде. Берсе дә эшләтелмәде. Бу — теләсә кайсы клиницист AI двигательне триаж яки консультациягә кадәрге корал итеп кулланырга уйлаганда иң мөһим нәтиҗә: система авыру булмаган урында авыру уйлап чыгармады.
Ментцер индексы: тимер җитешмәүне талассемия билгеләреннән аеру
Икенче югары кыйммәтле табыш — BT-001 очрагын (тимер җитешсезлеге анемиясе) BT-007 очрагы белән (бета-талассемиянең кечкенә формасы) парлаштыру. Икесендә дә микроситоз күзәтелә һәм бу наив классификаторлар өчен киң таралган «тоткарлык». Ментцер индексы, MCV-ны RBC санынә бүлеп исәпләнә, тимер җитешсезлегендә 13-тән артып китә һәм талассемия сыйфатында 13-тән түбән төшә.
BT-001дә пациент 34 яшьлек хатын-кыз иде: гемоглобин 10.4 г/дл, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферритин 6 нг/мл һәм TIBC күтәрелгән. Якынча 17.7 булган Ментцер индексы абсолют тимер җитешсезлеген хуплый. BT-007дә пациент 28 яшьлек ир-ат иде: микроситоз (MCV 65.8 фл), ләкин RBC саны 6.2, RDW нормаль, ферритин нормаль, HbA2 5.6 процент. Якынча 10.6 булган Ментцер индексы талассемия сыйфатын күрсәтә, һәм HbA2-нең күтәрелүе бета-талассемиянең кечкенә формасын раслый.
Ике очрак та 1.000 балл җыйды. Двигатель ике аңлатмада да Ментцер индексын ачык итеп кулланды һәм һәр очракта дөрес диагнозны кайтарды. Бу — бөтен бенчмаркта иң клиник яктан ышандыручы бердәнбер нәтиҗә, чөнки талассемия сыйфатын тимер җитешсезлеге дип ялгыш классификацияләү дөрес булмаган тимер өстәмәләре бирүгә һәм гаилә буенча скрининг мөмкинлекләрен кулдан ычкындыруга китерә, ә тимер җитешсезлеген талассемия дип ялгыш классификацияләү гади алмаштыру терапиясен тоткарлый. Безнең ферритин диапазоны буенча кулланма киңрәк дифференциаль контекстны аңлата.
V11 башлангыч белешмә йөгерешеннән очраклар буенча нәтиҗәләр (2026 елның 23 апреле)
15 очраклы proof-of-concept когортасында ясалган оригиналь V11 белешмә йөгереш хезмәт итә методик нигез булып Икенче яңарту өчен: түбәндәге һәр очрак детале рубриканың реаль двигатель җавабын ничек эшкәртүен күрсәтә. Уникаль 15 очрактан 12се төп юлда 1.000 түбә составлы баллына иреште; өч очрак 2-Фаза fallback аша хезмәт күрсәтелде, 0.05 латентлык бонусын югалтты, әмма барлык клиник һәм структур эчтәлек сакланды. Бер очракта бер генә мәҗбүри бүлекчә югалган; берсе маргиналь рәвештә киметелгән ихтималлар бүлү суммасын кайтарды.
PCOS очрагы (BT-008) җавап структурасында бер мәҗбүри бүлекчә югалтты — алтынадцедән унбиш түгел, ә унбиштән унбиш түгел — бу структур баллны 1,000 дән 0,963 ка киметте. SLE очрагы (BT-011) клиник баллны 0,965 кә төшергән, әмма һәр диагностик ачкыч сүзне һәм балллау системасын саклаган, бераз кимегән ихтимал-распределение суммасын кире кайтарды. Ике дә камил булмаган очрак дөрес диагнозны үткәреп җибәрмәде.
V11 Икенче яңарту агрегаты — 100,000 очрак
Халык масштабына күчкәндә, аерым очракларның рәтләре кеше өчен укылмый, шуңа күрә Икенче яңарту 100 000 рәтле таблица урынына тупланган күрсәткечләрне (aggregated metrics) хәбәр итә. Төп тупланма түбәндә күрсәтелгән; белгечлек һәм ил-ярлык буенча бүленешләр техник докладта һәм Figshare депозиты эчендә бастырылган. Стратификацияләнгән очраклы үрнәк n = 201 чимал двигатель җаваплары (детерминирланган seed 20260426) тикшерү өчен GitHub results/ каталогында бастырылган.
Баш исем баллы безгә нәрсә әйтми
Шушы алдан теркәлгән рубрика буенча 99.80 процентлы алымлы балл, 127 ил ярлыкларын колачлаган 100,000 очраклы синтетик когортада, түшәмгә бик якын күрсәткечне аңлата — әмма аны җентекләп рамкалау кирәк. Нәтиҗә V11-та без чыганак кодына беркеткән рубрикага каршы двигательнең тәртибен тасвирлый; ул дөньяда булган һәр кан анализы панелында двигательнең дөреслегенә универсаль дәгъва түгел.
Балл двигательнең бу бәяләү өчен сайланган диагностик үрнәкләрне халык күләмендәге когордада дөрес эшкәрткәнен әйтә, һәм ул басылып чыккан һәм кабатлап була торган методологиягә нигезләнә. Ул двигательнең кырда булган һәр кан анализы панелендә дөрес булуын әйтми. Ул двигательнең клиницист фикерен алыштырырга тиешлеген әйтми. Һәм ул двигательнең башка AI системаларыннан өстенрәк булуын да әйтми — башка двигательләргә чагыштырма анализлар бу доклад кысасына әдейләп кертелмәгән.
Баллның раслый торган нәрсә — нигез (baseline). Рубрика һәм хәрби (harness) җәмәгатькә ачык булгач, двигательнең киләчәк версияләрен шул ук рубрика буенча бәяләргә мөмкин булачак — V11 башлангыч 15 очракка, Икенче яңарту 100,000 очраклы когордага, яисә аннан соңгы киңәйтүләргә дә кулланып — басылып чыккан балл белән аннан соңгы һәрбер йөгереш арасындагы аерма үзе үк үлчәнергә мөмкин. Алдан теркәүнең кыйммәте менә шунда: ул эш күрсәтү турындагы дәгъваларны тикшереп була торган дәгъваларга әйләндерә.
Бу күрсәткечне 10 минут эчендә ничек кабатларга
Кабатлау өчен бары тик Kantesti API таныклык парлары һәм Python 3.10 яки аннан соңгы мохит кирәк, анда requests һәм reportlab китапханәләре урнаштырылган. Тулы хәрби бер генә, үз эченә алган Python модуле булып, MIT лицензиясе астында чыгарыла.
Яңа йөгереш өчен дүрт адым
Беренче. Репозиторийны клонлагыз: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Икенче. Бәйлелекләрне урнаштырыгыз pip install -r requirements.txt (Икенче яңарту өсти mysql-connector-python ≥ 8.0 SQL case loader өчен). Өч. Куй KANTESTI_USERNAME һәм KANTESTI_PASSWORD двигатель API өчен әйләнә-тирә үзгәрүчәннәре буларак. Икенче яңарту SQL case loader өчен шулай ук куегыз KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, һәм KANTESTI_DB_PASSWORD — йөкләүче тик укый торган роль аша тоташа (bench_reader) ул таблицаларны ачыклау буенча өстенлекләргә ия түгел. Дүрт. Башкарыгыз python benchmark_bloodtest.py --limit 100000 тулы Second-Update эшләнеше өчен, яисә python benchmark_bloodtest.py --limit 1000 тизрәк кабатлау өчен. Нәтиҗәләр түбәндәге урында чыга: ./benchmark_results/: ил-ярлык һәм белгечлек буенча баганалары булган CSV scorecard, JSON тупланмасы, стратификацияләнгән очраклы чимал җавап үрнәге һәм Markdown доклады.
Белешмә эшләнешләр 23 апрель 2026 (V11 башлангыч, 15 очрак) һәм 26 апрель 2026 (V11 Second Update, 100,000 очрак) репозиторийның results/ каталогында саклана. Яңа эшләнеш яңа вакыт тамгасы белән балл таблицасын чыгарачак, ә белешмә эшләнешләр үзгәрешсез калачак. Әгәр сезнең эшләнеш нәтиҗәсе мәгънәле рәвештә аерылып торса, зинһар, GitHub issue ачыгыз: эшләнеш вакыт тамгасы һәм җавап мета-мәгълүматында кайтарылган двигатель версиясе белән.
Чикләүләр һәм киләчәк эш
127 ил ярлыгы буенча 100 000 очрак булса да, дүрт чикләүне ачык итеп тану кирәк: озын койрык ярлыкларының аз үрнәкләнүе, бер тапкырлы бәяләү, бер двигатель масштабы, һәм бер чыганактан алынган мәгълүмат килеп чыгышы. Боларның һәрберсе актив дәвам итүче эштә карала.
Озын койрык ярлыкларының қамтуы. Икенче яңарту 127 ил ярлыгын үз эченә ала, әмма тарату тигез түгел — иң яхшы 10 ярлык очракларның ≈66.4% өлешен тәшкил итә, ә өстәмә 97 ярлыктан торган озын койрык бергәләп ≈7.3% (якынча 7 300 очрак бергә, ярлыкка уртача ~75 очрак) өлеш кертә. Шуңа күрә бу озын койрыкта ярлык буенча составлы күрсәткечләр төп саннар күрсәткәннән дә күбрәк шау-шу (noisier). Киләчәк эшләнмәләр ярлык бирүне яңадан тигезләп, ярлык буенча бәяләүләрне ныгытачак.
Бер тапкыр бәяләү. Кохорттагы һәр очрак бер тапкыр бәяләнде. Зур тел модельләре хәтта түбән үрнәкләү температурасы шартларында да әһәмиятле чыгыш вариативлыгын күрсәтә, шуңа күрә очракка биш бәяләү һәм хәбәр ителгән вариативлык белән күп тапкырлы протокол — табигый чираттагы адым, аеруча «trap-case» өлешендә, анда үрнәкләү тибрәнешенә карата эзлеклелек куркынычсызлык турындагы дәгъва кысасында өлеш булып тора.
Бер двигатель масштабы. Бу доклад бер двигательне характерлый. Төрле альтернатив AI системалары белән чагыштырма анализлар монда кертелми; без аларны бер үк MIT лицензияле harnessка каршы, тиешле методология белән аерым бәйсез тикшерү буларак карарга мөмкин.
Синтетик мәгълүмат. 100,000 очрак синтетиклаштырылган, синтетик очраклар түгел, һәм нәтиҗәләр реаль дөнья клиник күрсәткечләренә күчми. Реаль, ризалык бирелгән, тыштан алынган мәгълүмат белән бәяләү тиешле этик күзәтчелекне таләп итәр иде һәм бу синтетик бенчмарк кысасына керми.
Бу дүрт чикләүдән тыш, иң зур йогынтылы планлаштырылган киңәйтү — юрисдикция буенча күп теллелек тигезлеге. Kantesti AI Engine 75+ телдә кулланучыларга хезмәт күрсәтә, һәм тел-стратификацияләнгән Second-Update суб-когортларын (төрек, немец, испан, француз, итальян, португал, гарәп, мандарин) эшләтү двигательнең ярдәм ителгән телләрендә чыгыш сыйфатын санап күрсәтәчәк. Һәр тел-стратификацияләнгән анализ үзенең DOI һәм harness веткасы белән бастырылачак.