Неге бұл эталон бар және ол нені тексереді
AI көмегімен қан анализін қалай оқу керек барған сайын тұтынушылық және клиникалық жұмыс процестерінде қолданыла бастады, алайда зертханалық медицинаға бейімделген, қайта өндіруге болатын бағалау құрылымдары әлі де сирек. Бұл контекстте ең маңызды сұрақтар жалпы медициналық сұрақ-жауап эталондары қамтитын сұрақтар емес: орташа корпускулалық көлем (MCV) бірдей болғанда қозғалтқыш темір тапшылығын талассемия белгілерінен ажырата ала ма, Гилберт синдромын гепатит ретінде артық диагноз қоя ма, және толық қалыпты скрининг панелінде патологияны «жасай» ма?
Бір ғана қан талдауы панелі әдетте бірнеше бәсекелес түсіндіруді қолдауға жеткілікті сигнал береді, ал оны түсіндіретін клиницистің міндеті сол түсіндірулерді бір-бірімен салыстырып таразылау болып табылады, оқулықтағы дайын жауапты іздеп табу емес. Оқулықтағы жағдайларда жақсы нәтиже көрсететін қозғалтқыш маңыздырақ болып саналатын жағдайларда әлі де сәтсіздікке ұшырауы мүмкін: дифференциалды диагностикадағы қателік тұзақтары, оқшау қарағанда дабылдай көрінетін, бірақ қатерсіз нұсқалар және сенімді көмекшілерді патологияны «жасауға» итермелейтін толық қалыпты панельдер.
Бұл бенчмарк дәл сол сәтсіздік режимдеріне негізделіп жасалды. Он бес жағдайдың әрқайсысы нақты бір диагностикалық қасиет үшін таңдалды: орташа эритроцит көлемі бірдей бета-талассемия белгілерімен шатастырылмауы тиіс темір тапшылығынан болатын микроцитоз; жалғыз ғана ауытқуы оқшауланған жанама гипербилирубинемия болып табылатын Гилберт синдромының көрінісі; және әрбір көрсеткіші өз анықтамалық диапазонының ішінде тұрған он бес параметрлі скрининг панелі. Бағалау өлшемі әр жағдайды өз мәнмәтінімен оқитын қозғалтқыштарды марапаттайды және мұндай диагноз негізделмеген кезде сенімді диагнозға «жүгінетін» қозғалтқыштарды жазалайды.
MD дәрігер Томас Клейн ретінде мен жағдайлар панелін таңдадым, өйткені зертханалық-медицина көмекшілері ең жиі қателесетін үлгілер осы. Қымбат сәтсіздік режимі "сирек ауруды жіберіп алу" емес — оны жоқ пациенттерде әдеттегі патологияны ойдан шығару. Біздің Медициналық валидация hub кеңірек фреймворкты сипаттайды; бұл бет V11 бастапқы proof-of-concept-ті және оны 127 ел жапсырмасын қамтитын синтетикалық жағдайлар жиынтығынан алынған 100,000 синтетикалық жағдайға дейін кеңейткен V11 Екінші жаңартуды сипаттайды — сол бағалау рубрикасын қолдана отырып, байт-идентті, пост-хок баптауға рұқсат берілмейді.
Ең соңғы эталондық іске қосу — V11 Екінші жаңарту (26 сәуір, 2026)
26 сәуір 2026 жылғы V11 Екінші жаңарту эталондық іске қосуы құрамдық балл шығарды: 99.80% V11 бастапқы шығарылымында қолданылған алдын ала тіркелген сол рубрика бойынша бағаланды, 100,000 синтетикалық жағдай Kantesti синтетикалық жағдайлар жиынынан алынған және 127 ел жапсырмасын қамтиды және 75+ тілдерін қамтыды. Әрбір жағдай қозғалтқыштың негізгі жолында аяқталды; trap-case гипердиагностика жалаушасының белсенділенуі 0 / 87,412. деңгейінде қалды. 23 сәуір 2026 жылғы бастапқы V11 іске қосуы 15 қолмен іріктелген жағдайды қамтыды (құрамдық 99.12%) және рубриканы растады; Екінші жаңарту сол рубриканы байт бойынша дәлме-дәл сақтайды және бағалауды популяция ауқымындағы когортқа дейін кеңейтеді.
Құрама формула үш компонентті біріктіреді: құрылымдық сәйкестік жеті міндетті есеп беру бөлімімен және он алты міндетті қосалқы бөліммен, мазмұн дәлдігі кілтсөзді еске түсіру (keyword recall) + бағалау жүйесін еске түсіру (scoring-system recall) + ықтималдық-үлестірімнің жарамдылығын тексеру арқылы өлшенеді, және жауап беру кідірісі негізгі жолдың қызмет деңгейі (service-level) нысанасына сәйкес. Нақты жіктелуі төмендегі рубрика формуласында көрсетілген — осы салмақтардың немесе қосымша рубрикалардың ешқайсысы Екінші жаңарту үшін өзгертілмеді.
Бос орынның қалған 0.20 пайыздық пункті негізінен клиникалық қосалқы баллға бөлінеді — жағдайлардың шағын бөлігі (көбіне Гепатология және Ревматологияда) диагностикалық мазмұны дұрыс болғанына қарамастан, қозғалтқыштың түсіндіруінде бір күтілетін бағалау-жүйесі кілтсөзі жоқ болды. 100,000 жағдайлық Екінші жаңарту когортасындағы ешбір жағдайдың өзі диагнозды жіберіп алмады. Кешігу V11 бастапқы шығарылымындағы орташа 20.17 с-тан Екінші жаңартудағы 13.26 с-қа дейін жақсарды; бұл екі іске қосу арасындағы өндірістік қозғалтқыш оңтайландыруларын көрсетеді. Рубрика, бағалау коды және API соңғы нүктесі өзгеріссіз қалды.
Жапсырма бойынша құрама баллдар ең көп ұсынылған 30 ел жапсырмасы бойынша 0.9971-ден 0.9985-ке дейін ауытқыды. Қосымша 97 жапсырмадан тұратын ұзын «құйрық» (біріктірілген ≈7,300 жағдай) жүйелі нашарлауды көрсеткен жоқ. Істер саны бойынша ең жиі жапсырмалар: Америка Құрама Штаттары (10,500), Бразилия (9,500), Испания (9,000), Италия (8,000), Германия (7,800), Франция (7,400), Португалия (5,800), Türkiye (3,400), Біріккен Корольдік (2,900) және Мексика (2,500). Жапсырма бойынша құрама баллдар 0.9971-ден 0.9985-ке дейін болды.
15 жағдайдан 100,000-ға дейін: 127 ел жапсырмасы бойынша когорта эволюциясы
Бастапқы V11 жағдайлар панелі жеті мамандықты — гематология, эндокринология, метаболикалық медицина, гепатология, нефрология, кардиология, ревматология — сондай-ақ екі арнайы гипердиагностикаға арналған trap жағдайды қамтыды; әр жағдай синтетикалық түрде генерацияланған қан талдауы панелінен тұрды. V11 Екінші жаңарту бағалауды 100,000 синтетикалық жағдайға дейін, 127 ел жапсырмасы бойынша кеңейтеді, сегіз мамандыққа бөлінген (бастапқы жеті плюс trap ішкі жиынын жұтатын ішкі медицинаға арналған арнайы бөлік). Сол бағалау рубрикасы екі іске қосуда да байт бойынша дәлме-дәл қолданылады.
Барлық жағдайлар синтетикалық болғандықтан, алып тастайтын нақты идентификаторлар жоқ және дербес дерек қатыспайды. Әр синтетикалық жағдай эталондық ішкі жағдай кодын алып жүреді (V11 бастапқы жиында BT-NNN-LABEL, Екінші жаңартуда тұрақты case_uid ). Жарияланған бағалау құралының (harness), техникалық есептің немесе шығарылған деректер жиындарының ешқайсысында дербес дерек көрінбейді.
V11 бастапқы шығарылымына сәйкес жүргізілді — 15 қолмен іріктелген жағдай
V11 бастапқы жағдайлар панелін диагностикалық үлгілерді зертханалық медицина ассистенттері ең жиі қате түсіндіретінін жаттықтыру үшін доктор Томас Клейн қолмен іріктеп жасаған. Он бес жағдайдың әрқайсысы төменде көрсетілген белгілі бір диагностикалық қасиет үшін таңдалды.
Неге дәл осы таралу таңдалды
Гематология үш жағдай алады, өйткені микрциттік дифференциалдар және макроциттік дифференциалдар нақты өмірдегі зертханалық практикада ең көп көлемді «тұзақ» болып табылады. Эндокринология үш жағдай алады, өйткені Хашимото, ПКОС және D дәрумені жетіспеушілігі көріністері әртүрлі диагностикалық пішіндерді жаттықтырады (аутоантиденеге негізделген, гормондық қатынасқа негізделген, бір маркерге негізделген). Бір жағдайдан берілген мамандықтар да маңызды, өйткені әрбір ЖБЖ (CKD), АСҚД (ASCVD) қаупі және ЖСЕ (SLE) үшін қозғалтқыш шақыруы тиіс өз бағалау жүйесі бар (KDIGO сатылары, ASCVD 10 жылдық қаупі, тиісінше 2019 EULAR/ACR SLE критерийлері).
V11 Екінші жаңарту — 127 ел жапсырмасы бойынша 100,000 синтетикалық жағдай
Екінші жаңарту бастапқы V11-дің 15 жағдайдан тұратын hard-coded Python литералын үлкенірек, бағдарламалық түрде генерацияланған синтетикалық жағдайлар жиынымен ауыстырады. Жиын әрбір іске қосылудың басында жүктеледі және конфигурация ашықтық үшін журналға жазылады. Мазмұн аймағы бойынша когорта үлестірімі төменде көрсетілген.
Синтетикалық ел-жапсырма үлестірімі — ең көп 10 жапсырма
100,000 синтетикалық жағдай 127 ел жапсырмасын (ISO 3166-1 alpha-2) алып жүреді, локальді өңдеуді сынау үшін. Жапсырма тағайындау: Еуропа 57.7%, Америка құрлықтары 25.4%, Азия-Тынық мұхиты 6.2%, Таяу Шығыс/Африка деп аталатын жапсырмалар 3.4% және қосымша 97 жапсырмадан тұратын ұзын «құйрық» шамамен 7.3% біріктірілген. Істер саны бойынша ең жиі он жапсырма: Америка Құрама Штаттары (10,500), Бразилия (9,500), Испания (9,000), Италия (8,000), Германия (7,800), Франция (7,400), Португалия (5,800), Türkiye (3,400), Біріккен Корольдік (2,900) және Мексика (2,500). Жапсырма бойынша құрама баллдар 0.9971-ден 0.9985-ке дейін ауытқыды. Бұл жапсырма саны генерацияланған жағдайлардың локальді өңдеуді сынау үшін қолданылатын қасиеттері — олар нақты пайдаланушылар да емес және нақты әлемдік географиялық қамтуды білдірмейді.
Алдын ала тіркелген рубрика, түсіндірілген
Рәсімге дейінгі тіркеу (pre-registration) — осы бенчмарктегі ең маңызды әдістемелік таңдау. Күтілетін әрбір диагноз, әрбір клиникалық бағалау жүйесі және әрбір есеп бөлімі бастапқы кодқа бекітілді қозғалтқыш шақырылғанға дейін. Сондықтан рубриканы қозғалтқышты «мақтау» үшін пост-хок баптау мүмкін емес.
Құрама баллды құрайтын үш компонент бар. құрылымдық компонент 35 пайызды құрайды және қозғалтқыштың жеті міндетті есеп бөлімін (тақырып, қорытынды, негізгі қорытындылар, дифференциал, бағалау жүйелері, ұсыныстар, бақылау) және олардың ішіндегі он алты міндетті қосалқы бөлімін қайтарған-қайтармағанын өлшейді. Бөлімнің бар болуы құрылымдық есептеуде 40 пайызды, ал қосалқы бөлімнің бар болуы 60 пайызды құрайды.
The клиникалық компонент 55 пайызды құрайды және үш нәрсені біріктіреді: диагноз-кілтсөзді еске түсіру (клиникалық қосалқы баллдың 70 пайызы), бағалау жүйесін еске түсіру (20 пайыз — қозғалтқыш қажет болғанда Mentzer, FIB-4, HOMA-IR, ASCVD қаупін, KDIGO сатыларын, EULAR/ACR критерийлерін есептей ме), және ықтималдықтар қосындысының дұрыстығын тексеру (10 пайыз — дифференциал ықтималдықтары [90, 110] аралығына дейін қосылуы тиіс). Тұзақ жағдайларда айқын гипердиагноз үшін ең көбі 0.30 айыппұл шегеріледі, ол әрбір ойдан шығарылған патология белгісі үшін 0.10 есебімен есептеледі, үш белгімен шектеледі.
The кідіріс (латенттілік) компоненті 10 пайызды құрайды. 20 секундтан аз жауап толық 0.10 алады, 40 секундтан аз жауап 0.05 алады, ал одан баяу кез келгені нөл алады. 20 секундтық мақсат өндірістік негізгі primary-path қызмет деңгейінің мақсатымен байланысты; 40 секундтық шек ауыр қозғалтқыш шақырулары үшін 2-кезеңдегі fallback бюджетіне сәйкес келеді.
Pre-registration неге жол бермейді
Бірінші тараптың бенчмарктері пост-хок рубриканы баптау арқылы өз сандарын асырып көрсетуге бейім. Үлгі әрдайым дерлік бірдей: команда қозғалтқышты іске қосады, қай жерде нашар орындайтынын көреді, содан кейін нашар орындалған аймақтар аз есептелуі үшін рубриканы үнсіз ғана түзетеді. Рубриканы алғашқы қозғалтқыш шақыруына дейін бастапқы кодқа бекітіп, harness-ті MIT лицензиясымен жариялау арқылы бұл түзету нұсқаларды басқаруда көрінетін болады. Кез келген адам репозиторийді клондап, рубрика авторларының күндерін тексеріп, қозғалтқыш нәтижелері бағалауды қалыптастыру үшін қолданылмағанын дәлелдей алады.
Гипердиагностика тұзағы жағдайлары — шамадан тыс атау (over-calling) неге негізгі сәтсіздік режимі
Қалыпты скринингтерде патологияны агрессивті түрде «артық шақыру» — тұтынушыға арналған медициналық ассистенттерге тән құжатталған сәтсіздік режимі. Оның салдарлық шығындарына қажетсіз тексерулер, пациенттің мазасыздануы және ятрогендік тексеру жатады. Осы бенчмарктегі екі тұзақ жағдай бұл сәтсіздік режимін көрінетін және бағаланатын ету үшін жасалған.
🟡 Тұзақ 1 — BT-014-GILBERT
Көрінісі. Жалпы билирубині 2.4 мг/дл болатын 24 жастағы ер адам. Тікелей фракция қалыпты, трансаминазалар мен сілтілік фосфатаза олардың анықтамалық диапазондарының ішінде, ретикулоциттер айтарлықтай емес, ал гаптоглобин мен LDH гемолизді жоққа шығарады.
Дұрыс интерпретация. Гилберт синдромы — UGT1A1 генінің қатерсіз полиморфизмі. Интерпретация гепатитті, циррозды, гемолиздік анемияны немесе билиарлық обструкцияны қамтымауы тиіс.
V11 нәтижесі. Құрама 1.000. Алты бақыланған артықдиагноз белгісінің ешқайсысы белсенді диагноз ретінде шыққан жоқ.
🟡 Тұзақ 2 — BT-015-HEALTHY
Көрінісі. 15 параметрлі рутиналық скрининг панелі бар 35 жастағы әйел. Әрбір аналит өзінің анықтамалық диапазонының ішінде ыңғайлы орналасқан.
Дұрыс интерпретация. Жауырыну және өмір салтын қолдау. Түсіндірме клиникалық тұрғыдан пайдалы көрінуі үшін шекаралық патологияны ойдан шығармауы тиіс.
V11 нәтижесі. Композит 1.000. Жеті бақыланған артық диагноз қою туралы жалаушаның ешқайсысы — қант диабеті, анемия, гипотиреоз, дислипидемия, гепатит, бүйрек ауруы, тапшылық — белсенді диагноз ретінде шыққан жоқ.
Екі «тұзақтың» екеуінде де он үш бақыланған гипердиагноз жалаушасы тексерілді. Ешқайсысы іске қосылмады. Бұл кез келген клиницист үшін ең маңызды нәтиже, өйткені ол AI қозғалтқышын триаж немесе алдын ала кеңес құралы ретінде қолдануды қарастырады: жүйе жоқ жерде ауру ойлап таппады.
Ментцер индексі: темір тапшылығын талассемия белгілерінен ажырату
Екінші құнды нәтиже — BT-001 жағдайын (темір тапшылығы анемиясы) BT-007 жағдайымен (бета-талассемияның кіші түрі) жұптастыру. Екеуі де микроцитозбен көрінеді және бейімделмеген жіктегіштер үшін жиі кездесетін «кедергі». Ментцер индексі, ол MCV-ді RBC санына бөлу арқылы есептеледі, темір тапшылығында 13-тен жоғары, ал талассемия белгісінде 13-тен төмен болады.
BT-001-де пациент 34 жастағы әйел болды: гемоглобин 10.4 г/дЛ, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферритин 6 нг/мл және TIBC жоғары. Ментцер индексі шамамен 17.7 абсолютті темір тапшылығын қолдайды. BT-007-де пациент 28 жастағы ер адам болды: микроцитоз (MCV 65.8 фл), бірақ RBC саны 6.2 жоғары, RDW қалыпты, ферритин қалыпты, HbA2 5.6 пайыз. Ментцер индексі шамамен 10.6 талассемия белгісін көрсетеді, ал HbA2-нің жоғары болуы бета-талассемияның кіші түрін растайды.
Екі жағдай да 1.000 балл жинады. Қозғалтқыш екі түсіндірмеде де Ментцер индексін нақты қолданды және әр жағдайда дұрыс диагнозды қайтарды. Бұл бүкіл бенчмарктегі ең клиникалық тұрғыдан сенімді нәтиже, өйткені талассемия белгісін темір тапшылығы деп қате жіктеу орынсыз темір қоспасын тағайындауға және отбасылық скрининг мүмкіндіктерін жіберіп алуға әкеледі; ал темір тапшылығын талассемия деп қате жіктеу қарапайым алмастыру терапиясын кешіктіреді. Біздің ферритин көрсеткіштерінің диапазоны дифференциалды контексттің кеңірек көрінісін түсіндіреді.
V11 бастапқы эталондық іске қосылымнан (2026 ж. 23 сәуір) жағдай бойынша нәтижелер
15 жағдайлық proof-of-concept когортасындағы бастапқы V11 эталондық іске қосылым Екінші жаңартудың әдістемелік негізін құрайды: төмендегі әрбір жағдайлық деталь рубриканың нақты қозғалтқыш жауабын қалай өңдейтінін көрсетеді. Он бес жағдайдың он екеуі негізгі жолда (primary path) 1.000 төбелік құрама баллға жетті; үш жағдай Phase 2 резервтік жолы арқылы берілді, нәтижесінде 0.05 кідіріс бонусы жоғалды, бірақ барлық клиникалық және құрылымдық мазмұн сақталды. Бір жағдай бір ғана міндетті ішбөлімнен (subsection) айырылды; бір жағдай ықтималдықтар таралуының қосындысы шамалы төмендетілген түрде қайтарылды. of the Second Update: every per-case detail below illustrates how the rubric handles a real engine response. Twelve of fifteen cases achieved the ceiling composite score of 1.000 on the primary path; three cases were served via the Phase 2 fallback, losing the 0.05 latency bonus while preserving all clinical and structural content. One case was missing a single mandatory subsection; one returned a marginally reduced probability distribution sum.
PCOS жағдайы (BT-008) жауап құрылымында бір міндетті ішкі бөлімді жоғалтты — он алтының орнына он бестен он алтыға дейін — бұл құрылымдық баллды 1,000-нан 0,963-ке дейін төмендетті. SLE жағдайы (BT-011) клиникалық баллды 0,965-ке түсірген, бірақ барлық диагностикалық кілтсөздер мен бағалау жүйесін сақтаған, ықтималдықтар таралуы қосындысының шамалы төмендеген нұсқасын қайтарды. Екі де мінсіз емес жағдай да дұрыс диагнозды жіберіп алмады.
V11 Екінші жаңарту агрегаты — 100,000 жағдай
Халық саны ауқымында жеке жағдай жолдары адамға оқылмайтын болғандықтан, Екінші жаңарту 100,000 жолдық кестенің орнына агрегатталған көрсеткіштерді береді. Негізгі агрегат төменде көрсетілген; мамандық және ел-жапсырма бойынша жіктелімдер техникалық есепте және Figshare депозитінде жарияланған. Стратификацияланған кездейсоқ іріктеме n = 201 шикі қозғалтқыш жауаптары (детерминирленген seed 20260426) GitHub results/ тексеру үшін арналған каталогта жарияланған.
Басты көрсеткіш бізге нені айтпайды
Осы нақты алдын ала тіркелген рубрика бойынша 99.80 пайыздық құрама балл, 127 ел жапсырмасын қамтитын 100,000 жағдайдан тұратын синтетикалық когортада, төбеге жақын өнімділікті білдіреді — бірақ оны мұқият контекстпен түсіндіру керек. Нәтиже қозғалтқыштың V11-де бастапқы кодқа міндеттелген рубрикаға қатысты әрекетін сипаттайды; бұл жабайы ортада бар әрбір қан талдауы панеліндегі қозғалтқыштың дұрыстығы туралы әмбебап талап емес.
Балл қозғалтқыштың осы бағалау үшін таңдалған диагностикалық үлгілерді халық саны ауқымындағы когортада дұрыс өңдегенін, жарияланған және қайта өндіруге болатын әдістеме бойынша екенін көрсетеді. Бұл қозғалтқыштың табиғатта бар әрбір қан талдауы панелінде дұрыс екенін айтпайды. Бұл қозғалтқыш клиницистің пайымын алмастыруы керек дегенді айтпайды. Және бұл қозғалтқыш басқа АИ жүйелерінен асып түседі дегенді айтпайды — басқа қозғалтқыштарға салыстырмалы талдаулар осы есеп үшін әдейі шектеу аясынан тыс қалдырылды.
Баллдың нақты бекітетіні — бастапқы деңгей (baseline). Рубрика мен хост (harness) жария болғандықтан, қозғалтқыштың болашақ нұсқаларын дәл сол рубрикаға қарсы бағалауға болады — V11 бастапқы 15 жағдайға, Екінші жаңартудағы 100 000 жағдайлық когортаға немесе кез келген кейінгі кеңеюге қолдануға болады — ал жарияланған балл мен кез келген кейінгі жүгіру арасындағы алшақтықтың өзі өлшенетін болады. Алдын ала тіркеудің құндылығы міне: өнімділік туралы талаптарды тексерілетін талаптарға айналдырады.
Бұл эталонды 10 минутта қалай қайталауға болады
Қайта өндіру үшін тек Kantesti API куәлік жұбы және Python 3.10 немесе одан кейінгі нұсқасы бар орта қажет, сонымен бірге requests және reportlab кітапханалары орнатылған болуы керек. Толық құрал бір ғана MIT лицензиясымен шығарылған, дербес қамтылған Python модулі.
Жаңа іске қосу үшін төрт қадам
Бірінші. Репозиторийді клондау: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Екінші. Тәуелділіктерді орнату: pip install -r requirements.txt (Екінші жаңарту қосады mysql-connector-python ≥ 8.0 SQL case loader үшін). Үш. Орнату KANTESTI_USERNAME және KANTESTI_PASSWORD қозғалтқыш API үшін орта айнымалылары ретінде. Екінші жаңартудағы SQL case loader үшін сондай-ақ орнатыңыз: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, және KANTESTI_DB_PASSWORD — жүктеуші тек оқуға арналған рөл арқылы қосылады (bench_reader) ол кестелерді анықтауға қатысты рұқсаттары жоқ. Төрт. Іске қосу python benchmark_bloodtest.py --limit 100000 толық Second-Update іске қосу үшін немесе python benchmark_bloodtest.py --limit 1000 жылдам итерация үшін. Нәтижелер мына жерге түседі ./benchmark_results/: ел бойынша белгі және мамандық бағандары бар CSV балл-картасы, JSON агрегаты, стратификацияланған-кездейсоқ шикі жауап үлгісі және Markdown есеп.
23 сәуір 2026 жылғы (V11 бастапқы, 15 жағдай) және 26 сәуір 2026 жылғы (V11 Second Update, 100,000 жағдай) эталондық іске қосулар репозиторийдің results/ каталогында сақталған. Жаңа іске қосу эталондық іске қосуларды өзгертпей, жаңа уақыт белгісі бар scorecard шығарады. Егер сіздің іске қосуыңыз нәтижесі елеулі түрде өзгеше болса, өтінеміз, GitHub issue ашып, іске қосу уақыт белгісін және жауап метадеректерінде қайтарылған engine нұсқасын көрсетіңіз.
Шектеулер және болашақ жұмыс
127 ел белгісі бойынша 100,000 жағдайға дейін болса да, төрт шектеуді нақты түрде мойындау қажет: ұзынқұйрықты (long-tail) белгі бойынша үлгінің аздығы, бір реттік бағалау, бір қозғалтқыш ауқымы және бір дереккөзден шығу тегі. Бұлардың әрқайсысы белсенді түрде жүргізіліп жатқан кейінгі жұмыстарда қарастырылуда.
Ұзынқұйрықты (long-tail) белгі қамтуы. Екінші жаңарту 127 ел белгісін қамтиды, бірақ үлестірімі тең емес — алғашқы 10 белгі жағдайлардың ≈66.4%-ын құрайды, ал қалған 97 қосымша белгіден тұратын ұзынқұйрық бірге ≈7.3% (шамамен 7,300 жағдай жиынтығы, орташа ~75 жағдай/белгі) үлес қосады. Сондықтан осы ұзынқұйрықтағы әр-белгі бойынша композиттер басылымдағы негізгі көрсеткіштерге қарағанда әлдеқайда «шуылырақ». Болашақ іске қосулар әр-белгі бойынша бағалауларды нақтылау үшін белгі тағайындауды қайта теңестіретін болады.
Бір реттік бағалау. Когортадағы әр жағдай бір рет бағаланды. Үлкен тілдік модельдер төмен sampling temperature кезінде де айтарлықтай шығыс вариативтілігін көрсетеді, сондықтан әр жағдайға бес бағалау жүргізілетін және есеп берілетін вариативтілігі бар көп іске қосу протоколы табиғи келесі қадам болып табылады — әсіресе trap-case ішкі жиынында, мұнда sampling дірілінің әсеріне қарамастан тұрақтылық қауіпсіздік туралы талаптың бір бөлігі болып саналады.
Бір қозғалтқыш ауқымы. Бұл есеп бір ғана engine-ді сипаттайды. Мұнда баламалы AI жүйелермен салыстырмалы талдаулар қамтылмайды; біз оларды бірдей MIT лицензияланған harness-қа қарсы, тиісті әдістемемен бөлек тәуелсіз зерттеу ретінде қарастыруымыз мүмкін.
Синтетикалық деректер. 100,000 жағдай синтетикалық түрде генерацияланған — синтетикалық жағдайлар емес, және нәтижелер нақты әлемдегі клиникалық көрсеткіштерге ауыспайды. Рұқсаты бар, нақты деректерге бағалау жүргізу тиісті этикалық қадағалауды талап етеді және бұл синтетикалық эталонның ауқымынан тыс.
Осы төрт шектеуден тыс, жоспарланған ең ықпалды кеңейту — әр юрисдикция бойынша көптілді сәйкестік. Kantesti AI Engine пайдаланушыларға 75+ тілде қызмет көрсетеді, ал тілге қарай стратификацияланған Second-Update ішкі когорттарын (түрік, неміс, испан, француз, итальян, португал, араб, мандарин) іске қосу engine қолдайтын тілдер бойынша шығыс сапасын сандық түрде бағалайды. Әр тілге қарай стратификацияланған талдау өз DOI-ымен және harness тармағымен жарияланады.