Неге бұл эталон бар және ол нені тексереді

AI көмегімен қан анализін қалай оқу керек барған сайын тұтынушылық және клиникалық жұмыс процестерінде қолданыла бастады, алайда зертханалық медицинаға бейімделген, қайта өндіруге болатын бағалау құрылымдары әлі де сирек. Бұл контекстте ең маңызды сұрақтар жалпы медициналық сұрақ-жауап эталондары қамтитын сұрақтар емес: орташа корпускулалық көлем (MCV) бірдей болғанда қозғалтқыш темір тапшылығын талассемия белгілерінен ажырата ала ма, Гилберт синдромын гепатит ретінде артық диагноз қоя ма, және толық қалыпты скрининг панелінде патологияны «жасай» ма?

Алдын ала тіркелген rubric ағын-диаграммасы: Kantesti AI Engine — V11 Екінші Жаңарту, 100 000 жағдайдағы 99.80% композит ұпайы — қатып қалған бағалау критерийлеріне қалайша бағаланатынын көрсетеді
1-сурет: V11 бастапқы шығарылымының артындағы эталондық архитектура 99.80% құрама балл V11 Екінші жаңарту 100,000 жағдайлық когортасында — әрбір жағдай, әрбір кілтсөз, әрбір бағалау жүйесі қозғалтқыш бірде-бір PDF-ті көрмей тұрып бастапқы кодқа бекітілген, ал рубрика V11 бастапқы шығарылымымен дәлме-дәл (байт бойынша) бірдей. Рубриканы кейіннен баптау дизайн бойынша мүмкін емес.

Бір ғана қан талдауы панелі әдетте бірнеше бәсекелес түсіндіруді қолдауға жеткілікті сигнал береді, ал оны түсіндіретін клиницистің міндеті сол түсіндірулерді бір-бірімен салыстырып таразылау болып табылады, оқулықтағы дайын жауапты іздеп табу емес. Оқулықтағы жағдайларда жақсы нәтиже көрсететін қозғалтқыш маңыздырақ болып саналатын жағдайларда әлі де сәтсіздікке ұшырауы мүмкін: дифференциалды диагностикадағы қателік тұзақтары, оқшау қарағанда дабылдай көрінетін, бірақ қатерсіз нұсқалар және сенімді көмекшілерді патологияны «жасауға» итермелейтін толық қалыпты панельдер.

Бұл бенчмарк дәл сол сәтсіздік режимдеріне негізделіп жасалды. Он бес жағдайдың әрқайсысы нақты бір диагностикалық қасиет үшін таңдалды: орташа эритроцит көлемі бірдей бета-талассемия белгілерімен шатастырылмауы тиіс темір тапшылығынан болатын микроцитоз; жалғыз ғана ауытқуы оқшауланған жанама гипербилирубинемия болып табылатын Гилберт синдромының көрінісі; және әрбір көрсеткіші өз анықтамалық диапазонының ішінде тұрған он бес параметрлі скрининг панелі. Бағалау өлшемі әр жағдайды өз мәнмәтінімен оқитын қозғалтқыштарды марапаттайды және мұндай диагноз негізделмеген кезде сенімді диагнозға «жүгінетін» қозғалтқыштарды жазалайды.

MD дәрігер Томас Клейн ретінде мен жағдайлар панелін таңдадым, өйткені зертханалық-медицина көмекшілері ең жиі қателесетін үлгілер осы. Қымбат сәтсіздік режимі "сирек ауруды жіберіп алу" емес — оны жоқ пациенттерде әдеттегі патологияны ойдан шығару. Біздің Медициналық валидация hub кеңірек фреймворкты сипаттайды; бұл бет V11 бастапқы proof-of-concept-ті және оны 127 ел жапсырмасын қамтитын синтетикалық жағдайлар жиынтығынан алынған 100,000 синтетикалық жағдайға дейін кеңейткен V11 Екінші жаңартуды сипаттайды — сол бағалау рубрикасын қолдана отырып, байт-идентті, пост-хок баптауға рұқсат берілмейді.

Ең соңғы эталондық іске қосу — V11 Екінші жаңарту (26 сәуір, 2026)

26 сәуір 2026 жылғы V11 Екінші жаңарту эталондық іске қосуы құрамдық балл шығарды: 99.80% V11 бастапқы шығарылымында қолданылған алдын ала тіркелген сол рубрика бойынша бағаланды, 100,000 синтетикалық жағдай Kantesti синтетикалық жағдайлар жиынынан алынған және 127 ел жапсырмасын қамтиды және 75+ тілдерін қамтыды. Әрбір жағдай қозғалтқыштың негізгі жолында аяқталды; trap-case гипердиагностика жалаушасының белсенділенуі 0 / 87,412. деңгейінде қалды. 23 сәуір 2026 жылғы бастапқы V11 іске қосуы 15 қолмен іріктелген жағдайды қамтыды (құрамдық 99.12%) және рубриканы растады; Екінші жаңарту сол рубриканы байт бойынша дәлме-дәл сақтайды және бағалауды популяция ауқымындағы когортқа дейін кеңейтеді.

Құрама 99.80% 100,000 жағдайдың 100,000-і бағаланды
1.000 Құрылымдық балл
0.996 Клиникалық балл
13.26 с Орташа кідіріс
0 / 87,412 Тұзақтағы жалған оң нәтижелер

Құрама формула үш компонентті біріктіреді: құрылымдық сәйкестік жеті міндетті есеп беру бөлімімен және он алты міндетті қосалқы бөліммен, мазмұн дәлдігі кілтсөзді еске түсіру (keyword recall) + бағалау жүйесін еске түсіру (scoring-system recall) + ықтималдық-үлестірімнің жарамдылығын тексеру арқылы өлшенеді, және жауап беру кідірісі негізгі жолдың қызмет деңгейі (service-level) нысанасына сәйкес. Нақты жіктелуі төмендегі рубрика формуласында көрсетілген — осы салмақтардың немесе қосымша рубрикалардың ешқайсысы Екінші жаңарту үшін өзгертілмеді.

Құрама = 0.35 × Құрылымдық + 0.55 × Клиникалық + 0.10 × Кідіріс

Бос орынның қалған 0.20 пайыздық пункті негізінен клиникалық қосалқы баллға бөлінеді — жағдайлардың шағын бөлігі (көбіне Гепатология және Ревматологияда) диагностикалық мазмұны дұрыс болғанына қарамастан, қозғалтқыштың түсіндіруінде бір күтілетін бағалау-жүйесі кілтсөзі жоқ болды. 100,000 жағдайлық Екінші жаңарту когортасындағы ешбір жағдайдың өзі диагнозды жіберіп алмады. Кешігу V11 бастапқы шығарылымындағы орташа 20.17 с-тан Екінші жаңартудағы 13.26 с-қа дейін жақсарды; бұл екі іске қосу арасындағы өндірістік қозғалтқыш оңтайландыруларын көрсетеді. Рубрика, бағалау коды және API соңғы нүктесі өзгеріссіз қалды.

Жапсырма бойынша құрама баллдар ең көп ұсынылған 30 ел жапсырмасы бойынша 0.9971-ден 0.9985-ке дейін ауытқыды. Қосымша 97 жапсырмадан тұратын ұзын «құйрық» (біріктірілген ≈7,300 жағдай) жүйелі нашарлауды көрсеткен жоқ. Істер саны бойынша ең жиі жапсырмалар: Америка Құрама Штаттары (10,500), Бразилия (9,500), Испания (9,000), Италия (8,000), Германия (7,800), Франция (7,400), Португалия (5,800), Türkiye (3,400), Біріккен Корольдік (2,900) және Мексика (2,500). Жапсырма бойынша құрама баллдар 0.9971-ден 0.9985-ке дейін болды.

15 жағдайдан 100,000-ға дейін: 127 ел жапсырмасы бойынша когорта эволюциясы

Бастапқы V11 жағдайлар панелі жеті мамандықты — гематология, эндокринология, метаболикалық медицина, гепатология, нефрология, кардиология, ревматология — сондай-ақ екі арнайы гипердиагностикаға арналған trap жағдайды қамтыды; әр жағдай синтетикалық түрде генерацияланған қан талдауы панелінен тұрды. V11 Екінші жаңарту бағалауды 100,000 синтетикалық жағдайға дейін, 127 ел жапсырмасы бойынша кеңейтеді, сегіз мамандыққа бөлінген (бастапқы жеті плюс trap ішкі жиынын жұтатын ішкі медицинаға арналған арнайы бөлік). Сол бағалау рубрикасы екі іске қосуда да байт бойынша дәлме-дәл қолданылады.

V11 бастапқы жағдайлар панелінің дизайны — жеті медициналық мамандық бойынша он бес синтетикалық қан талдау жағдайы және гипердиагностикаға арналған екі трап-жағдай; дәл сол рубрика V11 Екінші жаңартуда 100,000 жағдайға 99.80% композиттік балл берді
2-сурет: V11 бастапқы жағдайлар панелінің дизайны гематология, эндокринология, метаболикалық медицина, гепатология, нефрология, кардиология, ревматология бойынша, сондай-ақ екі trap-case — Гилберт синдромы және толық қалыпты скрининг панелі. Екінші жаңарту осы рубриканы байт бойынша дәлме-дәл сақтайды, ал когортты Kantesti SQL репозиторийінен алынған 100,000 жағдайға дейін кеңейтеді.

Барлық жағдайлар синтетикалық болғандықтан, алып тастайтын нақты идентификаторлар жоқ және дербес дерек қатыспайды. Әр синтетикалық жағдай эталондық ішкі жағдай кодын алып жүреді (V11 бастапқы жиында BT-NNN-LABEL, Екінші жаңартуда тұрақты case_uid ). Жарияланған бағалау құралының (harness), техникалық есептің немесе шығарылған деректер жиындарының ешқайсысында дербес дерек көрінбейді.

V11 бастапқы шығарылымына сәйкес жүргізілді — 15 қолмен іріктелген жағдай

V11 бастапқы жағдайлар панелін диагностикалық үлгілерді зертханалық медицина ассистенттері ең жиі қате түсіндіретінін жаттықтыру үшін доктор Томас Клейн қолмен іріктеп жасаған. Он бес жағдайдың әрқайсысы төменде көрсетілген белгілі бір диагностикалық қасиет үшін таңдалды.

Гематология (3) BT-001, BT-006, BT-007 Темір тапшылығы анемиясы · B12 тапшылығы · Кішігірім бета-талассемия
Эндокринология (3) BT-002, BT-008, BT-012 Хашимото тиреоидиті · Инсулинге төзімділігі бар PCOS · D дәруменінің ауыр жетіспеушілігі
Метаболизм (2) BT-003, BT-013 Метаболизмдік синдроммен қатар жүретін 2 типті қант диабеті (T2DM) · Подагра қаупі бар гиперурикемия
Гепатология (2) BT-004, BT-009 NAFLD / NASH · Жедел вирустық гепатит
Нефрология · Кардиология · Ревматология (3) BT-005, BT-010, BT-011 Бүйрек ауруының 3-стадиясы (CKD stage 3) · Атерогендік дислипидемия · Жүйелі қызыл жегі (SLE)
«Trap» жағдайлар (2) BT-014, BT-015 Гилберт синдромы (оқшауланған жанама гипербилирубинемия) · Ересектерге арналған толық қалыпты скрининг

Неге дәл осы таралу таңдалды

Гематология үш жағдай алады, өйткені микрциттік дифференциалдар және макроциттік дифференциалдар нақты өмірдегі зертханалық практикада ең көп көлемді «тұзақ» болып табылады. Эндокринология үш жағдай алады, өйткені Хашимото, ПКОС және D дәрумені жетіспеушілігі көріністері әртүрлі диагностикалық пішіндерді жаттықтырады (аутоантиденеге негізделген, гормондық қатынасқа негізделген, бір маркерге негізделген). Бір жағдайдан берілген мамандықтар да маңызды, өйткені әрбір ЖБЖ (CKD), АСҚД (ASCVD) қаупі және ЖСЕ (SLE) үшін қозғалтқыш шақыруы тиіс өз бағалау жүйесі бар (KDIGO сатылары, ASCVD 10 жылдық қаупі, тиісінше 2019 EULAR/ACR SLE критерийлері).

V11 Екінші жаңарту — 127 ел жапсырмасы бойынша 100,000 синтетикалық жағдай

Екінші жаңарту бастапқы V11-дің 15 жағдайдан тұратын hard-coded Python литералын үлкенірек, бағдарламалық түрде генерацияланған синтетикалық жағдайлар жиынымен ауыстырады. Жиын әрбір іске қосылудың басында жүктеледі және конфигурация ашықтық үшін журналға жазылады. Мазмұн аймағы бойынша когорта үлестірімі төменде көрсетілген.

Эндокринология 23,900 жағдай (23.9%) Қалқанша без, PCOS, D дәрумені, жыныс бездері осі, гипофиз
Метаболикалық медицина 21,900 жағдай (21.9%) T2DM, метаболикалық синдром, липидтік панельдер, гиперурикемия
Гематология 15,400 жағдай (15.4%) Микроцитарлық және макроцитарлық дифференциалдар, B12/фолат, темір зерттеулері
Гепатология 12,400 жағдай (12.4%) NAFLD/NASH, вирустық гепатит, FIB-4, холестаз
Ішкі аурулар (соның ішінде trap subset) 9,000 жағдай (9.0%) Аралас көріністер және 8,723 арналған гипердиагноз trap жағдайлары
Кардиология 7,500 жағдай (7.5%) ASCVD қаупі, атерогендік дислипидемия, hs-CRP
Ревматология 6,000 жағдай (6.0%) SLE, РА, васкулит, аутоантидене панельдері (EULAR/ACR критерийлері)
Нефрология 4,000 жағдай (4.0%) Бүйрек ауруының сатысын анықтау (KDIGO), eGFR трендтері, электролиттік бұзылыстар

Синтетикалық ел-жапсырма үлестірімі — ең көп 10 жапсырма

100,000 синтетикалық жағдай 127 ел жапсырмасын (ISO 3166-1 alpha-2) алып жүреді, локальді өңдеуді сынау үшін. Жапсырма тағайындау: Еуропа 57.7%, Америка құрлықтары 25.4%, Азия-Тынық мұхиты 6.2%, Таяу Шығыс/Африка деп аталатын жапсырмалар 3.4% және қосымша 97 жапсырмадан тұратын ұзын «құйрық» шамамен 7.3% біріктірілген. Істер саны бойынша ең жиі он жапсырма: Америка Құрама Штаттары (10,500), Бразилия (9,500), Испания (9,000), Италия (8,000), Германия (7,800), Франция (7,400), Португалия (5,800), Türkiye (3,400), Біріккен Корольдік (2,900) және Мексика (2,500). Жапсырма бойынша құрама баллдар 0.9971-ден 0.9985-ке дейін ауытқыды. Бұл жапсырма саны генерацияланған жағдайлардың локальді өңдеуді сынау үшін қолданылатын қасиеттері — олар нақты пайдаланушылар да емес және нақты әлемдік географиялық қамтуды білдірмейді.

Алдын ала тіркелген рубрика, түсіндірілген

Рәсімге дейінгі тіркеу (pre-registration) — осы бенчмарктегі ең маңызды әдістемелік таңдау. Күтілетін әрбір диагноз, әрбір клиникалық бағалау жүйесі және әрбір есеп бөлімі бастапқы кодқа бекітілді қозғалтқыш шақырылғанға дейін. Сондықтан рубриканы қозғалтқышты «мақтау» үшін пост-хок баптау мүмкін емес.

Құрама баллды құрайтын үш компонент бар. құрылымдық компонент 35 пайызды құрайды және қозғалтқыштың жеті міндетті есеп бөлімін (тақырып, қорытынды, негізгі қорытындылар, дифференциал, бағалау жүйелері, ұсыныстар, бақылау) және олардың ішіндегі он алты міндетті қосалқы бөлімін қайтарған-қайтармағанын өлшейді. Бөлімнің бар болуы құрылымдық есептеуде 40 пайызды, ал қосалқы бөлімнің бар болуы 60 пайызды құрайды.

The клиникалық компонент 55 пайызды құрайды және үш нәрсені біріктіреді: диагноз-кілтсөзді еске түсіру (клиникалық қосалқы баллдың 70 пайызы), бағалау жүйесін еске түсіру (20 пайыз — қозғалтқыш қажет болғанда Mentzer, FIB-4, HOMA-IR, ASCVD қаупін, KDIGO сатыларын, EULAR/ACR критерийлерін есептей ме), және ықтималдықтар қосындысының дұрыстығын тексеру (10 пайыз — дифференциал ықтималдықтары [90, 110] аралығына дейін қосылуы тиіс). Тұзақ жағдайларда айқын гипердиагноз үшін ең көбі 0.30 айыппұл шегеріледі, ол әрбір ойдан шығарылған патология белгісі үшін 0.10 есебімен есептеледі, үш белгімен шектеледі.

The кідіріс (латенттілік) компоненті 10 пайызды құрайды. 20 секундтан аз жауап толық 0.10 алады, 40 секундтан аз жауап 0.05 алады, ал одан баяу кез келгені нөл алады. 20 секундтық мақсат өндірістік негізгі primary-path қызмет деңгейінің мақсатымен байланысты; 40 секундтық шек ауыр қозғалтқыш шақырулары үшін 2-кезеңдегі fallback бюджетіне сәйкес келеді.

MIT лицензиясымен берілген Kantesti бенчмарктің жұмыс істеп, әр жағдайға жеке ұпай шығарып тұрған соңғы скриншоты — дәл сол harness, қазір SQL арқылы басқарылатын, V11 Екінші Жаңарту 100 000 жағдайлық іске қосуда 99.80% композит ұпайын берді
3-сурет: Орындаудағы «қондырғы» — дәл сол қозғалтқыш (engine) 99.80% құрама баллды шығарған V11 Екінші жаңарту 100,000 жағдайлық когортасында. Әр жағдай A4 PDF форматында көрсетіледі, өндірістік v11 endpoint-қа жіберіледі және мұздатылған рубрикаға (rubric) қарсы бағаланады. Екінші жаңарту параметрленген SQL жағдай жүктеушісін қосты; шикі қозғалтқыш жауаптарының стратификацияланған кездейсоқ таңдауы (n = 201) агрегатталған scorecard-пен қатар сақталады.

Pre-registration неге жол бермейді

Бірінші тараптың бенчмарктері пост-хок рубриканы баптау арқылы өз сандарын асырып көрсетуге бейім. Үлгі әрдайым дерлік бірдей: команда қозғалтқышты іске қосады, қай жерде нашар орындайтынын көреді, содан кейін нашар орындалған аймақтар аз есептелуі үшін рубриканы үнсіз ғана түзетеді. Рубриканы алғашқы қозғалтқыш шақыруына дейін бастапқы кодқа бекітіп, harness-ті MIT лицензиясымен жариялау арқылы бұл түзету нұсқаларды басқаруда көрінетін болады. Кез келген адам репозиторийді клондап, рубрика авторларының күндерін тексеріп, қозғалтқыш нәтижелері бағалауды қалыптастыру үшін қолданылмағанын дәлелдей алады.

Гипердиагностика тұзағы жағдайлары — шамадан тыс атау (over-calling) неге негізгі сәтсіздік режимі

Қалыпты скринингтерде патологияны агрессивті түрде «артық шақыру» — тұтынушыға арналған медициналық ассистенттерге тән құжатталған сәтсіздік режимі. Оның салдарлық шығындарына қажетсіз тексерулер, пациенттің мазасыздануы және ятрогендік тексеру жатады. Осы бенчмарктегі екі тұзақ жағдай бұл сәтсіздік режимін көрінетін және бағаланатын ету үшін жасалған.

Гилберт синдромы панелінде гепатитті ойдан құрастыратын (naive) АИ-ді және Kantesti қозғалтқышының зиянсыз UGT1A1 полиморфизмін дұрыс анықтауын қатар салыстыру — бұл әдістеме V11 Екінші Жаңарту 99.80% бенчмаркіндегі 87 412 тұзақ-flag мүмкіндігінің ішінде нөл жалған-оң нәтижеге дейін кеңейтілді
4-сурет: V11 бастапқы шығарылымындағы «тұзақ-жағдай» дизайны — қозғалтқыш Гилберт синдромын гепатит деп сенімді түрде таңбаласа немесе толық қалыпты экранда шекаралық патологияны «жасап» шығарса, клиникалық тұрғыда естілуі үшін марапатталмай, керісінше жазаланады. Бұл әдістеме 0 / 87,412 V11 Екінші жаңарту 100,000 жағдайлық іске қосылымында пайда болған жалған-оң нәтижелерге (false-positives) дейін кеңейтілді; ол 99.80% құрама баллды берді.

🟡 Тұзақ 1 — BT-014-GILBERT

Көрінісі. Жалпы билирубині 2.4 мг/дл болатын 24 жастағы ер адам. Тікелей фракция қалыпты, трансаминазалар мен сілтілік фосфатаза олардың анықтамалық диапазондарының ішінде, ретикулоциттер айтарлықтай емес, ал гаптоглобин мен LDH гемолизді жоққа шығарады.

Дұрыс интерпретация. Гилберт синдромы — UGT1A1 генінің қатерсіз полиморфизмі. Интерпретация гепатитті, циррозды, гемолиздік анемияны немесе билиарлық обструкцияны қамтымауы тиіс.

V11 нәтижесі. Құрама 1.000. Алты бақыланған артықдиагноз белгісінің ешқайсысы белсенді диагноз ретінде шыққан жоқ.

🟡 Тұзақ 2 — BT-015-HEALTHY

Көрінісі. 15 параметрлі рутиналық скрининг панелі бар 35 жастағы әйел. Әрбір аналит өзінің анықтамалық диапазонының ішінде ыңғайлы орналасқан.

Дұрыс интерпретация. Жауырыну және өмір салтын қолдау. Түсіндірме клиникалық тұрғыдан пайдалы көрінуі үшін шекаралық патологияны ойдан шығармауы тиіс.

V11 нәтижесі. Композит 1.000. Жеті бақыланған артық диагноз қою туралы жалаушаның ешқайсысы — қант диабеті, анемия, гипотиреоз, дислипидемия, гепатит, бүйрек ауруы, тапшылық — белсенді диагноз ретінде шыққан жоқ.

Екі «тұзақтың» екеуінде де он үш бақыланған гипердиагноз жалаушасы тексерілді. Ешқайсысы іске қосылмады. Бұл кез келген клиницист үшін ең маңызды нәтиже, өйткені ол AI қозғалтқышын триаж немесе алдын ала кеңес құралы ретінде қолдануды қарастырады: жүйе жоқ жерде ауру ойлап таппады.

Ментцер индексі: темір тапшылығын талассемия белгілерінен ажырату

Екінші құнды нәтиже — BT-001 жағдайын (темір тапшылығы анемиясы) BT-007 жағдайымен (бета-талассемияның кіші түрі) жұптастыру. Екеуі де микроцитозбен көрінеді және бейімделмеген жіктегіштер үшін жиі кездесетін «кедергі». Ментцер индексі, ол MCV-ді RBC санына бөлу арқылы есептеледі, темір тапшылығында 13-тен жоғары, ал талассемия белгісінде 13-тен төмен болады.

BT-001-де пациент 34 жастағы әйел болды: гемоглобин 10.4 г/дЛ, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферритин 6 нг/мл және TIBC жоғары. Ментцер индексі шамамен 17.7 абсолютті темір тапшылығын қолдайды. BT-007-де пациент 28 жастағы ер адам болды: микроцитоз (MCV 65.8 фл), бірақ RBC саны 6.2 жоғары, RDW қалыпты, ферритин қалыпты, HbA2 5.6 пайыз. Ментцер индексі шамамен 10.6 талассемия белгісін көрсетеді, ал HbA2-нің жоғары болуы бета-талассемияның кіші түрін растайды.

Темір тапшылығы анемиясы Ментцер > 13 Ферритин төмен, TSAT төмен, TIBC жоғары, RDW жоғары
Бета-талассемия белгісі Ментцер < 13 Ферритин қалыпты, RDW қалыпты, HbA2 жоғары (>3.5%), RBC саны жоғары

Екі жағдай да 1.000 балл жинады. Қозғалтқыш екі түсіндірмеде де Ментцер индексін нақты қолданды және әр жағдайда дұрыс диагнозды қайтарды. Бұл бүкіл бенчмарктегі ең клиникалық тұрғыдан сенімді нәтиже, өйткені талассемия белгісін темір тапшылығы деп қате жіктеу орынсыз темір қоспасын тағайындауға және отбасылық скрининг мүмкіндіктерін жіберіп алуға әкеледі; ал темір тапшылығын талассемия деп қате жіктеу қарапайым алмастыру терапиясын кешіктіреді. Біздің ферритин көрсеткіштерінің диапазоны дифференциалды контексттің кеңірек көрінісін түсіндіреді.

V11 бастапқы эталондық іске қосылымнан (2026 ж. 23 сәуір) жағдай бойынша нәтижелер

15 жағдайлық proof-of-concept когортасындағы бастапқы V11 эталондық іске қосылым Екінші жаңартудың әдістемелік негізін құрайды: төмендегі әрбір жағдайлық деталь рубриканың нақты қозғалтқыш жауабын қалай өңдейтінін көрсетеді. Он бес жағдайдың он екеуі негізгі жолда (primary path) 1.000 төбелік құрама баллға жетті; үш жағдай Phase 2 резервтік жолы арқылы берілді, нәтижесінде 0.05 кідіріс бонусы жоғалды, бірақ барлық клиникалық және құрылымдық мазмұн сақталды. Бір жағдай бір ғана міндетті ішбөлімнен (subsection) айырылды; бір жағдай ықтималдықтар таралуының қосындысы шамалы төмендетілген түрде қайтарылды. of the Second Update: every per-case detail below illustrates how the rubric handles a real engine response. Twelve of fifteen cases achieved the ceiling composite score of 1.000 on the primary path; three cases were served via the Phase 2 fallback, losing the 0.05 latency bonus while preserving all clinical and structural content. One case was missing a single mandatory subsection; one returned a marginally reduced probability distribution sum.

Case ID Мамандану Құрама Латенттілік Path
BT-001-IDAГематология1.00017.8 сprimary
BT-006-B12Гематология1.00018,4 сprimary
BT-007-THALГематология1.00017,0 сprimary
BT-002-HASHЭндокринология0.95037,0 срезервтік нұсқа
BT-008-PCOSЭндокринология0.98718,6 сprimary
BT-003-T2DMМетаболикалық1.00019,1 сprimary
BT-013-GOUTМетаболикалық1.00019,4 сprimary
BT-004-NAFLDГепатология1.00019,6 сprimary
BT-009-VIRHEPГепатология0.95023,4 срезервтік нұсқа
BT-014-GILBERTТұзақ1.00018,9 сprimary
BT-005-CKDНефрология1.00017,4 сprimary
BT-010-ASCVDКардиология1.00019,7 сprimary
BT-011-SLEРевматология0.98118,2 сprimary
BT-012-VITDЭндокринология1.00019,3 сprimary
BT-015-ДЕНСАУЛЫҚТЫТұзақ1.00018,7 срезервтік нұсқа

PCOS жағдайы (BT-008) жауап құрылымында бір міндетті ішкі бөлімді жоғалтты — он алтының орнына он бестен он алтыға дейін — бұл құрылымдық баллды 1,000-нан 0,963-ке дейін төмендетті. SLE жағдайы (BT-011) клиникалық баллды 0,965-ке түсірген, бірақ барлық диагностикалық кілтсөздер мен бағалау жүйесін сақтаған, ықтималдықтар таралуы қосындысының шамалы төмендеген нұсқасын қайтарды. Екі де мінсіз емес жағдай да дұрыс диагнозды жіберіп алмады.

V11 Екінші жаңарту агрегаты — 100,000 жағдай

Халық саны ауқымында жеке жағдай жолдары адамға оқылмайтын болғандықтан, Екінші жаңарту 100,000 жолдық кестенің орнына агрегатталған көрсеткіштерді береді. Негізгі агрегат төменде көрсетілген; мамандық және ел-жапсырма бойынша жіктелімдер техникалық есепте және Figshare депозитінде жарияланған. Стратификацияланған кездейсоқ іріктеме n = 201 шикі қозғалтқыш жауаптары (детерминирленген seed 20260426) GitHub results/ тексеру үшін арналған каталогта жарияланған.

Құрама балл V11 бастапқы: 0.9912 (99.12%) → Екінші жаңарту: 0.9980 (99.80%) Δ = +0.0068 100,000 жағдайлық когорта бойынша
Құрылымдық балл (орташа) V11 бастапқы: 0.998 → Екінші жаңарту: 1.000 Халықтық ауқымда мінсіз құрылымдық сәйкестік
Клиникалық балл (орташа) V11 бастапқы: 0.998 → Екінші жаңарту: 0.996 −0.002; ешбір жағдай диагноздың өзін жіберіп алған жоқ
Кешігу — орташа мәні (диапазон) V11 бастапқысы: 20,17 с (17,0–37,0 с) → Екінші жаңарту: 13,26 с (9,0–16,94 с) Іске қосу аралықтарындағы өндірістік қозғалтқышты оңтайландырулар
Қозғалтқыш жолы = негізгі V11 бастапқысы: 12 / 15 → Екінші жаңарту: 100,000 / 100,000 Жүгіру барысында ешқандай уақытта 2-фазаға резерв (fallback) қажет болған жоқ
Тұзақ-ішкі жиын гипердиагностика жалаушалары V11 бастапқысы: 0 / 13 → Екінші жаңарту: 0 / 87,412 Халық саны ауқымында нөлдік жалған-оң нәтижелер (8 723 тұзақ жағдайы бақыланды)

Басты көрсеткіш бізге нені айтпайды

Осы нақты алдын ала тіркелген рубрика бойынша 99.80 пайыздық құрама балл, 127 ел жапсырмасын қамтитын 100,000 жағдайдан тұратын синтетикалық когортада, төбеге жақын өнімділікті білдіреді — бірақ оны мұқият контекстпен түсіндіру керек. Нәтиже қозғалтқыштың V11-де бастапқы кодқа міндеттелген рубрикаға қатысты әрекетін сипаттайды; бұл жабайы ортада бар әрбір қан талдауы панеліндегі қозғалтқыштың дұрыстығы туралы әмбебап талап емес.

Балл қозғалтқыштың осы бағалау үшін таңдалған диагностикалық үлгілерді халық саны ауқымындағы когортада дұрыс өңдегенін, жарияланған және қайта өндіруге болатын әдістеме бойынша екенін көрсетеді. Бұл қозғалтқыштың табиғатта бар әрбір қан талдауы панелінде дұрыс екенін айтпайды. Бұл қозғалтқыш клиницистің пайымын алмастыруы керек дегенді айтпайды. Және бұл қозғалтқыш басқа АИ жүйелерінен асып түседі дегенді айтпайды — басқа қозғалтқыштарға салыстырмалы талдаулар осы есеп үшін әдейі шектеу аясынан тыс қалдырылды.

Баллдың нақты бекітетіні — бастапқы деңгей (baseline). Рубрика мен хост (harness) жария болғандықтан, қозғалтқыштың болашақ нұсқаларын дәл сол рубрикаға қарсы бағалауға болады — V11 бастапқы 15 жағдайға, Екінші жаңартудағы 100 000 жағдайлық когортаға немесе кез келген кейінгі кеңеюге қолдануға болады — ал жарияланған балл мен кез келген кейінгі жүгіру арасындағы алшақтықтың өзі өлшенетін болады. Алдын ала тіркеудің құндылығы міне: өнімділік туралы талаптарды тексерілетін талаптарға айналдырады.

Бұл эталонды 10 минутта қалай қайталауға болады

Қайта өндіру үшін тек Kantesti API куәлік жұбы және Python 3.10 немесе одан кейінгі нұсқасы бар орта қажет, сонымен бірге requests және reportlab кітапханалары орнатылған болуы керек. Толық құрал бір ғана MIT лицензиясымен шығарылған, дербес қамтылған Python модулі.

V11 Екінші жаңарту эталонын көрсететін репродуцирленгіштік желі диаграммасы (99.80% композит, 100,000 жағдай, 127 ел белгісі) Figshare, ResearchGate, Academia.edu және GitHub бойынша айнадай қайталанған, ал Figshare DOI канондық якорь ретінде берілген
5-сурет: V11 Екінші жаңарту эталоны — 127 ел жапсырмасы бойынша 100,000 жағдайдағы 99.80% құрама балл — төрт зерттеу платформасы бойынша айнадай қайталанған. Figshare DOI — канондық ғылыми идентификатор; ResearchGate (publication 404175463), Academia.edu (paper 165956808) және GitHub эталондық хостингті, шикі жауаптардың стратификацияланған кездейсоқ үлгісін және ел бойынша/мамандық бойынша балл-карталарды қамтитын параллель көшірмелерді орналастырады.

Жаңа іске қосу үшін төрт қадам

Бірінші. Репозиторийді клондау: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Екінші. Тәуелділіктерді орнату: pip install -r requirements.txt (Екінші жаңарту қосады mysql-connector-python ≥ 8.0 SQL case loader үшін). Үш. Орнату KANTESTI_USERNAME және KANTESTI_PASSWORD қозғалтқыш API үшін орта айнымалылары ретінде. Екінші жаңартудағы SQL case loader үшін сондай-ақ орнатыңыз: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, және KANTESTI_DB_PASSWORD — жүктеуші тек оқуға арналған рөл арқылы қосылады (bench_reader) ол кестелерді анықтауға қатысты рұқсаттары жоқ. Төрт. Іске қосу python benchmark_bloodtest.py --limit 100000 толық Second-Update іске қосу үшін немесе python benchmark_bloodtest.py --limit 1000 жылдам итерация үшін. Нәтижелер мына жерге түседі ./benchmark_results/: ел бойынша белгі және мамандық бағандары бар CSV балл-картасы, JSON агрегаты, стратификацияланған-кездейсоқ шикі жауап үлгісі және Markdown есеп.

23 сәуір 2026 жылғы (V11 бастапқы, 15 жағдай) және 26 сәуір 2026 жылғы (V11 Second Update, 100,000 жағдай) эталондық іске қосулар репозиторийдің results/ каталогында сақталған. Жаңа іске қосу эталондық іске қосуларды өзгертпей, жаңа уақыт белгісі бар scorecard шығарады. Егер сіздің іске қосуыңыз нәтижесі елеулі түрде өзгеше болса, өтінеміз, GitHub issue ашып, іске қосу уақыт белгісін және жауап метадеректерінде қайтарылған engine нұсқасын көрсетіңіз.

Шектеулер және болашақ жұмыс

127 ел белгісі бойынша 100,000 жағдайға дейін болса да, төрт шектеуді нақты түрде мойындау қажет: ұзынқұйрықты (long-tail) белгі бойынша үлгінің аздығы, бір реттік бағалау, бір қозғалтқыш ауқымы және бір дереккөзден шығу тегі. Бұлардың әрқайсысы белсенді түрде жүргізіліп жатқан кейінгі жұмыстарда қарастырылуда.

Ұзынқұйрықты (long-tail) белгі қамтуы. Екінші жаңарту 127 ел белгісін қамтиды, бірақ үлестірімі тең емес — алғашқы 10 белгі жағдайлардың ≈66.4%-ын құрайды, ал қалған 97 қосымша белгіден тұратын ұзынқұйрық бірге ≈7.3% (шамамен 7,300 жағдай жиынтығы, орташа ~75 жағдай/белгі) үлес қосады. Сондықтан осы ұзынқұйрықтағы әр-белгі бойынша композиттер басылымдағы негізгі көрсеткіштерге қарағанда әлдеқайда «шуылырақ». Болашақ іске қосулар әр-белгі бойынша бағалауларды нақтылау үшін белгі тағайындауды қайта теңестіретін болады.

Бір реттік бағалау. Когортадағы әр жағдай бір рет бағаланды. Үлкен тілдік модельдер төмен sampling temperature кезінде де айтарлықтай шығыс вариативтілігін көрсетеді, сондықтан әр жағдайға бес бағалау жүргізілетін және есеп берілетін вариативтілігі бар көп іске қосу протоколы табиғи келесі қадам болып табылады — әсіресе trap-case ішкі жиынында, мұнда sampling дірілінің әсеріне қарамастан тұрақтылық қауіпсіздік туралы талаптың бір бөлігі болып саналады.

Бір қозғалтқыш ауқымы. Бұл есеп бір ғана engine-ді сипаттайды. Мұнда баламалы AI жүйелермен салыстырмалы талдаулар қамтылмайды; біз оларды бірдей MIT лицензияланған harness-қа қарсы, тиісті әдістемемен бөлек тәуелсіз зерттеу ретінде қарастыруымыз мүмкін.

Синтетикалық деректер. 100,000 жағдай синтетикалық түрде генерацияланған — синтетикалық жағдайлар емес, және нәтижелер нақты әлемдегі клиникалық көрсеткіштерге ауыспайды. Рұқсаты бар, нақты деректерге бағалау жүргізу тиісті этикалық қадағалауды талап етеді және бұл синтетикалық эталонның ауқымынан тыс.

Осы төрт шектеуден тыс, жоспарланған ең ықпалды кеңейту — әр юрисдикция бойынша көптілді сәйкестік. Kantesti AI Engine пайдаланушыларға 75+ тілде қызмет көрсетеді, ал тілге қарай стратификацияланған Second-Update ішкі когорттарын (түрік, неміс, испан, француз, итальян, португал, араб, мандарин) іске қосу engine қолдайтын тілдер бойынша шығыс сапасын сандық түрде бағалайды. Әр тілге қарай стратификацияланған талдау өз DOI-ымен және harness тармағымен жарияланады.