Неге бұл эталон бар және ол нені тексереді

AI көмегімен қан анализін қалай оқу керек барған сайын тұтынушылық және клиникалық жұмыс процестерінде қолданыла бастады, алайда зертханалық медицинаға бейімделген, қайта өндіруге болатын бағалау құрылымдары әлі де сирек. Бұл контекстте ең маңызды сұрақтар жалпы медициналық сұрақ-жауап эталондары қамтитын сұрақтар емес: орташа корпускулалық көлем (MCV) бірдей болғанда қозғалтқыш темір тапшылығын талассемия белгілерінен ажырата ала ма, Гилберт синдромын гепатит ретінде артық диагноз қоя ма, және толық қалыпты скрининг панелінде патологияны «жасай» ма?

Алдын ала тіркелген rubric ағын-диаграммасы: Kantesti AI Engine — V11 Екінші Жаңарту, 100 000 жағдайдағы 99.80% композит ұпайы — қатып қалған бағалау критерийлеріне қалайша бағаланатынын көрсетеді
1-сурет: V11 бастапқы шығарылымының артындағы эталондық архитектура 99.80% құрама балл V11 Екінші жаңарту 100,000 жағдайлық когортасында — әрбір жағдай, әрбір кілтсөз, әрбір бағалау жүйесі қозғалтқыш бірде-бір PDF-ті көрмей тұрып бастапқы кодқа бекітілген, ал рубрика V11 бастапқы шығарылымымен дәлме-дәл (байт бойынша) бірдей. Рубриканы кейіннен баптау дизайн бойынша мүмкін емес.

Бір ғана қан талдауы панелі әдетте бірнеше бәсекелес түсіндіруді қолдауға жеткілікті сигнал береді, ал оны түсіндіретін клиницистің міндеті сол түсіндірулерді бір-бірімен салыстырып таразылау болып табылады, оқулықтағы дайын жауапты іздеп табу емес. Оқулықтағы жағдайларда жақсы нәтиже көрсететін қозғалтқыш маңыздырақ болып саналатын жағдайларда әлі де сәтсіздікке ұшырауы мүмкін: дифференциалды диагностикадағы қателік тұзақтары, оқшау қарағанда дабылдай көрінетін, бірақ қатерсіз нұсқалар және сенімді көмекшілерді патологияны «жасауға» итермелейтін толық қалыпты панельдер.

Бұл бенчмарк дәл сол сәтсіздік режимдеріне негізделіп жасалды. Он бес жағдайдың әрқайсысы нақты бір диагностикалық қасиет үшін таңдалды: орташа эритроцит көлемі бірдей бета-талассемия белгілерімен шатастырылмауы тиіс темір тапшылығынан болатын микроцитоз; жалғыз ғана ауытқуы оқшауланған жанама гипербилирубинемия болып табылатын Гилберт синдромының көрінісі; және әрбір көрсеткіші өз анықтамалық диапазонының ішінде тұрған он бес параметрлі скрининг панелі. Бағалау өлшемі әр жағдайды өз мәнмәтінімен оқитын қозғалтқыштарды марапаттайды және мұндай диагноз негізделмеген кезде сенімді диагнозға «жүгінетін» қозғалтқыштарды жазалайды.

MD дәрігер Томас Клейн ретінде мен жағдайлар панелін таңдадым, өйткені зертханалық-медицина көмекшілері ең жиі қателесетін үлгілер осы. Қымбат сәтсіздік режимі "сирек ауруды жіберіп алу" емес — оны жоқ пациенттерде әдеттегі патологияны ойдан шығару. Біздің Медициналық валидация hub неғұрлым кең ауқымды құрылымды сипаттайды; бұл бет V11 бастапқы proof-of-concept-ін және оны 127 елді қамтитын SQL-мен қамтамасыз етілген клиникалық репозиторийден алынған 100,000 анонимдендірілген жағдайға дейін кеңейткен V11 Екінші жаңартуды сипаттайды — бірдей бағалау рубрикасын қолдана отырып, байт бойынша дәлме-дәл, кейіннен баптауға рұқсат етілмейді.

Ең соңғы эталондық іске қосу — V11 Екінші жаңарту (26 сәуір, 2026)

26 сәуір 2026 жылғы V11 Екінші жаңарту эталондық іске қосуы құрамдық балл шығарды: 99.80% V11 бастапқы шығарылымында қолданылған алдын ала тіркелген сол рубрика бойынша бағаланды, 100,000 анонимдендірілген жағдай Kantesti SQL-мен қамтамасыз етілген клиникалық репозиторийден алынған және 75-тен көп тілдегі және 75+ тілдерін қамтыды. Әрбір жағдай қозғалтқыштың негізгі жолында аяқталды; trap-case гипердиагностика жалаушасының белсенділенуі 0 / 87,412. деңгейінде қалды. 23 сәуір 2026 жылғы бастапқы V11 іске қосуы 15 қолмен іріктелген жағдайды қамтыды (құрамдық 99.12%) және рубриканы растады; Екінші жаңарту сол рубриканы байт бойынша дәлме-дәл сақтайды және бағалауды популяция ауқымындағы когортқа дейін кеңейтеді.

Құрама 99.80% 100,000 жағдайдың 100,000-і бағаланды
1.000 Құрылымдық балл
0.996 Клиникалық балл
13.26 с Орташа кідіріс
0 / 87,412 Тұзақтағы жалған оң нәтижелер

Құрама формула үш компонентті біріктіреді: құрылымдық сәйкестік жеті міндетті есеп беру бөлімімен және он алты міндетті қосалқы бөліммен, клиникалық дәлдік кілтсөзді еске түсіру (keyword recall) + бағалау жүйесін еске түсіру (scoring-system recall) + ықтималдық-үлестірімнің жарамдылығын тексеру арқылы өлшенеді, және жауап беру кідірісі негізгі жолдың қызмет деңгейі (service-level) нысанасына сәйкес. Нақты жіктелуі төмендегі рубрика формуласында көрсетілген — осы салмақтардың немесе қосымша рубрикалардың ешқайсысы Екінші жаңарту үшін өзгертілмеді.

Құрама = 0.35 × Құрылымдық + 0.55 × Клиникалық + 0.10 × Кідіріс

Бос орынның қалған 0.20 пайыздық пункті негізінен клиникалық қосалқы баллға бөлінеді — жағдайлардың шағын бөлігі (көбіне Гепатология және Ревматологияда) диагностикалық мазмұны дұрыс болғанына қарамастан, қозғалтқыштың түсіндіруінде бір күтілетін бағалау-жүйесі кілтсөзі жоқ болды. 100,000 жағдайлық Екінші жаңарту когортасындағы ешбір жағдайдың өзі диагнозды жіберіп алмады. Кешігу V11 бастапқы шығарылымындағы орташа 20.17 с-тан Екінші жаңартудағы 13.26 с-қа дейін жақсарды; бұл екі іске қосу арасындағы өндірістік қозғалтқыш оңтайландыруларын көрсетеді. Рубрика, бағалау коды және API соңғы нүктесі өзгеріссіз қалды.

Елдер бойынша құрамдық баллдар ең көп ұсынылған 30 ел бойынша 0.9971 (Үндістан) мен 0.9985 (Швейцария) аралығында болды. Қосымша 97 елден тұратын ұзын құйрық (біріктірілген ≈7,300 жағдай) ешқандай жүйелі нашарлауды көрсеткен жоқ. Істер саны бойынша негізгі үлес қосушылар: Америка Құрама Штаттары (10,500), Бразилия (9,500), Испания (9,000), Италия (8,000), Германия (7,800), Франция (7,400), Португалия (5,800), Türkiye (3,400), Біріккен Корольдік (2,900) және Мексика (2,500).

15 жағдайдан 100 000-ға дейін: 127 ел бойынша когорта эволюциясы

Бастапқы V11 жағдайлар панелі жеті мамандықты қамтыды — гематология, эндокринология, метаболикалық медицина, гепатология, нефрология, кардиология, ревматология — сондай-ақ гипердиагностикаға арналған екі арнайы trap-case; әрбір жағдай Kantesti клиникалық деректер репозиторийінен жазбаша хабардар келісім негізінде алынған анонимдендірілген нақты пациент жазбасы болды. V11 Екінші жаңарту бағалауды 127 ел бойынша 100,000 анонимдендірілген жағдайға дейін кеңейтеді, сегіз мамандыққа бөлінген (бастапқы жеті плюс trap ішкі жиынын жұтатын ішкі медицинаға арналған арнайы бөлік). Сол бағалау рубрикасы екі іске қосуда да байт бойынша дәлме-дәл қолданылады.

V11 бастапқы case-panel дизайны — жеті медициналық мамандық бойынша он бес анонимдендірілген қан талдауы жағдайы плюс екі гипердиагностика тұзағы; дәл сол rubric V11 Екінші Жаңартуда 100 000 жағдайға 99.80% композит ұпайына жетті
2-сурет: V11 бастапқы жағдайлар панелінің дизайны гематология, эндокринология, метаболикалық медицина, гепатология, нефрология, кардиология, ревматология бойынша, сондай-ақ екі trap-case — Гилберт синдромы және толық қалыпты скрининг панелі. Екінші жаңарту осы рубриканы байт бойынша дәлме-дәл сақтайды, ал когортты Kantesti SQL репозиторийінен алынған 100,000 жағдайға дейін кеңейтеді.

Деидентификация Safe Harbor тәсілімен жүргізілді: барлық тікелей идентификаторлар жойылды немесе ауыстырылды, және әрбір жазбаға BT-NNN-LABEL форматындағы эталондық ішкі жағдай коды берілді (V11 бастапқы) немесе Екінші жаңарту үшін тұрақты анонимдендірілген case_uid . Өңдеу GDPR 9-бабының 2( j )-тармағына сәйкес жүргізілді ғылыми зерттеу үшін тиісті сақтық шараларымен және Ұлыбритания GDPR-ының баламалы ережелерімен. Жарияланған «harness»-та, техникалық есепте де, шығарылған деректер жиынтықтарында да еш жерде жеке тұлғаны анықтайтын ақпарат кездеспейді.

V11 бастапқы шығарылымына сәйкес жүргізілді — 15 қолмен іріктелген жағдай

V11 бастапқы жағдайлар панелін диагностикалық үлгілерді зертханалық медицина ассистенттері ең жиі қате түсіндіретінін жаттықтыру үшін доктор Томас Клейн қолмен іріктеп жасаған. Он бес жағдайдың әрқайсысы төменде көрсетілген белгілі бір диагностикалық қасиет үшін таңдалды.

Гематология (3) BT-001, BT-006, BT-007 Темір тапшылығы анемиясы · B12 тапшылығы · Кішігірім бета-талассемия
Эндокринология (3) BT-002, BT-008, BT-012 Хашимото тиреоидиті · Инсулинге төзімділігі бар PCOS · D дәруменінің ауыр жетіспеушілігі
Метаболизм (2) BT-003, BT-013 Метаболизмдік синдроммен қатар жүретін 2 типті қант диабеті (T2DM) · Подагра қаупі бар гиперурикемия
Гепатология (2) BT-004, BT-009 NAFLD / NASH · Жедел вирустық гепатит
Нефрология · Кардиология · Ревматология (3) BT-005, BT-010, BT-011 Бүйрек ауруының 3-стадиясы (CKD stage 3) · Атерогендік дислипидемия · Жүйелі қызыл жегі (SLE)
«Trap» жағдайлар (2) BT-014, BT-015 Гилберт синдромы (оқшауланған жанама гипербилирубинемия) · Ересектерге арналған толық қалыпты скрининг

Неге дәл осы таралу таңдалды

Гематология үш жағдай алады, өйткені микрциттік дифференциалдар және макроциттік дифференциалдар нақты өмірдегі зертханалық практикада ең көп көлемді «тұзақ» болып табылады. Эндокринология үш жағдай алады, өйткені Хашимото, ПКОС және D дәрумені жетіспеушілігі көріністері әртүрлі диагностикалық пішіндерді жаттықтырады (аутоантиденеге негізделген, гормондық қатынасқа негізделген, бір маркерге негізделген). Бір жағдайдан берілген мамандықтар да маңызды, өйткені әрбір ЖБЖ (CKD), АСҚД (ASCVD) қаупі және ЖСЕ (SLE) үшін қозғалтқыш шақыруы тиіс өз бағалау жүйесі бар (KDIGO сатылары, ASCVD 10 жылдық қаупі, тиісінше 2019 EULAR/ACR SLE критерийлері).

V11 Екінші жаңарту — 127 ел бойынша 100,000 анонимдендірілген жағдай

Екінші жаңарту бастапқы V11 қатты кодталған 15 жағдайлық Python литералын Kantesti клиникалық репозиторийге қарсы параметрленген, тек оқуға арналған SQL сұрауымен ауыстырады (anonymised_blood_panels). Сұрау мына шарттар бойынша сүзеді: consent_research = 1 AND released_for_benchmark = 1 және ашықтық үшін әрбір бенчмарк іске қосылуының жоғарғы жағында басылып шығарылады. Мамандану бойынша когорта үлестірімі төменде көрсетілген.

Эндокринология 23,900 жағдай (23.9%) Қалқанша без, PCOS, D дәрумені, жыныс бездері осі, гипофиз
Метаболикалық медицина 21,900 жағдай (21.9%) T2DM, метаболикалық синдром, липидтік панельдер, гиперурикемия
Гематология 15,400 жағдай (15.4%) Микроцитарлық және макроцитарлық дифференциалдар, B12/фолат, темір зерттеулері
Гепатология 12,400 жағдай (12.4%) NAFLD/NASH, вирустық гепатит, FIB-4, холестаз
Ішкі аурулар (соның ішінде trap subset) 9,000 жағдай (9.0%) Аралас көріністер және 8,723 арналған гипердиагноз trap жағдайлары
Кардиология 7,500 жағдай (7.5%) ASCVD қаупі, атерогендік дислипидемия, hs-CRP
Ревматология 6,000 жағдай (6.0%) SLE, РА, васкулит, аутоантидене панельдері (EULAR/ACR критерийлері)
Нефрология 4,000 жағдай (4.0%) Бүйрек ауруының сатысын анықтау (KDIGO), eGFR трендтері, электролиттік бұзылыстар

Географиялық таралуы — үздік 10 ел

Когорта 127 елді қамтиды (ISO 3166-1 alpha-2). Еуропа үлесі 57.7%, Америка құрлығы 25.4%, Азия-Тынық мұхиты 6.2%, Таяу Шығыс/Африка деп аталатын жазбалар 3.4%, ал қосымша 97 елден тұратын ұзын «құйрық» шамамен 7.3% жиынтық үлес қосты. Ең ірі он үлес қосушы: Америка Құрама Штаттары (10,500), Бразилия (9,500), Испания (9,000), Италия (8,000), Германия (7,800), Франция (7,400), Португалия (5,800), Türkiye (3,400), Біріккен Корольдік (2,900) және Мексика (2,500). Елдер бойынша құрама баллдар 0.9971 (Үндістан) мен 0.9985 (Швейцария) аралығында болды.

Алдын ала тіркелген рубрика, түсіндірілген

Рәсімге дейінгі тіркеу (pre-registration) — осы бенчмарктегі ең маңызды әдістемелік таңдау. Күтілетін әрбір диагноз, әрбір клиникалық бағалау жүйесі және әрбір есеп бөлімі бастапқы кодқа бекітілді қозғалтқыш шақырылғанға дейін. Сондықтан рубриканы қозғалтқышты «мақтау» үшін пост-хок баптау мүмкін емес.

Құрама баллды құрайтын үш компонент бар. құрылымдық компонент 35 пайызды құрайды және қозғалтқыштың жеті міндетті есеп бөлімін (тақырып, қорытынды, негізгі қорытындылар, дифференциал, бағалау жүйелері, ұсыныстар, бақылау) және олардың ішіндегі он алты міндетті қосалқы бөлімін қайтарған-қайтармағанын өлшейді. Бөлімнің бар болуы құрылымдық есептеуде 40 пайызды, ал қосалқы бөлімнің бар болуы 60 пайызды құрайды.

The клиникалық компонент 55 пайызды құрайды және үш нәрсені біріктіреді: диагноз-кілтсөзді еске түсіру (клиникалық қосалқы баллдың 70 пайызы), бағалау жүйесін еске түсіру (20 пайыз — қозғалтқыш қажет болғанда Mentzer, FIB-4, HOMA-IR, ASCVD қаупін, KDIGO сатыларын, EULAR/ACR критерийлерін есептей ме), және ықтималдықтар қосындысының дұрыстығын тексеру (10 пайыз — дифференциал ықтималдықтары [90, 110] аралығына дейін қосылуы тиіс). Тұзақ жағдайларда айқын гипердиагноз үшін ең көбі 0.30 айыппұл шегеріледі, ол әрбір ойдан шығарылған патология белгісі үшін 0.10 есебімен есептеледі, үш белгімен шектеледі.

The кідіріс (латенттілік) компоненті 10 пайызды құрайды. 20 секундтан аз жауап толық 0.10 алады, 40 секундтан аз жауап 0.05 алады, ал одан баяу кез келгені нөл алады. 20 секундтық мақсат өндірістік негізгі primary-path қызмет деңгейінің мақсатымен байланысты; 40 секундтық шек ауыр қозғалтқыш шақырулары үшін 2-кезеңдегі fallback бюджетіне сәйкес келеді.

MIT лицензиясымен берілген Kantesti бенчмарктің жұмыс істеп, әр жағдайға жеке ұпай шығарып тұрған соңғы скриншоты — дәл сол harness, қазір SQL арқылы басқарылатын, V11 Екінші Жаңарту 100 000 жағдайлық іске қосуда 99.80% композит ұпайын берді
3-сурет: Орындаудағы «қондырғы» — дәл сол қозғалтқыш (engine) 99.80% құрама баллды шығарған V11 Екінші жаңарту 100,000 жағдайлық когортасында. Әр жағдай A4 PDF форматында көрсетіледі, өндірістік v11 endpoint-қа жіберіледі және мұздатылған рубрикаға (rubric) қарсы бағаланады. Екінші жаңарту параметрленген SQL жағдай жүктеушісін қосты; шикі қозғалтқыш жауаптарының стратификацияланған кездейсоқ таңдауы (n = 201) агрегатталған scorecard-пен қатар сақталады.

Pre-registration неге жол бермейді

Бірінші тараптың бенчмарктері пост-хок рубриканы баптау арқылы өз сандарын асырып көрсетуге бейім. Үлгі әрдайым дерлік бірдей: команда қозғалтқышты іске қосады, қай жерде нашар орындайтынын көреді, содан кейін нашар орындалған аймақтар аз есептелуі үшін рубриканы үнсіз ғана түзетеді. Рубриканы алғашқы қозғалтқыш шақыруына дейін бастапқы кодқа бекітіп, harness-ті MIT лицензиясымен жариялау арқылы бұл түзету нұсқаларды басқаруда көрінетін болады. Кез келген адам репозиторийді клондап, рубрика авторларының күндерін тексеріп, қозғалтқыш нәтижелері бағалауды қалыптастыру үшін қолданылмағанын дәлелдей алады.

Гипердиагностика тұзағы жағдайлары — шамадан тыс атау (over-calling) неге негізгі сәтсіздік режимі

Қалыпты скринингтерде патологияны агрессивті түрде «артық шақыру» — тұтынушыға арналған медициналық ассистенттерге тән құжатталған сәтсіздік режимі. Оның салдарлық шығындарына қажетсіз тексерулер, пациенттің мазасыздануы және ятрогендік тексеру жатады. Осы бенчмарктегі екі тұзақ жағдай бұл сәтсіздік режимін көрінетін және бағаланатын ету үшін жасалған.

Гилберт синдромы панелінде гепатитті ойдан құрастыратын (naive) АИ-ді және Kantesti қозғалтқышының зиянсыз UGT1A1 полиморфизмін дұрыс анықтауын қатар салыстыру — бұл әдістеме V11 Екінші Жаңарту 99.80% бенчмаркіндегі 87 412 тұзақ-flag мүмкіндігінің ішінде нөл жалған-оң нәтижеге дейін кеңейтілді
4-сурет: V11 бастапқы шығарылымындағы «тұзақ-жағдай» дизайны — қозғалтқыш Гилберт синдромын гепатит деп сенімді түрде таңбаласа немесе толық қалыпты экранда шекаралық патологияны «жасап» шығарса, клиникалық тұрғыда естілуі үшін марапатталмай, керісінше жазаланады. Бұл әдістеме 0 / 87,412 V11 Екінші жаңарту 100,000 жағдайлық іске қосылымында пайда болған жалған-оң нәтижелерге (false-positives) дейін кеңейтілді; ол 99.80% құрама баллды берді.

🟡 Тұзақ 1 — BT-014-GILBERT

Көрінісі. Жалпы билирубині 2.4 мг/дл болатын 24 жастағы ер адам. Тікелей фракция қалыпты, трансаминазалар мен сілтілік фосфатаза олардың анықтамалық диапазондарының ішінде, ретикулоциттер айтарлықтай емес, ал гаптоглобин мен LDH гемолизді жоққа шығарады.

Дұрыс интерпретация. Гилберт синдромы — UGT1A1 генінің қатерсіз полиморфизмі. Интерпретация гепатитті, циррозды, гемолиздік анемияны немесе билиарлық обструкцияны қамтымауы тиіс.

V11 нәтижесі. Құрама 1.000. Алты бақыланған артықдиагноз белгісінің ешқайсысы белсенді диагноз ретінде шыққан жоқ.

🟡 Тұзақ 2 — BT-015-HEALTHY

Көрінісі. 15 параметрлі рутиналық скрининг панелі бар 35 жастағы әйел. Әрбір аналит өзінің анықтамалық диапазонының ішінде ыңғайлы орналасқан.

Дұрыс интерпретация. Жауырыну және өмір салтын қолдау. Түсіндірме клиникалық тұрғыдан пайдалы көрінуі үшін шекаралық патологияны ойдан шығармауы тиіс.

V11 нәтижесі. Композит 1.000. Жеті бақыланған артық диагноз қою туралы жалаушаның ешқайсысы — қант диабеті, анемия, гипотиреоз, дислипидемия, гепатит, бүйрек ауруы, тапшылық — белсенді диагноз ретінде шыққан жоқ.

Екі «тұзақтың» екеуінде де он үш бақыланған гипердиагноз жалаушасы тексерілді. Ешқайсысы іске қосылмады. Бұл кез келген клиницист үшін ең маңызды нәтиже, өйткені ол AI қозғалтқышын триаж немесе алдын ала кеңес құралы ретінде қолдануды қарастырады: жүйе жоқ жерде ауру ойлап таппады.

Ментцер индексі: темір тапшылығын талассемия белгілерінен ажырату

Екінші құнды нәтиже — BT-001 жағдайын (темір тапшылығы анемиясы) BT-007 жағдайымен (бета-талассемияның кіші түрі) жұптастыру. Екеуі де микроцитозбен көрінеді және бейімделмеген жіктегіштер үшін жиі кездесетін «кедергі». Ментцер индексі, ол MCV-ді RBC санына бөлу арқылы есептеледі, темір тапшылығында 13-тен жоғары, ал талассемия белгісінде 13-тен төмен болады.

BT-001-де пациент 34 жастағы әйел болды: гемоглобин 10.4 г/дЛ, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферритин 6 нг/мл және TIBC жоғары. Ментцер индексі шамамен 17.7 абсолютті темір тапшылығын қолдайды. BT-007-де пациент 28 жастағы ер адам болды: микроцитоз (MCV 65.8 фл), бірақ RBC саны 6.2 жоғары, RDW қалыпты, ферритин қалыпты, HbA2 5.6 пайыз. Ментцер индексі шамамен 10.6 талассемия белгісін көрсетеді, ал HbA2-нің жоғары болуы бета-талассемияның кіші түрін растайды.

Темір тапшылығы анемиясы Ментцер > 13 Ферритин төмен, TSAT төмен, TIBC жоғары, RDW жоғары
Бета-талассемия белгісі Ментцер < 13 Ферритин қалыпты, RDW қалыпты, HbA2 жоғары (>3.5%), RBC саны жоғары

Екі жағдай да 1.000 балл жинады. Қозғалтқыш екі түсіндірмеде де Ментцер индексін нақты қолданды және әр жағдайда дұрыс диагнозды қайтарды. Бұл бүкіл бенчмарктегі ең клиникалық тұрғыдан сенімді нәтиже, өйткені талассемия белгісін темір тапшылығы деп қате жіктеу орынсыз темір қоспасын тағайындауға және отбасылық скрининг мүмкіндіктерін жіберіп алуға әкеледі; ал темір тапшылығын талассемия деп қате жіктеу қарапайым алмастыру терапиясын кешіктіреді. Біздің ферритин көрсеткіштерінің диапазоны дифференциалды контексттің кеңірек көрінісін түсіндіреді.

V11 бастапқы эталондық іске қосылымнан (2026 ж. 23 сәуір) жағдай бойынша нәтижелер

15 жағдайлық proof-of-concept когортасындағы бастапқы V11 эталондық іске қосылым Екінші жаңартудың әдістемелік негізін құрайды: төмендегі әрбір жағдайлық деталь рубриканың нақты қозғалтқыш жауабын қалай өңдейтінін көрсетеді. Он бес жағдайдың он екеуі негізгі жолда (primary path) 1.000 төбелік құрама баллға жетті; үш жағдай Phase 2 резервтік жолы арқылы берілді, нәтижесінде 0.05 кідіріс бонусы жоғалды, бірақ барлық клиникалық және құрылымдық мазмұн сақталды. Бір жағдай бір ғана міндетті ішбөлімнен (subsection) айырылды; бір жағдай ықтималдықтар таралуының қосындысы шамалы төмендетілген түрде қайтарылды. of the Second Update: every per-case detail below illustrates how the rubric handles a real engine response. Twelve of fifteen cases achieved the ceiling composite score of 1.000 on the primary path; three cases were served via the Phase 2 fallback, losing the 0.05 latency bonus while preserving all clinical and structural content. One case was missing a single mandatory subsection; one returned a marginally reduced probability distribution sum.

Case ID Мамандану Құрама Латенттілік Path
BT-001-IDAГематология1.00017.8 сprimary
BT-006-B12Гематология1.00018,4 сprimary
BT-007-THALГематология1.00017,0 сprimary
BT-002-HASHЭндокринология0.95037,0 срезервтік нұсқа
BT-008-PCOSЭндокринология0.98718,6 сprimary
BT-003-T2DMМетаболикалық1.00019,1 сprimary
BT-013-GOUTМетаболикалық1.00019,4 сprimary
BT-004-NAFLDГепатология1.00019,6 сprimary
BT-009-VIRHEPГепатология0.95023,4 срезервтік нұсқа
BT-014-GILBERTТұзақ1.00018,9 сprimary
BT-005-CKDНефрология1.00017,4 сprimary
BT-010-ASCVDКардиология1.00019,7 сprimary
BT-011-SLEРевматология0.98118,2 сprimary
BT-012-VITDЭндокринология1.00019,3 сprimary
BT-015-ДЕНСАУЛЫҚТЫТұзақ1.00018,7 срезервтік нұсқа

PCOS жағдайы (BT-008) жауап құрылымында бір міндетті ішкі бөлімді жоғалтты — он алтының орнына он бестен он алтыға дейін — бұл құрылымдық баллды 1,000-нан 0,963-ке дейін төмендетті. SLE жағдайы (BT-011) клиникалық баллды 0,965-ке түсірген, бірақ барлық диагностикалық кілтсөздер мен бағалау жүйесін сақтаған, ықтималдықтар таралуы қосындысының шамалы төмендеген нұсқасын қайтарды. Екі де мінсіз емес жағдай да дұрыс диагнозды жіберіп алмады.

V11 Екінші жаңарту агрегаты — 100,000 жағдай

Халықтық ауқымда жеке жағдай жолдары адамға оқылмайды, сондықтан Екінші жаңарту 100,000 жолдық кесте емес, агрегатталған көрсеткіштерді ұсынады. Негізгі агрегат төменде көрсетілген; мамандықтар және елдер бойынша жіктелімдер техникалық есепте және Figshare депозитінде жарияланады. Стратификацияланған кездейсоқ таңдама n = 201 шикі қозғалтқыш жауаптары (детерминирленген seed 20260426) GitHub results/ тексеру үшін арналған каталогта жарияланған.

Құрама балл V11 бастапқы: 0.9912 (99.12%) → Екінші жаңарту: 0.9980 (99.80%) Δ = +0.0068 100,000 жағдайлық когорта бойынша
Құрылымдық балл (орташа) V11 бастапқы: 0.998 → Екінші жаңарту: 1.000 Халықтық ауқымда мінсіз құрылымдық сәйкестік
Клиникалық балл (орташа) V11 бастапқы: 0.998 → Екінші жаңарту: 0.996 −0.002; ешбір жағдай диагноздың өзін жіберіп алған жоқ
Кешігу — орташа мәні (диапазон) V11 бастапқысы: 20,17 с (17,0–37,0 с) → Екінші жаңарту: 13,26 с (9,0–16,94 с) Іске қосу аралықтарындағы өндірістік қозғалтқышты оңтайландырулар
Қозғалтқыш жолы = негізгі V11 бастапқысы: 12 / 15 → Екінші жаңарту: 100,000 / 100,000 Жүгіру барысында ешқандай уақытта 2-фазаға резерв (fallback) қажет болған жоқ
Тұзақ-ішкі жиын гипердиагностика жалаушалары V11 бастапқысы: 0 / 13 → Екінші жаңарту: 0 / 87,412 Халық саны ауқымында нөлдік жалған-оң нәтижелер (8 723 тұзақ жағдайы бақыланды)

Басты көрсеткіш бізге нені айтпайды

Осы нақты алдын ала тіркелген рубрика бойынша 99,80 пайыздық құрама балл, 127 елді қамтитын 100 000 жағдайдан тұратын анонимдендірілген когортада — төбеге өте жақын көрсеткіш, бірақ оны мұқият контекстпен түсіндіру керек. Нәтиже қозғалтқыштың V11-де бастапқы кодқа енгізуге уәде еткен рубрикаға қатысты әрекетін сипаттайды; бұл табиғатта бар әрбір қан талдауы панеліндегі қозғалтқыштың дұрыстығы туралы әмбебап мәлімдеме емес.

Балл қозғалтқыштың осы бағалау үшін таңдалған диагностикалық үлгілерді халық саны ауқымындағы когортада дұрыс өңдегенін, жарияланған және қайта өндіруге болатын әдістеме бойынша екенін көрсетеді. Бұл қозғалтқыштың табиғатта бар әрбір қан талдауы панелінде дұрыс екенін айтпайды. Бұл қозғалтқыш клиницистің пайымын алмастыруы керек дегенді айтпайды. Және бұл қозғалтқыш басқа АИ жүйелерінен асып түседі дегенді айтпайды — басқа қозғалтқыштарға салыстырмалы талдаулар осы есеп үшін әдейі шектеу аясынан тыс қалдырылды.

Баллдың нақты бекітетіні — бастапқы деңгей (baseline). Рубрика мен хост (harness) жария болғандықтан, қозғалтқыштың болашақ нұсқаларын дәл сол рубрикаға қарсы бағалауға болады — V11 бастапқы 15 жағдайға, Екінші жаңартудағы 100 000 жағдайлық когортаға немесе кез келген кейінгі кеңеюге қолдануға болады — ал жарияланған балл мен кез келген кейінгі жүгіру арасындағы алшақтықтың өзі өлшенетін болады. Алдын ала тіркеудің құндылығы міне: өнімділік туралы талаптарды тексерілетін талаптарға айналдырады.

Бұл эталонды 10 минутта қалай қайталауға болады

Қайта өндіру үшін тек Kantesti API куәлік жұбы және Python 3.10 немесе одан кейінгі нұсқасы бар орта қажет, сонымен бірге requests және reportlab кітапханалары орнатылған болуы керек. Толық құрал бір ғана MIT лицензиясымен шығарылған, дербес қамтылған Python модулі.

V11 Екінші Жаңарту бенчмаркі көрсетілген қайта жаңғыртылу желісінің диаграммасы (99.80% композит, 100 000 жағдай, 127 ел) Figshare, ResearchGate, Academia.edu және GitHub арасында Figshare DOI-ін канондық якорь ретінде айна етіп көрсетеді
5-сурет: V11 Екінші жаңарту эталоны — 127 ел бойынша 100 000 жағдайдағы 99,80% құрама балл — төрт зерттеу платформасында бірдей көрініс табады. Figshare DOI — негізгі ғылыми идентификатор; ResearchGate (404175463 жарияланым), Academia.edu (165956808 қағазы) және GitHub SQL-мен қамтамасыз етілген harness-тың, шикі жауаптардың стратификацияланған кездейсоқ үлгісінің және ел/мамандық бойынша балл карталарының параллель көшірмелерін орналастырады.

Жаңа іске қосу үшін төрт қадам

Бірінші. Репозиторийді клондау: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Екінші. Тәуелділіктерді орнату: pip install -r requirements.txt (Екінші жаңарту қосады mysql-connector-python ≥ 8.0 SQL case loader үшін). Үш. Орнату KANTESTI_USERNAME және KANTESTI_PASSWORD қозғалтқыш API үшін орта айнымалылары ретінде. Екінші жаңартудағы SQL case loader үшін сондай-ақ орнатыңыз: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, және KANTESTI_DB_PASSWORD — жүктеуші тек оқуға арналған рөл арқылы қосылады (bench_reader) ол кестелерді анықтауға қатысты рұқсаттары жоқ. Төрт. Іске қосу python benchmark_bloodtest.py --limit 100000 толық Second-Update іске қосу үшін немесе python benchmark_bloodtest.py --limit 1000 жылдам итерация үшін. Нәтижелер мына жерге түседі ./benchmark_results/: елдер мен мамандықтар бойынша бағандары бар CSV scorecard, JSON жиынтық дерек, стратификацияланған- кездейсоқ бастапқы жауап үлгісі және Markdown есебі.

23 сәуір 2026 жылғы (V11 бастапқы, 15 жағдай) және 26 сәуір 2026 жылғы (V11 Second Update, 100,000 жағдай) эталондық іске қосулар репозиторийдің results/ каталогында сақталған. Жаңа іске қосу эталондық іске қосуларды өзгертпей, жаңа уақыт белгісі бар scorecard шығарады. Егер сіздің іске қосуыңыз нәтижесі елеулі түрде өзгеше болса, өтінеміз, GitHub issue ашып, іске қосу уақыт белгісін және жауап метадеректерінде қайтарылған engine нұсқасын көрсетіңіз.

Шектеулер және болашақ жұмыс

127 ел бойынша 100,000 жағдайдың өзінде төрт шектеуді нақты атап өту керек: ұзынқұйрықты елдер бойынша іріктеудің жеткіліксіздігі, бір реттік бағалау, бір ғана engine ауқымы және дереккөздің бір ғана шығу тегі. Олардың әрқайсысы белсенді түрде кейінгі жұмыстарда қарастырылып жатыр.

Ұзынқұйрықты елдер қамтуы. Second Update 127 елді қамтиды, бірақ үлестірім тең емес — ең үздік 10 үлес қосушы жағдайлардың ≈66.4%-ын құрайды, ал қосымша 97 елден тұратын ұзынқұйрық бірге ≈7.3% (шамамен 7,300 жағдай, елге орташа ~75 жағдай) үлес қосады. Сондықтан осы ұзынқұйрықтағы елдер бойынша композиттер негізгі көрсеткіштерге қарағанда әлдеқайда «шуылырақ». Болашақ іске қосулар әр юрисдикция бойынша бағалауларды нақтылау үшін іріктеуі аз елдерден басымырақ жинайды.

Бір реттік бағалау. Когортадағы әр жағдай бір рет бағаланды. Үлкен тілдік модельдер төмен sampling temperature кезінде де айтарлықтай шығыс вариативтілігін көрсетеді, сондықтан әр жағдайға бес бағалау жүргізілетін және есеп берілетін вариативтілігі бар көп іске қосу протоколы табиғи келесі қадам болып табылады — әсіресе trap-case ішкі жиынында, мұнда sampling дірілінің әсеріне қарамастан тұрақтылық қауіпсіздік туралы талаптың бір бөлігі болып саналады.

Бір қозғалтқыш ауқымы. Бұл есеп бір ғана engine-ді сипаттайды. Мұнда баламалы AI жүйелермен салыстырмалы талдаулар қамтылмайды; біз оларды бірдей MIT лицензияланған harness-қа қарсы, тиісті әдістемемен бөлек тәуелсіз зерттеу ретінде қарастыруымыз мүмкін.

Деректердің бір ғана көзден шығуы. 100,000 жағдай — бір ғана клиникалық репозиторийден алынған анонимдендірілген нақты пациент жазбалары (Kantesti SQL-мен қамтамасыз етілген клиникалық деректер қоймасы). Олар өндірістік ағынның іріктелген бөлігін білдіреді және жаһандық деңгейде халыққа репрезентативті кездейсоқ іріктеу емес. Бағалауды сырттан алынған көпорталықты деректерге кеңейту жол картасында бар.

Осы төрт шектеуден тыс, жоспарланған ең ықпалды кеңейту — әр юрисдикция бойынша көптілді сәйкестік. Kantesti AI Engine пайдаланушыларға 75+ тілде қызмет көрсетеді, ал тілге қарай стратификацияланған Second-Update ішкі когорттарын (түрік, неміс, испан, француз, итальян, португал, араб, мандарин) іске қосу engine қолдайтын тілдер бойынша шығыс сапасын сандық түрде бағалайды. Әр тілге қарай стратификацияланған талдау өз DOI-ымен және harness тармағымен жарияланады.