Kantesti AI қан анализі бойынша эталон — клиникалық валидация

Автоматтандырылған бенчмарк Алдын ала тіркелген эталон V11 Екінші жаңарту — 2026 жылғы сәуір MIT лицензиясымен Қайталанатын · Ашық деректер 100K синтетикалық когорта · 127 ел жапсырмасы

алдын ала тіркелген рубрика бойынша 99.80% құрама балл — V11 екінші жаңарту, 127 ел жапсырмасындағы 100,000 жағдайдан тұратын когорта

127 ел жапсырмасымен белгіленген 100,000 синтетикалық түрде генерацияланған қан талдауы жағдайларындағы Kantesti қозғалтқышының алдын ала тіркелген, рубрикаға негізделген автоматтандырылған техникалық эталондық бағалауы. Ол диагностикалық дәлдікті емес, нәтижелердің сәйкестігін өлшейді. Рубрика V11 алғашқы шығарылымына дейін бастапқы кодта «қатып» қойылған және осы Екінші жаңарту үшін дәл сол күйінде (байт-идентті) сақталған; бағалау құралы MIT лицензиясымен берілген; тексеру үшін қозғалтқыштың бастапқы жауаптарынан стратификацияланған кездейсоқ іріктеме жарияланған. Барлық жағдайлар синтетикалық; ешқандай дербес дерек пайдаланылмайды.

📖 ~14 минут 📅 2026 жылғы 23 сәуірде жарияланды · 2026 жылғы 26 сәуірде жаңартылды (V11 Екінші жаңарту) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Жарияланды: 23 сәуір, 2026 ж. 🔄 V11 Екінші жаңарту: 26 сәуір, 2026 🩺 Медициналық тұрғыдан қаралды: 26 сәуір, 2026 ✅ Алдын ала тіркелген рубрика (байт-дәл) 🔓 Ашық код және деректер

Бұл автоматтандырылған бенчмаркты әзірлеп, іске қосқан Джулиан Эмирхан Булут, Kantesti Ltd компаниясының аға AI-инженері және бас директоры. Бағалау толығымен бастапқы кодта автоматтандырылған; бағалау өлшемдері мен жағдайлар панелі клиникалық тұрғыдан Доктор Томас Клейн, медицина ғылымдарының докторы, Kantesti AI компаниясының бас медициналық қызметкері тарапынан әзірленіп, Kantesti AI медициналық консультативтік кеңесі. Бұл — тәуелсіз емес, peer-reviewed емес автоматтандырылған техникалық эталон емес, өздігінен орындалатын ішкі эталон.

Бас автор және клиникалық қадағалау

Томас Клейн, Мэриленд

Кантести А.И. бас дәрігері

Доктор Томас Кляйн — зертханалық медицинада 15 жылдан астам тәжірибесі бар, кеңес берілген (board-certified) клиникалық гематолог және терапевт. Kantesti AI компаниясының Бас медициналық қызметкері ретінде ол осы эталон үшін жағдайлар панелін таңдады, синтетикалық жағдайлардың клиникалық мазмұнын және күтілетін жауаптарын қарап шықты және қозғалтқыштың бірінші рет іске қосылуына дейін алдын ала тіркелген рубриканы бекітті.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Бірлескен автор & енгізу

Джулиан Эмирхан Булут

Аға AI инженер & бас директор, Kantesti Ltd

Джулиан Эмирхан Булут — Kantesti Ltd компаниясының негізін қалаушы және бас директоры. Ол бағалау құрал-жабдығын әзірледі және енгізді — соның ішінде V11 Екінші жаңарту үшін қосылған SQL жағдай жүктеушісі — API интеграциясын орындады, V11 бастапқы эталондық іске қосылымын да, V11 Екінші жаңарту кезіндегі 100 000 жағдайлық іске қосылымын да жүргізді және статистикалық агрегаттауды дайындады. 2019 жылдан бері платформаның негізін қалаушы.

GitHub Кантешти туралы

⚡ Қысқаша шолу V11 Екінші жаңарту — 26 сәуір, 2026

99.80% құрама балл сегіз медициналық мамандық және 127 ел жапсырмасы бойынша 100,000 синтетикалық қан талдауы жағдайында (V11 Екінші жаңарту).
Гипердиагноздың жалған оң нәтижелері жоқ 87 412 бақыланатын «trap-case» белгілеу мүмкіндігі бойынша — V11 бастапқыдағыдай «trap-case» әдістемесі, халық деңгейіне дейін масштабталған.
Алдын ала тіркелген бағалау рубрикасы V11 бастапқы іске қосылымына дейін бастапқы кодта «қатып» қойылған және сақталды байт-дәл осы Екінші жаңарту үшін — пост-хок баптау мүмкін болмады.
Ментцер индексі дұрыс қолданылды V11 бастапқы шығарылымында темір тапшылығы анемиясын бета-талассемияның кіші түрінен ажырату үшін; ажырату мінез-құлқы популяция деңгейінде де сақталды.
Өндірістік соңғы нүкте ғана — артықшылықты бағыттау жоқ, ол төлем жасайтын клиент дәл қалай қол жеткізсе, солай бағаланды.
13.26 секунд орташа кідіріс end-to-end (диапазон 9.0–16.94 с), барлық 100 000 жағдай қозғалтқыштың негізгі жолында аяқталды.
Синтетикалық когорта. Жүгіру кезінде жүктелетін 100,000 синтетикалық генерацияланған тест жағдайы. Ешқандай синтетикалық дерек те, дербес дерек те пайдаланылмайды.
MIT лицензиясымен берілген тест-жинақ (harness) GitHub-та стратификацияланған кездейсоқ үлгімен (n = 201) толық қозғалтқыш жауаптарының шикі деректерін тексеру үшін жарияланды.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub-та айна ретінде (mirrored) орналастырылған.

Неге бұл эталон бар және ол нені тексереді

AI көмегімен қан анализін қалай оқу керек барған сайын тұтынушылық және клиникалық жұмыс процестерінде қолданыла бастады, алайда зертханалық медицинаға бейімделген, қайта өндіруге болатын бағалау құрылымдары әлі де сирек. Бұл контекстте ең маңызды сұрақтар жалпы медициналық сұрақ-жауап эталондары қамтитын сұрақтар емес: орташа корпускулалық көлем (MCV) бірдей болғанда қозғалтқыш темір тапшылығын талассемия белгілерінен ажырата ала ма, Гилберт синдромын гепатит ретінде артық диагноз қоя ма, және толық қалыпты скрининг панелінде патологияны «жасай» ма?

Бір ғана қан талдауы панелі әдетте бірнеше бәсекелес түсіндіруді қолдауға жеткілікті сигнал береді, ал оны түсіндіретін клиницистің міндеті сол түсіндірулерді бір-бірімен салыстырып таразылау болып табылады, оқулықтағы дайын жауапты іздеп табу емес. Оқулықтағы жағдайларда жақсы нәтиже көрсететін қозғалтқыш маңыздырақ болып саналатын жағдайларда әлі де сәтсіздікке ұшырауы мүмкін: дифференциалды диагностикадағы қателік тұзақтары, оқшау қарағанда дабылдай көрінетін, бірақ қатерсіз нұсқалар және сенімді көмекшілерді патологияны «жасауға» итермелейтін толық қалыпты панельдер.

Бұл бенчмарк дәл сол сәтсіздік режимдеріне негізделіп жасалды. Он бес жағдайдың әрқайсысы нақты бір диагностикалық қасиет үшін таңдалды: орташа эритроцит көлемі бірдей бета-талассемия белгілерімен шатастырылмауы тиіс темір тапшылығынан болатын микроцитоз; жалғыз ғана ауытқуы оқшауланған жанама гипербилирубинемия болып табылатын Гилберт синдромының көрінісі; және әрбір көрсеткіші өз анықтамалық диапазонының ішінде тұрған он бес параметрлі скрининг панелі. Бағалау өлшемі әр жағдайды өз мәнмәтінімен оқитын қозғалтқыштарды марапаттайды және мұндай диагноз негізделмеген кезде сенімді диагнозға «жүгінетін» қозғалтқыштарды жазалайды.

MD дәрігер Томас Клейн ретінде мен жағдайлар панелін таңдадым, өйткені зертханалық-медицина көмекшілері ең жиі қателесетін үлгілер осы. Қымбат сәтсіздік режимі "сирек ауруды жіберіп алу" емес — оны жоқ пациенттерде әдеттегі патологияны ойдан шығару. Біздің Медициналық валидация hub кеңірек фреймворкты сипаттайды; бұл бет V11 бастапқы proof-of-concept-ті және оны 127 ел жапсырмасын қамтитын синтетикалық жағдайлар жиынтығынан алынған 100,000 синтетикалық жағдайға дейін кеңейткен V11 Екінші жаңартуды сипаттайды — сол бағалау рубрикасын қолдана отырып, байт-идентті, пост-хок баптауға рұқсат берілмейді.

Ең соңғы эталондық іске қосу — V11 Екінші жаңарту (26 сәуір, 2026)

26 сәуір 2026 жылғы V11 Екінші жаңарту эталондық іске қосуы құрамдық балл шығарды: 99.80% V11 бастапқы шығарылымында қолданылған алдын ала тіркелген сол рубрика бойынша бағаланды, 100,000 синтетикалық жағдай Kantesti синтетикалық жағдайлар жиынынан алынған және 127 ел жапсырмасын қамтиды және 75+ тілдерін қамтыды. Әрбір жағдай қозғалтқыштың негізгі жолында аяқталды; trap-case гипердиагностика жалаушасының белсенділенуі 0 / 87,412. деңгейінде қалды. 23 сәуір 2026 жылғы бастапқы V11 іске қосуы 15 қолмен іріктелген жағдайды қамтыды (құрамдық 99.12%) және рубриканы растады; Екінші жаңарту сол рубриканы байт бойынша дәлме-дәл сақтайды және бағалауды популяция ауқымындағы когортқа дейін кеңейтеді.

Құрама 99.80% 100,000 жағдайдың 100,000-і бағаланды

1.000 Құрылымдық балл

0.996 Клиникалық балл

13.26 с Орташа кідіріс

0 / 87,412 Тұзақтағы жалған оң нәтижелер

Құрама формула үш компонентті біріктіреді: құрылымдық сәйкестік жеті міндетті есеп беру бөлімімен және он алты міндетті қосалқы бөліммен, мазмұн дәлдігі кілтсөзді еске түсіру (keyword recall) + бағалау жүйесін еске түсіру (scoring-system recall) + ықтималдық-үлестірімнің жарамдылығын тексеру арқылы өлшенеді, және жауап беру кідірісі негізгі жолдың қызмет деңгейі (service-level) нысанасына сәйкес. Нақты жіктелуі төмендегі рубрика формуласында көрсетілген — осы салмақтардың немесе қосымша рубрикалардың ешқайсысы Екінші жаңарту үшін өзгертілмеді.

Құрама = 0.35 × Құрылымдық + 0.55 × Клиникалық + 0.10 × Кідіріс

Бос орынның қалған 0.20 пайыздық пункті негізінен клиникалық қосалқы баллға бөлінеді — жағдайлардың шағын бөлігі (көбіне Гепатология және Ревматологияда) диагностикалық мазмұны дұрыс болғанына қарамастан, қозғалтқыштың түсіндіруінде бір күтілетін бағалау-жүйесі кілтсөзі жоқ болды. 100,000 жағдайлық Екінші жаңарту когортасындағы ешбір жағдайдың өзі диагнозды жіберіп алмады. Кешігу V11 бастапқы шығарылымындағы орташа 20.17 с-тан Екінші жаңартудағы 13.26 с-қа дейін жақсарды; бұл екі іске қосу арасындағы өндірістік қозғалтқыш оңтайландыруларын көрсетеді. Рубрика, бағалау коды және API соңғы нүктесі өзгеріссіз қалды.

Жапсырма бойынша құрама баллдар ең көп ұсынылған 30 ел жапсырмасы бойынша 0.9971-ден 0.9985-ке дейін ауытқыды. Қосымша 97 жапсырмадан тұратын ұзын «құйрық» (біріктірілген ≈7,300 жағдай) жүйелі нашарлауды көрсеткен жоқ. Істер саны бойынша ең жиі жапсырмалар: Америка Құрама Штаттары (10,500), Бразилия (9,500), Испания (9,000), Италия (8,000), Германия (7,800), Франция (7,400), Португалия (5,800), Türkiye (3,400), Біріккен Корольдік (2,900) және Мексика (2,500). Жапсырма бойынша құрама баллдар 0.9971-ден 0.9985-ке дейін болды.

15 жағдайдан 100,000-ға дейін: 127 ел жапсырмасы бойынша когорта эволюциясы

Бастапқы V11 жағдайлар панелі жеті мамандықты — гематология, эндокринология, метаболикалық медицина, гепатология, нефрология, кардиология, ревматология — сондай-ақ екі арнайы гипердиагностикаға арналған trap жағдайды қамтыды; әр жағдай синтетикалық түрде генерацияланған қан талдауы панелінен тұрды. V11 Екінші жаңарту бағалауды 100,000 синтетикалық жағдайға дейін, 127 ел жапсырмасы бойынша кеңейтеді, сегіз мамандыққа бөлінген (бастапқы жеті плюс trap ішкі жиынын жұтатын ішкі медицинаға арналған арнайы бөлік). Сол бағалау рубрикасы екі іске қосуда да байт бойынша дәлме-дәл қолданылады.

Барлық жағдайлар синтетикалық болғандықтан, алып тастайтын нақты идентификаторлар жоқ және дербес дерек қатыспайды. Әр синтетикалық жағдай эталондық ішкі жағдай кодын алып жүреді (V11 бастапқы жиында BT-NNN-LABEL, Екінші жаңартуда тұрақты case_uid ). Жарияланған бағалау құралының (harness), техникалық есептің немесе шығарылған деректер жиындарының ешқайсысында дербес дерек көрінбейді.

V11 бастапқы шығарылымына сәйкес жүргізілді — 15 қолмен іріктелген жағдай

V11 бастапқы жағдайлар панелін диагностикалық үлгілерді зертханалық медицина ассистенттері ең жиі қате түсіндіретінін жаттықтыру үшін доктор Томас Клейн қолмен іріктеп жасаған. Он бес жағдайдың әрқайсысы төменде көрсетілген белгілі бір диагностикалық қасиет үшін таңдалды.

Гематология (3) BT-001, BT-006, BT-007 Темір тапшылығы анемиясы · B12 тапшылығы · Кішігірім бета-талассемия

Эндокринология (3) BT-002, BT-008, BT-012 Хашимото тиреоидиті · Инсулинге төзімділігі бар PCOS · D дәруменінің ауыр жетіспеушілігі

Метаболизм (2) BT-003, BT-013 Метаболизмдік синдроммен қатар жүретін 2 типті қант диабеті (T2DM) · Подагра қаупі бар гиперурикемия

Гепатология (2) BT-004, BT-009 NAFLD / NASH · Жедел вирустық гепатит

Нефрология · Кардиология · Ревматология (3) BT-005, BT-010, BT-011 Бүйрек ауруының 3-стадиясы (CKD stage 3) · Атерогендік дислипидемия · Жүйелі қызыл жегі (SLE)

«Trap» жағдайлар (2) BT-014, BT-015 Гилберт синдромы (оқшауланған жанама гипербилирубинемия) · Ересектерге арналған толық қалыпты скрининг

Неге дәл осы таралу таңдалды

Гематология үш жағдай алады, өйткені микрциттік дифференциалдар және макроциттік дифференциалдар нақты өмірдегі зертханалық практикада ең көп көлемді «тұзақ» болып табылады. Эндокринология үш жағдай алады, өйткені Хашимото, ПКОС және D дәрумені жетіспеушілігі көріністері әртүрлі диагностикалық пішіндерді жаттықтырады (аутоантиденеге негізделген, гормондық қатынасқа негізделген, бір маркерге негізделген). Бір жағдайдан берілген мамандықтар да маңызды, өйткені әрбір ЖБЖ (CKD), АСҚД (ASCVD) қаупі және ЖСЕ (SLE) үшін қозғалтқыш шақыруы тиіс өз бағалау жүйесі бар (KDIGO сатылары, ASCVD 10 жылдық қаупі, тиісінше 2019 EULAR/ACR SLE критерийлері).

V11 Екінші жаңарту — 127 ел жапсырмасы бойынша 100,000 синтетикалық жағдай

Екінші жаңарту бастапқы V11-дің 15 жағдайдан тұратын hard-coded Python литералын үлкенірек, бағдарламалық түрде генерацияланған синтетикалық жағдайлар жиынымен ауыстырады. Жиын әрбір іске қосылудың басында жүктеледі және конфигурация ашықтық үшін журналға жазылады. Мазмұн аймағы бойынша когорта үлестірімі төменде көрсетілген.

Эндокринология 23,900 жағдай (23.9%) Қалқанша без, PCOS, D дәрумені, жыныс бездері осі, гипофиз

Метаболикалық медицина 21,900 жағдай (21.9%) T2DM, метаболикалық синдром, липидтік панельдер, гиперурикемия

Гематология 15,400 жағдай (15.4%) Микроцитарлық және макроцитарлық дифференциалдар, B12/фолат, темір зерттеулері

Гепатология 12,400 жағдай (12.4%) NAFLD/NASH, вирустық гепатит, FIB-4, холестаз

Ішкі аурулар (соның ішінде trap subset) 9,000 жағдай (9.0%) Аралас көріністер және 8,723 арналған гипердиагноз trap жағдайлары

Кардиология 7,500 жағдай (7.5%) ASCVD қаупі, атерогендік дислипидемия, hs-CRP

Ревматология 6,000 жағдай (6.0%) SLE, РА, васкулит, аутоантидене панельдері (EULAR/ACR критерийлері)

Нефрология 4,000 жағдай (4.0%) Бүйрек ауруының сатысын анықтау (KDIGO), eGFR трендтері, электролиттік бұзылыстар

Синтетикалық ел-жапсырма үлестірімі — ең көп 10 жапсырма

100,000 синтетикалық жағдай 127 ел жапсырмасын (ISO 3166-1 alpha-2) алып жүреді, локальді өңдеуді сынау үшін. Жапсырма тағайындау: Еуропа 57.7%, Америка құрлықтары 25.4%, Азия-Тынық мұхиты 6.2%, Таяу Шығыс/Африка деп аталатын жапсырмалар 3.4% және қосымша 97 жапсырмадан тұратын ұзын «құйрық» шамамен 7.3% біріктірілген. Істер саны бойынша ең жиі он жапсырма: Америка Құрама Штаттары (10,500), Бразилия (9,500), Испания (9,000), Италия (8,000), Германия (7,800), Франция (7,400), Португалия (5,800), Türkiye (3,400), Біріккен Корольдік (2,900) және Мексика (2,500). Жапсырма бойынша құрама баллдар 0.9971-ден 0.9985-ке дейін ауытқыды. Бұл жапсырма саны генерацияланған жағдайлардың локальді өңдеуді сынау үшін қолданылатын қасиеттері — олар нақты пайдаланушылар да емес және нақты әлемдік географиялық қамтуды білдірмейді.

Алдын ала тіркелген рубрика, түсіндірілген

Рәсімге дейінгі тіркеу (pre-registration) — осы бенчмарктегі ең маңызды әдістемелік таңдау. Күтілетін әрбір диагноз, әрбір клиникалық бағалау жүйесі және әрбір есеп бөлімі бастапқы кодқа бекітілді қозғалтқыш шақырылғанға дейін. Сондықтан рубриканы қозғалтқышты «мақтау» үшін пост-хок баптау мүмкін емес.

Құрама баллды құрайтын үш компонент бар. құрылымдық компонент 35 пайызды құрайды және қозғалтқыштың жеті міндетті есеп бөлімін (тақырып, қорытынды, негізгі қорытындылар, дифференциал, бағалау жүйелері, ұсыныстар, бақылау) және олардың ішіндегі он алты міндетті қосалқы бөлімін қайтарған-қайтармағанын өлшейді. Бөлімнің бар болуы құрылымдық есептеуде 40 пайызды, ал қосалқы бөлімнің бар болуы 60 пайызды құрайды.

The клиникалық компонент 55 пайызды құрайды және үш нәрсені біріктіреді: диагноз-кілтсөзді еске түсіру (клиникалық қосалқы баллдың 70 пайызы), бағалау жүйесін еске түсіру (20 пайыз — қозғалтқыш қажет болғанда Mentzer, FIB-4, HOMA-IR, ASCVD қаупін, KDIGO сатыларын, EULAR/ACR критерийлерін есептей ме), және ықтималдықтар қосындысының дұрыстығын тексеру (10 пайыз — дифференциал ықтималдықтары [90, 110] аралығына дейін қосылуы тиіс). Тұзақ жағдайларда айқын гипердиагноз үшін ең көбі 0.30 айыппұл шегеріледі, ол әрбір ойдан шығарылған патология белгісі үшін 0.10 есебімен есептеледі, үш белгімен шектеледі.

The кідіріс (латенттілік) компоненті 10 пайызды құрайды. 20 секундтан аз жауап толық 0.10 алады, 40 секундтан аз жауап 0.05 алады, ал одан баяу кез келгені нөл алады. 20 секундтық мақсат өндірістік негізгі primary-path қызмет деңгейінің мақсатымен байланысты; 40 секундтық шек ауыр қозғалтқыш шақырулары үшін 2-кезеңдегі fallback бюджетіне сәйкес келеді.

Pre-registration неге жол бермейді

Бірінші тараптың бенчмарктері пост-хок рубриканы баптау арқылы өз сандарын асырып көрсетуге бейім. Үлгі әрдайым дерлік бірдей: команда қозғалтқышты іске қосады, қай жерде нашар орындайтынын көреді, содан кейін нашар орындалған аймақтар аз есептелуі үшін рубриканы үнсіз ғана түзетеді. Рубриканы алғашқы қозғалтқыш шақыруына дейін бастапқы кодқа бекітіп, harness-ті MIT лицензиясымен жариялау арқылы бұл түзету нұсқаларды басқаруда көрінетін болады. Кез келген адам репозиторийді клондап, рубрика авторларының күндерін тексеріп, қозғалтқыш нәтижелері бағалауды қалыптастыру үшін қолданылмағанын дәлелдей алады.

Гипердиагностика тұзағы жағдайлары — шамадан тыс атау (over-calling) неге негізгі сәтсіздік режимі

Қалыпты скринингтерде патологияны агрессивті түрде «артық шақыру» — тұтынушыға арналған медициналық ассистенттерге тән құжатталған сәтсіздік режимі. Оның салдарлық шығындарына қажетсіз тексерулер, пациенттің мазасыздануы және ятрогендік тексеру жатады. Осы бенчмарктегі екі тұзақ жағдай бұл сәтсіздік режимін көрінетін және бағаланатын ету үшін жасалған.

🟡 Тұзақ 1 — BT-014-GILBERT

Көрінісі. Жалпы билирубині 2.4 мг/дл болатын 24 жастағы ер адам. Тікелей фракция қалыпты, трансаминазалар мен сілтілік фосфатаза олардың анықтамалық диапазондарының ішінде, ретикулоциттер айтарлықтай емес, ал гаптоглобин мен LDH гемолизді жоққа шығарады.

Дұрыс интерпретация. Гилберт синдромы — UGT1A1 генінің қатерсіз полиморфизмі. Интерпретация гепатитті, циррозды, гемолиздік анемияны немесе билиарлық обструкцияны қамтымауы тиіс.

V11 нәтижесі. Құрама 1.000. Алты бақыланған артықдиагноз белгісінің ешқайсысы белсенді диагноз ретінде шыққан жоқ.

🟡 Тұзақ 2 — BT-015-HEALTHY

Көрінісі. 15 параметрлі рутиналық скрининг панелі бар 35 жастағы әйел. Әрбір аналит өзінің анықтамалық диапазонының ішінде ыңғайлы орналасқан.

Дұрыс интерпретация. Жауырыну және өмір салтын қолдау. Түсіндірме клиникалық тұрғыдан пайдалы көрінуі үшін шекаралық патологияны ойдан шығармауы тиіс.

V11 нәтижесі. Композит 1.000. Жеті бақыланған артық диагноз қою туралы жалаушаның ешқайсысы — қант диабеті, анемия, гипотиреоз, дислипидемия, гепатит, бүйрек ауруы, тапшылық — белсенді диагноз ретінде шыққан жоқ.

Екі «тұзақтың» екеуінде де он үш бақыланған гипердиагноз жалаушасы тексерілді. Ешқайсысы іске қосылмады. Бұл кез келген клиницист үшін ең маңызды нәтиже, өйткені ол AI қозғалтқышын триаж немесе алдын ала кеңес құралы ретінде қолдануды қарастырады: жүйе жоқ жерде ауру ойлап таппады.

Ментцер индексі: темір тапшылығын талассемия белгілерінен ажырату

Екінші құнды нәтиже — BT-001 жағдайын (темір тапшылығы анемиясы) BT-007 жағдайымен (бета-талассемияның кіші түрі) жұптастыру. Екеуі де микроцитозбен көрінеді және бейімделмеген жіктегіштер үшін жиі кездесетін «кедергі». Ментцер индексі, ол MCV-ді RBC санына бөлу арқылы есептеледі, темір тапшылығында 13-тен жоғары, ал талассемия белгісінде 13-тен төмен болады.

BT-001-де пациент 34 жастағы әйел болды: гемоглобин 10.4 г/дЛ, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферритин 6 нг/мл және TIBC жоғары. Ментцер индексі шамамен 17.7 абсолютті темір тапшылығын қолдайды. BT-007-де пациент 28 жастағы ер адам болды: микроцитоз (MCV 65.8 фл), бірақ RBC саны 6.2 жоғары, RDW қалыпты, ферритин қалыпты, HbA2 5.6 пайыз. Ментцер индексі шамамен 10.6 талассемия белгісін көрсетеді, ал HbA2-нің жоғары болуы бета-талассемияның кіші түрін растайды.

Темір тапшылығы анемиясы Ментцер > 13 Ферритин төмен, TSAT төмен, TIBC жоғары, RDW жоғары

Бета-талассемия белгісі Ментцер < 13 Ферритин қалыпты, RDW қалыпты, HbA2 жоғары (>3.5%), RBC саны жоғары

Екі жағдай да 1.000 балл жинады. Қозғалтқыш екі түсіндірмеде де Ментцер индексін нақты қолданды және әр жағдайда дұрыс диагнозды қайтарды. Бұл бүкіл бенчмарктегі ең клиникалық тұрғыдан сенімді нәтиже, өйткені талассемия белгісін темір тапшылығы деп қате жіктеу орынсыз темір қоспасын тағайындауға және отбасылық скрининг мүмкіндіктерін жіберіп алуға әкеледі; ал темір тапшылығын талассемия деп қате жіктеу қарапайым алмастыру терапиясын кешіктіреді. Біздің ферритин көрсеткіштерінің диапазоны дифференциалды контексттің кеңірек көрінісін түсіндіреді.

V11 бастапқы эталондық іске қосылымнан (2026 ж. 23 сәуір) жағдай бойынша нәтижелер

15 жағдайлық proof-of-concept когортасындағы бастапқы V11 эталондық іске қосылым Екінші жаңартудың әдістемелік негізін құрайды: төмендегі әрбір жағдайлық деталь рубриканың нақты қозғалтқыш жауабын қалай өңдейтінін көрсетеді. Он бес жағдайдың он екеуі негізгі жолда (primary path) 1.000 төбелік құрама баллға жетті; үш жағдай Phase 2 резервтік жолы арқылы берілді, нәтижесінде 0.05 кідіріс бонусы жоғалды, бірақ барлық клиникалық және құрылымдық мазмұн сақталды. Бір жағдай бір ғана міндетті ішбөлімнен (subsection) айырылды; бір жағдай ықтималдықтар таралуының қосындысы шамалы төмендетілген түрде қайтарылды. of the Second Update: every per-case detail below illustrates how the rubric handles a real engine response. Twelve of fifteen cases achieved the ceiling composite score of 1.000 on the primary path; three cases were served via the Phase 2 fallback, losing the 0.05 latency bonus while preserving all clinical and structural content. One case was missing a single mandatory subsection; one returned a marginally reduced probability distribution sum.

Case ID Мамандану Құрама Латенттілік Path

BT-001-IDAГематология1.00017.8 сprimary

BT-006-B12Гематология1.00018,4 сprimary

BT-007-THALГематология1.00017,0 сprimary

BT-002-HASHЭндокринология0.95037,0 срезервтік нұсқа

BT-008-PCOSЭндокринология0.98718,6 сprimary

BT-003-T2DMМетаболикалық1.00019,1 сprimary

BT-013-GOUTМетаболикалық1.00019,4 сprimary

BT-004-NAFLDГепатология1.00019,6 сprimary

BT-009-VIRHEPГепатология0.95023,4 срезервтік нұсқа

BT-014-GILBERTТұзақ1.00018,9 сprimary

BT-005-CKDНефрология1.00017,4 сprimary

BT-010-ASCVDКардиология1.00019,7 сprimary

BT-011-SLEРевматология0.98118,2 сprimary

BT-012-VITDЭндокринология1.00019,3 сprimary

BT-015-ДЕНСАУЛЫҚТЫТұзақ1.00018,7 срезервтік нұсқа

PCOS жағдайы (BT-008) жауап құрылымында бір міндетті ішкі бөлімді жоғалтты — он алтының орнына он бестен он алтыға дейін — бұл құрылымдық баллды 1,000-нан 0,963-ке дейін төмендетті. SLE жағдайы (BT-011) клиникалық баллды 0,965-ке түсірген, бірақ барлық диагностикалық кілтсөздер мен бағалау жүйесін сақтаған, ықтималдықтар таралуы қосындысының шамалы төмендеген нұсқасын қайтарды. Екі де мінсіз емес жағдай да дұрыс диагнозды жіберіп алмады.

V11 Екінші жаңарту агрегаты — 100,000 жағдай

Халық саны ауқымында жеке жағдай жолдары адамға оқылмайтын болғандықтан, Екінші жаңарту 100,000 жолдық кестенің орнына агрегатталған көрсеткіштерді береді. Негізгі агрегат төменде көрсетілген; мамандық және ел-жапсырма бойынша жіктелімдер техникалық есепте және Figshare депозитінде жарияланған. Стратификацияланған кездейсоқ іріктеме n = 201 шикі қозғалтқыш жауаптары (детерминирленген seed 20260426) GitHub results/ тексеру үшін арналған каталогта жарияланған.

Құрама балл V11 бастапқы: 0.9912 (99.12%) → Екінші жаңарту: 0.9980 (99.80%) Δ = +0.0068 100,000 жағдайлық когорта бойынша

Құрылымдық балл (орташа) V11 бастапқы: 0.998 → Екінші жаңарту: 1.000 Халықтық ауқымда мінсіз құрылымдық сәйкестік

Клиникалық балл (орташа) V11 бастапқы: 0.998 → Екінші жаңарту: 0.996 −0.002; ешбір жағдай диагноздың өзін жіберіп алған жоқ

Кешігу — орташа мәні (диапазон) V11 бастапқысы: 20,17 с (17,0–37,0 с) → Екінші жаңарту: 13,26 с (9,0–16,94 с) Іске қосу аралықтарындағы өндірістік қозғалтқышты оңтайландырулар

Қозғалтқыш жолы = негізгі V11 бастапқысы: 12 / 15 → Екінші жаңарту: 100,000 / 100,000 Жүгіру барысында ешқандай уақытта 2-фазаға резерв (fallback) қажет болған жоқ

Тұзақ-ішкі жиын гипердиагностика жалаушалары V11 бастапқысы: 0 / 13 → Екінші жаңарту: 0 / 87,412 Халық саны ауқымында нөлдік жалған-оң нәтижелер (8 723 тұзақ жағдайы бақыланды)

Басты көрсеткіш бізге нені айтпайды

Осы нақты алдын ала тіркелген рубрика бойынша 99.80 пайыздық құрама балл, 127 ел жапсырмасын қамтитын 100,000 жағдайдан тұратын синтетикалық когортада, төбеге жақын өнімділікті білдіреді — бірақ оны мұқият контекстпен түсіндіру керек. Нәтиже қозғалтқыштың V11-де бастапқы кодқа міндеттелген рубрикаға қатысты әрекетін сипаттайды; бұл жабайы ортада бар әрбір қан талдауы панеліндегі қозғалтқыштың дұрыстығы туралы әмбебап талап емес.

Балл қозғалтқыштың осы бағалау үшін таңдалған диагностикалық үлгілерді халық саны ауқымындағы когортада дұрыс өңдегенін, жарияланған және қайта өндіруге болатын әдістеме бойынша екенін көрсетеді. Бұл қозғалтқыштың табиғатта бар әрбір қан талдауы панелінде дұрыс екенін айтпайды. Бұл қозғалтқыш клиницистің пайымын алмастыруы керек дегенді айтпайды. Және бұл қозғалтқыш басқа АИ жүйелерінен асып түседі дегенді айтпайды — басқа қозғалтқыштарға салыстырмалы талдаулар осы есеп үшін әдейі шектеу аясынан тыс қалдырылды.

Баллдың нақты бекітетіні — бастапқы деңгей (baseline). Рубрика мен хост (harness) жария болғандықтан, қозғалтқыштың болашақ нұсқаларын дәл сол рубрикаға қарсы бағалауға болады — V11 бастапқы 15 жағдайға, Екінші жаңартудағы 100 000 жағдайлық когортаға немесе кез келген кейінгі кеңеюге қолдануға болады — ал жарияланған балл мен кез келген кейінгі жүгіру арасындағы алшақтықтың өзі өлшенетін болады. Алдын ала тіркеудің құндылығы міне: өнімділік туралы талаптарды тексерілетін талаптарға айналдырады.

Бұл эталонды 10 минутта қалай қайталауға болады

Қайта өндіру үшін тек Kantesti API куәлік жұбы және Python 3.10 немесе одан кейінгі нұсқасы бар орта қажет, сонымен бірге requests және reportlab кітапханалары орнатылған болуы керек. Толық құрал бір ғана MIT лицензиясымен шығарылған, дербес қамтылған Python модулі.

💻 GitHub MIT лицензиясымен берілген harness · шикі жауаптар · эталондық іске қосу 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · канондық академиялық жазба 🎓 ResearchGate Publication 404175463 · V11 Second Update · академиялық ашылым қабаты 📄 Academia.edu Paper 165956808 · V11 Second Update · академиялық ашылым қабаты

Жаңа іске қосу үшін төрт қадам

Бірінші. Репозиторийді клондау: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Екінші. Тәуелділіктерді орнату: pip install -r requirements.txt (Екінші жаңарту қосады mysql-connector-python ≥ 8.0 SQL case loader үшін). Үш. Орнату KANTESTI_USERNAME және KANTESTI_PASSWORD қозғалтқыш API үшін орта айнымалылары ретінде. Екінші жаңартудағы SQL case loader үшін сондай-ақ орнатыңыз: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, және KANTESTI_DB_PASSWORD — жүктеуші тек оқуға арналған рөл арқылы қосылады (bench_reader) ол кестелерді анықтауға қатысты рұқсаттары жоқ. Төрт. Іске қосу python benchmark_bloodtest.py --limit 100000 толық Second-Update іске қосу үшін немесе python benchmark_bloodtest.py --limit 1000 жылдам итерация үшін. Нәтижелер мына жерге түседі ./benchmark_results/: ел бойынша белгі және мамандық бағандары бар CSV балл-картасы, JSON агрегаты, стратификацияланған-кездейсоқ шикі жауап үлгісі және Markdown есеп.

23 сәуір 2026 жылғы (V11 бастапқы, 15 жағдай) және 26 сәуір 2026 жылғы (V11 Second Update, 100,000 жағдай) эталондық іске қосулар репозиторийдің results/ каталогында сақталған. Жаңа іске қосу эталондық іске қосуларды өзгертпей, жаңа уақыт белгісі бар scorecard шығарады. Егер сіздің іске қосуыңыз нәтижесі елеулі түрде өзгеше болса, өтінеміз, GitHub issue ашып, іске қосу уақыт белгісін және жауап метадеректерінде қайтарылған engine нұсқасын көрсетіңіз.

Шектеулер және болашақ жұмыс

127 ел белгісі бойынша 100,000 жағдайға дейін болса да, төрт шектеуді нақты түрде мойындау қажет: ұзынқұйрықты (long-tail) белгі бойынша үлгінің аздығы, бір реттік бағалау, бір қозғалтқыш ауқымы және бір дереккөзден шығу тегі. Бұлардың әрқайсысы белсенді түрде жүргізіліп жатқан кейінгі жұмыстарда қарастырылуда.

Ұзынқұйрықты (long-tail) белгі қамтуы. Екінші жаңарту 127 ел белгісін қамтиды, бірақ үлестірімі тең емес — алғашқы 10 белгі жағдайлардың ≈66.4%-ын құрайды, ал қалған 97 қосымша белгіден тұратын ұзынқұйрық бірге ≈7.3% (шамамен 7,300 жағдай жиынтығы, орташа ~75 жағдай/белгі) үлес қосады. Сондықтан осы ұзынқұйрықтағы әр-белгі бойынша композиттер басылымдағы негізгі көрсеткіштерге қарағанда әлдеқайда «шуылырақ». Болашақ іске қосулар әр-белгі бойынша бағалауларды нақтылау үшін белгі тағайындауды қайта теңестіретін болады.

Бір реттік бағалау. Когортадағы әр жағдай бір рет бағаланды. Үлкен тілдік модельдер төмен sampling temperature кезінде де айтарлықтай шығыс вариативтілігін көрсетеді, сондықтан әр жағдайға бес бағалау жүргізілетін және есеп берілетін вариативтілігі бар көп іске қосу протоколы табиғи келесі қадам болып табылады — әсіресе trap-case ішкі жиынында, мұнда sampling дірілінің әсеріне қарамастан тұрақтылық қауіпсіздік туралы талаптың бір бөлігі болып саналады.

Бір қозғалтқыш ауқымы. Бұл есеп бір ғана engine-ді сипаттайды. Мұнда баламалы AI жүйелермен салыстырмалы талдаулар қамтылмайды; біз оларды бірдей MIT лицензияланған harness-қа қарсы, тиісті әдістемемен бөлек тәуелсіз зерттеу ретінде қарастыруымыз мүмкін.

Синтетикалық деректер. 100,000 жағдай синтетикалық түрде генерацияланған — синтетикалық жағдайлар емес, және нәтижелер нақты әлемдегі клиникалық көрсеткіштерге ауыспайды. Рұқсаты бар, нақты деректерге бағалау жүргізу тиісті этикалық қадағалауды талап етеді және бұл синтетикалық эталонның ауқымынан тыс.

Осы төрт шектеуден тыс, жоспарланған ең ықпалды кеңейту — әр юрисдикция бойынша көптілді сәйкестік. Kantesti AI Engine пайдаланушыларға 75+ тілде қызмет көрсетеді, ал тілге қарай стратификацияланған Second-Update ішкі когорттарын (түрік, неміс, испан, француз, итальян, португал, араб, мандарин) іске қосу engine қолдайтын тілдер бойынша шығыс сапасын сандық түрде бағалайды. Әр тілге қарай стратификацияланған талдау өз DOI-ымен және harness тармағымен жарияланады.

100,000 жағдай бойынша 99.80% композиттік ұпайға қол жеткізген Сол Engine-ді қолданып көріңіз

Өз талдауыңызды осы бенчмаркта бағаланған сол өндірістік (production) endpoint-ке жүктеңіз. Дүние жүзінде 2 миллионнан астам пайдаланушы Kantesti AI Engine арқылы 75+ тілінде 15 000-нан астам биомаркерді түсіндіреді.

🔬 Тегін демо нұсқасын қолданып көріңіз

Chrome кеңейтімі Қолданбалар дүкені Google Play

📚 Осы бенчмаркты қалай дәйектеуге болады

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Kantesti Қан талдауын түсіндіру қозғалтқышына арналған 100,000 синтетикалық тест жағдайындағы алдын ала тіркелген, рубрикаға негізделген автоматтандырылған техникалық эталон
                 --- V11 Екінші жаңарту},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Техникалық есеп},
  number      = {V11 (Екінші жаңарту)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti Қан талдауын түсіндіру қозғалтқышына арналған 100,000 синтетикалық тест жағдайындағы алдын ала тіркелген, рубрикаға негізделген автоматтандырылған техникалық эталон — V11 Екінші жаңарту (Техникалық есеп V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Сыртқы әдістемелік сілтемелер

Mentzer, W. C. (1973). Темір тапшылығын талассемия белгілерінен ажырату. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Еуропалық ревматизмге қарсы лига / Американдық ревматология колледжі жүйелі қызыл жегі (Systemic Lupus Erythematosus) үшін жіктеу критерийлері. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Үлкен тілдік модельдерге арналған медициналық домендік галлюцинация тесті. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Құрама балл

100,000Бағаланған жағдайлар

127Қамтылған ел белгілері

0 / 87,412Тұзақтағы жалған-оң нәтижелер

Жиі қойылатын сұрақтар

Kantesti AI қозғалтқышы синтетикалық тест жағдайларында қаншалықты дәл?

Алдын ала тіркелген рубрика бойынша, сегіз мазмұн саласы және 127 ел белгісі бойынша 100,000 синтетикалық генерацияланған тест жағдайында (V11 Екінші жаңарту) қозғалтқыш композиттік баллды 99.80 пайызға жеткізді: 87,412 бақыланған трап-жағдай мүмкіндіктерінің ішінде гипердиагностикаға қатысты нөлдік жалаушалар және жауаптың орташа кідірісі 13.26 секунд болды. Бұл композит синтетикалық енгізілімдердегі нәтижелердің сәйкестігін өлшейді, диагностикалық дәлдікті емес. Бастапқы V11 шығарылымында дәл сол рубрика 15 қолмен құрастырылған жағдайға қолданылды (композит 99.12%); Екінші жаңарту рубриканы байт-дәл күйінде сақтап, оны неғұрлым үлкен синтетикалық когортаға дейін кеңейтеді. Толық балл-карта Figshare сайтында DOI 10.6084/m9.figshare.32095435 және GitHub-та MIT лицензиясымен жарияланған.

Kantesti AI қозғалтқышы клиникалық тұрғыдан расталған ба?

Жоқ. Қозғалтқыш клиникалық валидация емес, автоматтандырылған техникалық эталон арқылы бағаланды; рубрика V11 бастапқы іске қосылуына дейін бастапқы кодта қатып қалған және V11 Екінші жаңарту үшін байт-дәл күйінде сақталды. Бағалау 127 ел белгісінен алынған, гематология, эндокринология, метаболикалық медицина, гепатология, нефрология, кардиология, ревматология және ішкі медицина бойынша 100,000 синтетикалық қан талдау жағдайларында жүргізілді. Клиникалық қадағалауды Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) қамтамасыз етті — Kantesti AI компаниясының директорлар кеңесімен сертификатталған клиникалық гематологы және Бас медициналық офицері.

Гипердиагноз тұзағы дегеніміз не?

Гипердиагностика тұзағы (hyperdiagnosis trap) — АИ қозғалтқыштарындағы шамадан тыс диагноз қою (over-diagnosis) мінез-құлқын анықтауға арнайы жасалған клиникалық сценарий. V11 бастапқы бенчмаркі мұндай екі жағдайды әдістемелік дәлел ретінде қолданды: Гилберт синдромына сәйкес келетін оқшауланған жанама гипербилирубинемия (мұнда дұрыс түсіндіру — гепатит немесе гемолиз емес, UGT1A1 полиморфизмі екені) және толық қалыпты ересектерге арналған скрининг панелі (мұнда дұрыс нәтиже — шекаралық патологияны ойдан шығару емес, сенімділік/тыныштандыру). V11 Екінші Жаңарту осы тұзақ-жағдай әдістемесін 8 723 жағдайдан тұратын арнайы ішкі жиынға кеңейтті: 87 412 бақыланатын гипердиагностика туындату мүмкіндігі (flag) алынды — әрі қозғалтқыштың жалған-оң (false-positive) көрсеткіші нөл күйінде қалды.

Kantesti AI қозғалтқышын бағалау нәтижелері қайталанатындай (репродуцирленетін) ме?

Толық бағалау (evaluation) тесті MIT лицензиясы бойынша бір ғана дербес Python модулі ретінде шығарылады. V11 бастапқы іске қосу үшін тек Kantesti API credential жұбы және Python 3.10 немесе одан кейінгі нұсқа қажет. V11 Екінші Жаңарту Kantesti клиникалық-репозиторий credential-дерін талап ететін параметрленген, тек оқуға арналған SQL case loader қосады (a bench_reader кестелерді анықтауға қатысты артықшылықтары жоқ рөл). Код, case loader SQL, бағалау өлшемі (rubric) (шығарылымдар арасында дәл сол күйде, byte-identical), сондай-ақ V11 бастапқы және Екінші Жаңарту эталондық (reference) іске қосуларынан алынған стратификацияланған кездейсоқ қозғалтқыш жауаптарының үлгісі github.com/emirhanai/kantesti-blood-test-benchmark сайтында қолжетімді және Figshare, ResearchGate және Academia.edu сайттарында айна (mirror) ретінде берілген.

Kantesti AI қозғалтқышы темір тапшылығын бета-талассемия тасымалдаушылығынан қалай ажыратады?

Қозғалтқыш Mentzer индексін қолданады: ол орташа корпускулалық көлемді (mean corpuscular volume) эритроциттер санына (red blood cell count) бөлу арқылы есептеледі. Mentzer индексі 13-тен жоғары болса темір тапшылығы анемиясын қолдайды, ал 13-тен төмен болса бета-талассемия белгілерін (trait) қолдайды. V11 бастапқы бенчмаркте екі көрініс те Mentzer индексін нақты есептеу арқылы дұрыс жіктелді; бұл ферритин, RDW және HbA2 контекстімен расталды. V11 Екінші Жаңартуда 100 000 жағдайдан тұратын когортта дәл сол дифференциалды мінез-құлық популяциялық деңгейде сақталды.

Шикі эталондық деректер мен бастапқы кодты қай жерден таба аламын?

Техникалық есеп Figshare сайтында DOI 10.6084/m9.figshare.32095435 бойынша орналастырылған (V11 бастапқы шығарылымын да, V11 Екінші Жаңартуды да қамтиды), ResearchGate жарияланымы 404175463 және Academia.edu мақаласы 165956808 бойынша айна ретінде берілген — екеуі де V11 Екінші Жаңарту атауымен және 100 000 жағдай нәтижелерімен жаңартылған — әрі MIT лицензиясымен берілген Python harness және барлық reference run нәтижелері github.com/emirhanai/kantesti-blood-test-benchmark сайтында. Төрт платформадағы айна желісі ұзақ мерзімді қолжетімділік пен дәйексөз келтіру икемділігін қамтамасыз етеді.

Неге AI медициналық бенчмарктері үшін алдын ала тіркеу (pre-registration) маңызды?

Алдын ала тіркеу пост-хок рубриканы баптауды болдырмайды; бұл компания басқаратын бенчмарктердің өз көрсеткіштерін жасанды түрде өсіруінің ең жиі кездесетін бір ғана тәсілі. Рубриканы кез келген қозғалтқыш шақыруынан бұрын бастапқы кодқа бекітіп, құралды (harness) ашық жариялау арқылы рубрика авторының күндері нұсқаларды басқаруда тексерілетін болады, ал қозғалтқыш нәтижелері бағалау өлшемдерін (scoring criteria) қалыптастыра алмайды.

Бұл бенчмаркте басқа AI қозғалтқыштарымен салыстыру бар ма?

Жоқ. V11 есебі — бастапқы шығарылым да, Екінші Жаңарту да — оны баламалы коммерциялық жүйелермен салыстырып көрсетудің орнына, бір ғана қозғалтқышты бекітілген бағалау өлшеміне (fixed rubric) әдейі сипаттайды. Harness MIT лицензиясы бойынша ашық бастапқы код (open source) (қазір SQL case loader да кіреді), сондықтан тәуелсіз зерттеушілер өздері таңдаған кез келген қозғалтқышты дәл сол rubric және case loader арқылы бағалап, нәтижелерін жариялай алады.

Пациент жағдайлары шынайы ма, әлде синтетикалық па?

Барлық жағдайлар синтетикалық түрде генерацияланған — V11 бастапқы шығарылымындағы 15 қолмен құрастырылған жағдай және Екінші жаңартудағы 100,000 жағдай. Бұл синтетикалық жағдайлар емес: синтетикалық деректер де, келісім процесі де, деидентификация да қарастырылмаған, өйткені когортада жеке деректер жоқ. Жарияланған хостингте, техникалық есепте немесе шығарылған деректер жиынтықтарында жеке деректер көрінбейді.

⚕️ Медициналық ескерту және мүдделер қақтығысы

Бұл бенчмарк туралы есеп зерттеу және әдістемелік ашықтық мақсатында берілген. Ол медициналық кеңес болып табылмайды, диагноз емес және кәсіби медициналық көмектің орнына жүрмейді; мұнда келтірілген кез келген нәтиже дәрігерге қаралуды кейінге қалдыруға немесе одан бас тартуға пайдаланылмауы тиіс. Диагноз қою және емдеу туралы шешімдер үшін әрдайым білікті денсаулық сақтау маманымен кеңесіңіз. Бұл компанияның өз қозғалтқышының өзін-өзі іске қосқан ішкі бенчмаркi және ол тәуелсіз түрде валидацияланбаған немесе peer-reviewed талдаудан өтпеген. Құрама балл бекітілген өлшемге сәйкестікті өлшейді (есеп құрылымы, кілтсөздер мен бағалау-жүйесін еске түсіру, сондай-ақ кідіріс); ол нақты өмірдегі диагностикалық дәлдікті немесе клиникалық қауіпсіздікті өлшемейді. Екі автор да Kantesti Ltd компаниясында жұмыс істейді және үлестік қатысуға ие, ал бағаланатын қозғалтқыш — сол ұйымның коммерциялық өнімі. Бұл мүдделер қақтығысы өлшемді бастапқы кодта алдын ала тіркеу арқылы, harness-ті MIT лицензиясы бойынша жариялау арқылы және қозғалтқыштың бастапқы жауаптарының стратификацияланған кездейсоқ үлгісін жариялау арқылы азайтылған.

E-E-A-T сенім сигналдары

⭐

Тәжірибе

Істер панелін таңдауын қадағалайтын клиникалық гематология және зертханалық медицина саласында 15+ жылдық тәжірибе.

📋

Сараптама

Алдын ала тіркелген рубрика дизайны: гипердиагнозға нақты айыппұлдар және танылған клиникалық бағалау жүйелері (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Билік

Негізгі автор Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Іске асыру (implementation) Julian Emirhan Bulut, Kantesti Ltd компаниясының бас директоры (CEO) тарапынан.

🛡️

Сенімділік

MIT лицензиясымен берілген қайта өндіруге болатын (reproducible) harness, бастапқы (raw) қозғалтқыш жауаптары жарияланған, мүдделер қақтығысын ашық көрсету, төрт платформадағы зерттеу айна желісі.

🏢 «Кантести» ЖШС Англия мен Уэльсте тіркелген · Компания №. 17090423 Лондон, Ұлыбритания · kantesti.net