Kantesti AI кан анализи боюнча көрсөткүчтөр

Автоматташтырылган бенчмарк Алдын ала катталган салыштырма көрсөткүч V11 Экинчи жаңыртуу — 2026-жылдын апрели MIT лицензиясы бар Кайра чыгарылуучу · Ачык маалыматтар 100K синтетикалык когорта · 127 өлкө энбелгиси

99.80% алдын ала катталган рубрика боюнча композиттик балл — V11 экинчи жаңыртуу, 127 өлкө энбелгиси боюнча 100,000 учурлуу когорта

127 өлкө энбелгиси менен белгиленген 100,000 синтетикалык кан анализи учурларында Kantesti кыймылдаткычын алдын ала катталган, рубрикага негизделген автоматташтырылган техникалык тестирлөө. Бул диагностикалык тактыкты эмес, чыгарманын шайкештигин өлчөйт. Рубрика V11 алгачкы чыгарылышына чейин булак кодунда тоңдурулуп, ушул Экинчи Жаңыртууда byte-иденттүү бойдон сакталган; баалоо хосту MIT лицензиясында; текшерүү үчүн кыймылдаткычтын чийки жоопторунан стратификацияланган туш келди тандалма жарыяланган. Бардык учурлар синтетикалык; эч кандай жеке маалымат колдонулбайт.

📖 ~14 мүнөт 📅 2026-жылдын 23-апрелинде жарыяланды · 2026-жылдын 26-апрелинде жаңыртылды (V11 Экинчи жаңыртуу) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Жарыяланды: 23-апрель, 2026-жыл 🔄 V11 Экинчи жаңыртуу: 26-апрель, 2026-жыл 🩺 Медициналык жактан каралып чыккан: 26-апрель, 2026-жыл ✅ Алдын ала катталган рубрика (Byte-Identical) 🔓 Ачык код жана маалыматтар

Бул автоматташтырылган бенчмаркты иштеп чыгып, иштеткен Джулиан Эмирхан Булут, Kantesti Ltd компаниясынын улук AI-инженери жана башкы директору. Баалоо толугу менен булак кодунда автоматташтырылган; баалоо критерийи жана учурлар панелин клиникалык көз караш менен иштеп чыккан Доктор Томас Клейн, медицина илимдеринин доктору, Kantesti AI компаниясынын башкы медициналык кызматкери, жана аны Кантести AI медициналык консультативдик кеңеши. Бул өз алдынча иштетилген ички бенчмарк, көз карандысыз же peer-reviewed автоматташтырылган техникалык бенчмарк эмес.

Башкы автор жана клиникалык көзөмөл

Томас Клейн, Мэриленд

Кантести шаарынын башкы медициналык кызматкери, AI

Доктор Томас Кляйн — лабораториялык медицинада 15 жылдан ашык тажрыйбасы бар, тактама сертификаты бар клиникалык гематолог жана ички оорулар боюнча дарыгер. Kantesti AI компаниясында Башкы медициналык кызматкер катары ал бул бенчмарк үчүн учурлар панелин тандап, синтетикалык учурлардын клиникалык мазмунун жана күтүлгөн жоопторун карап чыгып, биринчи кыймылдаткыч чакырылышына чейин алдын ала катталган рубриканы бекиткен.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Биргелешкен автор & ишке ашыруу

Джулиан Эмирхан Булут

Улук AI инженери & CEO, Kantesti Ltd

Жулиан Эмирхан Булут Kantesti Ltd компаниясынын негиздөөчүсү жана башкы директору. Ал баалоо чөйрөсүн — анын ичинде V11 Экинчи жаңыртуу үчүн кошулган SQL case loader — иштеп чыгып, ишке ашырган; API интеграциясын аткарган; V11 алгачкы референс-иштетүүсүн жана V11 Экинчи жаңыртуу үчүн 100,000 учурдук иштетүүнү жүргүзгөн; ошондой эле статистикалык жыйынды даярдаган. Платформанын негиздөөчүсү (2019-жылдан бери).

GitHub Кантести жөнүндө

⚡ Кыскача кыскача маалымат V11 Экинчи жаңыртуу — 26-апрель, 2026-жыл

99.80% композиттик балл сегиз медициналык адистик жана 127 өлкө энбелгиси боюнча 100,000 синтетикалык кан анализи учурларында (V11 Экинчи Жаңыртуу).
Нөлдүк гипердиагноз жалган-оң натыйжалар 87,412 көзөмөлдөнгөн trap-case флаг мүмкүнчүлүктөрүнүн үстүнөн — V11 алгачкыдагыдай эле trap-case методологиясы, калк деңгээлине масштабдалган.
Алдын ала катталган рубрика V11 алгачкы иштетүүсүнө чейин булак кодунда тоңдурулган жана сакталган байт-байт бирдей ушул Экинчи жаңыртуу үчүн — пост-хок жөндөөгө мүмкүн болгон эмес.
Ментцер индекси туура колдонулган V11 алгачкы чыгарылышында темир жетишсиздик анемиясын бета-талассемия minorдон айырмалоо үчүн; дифференциалдык жүрүм-турум калк деңгээлинде да сакталган.
Өндүрүштүк акыркы чекит гана — артыкчылыктуу багыттоо жок, төлөөчү кардар кандай кирсе, дал ошондой текшерилген.
13.26 секунд орточо кечигүү end-to-end (аралыгы 9.0–16.94 с), бардык 100,000 учур кыймылдаткычтын негизги жолунда аяктаган.
Синтетикалык когорта. Ишке киргизүү учурунда жүктөлгөн 100,000 синтетикалык тест учурлары. Синтетикалык маалымат да, жеке маалымат да колдонулбайт.
MIT лицензиялуу тестирлөө куралы GitHub’да текшерүү үчүн кыймылдаткычтын толук чийки жоопторунан стратификацияланган туш келди тандалма (n = 201) менен жарыяланды.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub’та көчүрмө (mirror) кылынган.

Бул салыштырма көрсөткүч эмне үчүн бар жана ал эмнени текшерет

AI колдоосу менен кан анализин чечмелөө керектөөчүлүк жана клиникалык иш процесстеринде барган сайын көбүрөөк колдонулуп жатат, бирок лабораториялык медицина үчүн ылайыкташкан, кайра чыгарылуучу баалоо алкактары сейрек кездешет. Бул шартта эң маанилүү суроолор жалпы медициналык суроо-жооп эталондорунда камтылгандар эмес: орточо корпускулалык көлөм (MCV) бирдей болгондо кыймылдаткыч темир жетишсиздигин талассемия белгилеринен ажырата алабы, Гилберт синдромун гепатит катары ашыкча диагноз коюп жибереби жана толугу менен нормалдуу скрининг панелинде патологияны “жасап” чыгарабы?

Бир кан анализинин бирдиктүү панели адатта бир нече атаандаш чечмелөөнү колдоого жетиштүү сигнал камтыйт, ал эми чечмелеп жаткан дарыгердин милдети — ошол чечмелөөлөрдү бири-бирине салыштырып таразалоо, окуу китебиндеги даяр жоопту издеп табуу эмес. Окуу китептеги учурларда жакшы иштеген система эң маанилүү учурларда дагы эле жаңылышы мүмкүн: дифференциалдык диагноздогу тузактар, өзүнчө караганда кооптуу көрүнгөн зыянсыз варианттар жана ишенимдүү жардамчыларды патологияны “жасоого” азгыра турган толугу менен нормалдуу панелдер.

Бул бенчмарк дал ошол иштен чыгуу режимдеринин айланасында түзүлгөн. Он беш учурдун ар бири белгилүү бир диагностикалык касиет үчүн тандалды: орточо эритроциттик көлөмү бирдей болгон бета-талассемия белгилеринен айырмаланып турушу керек болгон темир жетишсиздигине байланышкан микроцитоз; жалгыз гана обочолонгон кыйыр гипербилирубинемиядан турган Гилберт синдрому көрүнүшү; жана ар бир анализат өзүнүн маалымдама диапазонунун ичинде турган он беш параметрлүү скрининг панели. Рубрика ар бир учурду өзүнүн шарттары менен окуган системаларды сыйлайт жана мындай диагноз талап кылынбаган учурда ишенимдүү диагнозго жеткен системаларды жазалайт.

MD Томас Клейн катары мен учурлардын панелин тандадым, анткени лабораториялык медицина боюнча жардамчылар эң көп жаңылышкан үлгүлөр — дал ушулар. Кымбат баалуу жаңылыштык "сейрек кездешүүчү ооруну өткөрүп жиберүү" эмес — анысы жок бейтаптарда күнүмдүк патологияны ойлоп табуу. Биздин Медициналык текшерүү hub кеңири алкакты сүрөттөйт; бул бет V11 алгачкы proof-of-concept жана аны 127 өлкө энбелгисин камтыган синтетикалык учурлар топтомунан алынган 100,000 синтетикалык учурга чейин масштабдаган V11 Экинчи Жаңыртууну сүрөттөйт — ошол эле баалоо рубрикасы менен, byte-иденттүү, post-hoc жөндөөгө уруксат берилбейт.

Акыркы маалымдама иштетүү — V11 Экинчи Жаңыртуу (2026-жылдын 26-апрели)

2026-жылдын 26-апрелиндеги V11 Экинчи Жаңыртуунун маалымдама иштетүүсү 99.80% V11 баштапкы чыгарылышында колдонулган алдын ала катталган (pre-registered) рубрика боюнча бааланып, 100,000 синтетикалык учур Kantesti синтетикалык учурлар топтомунан алынган жана 127 өлкө энбелгисин камтыйт жана 75+ тилдерин камтыган. Ар бир учур кыймылдаткычтын негизги жолунда (primary path) аяктады; trap-case гипердиагноз флагын активдештирүүлөр 0 / 87,412. бойдон калды. 2026-жылдын 23-апрелиндеги баштапкы V11 иштетүүсү 15 кол менен тандалган учурду (композит 99.12%) камтып, рубриканы тастыктаган; Экинчи Жаңыртуу ошол рубриканы byte-дал сактап, баалоону калктын масштабындагы топтомго чейин кеңейтет.

Композит 99.80% 100,000 учурдун 100,000и бааланды

1.000 Структуралык балл

0.996 Клиникалык балл

13.26 с Орточо кечигүү

0 / 87,412 Тузактагы жалган оң жыйынтыктар

Композиттик формула үч компонентти бириктирет: структуралык шайкештик жети милдеттүү отчет бөлүмү жана он алты милдеттүү кошумча бөлүм менен, мазмундун тактыгы ачкыч сөздү эстеп калуу + балл коюу системасын эстеп калуу + ыктымалдык бөлүштүрүүнүн жарактуулугун текшерүү катары өлчөнөт, жана жооп берүү кечигүүсү негизги жолдун кызмат деңгээли (service-level) боюнча максатка каршы. Так ажыратылышы төмөндөгү рубрика формуласында көрсөтүлгөн — бул салмактардын же суб-рубрикалардын эч бири Экинчи Жаңыртуу үчүн өзгөртүлгөн эмес.

Композит = 0.35 × Структуралык + 0.55 × Клиникалык + 0.10 × Кечигүү

Калган 0.20 пайыздык пункт баш мейкиндик дээрлик толугу менен клиникалык суб-упайга бөлүнөт — учурлардын аз бөлүгүндө (негизинен Гепатология жана Ревматологияда) диагностикалык мазмун туура болгонуна карабастан, күтүлгөн баалоо-системасынын бир ачкыч сөзү кыймылдаткычтын чечмелөөсүндө жок болуп калган. 100,000 учурдан турган Экинчи Жаңыртуу топтомунда эч бир учурдун өзүндө диагноз өткөрүлүп берилген жок. Кечигүү V11 баштапкы чыгарылышындагы орточо 20.17 стен Экинчи Жаңыртууда 13.26 ске чейин жакшырды; бул эки иштетүүнүн ортосундагы өндүрүштүк кыймылдаткыч оптимизацияларын чагылдырат; рубрика, баалоо коду жана API акыркы чекити өзгөргөн жок.

Энбелги боюнча композиттик баллдар 30 эң көп берилген өлкө энбелгисинде 0.9971ден 0.9985ке чейин өзгөрдү. Кошумча 97 энбелгиден турган узун куйрук (жалпысынан ≈7,300 учур) системалуу начарлоону көрсөткөн жок. Учур саны боюнча эң көп кездешкен энбелгилер: Америка Кошмо Штаттары (10,500), Бразилия (9,500), Испания (9,000), Италия (8,000), Германия (7,800), Франция (7,400), Португалия (5,800), Türkiye (3,400), Улуу Британия (2,900) жана Мексика (2,500).

15 учурдан 100,000ге чейин: 127 өлкө энбелгиси боюнча когорта эволюциясы

Алгачкы V11 учурлар панелинде жети адистик — гематология, эндокринология, метаболикалык медицина, гепатология, нефрология, кардиология, ревматология — плюс эки атайын гипердиагноз trap учуру болгон; ар бир учур синтетикалык түзүлгөн кан анализи панелинен турган. V11 Экинчи Жаңыртуу баалоону 100,000 синтетикалык учурга чейин 127 өлкө энбелгиси боюнча кеңейтет, сегиз адистикке бөлүштүрүлүп (алгачкы жети плюс trap подтоптомун сиңирген ички медицина үчүн атайын бөлүк). Ошол эле баалоо рубрикасы эки иштетүүдө тең byte-дал колдонулат.

Бардык учурлар синтетикалык болгондуктан, алып салууга тийиш болгон реалдуу идентификаторлор жок жана жеке маалымат катышпайт. Ар бир синтетикалык учур бенчмарк-ичиндеги учур кодуна ээ (V11 алгачкы топтомунда BT-NNN-LABEL, Экинчи Жаңыртууда туруктуу case_uid ). Жарыяланган хостто, техникалык отчетто же чыгарылган маалымат топтомдорунда эч жерде жеке маалымат көрүнбөйт.

V11 initial release — 15 hand-curated cases

V11 баштапкы учурлар панелин доктор Томас Клайн лабораториялык медицина боюнча жардамчылар эң көп жаңылышкан диагностикалык үлгүлөрдү көнүгүү үчүн тандап, кол менен түзгөн. Он беш учурдун ар бири төмөндө көрсөтүлгөн белгилүү бир диагностикалык касиет үчүн тандалган.

Гематология (3) BT-001, BT-006, BT-007 Темир жетишсиздик анемиясы · B12 жетишсиздиги · Бета-талассемиянын майда формасы

Эндокринология (3) BT-002, BT-008, BT-012 Хашимото тиреоидити · Инсулинге туруктуулугу бар КСОК (PCOS) · D витамининин катуу жетишсиздиги

Метаболикалык (2) BT-003, BT-013 Метаболикалык синдром менен T2DM · Подагра коркунучу менен гиперурикемия

Гепатология (2) BT-004, BT-009 NAFLD / NASH · Курч вирустук гепатит

Нефрология · Кардиология · Ревматология (3) BT-005, BT-010, BT-011 Бөйрөк оорусунун 3-стадиясы (CKD stage 3) · Атерогендик дислипидемия · Системалык кызыл жегич (lupus erythematosus)

Тузак учурлар (2) BT-014, BT-015 Гилберт синдрому (жеке обочолонгон кыйыр гипербилирубинемия) · Толук нормалдуу чоңдор скрининги

Эмне үчүн дал ушул бөлүштүрүү

Гематология үч учурду алат, анткени микроситтик дифференциалдар жана макроситтик дифференциалдар реалдуу лабораториялык практикада эң көп көлөмдөгү тузактар болуп саналат. Эндокринология үч учурду алат, анткени Хашимото, ПКОС жана D витамининин жетишсиздиги боюнча көрүнүштөр ар башка диагностикалык формаларды машыктырат (аутоантитело аркылуу башкарылган, гормон катышы аркылуу башкарылган, бир гана маркер аркылуу башкарылган). CKD, ASCVD тобокелдиги жана SLEнин ар биринин өзүнүн упай коюу системасы бар болгондуктан, бирден учурдан берилген адистиктер дагы деле маанилүү: кыймылдаткыч аны чакырышы керек (KDIGO стадиясы, ASCVD 10 жылдык тобокелдик, тиешелүүлүгүнө жараша 2019 EULAR/ACR SLE критерийлери).

V11 Экинчи Жаңыртуу — 127 өлкө энбелгиси боюнча 100,000 синтетикалык учур

Экинчи Жаңыртуу оригиналдуу V11 hard-coded 15-case Python литералын чоңураак, программалык түрдө түзүлгөн синтетикалык учурлар топтому менен алмаштырат. Бул топтом ар бир run башында жүктөлөт жана конфигурация ачык-айкындуулук үчүн журналга жазылат. Мазмундук аймак боюнча когорта бөлүштүрүүсү төмөндө көрсөтүлгөн.

Эндокринология 23,900 учур (23.9%) Калкан бези, PCOS, D витамини, жыныс бездери огунун (гоналдык огу), гипофиз

Метаболикалык медицина 21,900 учур (21.9%) T2DM, метаболикалык синдром, липиддик панелдер, гиперурикемия

Гематология 15,400 учур (15.4%) Микроциттик жана макроциттик айырмачылыктар, B12/фолат, темир изилдөөлөрү

Гепатология 12,400 учур (12.4%) NAFLD/NASH, вирустук гепатит, FIB-4, холестаз

Ички медицина (анын ичинде trap subset) 9,000 учур (9.0%) Аралаш көрүнүштөр жана 8,723 атайын гипердиагноз trap учурлары

Кардиология 7,500 учур (7.5%) ASCVD тобокелдиги, атерогендик дислипидемия, hs-CRP

Ревматология 6,000 учур (6.0%) SLE, RA, васкулит, аутоантитело панелдери (EULAR/ACR критерийлери)

Нефрология 4,000 учур (4.0%) КББ (CKD) стадиясы (KDIGO), eGFR тенденциялары, электролиттик бузулуу

Синтетикалык өлкө-энбелги бөлүштүрүүсү — эң жогорку 10 энбелги

100,000 синтетикалык учур 127 өлкө энбелгисин (ISO 3166-1 alpha-2) камтыйт, локалдык иштетүүнү текшерүү үчүн. Энбелги дайындоо: Европа 57.7%, Америка континенттери 25.4%, Азия-Тынч океан 6.2%, аталган Жакынкы Чыгыш/Африка энбелгилери 3.4% жана кошумча 97 энбелгиден турган узун куйрук болжол менен 7.3% жалпы. Учур саны боюнча эң көп кездешкен он энбелги: Америка Кошмо Штаттары (10,500), Бразилия (9,500), Испания (9,000), Италия (8,000), Германия (7,800), Франция (7,400), Португалия (5,800), Türkiye (3,400), Улуу Британия (2,900) жана Мексика (2,500). Энбелги боюнча композиттик баллдар 0.9971ден 0.9985ке чейин өзгөрдү. Бул энбелги эсептери локалдык иштетүүнү текшерүү үчүн колдонулган түзүлгөн учурлардын касиеттери — алар реалдуу колдонуучулар эмес жана реалдуу дүйнөлүк географиялык камтууну билдирбейт.

Алдын ала катталган критерийлер — түшүндүрмөсү

Каттоодон өтүү (pre-registration) бул бенчмарктагы эң маанилүү методологиялык тандоо. Күтүлгөн ар бир диагноз, ар бир клиникалык упай коюу системасы жана ар бир отчет бөлүмү булак кодго бекитилген кыймылдаткыч чакырылганга чейин. Ошондуктан рубриканы кыймылдаткычты “жакшыраак көрсөтүү” үчүн post-hoc тууралоо мүмкүн эмес.

Композиттик упайды түзгөн үч компонент бар. структуралык компонент 35 пайызды түзөт жана кыймылдаткыч жети милдеттүү отчет бөлүмүн (баш аталыш, кыскача жыйынтык, негизги табылгалар, дифференциал, упай коюу системалары, сунуштар, кийинки байкоо) жана алардын ичиндеги он алты милдеттүү подбөлүмдү кайтарып бергенин өлчөйт. Бөлүмдүн бар болушу структуралык эсептөөнүн ичинде 40 пайызды, подбөлүмдүн бар болушу 60 пайызды түзөт.

The клиникалык компонент 55 пайызды түзөт жана үч нерсени бириктирет: диагноз-ачкыч сөздү эстеп калуу (клиникалык подупайдын 70 пайызы), упай коюу системасын эстеп калуу (20 пайыз — кыймылдаткыч тиешелүү болгондо Mentzer, FIB-4, HOMA-IR, ASCVD тобокелдигин, KDIGO стадиясын, EULAR/ACR критерийлерин эсептейби), жана ыктымалдуулук суммасынын жарактуулугун текшерүү (10 пайыз — дифференциалдык ыктымалдуулуктар [90, 110] интервалдын ичинде суммаланышы керек). Тузак учурларда ачык гипердиагноз үчүн 0.30га чейин айып пул алынып салынат, ал жасалма патология белгисине 0.10дан эсептелет, үч белги менен чектелет.

The кечигүү (latency) компоненти 10 пайызды түзөт. 20 секунддан аз жооп толук 0.10 алат, 40 секунддан аз жооп 0.05 алат, ал эми андан жайыраактын баары нөлгө барабар. 20 секунддук максат өндүрүштөгү primary-path кызмат деңгээлинин максатына туура келет; 40 секунддук чектөө Phase 2 оор кыймылдаткыч чакыруулар үчүн резервдик бюджетти чагылдырат.

Pre-registration эмнени алдын алат

Биринчи тараптын бенчмаркалары post-hoc рубриканы тууралоо аркылуу өз сандарын үйлөп көрсөтүү менен белгилүү. Үлгү дээрлик дайыма бирдей: команда кыймылдаткычты иштетет, кайсы жерде начар аткарарын көрөт, анан начар аткарган аймактар азыраак эсептелиши үчүн рубриканы унчукпай тууралайт. Рубриканы биринчи кыймылдаткыч чакыруусуна чейин булак кодго бекитип, harness’ты MIT лицензиясы менен жарыялоо менен бул тууралоо версиялык көзөмөлдө көрүнүктүү болуп калат. Ар ким репозиторийди клондоп, рубрика авторлорунун даталарын текшерип, кыймылдаткычтын жыйынтыктары упай коюуну калыптандыруу үчүн колдонулбаганын ырастай алат.

Гипердиагноз тузагы учурлары — ашыкча чакырып жиберүү эмне үчүн негизги иштебей калуу режими

Нормалдуу скринингдерде патологияны ашыкча “айтып коюу” — керектөөчүгө багытталган медициналык жардамчы ассистенттер үчүн документтештирилген иштен чыгуу режими. Анын кийинки чыгымдарына керексиз текшерүүлөр, пациенттин тынчсыздануусу жана ятрогендик (дарылоодон келип чыккан) текшерүү кирет. Бул бенчмарктагы эки тузак учур ошол иштен чыгуу режимин көрүнүктүү жана упайлануучу кылып иштелген.

🟡 Тузак 1 — BT-014-GILBERT

Көрүнүш. Жалпы билирубин 2.4 мг/дЛ болгон 24 жаштагы эркек. Түз фракция нормалдуу, трансаминазалар жана щелочтук фосфатаза алардын маалымдама диапазондорунун ичинде, ретикулоциттер өзгөчө эмес, ал эми гаптоглобин жана LDH гемолизди жокко чыгарат.

Туура чечмелөө. Гилберт синдрому — UGT1A1 полиморфизми, зыянсыз. Чечмелөө гепатитти, циррозду, гемолиздик анемияны же билиардык тоскоолдукту чакырбашы керек.

V11 жыйынтыгы. Композит 1.000. Алты көзөмөлдөнгөн ашыкча-диагноз берүүчү белги эч бири активдүү диагноз катары көрүнгөн жок.

🟡 Тузак 2 — BT-015-HEALTHY

Көрүнүш. 15 параметрден турган кадимки скрининг панелиндеги 35 жаштагы аял. Ар бир аналит өзүнүн маалымдама диапазонунун ичинде ыңгайлуу жайгашкан.

Туура чечмелөө. Жооп бердирүү жана жашоо образын сактоо. Түшүндүрмө клиникалык жактан пайдалуу көрүнүш үчүн чек арадагы патологияны атайын ойлоп чыгарбоого тийиш.

V11 жыйынтыгы. Композит 1.000. Жети көзөмөлдөнгөн ашыкча диагноз коюу белгисинин бири да — диабет, анемия, гипотиреоз, дислипидемия, гепатит, бөйрөк оорусу, жетишсиздик — активдүү диагноз катары чыккан жок.

Эки текшерүүдө тең он үч гипердиагноз коюу белгиси текшерилди. Нөл — эч бири иштетилген жок. Бул — триаж же консультацияга чейинки курал катары AI кыймылдаткычын колдонууну карап жаткан ар бир клиницист үчүн эң маанилүү жыйынтык: система эч кандай оору жок жерде ооруну ойлоп тапкан жок.

Ментцер индекси: темир жетишсиздигин талассемия белгилеринен (trait) ажыратуу

Экинчи жогорку баалуу табылга — BT-001 (темир жетишсиздигинен болгон анемия) иши менен BT-007 (бета-талассемиянын майда түрү) ишинин дал келиши. Экөө тең микроцитоз менен коштолот жана жөнөкөй классификаторлор үчүн кеңири белгилүү “тоскоолдук”. Ментцер индекси, MCVну RBC санына бөлүү аркылуу эсептелет, темир жетишсиздигинде 13төн жогору, ал эми талассемия белгилеринде 13төн төмөн болот.

BT-001де бейтап 34 жаштагы аял болгон: гемоглобин 10.4 г/дЛ, MCV 72.4 фЛ, RBC 4.1 × 10¹²/Л, ферритин 6 нг/мЛ жана TIBC жогору. Ментцер индекси болжол менен 17.7 абсолюттук темир жетишсиздигин колдойт. BT-007де бейтап 28 жаштагы эркек болгон: микроцитоз (MCV 65.8 фЛ), бирок RBC саны 6.2 жогору, RDW нормалдуу, ферритин нормалдуу жана HbA2 5.6 пайыз. Ментцер индекси болжол менен 10.6 талассемия белгилерин көрсөтөт, ал эми HbA2нин жогору болушу бета-талассемиянын майда түрүн тастыктайт.

Темир жетишсиздигинен болгон анемия Ментцер > 13 Ферритин төмөн, TSAT төмөн, TIBC жогору, RDW жогору

Бета-талассемиянын белгилери Ментцер < 13 Ферритин нормалдуу, RDW нормалдуу, HbA2 жогору (>3.5%), RBC саны жогору

Эки учур тең 1.000 балл алган. Кыймылдаткыч эки түшүндүрмөдө тең Ментцер индексин ачык колдонуп, ар бир учурда туура диагнозду кайтарды. Бул — бүтүндөй тест-бенчмарктын ичиндеги эң клиникалык жактан ишендирген бирден-бир жыйынтык, анткени талассемия белгилерин темир жетишсиздиги деп туура эмес классификациялоо туура эмес темир кошумчасын берүүгө жана үй-бүлөнү скринингден өткөрүү мүмкүнчүлүктөрүн өткөрүп жиберүүгө алып келет, ал эми темир жетишсиздигин талассемия деп туура эмес классификациялоо жөнөкөй алмаштыруучу терапияны кечиктирет. Биздин ферритин диапазону боюнча колдонмо кеңири дифференциалдык контекстти түшүндүрөт.

V11 баштапкы маалымдама run’дан учур боюнча натыйжалар (2026-жылдын 23-апрели)

15 учурдук proof-of-concept когортасындагы оригинал V11 маалымдама run экинчи жаңыртуунун методологиялык негизи болуп кызмат кылат : төмөнкү ар бир учур деталдары рубрика реалдуу кыймылдаткыч жоопту кантип иштетээрин көрсөтөт. Он беш учурдун ичинен он экиси негизги жолдо композиттик упайдын шыпыргысына 1.000 жетти; үч учур Phase 2 fallback аркылуу берилди, мында 0.05 кечигүү бонусу жоголду, бирок бардык клиникалык жана структуралык мазмун сакталды. Бир учур бир гана милдеттүү подбөлүмдөн жок болду; бир учур ыктымалдуулук бөлүштүрмөсүнүн суммасы бир аз азайган түрдө кайтып келди.

Иштин IDсы Адистик Композит Кечигүү Жол

BT-001-IDAГематология1.00017.8 снегизги

BT-006-B12Гематология1.00018,4 снегизги

BT-007-THALГематология1.00017,0 снегизги

BT-002-HASHЭндокринология0.95037,0 срезервдик (fallback)

BT-008-PCOSЭндокринология0.98718,6 снегизги

BT-003-T2DMМетаболикалык1.00019,1 снегизги

BT-013-GOUTМетаболикалык1.00019,4 снегизги

BT-004-NAFLDГепатология1.00019,6 снегизги

BT-009-VIRHEPГепатология0.95023,4 срезервдик (fallback)

BT-014-GILBERTТузак (Trap)1.00018,9 снегизги

BT-005-CKDНефрология1.00017,4 снегизги

BT-010-ASCVDКардиология1.00019,7 снегизги

BT-011-SLEРевматология0.98118.2 снегизги

BT-012-VITDЭндокринология1.00019.3 снегизги

BT-015-ДЕНИ САКТузак (Trap)1.00018.7 срезервдик (fallback)

PCOS учур (BT-008) жооп түзүмүндө бир милдеттүү чакан бөлүмдү жоготту — он алтыдан эмес, он бештен — бул түзүмдүк упайды 1.000ден 0.963кө чейин кыскартты. SLE учур (BT-011) клиникалык упайды 0.965ке түшүргөн, бирок ар бир диагностикалык ачкыч сөздү жана упай коюу системасын сактап калган, бир аз кыскарган ыктымалдык-бөлүштүрүү суммасын кайтарды. Эки тең кемчиликсиз эмес учурлар туура диагнозду өткөрүп жиберген жок.

V11 Экинчи жаңыртуу агрегаты — 100,000 учур

Калк масштабында жекече учур саптары адамга окулбайт, ошондуктан Экинчи Жаңыртуу 100,000 саптык таблица эмес, топтолгон көрсөткүчтөрдү берет. Негизги топтолгон көрсөткүч төмөндө көрсөтүлгөн; адистик жана өлкө-энбелги боюнча бөлүштүрүүлөр техникалык отчетто жана Figshare депозитинде жарыяланган. Стратификацияланган туш келди тандалма of n = 201 чийки кыймылдаткыч жооптору (детерминирленген seed 20260426) текшерүү үчүн GitHub’тагы репозиторийдин results/ каталогунда сакталат. Жаңы иштетүү жаңы убакыт белгиси бар баллдык таблица чыгарат, ал эми маалымдама иштетүү өзгөрүүсүз калат. Эгер иштетүүңүз маанилүү түрдө башкача натыйжа берсе, өтүнүч: GitHub issue ачыңыз — иштетүүнүн убакыт белгиси жана жооптун метадайындарында кайтарылган кыймылдаткыч версиясы менен. каталогго жарыяланды.

Композиттик упай V11 баштапкы: 0.9912 (99.12%) → Экинчи жаңыртуу: 0.9980 (99.80%) Δ = +0.0068 100,000 учурдук когорта боюнча

Структуралык упай (орточо) V11 баштапкы: 0.998 → Экинчи жаңыртуу: 1.000 Калк масштабында кемчиликсиз структуралык шайкештик

Клиникалык упай (орточо) V11 баштапкы: 0.998 → Экинчи жаңыртуу: 0.996 −0.002; эч бир учур диагноздун өзүн өткөрүп жиберген жок

Кечигүү — орточо (аралыгы) V11 баштапкы: 20.17 с (17.0–37.0 с) → Экинчи жаңыртуу: 13.26 с (9.0–16.94 с) Иштетүүчү кыймылдаткычты иштетүү ортосундагы оптимизациялар

Кыймылдаткыч жолу = негизги V11 баштапкы: 12 / 15 → Экинчи жаңыртуу: 100,000 / 100,000 Жүрүш учурунда эч бир учурда 2-фазага кайтаруу (fallback) талап кылынган жок

Тузак-кичинек топтомун гипердиагностика кылуу белгилери V11 баштапкы: 0 / 13 → Экинчи жаңыртуу: 0 / 87,412 Калк масштабында нөлдүк жалган-оң натыйжалар (8,723 тузак учур көзөмөлдөнгөн)

Башкы упай бизге эмнени айтпай турганы

Ушул алдын ала катталган рубрика боюнча 99.80 пайыздык композиттик балл, 127 өлкө энбелгисин камтыган 100,000 учурлуу синтетикалык когортада, шыпка жакын аткарууну билдирет — бирок аны кылдат контекстке коюу керек. Натыйжа V11де булак кодго милдеттенген рубрика боюнча кыймылдаткычтын жүрүм-турумун сүрөттөйт; бул дүйнөдө бар ар бир кан анализи панелинде кыймылдаткычтын тууралыгы тууралуу универсалдуу доомат эмес.

Балл кыймылдаткыч бул баалоо үчүн тандалган диагностикалык үлгүлөрдү калк масштабындагы топтомдо туура иштеткенин айтат, жарыяланган жана кайра чыгарууга мүмкүн болгон методология боюнча. Бул кыймылдаткыч жапайы жаратылышта бар болгон ар бир кан анализинин панелинде туура экенин айтпайт. Бул кыймылдаткыч клиницисттин ой-пикирин алмаштырышы керек экенин айтпайт. Жана бул кыймылдаткыч башка альтернативдүү AI системаларынан ашып түшөт дегенди айтпайт — башка кыймылдаткычтарга салыштырма талдоолор бул отчет үчүн атайын чектен тышкары болгон.

Балл эмнени аныктап берери — бул негизги чек (baseline). Рубрика жана хостинг ачык болгондон кийин, кыймылдаткычтын келечектеги версияларын ошол эле рубрикага салыштырып баалоого болот — V11 баштапкы 15 учурга, Экинчи жаңыртуудагы 100,000 учурдук топтомго же андан кийинки кеңейтүүлөргө да колдонулат — жана жарыяланган балл менен кийинки ар бир жүрүштүн ортосундагы ажырым өзү өлчөнө турган нерсе. Бул алдын ала каттоонун баалуулугу: аткаруу боюнча дооматтарды текшерилүүчү дооматтарга айлантат.

Бул эталонду 10 мүнөттө кантип кайталоого болот

Кайра чыгаруу үчүн болгону Kantesti API credential жупу жана Python 3.10 же андан кийинки чөйрө керек, анда requests жана reportlab китепканалары орнотулган болушу керек. Толук тестирлөө куралы MIT лицензиясы астында чыгарылган бир гана өз алдынча камтылган Python модулу.

💻 GitHub MIT лицензиялуу тестирлөө куралы · чийки жооптор · маалымдама иштетүү 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · негизги академиялык жазма 🎓 ResearchGate Басылма 404175463 · V11 Экинчи жаңыртуу · академиялык ачылыш катмары 📄 Academia.edu Макала 165956808 · V11 Экинчи жаңыртуу · академиялык ачылыш катмары

Жаңы иштетүү үчүн төрт кадам

Биринчи. Репозиторийди көчүрүү: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Экинчи. Көз карандылыктарды орнотуу үчүн pip install -r requirements.txt (Экинчи жаңыртуу кошот mysql-connector-python ≥ 8.0 SQL учур жүктөгүч үчүн). Үч. Орнотуңуз KANTESTI_USERNAME жана KANTESTI_PASSWORD кыймылдаткыч API үчүн чөйрө өзгөрмөлөрү катары. Экинчи жаңыртуудагы SQL учур жүктөгүч үчүн ошондой эле төмөнкүлөрдү коюңуз: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, жана KANTESTI_DB_PASSWORD — жүктөгүч окуудан гана ролу аркылуу туташат (bench_reader) ал таблицаларды аныктоого байланыштуу артыкчылыктарга ээ эмес. Төрт. Иштетиңиз python benchmark_bloodtest.py --limit 100000 толук Second-Update иштетүүсү үчүн, же python benchmark_bloodtest.py --limit 1000 тез итерация үчүн. Натыйжалар ./benchmark_results/: өлкө-энбелги жана адистик боюнча тилкелерди камтыган CSV scorecard, JSON агрегаты, стратификацияланган-туш келди чийки жооптордун үлгүсү жана Markdown отчет.

23-апрель 2026-жылдагы (V11 баштапкы, 15 учур) жана 26-апрель 2026-жылдагы (V11 Second Update, 100,000 учур) шилтеме иштетүүлөр репозиторийдин репозиторийдин results/ каталогунда сакталат. Жаңы иштетүү жаңы убакыт белгиси бар баллдык таблица чыгарат, ал эми маалымдама иштетүү өзгөрүүсүз калат. Эгер иштетүүңүз маанилүү түрдө башкача натыйжа берсе, өтүнүч: GitHub issue ачыңыз — иштетүүнүн убакыт белгиси жана жооптун метадайындарында кайтарылган кыймылдаткыч версиясы менен. папкасында сакталган. Жаңы иштетүү жаңы убакыт белгиси бар балл картасын чыгарат, бирок шилтеме иштетүүлөрдү өзгөртпөйт. Эгер сиздин иштетүүңүз маанилүү түрдө башкача натыйжа берсе, өтүнүч: GitHub issue ачыңыз — иштетүүнүн убакыт белгиси жана жооптун метадайындарында кайтарылган кыймылдаткыч версиясы менен.

Чектөөлөр жана келечектеги иштер

127 өлкө энбелгиси боюнча 100,000 учурга чейин да, төрт чектөө ачык таанылууга тийиш: long-tail энбелгинин аз чагылдырылышы, бир жолку (single-shot) баалоо, бир гана кыймылдаткычтын (single-engine) чөйрөсү жана бир гана булактан алынган маалыматтын келип чыгышы. Булар активдүү кийинки иштерде чечилип жатат.

Long-tail энбелги камтылышы. Экинчи Жаңыртуу 127 өлкө энбелгисин камтыйт, бирок бөлүштүрүү тең эмес — эң жогорку 10 энбелги учурлардын ≈66.4%ын түзөт, ал эми кошумча 97 энбелгиден турган long tail бирге ≈7.3% (жалпысынан болжол менен 7,300 учур, энбелгиге орточо ~75 учур) кошот. Ошондуктан бул long tail ичиндеги энбелги боюнча композиттер башкы көрсөткүчтөр сунуштаганга караганда ызы-чуураак. Кийинки иштетүүлөр энбелги дайындоону кайра тең салмактап, энбелги боюнча баалоолорду бекемдейт.

Бир жолку баалоо. Когортодогу ар бир учур бир гана жолу бааланды. Чоң тил моделдери, атүгүл төмөн тандоо температурасы шартында да, олуттуу чыгарма вариативдүүлүгүн көрсөтөт; ошондуктан ар бир учурга беш баалоо жүргүзүлгөн жана вариативдүүлүк жарыяланган көп жолу иштетүү протоколу табигый кийинки кадам — өзгөчө “trap-case” под-тандоосунда, мында тандоо термелүүсү астында ырааттуулук коопсуздук дооматынын бир бөлүгү болуп саналат.

Бир гана кыймылдаткычтын чөйрөсү. Бул отчет бир гана кыймылдаткычты мүнөздөйт. Бул жерде альтернативдүү AI системаларга салыштырма талдоолор каралбайт; биз аларды ошол эле MIT лицензиялуу harness менен, тийиштүү методология колдонулган өзүнчө көз карандысыз изилдөө катары жүргүзүшүбүз мүмкүн.

Синтетикалык маалымат. 100,000 учур синтетикалык түрдө генерацияланган — синтетикалык учурлар эмес, жана натыйжалар реалдуу дүйнөдөгү клиникалык көрсөткүчкө өтпөйт. Реалдуу, макулдук берилген, тышкы булактан алынган маалымат боюнча баалоо тиешелүү этикалык көзөмөлдү талап кылат жана бул синтетикалык эталондун чегинен тышкары.

Ушул төртөөнөн тышкары, пландагы эң таасирдүү кеңейтүү — юрисдикция боюнча көп тилдүү теңдик. Kantesti AI Engine колдонуучуларга 75+ тилде кызмат кылат жана тилге жараша стратификацияланган Second-Update под-когорталарын (түрк, немис, испан, француз, итальян, португал, араб, мандарин) иштетүү кыймылдаткыч колдогон тилдер боюнча чыгарманын сапатын сандык баалайт. Ар бир тилге жараша талдоо өзүнүн DOI жана harness тармагы менен жарыяланат.

100,000 учур боюнча 99.80% композиттик баллга жетишкен ошол эле кыймылдаткычты колдонуп көрүңүз

Өзүңүздүн кан анализинин панелин ушул көрсөткүчтөрдү баалоодо колдонулган ошол эле өндүрүштүк акыркы чекитке жүктөңүз. Дүйнө жүзү боюнча 2 миллиондон ашык колдонуучу Kantesti AI Engine аркылуу 75+ тилде 15,000ден ашык биомаркерди чечмелейт.

🔬 Акысыз демо версиясын колдонуп көрүңүз

Chrome кеңейтүүсү Колдонмолор дүкөнү Google Play

📚 Бул көрсөткүчтөрдү кантип келтирүү керек

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Kantesti Кан-Тест Түшүндүрүү Кыймылдаткычына 100,000 Синтетикалык Сынак Кейсинде Рубрика Негизиндеги Автоматташтырылган Техникалык Эталон — V11 Экинчи Жаңыртуу},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Техникалык отчет},
  number      = {V11 (Экинчи Жаңыртуу)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti Кан-Тест Түшүндүрүү Кыймылдаткычына 100,000 Синтетикалык Сынак Кейсинде Рубрика Негизиндеги Автоматташтырылган Техникалык Эталон — V11 Экинчи Жаңыртуу (Техникалык отчет V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Тышкы методологиялык шилтемелер

Mentzer, W. C. (1973). Темир жетишсиздигин талассемия белгилеринен айырмалоо. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Европалык Ревматизмге каршы лига / Америкалык Ревматология колледжи системалык кызыл жугуштуу (lupus erythematosus) үчүн классификациялоо критерийлери. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Чоң тил моделдери үчүн медициналык домен галлюцинациясын тестирлөө. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Кошмо балл

100,000Бааланган учурлар

127Камтылган өлкө этикеткалары

0 / 87,412Тузактагы жалган оң натыйжалар

Көп берилүүчү суроолор

Kantesti AI Engine синтетикалык тесттик учурларда канчалык так?

Алдын ала катталган рубрика боюнча, сегиз мазмун тармагы жана 127 өлкө энбелгиси боюнча 100,000 синтетикалык генерацияланган тест кейстеринде жүргүзүлгөн (V11 Экинчи Жаңыртуу) иштетүүдө кыймылдаткыч композиттик көрсөткүчкө 99.80 пайызга жетти; 87,412 көзөмөлдөнгөн trap-case мүмкүнчүлүктөрүнүн ичинде гипердиагноз белгилери нөлгө барабар болуп, жооп берүү кечиктирүүсүнүн орточо мааниси 13.26 секундду түздү. Бул композит синтетикалык киргизүүлөрдөгү чыгарманын шайкештигин өлчөйт, диагностикалык тактыкты эмес. Баштапкы V11 релизинде ошол эле рубрика 15 кол менен түзүлгөн кейсте колдонулган (композит 99.12%); Экинчи Жаңыртуу рубриканы byte-иденттүү бойдон сактап, аны чоңураак синтетикалык коортко кеңейтет. Толук scorecard Figshare’де DOI 10.6084/m9.figshare.32095435 астында жана GitHub’та MIT лицензиясы менен жарыяланган.

Kantesti AI Engine клиникалык жактан тастыкталганбы?

Жок. Кыймылдаткыч клиникалык валидация эмес, автоматташтырылган техникалык эталон менен бааланды; рубрика V11 баштапкы иштетүүсүнө чейин булак кодунда тоңдурулуп, V11 Экинчи Жаңыртууда byte-иденттүү бойдон сакталган. Баалоо гематология, эндокринология, метаболикалык медицина, гепатология, нефрология, кардиология, ревматология жана ички медицина боюнча 127 өлкө энбелгисинен алынган 100,000 синтетикалык кан-тест кейстеринде жүргүзүлгөн. Клиникалык көзөмөлдү Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) — board-certified клиникалык гематолог жана Kantesti AI’дын Башкы медициналык кызматкери (Chief Medical Officer) камсыз кылган.

Гипердиагноздук тузак учур деген эмне?

Гипердиагноз тузагы — AI кыймылдаткычтарындагы ашыкча диагноз коюу жүрүм-турумун аныктоо үчүн атайын иштелип чыккан клиникалык сценарий. V11 алгачкы бенчмарк мындай эки учурду методологиялык далил катары колдонгон: Гилберт синдромуна шайкеш келген обочолонгон кыйыр гипербилирубинемия (мында туура чечмелөө гепатит же гемолиз эмес, UGT1A1 полиморфизминин зыянсыз варианты) жана толугу менен нормалдуу чоңдорду скрининг панел (мында туура жыйынтык — чек арадагы жасалма патология эмес, ишендирүү). V11 Экинчи Жаңыртуу бул тузак-методологияны 8,723 учурдан турган атайын поднаборго масштабдап, 87,412 гипердиагноз боюнча көзөмөлдөнгөн белги коюу мүмкүнчүлүгүн берген — жана кыймылдаткычтын жалган-оң көрсөткүчтөрү нөл бойдон калган.

Kantesti AI Engine баалоосу кайра кайталанып алынат (репродуцирленеби)?

Толук баалоо чөйрөсү MIT лицензиясы боюнча бирдиктүү, өз алдынча Python модулу катары чыгарылган. V11 алгачкы ишке киришүүсү үчүн Kantesti API credential жуптары жана Python 3.10 же андан кийинкиси гана керек. V11 Экинчи Жаңыртуу параметрленген, окууга гана арналган SQL учур жүктөгүчтү кошот жана ал Kantesti клиникалык-репозиторий credential талап кылат (таблицаларды аныктоого эч кандай укугу жок роль). bench_reader Код, учур жүктөгүчтүн SQLи, рубрика (релиздер арасында byte-иденттүү), ошондой эле V11 алгачкы жана Экинчи Жаңыртуу маалымдама иштетүүлөрүнөн алынган стратификацияланган туш келди үлгүдөгү кыймылдаткыч жооптору github.com/emirhanai/kantesti-blood-test-benchmark дарегинде жеткиликтүү жана Figshare, ResearchGate жана Academia.edu сайттарында да көчүрмө катары бар.

Kantesti AI Engine темир жетишсиздигин бета-талассемиянын белгилеринен кантип айырмалайт?

Кыймылдаткыч Mentzer индексин колдонот: ал орточо корпускулалык көлөмдү (MCV) эритроциттердин санына бөлүү аркылуу эсептелет. Mentzer индекси 13төн жогору болсо темир жетишсиздигинен болгон аз кандуулукту колдойт, ал эми 13төн төмөн болсо бета-талассемия белгилерин колдойт. V11 алгачкы бенчмаркта бул эки көрүнүш тең так классификацияланган: Mentzer индекси ачык эсептелип, ферритин, RDW жана HbA2 контексти менен колдоого алынган. V11 Экинчи Жаңыртууда 100,000 учурдан турган когорт боюнча ошол эле дифференциалдык жүрүм-турум калк деңгээлинде да сакталган.

Чийки салыштырма маалыматтарды жана булак кодун кайдан тапсам болот?

Техникалык отчет Figshare’га DOI 10.6084/m9.figshare.32095435 астында жайгаштырылган (V11 алгачкы релизин да, V11 Экинчи Жаңыртууну да камтыйт), ResearchGate’тагы 404175463 басылмасына жана Academia.edu’дагы 165956808 макаласына көчүрүлгөн — экөө тең V11 Экинчи Жаңыртуу аталышы жана 100,000 учур натыйжалары менен жаңыртылган — жана MIT лицензиялуу Python чөйрөсү бардык маалымдама иштетүү натыйжалары менен github.com/emirhanai/kantesti-blood-test-benchmark дарегинде. Төрт платформадагы көчүрмө тармагы узак мөөнөттүү жеткиликтүүлүктү жана цитаталоо ийкемдүүлүгүн камсыздайт.

Эмне үчүн AI медициналык бенчмарктар үчүн алдын ала каттоо (pre-registration) маанилүү?

Алдын ала каттоо post-hoc рубрика тууралоосунун алдын алат — бул компания жүргүзгөн бенчмарктар өз сандарын эң көп көбөйткөн эң кеңири тараган ыкма. Рубриканы ар бир двигатель чакыруусунан мурда булак кодго бекитип, хелперди коомчулукка жарыялоо менен рубрика авторунун даталары версияларды башкарууда текшерилчү болуп калат жана двигатель жыйынтыктары баалоо критерийлерин калыптандыра албайт.

Бул бенчмаркта башка AI кыймылдаткычтар менен салыштыруулар барбы?

Жок. V11 отчету — алгачкы релиз да, Экинчи Жаңыртуу да — атайылап бир гана кыймылдаткычты белгиленген (fixed) рубрика менен мүнөздөйт, аны башка альтернативдүү коммерциялык системаларга салыштырбайт. Чөйрө MIT лицензиясы боюнча ачык булак (азыр SQL учур жүктөгүчтү да камтыйт), ошондуктан көз карандысыз изилдөөчүлөр каалаган кыймылдаткычты ошол эле рубрика жана учур жүктөгүч менен баалап, өз натыйжаларын жарыялай алышат.

Бейтап кейстери реалдуубу же синтетикалыкпы?

Бардык кейстер синтетикалык түрдө генерацияланган — V11 баштапкы релизиндеги 15 кол менен түзүлгөн кейс жана Экинчи Жаңыртуудагы 100,000. Алар синтетикалык кейстер эмес: синтетикалык маалымат да, макулдук берүү процесси да, де-идентификация да камтылбайт, анткени коортто жеке маалымат жок. Жарыяланган harness’та, техникалык отчетто же чыгарылган dataset’терде жеке маалымат көрүнбөйт.

⚕️ Медициналык эскертүү жана кызыкчылыктардын кагылышы

Бул бенчмарк отчёту изилдөө жана методологиялык ачык-айкындуулук максаттары үчүн. Бул медициналык кеңеш болуп саналбайт, диагноз эмес жана профессионалдык медициналык жардамдын ордун баса албайт; бул жердеги эч бир жыйынтык дарыгерге кайрылууну кечиктирүү же андан баш тартуу үчүн колдонулбашы керек. Диагноз коюу жана дарылоо чечимдери үчүн дайыма квалификациялуу саламаттык сактоо адисине кайрылыңыз. Бул компаниянын өз кыймылдаткычынын өз алдынча жүргүзүлгөн ички бенчмарк болуп саналат жана көз карандысыз түрдө тастыкталган же peer-reviewed эмес. Композиттик балл белгиленген критерийге шайкештикти өлчөйт (отчёттун түзүмү, ачкыч сөздөрдү жана scoring-system recall'ду, ошондой эле кечигүүнү); бул реалдуу дүйнөдөгү диагностикалык тактыкты же клиникалык коопсуздукту өлчөө эмес. Эки автор тең Kantesti Ltd компаниясында иштейт жана үлүшкө ээ, ал эми бааланып жаткан кыймылдаткыч ошол эле уюмдун коммерциялык продуктусу. Бул кызыкчылык кагылышы критерийди булак кодунда алдын ала каттоо, harness'ты MIT лицензиясы астында чыгаруу жана кыймылдаткычтын чийки жоопторун стратификацияланган туш келди тандоо аркылуу азайтылат.

E-E-A-T ишеним сигналдары

⭐

Тажрыйба

Кейс панелин тандоону көзөмөлдөгөн 15+ жылдык клиникалык гематология жана лабораториялык медицина практикасы.

📋

Экспертиза

Алдын ала катталган рубрика дизайны: гипердиагноз үчүн ачык айыптар жана таанылган клиникалык баалоо системалары (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Авторитеттүүлүк

Башкы автор Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Ишке ашыруучу Julian Emirhan Bulut, Kantesti Ltd компаниясынын CEOсу.

🛡️

Ишенимдүүлүк

MIT лицензиялуу кайра чыгарылуучу хелпер, чийки двигатель жооптору жарыяланган, кызыкчылыктардын ачыкка чыгарылган кагылышы, төрт платформадагы изилдөө көчүрмө тармагы.

🏢 Кантести ЖЧКсы Англия жана Уэльсте катталган · Компаниянын номери. 17090423 Лондон, Улуу Британия · kantesti.net