Бул салыштырма көрсөткүч эмне үчүн бар жана ал эмнени текшерет

AI колдоосу менен кан анализин чечмелөө керектөөчүлүк жана клиникалык иш процесстеринде барган сайын көбүрөөк колдонулуп жатат, бирок лабораториялык медицина үчүн ылайыкташкан, кайра чыгарылуучу баалоо алкактары сейрек кездешет. Бул шартта эң маанилүү суроолор жалпы медициналык суроо-жооп эталондорунда камтылгандар эмес: орточо корпускулалык көлөм (MCV) бирдей болгондо кыймылдаткыч темир жетишсиздигин талассемия белгилеринен ажырата алабы, Гилберт синдромун гепатит катары ашыкча диагноз коюп жибереби жана толугу менен нормалдуу скрининг панелинде патологияны “жасап” чыгарабы?

Алдын ала катталган рубрика агымынын диаграммасы: Kantesti AI Engine — V11 Экинчи Жаңыртуу, 100,000 учур боюнча 99.80% композит — тоңдурулган баалоо критерийлерине каршы кантип бааланары көрсөтүлгөн
1-сүрөт: V11 баштапкы чыгарылышындагы 99.80% композиттик балл V11 Экинчи Жаңыртуу 100,000 учурдан турган топтомдо — ар бир учур, ар бир ачкыч сөз, ар бир баалоо системасы кыймылдаткыч бир да PDFти көрө электе эле булак кодунда бекитилген жана рубрика V11 баштапкы чыгарылышына byte-дал келет. Дизайн боюнча рубриканы кийинки (post-hoc) тууралоо мүмкүн эмес.

Бир кан анализинин бирдиктүү панели адатта бир нече атаандаш чечмелөөнү колдоого жетиштүү сигнал камтыйт, ал эми чечмелеп жаткан дарыгердин милдети — ошол чечмелөөлөрдү бири-бирине салыштырып таразалоо, окуу китебиндеги даяр жоопту издеп табуу эмес. Окуу китептеги учурларда жакшы иштеген система эң маанилүү учурларда дагы эле жаңылышы мүмкүн: дифференциалдык диагноздогу тузактар, өзүнчө караганда кооптуу көрүнгөн зыянсыз варианттар жана ишенимдүү жардамчыларды патологияны “жасоого” азгыра турган толугу менен нормалдуу панелдер.

Бул бенчмарк дал ошол иштен чыгуу режимдеринин айланасында түзүлгөн. Он беш учурдун ар бири белгилүү бир диагностикалык касиет үчүн тандалды: орточо эритроциттик көлөмү бирдей болгон бета-талассемия белгилеринен айырмаланып турушу керек болгон темир жетишсиздигине байланышкан микроцитоз; жалгыз гана обочолонгон кыйыр гипербилирубинемиядан турган Гилберт синдрому көрүнүшү; жана ар бир анализат өзүнүн маалымдама диапазонунун ичинде турган он беш параметрлүү скрининг панели. Рубрика ар бир учурду өзүнүн шарттары менен окуган системаларды сыйлайт жана мындай диагноз талап кылынбаган учурда ишенимдүү диагнозго жеткен системаларды жазалайт.

MD Томас Клейн катары мен учурлардын панелин тандадым, анткени лабораториялык медицина боюнча жардамчылар эң көп жаңылышкан үлгүлөр — дал ушулар. Кымбат баалуу жаңылыштык "сейрек кездешүүчү ооруну өткөрүп жиберүү" эмес — анысы жок бейтаптарда күнүмдүк патологияны ойлоп табуу. Биздин Медициналык текшерүү hub кеңири алкакты сүрөттөйт; бул бет V11 алгачкы proof-of-concept жана аны 127 өлкө энбелгисин камтыган синтетикалык учурлар топтомунан алынган 100,000 синтетикалык учурга чейин масштабдаган V11 Экинчи Жаңыртууну сүрөттөйт — ошол эле баалоо рубрикасы менен, byte-иденттүү, post-hoc жөндөөгө уруксат берилбейт.

Акыркы маалымдама иштетүү — V11 Экинчи Жаңыртуу (2026-жылдын 26-апрели)

2026-жылдын 26-апрелиндеги V11 Экинчи Жаңыртуунун маалымдама иштетүүсү 99.80% V11 баштапкы чыгарылышында колдонулган алдын ала катталган (pre-registered) рубрика боюнча бааланып, 100,000 синтетикалык учур Kantesti синтетикалык учурлар топтомунан алынган жана 127 өлкө энбелгисин камтыйт жана 75+ тилдерин камтыган. Ар бир учур кыймылдаткычтын негизги жолунда (primary path) аяктады; trap-case гипердиагноз флагын активдештирүүлөр 0 / 87,412. бойдон калды. 2026-жылдын 23-апрелиндеги баштапкы V11 иштетүүсү 15 кол менен тандалган учурду (композит 99.12%) камтып, рубриканы тастыктаган; Экинчи Жаңыртуу ошол рубриканы byte-дал сактап, баалоону калктын масштабындагы топтомго чейин кеңейтет.

Композит 99.80% 100,000 учурдун 100,000и бааланды
1.000 Структуралык балл
0.996 Клиникалык балл
13.26 с Орточо кечигүү
0 / 87,412 Тузактагы жалган оң жыйынтыктар

Композиттик формула үч компонентти бириктирет: структуралык шайкештик жети милдеттүү отчет бөлүмү жана он алты милдеттүү кошумча бөлүм менен, мазмундун тактыгы ачкыч сөздү эстеп калуу + балл коюу системасын эстеп калуу + ыктымалдык бөлүштүрүүнүн жарактуулугун текшерүү катары өлчөнөт, жана жооп берүү кечигүүсү негизги жолдун кызмат деңгээли (service-level) боюнча максатка каршы. Так ажыратылышы төмөндөгү рубрика формуласында көрсөтүлгөн — бул салмактардын же суб-рубрикалардын эч бири Экинчи Жаңыртуу үчүн өзгөртүлгөн эмес.

Композит = 0.35 × Структуралык + 0.55 × Клиникалык + 0.10 × Кечигүү

Калган 0.20 пайыздык пункт баш мейкиндик дээрлик толугу менен клиникалык суб-упайга бөлүнөт — учурлардын аз бөлүгүндө (негизинен Гепатология жана Ревматологияда) диагностикалык мазмун туура болгонуна карабастан, күтүлгөн баалоо-системасынын бир ачкыч сөзү кыймылдаткычтын чечмелөөсүндө жок болуп калган. 100,000 учурдан турган Экинчи Жаңыртуу топтомунда эч бир учурдун өзүндө диагноз өткөрүлүп берилген жок. Кечигүү V11 баштапкы чыгарылышындагы орточо 20.17 стен Экинчи Жаңыртууда 13.26 ске чейин жакшырды; бул эки иштетүүнүн ортосундагы өндүрүштүк кыймылдаткыч оптимизацияларын чагылдырат; рубрика, баалоо коду жана API акыркы чекити өзгөргөн жок.

Энбелги боюнча композиттик баллдар 30 эң көп берилген өлкө энбелгисинде 0.9971ден 0.9985ке чейин өзгөрдү. Кошумча 97 энбелгиден турган узун куйрук (жалпысынан ≈7,300 учур) системалуу начарлоону көрсөткөн жок. Учур саны боюнча эң көп кездешкен энбелгилер: Америка Кошмо Штаттары (10,500), Бразилия (9,500), Испания (9,000), Италия (8,000), Германия (7,800), Франция (7,400), Португалия (5,800), Türkiye (3,400), Улуу Британия (2,900) жана Мексика (2,500).

15 учурдан 100,000ге чейин: 127 өлкө энбелгиси боюнча когорта эволюциясы

Алгачкы V11 учурлар панелинде жети адистик — гематология, эндокринология, метаболикалык медицина, гепатология, нефрология, кардиология, ревматология — плюс эки атайын гипердиагноз trap учуру болгон; ар бир учур синтетикалык түзүлгөн кан анализи панелинен турган. V11 Экинчи Жаңыртуу баалоону 100,000 синтетикалык учурга чейин 127 өлкө энбелгиси боюнча кеңейтет, сегиз адистикке бөлүштүрүлүп (алгачкы жети плюс trap подтоптомун сиңирген ички медицина үчүн атайын бөлүк). Ошол эле баалоо рубрикасы эки иштетүүдө тең byte-дал колдонулат.

V11 баштапкы кейс-панел дизайны — жети медициналык адистик боюнча он беш синтетикалык кан-тест кейси плюс гипердиагноз боюнча эки trap-case; ошол эле рубрика V11 Экинчи Жаңыртууда 100,000 кейсте 99.80% композиттик баллга жеткен
2-сүрөт: V11 баштапкы учурлар панелинин дизайны гематология, эндокринология, метаболикалык медицина, гепатология, нефрология, кардиология, ревматология боюнча — плюс эки trap учур: Гилберт синдрому жана толугу менен нормалдуу скрининг панели. Экинчи Жаңыртуу бул рубриканы byte-дал сактап, топтомду Kantesti SQL репозиторийинен алынган 100,000 учурга чейин кеңейтет.

Бардык учурлар синтетикалык болгондуктан, алып салууга тийиш болгон реалдуу идентификаторлор жок жана жеке маалымат катышпайт. Ар бир синтетикалык учур бенчмарк-ичиндеги учур кодуна ээ (V11 алгачкы топтомунда BT-NNN-LABEL, Экинчи Жаңыртууда туруктуу case_uid ). Жарыяланган хостто, техникалык отчетто же чыгарылган маалымат топтомдорунда эч жерде жеке маалымат көрүнбөйт.

V11 initial release — 15 hand-curated cases

V11 баштапкы учурлар панелин доктор Томас Клайн лабораториялык медицина боюнча жардамчылар эң көп жаңылышкан диагностикалык үлгүлөрдү көнүгүү үчүн тандап, кол менен түзгөн. Он беш учурдун ар бири төмөндө көрсөтүлгөн белгилүү бир диагностикалык касиет үчүн тандалган.

Гематология (3) BT-001, BT-006, BT-007 Темир жетишсиздик анемиясы · B12 жетишсиздиги · Бета-талассемиянын майда формасы
Эндокринология (3) BT-002, BT-008, BT-012 Хашимото тиреоидити · Инсулинге туруктуулугу бар КСОК (PCOS) · D витамининин катуу жетишсиздиги
Метаболикалык (2) BT-003, BT-013 Метаболикалык синдром менен T2DM · Подагра коркунучу менен гиперурикемия
Гепатология (2) BT-004, BT-009 NAFLD / NASH · Курч вирустук гепатит
Нефрология · Кардиология · Ревматология (3) BT-005, BT-010, BT-011 Бөйрөк оорусунун 3-стадиясы (CKD stage 3) · Атерогендик дислипидемия · Системалык кызыл жегич (lupus erythematosus)
Тузак учурлар (2) BT-014, BT-015 Гилберт синдрому (жеке обочолонгон кыйыр гипербилирубинемия) · Толук нормалдуу чоңдор скрининги

Эмне үчүн дал ушул бөлүштүрүү

Гематология үч учурду алат, анткени микроситтик дифференциалдар жана макроситтик дифференциалдар реалдуу лабораториялык практикада эң көп көлөмдөгү тузактар болуп саналат. Эндокринология үч учурду алат, анткени Хашимото, ПКОС жана D витамининин жетишсиздиги боюнча көрүнүштөр ар башка диагностикалык формаларды машыктырат (аутоантитело аркылуу башкарылган, гормон катышы аркылуу башкарылган, бир гана маркер аркылуу башкарылган). CKD, ASCVD тобокелдиги жана SLEнин ар биринин өзүнүн упай коюу системасы бар болгондуктан, бирден учурдан берилген адистиктер дагы деле маанилүү: кыймылдаткыч аны чакырышы керек (KDIGO стадиясы, ASCVD 10 жылдык тобокелдик, тиешелүүлүгүнө жараша 2019 EULAR/ACR SLE критерийлери).

V11 Экинчи Жаңыртуу — 127 өлкө энбелгиси боюнча 100,000 синтетикалык учур

Экинчи Жаңыртуу оригиналдуу V11 hard-coded 15-case Python литералын чоңураак, программалык түрдө түзүлгөн синтетикалык учурлар топтому менен алмаштырат. Бул топтом ар бир run башында жүктөлөт жана конфигурация ачык-айкындуулук үчүн журналга жазылат. Мазмундук аймак боюнча когорта бөлүштүрүүсү төмөндө көрсөтүлгөн.

Эндокринология 23,900 учур (23.9%) Калкан бези, PCOS, D витамини, жыныс бездери огунун (гоналдык огу), гипофиз
Метаболикалык медицина 21,900 учур (21.9%) T2DM, метаболикалык синдром, липиддик панелдер, гиперурикемия
Гематология 15,400 учур (15.4%) Микроциттик жана макроциттик айырмачылыктар, B12/фолат, темир изилдөөлөрү
Гепатология 12,400 учур (12.4%) NAFLD/NASH, вирустук гепатит, FIB-4, холестаз
Ички медицина (анын ичинде trap subset) 9,000 учур (9.0%) Аралаш көрүнүштөр жана 8,723 атайын гипердиагноз trap учурлары
Кардиология 7,500 учур (7.5%) ASCVD тобокелдиги, атерогендик дислипидемия, hs-CRP
Ревматология 6,000 учур (6.0%) SLE, RA, васкулит, аутоантитело панелдери (EULAR/ACR критерийлери)
Нефрология 4,000 учур (4.0%) КББ (CKD) стадиясы (KDIGO), eGFR тенденциялары, электролиттик бузулуу

Синтетикалык өлкө-энбелги бөлүштүрүүсү — эң жогорку 10 энбелги

100,000 синтетикалык учур 127 өлкө энбелгисин (ISO 3166-1 alpha-2) камтыйт, локалдык иштетүүнү текшерүү үчүн. Энбелги дайындоо: Европа 57.7%, Америка континенттери 25.4%, Азия-Тынч океан 6.2%, аталган Жакынкы Чыгыш/Африка энбелгилери 3.4% жана кошумча 97 энбелгиден турган узун куйрук болжол менен 7.3% жалпы. Учур саны боюнча эң көп кездешкен он энбелги: Америка Кошмо Штаттары (10,500), Бразилия (9,500), Испания (9,000), Италия (8,000), Германия (7,800), Франция (7,400), Португалия (5,800), Türkiye (3,400), Улуу Британия (2,900) жана Мексика (2,500). Энбелги боюнча композиттик баллдар 0.9971ден 0.9985ке чейин өзгөрдү. Бул энбелги эсептери локалдык иштетүүнү текшерүү үчүн колдонулган түзүлгөн учурлардын касиеттери — алар реалдуу колдонуучулар эмес жана реалдуу дүйнөлүк географиялык камтууну билдирбейт.

Алдын ала катталган критерийлер — түшүндүрмөсү

Каттоодон өтүү (pre-registration) бул бенчмарктагы эң маанилүү методологиялык тандоо. Күтүлгөн ар бир диагноз, ар бир клиникалык упай коюу системасы жана ар бир отчет бөлүмү булак кодго бекитилген кыймылдаткыч чакырылганга чейин. Ошондуктан рубриканы кыймылдаткычты “жакшыраак көрсөтүү” үчүн post-hoc тууралоо мүмкүн эмес.

Композиттик упайды түзгөн үч компонент бар. структуралык компонент 35 пайызды түзөт жана кыймылдаткыч жети милдеттүү отчет бөлүмүн (баш аталыш, кыскача жыйынтык, негизги табылгалар, дифференциал, упай коюу системалары, сунуштар, кийинки байкоо) жана алардын ичиндеги он алты милдеттүү подбөлүмдү кайтарып бергенин өлчөйт. Бөлүмдүн бар болушу структуралык эсептөөнүн ичинде 40 пайызды, подбөлүмдүн бар болушу 60 пайызды түзөт.

The клиникалык компонент 55 пайызды түзөт жана үч нерсени бириктирет: диагноз-ачкыч сөздү эстеп калуу (клиникалык подупайдын 70 пайызы), упай коюу системасын эстеп калуу (20 пайыз — кыймылдаткыч тиешелүү болгондо Mentzer, FIB-4, HOMA-IR, ASCVD тобокелдигин, KDIGO стадиясын, EULAR/ACR критерийлерин эсептейби), жана ыктымалдуулук суммасынын жарактуулугун текшерүү (10 пайыз — дифференциалдык ыктымалдуулуктар [90, 110] интервалдын ичинде суммаланышы керек). Тузак учурларда ачык гипердиагноз үчүн 0.30га чейин айып пул алынып салынат, ал жасалма патология белгисине 0.10дан эсептелет, үч белги менен чектелет.

The кечигүү (latency) компоненти 10 пайызды түзөт. 20 секунддан аз жооп толук 0.10 алат, 40 секунддан аз жооп 0.05 алат, ал эми андан жайыраактын баары нөлгө барабар. 20 секунддук максат өндүрүштөгү primary-path кызмат деңгээлинин максатына туура келет; 40 секунддук чектөө Phase 2 оор кыймылдаткыч чакыруулар үчүн резервдик бюджетти чагылдырат.

MIT лицензиялуу Kantesti бенчмарк чөйрөсү иштеп, ар бир учурга тиешелүү упайларды чыгарып жаткан акыркы скриншот — ошол эле чөйрө, азыр SQL аркылуу башкарылган, V11 Экинчи Жаңыртууда 100,000 учурдук иштетүүдө 99.80% композит упайын чыгарган
3-сүрөт: Аткарылып жаткан тестирлөө — дал ошол кыймылдаткыч (engine) 99.80% композиттик упай V11 Экинчи жаңыртуудагы 100,000 учурдук когортада. Ар бир учур A4 PDF түрүндө көрсөтүлүп, өндүрүштүк v11 endpoint’ке жүктөлөт жана тоңдурулган рубрика боюнча бааланат. Экинчи жаңыртуу параметрленген SQL case loader’ду кошту; чийки кыймылдаткыч жоопторунан стратификацияланган туш келди тандоо (n = 201) агрегатталган scorecard менен катар сакталат.

Pre-registration эмнени алдын алат

Биринчи тараптын бенчмаркалары post-hoc рубриканы тууралоо аркылуу өз сандарын үйлөп көрсөтүү менен белгилүү. Үлгү дээрлик дайыма бирдей: команда кыймылдаткычты иштетет, кайсы жерде начар аткарарын көрөт, анан начар аткарган аймактар азыраак эсептелиши үчүн рубриканы унчукпай тууралайт. Рубриканы биринчи кыймылдаткыч чакыруусуна чейин булак кодго бекитип, harness’ты MIT лицензиясы менен жарыялоо менен бул тууралоо версиялык көзөмөлдө көрүнүктүү болуп калат. Ар ким репозиторийди клондоп, рубрика авторлорунун даталарын текшерип, кыймылдаткычтын жыйынтыктары упай коюуну калыптандыруу үчүн колдонулбаганын ырастай алат.

Гипердиагноз тузагы учурлары — ашыкча чакырып жиберүү эмне үчүн негизги иштебей калуу режими

Нормалдуу скринингдерде патологияны ашыкча “айтып коюу” — керектөөчүгө багытталган медициналык жардамчы ассистенттер үчүн документтештирилген иштен чыгуу режими. Анын кийинки чыгымдарына керексиз текшерүүлөр, пациенттин тынчсыздануусу жана ятрогендик (дарылоодон келип чыккан) текшерүү кирет. Бул бенчмарктагы эки тузак учур ошол иштен чыгуу режимин көрүнүктүү жана упайлануучу кылып иштелген.

Гилберт синдрому панелинде гепатитти жасалма түрдө ойлоп чыгарган жөнөкөй AI менен Kantesti кыймылдаткычынын зыянсыз UGT1A1 полиморфизмин туура аныктаганын жанаша салыштыруу — бул методология V11 Экинчи Жаңыртууда 99.80% бенчмарк боюнча 87,412 тузак-белги коюу мүмкүнчүлүгүндө жалган-оң көрсөткүчтөрдү нөлгө чейин масштабдаган
4-сүрөт: V11 баштапкы чыгарылышындагы trap-case дизайны — кыймылдаткыч Гилберт синдромуна ишенимдүү түрдө гепатит деп энбелги коёт, же толугу менен нормалдуу экранда чек арадагы патологияны жасалма түрдө чыгарат — клиникалык угулганы үчүн сыйланбайт, тескерисинче жазаланат. Бул методология 99.80% композиттик упайын берген V11 Экинчи жаңыртуудагы 100,000 учурдук иштетүүдө 0 / 87,412 жалган оң натыйжаларга (false-positives) чейин масштабдалды.

🟡 Тузак 1 — BT-014-GILBERT

Көрүнүш. Жалпы билирубин 2.4 мг/дЛ болгон 24 жаштагы эркек. Түз фракция нормалдуу, трансаминазалар жана щелочтук фосфатаза алардын маалымдама диапазондорунун ичинде, ретикулоциттер өзгөчө эмес, ал эми гаптоглобин жана LDH гемолизди жокко чыгарат.

Туура чечмелөө. Гилберт синдрому — UGT1A1 полиморфизми, зыянсыз. Чечмелөө гепатитти, циррозду, гемолиздик анемияны же билиардык тоскоолдукту чакырбашы керек.

V11 жыйынтыгы. Композит 1.000. Алты көзөмөлдөнгөн ашыкча-диагноз берүүчү белги эч бири активдүү диагноз катары көрүнгөн жок.

🟡 Тузак 2 — BT-015-HEALTHY

Көрүнүш. 15 параметрден турган кадимки скрининг панелиндеги 35 жаштагы аял. Ар бир аналит өзүнүн маалымдама диапазонунун ичинде ыңгайлуу жайгашкан.

Туура чечмелөө. Жооп бердирүү жана жашоо образын сактоо. Түшүндүрмө клиникалык жактан пайдалуу көрүнүш үчүн чек арадагы патологияны атайын ойлоп чыгарбоого тийиш.

V11 жыйынтыгы. Композит 1.000. Жети көзөмөлдөнгөн ашыкча диагноз коюу белгисинин бири да — диабет, анемия, гипотиреоз, дислипидемия, гепатит, бөйрөк оорусу, жетишсиздик — активдүү диагноз катары чыккан жок.

Эки текшерүүдө тең он үч гипердиагноз коюу белгиси текшерилди. Нөл — эч бири иштетилген жок. Бул — триаж же консультацияга чейинки курал катары AI кыймылдаткычын колдонууну карап жаткан ар бир клиницист үчүн эң маанилүү жыйынтык: система эч кандай оору жок жерде ооруну ойлоп тапкан жок.

Ментцер индекси: темир жетишсиздигин талассемия белгилеринен (trait) ажыратуу

Экинчи жогорку баалуу табылга — BT-001 (темир жетишсиздигинен болгон анемия) иши менен BT-007 (бета-талассемиянын майда түрү) ишинин дал келиши. Экөө тең микроцитоз менен коштолот жана жөнөкөй классификаторлор үчүн кеңири белгилүү “тоскоолдук”. Ментцер индекси, MCVну RBC санына бөлүү аркылуу эсептелет, темир жетишсиздигинде 13төн жогору, ал эми талассемия белгилеринде 13төн төмөн болот.

BT-001де бейтап 34 жаштагы аял болгон: гемоглобин 10.4 г/дЛ, MCV 72.4 фЛ, RBC 4.1 × 10¹²/Л, ферритин 6 нг/мЛ жана TIBC жогору. Ментцер индекси болжол менен 17.7 абсолюттук темир жетишсиздигин колдойт. BT-007де бейтап 28 жаштагы эркек болгон: микроцитоз (MCV 65.8 фЛ), бирок RBC саны 6.2 жогору, RDW нормалдуу, ферритин нормалдуу жана HbA2 5.6 пайыз. Ментцер индекси болжол менен 10.6 талассемия белгилерин көрсөтөт, ал эми HbA2нин жогору болушу бета-талассемиянын майда түрүн тастыктайт.

Темир жетишсиздигинен болгон анемия Ментцер > 13 Ферритин төмөн, TSAT төмөн, TIBC жогору, RDW жогору
Бета-талассемиянын белгилери Ментцер < 13 Ферритин нормалдуу, RDW нормалдуу, HbA2 жогору (>3.5%), RBC саны жогору

Эки учур тең 1.000 балл алган. Кыймылдаткыч эки түшүндүрмөдө тең Ментцер индексин ачык колдонуп, ар бир учурда туура диагнозду кайтарды. Бул — бүтүндөй тест-бенчмарктын ичиндеги эң клиникалык жактан ишендирген бирден-бир жыйынтык, анткени талассемия белгилерин темир жетишсиздиги деп туура эмес классификациялоо туура эмес темир кошумчасын берүүгө жана үй-бүлөнү скринингден өткөрүү мүмкүнчүлүктөрүн өткөрүп жиберүүгө алып келет, ал эми темир жетишсиздигин талассемия деп туура эмес классификациялоо жөнөкөй алмаштыруучу терапияны кечиктирет. Биздин ферритин диапазону боюнча колдонмо кеңири дифференциалдык контекстти түшүндүрөт.

V11 баштапкы маалымдама run’дан учур боюнча натыйжалар (2026-жылдын 23-апрели)

15 учурдук proof-of-concept когортасындагы оригинал V11 маалымдама run экинчи жаңыртуунун методологиялык негизи болуп кызмат кылат : төмөнкү ар бир учур деталдары рубрика реалдуу кыймылдаткыч жоопту кантип иштетээрин көрсөтөт. Он беш учурдун ичинен он экиси негизги жолдо композиттик упайдын шыпыргысына 1.000 жетти; үч учур Phase 2 fallback аркылуу берилди, мында 0.05 кечигүү бонусу жоголду, бирок бардык клиникалык жана структуралык мазмун сакталды. Бир учур бир гана милдеттүү подбөлүмдөн жок болду; бир учур ыктымалдуулук бөлүштүрмөсүнүн суммасы бир аз азайган түрдө кайтып келди.

Иштин IDсы Адистик Композит Кечигүү Жол
BT-001-IDAГематология1.00017.8 снегизги
BT-006-B12Гематология1.00018,4 снегизги
BT-007-THALГематология1.00017,0 снегизги
BT-002-HASHЭндокринология0.95037,0 срезервдик (fallback)
BT-008-PCOSЭндокринология0.98718,6 снегизги
BT-003-T2DMМетаболикалык1.00019,1 снегизги
BT-013-GOUTМетаболикалык1.00019,4 снегизги
BT-004-NAFLDГепатология1.00019,6 снегизги
BT-009-VIRHEPГепатология0.95023,4 срезервдик (fallback)
BT-014-GILBERTТузак (Trap)1.00018,9 снегизги
BT-005-CKDНефрология1.00017,4 снегизги
BT-010-ASCVDКардиология1.00019,7 снегизги
BT-011-SLEРевматология0.98118.2 снегизги
BT-012-VITDЭндокринология1.00019.3 снегизги
BT-015-ДЕНИ САКТузак (Trap)1.00018.7 срезервдик (fallback)

PCOS учур (BT-008) жооп түзүмүндө бир милдеттүү чакан бөлүмдү жоготту — он алтыдан эмес, он бештен — бул түзүмдүк упайды 1.000ден 0.963кө чейин кыскартты. SLE учур (BT-011) клиникалык упайды 0.965ке түшүргөн, бирок ар бир диагностикалык ачкыч сөздү жана упай коюу системасын сактап калган, бир аз кыскарган ыктымалдык-бөлүштүрүү суммасын кайтарды. Эки тең кемчиликсиз эмес учурлар туура диагнозду өткөрүп жиберген жок.

V11 Экинчи жаңыртуу агрегаты — 100,000 учур

Калк масштабында жекече учур саптары адамга окулбайт, ошондуктан Экинчи Жаңыртуу 100,000 саптык таблица эмес, топтолгон көрсөткүчтөрдү берет. Негизги топтолгон көрсөткүч төмөндө көрсөтүлгөн; адистик жана өлкө-энбелги боюнча бөлүштүрүүлөр техникалык отчетто жана Figshare депозитинде жарыяланган. Стратификацияланган туш келди тандалма of n = 201 чийки кыймылдаткыч жооптору (детерминирленген seed 20260426) текшерүү үчүн GitHub’тагы репозиторийдин results/ каталогунда сакталат. Жаңы иштетүү жаңы убакыт белгиси бар баллдык таблица чыгарат, ал эми маалымдама иштетүү өзгөрүүсүз калат. Эгер иштетүүңүз маанилүү түрдө башкача натыйжа берсе, өтүнүч: GitHub issue ачыңыз — иштетүүнүн убакыт белгиси жана жооптун метадайындарында кайтарылган кыймылдаткыч версиясы менен. каталогго жарыяланды.

Композиттик упай V11 баштапкы: 0.9912 (99.12%) → Экинчи жаңыртуу: 0.9980 (99.80%) Δ = +0.0068 100,000 учурдук когорта боюнча
Структуралык упай (орточо) V11 баштапкы: 0.998 → Экинчи жаңыртуу: 1.000 Калк масштабында кемчиликсиз структуралык шайкештик
Клиникалык упай (орточо) V11 баштапкы: 0.998 → Экинчи жаңыртуу: 0.996 −0.002; эч бир учур диагноздун өзүн өткөрүп жиберген жок
Кечигүү — орточо (аралыгы) V11 баштапкы: 20.17 с (17.0–37.0 с) → Экинчи жаңыртуу: 13.26 с (9.0–16.94 с) Иштетүүчү кыймылдаткычты иштетүү ортосундагы оптимизациялар
Кыймылдаткыч жолу = негизги V11 баштапкы: 12 / 15 → Экинчи жаңыртуу: 100,000 / 100,000 Жүрүш учурунда эч бир учурда 2-фазага кайтаруу (fallback) талап кылынган жок
Тузак-кичинек топтомун гипердиагностика кылуу белгилери V11 баштапкы: 0 / 13 → Экинчи жаңыртуу: 0 / 87,412 Калк масштабында нөлдүк жалган-оң натыйжалар (8,723 тузак учур көзөмөлдөнгөн)

Башкы упай бизге эмнени айтпай турганы

Ушул алдын ала катталган рубрика боюнча 99.80 пайыздык композиттик балл, 127 өлкө энбелгисин камтыган 100,000 учурлуу синтетикалык когортада, шыпка жакын аткарууну билдирет — бирок аны кылдат контекстке коюу керек. Натыйжа V11де булак кодго милдеттенген рубрика боюнча кыймылдаткычтын жүрүм-турумун сүрөттөйт; бул дүйнөдө бар ар бир кан анализи панелинде кыймылдаткычтын тууралыгы тууралуу универсалдуу доомат эмес.

Балл кыймылдаткыч бул баалоо үчүн тандалган диагностикалык үлгүлөрдү калк масштабындагы топтомдо туура иштеткенин айтат, жарыяланган жана кайра чыгарууга мүмкүн болгон методология боюнча. Бул кыймылдаткыч жапайы жаратылышта бар болгон ар бир кан анализинин панелинде туура экенин айтпайт. Бул кыймылдаткыч клиницисттин ой-пикирин алмаштырышы керек экенин айтпайт. Жана бул кыймылдаткыч башка альтернативдүү AI системаларынан ашып түшөт дегенди айтпайт — башка кыймылдаткычтарга салыштырма талдоолор бул отчет үчүн атайын чектен тышкары болгон.

Балл эмнени аныктап берери — бул негизги чек (baseline). Рубрика жана хостинг ачык болгондон кийин, кыймылдаткычтын келечектеги версияларын ошол эле рубрикага салыштырып баалоого болот — V11 баштапкы 15 учурга, Экинчи жаңыртуудагы 100,000 учурдук топтомго же андан кийинки кеңейтүүлөргө да колдонулат — жана жарыяланган балл менен кийинки ар бир жүрүштүн ортосундагы ажырым өзү өлчөнө турган нерсе. Бул алдын ала каттоонун баалуулугу: аткаруу боюнча дооматтарды текшерилүүчү дооматтарга айлантат.

Бул эталонду 10 мүнөттө кантип кайталоого болот

Кайра чыгаруу үчүн болгону Kantesti API credential жупу жана Python 3.10 же андан кийинки чөйрө керек, анда requests жана reportlab китепканалары орнотулган болушу керек. Толук тестирлөө куралы MIT лицензиясы астында чыгарылган бир гана өз алдынча камтылган Python модулу.

V11 Экинчи Жаңыртуу эталонун көрсөткөн репродуцирленүү тармагынын диаграммасы (99.80% композит, 100,000 кейс, 127 өлкө энбелгиси) Figshare, ResearchGate, Academia.edu жана GitHub боюнча mirrored болуп, Figshare DOI канондук таяныч катары берилген
5-сүрөт: V11 Экинчи жаңыртуу бенчмарк — 127 өлкө энбелгиси боюнча 100,000 учурларда 99.80% композиттик балл — төрт изилдөө платформасы боюнча кайталанган (mirrored). Figshare DOI — канондук илимий идентификатор; ResearchGate (publication 404175463), Academia.edu (paper 165956808) жана GitHub эталондук harness, чектелген стратификацияланган туш келди тандалган чийки жооптор жана өлкө-энбелги/адистик боюнча ар бирине тиешелүү scorecard’тарды камтыган параллелдүү көчүрмөлөрдү жайгаштырат.

Жаңы иштетүү үчүн төрт кадам

Биринчи. Репозиторийди көчүрүү: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Экинчи. Көз карандылыктарды орнотуу үчүн pip install -r requirements.txt (Экинчи жаңыртуу кошот mysql-connector-python ≥ 8.0 SQL учур жүктөгүч үчүн). Үч. Орнотуңуз KANTESTI_USERNAME жана KANTESTI_PASSWORD кыймылдаткыч API үчүн чөйрө өзгөрмөлөрү катары. Экинчи жаңыртуудагы SQL учур жүктөгүч үчүн ошондой эле төмөнкүлөрдү коюңуз: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, жана KANTESTI_DB_PASSWORD — жүктөгүч окуудан гана ролу аркылуу туташат (bench_reader) ал таблицаларды аныктоого байланыштуу артыкчылыктарга ээ эмес. Төрт. Иштетиңиз python benchmark_bloodtest.py --limit 100000 толук Second-Update иштетүүсү үчүн, же python benchmark_bloodtest.py --limit 1000 тез итерация үчүн. Натыйжалар ./benchmark_results/: өлкө-энбелги жана адистик боюнча тилкелерди камтыган CSV scorecard, JSON агрегаты, стратификацияланган-туш келди чийки жооптордун үлгүсү жана Markdown отчет.

23-апрель 2026-жылдагы (V11 баштапкы, 15 учур) жана 26-апрель 2026-жылдагы (V11 Second Update, 100,000 учур) шилтеме иштетүүлөр репозиторийдин репозиторийдин results/ каталогунда сакталат. Жаңы иштетүү жаңы убакыт белгиси бар баллдык таблица чыгарат, ал эми маалымдама иштетүү өзгөрүүсүз калат. Эгер иштетүүңүз маанилүү түрдө башкача натыйжа берсе, өтүнүч: GitHub issue ачыңыз — иштетүүнүн убакыт белгиси жана жооптун метадайындарында кайтарылган кыймылдаткыч версиясы менен. папкасында сакталган. Жаңы иштетүү жаңы убакыт белгиси бар балл картасын чыгарат, бирок шилтеме иштетүүлөрдү өзгөртпөйт. Эгер сиздин иштетүүңүз маанилүү түрдө башкача натыйжа берсе, өтүнүч: GitHub issue ачыңыз — иштетүүнүн убакыт белгиси жана жооптун метадайындарында кайтарылган кыймылдаткыч версиясы менен.

Чектөөлөр жана келечектеги иштер

127 өлкө энбелгиси боюнча 100,000 учурга чейин да, төрт чектөө ачык таанылууга тийиш: long-tail энбелгинин аз чагылдырылышы, бир жолку (single-shot) баалоо, бир гана кыймылдаткычтын (single-engine) чөйрөсү жана бир гана булактан алынган маалыматтын келип чыгышы. Булар активдүү кийинки иштерде чечилип жатат.

Long-tail энбелги камтылышы. Экинчи Жаңыртуу 127 өлкө энбелгисин камтыйт, бирок бөлүштүрүү тең эмес — эң жогорку 10 энбелги учурлардын ≈66.4%ын түзөт, ал эми кошумча 97 энбелгиден турган long tail бирге ≈7.3% (жалпысынан болжол менен 7,300 учур, энбелгиге орточо ~75 учур) кошот. Ошондуктан бул long tail ичиндеги энбелги боюнча композиттер башкы көрсөткүчтөр сунуштаганга караганда ызы-чуураак. Кийинки иштетүүлөр энбелги дайындоону кайра тең салмактап, энбелги боюнча баалоолорду бекемдейт.

Бир жолку баалоо. Когортодогу ар бир учур бир гана жолу бааланды. Чоң тил моделдери, атүгүл төмөн тандоо температурасы шартында да, олуттуу чыгарма вариативдүүлүгүн көрсөтөт; ошондуктан ар бир учурга беш баалоо жүргүзүлгөн жана вариативдүүлүк жарыяланган көп жолу иштетүү протоколу табигый кийинки кадам — өзгөчө “trap-case” под-тандоосунда, мында тандоо термелүүсү астында ырааттуулук коопсуздук дооматынын бир бөлүгү болуп саналат.

Бир гана кыймылдаткычтын чөйрөсү. Бул отчет бир гана кыймылдаткычты мүнөздөйт. Бул жерде альтернативдүү AI системаларга салыштырма талдоолор каралбайт; биз аларды ошол эле MIT лицензиялуу harness менен, тийиштүү методология колдонулган өзүнчө көз карандысыз изилдөө катары жүргүзүшүбүз мүмкүн.

Синтетикалык маалымат. 100,000 учур синтетикалык түрдө генерацияланган — синтетикалык учурлар эмес, жана натыйжалар реалдуу дүйнөдөгү клиникалык көрсөткүчкө өтпөйт. Реалдуу, макулдук берилген, тышкы булактан алынган маалымат боюнча баалоо тиешелүү этикалык көзөмөлдү талап кылат жана бул синтетикалык эталондун чегинен тышкары.

Ушул төртөөнөн тышкары, пландагы эң таасирдүү кеңейтүү — юрисдикция боюнча көп тилдүү теңдик. Kantesti AI Engine колдонуучуларга 75+ тилде кызмат кылат жана тилге жараша стратификацияланган Second-Update под-когорталарын (түрк, немис, испан, француз, итальян, португал, араб, мандарин) иштетүү кыймылдаткыч колдогон тилдер боюнча чыгарманын сапатын сандык баалайт. Ар бир тилге жараша талдоо өзүнүн DOI жана harness тармагы менен жарыяланат.