Бул салыштырма көрсөткүч эмне үчүн бар жана ал эмнени текшерет
AI колдоосу менен кан анализин чечмелөө керектөөчүлүк жана клиникалык иш процесстеринде барган сайын көбүрөөк колдонулуп жатат, бирок лабораториялык медицина үчүн ылайыкташкан, кайра чыгарылуучу баалоо алкактары сейрек кездешет. Бул шартта эң маанилүү суроолор жалпы медициналык суроо-жооп эталондорунда камтылгандар эмес: орточо корпускулалык көлөм (MCV) бирдей болгондо кыймылдаткыч темир жетишсиздигин талассемия белгилеринен ажырата алабы, Гилберт синдромун гепатит катары ашыкча диагноз коюп жибереби жана толугу менен нормалдуу скрининг панелинде патологияны “жасап” чыгарабы?
Бир кан анализинин бирдиктүү панели адатта бир нече атаандаш чечмелөөнү колдоого жетиштүү сигнал камтыйт, ал эми чечмелеп жаткан дарыгердин милдети — ошол чечмелөөлөрдү бири-бирине салыштырып таразалоо, окуу китебиндеги даяр жоопту издеп табуу эмес. Окуу китептеги учурларда жакшы иштеген система эң маанилүү учурларда дагы эле жаңылышы мүмкүн: дифференциалдык диагноздогу тузактар, өзүнчө караганда кооптуу көрүнгөн зыянсыз варианттар жана ишенимдүү жардамчыларды патологияны “жасоого” азгыра турган толугу менен нормалдуу панелдер.
Бул бенчмарк дал ошол иштен чыгуу режимдеринин айланасында түзүлгөн. Он беш учурдун ар бири белгилүү бир диагностикалык касиет үчүн тандалды: орточо эритроциттик көлөмү бирдей болгон бета-талассемия белгилеринен айырмаланып турушу керек болгон темир жетишсиздигине байланышкан микроцитоз; жалгыз гана обочолонгон кыйыр гипербилирубинемиядан турган Гилберт синдрому көрүнүшү; жана ар бир анализат өзүнүн маалымдама диапазонунун ичинде турган он беш параметрлүү скрининг панели. Рубрика ар бир учурду өзүнүн шарттары менен окуган системаларды сыйлайт жана мындай диагноз талап кылынбаган учурда ишенимдүү диагнозго жеткен системаларды жазалайт.
MD Томас Клейн катары мен учурлардын панелин тандадым, анткени лабораториялык медицина боюнча жардамчылар эң көп жаңылышкан үлгүлөр — дал ушулар. Кымбат баалуу жаңылыштык "сейрек кездешүүчү ооруну өткөрүп жиберүү" эмес — анысы жок бейтаптарда күнүмдүк патологияны ойлоп табуу. Биздин Медициналык текшерүү hub кеңири алкакты сүрөттөйт; бул бет V11 алгачкы proof-of-concept жана аны 127 өлкө энбелгисин камтыган синтетикалык учурлар топтомунан алынган 100,000 синтетикалык учурга чейин масштабдаган V11 Экинчи Жаңыртууну сүрөттөйт — ошол эле баалоо рубрикасы менен, byte-иденттүү, post-hoc жөндөөгө уруксат берилбейт.
Акыркы маалымдама иштетүү — V11 Экинчи Жаңыртуу (2026-жылдын 26-апрели)
2026-жылдын 26-апрелиндеги V11 Экинчи Жаңыртуунун маалымдама иштетүүсү 99.80% V11 баштапкы чыгарылышында колдонулган алдын ала катталган (pre-registered) рубрика боюнча бааланып, 100,000 синтетикалык учур Kantesti синтетикалык учурлар топтомунан алынган жана 127 өлкө энбелгисин камтыйт жана 75+ тилдерин камтыган. Ар бир учур кыймылдаткычтын негизги жолунда (primary path) аяктады; trap-case гипердиагноз флагын активдештирүүлөр 0 / 87,412. бойдон калды. 2026-жылдын 23-апрелиндеги баштапкы V11 иштетүүсү 15 кол менен тандалган учурду (композит 99.12%) камтып, рубриканы тастыктаган; Экинчи Жаңыртуу ошол рубриканы byte-дал сактап, баалоону калктын масштабындагы топтомго чейин кеңейтет.
Композиттик формула үч компонентти бириктирет: структуралык шайкештик жети милдеттүү отчет бөлүмү жана он алты милдеттүү кошумча бөлүм менен, мазмундун тактыгы ачкыч сөздү эстеп калуу + балл коюу системасын эстеп калуу + ыктымалдык бөлүштүрүүнүн жарактуулугун текшерүү катары өлчөнөт, жана жооп берүү кечигүүсү негизги жолдун кызмат деңгээли (service-level) боюнча максатка каршы. Так ажыратылышы төмөндөгү рубрика формуласында көрсөтүлгөн — бул салмактардын же суб-рубрикалардын эч бири Экинчи Жаңыртуу үчүн өзгөртүлгөн эмес.
Калган 0.20 пайыздык пункт баш мейкиндик дээрлик толугу менен клиникалык суб-упайга бөлүнөт — учурлардын аз бөлүгүндө (негизинен Гепатология жана Ревматологияда) диагностикалык мазмун туура болгонуна карабастан, күтүлгөн баалоо-системасынын бир ачкыч сөзү кыймылдаткычтын чечмелөөсүндө жок болуп калган. 100,000 учурдан турган Экинчи Жаңыртуу топтомунда эч бир учурдун өзүндө диагноз өткөрүлүп берилген жок. Кечигүү V11 баштапкы чыгарылышындагы орточо 20.17 стен Экинчи Жаңыртууда 13.26 ске чейин жакшырды; бул эки иштетүүнүн ортосундагы өндүрүштүк кыймылдаткыч оптимизацияларын чагылдырат; рубрика, баалоо коду жана API акыркы чекити өзгөргөн жок.
Энбелги боюнча композиттик баллдар 30 эң көп берилген өлкө энбелгисинде 0.9971ден 0.9985ке чейин өзгөрдү. Кошумча 97 энбелгиден турган узун куйрук (жалпысынан ≈7,300 учур) системалуу начарлоону көрсөткөн жок. Учур саны боюнча эң көп кездешкен энбелгилер: Америка Кошмо Штаттары (10,500), Бразилия (9,500), Испания (9,000), Италия (8,000), Германия (7,800), Франция (7,400), Португалия (5,800), Türkiye (3,400), Улуу Британия (2,900) жана Мексика (2,500).
15 учурдан 100,000ге чейин: 127 өлкө энбелгиси боюнча когорта эволюциясы
Алгачкы V11 учурлар панелинде жети адистик — гематология, эндокринология, метаболикалык медицина, гепатология, нефрология, кардиология, ревматология — плюс эки атайын гипердиагноз trap учуру болгон; ар бир учур синтетикалык түзүлгөн кан анализи панелинен турган. V11 Экинчи Жаңыртуу баалоону 100,000 синтетикалык учурга чейин 127 өлкө энбелгиси боюнча кеңейтет, сегиз адистикке бөлүштүрүлүп (алгачкы жети плюс trap подтоптомун сиңирген ички медицина үчүн атайын бөлүк). Ошол эле баалоо рубрикасы эки иштетүүдө тең byte-дал колдонулат.
Бардык учурлар синтетикалык болгондуктан, алып салууга тийиш болгон реалдуу идентификаторлор жок жана жеке маалымат катышпайт. Ар бир синтетикалык учур бенчмарк-ичиндеги учур кодуна ээ (V11 алгачкы топтомунда BT-NNN-LABEL, Экинчи Жаңыртууда туруктуу case_uid ). Жарыяланган хостто, техникалык отчетто же чыгарылган маалымат топтомдорунда эч жерде жеке маалымат көрүнбөйт.
V11 initial release — 15 hand-curated cases
V11 баштапкы учурлар панелин доктор Томас Клайн лабораториялык медицина боюнча жардамчылар эң көп жаңылышкан диагностикалык үлгүлөрдү көнүгүү үчүн тандап, кол менен түзгөн. Он беш учурдун ар бири төмөндө көрсөтүлгөн белгилүү бир диагностикалык касиет үчүн тандалган.
Эмне үчүн дал ушул бөлүштүрүү
Гематология үч учурду алат, анткени микроситтик дифференциалдар жана макроситтик дифференциалдар реалдуу лабораториялык практикада эң көп көлөмдөгү тузактар болуп саналат. Эндокринология үч учурду алат, анткени Хашимото, ПКОС жана D витамининин жетишсиздиги боюнча көрүнүштөр ар башка диагностикалык формаларды машыктырат (аутоантитело аркылуу башкарылган, гормон катышы аркылуу башкарылган, бир гана маркер аркылуу башкарылган). CKD, ASCVD тобокелдиги жана SLEнин ар биринин өзүнүн упай коюу системасы бар болгондуктан, бирден учурдан берилген адистиктер дагы деле маанилүү: кыймылдаткыч аны чакырышы керек (KDIGO стадиясы, ASCVD 10 жылдык тобокелдик, тиешелүүлүгүнө жараша 2019 EULAR/ACR SLE критерийлери).
V11 Экинчи Жаңыртуу — 127 өлкө энбелгиси боюнча 100,000 синтетикалык учур
Экинчи Жаңыртуу оригиналдуу V11 hard-coded 15-case Python литералын чоңураак, программалык түрдө түзүлгөн синтетикалык учурлар топтому менен алмаштырат. Бул топтом ар бир run башында жүктөлөт жана конфигурация ачык-айкындуулук үчүн журналга жазылат. Мазмундук аймак боюнча когорта бөлүштүрүүсү төмөндө көрсөтүлгөн.
Синтетикалык өлкө-энбелги бөлүштүрүүсү — эң жогорку 10 энбелги
100,000 синтетикалык учур 127 өлкө энбелгисин (ISO 3166-1 alpha-2) камтыйт, локалдык иштетүүнү текшерүү үчүн. Энбелги дайындоо: Европа 57.7%, Америка континенттери 25.4%, Азия-Тынч океан 6.2%, аталган Жакынкы Чыгыш/Африка энбелгилери 3.4% жана кошумча 97 энбелгиден турган узун куйрук болжол менен 7.3% жалпы. Учур саны боюнча эң көп кездешкен он энбелги: Америка Кошмо Штаттары (10,500), Бразилия (9,500), Испания (9,000), Италия (8,000), Германия (7,800), Франция (7,400), Португалия (5,800), Türkiye (3,400), Улуу Британия (2,900) жана Мексика (2,500). Энбелги боюнча композиттик баллдар 0.9971ден 0.9985ке чейин өзгөрдү. Бул энбелги эсептери локалдык иштетүүнү текшерүү үчүн колдонулган түзүлгөн учурлардын касиеттери — алар реалдуу колдонуучулар эмес жана реалдуу дүйнөлүк географиялык камтууну билдирбейт.
Алдын ала катталган критерийлер — түшүндүрмөсү
Каттоодон өтүү (pre-registration) бул бенчмарктагы эң маанилүү методологиялык тандоо. Күтүлгөн ар бир диагноз, ар бир клиникалык упай коюу системасы жана ар бир отчет бөлүмү булак кодго бекитилген кыймылдаткыч чакырылганга чейин. Ошондуктан рубриканы кыймылдаткычты “жакшыраак көрсөтүү” үчүн post-hoc тууралоо мүмкүн эмес.
Композиттик упайды түзгөн үч компонент бар. структуралык компонент 35 пайызды түзөт жана кыймылдаткыч жети милдеттүү отчет бөлүмүн (баш аталыш, кыскача жыйынтык, негизги табылгалар, дифференциал, упай коюу системалары, сунуштар, кийинки байкоо) жана алардын ичиндеги он алты милдеттүү подбөлүмдү кайтарып бергенин өлчөйт. Бөлүмдүн бар болушу структуралык эсептөөнүн ичинде 40 пайызды, подбөлүмдүн бар болушу 60 пайызды түзөт.
The клиникалык компонент 55 пайызды түзөт жана үч нерсени бириктирет: диагноз-ачкыч сөздү эстеп калуу (клиникалык подупайдын 70 пайызы), упай коюу системасын эстеп калуу (20 пайыз — кыймылдаткыч тиешелүү болгондо Mentzer, FIB-4, HOMA-IR, ASCVD тобокелдигин, KDIGO стадиясын, EULAR/ACR критерийлерин эсептейби), жана ыктымалдуулук суммасынын жарактуулугун текшерүү (10 пайыз — дифференциалдык ыктымалдуулуктар [90, 110] интервалдын ичинде суммаланышы керек). Тузак учурларда ачык гипердиагноз үчүн 0.30га чейин айып пул алынып салынат, ал жасалма патология белгисине 0.10дан эсептелет, үч белги менен чектелет.
The кечигүү (latency) компоненти 10 пайызды түзөт. 20 секунддан аз жооп толук 0.10 алат, 40 секунддан аз жооп 0.05 алат, ал эми андан жайыраактын баары нөлгө барабар. 20 секунддук максат өндүрүштөгү primary-path кызмат деңгээлинин максатына туура келет; 40 секунддук чектөө Phase 2 оор кыймылдаткыч чакыруулар үчүн резервдик бюджетти чагылдырат.
Pre-registration эмнени алдын алат
Биринчи тараптын бенчмаркалары post-hoc рубриканы тууралоо аркылуу өз сандарын үйлөп көрсөтүү менен белгилүү. Үлгү дээрлик дайыма бирдей: команда кыймылдаткычты иштетет, кайсы жерде начар аткарарын көрөт, анан начар аткарган аймактар азыраак эсептелиши үчүн рубриканы унчукпай тууралайт. Рубриканы биринчи кыймылдаткыч чакыруусуна чейин булак кодго бекитип, harness’ты MIT лицензиясы менен жарыялоо менен бул тууралоо версиялык көзөмөлдө көрүнүктүү болуп калат. Ар ким репозиторийди клондоп, рубрика авторлорунун даталарын текшерип, кыймылдаткычтын жыйынтыктары упай коюуну калыптандыруу үчүн колдонулбаганын ырастай алат.
Гипердиагноз тузагы учурлары — ашыкча чакырып жиберүү эмне үчүн негизги иштебей калуу режими
Нормалдуу скринингдерде патологияны ашыкча “айтып коюу” — керектөөчүгө багытталган медициналык жардамчы ассистенттер үчүн документтештирилген иштен чыгуу режими. Анын кийинки чыгымдарына керексиз текшерүүлөр, пациенттин тынчсыздануусу жана ятрогендик (дарылоодон келип чыккан) текшерүү кирет. Бул бенчмарктагы эки тузак учур ошол иштен чыгуу режимин көрүнүктүү жана упайлануучу кылып иштелген.
🟡 Тузак 1 — BT-014-GILBERT
Көрүнүш. Жалпы билирубин 2.4 мг/дЛ болгон 24 жаштагы эркек. Түз фракция нормалдуу, трансаминазалар жана щелочтук фосфатаза алардын маалымдама диапазондорунун ичинде, ретикулоциттер өзгөчө эмес, ал эми гаптоглобин жана LDH гемолизди жокко чыгарат.
Туура чечмелөө. Гилберт синдрому — UGT1A1 полиморфизми, зыянсыз. Чечмелөө гепатитти, циррозду, гемолиздик анемияны же билиардык тоскоолдукту чакырбашы керек.
V11 жыйынтыгы. Композит 1.000. Алты көзөмөлдөнгөн ашыкча-диагноз берүүчү белги эч бири активдүү диагноз катары көрүнгөн жок.
🟡 Тузак 2 — BT-015-HEALTHY
Көрүнүш. 15 параметрден турган кадимки скрининг панелиндеги 35 жаштагы аял. Ар бир аналит өзүнүн маалымдама диапазонунун ичинде ыңгайлуу жайгашкан.
Туура чечмелөө. Жооп бердирүү жана жашоо образын сактоо. Түшүндүрмө клиникалык жактан пайдалуу көрүнүш үчүн чек арадагы патологияны атайын ойлоп чыгарбоого тийиш.
V11 жыйынтыгы. Композит 1.000. Жети көзөмөлдөнгөн ашыкча диагноз коюу белгисинин бири да — диабет, анемия, гипотиреоз, дислипидемия, гепатит, бөйрөк оорусу, жетишсиздик — активдүү диагноз катары чыккан жок.
Эки текшерүүдө тең он үч гипердиагноз коюу белгиси текшерилди. Нөл — эч бири иштетилген жок. Бул — триаж же консультацияга чейинки курал катары AI кыймылдаткычын колдонууну карап жаткан ар бир клиницист үчүн эң маанилүү жыйынтык: система эч кандай оору жок жерде ооруну ойлоп тапкан жок.
Ментцер индекси: темир жетишсиздигин талассемия белгилеринен (trait) ажыратуу
Экинчи жогорку баалуу табылга — BT-001 (темир жетишсиздигинен болгон анемия) иши менен BT-007 (бета-талассемиянын майда түрү) ишинин дал келиши. Экөө тең микроцитоз менен коштолот жана жөнөкөй классификаторлор үчүн кеңири белгилүү “тоскоолдук”. Ментцер индекси, MCVну RBC санына бөлүү аркылуу эсептелет, темир жетишсиздигинде 13төн жогору, ал эми талассемия белгилеринде 13төн төмөн болот.
BT-001де бейтап 34 жаштагы аял болгон: гемоглобин 10.4 г/дЛ, MCV 72.4 фЛ, RBC 4.1 × 10¹²/Л, ферритин 6 нг/мЛ жана TIBC жогору. Ментцер индекси болжол менен 17.7 абсолюттук темир жетишсиздигин колдойт. BT-007де бейтап 28 жаштагы эркек болгон: микроцитоз (MCV 65.8 фЛ), бирок RBC саны 6.2 жогору, RDW нормалдуу, ферритин нормалдуу жана HbA2 5.6 пайыз. Ментцер индекси болжол менен 10.6 талассемия белгилерин көрсөтөт, ал эми HbA2нин жогору болушу бета-талассемиянын майда түрүн тастыктайт.
Эки учур тең 1.000 балл алган. Кыймылдаткыч эки түшүндүрмөдө тең Ментцер индексин ачык колдонуп, ар бир учурда туура диагнозду кайтарды. Бул — бүтүндөй тест-бенчмарктын ичиндеги эң клиникалык жактан ишендирген бирден-бир жыйынтык, анткени талассемия белгилерин темир жетишсиздиги деп туура эмес классификациялоо туура эмес темир кошумчасын берүүгө жана үй-бүлөнү скринингден өткөрүү мүмкүнчүлүктөрүн өткөрүп жиберүүгө алып келет, ал эми темир жетишсиздигин талассемия деп туура эмес классификациялоо жөнөкөй алмаштыруучу терапияны кечиктирет. Биздин ферритин диапазону боюнча колдонмо кеңири дифференциалдык контекстти түшүндүрөт.
V11 баштапкы маалымдама run’дан учур боюнча натыйжалар (2026-жылдын 23-апрели)
15 учурдук proof-of-concept когортасындагы оригинал V11 маалымдама run экинчи жаңыртуунун методологиялык негизи болуп кызмат кылат : төмөнкү ар бир учур деталдары рубрика реалдуу кыймылдаткыч жоопту кантип иштетээрин көрсөтөт. Он беш учурдун ичинен он экиси негизги жолдо композиттик упайдын шыпыргысына 1.000 жетти; үч учур Phase 2 fallback аркылуу берилди, мында 0.05 кечигүү бонусу жоголду, бирок бардык клиникалык жана структуралык мазмун сакталды. Бир учур бир гана милдеттүү подбөлүмдөн жок болду; бир учур ыктымалдуулук бөлүштүрмөсүнүн суммасы бир аз азайган түрдө кайтып келди.
PCOS учур (BT-008) жооп түзүмүндө бир милдеттүү чакан бөлүмдү жоготту — он алтыдан эмес, он бештен — бул түзүмдүк упайды 1.000ден 0.963кө чейин кыскартты. SLE учур (BT-011) клиникалык упайды 0.965ке түшүргөн, бирок ар бир диагностикалык ачкыч сөздү жана упай коюу системасын сактап калган, бир аз кыскарган ыктымалдык-бөлүштүрүү суммасын кайтарды. Эки тең кемчиликсиз эмес учурлар туура диагнозду өткөрүп жиберген жок.
V11 Экинчи жаңыртуу агрегаты — 100,000 учур
Калк масштабында жекече учур саптары адамга окулбайт, ошондуктан Экинчи Жаңыртуу 100,000 саптык таблица эмес, топтолгон көрсөткүчтөрдү берет. Негизги топтолгон көрсөткүч төмөндө көрсөтүлгөн; адистик жана өлкө-энбелги боюнча бөлүштүрүүлөр техникалык отчетто жана Figshare депозитинде жарыяланган. Стратификацияланган туш келди тандалма of n = 201 чийки кыймылдаткыч жооптору (детерминирленген seed 20260426) текшерүү үчүн GitHub’тагы репозиторийдин results/ каталогунда сакталат. Жаңы иштетүү жаңы убакыт белгиси бар баллдык таблица чыгарат, ал эми маалымдама иштетүү өзгөрүүсүз калат. Эгер иштетүүңүз маанилүү түрдө башкача натыйжа берсе, өтүнүч: GitHub issue ачыңыз — иштетүүнүн убакыт белгиси жана жооптун метадайындарында кайтарылган кыймылдаткыч версиясы менен. каталогго жарыяланды.
Башкы упай бизге эмнени айтпай турганы
Ушул алдын ала катталган рубрика боюнча 99.80 пайыздык композиттик балл, 127 өлкө энбелгисин камтыган 100,000 учурлуу синтетикалык когортада, шыпка жакын аткарууну билдирет — бирок аны кылдат контекстке коюу керек. Натыйжа V11де булак кодго милдеттенген рубрика боюнча кыймылдаткычтын жүрүм-турумун сүрөттөйт; бул дүйнөдө бар ар бир кан анализи панелинде кыймылдаткычтын тууралыгы тууралуу универсалдуу доомат эмес.
Балл кыймылдаткыч бул баалоо үчүн тандалган диагностикалык үлгүлөрдү калк масштабындагы топтомдо туура иштеткенин айтат, жарыяланган жана кайра чыгарууга мүмкүн болгон методология боюнча. Бул кыймылдаткыч жапайы жаратылышта бар болгон ар бир кан анализинин панелинде туура экенин айтпайт. Бул кыймылдаткыч клиницисттин ой-пикирин алмаштырышы керек экенин айтпайт. Жана бул кыймылдаткыч башка альтернативдүү AI системаларынан ашып түшөт дегенди айтпайт — башка кыймылдаткычтарга салыштырма талдоолор бул отчет үчүн атайын чектен тышкары болгон.
Балл эмнени аныктап берери — бул негизги чек (baseline). Рубрика жана хостинг ачык болгондон кийин, кыймылдаткычтын келечектеги версияларын ошол эле рубрикага салыштырып баалоого болот — V11 баштапкы 15 учурга, Экинчи жаңыртуудагы 100,000 учурдук топтомго же андан кийинки кеңейтүүлөргө да колдонулат — жана жарыяланган балл менен кийинки ар бир жүрүштүн ортосундагы ажырым өзү өлчөнө турган нерсе. Бул алдын ала каттоонун баалуулугу: аткаруу боюнча дооматтарды текшерилүүчү дооматтарга айлантат.
Бул эталонду 10 мүнөттө кантип кайталоого болот
Кайра чыгаруу үчүн болгону Kantesti API credential жупу жана Python 3.10 же андан кийинки чөйрө керек, анда requests жана reportlab китепканалары орнотулган болушу керек. Толук тестирлөө куралы MIT лицензиясы астында чыгарылган бир гана өз алдынча камтылган Python модулу.
Жаңы иштетүү үчүн төрт кадам
Биринчи. Репозиторийди көчүрүү: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Экинчи. Көз карандылыктарды орнотуу үчүн pip install -r requirements.txt (Экинчи жаңыртуу кошот mysql-connector-python ≥ 8.0 SQL учур жүктөгүч үчүн). Үч. Орнотуңуз KANTESTI_USERNAME жана KANTESTI_PASSWORD кыймылдаткыч API үчүн чөйрө өзгөрмөлөрү катары. Экинчи жаңыртуудагы SQL учур жүктөгүч үчүн ошондой эле төмөнкүлөрдү коюңуз: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, жана KANTESTI_DB_PASSWORD — жүктөгүч окуудан гана ролу аркылуу туташат (bench_reader) ал таблицаларды аныктоого байланыштуу артыкчылыктарга ээ эмес. Төрт. Иштетиңиз python benchmark_bloodtest.py --limit 100000 толук Second-Update иштетүүсү үчүн, же python benchmark_bloodtest.py --limit 1000 тез итерация үчүн. Натыйжалар ./benchmark_results/: өлкө-энбелги жана адистик боюнча тилкелерди камтыган CSV scorecard, JSON агрегаты, стратификацияланган-туш келди чийки жооптордун үлгүсү жана Markdown отчет.
23-апрель 2026-жылдагы (V11 баштапкы, 15 учур) жана 26-апрель 2026-жылдагы (V11 Second Update, 100,000 учур) шилтеме иштетүүлөр репозиторийдин репозиторийдин results/ каталогунда сакталат. Жаңы иштетүү жаңы убакыт белгиси бар баллдык таблица чыгарат, ал эми маалымдама иштетүү өзгөрүүсүз калат. Эгер иштетүүңүз маанилүү түрдө башкача натыйжа берсе, өтүнүч: GitHub issue ачыңыз — иштетүүнүн убакыт белгиси жана жооптун метадайындарында кайтарылган кыймылдаткыч версиясы менен. папкасында сакталган. Жаңы иштетүү жаңы убакыт белгиси бар балл картасын чыгарат, бирок шилтеме иштетүүлөрдү өзгөртпөйт. Эгер сиздин иштетүүңүз маанилүү түрдө башкача натыйжа берсе, өтүнүч: GitHub issue ачыңыз — иштетүүнүн убакыт белгиси жана жооптун метадайындарында кайтарылган кыймылдаткыч версиясы менен.
Чектөөлөр жана келечектеги иштер
127 өлкө энбелгиси боюнча 100,000 учурга чейин да, төрт чектөө ачык таанылууга тийиш: long-tail энбелгинин аз чагылдырылышы, бир жолку (single-shot) баалоо, бир гана кыймылдаткычтын (single-engine) чөйрөсү жана бир гана булактан алынган маалыматтын келип чыгышы. Булар активдүү кийинки иштерде чечилип жатат.
Long-tail энбелги камтылышы. Экинчи Жаңыртуу 127 өлкө энбелгисин камтыйт, бирок бөлүштүрүү тең эмес — эң жогорку 10 энбелги учурлардын ≈66.4%ын түзөт, ал эми кошумча 97 энбелгиден турган long tail бирге ≈7.3% (жалпысынан болжол менен 7,300 учур, энбелгиге орточо ~75 учур) кошот. Ошондуктан бул long tail ичиндеги энбелги боюнча композиттер башкы көрсөткүчтөр сунуштаганга караганда ызы-чуураак. Кийинки иштетүүлөр энбелги дайындоону кайра тең салмактап, энбелги боюнча баалоолорду бекемдейт.
Бир жолку баалоо. Когортодогу ар бир учур бир гана жолу бааланды. Чоң тил моделдери, атүгүл төмөн тандоо температурасы шартында да, олуттуу чыгарма вариативдүүлүгүн көрсөтөт; ошондуктан ар бир учурга беш баалоо жүргүзүлгөн жана вариативдүүлүк жарыяланган көп жолу иштетүү протоколу табигый кийинки кадам — өзгөчө “trap-case” под-тандоосунда, мында тандоо термелүүсү астында ырааттуулук коопсуздук дооматынын бир бөлүгү болуп саналат.
Бир гана кыймылдаткычтын чөйрөсү. Бул отчет бир гана кыймылдаткычты мүнөздөйт. Бул жерде альтернативдүү AI системаларга салыштырма талдоолор каралбайт; биз аларды ошол эле MIT лицензиялуу harness менен, тийиштүү методология колдонулган өзүнчө көз карандысыз изилдөө катары жүргүзүшүбүз мүмкүн.
Синтетикалык маалымат. 100,000 учур синтетикалык түрдө генерацияланган — синтетикалык учурлар эмес, жана натыйжалар реалдуу дүйнөдөгү клиникалык көрсөткүчкө өтпөйт. Реалдуу, макулдук берилген, тышкы булактан алынган маалымат боюнча баалоо тиешелүү этикалык көзөмөлдү талап кылат жана бул синтетикалык эталондун чегинен тышкары.
Ушул төртөөнөн тышкары, пландагы эң таасирдүү кеңейтүү — юрисдикция боюнча көп тилдүү теңдик. Kantesti AI Engine колдонуучуларга 75+ тилде кызмат кылат жана тилге жараша стратификацияланган Second-Update под-когорталарын (түрк, немис, испан, француз, итальян, португал, араб, мандарин) иштетүү кыймылдаткыч колдогон тилдер боюнча чыгарманын сапатын сандык баалайт. Ар бир тилге жараша талдоо өзүнүн DOI жана harness тармагы менен жарыяланат.