Энэ жишиг (benchmark) яагаад оршдог вэ, мөн юу шалгадаг вэ

AI-тай дэмжсэн цусны шинжилгээний тайлал нь хэрэглэгчийн болон клиникийн ажлын урсгалд улам бүр ашиглагдаж байна, гэхдээ лабораторийн анагаах ухаанд зориулсан давтагдахуйц үнэлгээний хүрээ (framework) ховор хэвээр байна. Энэ нөхцөлд хамгийн чухал асуултууд нь ерөнхий анагаахын асуулт-хариултын жишиг (benchmark)-уудад хамрагддаг асуултууд биш: дундаж корпускулын эзлэхүүн (MCV) ижил байхад хөдөлгүүр төмрийн дутагдлыг талассеми шинжээс ялгаж чадах уу, Гилбертийн хам шинжийг гепатит гэж хэт оношлох уу, мөн бүрэн хэвийн скринингийн багцад эмгэгийг зохиож гаргах уу?

Урьдчилан бүртгэгдсэн рубрикийн урсгалын диаграмм: Kantesti AI Engine — V11 Хоёр дахь шинэчлэлт, 100,000 тохиолдолд 99.80% нийлбэрийн оноог — хөлдөөсөн (frozen) үнэлгээний шалгууртай хэрхэн харьцуулж үнэлдэгийг харуулна
Зураг 1: V11-ийн суурь болсон жишиг архитектур нь 99.80% нэгдсэн оноо V11 Second Update дээрх 100,000 тохиолдлын кохорт — тохиолдол бүр, түлхүүр үг бүр, онооны бүх систем нь хөдөлгүүр нэг ч PDF харахаас өмнө эх кодонд бүрэн тогтсон бөгөөд рубрик нь V11 анхны хувилбартай яг ижил (байт-ижил) байна. Дизайнаар хойноос рубрик тааруулах боломжгүй.

Нэг удаагийн цусны шинжилгээний багц нь ихэвчлэн хэд хэдэн өрсөлдөх тайлбарыг дэмжих хангалттай мэдээлэл агуулдаг бөгөөд тайлбар хийх эмчийн үүрэг нь тэрхүү тайлбаруудыг сурах бичгийн нэг “зөв хариулт” руу хайж олохын оронд хооронд нь харьцуулж жинлэх явдал юм. Сурах бичгийн жишээн дээр сайн ажилладаг хөдөлгүүр хамгийн чухал тохиолдлуудад бүтэлгүйтэж болно: ялган оношлох үеийн түгээмэл алдаа, дангаараа харахад түгшүүртэй мэт боловч хоргүй хувилбарууд, мөн итгэлтэй туслахуудыг эмгэг үүсгэж зохиомлоор дүгнүүлэхэд хүргэдэг бүрэн хэвийн багцууд.

Энэхүү шалгуурыг яг эдгээр бүтэлгүйтлийн хэлбэрүүд дээр тулгуурлан бүтээсэн. Арван таван тохиолдол бүрийг тодорхой оношлогооны шинж чанараар сонгосон: ижил MCV-тэй (дунджаар эритроцитын эзлэхүүн) β-талассемийн шинжээс ялгаж салгаж хадгалах шаардлагатай төмрийн дутагдлын улмаас үүссэн микроцитоз; зөвхөн тусгаарлагдсан шууд бус гипербилирубинеми л илэрдэг Гилбертийн хам шинжийн илрэл; мөн шинжилгээний 15 үзүүлэлттэй скрининг багц бөгөөд бүх шинжилгээний үзүүлэлтүүд нь өөрийн лавлах хүрээндээ багтсан. Журам нь тохиолдол бүрийг өөрийн нөхцөлөөр нь уншиж чаддаг хөдөлгүүрүүдийг урамшуулж, тийм онош шаардлагагүй байхад итгэлтэй онош руу “хүрэх” хөдөлгүүрүүдийг торгодог.

Анагаах ухааны доктор Томас Клейн (MD) би энэ тохиолдлын багцыг сонгосон, учир нь лабораторийн анагаахын туслахууд хамгийн ихээр буруу ойлгодог хэв маяг эдгээр байдаг. Хамгийн үнэтэй бүтэлгүйтэл нь "ховор өвчнийг алгасах" биш — харин түүнийг нь байхгүй өвчтөнүүдэд энгийн мэт харагдах эмгэгийг зохиомлоор бүтээх явдал юм. Манай Эмнэлгийн баталгаажуулалт hub нь илүү өргөн хүрээний суурь тогтолцоог тайлбарладаг; энэ хуудсанд V11 анхны proof-of-concept болон үүнийг 127 улс дахь SQL-д суурилсан эмнэлзүйн репозитороос татсан 100,000 нэргүйжүүлсэн тохиолдолд хүртэл өргөтгөсөн V11 Second Update-ийг тайлбарласан — мөн адил онооны рубрик, байт-ижил, хойноос тааруулахыг зөвшөөрөөгүй.

Хамгийн сүүлийн лавлагаа ажиллуулалт — V11 Second Update (2026 оны 4-р сарын 26)

2026 оны 4-р сарын 26-ны V11 Second Update лавлагаа ажиллуулалт нь 99.80% V11 анхны хувилбарт ашигласан урьдчилан бүртгэгдсэн рубриктэй ижил рубрикийг ашиглан, үнэлсэн 100,000 нэргүйжүүлсэн тохиолдол дээр Kantesti SQL-д суурилсан эмнэлзүйн репозитороос түүвэрлэсэн бөгөөд 127 улс болон 75+ хэлүүдийг хамарсан. Тохиолдол бүр хөдөлгүүрийн үндсэн зам дээр бүрэн дууссан; trap-case hyperdiagnosis flag идэвхжил 0 / 87,412. хэвээр үлдсэн. 2026 оны 4-р сарын 23-ны V11 анхны ажиллуулалт нь 15 гар аргаар сонгосон тохиолдлыг (нийлмэл 99.12%) хамарч рубрикийг баталгаажуулсан; Second Update нь тэр рубрикийг байт-ижил хэвээр хадгалж, үнэлгээг хүн амын хэмжээний кохорт руу өргөтгөсөн.

Нийлмэл 99.80% 100,000 тохиолдлын 100,000 нь оноо авсан
1.000 Бүтцийн оноо
0.996 Клиникийн оноо
13.26 s Дундаж саатал
0 / 87,412 Урхинд орсон хуурамч эерэгүүд

Нийлмэл томьёо нь гурван бүрэлдэхүүн хэсгийг нэгтгэнэ: бүтцийн нийцэл долоон заавал тайлагнах хэсэг болон арван зургаан заавал дэд хэсэгтэй, клиникийн зөв байдал түлхүүр үгийн эргэн саналт + онооны системийн эргэн саналт + магадлалын тархалтын хүчинтэй эсэхийг шалгах тестээр хэмжигдсэн, мөн хариу өгөх саатал үндсэн замын үйлчилгээний түвшний зорилтот үзүүлэлттэй харьцуулахад. Нарийвчилсан задралыг доорх рубрикийн томьёонд үзүүлсэн — эдгээр жин эсвэл дэд-рубрикуудыг Second Update-д өөрчөөгүй.

Нийлмэл = 0.35 × Бүтцийн + 0.55 × Клиникийн + 0.10 × Саатлын

Үлдсэн 0.20 хувийн пунктын “толгой зай” нь бараг бүхэлдээ клиникийн дэд оноонд задардаг — цөөн тохиолдолд (ихэвчлэн Гепатологи ба Ревматологи) онооны системийн нэг хүлээгдэж байсан түлхүүр үг хөдөлгүүрийн тайлбарт байхгүй байсан ч оношлогооны агуулга зөв байсан. 100,000 тохиолдлын Second-Update кохортын аль ч тохиолдол өөрөө оношийг алдсангүй. Хугацаа (латенц) V11 анхны хувилбарт дунджаар 20.17 s байсан бол Second Update-д 13.26 s болж сайжирсан; хоёр ажиллуулалтын хооронд үйлдвэрлэлийн хөдөлгүүрийн оновчлол хийгдсэнийг харуулж байна. Рубрик, онооны код, API endpoint өөрчлөгдөөгүй.

Улс орон бүрийн нийлмэл оноонууд хамгийн их төлөөлөлтэй 30 улсад 0.9971 (Энэтхэг) —ээс 0.9985 (Швейцарь) хүртэл хэлбэлзсэн. Нэмэлт 97 улсын урт сүүл (нийт ≈7,300 тохиолдол) нь системчилсэн доройтол үзүүлээгүй. Тохиолдлын тоогоор тэргүүлэгч хувь нэмэр оруулагчид: АНУ (10,500), Бразил (9,500), Испани (9,000), Итали (8,000), Герман (7,800), Франц (7,400), Португал (5,800), Türkiye (3,400), Их Британи (2,900), Мексик (2,500).

15 тохиолдлоос 100,000 хүртэл: 127 улс дахь когортуудын хувьсал

Анхны V11 тохиолдлын самбар долоон мэргэжлийг хамарсан — гематологи, дотоод шүүрэл судлал, бодисын солилцооны анагаах ухаан, гепатологи, бөөр судлал, зүрх судас, ревматологи — мөн түүнчлэн hyperdiagnosis trap-ийн зориулалтын хоёр тохиолдолтой; тохиолдол бүр нь Kantesti эмнэлзүйн өгөгдлийн репозитороос бичгээр өгсөн мэдээлэлтэй зөвшөөрлийн дагуу татсан бодит өвчтөний нэргүйжүүлсэн бүртгэл байв. V11 Second Update нь үнэлгээг 127 улс дахь 100,000 нэргүйжүүлсэн тохиолдолд, найман мэргэжлээр хуваарилан (анхны долоо плюс trap дэд хэсгийг шингээх дотоод анагаахын зориулалтын bucket) өргөтгөнө. Мөн адил онооны рубрикийг хоёр ажиллуулалтын хооронд байт-ижил байдлаар хэрэглэсэн.

V11 анхны case-panel дизайн — долоон анагаахын мэргэжлээр тархсан нэргүйжүүлсэн 15 цусны шинжилгээний тохиолдол + хэт оношлох “trap” гэсэн 2 тохиолдол; мөн адил рубрик нь V11 Хоёр дахь шинэчлэлтэд 100,000 тохиолдолд 99.80% нийлбэрийн оноонд хүрсэн
Зураг 2: V11 анхны тохиолдлын самбарын дизайн: гематологи, дотоод шүүрэл судлал, бодисын солилцооны анагаах ухаан, гепатологи, бөөр судлал, зүрх судас, ревматологи — дээр нэмээд хоёр trap тохиолдол (Гилбертийн хам шинж ба бүрэн хэвийн скрининг самбар). Second Update нь энэ рубрикийг байт-ижил хэвээр хадгалж, кохортыг Kantesti SQL репозитороос татсан 100,000 тохиолдлоор өргөтгөнө.

Нэргүйжүүлэлтийг Safe Harbor аргачлалаар хийсэн: бүх шууд танигчийг устгасан эсвэл орлуулсан бөгөөд тохиолдол бүрт BT-NNN-LABEL (V11 анхны) форматын дагуу жишиг-дотоод тохиолдлын код оноосон; Second Update-д case_uid тогтвортой нэргүйжүүлсэн GDPR-ийн 9(2)(j) зүйлд шинжлэх ухааны судалгаанд зориулсан зохих хамгаалалтын арга хэмжээнүүдийн хамт, мөн Их Британийн GDPR-ийн дүйцэх заалтуудын дагуу гүйцэтгэсэн. Хэвлэгдсэн harness, техникийн тайлан, эсвэл гаргасан өгөгдлийн багцын аль ч хэсэгт хувийн таних мэдээлэл огт харагдахгүй.

V11 анхны хувилбарын дагуу боловсруулалт хийгдсэн — 15 гар аргаар сонгосон тохиолдол

Анхны V11 тохиолдлын самбарыг доктор Томас Клейн лабораторийн анагаахын туслахууд хамгийн их андуурдаг оношилгооны хэв маягийг дасгалжуулах зорилгоор гараар сонгон боловсруулсан. Арван таван тохиолдол тус бүрийг доор жагсаасан тодорхой оношилгооны шинж чанараар сонгосон.

Гематологи (3) BT-001, BT-006, BT-007 Төмрийн дутагдлын цус багадалт · B12 витамины дутагдал · Бета-талассеми бага хэлбэр
Дотоод шүүрэл судлал (3) BT-002, BT-008, BT-012 Хашимотогийн бамбай булчирхайн үрэвсэл · Инсулины эсэргүүцэлтэй PCOS · Дунд/хүнд хэлбэрийн D витамины дутагдал
Бодисын солилцоо (2) BT-003, BT-013 Метаболик хам шинжтэй T2DM · тулай үүсэх эрсдэлтэй гиперурикеми
Элэг судлал (2) BT-004, BT-009 NAFLD / NASH · Цочмог вируст гепатит
Бөөр судлал · Зүрх судас · Ревматологи (3) BT-005, BT-010, BT-011 Бөөрний архаг өвчин 3-р шат · Атероген дислипидеми · Системийн чонон хөрвөс
Trap тохиолдлууд (2) BT-014, BT-015 Гилбертийн хам шинж (тусгаарлагдсан шууд бус гипербилирубинеми) · Насанд хүрэгчдийн бүрэн хэвийн скрининг

Яагаад яг энэ хуваарилалт вэ

Гематологи нь бодит лабораторийн практикт хамгийн их тохиолддог “хууран мэхлэх” бүсүүд болох микроцитик дифференциалууд болон макроцитик дифференциалуудын эзлэхүүн өндөртэй тул гурван тохиолдол авдаг. Эндокринологи нь Хашимотогийн өвчин, PCOS, мөн D витамины дутагдал гэсэн илрэлүүд нь өөр өөр оношлох хэлбэрүүдийг (аутоэсрэгбиеэр өдөөгдсөн, дааврын харьцаагаар өдөөгдсөн, ганц маркераар өдөөгдсөн) дасгалжуулдаг тул гурван тохиолдол авдаг. Нэг тохиолдлын мэргэжлүүд ч гэсэн утга учиртай хэвээр, учир нь CKD, ASCVD эрсдэл, мөн SLE тус бүр өөрийн оноо тооцох системтэй бөгөөд хөдөлгүүр (engine) үүнийг дуудах ёстой (тус тусдаа KDIGO шатлал, ASCVD 10 жилийн эрсдэл, 2019 EULAR/ACR SLE шалгуур).

V11 Хоёр дахь шинэчлэл — 127 улс дахь 100,000 нэргүйжүүлсэн тохиолдол

Хоёр дахь шинэчлэл нь анхны V11 “hard-coded” 15 тохиолдлын Python утгыг Kantesti клиникийн репозиторын эсрэг параметржүүлсэн, зөвхөн унших боломжтой SQL асуултаар сольсон (anonymised_blood_panels). Асуулт нь шүүлт хийнэ consent_research = 1 AND released_for_benchmark = 1 бөгөөд ил тод байдлын үүднээс бүх жишиг (benchmark) ажиллуулахын дээд хэсэгт хэвлэгддэг. Мэргэжлээрх бүлгийн (cohort) хуваарилалтыг доор үзүүлэв.

Эндокринологи 23,900 тохиолдол (23.9%) Бамбай булчирхай, PCOS, D витамин, бэлгийн булчирхайн тэнхлэг, гипофиз
Бодисын солилцооны анагаах ухаан 21,900 тохиолдол (21.9%) T2DM, бодисын солилцооны хам шинж, липидийн самбар, гиперурикеми
Гематологи 15,400 тохиолдол (15.4%) Микроцит ба макроцит ялгаварлалт, B12/фолат, төмрийн шинжилгээ
Гепатологи 12,400 тохиолдол (12.4%) NAFLD/NASH, вируст гепатит, FIB-4, холестаз
Дотоод анагаах ухаан (үүнд trap subset орно) 9,000 тохиолдол (9.0%) Холимог илрэлүүд ба 8,723 зориулалтын хэт-оношилгооны trap тохиолдол
Зүрх судас 7,500 тохиолдол (7.5%) ASCVD эрсдэл, атероген дислипидеми, hs-CRP
Ревматологи 6,000 тохиолдол (6.0%) SLE, RA, васкулит, аутоэсрэгбиеийн самбар (EULAR/ACR шалгуур)
Нефрологи 4,000 тохиолдол (4.0%) Бөөрний архаг өвчний (CKD) үе шатлал (KDIGO), eGFR-ийн чиг хандлага, электролитийн алдагдал

Газарзүйн тархалт — шилдэг 10 улс

Энэхүү кохорт нь 127 улсыг хамарсан (ISO 3166-1 alpha-2). Европ 57.7%, Америк 25.4%, Ази-Номхон далай 6.2%, нэрлэсэн Ойрхи Дорнод/Африкийн оруулгууд 3.4%, мөн нэмэлт 97 улсын урт сүүл нийлээд ойролцоогоор 7.3% байна. Хамгийн том арван хувь нэмэр оруулагч нь АНУ (10,500), Бразил (9,500), Испани (9,000), Итали (8,000), Герман (7,800), Франц (7,400), Португал (5,800), Турк (3,400), Их Британи (2,900), Мексик (2,500). Улс тус бүрийн нийлмэл оноо 0.9971 (Энэтхэг) —ээс 0.9985 (Швейцарь) хүртэл хэлбэлзсэн.

Урьдчилан бүртгэгдсэн шалгуур (rubric), тайлбарласан нь

Урьдчилсан бүртгэл (pre-registration) нь энэхүү жишиг (benchmark)-ийн хамгийн чухал арга зүйн сонголт юм. Хүлээгдэж буй онош бүр, эмнэлзүйн оноо тооцох систем бүр, мөн тайлангийн хэсэг бүрийг эх кодод (source code) оруулсан хөдөлгүүрийг дуулахаас өмнө. Тиймээс хөдөлгүүрийг “хөөргөх” зорилготой рубрикийн (rubric) дараах тохируулга (post-hoc tuning) хийх боломжгүй.

Нийлмэл оноог бүрдүүлэх гурван бүрэлдэхүүн бий. Тэдгээрийн бүтцийн бүрэлдэхүүн 35 хувийг эзэлж, хөдөлгүүр нь заавал байх долоон тайлангийн хэсгийг (гарчиг, хураангуй, гол олдворууд, дифференциал, оноо тооцох системүүд, зөвлөмжүүд, хяналт/дараагийн алхам) болон тэдгээрийн доторх заавал байх арван зургаан дэд хэсгийг буцаасан эсэхийг хэмжинэ. Хэсгийн оршихуй нь бүтцийн тооцоонд 40 хувийг, дэд хэсгийн оршихуй нь 60 хувийг эзэлнэ.

The эмнэлзүйн бүрэлдэхүүн 55 хувийг эзэлж, гурван зүйлийг нэгтгэнэ: онош-гол түлхүүр үгийн сэргэлт (эмнэлзүйн дэд онооны 70 хувь), оноо тооцох системийн сэргэлт (20 хувь — шаардлагатай үед хөдөлгүүр Mentzer, FIB-4, HOMA-IR, ASCVD эрсдэл, KDIGO шатлал, EULAR/ACR шалгуурыг тооцдог эсэх), мөн магадлалын нийлбэрийн хүчинтэй байдлын шалгалт (10 хувь — дифференциал магадлалууд [90, 110] интервал дотор нийлэгдэх ёстой). “Хууран мэхлэх” (trap) тохиолдлуудад зохиомлоор эмгэгийн туг (pathology flag) үүсгэсэн тохиолдол бүрт 0.10-аар тооцож, дээд тал нь гурван туг хүртэл хязгаарласан, 0.30 хүртэлх тодорхой гипер-оношлох (hyperdiagnosis) торгууль хасна.

The саатлын (latency) бүрэлдэхүүн 10 хувийг эзэлнэ. 20 секундээс бага хугацаанд хариулбал бүтэн 0.10, 40 секундээс бага хугацаанд хариулбал 0.05, түүнээс удаан бол 0 оноо. 20 секундын зорилт нь үйлдвэрлэлийн (production) primary-path үйлчилгээний түвшний зорилт; 40 секундын дээд хязгаар нь хүнд хөдөлгүүрийн (heavy-engine) дуудах үед хэрэгжих Phase 2-ийн нөөц төсөв юм.

MIT лицензтэй Kantesti жишиг harness ажиллаж, тохиолдол бүрийн оноог гаргаж буй төгсгөлийн (terminal) дэлгэцийн зураг — мөн адил harness, одоо SQL-ээр удирдуулсан, V11 Хоёр дахь шинэчлэлтэд 100,000 тохиолдлын run дээр 99.80% нийлбэрийн оноог гаргасан
Зураг 3: Гүйцэтгэлд ашигласан туршилтын хэрэгсэл — яг тэр хөдөлгүүр нь 99.80% нийлмэл оноог гаргасан V11 Хоёр дахь шинэчлэлтийн 100,000 тохиолдлын кохорт дээр. Тохиолдол бүрийг A4 PDF хэлбэрээр дүрсэлж, үйлдвэрлэлийн v11 төгсгөлийн цэг рүү байршуулан, хөлдөөсөн рубрикын дагуу оноодог. Хоёр дахь шинэчлэлт нь параметржүүлсэн SQL case loader нэмсэн; түүхий хөдөлгүүрийн хариултуудын давхарласан санамсаргүй түүвэр (n = 201) нь нэгтгэсэн онооны хүснэгтийн хажууд хадгалагдана.

Урьдчилсан бүртгэл (pre-registration) юуг сэргийлдэг вэ

Нэгдүгээр талын (first-party) жишигүүд нь post-hoc рубрикийн тохируулгаар өөрсдийн тоонуудыг хөөрөгдөх нь элбэг. Ихэнхдээ хэв маяг нь бараг ижил байдаг: баг хөдөлгүүрийг ажиллуулж, хаанаа дутуу гүйцэтгэж байгааг хармагцаа, дутуу гүйцэтгэсэн хэсгүүдийг бага тооцдог болгохын тулд рубрикийг чимээгүйхэн тохируулдаг. Анхны хөдөлгүүрийн дуудлагаас өмнө рубрикийг эх кодод оруулж, MIT лицензийн дор туршилтын орчныг (harness) нийтэлснээр энэ тохируулга хувилбарын хяналтад (version control) ил тод болдог. Хэн ч репозиторыг (repository) клон хийж, рубрикийн зохиогчийн огноог шалгаж, хөдөлгүүрийн үр дүнг оноог хэлбэржүүлэхэд ашиглаагүйг баталгаажуулж чадна.

Хэт оношлох (Hyperdiagnosis) урхи — хэт дуудлага хийх нь бодит алдаа болох шалтгаан

Энгийн дэлгэцийн шинжилгээн дээр хэвийн гарсан тохиолдолд эмгэгийг хэт түргэн (over-calling) оношлох нь хэрэглэгчид чиглэсэн эмнэлгийн туслахуудын баримтжуулсан доголдлын горим юм. Үүний үр дагаварт шаардлагагүй шинжилгээ, өвчтөний түгшүүр, мөн эмчилгээний улмаас үүсэх (iatrogenic) нэмэлт үзлэг/ажиллагаа орно. Энэхүү жишиг дэх хоёр “хууран мэхлэх” тохиолдлыг энэ доголдлын горимыг ил харагдаж, оноож болохуйц болгохоор зохион бүтээсэн.

Гилбертын хам шинжийн самбар дээр энгийн AI гепатит зохиомлоор гаргаж буйг харьцуулсан зэрэгцээ (side-by-side) харьцуулалт vs Kantesti хөдөлгүүр хоргүй UGT1A1 полиморфизмыг зөв таньж илрүүлсэн — энэ аргачлал нь V11 Хоёр дахь шинэчлэлт 99.80% жишигт 87,412 trap-flag боломжийн хүрээнд худал эерэгийг 0 болгож өргөжсөн
Зураг 4: V11 анхны хувилбараас ирсэн trap-case загвар — Гилбертын хам шинжийг гепатит гэж итгэлтэйгээр тэмдэглэдэг хөдөлгүүр, эсвэл бүрэн хэвийн дэлгэц дээр хил хязгаарын эмгэгийг зохиодог хөдөлгүүр нь клиник дуугаралтыг зөв гэж сонсогдуулсан мэт байдал гаргасных нь төлөө шагнахын оронд шийтгэнэ. Энэхүү аргачлал нь 0 / 87,412 V11 Хоёр дахь шинэчлэлт 100,000 тохиолдлын ажиллагааны явцад гарсан false-positives дээр масштаблагдсан бөгөөд 99.80% нийлмэл оноог үүсгэсэн.

🟡 Trap 1 — BT-014-GILBERT

Илрэл. Нийт билирубин 2.4 мг/дл бүхий 24 настай эрэгтэй. Шууд фракц хэвийн, трансаминаз ба шүлтлэг фосфатаза нь лавлах хүрээндээ байна, ретикулоцитүүд онцгүй, мөн гаптоглобин ба LDH нь гемолизийг үгүйсгэнэ.

Зөв тайлал. Гилбертийн хам шинж — UGT1A1-ийн хоргүй полиморфизм. Тайлал нь гепатит, элэгний хатуурал (цирроз), гемолизийн цус багадалт, эсвэл цөсний замын бөглөрөл зэргийг дуудах ёсгүй.

V11-ийн үр дүн. Нийлмэл 1.000. Хянасан зургаан хэт-оношлох (over-diagnosis) тугны аль нь ч идэвхтэй онош хэлбэрээр гарч ирээгүй.

🟡 Trap 2 — BT-015-HEALTHY

Илрэл. 15 параметртэй энгийн (routine) скрининг самбар бүхий 35 настай эмэгтэй. Бүх шинжилгээний үзүүлэлтүүд нь лавлах хүрээндээ бүрэн багтсан.

Зөв тайлал. Тайвшруулах зөвлөмж ба амьдралын хэв маягийг тогтвортой барих. Тайлал нь эмнэлзүйн хувьд хэрэгтэй мэт харагдуулахын тулд хил хязгаарын эмгэгийг зохиомлоор үүсгэж болохгүй.

V11-ийн үр дүн. Нийлмэл 1.000. Хянагдсан долоон хэт оношлох дохионы аль нь ч — чихрийн шижин, цус багадалт, бамбай булчирхайн үйл ажиллагааны бууралт, дислипидеми, гепатит, бөөрний өвчин, дутагдал — идэвхтэй онош хэлбэрээр илрээгүй.

Хоёр сорилтын аль алинд нь хянагдсан 13 хэт оношлох дохиог шалгасан. Ямар ч нь идэвхжээгүй. Энэ бол ямар ч эмч AI хөдөлгүүрийг triage эсвэл зөвлөгөө авахаас өмнөх хэрэгсэл болгон ашиглах талаар бодож байгаа бол хамгийн чухалд тооцогдох үр дүн юм: систем өвчин байхгүй газарт өвчин зохиож гаргаагүй.

Ментцерийн индекс: төмрийн дутагдлыг талассемийн шинж (thalassaemia trait)-ээс ялгах

Өндөр үнэ цэнтэй хоёр дахь олдвор нь BT-001 (төмрийн дутагдлын цус багадалт) тохиолдлыг BT-007 (бета-талассеми бага хэлбэр) тохиолдолтой хослуулсан явдалтай холбоотой. Аль аль нь микроцитозтой илэрдэг бөгөөд энгийн ангилагчдад түгээмэл саад болдог. MCV-ийг RBC-ийн тоонд хувааж тооцдог Ментцерийн индекс нь төмрийн дутагдалд 13-аас их, талассемийн шинжид 13-аас доогуур гардаг.

BT-001-д өвчтөн 34 настай эмэгтэй байсан бөгөөд гемоглобин 10.4 г/дл, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферритин 6 нг/мл, мөн TIBC өндөр байв. Ойролцоогоор 17.7 гэсэн Ментцерийн индекс нь абсолют төмрийн дутагдлыг дэмжиж байна. BT-007-д өвчтөн 28 настай эрэгтэй бөгөөд микроцитозтой (MCV 65.8 фл) боловч RBC-ийн тоо 6.2 өндөр, RDW хэвийн, ферритин хэвийн, HbA2 5.6 хувь байв. Ойролцоогоор 10.6 гэсэн Ментцерийн индекс нь талассемийн шинжийг зааж, өндөр HbA2 нь бета-талассеми бага хэлбэрийг баталж байна.

Төмрийн дутагдлын цус багадалт Ментцер > 13 Ферритин бага, TSAT бага, TIBC өндөр, RDW өндөр
Бета-талассемийн шинж Ментцер < 13 Ферритин хэвийн, RDW хэвийн, HbA2 өндөр (>3.5%), RBC-ийн тоо өндөр

Хоёр тохиолдол хоёулаа 1.000 оноо авсан. Хөдөлгүүр нь хоёр тайлалд Ментцерийн индексыг ил тод ашигласан бөгөөд тохиолдол бүрт зөв оношийг буцаасан. Энэ бол бүхэл benchmark-ийн хамгийн эмнэлзүйн хувьд тайвшруулах ганц үр дүн, учир нь талассемийн шинжийг төмрийн дутагдал гэж буруу ангилах нь зохисгүй төмрийн нэмэлт өгөхөд хүргэж, гэр бүлийн скринингийн боломжууд алдагддаг; харин төмрийн дутагдлыг талассеми гэж буруу ангилах нь энгийн орлуулах эмчилгээг хойшлуулдаг. Манай ферритины хүрээний заавар ялгавартай оношлогооны өргөн хүрээний контекстийг тайлбарладаг.

V11 анхны лавлагаа ажиллуулалтын тохиолдол тус бүрийн үр дүн (2026 оны 4-р сарын 23)

15 тохиолдлын proof-of-concept кохорт дээрх анхны V11 лавлагаа ажиллуулалт нь арга зүйн суурь болдог Хоёр дахь шинэчлэлтийн хувьд: доорх тохиолдол бүрийн нарийн мэдээлэл нь рубрик бодит хөдөлгүүрийн хариуг хэрхэн боловсруулдгийг харуулна. Арван таван тохиолдлын 12 нь үндсэн зам дээр нийлмэл онооны тааз болох 1.000-д хүрсэн; гурван тохиолдлыг Phase 2-ийн fallback-оор үйлчилсэн бөгөөд 0.05 latency бонусоо алдсан ч бүх клиник болон бүтцийн агуулгыг хадгалсан. Нэг тохиолдолд нэг заавал оруулах дэд хэсэг дутуу байсан; нэг нь магадлалын тархалтын нийлбэрийг ялимгүй бууруулсан байдлаар буцаасан.

Тохиолдлын ID Мэргэжил Нийлмэл Хугацаа (Latency) Path
BT-001-IDAГематологи1.00017.8 сүндсэн
BT-006-B12Гематологи1.00018.4 сүндсэн
BT-007-THALГематологи1.00017.0 сүндсэн
BT-002-HASHЭндокринологи0.95037.0 снөөц (fallback)
BT-008-PCOSЭндокринологи0.98718.6 сүндсэн
BT-003-T2DMБодисын солилцоо1.00019.1 сүндсэн
BT-013-GOUTБодисын солилцоо1.00019.4 сүндсэн
BT-004-NAFLDГепатологи1.00019.6 сүндсэн
BT-009-VIRHEPГепатологи0.95023.4 снөөц (fallback)
BT-014-GILBERTТрап (Trap)1.00018.9 сүндсэн
BT-005-CKDНефрологи1.00017.4 сүндсэн
BT-010-ASCVDЗүрх судас1.00019.7 сүндсэн
BT-011-SLEРевматологи0.98118.2 сүндсэн
BT-012-VITDЭндокринологи1.00019.3 сүндсэн
BT-015-HEALTHYТрап (Trap)1.00018.7 снөөц (fallback)

PCOS-ийн тохиолдол (BT-008) хариуны бүтэц дэх заавал оруулах нэг дэд хэсгийг алдсан — арван зургаан дэд хэсгийн оронд арван таван нь — үүний улмаас бүтцийн оноо 1.000-аас 0.963 болж буурсан. SLE-ийн тохиолдол (BT-011) оношилгооны түлхүүр үг болон онооны систем бүрийг хадгалсан хэвээр мөртлөө клиник оноог 0.965 болгон бууруулсан, магадлалын тархалтын нийлбэр нь ялимгүй буурсан дүнг буцаасан. Аль ч төгс бус тохиолдол зөв оношийг алдсангүй.

V11 Хоёр дахь шинэчлэлтийн нэгтгэсэн дүн — 100,000 тохиолдол

Хүн амын түвшинд хувь тохиолдлын мөрүүд нь хүний уншиж болохооргүй тул Хоёр дахь шинэчлэлт нь 100,000 мөрийн хүснэгт биш, харин нэгтгэсэн хэмжүүрүүдийг тайлагнана. Гол нэгтгэсэн дүнг доор үзүүлэв; мэргэжил тус бүр болон улс тус бүрийн задлалыг техникийн тайлан болон Figshare-ийн байршилд нийтэлсэн. Давхарласан санамсаргүй түүвэр n = 201 түүхий хөдөлгүүрийн хариултууд (детерминист үрийн утга 20260426) нь шалгах зорилгоор GitHub-ийн results/ директорид нийтлэгдсэн.

Нийлмэл оноо V11 анхны: 0.9912 (99.12%) → Хоёр дахь шинэчлэлт: 0.9980 (99.80%) Δ = +0.0068 100,000 тохиолдлын кохортын хэмжээнд
Бүтцийн оноо (дунджаар) V11 анхны: 0.998 → Хоёр дахь шинэчлэлт: 1.000 Хүн амын түвшинд төгс бүтцийн нийцэл
Клиник оноо (дунджаар) V11 анхны: 0.998 → Хоёр дахь шинэчлэлт: 0.996 −0.002; ямар ч тохиолдол оношийг өөрөө алдсангүй
Хугацааны саатал — дундаж (хүрээ) V11 анхны: 20.17 с (17.0–37.0 с) → Хоёр дахь шинэчлэлт: 13.26 с (9.0–16.94 с) Дамжуулалт бүрийн хоорондох үйлдвэрлэлийн хөдөлгүүрийн оновчлол
Хөдөлгүүрийн зам = үндсэн V11 анхны: 12 / 15 → Хоёр дахь шинэчлэлт: 100,000 / 100,000 Дамжуулалтын явцад ямар ч үед 2-р үе шатны нөөц (fallback) шаардлагагүй байсан
Дэд багцын хэт оношилгооны (hyperdiagnosis) дохиоллын тугнууд V11 анхны: 0 / 13 → Хоёр дахь шинэчлэлт: 0 / 87,412 Хүн амын хэмжээнд хуурамч эерэг тохиолдол 0 (8,723 хавх тохиолдлыг хянасан)

Гарчгийн оноо бидэнд юу хэлж өгдөггүй вэ

Энэхүү урьдчилан бүртгэгдсэн (pre-registered) тодорхой шалгуурын дагуу 99.80 хувийн нийлмэл оноо нь 127 улс хамарсан 100,000 тохиолдлын нэргүй (anonymised) түүвэр дээр — бараг дээд түвшний гүйцэтгэлтэй тэнцүү; гэхдээ үүнийг болгоомжтой хүрээнд тайлбарлах ёстой. Үр дүн нь V11 дээр бид эх кодондоо (source code) оруулсан шалгуурын эсрэг хөдөлгүүрийн зан төлөвийг л тайлбарлаж байна; энэ нь бодит ертөнцөд байдаг бүх цусны шинжилгээний самбар дээр хөдөлгүүр зөв ажилладаг гэсэн бүх нийтийн (universal) мэдэгдэл биш.

Оноо нь хөдөлгүүр энэ үнэлгээнд сонгосон оношилгооны хэв маягийг хүн амын хэмжээнд түүвэр дээр зөв боловсруулсан гэж хэлж байна; нийтлэгдсэн бөгөөд давтагдах боломжтой аргачлалын дагуу. Энэ нь хөдөлгүүр бодит ертөнцөд байдаг бүх цусны шинжилгээний самбар дээр зөв гэсэн үг биш. Мөн хөдөлгүүр эмчийн шийдвэрийг орлох ёстой гэж хэлээгүй. Түүнчлэн хөдөлгүүр бусад AI системүүдээс илүү гүйцэтгэлтэй гэж хэлээгүй — бусад хөдөлгүүрүүдтэй харьцуулсан дүн шинжилгээг энэ тайланд зориуд хамрах хүрээнээс гадуур (out of scope) үлдээсэн.

Оноо нь тогтоож өгдөг зүйл бол суурь (baseline) юм. Шалгуур ба туршилтын орчны (harness) мэдээлэл нийтэд нээлттэй бол хөдөлгүүрийн ирээдүйн хувилбаруудыг мөн тэр шалгуурын дагуу үнэлж болно — V11 анхны 15 тохиолдолд, Хоёр дахь шинэчлэлтийн 100,000 тохиолдлын түүвэрт, эсвэл цаашдын өргөтгөлүүдэд; нийтлэгдсэн оноо ба дараагийн аль нэг ажиллуулах (run) хоорондын зөрүү өөрөө хэмжигдэх боломжтой. Энэ бол урьдчилан бүртгэлийн (pre-registration) үнэ цэнэ: гүйцэтгэлийн нэхэмжлэлийг шалгаж болох нэхэмжлэл болгон хувиргадаг.

Энэхүү жишиг (benchmark)-ийг 10 минутанд хэрхэн давтах вэ

Давтахын тулд зөвхөн Kantesti API итгэмжлэл (credential) хослол, мөн Python 3.10 ба түүнээс хойшхи орчин хэрэгтэй бөгөөд requests болон reportlab сангууд суусан байх шаардлагатай. Бүрэн harness нь MIT лицензийн дагуу гаргасан, нэг л бие даасан Python модулиас бүрдэнэ.

Давтагдах чанарын сүлжээний диаграмм: V11 Хоёр дахь шинэчлэлтийн жишиг (99.80% нийлбэр, 100,000 тохиолдол, 127 улс) нь Figshare, ResearchGate, Academia.edu болон GitHub дээр Figshare DOI-г каноник зангуу (canonical anchor) болгон хуулбарласан
Зураг 5: V11 Хоёр дахь шинэчлэлтийн жишиг (benchmark) — 127 улс дахь 100,000 тохиолдлын дунд 99.80% нийлмэл оноо — дөрвөн судалгааны платформ дээр ижилхэн туссан. Figshare DOI нь эрдэм шинжилгээний каноник танигч (canonical scholarly identifier) юм; ResearchGate (нийтлэл 404175463), Academia.edu (өгүүлэл 165956808), мөн GitHub нь SQL-д тулгуурласан harness, түүхий хариултын давхарласан санамсаргүй түүвэр (stratified random sample), мөн улс/мэргэжлийн түвшний онооны хүснэгтүүдтэй зэрэгцээ хуулбаруудыг байршуулдаг.

Шинэ run хийх дөрвөн алхам

Нэг. Репозиторыг клон хийх: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Хоёр. Хамаарлуудыг суулгана уу: pip install -r requirements.txt (Хоёр дахь шинэчлэлт нэмдэг mysql-connector-python ≥ 8.0 SQL case loader-д). Гурав. Тохируулна уу KANTESTI_USERNAME болон KANTESTI_PASSWORD Хөдөлгүүрийн API-д орчны хувьсагч (environment variables) байдлаар. Хоёр дахь шинэчлэлтийн SQL case loader-д мөн дарааг тохируулна уу: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ба KANTESTI_DB_PASSWORD — ачаалагч нь зөвхөн унших эрхтэй үүрэг (role)-ээр холбогддог (bench_reader) бөгөөд хүснэгтүүдийг тодорхойлох эрхгүй. Дөрөв. Ажиллуулна уу python benchmark_bloodtest.py --limit 100000 Бүрэн Second-Update ажиллуулахын тулд, эсвэл python benchmark_bloodtest.py --limit 1000 Хурдан давталт хийхэд. Гаралтууд байрлана ./benchmark_results/: улс орон болон мэргэжлээр нь тус бүрийн баганатай CSV онооны хүснэгт, JSON нэгтгэл, давхарласан-санамсаргүй түүвэр (raw-response sample), мөн Markdown тайлан.

2026 оны 4-р сарын 23-ны өдрийн лавлагаа ажиллалт (V11 анхны, 15 тохиолдол) болон 2026 оны 4-р сарын 26-ны өдрийн лавлагаа ажиллалт (V11 Second Update, 100,000 тохиолдол) нь репозиторын results/ дотор хадгалагдсан. Шинэ ажиллалт нь лавлагаа ажиллалтуудыг өөрчлөхгүйгээр шинэ timestamp-тай онооны хүснэгт үүсгэнэ. Хэрэв таны ажиллалт утгын хувьд мэдэгдэхүйц өөр үр дүн гаргавал, GitHub issue нээгээд ажиллалтын timestamp болон хариуны metadata-д буцсан engine хувилбарыг оруулна уу.

Хязгаарлалтууд ба ирээдүйн ажил

127 улс оронд 100,000 тохиолдол хамруулсан ч дөрвөн хязгаарлалтыг ил тод хүлээн зөвшөөрөх шаардлагатай: урт сүүлтэй улс орнуудын түүвэрлэлт дутмаг, нэг удаагийн үнэлгээ, нэг хөдөлгүүрийн хүрээ, мөн нэг эх сурвалжаас авсан өгөгдлийн гарал үүсэл. Эдгээрийг идэвхтэй дараагийн ажлаар шийдвэрлэж байна.

Урт сүүлтэй улс орнуудын хамрах хүрээ. Second Update нь 127 улс орнийг хамарсан боловч хуваарилалт тэнцвэргүй — шилдэг 10 оролцогч нь ≈66.4% тохиолдлыг бүрдүүлдэг бөгөөд нэмэлт 97 улс орноос бүрдэх урт сүүл нь хамтад нь ≈7.3% (ойролцоогоор 7,300 тохиолдол, улс орон бүрт дунджаар ~75 тохиолдол) оруулж байна. Тиймээс энэ урт сүүл дэх улс орон тус бүрийн нийлмэл үзүүлэлтүүд нь гарчигт гардаг тоонуудтай харьцуулахад илүү их шуугиантай. Ирээдүйн ажиллалтууд нь улс орон тус бүрийн (jurisdiction) тооцооллыг бататгахын тулд түүвэрлэлт дутмаг улс орнуудаас илүүтэйгээр сонгон авах болно.

Нэг удаагийн үнэлгээ. Кохорт дахь тохиолдол бүрийг нэг удаа үнэлсэн. Том хэлний загварууд нь түүвэрлэлтийн температур бага байсан ч гаралтын хэлбэлзэл (output variance) мэдэгдэхүйц байдаг тул тохиолдол бүрт таван үнэлгээ хийж, тайлагнасан хэлбэлзэлтэй олон удаагийн протокол нь дараагийн байгалийн алхам юм — ялангуяа trap-case дэд хэсэг дээр, түүвэрлэлтийн чичиргээнээс үүдэлтэй хэлбэлзэлд тогтвортой байх нь аюулгүй байдлын баталгааны нэг хэсэг байдаг.

Нэг хөдөлгүүрийн хүрээ. Энэхүү тайлан нь нэг хөдөлгүүрийг тодорхойлж байна. Бусад AI системүүдтэй харьцуулсан шинжилгээ нь энд хамрах хүрээнээс гадуур; бид ижил MIT лицензтэй harness-ийн эсрэг, зохих аргачлалтайгаар тусдаа бие даасан судалгаа болгон үргэлжлүүлж магадгүй.

Нэг эх сурвалжаас авсан өгөгдлийн гарал үүсэл. 100,000 тохиолдол нь нэг клиник репозитор (Kantesti SQL-д тулгуурласан клиник өгөгдлийн агуулах)-оос авсан нэргүйжүүлсэн бодит өвчтөний бүртгэлүүд юм. Эдгээр нь дэлхийн түвшинд хүн амыг төлөөлөх санамсаргүй түүвэр биш бөгөөд үйлдвэрлэлийн (production) урсгалаас сонгон авсан урсгалыг төлөөлнө. Үнэлгээг гаднаас эх сурвалжтай олон төвийн (multi-centre) өгөгдөлд өргөжүүлэх нь замын зураглалд орсон.

Эдгээр дөрвөөс гадна хамгийн нөлөөтэй төлөвлөсөн өргөтгөл нь улс орон тус бүр дээр олон хэлний тэнцвэржилт (parity) юм. Kantesti AI Engine нь 75+ хэл дээр хэрэглэгчдэд үйлчилдэг бөгөөд хэлээр нь давхарласан Second-Update дэд кохортуудыг (Турк, Герман, Испани, Франц, Итали, Португал, Араб, Мандарин) ажиллуулах нь хөдөлгүүрийн дэмждэг хэлүүдийн хүрээнд гаралтын чанарыг хэмжинэ. Хэл тус бүрээр давхарласан шинжилгээ бүрийг өөрийн DOI болон harness branch-тай хамт нийтэлнэ.