Энэ жишиг (benchmark) яагаад оршдог вэ, мөн юу шалгадаг вэ

AI-тай дэмжсэн цусны шинжилгээний тайлал нь хэрэглэгчийн болон клиникийн ажлын урсгалд улам бүр ашиглагдаж байна, гэхдээ лабораторийн анагаах ухаанд зориулсан давтагдахуйц үнэлгээний хүрээ (framework) ховор хэвээр байна. Энэ нөхцөлд хамгийн чухал асуултууд нь ерөнхий анагаахын асуулт-хариултын жишиг (benchmark)-уудад хамрагддаг асуултууд биш: дундаж корпускулын эзлэхүүн (MCV) ижил байхад хөдөлгүүр төмрийн дутагдлыг талассеми шинжээс ялгаж чадах уу, Гилбертийн хам шинжийг гепатит гэж хэт оношлох уу, мөн бүрэн хэвийн скринингийн багцад эмгэгийг зохиож гаргах уу?

Урьдчилан бүртгэгдсэн рубрикийн урсгалын диаграмм: Kantesti AI Engine — V11 Хоёр дахь шинэчлэлт, 100,000 тохиолдолд 99.80% нийлбэрийн оноог — хөлдөөсөн (frozen) үнэлгээний шалгууртай хэрхэн харьцуулж үнэлдэгийг харуулна
Зураг 1: V11-ийн суурь болсон жишиг архитектур нь 99.80% нэгдсэн оноо V11 Second Update дээрх 100,000 тохиолдлын кохорт — тохиолдол бүр, түлхүүр үг бүр, онооны бүх систем нь хөдөлгүүр нэг ч PDF харахаас өмнө эх кодонд бүрэн тогтсон бөгөөд рубрик нь V11 анхны хувилбартай яг ижил (байт-ижил) байна. Дизайнаар хойноос рубрик тааруулах боломжгүй.

Нэг удаагийн цусны шинжилгээний багц нь ихэвчлэн хэд хэдэн өрсөлдөх тайлбарыг дэмжих хангалттай мэдээлэл агуулдаг бөгөөд тайлбар хийх эмчийн үүрэг нь тэрхүү тайлбаруудыг сурах бичгийн нэг “зөв хариулт” руу хайж олохын оронд хооронд нь харьцуулж жинлэх явдал юм. Сурах бичгийн жишээн дээр сайн ажилладаг хөдөлгүүр хамгийн чухал тохиолдлуудад бүтэлгүйтэж болно: ялган оношлох үеийн түгээмэл алдаа, дангаараа харахад түгшүүртэй мэт боловч хоргүй хувилбарууд, мөн итгэлтэй туслахуудыг эмгэг үүсгэж зохиомлоор дүгнүүлэхэд хүргэдэг бүрэн хэвийн багцууд.

Энэхүү шалгуурыг яг эдгээр бүтэлгүйтлийн хэлбэрүүд дээр тулгуурлан бүтээсэн. Арван таван тохиолдол бүрийг тодорхой оношлогооны шинж чанараар сонгосон: ижил MCV-тэй (дунджаар эритроцитын эзлэхүүн) β-талассемийн шинжээс ялгаж салгаж хадгалах шаардлагатай төмрийн дутагдлын улмаас үүссэн микроцитоз; зөвхөн тусгаарлагдсан шууд бус гипербилирубинеми л илэрдэг Гилбертийн хам шинжийн илрэл; мөн шинжилгээний 15 үзүүлэлттэй скрининг багц бөгөөд бүх шинжилгээний үзүүлэлтүүд нь өөрийн лавлах хүрээндээ багтсан. Журам нь тохиолдол бүрийг өөрийн нөхцөлөөр нь уншиж чаддаг хөдөлгүүрүүдийг урамшуулж, тийм онош шаардлагагүй байхад итгэлтэй онош руу “хүрэх” хөдөлгүүрүүдийг торгодог.

Анагаах ухааны доктор Томас Клейн (MD) би энэ тохиолдлын багцыг сонгосон, учир нь лабораторийн анагаахын туслахууд хамгийн ихээр буруу ойлгодог хэв маяг эдгээр байдаг. Хамгийн үнэтэй бүтэлгүйтэл нь "ховор өвчнийг алгасах" биш — харин түүнийг нь байхгүй өвчтөнүүдэд энгийн мэт харагдах эмгэгийг зохиомлоор бүтээх явдал юм. Манай Эмнэлгийн баталгаажуулалт hub нь илүү өргөн хүрээний суурь фреймворкийг тайлбарладаг; энэ хуудас нь V11 анхны proof-of-concept болон түүнийг 127 улсын шошготой синтетик тохиолдлын багцаас татсан 100,000 синтетик тохиолдол болгон өргөтгөсөн V11 Хоёр дахь шинэчлэлтийг тайлбарлана — мөн ижил онооны рубрик, byte-тай ижил, post-hoc тохируулга хийхийг зөвшөөрөөгүй.

Хамгийн сүүлийн лавлагаа ажиллуулалт — V11 Second Update (2026 оны 4-р сарын 26)

2026 оны 4-р сарын 26-ны V11 Second Update лавлагаа ажиллуулалт нь 99.80% V11 анхны хувилбарт ашигласан урьдчилан бүртгэгдсэн рубриктэй ижил рубрикийг ашиглан, үнэлсэн 100,000 синтетик тохиолдол Kantesti синтетик тохиолдлын багцаас сонгогдсон бөгөөд 127 улсын шошгыг хамарсан болон 75+ хэлүүдийг хамарсан. Тохиолдол бүр хөдөлгүүрийн үндсэн зам дээр бүрэн дууссан; trap-case hyperdiagnosis flag идэвхжил 0 / 87,412. хэвээр үлдсэн. 2026 оны 4-р сарын 23-ны V11 анхны ажиллуулалт нь 15 гар аргаар сонгосон тохиолдлыг (нийлмэл 99.12%) хамарч рубрикийг баталгаажуулсан; Second Update нь тэр рубрикийг байт-ижил хэвээр хадгалж, үнэлгээг хүн амын хэмжээний кохорт руу өргөтгөсөн.

Нийлмэл 99.80% 100,000 тохиолдлын 100,000 нь оноо авсан
1.000 Бүтцийн оноо
0.996 Клиникийн оноо
13.26 s Дундаж саатал
0 / 87,412 Урхинд орсон хуурамч эерэгүүд

Нийлмэл томьёо нь гурван бүрэлдэхүүн хэсгийг нэгтгэнэ: бүтцийн нийцэл долоон заавал тайлагнах хэсэг болон арван зургаан заавал дэд хэсэгтэй, агуулгын үнэн зөв байдал түлхүүр үгийн эргэн саналт + онооны системийн эргэн саналт + магадлалын тархалтын хүчинтэй эсэхийг шалгах тестээр хэмжигдсэн, мөн хариу өгөх саатал үндсэн замын үйлчилгээний түвшний зорилтот үзүүлэлттэй харьцуулахад. Нарийвчилсан задралыг доорх рубрикийн томьёонд үзүүлсэн — эдгээр жин эсвэл дэд-рубрикуудыг Second Update-д өөрчөөгүй.

Нийлмэл = 0.35 × Бүтцийн + 0.55 × Клиникийн + 0.10 × Саатлын

Үлдсэн 0.20 хувийн пунктын “толгой зай” нь бараг бүхэлдээ клиникийн дэд оноонд задардаг — цөөн тохиолдолд (ихэвчлэн Гепатологи ба Ревматологи) онооны системийн нэг хүлээгдэж байсан түлхүүр үг хөдөлгүүрийн тайлбарт байхгүй байсан ч оношлогооны агуулга зөв байсан. 100,000 тохиолдлын Second-Update кохортын аль ч тохиолдол өөрөө оношийг алдсангүй. Хугацаа (латенц) V11 анхны хувилбарт дунджаар 20.17 s байсан бол Second Update-д 13.26 s болж сайжирсан; хоёр ажиллуулалтын хооронд үйлдвэрлэлийн хөдөлгүүрийн оновчлол хийгдсэнийг харуулж байна. Рубрик, онооны код, API endpoint өөрчлөгдөөгүй.

Шошго тус бүрийн нийлмэл оноо нь хамгийн их төлөөлөлтэй 30 улсын шошго дээр 0.9971-ээс 0.9985 хооронд хэлбэлзсэн. Нэмэлт 97 шошгоноос бүрдэх урт сүүл (long tail) (нийлээд ≈7,300 тохиолдол) системчилсэн доройтол үзүүлээгүй. Тохиолдлын тоогоор хамгийн түгээмэл шошгууд нь АНУ (10,500), Бразил (9,500), Испани (9,000), Итали (8,000), Герман (7,800), Франц (7,400), Португал (5,800), Türkiye (3,400), Их Британи (2,900), Мексик (2,500) байв.

15 тохиолдлоос 100,000 хүртэл: 127 улсын шошго дахь когортын хувьсал

Анхны V11 тохиолдлын панел нь долоон мэргэжлийг — гематологи, дотоод шүүрэл судлал (эндокринологи), бодисын солилцооны анагаах ухаан, элэгний анагаах ухаан (гепатологи), бөөрний анагаах ухаан (нефрологи), зүрх судас, ревматологи — мөн хоёр тусгай hyperdiagnosis trap тохиолдлыг хамарсан бөгөөд тохиолдол бүр нь синтетик үүсгэсэн цусны шинжилгээний панел байв. V11 Хоёр дахь шинэчлэлт нь үнэлгээг 100,000 синтетик тохиолдол болгон, 127 улсын шошгыг хамруулан өргөжүүлсэн, найман мэргэжлээр хуваарилан (анхны долоо плюс trap дэд хэсгийг шингээх дотоод анагаахын зориулалтын bucket) өргөтгөнө. Мөн адил онооны рубрикийг хоёр ажиллуулалтын хооронд байт-ижил байдлаар хэрэглэсэн.

V11 анхны case-panel-ийн дизайн — долоон анагаахын мэргэжлээрх 15 синтетик цусны шинжилгээний тохиолдол, мөн гипердиагнозын trap-case-ийн хоёр тохиолдол; мөн адил рубрик нь V11 Second Update дахь 100,000 тохиолдол дээр 99.80% нийлмэл оноонд хүрсэн
Зураг 2: V11 анхны тохиолдлын самбарын дизайн: гематологи, дотоод шүүрэл судлал, бодисын солилцооны анагаах ухаан, гепатологи, бөөр судлал, зүрх судас, ревматологи — дээр нэмээд хоёр trap тохиолдол (Гилбертийн хам шинж ба бүрэн хэвийн скрининг самбар). Second Update нь энэ рубрикийг байт-ижил хэвээр хадгалж, кохортыг Kantesti SQL репозитороос татсан 100,000 тохиолдлоор өргөтгөнө.

Бүх тохиолдлууд синтетик үүсгэсэн тул устгах бодит танигч (identifier) байхгүй бөгөөд хувийн мэдээлэл оролцохгүй. Тохиолдол бүр нь жишиг дотоодын (benchmark-internal) тохиолдлын кодтой (V11 анхны багцад BT-NNN-LABEL, Хоёр дахь шинэчлэлтэд тогтвортой case_uid ). Нийтэлсэн жишиг (harness), техникийн тайлан, эсвэл гаргасан өгөгдлийн багцын аль ч хэсэгт хувийн мэдээлэл харагдахгүй.

V11 анхны хувилбарын дагуу боловсруулалт хийгдсэн — 15 гар аргаар сонгосон тохиолдол

Анхны V11 тохиолдлын самбарыг доктор Томас Клейн лабораторийн анагаахын туслахууд хамгийн их андуурдаг оношилгооны хэв маягийг дасгалжуулах зорилгоор гараар сонгон боловсруулсан. Арван таван тохиолдол тус бүрийг доор жагсаасан тодорхой оношилгооны шинж чанараар сонгосон.

Гематологи (3) BT-001, BT-006, BT-007 Төмрийн дутагдлын цус багадалт · B12 витамины дутагдал · Бета-талассеми бага хэлбэр
Дотоод шүүрэл судлал (3) BT-002, BT-008, BT-012 Хашимотогийн бамбай булчирхайн үрэвсэл · Инсулины эсэргүүцэлтэй PCOS · Дунд/хүнд хэлбэрийн D витамины дутагдал
Бодисын солилцоо (2) BT-003, BT-013 Метаболик хам шинжтэй T2DM · тулай үүсэх эрсдэлтэй гиперурикеми
Элэг судлал (2) BT-004, BT-009 NAFLD / NASH · Цочмог вируст гепатит
Бөөр судлал · Зүрх судас · Ревматологи (3) BT-005, BT-010, BT-011 Бөөрний архаг өвчин 3-р шат · Атероген дислипидеми · Системийн чонон хөрвөс
Trap тохиолдлууд (2) BT-014, BT-015 Гилбертийн хам шинж (тусгаарлагдсан шууд бус гипербилирубинеми) · Насанд хүрэгчдийн бүрэн хэвийн скрининг

Яагаад яг энэ хуваарилалт вэ

Гематологи нь бодит лабораторийн практикт хамгийн их тохиолддог “хууран мэхлэх” бүсүүд болох микроцитик дифференциалууд болон макроцитик дифференциалуудын эзлэхүүн өндөртэй тул гурван тохиолдол авдаг. Эндокринологи нь Хашимотогийн өвчин, PCOS, мөн D витамины дутагдал гэсэн илрэлүүд нь өөр өөр оношлох хэлбэрүүдийг (аутоэсрэгбиеэр өдөөгдсөн, дааврын харьцаагаар өдөөгдсөн, ганц маркераар өдөөгдсөн) дасгалжуулдаг тул гурван тохиолдол авдаг. Нэг тохиолдлын мэргэжлүүд ч гэсэн утга учиртай хэвээр, учир нь CKD, ASCVD эрсдэл, мөн SLE тус бүр өөрийн оноо тооцох системтэй бөгөөд хөдөлгүүр (engine) үүнийг дуудах ёстой (тус тусдаа KDIGO шатлал, ASCVD 10 жилийн эрсдэл, 2019 EULAR/ACR SLE шалгуур).

V11 Хоёр дахь шинэчлэлт — 127 улсын шошготой 100,000 синтетик тохиолдол

Хоёр дахь шинэчлэлт нь анхны V11-ийн 15-тохиолдлын hard-coded Python literal-ийг илүү том, програмчлан үүсгэсэн синтетик тохиолдлын багцаар сольсон. Тохиолдлын багцыг ажиллуулах бүрийн эхэнд ачаалж, тохиргоог ил тод байдлын үүднээс бүртгэдэг. Агуулгын чиглэлээрх когортын тархалтыг доор үзүүлэв.

Эндокринологи 23,900 тохиолдол (23.9%) Бамбай булчирхай, PCOS, D витамин, бэлгийн булчирхайн тэнхлэг, гипофиз
Бодисын солилцооны анагаах ухаан 21,900 тохиолдол (21.9%) T2DM, бодисын солилцооны хам шинж, липидийн самбар, гиперурикеми
Гематологи 15,400 тохиолдол (15.4%) Микроцит ба макроцит ялгаварлалт, B12/фолат, төмрийн шинжилгээ
Гепатологи 12,400 тохиолдол (12.4%) NAFLD/NASH, вируст гепатит, FIB-4, холестаз
Дотоод анагаах ухаан (үүнд trap subset орно) 9,000 тохиолдол (9.0%) Холимог илрэлүүд ба 8,723 зориулалтын хэт-оношилгооны trap тохиолдол
Зүрх судас 7,500 тохиолдол (7.5%) ASCVD эрсдэл, атероген дислипидеми, hs-CRP
Ревматологи 6,000 тохиолдол (6.0%) SLE, RA, васкулит, аутоэсрэгбиеийн самбар (EULAR/ACR шалгуур)
Нефрологи 4,000 тохиолдол (4.0%) Бөөрний архаг өвчний (CKD) үе шатлал (KDIGO), eGFR-ийн чиг хандлага, электролитийн алдагдал

Синтетик улсын-шошгоны тархалт — хамгийн дээд 10 шошго

100,000 синтетик тохиолдол нь байршил (locale) боловсруулахыг туршихын тулд 127 улсын шошгыг (ISO 3166-1 alpha-2) агуулна. Шошго оноолт: Европ 57.7%, Америк тивүүд 25.4%, Ази-Номхон далай 6.2%, нэрлэсэн Дундад Зүүн/Африкийн шошго 3.4%, мөн нэмэлт 97 шошгоноос бүрдэх урт сүүл нь ойролцоогоор нийт 7.3%. Тохиолдлын тоогоор хамгийн их давтамжтай арван шошго нь АНУ (10,500), Бразил (9,500), Испани (9,000), Итали (8,000), Герман (7,800), Франц (7,400), Португал (5,800), Türkiye (3,400), Их Британи (2,900), Мексик (2,500) байв. Шошго тус бүрийн нийлмэл оноо 0.9971-ээс 0.9985 хооронд хэлбэлзсэн. Эдгээр шошгоны тоонууд нь байршил боловсруулахыг туршихад ашигласан үүсгэсэн тохиолдлуудын шинж чанар бөгөөд бодит хэрэглэгчид биш, бодит газарзүйн хамрах хүрээ биш.

Урьдчилан бүртгэгдсэн шалгуур (rubric), тайлбарласан нь

Урьдчилсан бүртгэл (pre-registration) нь энэхүү жишиг (benchmark)-ийн хамгийн чухал арга зүйн сонголт юм. Хүлээгдэж буй онош бүр, эмнэлзүйн оноо тооцох систем бүр, мөн тайлангийн хэсэг бүрийг эх кодод (source code) оруулсан хөдөлгүүрийг дуулахаас өмнө. Тиймээс хөдөлгүүрийг “хөөргөх” зорилготой рубрикийн (rubric) дараах тохируулга (post-hoc tuning) хийх боломжгүй.

Нийлмэл оноог бүрдүүлэх гурван бүрэлдэхүүн бий. Тэдгээрийн бүтцийн бүрэлдэхүүн 35 хувийг эзэлж, хөдөлгүүр нь заавал байх долоон тайлангийн хэсгийг (гарчиг, хураангуй, гол олдворууд, дифференциал, оноо тооцох системүүд, зөвлөмжүүд, хяналт/дараагийн алхам) болон тэдгээрийн доторх заавал байх арван зургаан дэд хэсгийг буцаасан эсэхийг хэмжинэ. Хэсгийн оршихуй нь бүтцийн тооцоонд 40 хувийг, дэд хэсгийн оршихуй нь 60 хувийг эзэлнэ.

The эмнэлзүйн бүрэлдэхүүн 55 хувийг эзэлж, гурван зүйлийг нэгтгэнэ: онош-гол түлхүүр үгийн сэргэлт (эмнэлзүйн дэд онооны 70 хувь), оноо тооцох системийн сэргэлт (20 хувь — шаардлагатай үед хөдөлгүүр Mentzer, FIB-4, HOMA-IR, ASCVD эрсдэл, KDIGO шатлал, EULAR/ACR шалгуурыг тооцдог эсэх), мөн магадлалын нийлбэрийн хүчинтэй байдлын шалгалт (10 хувь — дифференциал магадлалууд [90, 110] интервал дотор нийлэгдэх ёстой). “Хууран мэхлэх” (trap) тохиолдлуудад зохиомлоор эмгэгийн туг (pathology flag) үүсгэсэн тохиолдол бүрт 0.10-аар тооцож, дээд тал нь гурван туг хүртэл хязгаарласан, 0.30 хүртэлх тодорхой гипер-оношлох (hyperdiagnosis) торгууль хасна.

The саатлын (latency) бүрэлдэхүүн 10 хувийг эзэлнэ. 20 секундээс бага хугацаанд хариулбал бүтэн 0.10, 40 секундээс бага хугацаанд хариулбал 0.05, түүнээс удаан бол 0 оноо. 20 секундын зорилт нь үйлдвэрлэлийн (production) primary-path үйлчилгээний түвшний зорилт; 40 секундын дээд хязгаар нь хүнд хөдөлгүүрийн (heavy-engine) дуудах үед хэрэгжих Phase 2-ийн нөөц төсөв юм.

MIT лицензтэй Kantesti жишиг harness ажиллаж, тохиолдол бүрийн оноог гаргаж буй төгсгөлийн (terminal) дэлгэцийн зураг — мөн адил harness, одоо SQL-ээр удирдуулсан, V11 Хоёр дахь шинэчлэлтэд 100,000 тохиолдлын run дээр 99.80% нийлбэрийн оноог гаргасан
Зураг 3: Гүйцэтгэлд ашигласан туршилтын хэрэгсэл — яг тэр хөдөлгүүр нь 99.80% нийлмэл оноог гаргасан V11 Хоёр дахь шинэчлэлтийн 100,000 тохиолдлын кохорт дээр. Тохиолдол бүрийг A4 PDF хэлбэрээр дүрсэлж, үйлдвэрлэлийн v11 төгсгөлийн цэг рүү байршуулан, хөлдөөсөн рубрикын дагуу оноодог. Хоёр дахь шинэчлэлт нь параметржүүлсэн SQL case loader нэмсэн; түүхий хөдөлгүүрийн хариултуудын давхарласан санамсаргүй түүвэр (n = 201) нь нэгтгэсэн онооны хүснэгтийн хажууд хадгалагдана.

Урьдчилсан бүртгэл (pre-registration) юуг сэргийлдэг вэ

Нэгдүгээр талын (first-party) жишигүүд нь post-hoc рубрикийн тохируулгаар өөрсдийн тоонуудыг хөөрөгдөх нь элбэг. Ихэнхдээ хэв маяг нь бараг ижил байдаг: баг хөдөлгүүрийг ажиллуулж, хаанаа дутуу гүйцэтгэж байгааг хармагцаа, дутуу гүйцэтгэсэн хэсгүүдийг бага тооцдог болгохын тулд рубрикийг чимээгүйхэн тохируулдаг. Анхны хөдөлгүүрийн дуудлагаас өмнө рубрикийг эх кодод оруулж, MIT лицензийн дор туршилтын орчныг (harness) нийтэлснээр энэ тохируулга хувилбарын хяналтад (version control) ил тод болдог. Хэн ч репозиторыг (repository) клон хийж, рубрикийн зохиогчийн огноог шалгаж, хөдөлгүүрийн үр дүнг оноог хэлбэржүүлэхэд ашиглаагүйг баталгаажуулж чадна.

Хэт оношлох (Hyperdiagnosis) урхи — хэт дуудлага хийх нь бодит алдаа болох шалтгаан

Энгийн дэлгэцийн шинжилгээн дээр хэвийн гарсан тохиолдолд эмгэгийг хэт түргэн (over-calling) оношлох нь хэрэглэгчид чиглэсэн эмнэлгийн туслахуудын баримтжуулсан доголдлын горим юм. Үүний үр дагаварт шаардлагагүй шинжилгээ, өвчтөний түгшүүр, мөн эмчилгээний улмаас үүсэх (iatrogenic) нэмэлт үзлэг/ажиллагаа орно. Энэхүү жишиг дэх хоёр “хууран мэхлэх” тохиолдлыг энэ доголдлын горимыг ил харагдаж, оноож болохуйц болгохоор зохион бүтээсэн.

Гилбертын хам шинжийн самбар дээр энгийн AI гепатит зохиомлоор гаргаж буйг харьцуулсан зэрэгцээ (side-by-side) харьцуулалт vs Kantesti хөдөлгүүр хоргүй UGT1A1 полиморфизмыг зөв таньж илрүүлсэн — энэ аргачлал нь V11 Хоёр дахь шинэчлэлт 99.80% жишигт 87,412 trap-flag боломжийн хүрээнд худал эерэгийг 0 болгож өргөжсөн
Зураг 4: V11 анхны хувилбараас ирсэн trap-case загвар — Гилбертын хам шинжийг гепатит гэж итгэлтэйгээр тэмдэглэдэг хөдөлгүүр, эсвэл бүрэн хэвийн дэлгэц дээр хил хязгаарын эмгэгийг зохиодог хөдөлгүүр нь клиник дуугаралтыг зөв гэж сонсогдуулсан мэт байдал гаргасных нь төлөө шагнахын оронд шийтгэнэ. Энэхүү аргачлал нь 0 / 87,412 V11 Хоёр дахь шинэчлэлт 100,000 тохиолдлын ажиллагааны явцад гарсан false-positives дээр масштаблагдсан бөгөөд 99.80% нийлмэл оноог үүсгэсэн.

🟡 Trap 1 — BT-014-GILBERT

Илрэл. Нийт билирубин 2.4 мг/дл бүхий 24 настай эрэгтэй. Шууд фракц хэвийн, трансаминаз ба шүлтлэг фосфатаза нь лавлах хүрээндээ байна, ретикулоцитүүд онцгүй, мөн гаптоглобин ба LDH нь гемолизийг үгүйсгэнэ.

Зөв тайлал. Гилбертийн хам шинж — UGT1A1-ийн хоргүй полиморфизм. Тайлал нь гепатит, элэгний хатуурал (цирроз), гемолизийн цус багадалт, эсвэл цөсний замын бөглөрөл зэргийг дуудах ёсгүй.

V11-ийн үр дүн. Нийлмэл 1.000. Хянасан зургаан хэт-оношлох (over-diagnosis) тугны аль нь ч идэвхтэй онош хэлбэрээр гарч ирээгүй.

🟡 Trap 2 — BT-015-HEALTHY

Илрэл. 15 параметртэй энгийн (routine) скрининг самбар бүхий 35 настай эмэгтэй. Бүх шинжилгээний үзүүлэлтүүд нь лавлах хүрээндээ бүрэн багтсан.

Зөв тайлал. Тайвшруулах зөвлөмж ба амьдралын хэв маягийг тогтвортой барих. Тайлал нь эмнэлзүйн хувьд хэрэгтэй мэт харагдуулахын тулд хил хязгаарын эмгэгийг зохиомлоор үүсгэж болохгүй.

V11-ийн үр дүн. Нийлмэл 1.000. Хянагдсан долоон хэт оношлох дохионы аль нь ч — чихрийн шижин, цус багадалт, бамбай булчирхайн үйл ажиллагааны бууралт, дислипидеми, гепатит, бөөрний өвчин, дутагдал — идэвхтэй онош хэлбэрээр илрээгүй.

Хоёр сорилтын аль алинд нь хянагдсан 13 хэт оношлох дохиог шалгасан. Ямар ч нь идэвхжээгүй. Энэ бол ямар ч эмч AI хөдөлгүүрийг triage эсвэл зөвлөгөө авахаас өмнөх хэрэгсэл болгон ашиглах талаар бодож байгаа бол хамгийн чухалд тооцогдох үр дүн юм: систем өвчин байхгүй газарт өвчин зохиож гаргаагүй.

Ментцерийн индекс: төмрийн дутагдлыг талассемийн шинж (thalassaemia trait)-ээс ялгах

Өндөр үнэ цэнтэй хоёр дахь олдвор нь BT-001 (төмрийн дутагдлын цус багадалт) тохиолдлыг BT-007 (бета-талассеми бага хэлбэр) тохиолдолтой хослуулсан явдалтай холбоотой. Аль аль нь микроцитозтой илэрдэг бөгөөд энгийн ангилагчдад түгээмэл саад болдог. MCV-ийг RBC-ийн тоонд хувааж тооцдог Ментцерийн индекс нь төмрийн дутагдалд 13-аас их, талассемийн шинжид 13-аас доогуур гардаг.

BT-001-д өвчтөн 34 настай эмэгтэй байсан бөгөөд гемоглобин 10.4 г/дл, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферритин 6 нг/мл, мөн TIBC өндөр байв. Ойролцоогоор 17.7 гэсэн Ментцерийн индекс нь абсолют төмрийн дутагдлыг дэмжиж байна. BT-007-д өвчтөн 28 настай эрэгтэй бөгөөд микроцитозтой (MCV 65.8 фл) боловч RBC-ийн тоо 6.2 өндөр, RDW хэвийн, ферритин хэвийн, HbA2 5.6 хувь байв. Ойролцоогоор 10.6 гэсэн Ментцерийн индекс нь талассемийн шинжийг зааж, өндөр HbA2 нь бета-талассеми бага хэлбэрийг баталж байна.

Төмрийн дутагдлын цус багадалт Ментцер > 13 Ферритин бага, TSAT бага, TIBC өндөр, RDW өндөр
Бета-талассемийн шинж Ментцер < 13 Ферритин хэвийн, RDW хэвийн, HbA2 өндөр (>3.5%), RBC-ийн тоо өндөр

Хоёр тохиолдол хоёулаа 1.000 оноо авсан. Хөдөлгүүр нь хоёр тайлалд Ментцерийн индексыг ил тод ашигласан бөгөөд тохиолдол бүрт зөв оношийг буцаасан. Энэ бол бүхэл benchmark-ийн хамгийн эмнэлзүйн хувьд тайвшруулах ганц үр дүн, учир нь талассемийн шинжийг төмрийн дутагдал гэж буруу ангилах нь зохисгүй төмрийн нэмэлт өгөхөд хүргэж, гэр бүлийн скринингийн боломжууд алдагддаг; харин төмрийн дутагдлыг талассеми гэж буруу ангилах нь энгийн орлуулах эмчилгээг хойшлуулдаг. Манай ферритины хүрээний заавар ялгавартай оношлогооны өргөн хүрээний контекстийг тайлбарладаг.

V11 анхны лавлагаа ажиллуулалтын тохиолдол тус бүрийн үр дүн (2026 оны 4-р сарын 23)

15 тохиолдлын proof-of-concept кохорт дээрх анхны V11 лавлагаа ажиллуулалт нь арга зүйн суурь болдог Хоёр дахь шинэчлэлтийн хувьд: доорх тохиолдол бүрийн нарийн мэдээлэл нь рубрик бодит хөдөлгүүрийн хариуг хэрхэн боловсруулдгийг харуулна. Арван таван тохиолдлын 12 нь үндсэн зам дээр нийлмэл онооны тааз болох 1.000-д хүрсэн; гурван тохиолдлыг Phase 2-ийн fallback-оор үйлчилсэн бөгөөд 0.05 latency бонусоо алдсан ч бүх клиник болон бүтцийн агуулгыг хадгалсан. Нэг тохиолдолд нэг заавал оруулах дэд хэсэг дутуу байсан; нэг нь магадлалын тархалтын нийлбэрийг ялимгүй бууруулсан байдлаар буцаасан.

Тохиолдлын ID Мэргэжил Нийлмэл Хугацаа (Latency) Path
BT-001-IDAГематологи1.00017.8 сүндсэн
BT-006-B12Гематологи1.00018.4 сүндсэн
BT-007-THALГематологи1.00017.0 сүндсэн
BT-002-HASHЭндокринологи0.95037.0 снөөц (fallback)
BT-008-PCOSЭндокринологи0.98718.6 сүндсэн
BT-003-T2DMБодисын солилцоо1.00019.1 сүндсэн
BT-013-GOUTБодисын солилцоо1.00019.4 сүндсэн
BT-004-NAFLDГепатологи1.00019.6 сүндсэн
BT-009-VIRHEPГепатологи0.95023.4 снөөц (fallback)
BT-014-GILBERTТрап (Trap)1.00018.9 сүндсэн
BT-005-CKDНефрологи1.00017.4 сүндсэн
BT-010-ASCVDЗүрх судас1.00019.7 сүндсэн
BT-011-SLEРевматологи0.98118.2 сүндсэн
BT-012-VITDЭндокринологи1.00019.3 сүндсэн
BT-015-HEALTHYТрап (Trap)1.00018.7 снөөц (fallback)

PCOS-ийн тохиолдол (BT-008) хариуны бүтэц дэх заавал оруулах нэг дэд хэсгийг алдсан — арван зургаан дэд хэсгийн оронд арван таван нь — үүний улмаас бүтцийн оноо 1.000-аас 0.963 болж буурсан. SLE-ийн тохиолдол (BT-011) оношилгооны түлхүүр үг болон онооны систем бүрийг хадгалсан хэвээр мөртлөө клиник оноог 0.965 болгон бууруулсан, магадлалын тархалтын нийлбэр нь ялимгүй буурсан дүнг буцаасан. Аль ч төгс бус тохиолдол зөв оношийг алдсангүй.

V11 Хоёр дахь шинэчлэлтийн нэгтгэсэн дүн — 100,000 тохиолдол

Хүн амын түвшинд хувь хүний тохиолдлын мөрүүд хүний уншигдахуйц биш тул Хоёр дахь шинэчлэлт нь 100,000 мөртэй хүснэгтээс илүүтэйгээр нэгтгэсэн хэмжүүрүүдийг тайлагнадаг. Гол нэгтгэсэн үзүүлэлтийг доор үзүүлэв; мэргэжил тус бүр болон улсын шошго тус бүрийн задлалыг техникийн тайлан болон Figshare-ийн байршуулалтад нийтэлсэн. Давхарласан санамсаргүй түүвэр n = 201 түүхий хөдөлгүүрийн хариултууд (детерминист үрийн утга 20260426) нь шалгах зорилгоор GitHub-ийн results/ директорид нийтлэгдсэн.

Нийлмэл оноо V11 анхны: 0.9912 (99.12%) → Хоёр дахь шинэчлэлт: 0.9980 (99.80%) Δ = +0.0068 100,000 тохиолдлын кохортын хэмжээнд
Бүтцийн оноо (дунджаар) V11 анхны: 0.998 → Хоёр дахь шинэчлэлт: 1.000 Хүн амын түвшинд төгс бүтцийн нийцэл
Клиник оноо (дунджаар) V11 анхны: 0.998 → Хоёр дахь шинэчлэлт: 0.996 −0.002; ямар ч тохиолдол оношийг өөрөө алдсангүй
Хугацааны саатал — дундаж (хүрээ) V11 анхны: 20.17 с (17.0–37.0 с) → Хоёр дахь шинэчлэлт: 13.26 с (9.0–16.94 с) Дамжуулалт бүрийн хоорондох үйлдвэрлэлийн хөдөлгүүрийн оновчлол
Хөдөлгүүрийн зам = үндсэн V11 анхны: 12 / 15 → Хоёр дахь шинэчлэлт: 100,000 / 100,000 Дамжуулалтын явцад ямар ч үед 2-р үе шатны нөөц (fallback) шаардлагагүй байсан
Дэд багцын хэт оношилгооны (hyperdiagnosis) дохиоллын тугнууд V11 анхны: 0 / 13 → Хоёр дахь шинэчлэлт: 0 / 87,412 Хүн амын хэмжээнд хуурамч эерэг тохиолдол 0 (8,723 хавх тохиолдлыг хянасан)

Гарчгийн оноо бидэнд юу хэлж өгдөггүй вэ

Энэхүү урьдчилан бүртгэгдсэн рубрикийн дагуу 99.80 хувийн нийлмэл оноо, 127 улсын шошгыг хамарсан 100,000 тохиолдлын синтетик когорт дээр — тааз (ceiling) түвшинд ойр гүйцэтгэл гэж үзнэ; гэхдээ үүнийг болгоомжтой хүрээнд тайлбарлах хэрэгтэй. Үр дүн нь V11-д бид эх кодондоо амласан рубрикийн эсрэг хөдөлгүүрийн зан төлөвийг тодорхойлдог; энэ нь байгаль дээр оршиж буй бүх цусны шинжилгээний панел дээр хөдөлгүүрийн зөв байдлын тухай бүх нийтийн (universal) мэдэгдэл биш.

Оноо нь хөдөлгүүр энэ үнэлгээнд сонгосон оношилгооны хэв маягийг хүн амын хэмжээнд түүвэр дээр зөв боловсруулсан гэж хэлж байна; нийтлэгдсэн бөгөөд давтагдах боломжтой аргачлалын дагуу. Энэ нь хөдөлгүүр бодит ертөнцөд байдаг бүх цусны шинжилгээний самбар дээр зөв гэсэн үг биш. Мөн хөдөлгүүр эмчийн шийдвэрийг орлох ёстой гэж хэлээгүй. Түүнчлэн хөдөлгүүр бусад AI системүүдээс илүү гүйцэтгэлтэй гэж хэлээгүй — бусад хөдөлгүүрүүдтэй харьцуулсан дүн шинжилгээг энэ тайланд зориуд хамрах хүрээнээс гадуур (out of scope) үлдээсэн.

Оноо нь тогтоож өгдөг зүйл бол суурь (baseline) юм. Шалгуур ба туршилтын орчны (harness) мэдээлэл нийтэд нээлттэй бол хөдөлгүүрийн ирээдүйн хувилбаруудыг мөн тэр шалгуурын дагуу үнэлж болно — V11 анхны 15 тохиолдолд, Хоёр дахь шинэчлэлтийн 100,000 тохиолдлын түүвэрт, эсвэл цаашдын өргөтгөлүүдэд; нийтлэгдсэн оноо ба дараагийн аль нэг ажиллуулах (run) хоорондын зөрүү өөрөө хэмжигдэх боломжтой. Энэ бол урьдчилан бүртгэлийн (pre-registration) үнэ цэнэ: гүйцэтгэлийн нэхэмжлэлийг шалгаж болох нэхэмжлэл болгон хувиргадаг.

Энэхүү жишиг (benchmark)-ийг 10 минутанд хэрхэн давтах вэ

Давтахын тулд зөвхөн Kantesti API итгэмжлэл (credential) хослол, мөн Python 3.10 ба түүнээс хойшхи орчин хэрэгтэй бөгөөд requests болон reportlab сангууд суусан байх шаардлагатай. Бүрэн harness нь MIT лицензийн дагуу гаргасан, нэг л бие даасан Python модулиас бүрдэнэ.

V11 Second Update benchmark-ийг (99.80% нийлмэл, 100,000 тохиолдол, 127 улс/шошго) харуулсан репродуктив чанарын сүлжээний диаграмм: Figshare, ResearchGate, Academia.edu, мөн GitHub дээр тольдсон бөгөөд Figshare DOI нь каноник зангуу (canonical anchor)
Зураг 5: V11 Хоёр дахь шинэчлэлтийн жишиг (benchmark) — 127 улсын шошгыг хамарсан 100,000 тохиолдол дээрх 99.80% нийлмэл оноо — дөрвөн судалгааны платформын дагуу тольдсон. Figshare DOI нь каноник эрдэм шинжилгээний танигч; ResearchGate (publication 404175463), Academia.edu (paper 165956808), мөн GitHub нь benchmark harness, тэгш давхарласан санамсаргүй түүвэр (stratified random sample) түүхий хариултууд, мөн улс/шошго ба мэргэжлээрх онооны хүснэгтүүдийг (per-country-label/per-specialty scorecards) зэрэгцээ хуулбараар байршуулсан.

Шинэ run хийх дөрвөн алхам

Нэг. Репозиторыг клон хийх: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Хоёр. Хамаарлуудыг суулгана уу: pip install -r requirements.txt (Хоёр дахь шинэчлэлт нэмдэг mysql-connector-python ≥ 8.0 SQL case loader-д). Гурав. Тохируулна уу KANTESTI_USERNAME болон KANTESTI_PASSWORD Хөдөлгүүрийн API-д орчны хувьсагч (environment variables) байдлаар. Хоёр дахь шинэчлэлтийн SQL case loader-д мөн дарааг тохируулна уу: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ба KANTESTI_DB_PASSWORD — ачаалагч нь зөвхөн унших эрхтэй үүрэг (role)-ээр холбогддог (bench_reader) бөгөөд хүснэгтүүдийг тодорхойлох эрхгүй. Дөрөв. Ажиллуулна уу python benchmark_bloodtest.py --limit 100000 Бүрэн Second-Update ажиллуулахын тулд, эсвэл python benchmark_bloodtest.py --limit 1000 Хурдан давталт хийхэд. Гаралтууд байрлана ./benchmark_results/: улс/шошго ба мэргэжлээрх баганатай CSV онооны хүснэгт, JSON агрегат, тэгш давхарласан санамсаргүй түүвэр (stratified-random raw-response sample), мөн Markdown тайлан.

2026 оны 4-р сарын 23-ны өдрийн лавлагаа ажиллалт (V11 анхны, 15 тохиолдол) болон 2026 оны 4-р сарын 26-ны өдрийн лавлагаа ажиллалт (V11 Second Update, 100,000 тохиолдол) нь репозиторын results/ дотор хадгалагдсан. Шинэ ажиллалт нь лавлагаа ажиллалтуудыг өөрчлөхгүйгээр шинэ timestamp-тай онооны хүснэгт үүсгэнэ. Хэрэв таны ажиллалт утгын хувьд мэдэгдэхүйц өөр үр дүн гаргавал, GitHub issue нээгээд ажиллалтын timestamp болон хариуны metadata-д буцсан engine хувилбарыг оруулна уу.

Хязгаарлалтууд ба ирээдүйн ажил

127 улс/шошго дээр 100,000 тохиолдол хүртэлх хэмжээнд ч гэсэн, дөрвөн хязгаарлалтыг ил тод хүлээн зөвшөөрөх шаардлагатай: long-tail шошгоны дутуу түүвэрлэлт, нэг удаагийн (single-shot) үнэлгээ, нэг хөдөлгүүрийн (single-engine) хамрах хүрээ, мөн нэг эх сурвалжаас (single-source) гаралтай өгөгдлийн гарал. Эдгээрийг идэвхтэй дагалдах ажлаар шийдвэрлэж байна.

Long-tail шошгоны хамрах хүрээ. Хоёр дахь шинэчлэл (Second Update) нь 127 улс/шошгыг хамардаг боловч тархалт тэнцвэргүй — дээд 10 шошго нь ≈66.4% тохиолдлыг эзэлж, харин нэмэлт 97 шошгоноос бүрдэх long tail нь хамтад нь ≈7.3% (ойролцоогоор 7,300 тохиолдол, шошго тус бүрт дунджаар ~75 тохиолдол) бүрдүүлдэг. Тиймээс энэ long tail дахь шошго тус бүрийн нийлмэл (per-label composites) үзүүлэлтүүд нь гарчигласан тоонуудын санал болгож буй хэмжээнээс илүү их шуугиантай. Ирээдүйн ажиллууд шошго оноолтыг дахин тэнцвэржүүлж, шошго тус бүрийн тооцооллыг илүү бат бөх болгоно.

Нэг удаагийн үнэлгээ. Кохорт дахь тохиолдол бүрийг нэг удаа үнэлсэн. Том хэлний загварууд нь түүвэрлэлтийн температур бага байсан ч гаралтын хэлбэлзэл (output variance) мэдэгдэхүйц байдаг тул тохиолдол бүрт таван үнэлгээ хийж, тайлагнасан хэлбэлзэлтэй олон удаагийн протокол нь дараагийн байгалийн алхам юм — ялангуяа trap-case дэд хэсэг дээр, түүвэрлэлтийн чичиргээнээс үүдэлтэй хэлбэлзэлд тогтвортой байх нь аюулгүй байдлын баталгааны нэг хэсэг байдаг.

Нэг хөдөлгүүрийн хүрээ. Энэхүү тайлан нь нэг хөдөлгүүрийг тодорхойлж байна. Бусад AI системүүдтэй харьцуулсан шинжилгээ нь энд хамрах хүрээнээс гадуур; бид ижил MIT лицензтэй harness-ийн эсрэг, зохих аргачлалтайгаар тусдаа бие даасан судалгаа болгон үргэлжлүүлж магадгүй.

Синтетик өгөгдөл. 100,000 тохиолдол нь синтетикаар үүсгэгдсэн (synthetically generated) бөгөөд “синтетик тохиолдол” (synthetic cases) биш; мөн үр дүн нь бодит ертөнцийн эмнэлзүйн гүйцэтгэлд шилжихгүй. Бодит, зөвшөөрөлтэй, гаднаас эх сурвалжаас авсан өгөгдөл дээр үнэлэхийн тулд зохих ёс зүйн хяналт шаардлагатай бөгөөд энэхүү синтетик benchmark-ийн хүрээнээс гадуур.

Эдгээр дөрвөөс гадна хамгийн нөлөөтэй төлөвлөсөн өргөтгөл нь улс орон тус бүр дээр олон хэлний тэнцвэржилт (parity) юм. Kantesti AI Engine нь 75+ хэл дээр хэрэглэгчдэд үйлчилдэг бөгөөд хэлээр нь давхарласан Second-Update дэд кохортуудыг (Турк, Герман, Испани, Франц, Итали, Португал, Араб, Мандарин) ажиллуулах нь хөдөлгүүрийн дэмждэг хэлүүдийн хүрээнд гаралтын чанарыг хэмжинэ. Хэл тус бүрээр давхарласан шинжилгээ бүрийг өөрийн DOI болон harness branch-тай хамт нийтэлнэ.