Энэ жишиг (benchmark) яагаад оршдог вэ, мөн юу шалгадаг вэ
AI-тай дэмжсэн цусны шинжилгээний тайлал нь хэрэглэгчийн болон клиникийн ажлын урсгалд улам бүр ашиглагдаж байна, гэхдээ лабораторийн анагаах ухаанд зориулсан давтагдахуйц үнэлгээний хүрээ (framework) ховор хэвээр байна. Энэ нөхцөлд хамгийн чухал асуултууд нь ерөнхий анагаахын асуулт-хариултын жишиг (benchmark)-уудад хамрагддаг асуултууд биш: дундаж корпускулын эзлэхүүн (MCV) ижил байхад хөдөлгүүр төмрийн дутагдлыг талассеми шинжээс ялгаж чадах уу, Гилбертийн хам шинжийг гепатит гэж хэт оношлох уу, мөн бүрэн хэвийн скринингийн багцад эмгэгийг зохиож гаргах уу?
Нэг удаагийн цусны шинжилгээний багц нь ихэвчлэн хэд хэдэн өрсөлдөх тайлбарыг дэмжих хангалттай мэдээлэл агуулдаг бөгөөд тайлбар хийх эмчийн үүрэг нь тэрхүү тайлбаруудыг сурах бичгийн нэг “зөв хариулт” руу хайж олохын оронд хооронд нь харьцуулж жинлэх явдал юм. Сурах бичгийн жишээн дээр сайн ажилладаг хөдөлгүүр хамгийн чухал тохиолдлуудад бүтэлгүйтэж болно: ялган оношлох үеийн түгээмэл алдаа, дангаараа харахад түгшүүртэй мэт боловч хоргүй хувилбарууд, мөн итгэлтэй туслахуудыг эмгэг үүсгэж зохиомлоор дүгнүүлэхэд хүргэдэг бүрэн хэвийн багцууд.
Энэхүү шалгуурыг яг эдгээр бүтэлгүйтлийн хэлбэрүүд дээр тулгуурлан бүтээсэн. Арван таван тохиолдол бүрийг тодорхой оношлогооны шинж чанараар сонгосон: ижил MCV-тэй (дунджаар эритроцитын эзлэхүүн) β-талассемийн шинжээс ялгаж салгаж хадгалах шаардлагатай төмрийн дутагдлын улмаас үүссэн микроцитоз; зөвхөн тусгаарлагдсан шууд бус гипербилирубинеми л илэрдэг Гилбертийн хам шинжийн илрэл; мөн шинжилгээний 15 үзүүлэлттэй скрининг багц бөгөөд бүх шинжилгээний үзүүлэлтүүд нь өөрийн лавлах хүрээндээ багтсан. Журам нь тохиолдол бүрийг өөрийн нөхцөлөөр нь уншиж чаддаг хөдөлгүүрүүдийг урамшуулж, тийм онош шаардлагагүй байхад итгэлтэй онош руу “хүрэх” хөдөлгүүрүүдийг торгодог.
Анагаах ухааны доктор Томас Клейн (MD) би энэ тохиолдлын багцыг сонгосон, учир нь лабораторийн анагаахын туслахууд хамгийн ихээр буруу ойлгодог хэв маяг эдгээр байдаг. Хамгийн үнэтэй бүтэлгүйтэл нь "ховор өвчнийг алгасах" биш — харин түүнийг нь байхгүй өвчтөнүүдэд энгийн мэт харагдах эмгэгийг зохиомлоор бүтээх явдал юм. Манай Эмнэлгийн баталгаажуулалт hub нь илүү өргөн хүрээний суурь фреймворкийг тайлбарладаг; энэ хуудас нь V11 анхны proof-of-concept болон түүнийг 127 улсын шошготой синтетик тохиолдлын багцаас татсан 100,000 синтетик тохиолдол болгон өргөтгөсөн V11 Хоёр дахь шинэчлэлтийг тайлбарлана — мөн ижил онооны рубрик, byte-тай ижил, post-hoc тохируулга хийхийг зөвшөөрөөгүй.
Хамгийн сүүлийн лавлагаа ажиллуулалт — V11 Second Update (2026 оны 4-р сарын 26)
2026 оны 4-р сарын 26-ны V11 Second Update лавлагаа ажиллуулалт нь 99.80% V11 анхны хувилбарт ашигласан урьдчилан бүртгэгдсэн рубриктэй ижил рубрикийг ашиглан, үнэлсэн 100,000 синтетик тохиолдол Kantesti синтетик тохиолдлын багцаас сонгогдсон бөгөөд 127 улсын шошгыг хамарсан болон 75+ хэлүүдийг хамарсан. Тохиолдол бүр хөдөлгүүрийн үндсэн зам дээр бүрэн дууссан; trap-case hyperdiagnosis flag идэвхжил 0 / 87,412. хэвээр үлдсэн. 2026 оны 4-р сарын 23-ны V11 анхны ажиллуулалт нь 15 гар аргаар сонгосон тохиолдлыг (нийлмэл 99.12%) хамарч рубрикийг баталгаажуулсан; Second Update нь тэр рубрикийг байт-ижил хэвээр хадгалж, үнэлгээг хүн амын хэмжээний кохорт руу өргөтгөсөн.
Нийлмэл томьёо нь гурван бүрэлдэхүүн хэсгийг нэгтгэнэ: бүтцийн нийцэл долоон заавал тайлагнах хэсэг болон арван зургаан заавал дэд хэсэгтэй, агуулгын үнэн зөв байдал түлхүүр үгийн эргэн саналт + онооны системийн эргэн саналт + магадлалын тархалтын хүчинтэй эсэхийг шалгах тестээр хэмжигдсэн, мөн хариу өгөх саатал үндсэн замын үйлчилгээний түвшний зорилтот үзүүлэлттэй харьцуулахад. Нарийвчилсан задралыг доорх рубрикийн томьёонд үзүүлсэн — эдгээр жин эсвэл дэд-рубрикуудыг Second Update-д өөрчөөгүй.
Үлдсэн 0.20 хувийн пунктын “толгой зай” нь бараг бүхэлдээ клиникийн дэд оноонд задардаг — цөөн тохиолдолд (ихэвчлэн Гепатологи ба Ревматологи) онооны системийн нэг хүлээгдэж байсан түлхүүр үг хөдөлгүүрийн тайлбарт байхгүй байсан ч оношлогооны агуулга зөв байсан. 100,000 тохиолдлын Second-Update кохортын аль ч тохиолдол өөрөө оношийг алдсангүй. Хугацаа (латенц) V11 анхны хувилбарт дунджаар 20.17 s байсан бол Second Update-д 13.26 s болж сайжирсан; хоёр ажиллуулалтын хооронд үйлдвэрлэлийн хөдөлгүүрийн оновчлол хийгдсэнийг харуулж байна. Рубрик, онооны код, API endpoint өөрчлөгдөөгүй.
Шошго тус бүрийн нийлмэл оноо нь хамгийн их төлөөлөлтэй 30 улсын шошго дээр 0.9971-ээс 0.9985 хооронд хэлбэлзсэн. Нэмэлт 97 шошгоноос бүрдэх урт сүүл (long tail) (нийлээд ≈7,300 тохиолдол) системчилсэн доройтол үзүүлээгүй. Тохиолдлын тоогоор хамгийн түгээмэл шошгууд нь АНУ (10,500), Бразил (9,500), Испани (9,000), Итали (8,000), Герман (7,800), Франц (7,400), Португал (5,800), Türkiye (3,400), Их Британи (2,900), Мексик (2,500) байв.
15 тохиолдлоос 100,000 хүртэл: 127 улсын шошго дахь когортын хувьсал
Анхны V11 тохиолдлын панел нь долоон мэргэжлийг — гематологи, дотоод шүүрэл судлал (эндокринологи), бодисын солилцооны анагаах ухаан, элэгний анагаах ухаан (гепатологи), бөөрний анагаах ухаан (нефрологи), зүрх судас, ревматологи — мөн хоёр тусгай hyperdiagnosis trap тохиолдлыг хамарсан бөгөөд тохиолдол бүр нь синтетик үүсгэсэн цусны шинжилгээний панел байв. V11 Хоёр дахь шинэчлэлт нь үнэлгээг 100,000 синтетик тохиолдол болгон, 127 улсын шошгыг хамруулан өргөжүүлсэн, найман мэргэжлээр хуваарилан (анхны долоо плюс trap дэд хэсгийг шингээх дотоод анагаахын зориулалтын bucket) өргөтгөнө. Мөн адил онооны рубрикийг хоёр ажиллуулалтын хооронд байт-ижил байдлаар хэрэглэсэн.
Бүх тохиолдлууд синтетик үүсгэсэн тул устгах бодит танигч (identifier) байхгүй бөгөөд хувийн мэдээлэл оролцохгүй. Тохиолдол бүр нь жишиг дотоодын (benchmark-internal) тохиолдлын кодтой (V11 анхны багцад BT-NNN-LABEL, Хоёр дахь шинэчлэлтэд тогтвортой case_uid ). Нийтэлсэн жишиг (harness), техникийн тайлан, эсвэл гаргасан өгөгдлийн багцын аль ч хэсэгт хувийн мэдээлэл харагдахгүй.
V11 анхны хувилбарын дагуу боловсруулалт хийгдсэн — 15 гар аргаар сонгосон тохиолдол
Анхны V11 тохиолдлын самбарыг доктор Томас Клейн лабораторийн анагаахын туслахууд хамгийн их андуурдаг оношилгооны хэв маягийг дасгалжуулах зорилгоор гараар сонгон боловсруулсан. Арван таван тохиолдол тус бүрийг доор жагсаасан тодорхой оношилгооны шинж чанараар сонгосон.
Яагаад яг энэ хуваарилалт вэ
Гематологи нь бодит лабораторийн практикт хамгийн их тохиолддог “хууран мэхлэх” бүсүүд болох микроцитик дифференциалууд болон макроцитик дифференциалуудын эзлэхүүн өндөртэй тул гурван тохиолдол авдаг. Эндокринологи нь Хашимотогийн өвчин, PCOS, мөн D витамины дутагдал гэсэн илрэлүүд нь өөр өөр оношлох хэлбэрүүдийг (аутоэсрэгбиеэр өдөөгдсөн, дааврын харьцаагаар өдөөгдсөн, ганц маркераар өдөөгдсөн) дасгалжуулдаг тул гурван тохиолдол авдаг. Нэг тохиолдлын мэргэжлүүд ч гэсэн утга учиртай хэвээр, учир нь CKD, ASCVD эрсдэл, мөн SLE тус бүр өөрийн оноо тооцох системтэй бөгөөд хөдөлгүүр (engine) үүнийг дуудах ёстой (тус тусдаа KDIGO шатлал, ASCVD 10 жилийн эрсдэл, 2019 EULAR/ACR SLE шалгуур).
V11 Хоёр дахь шинэчлэлт — 127 улсын шошготой 100,000 синтетик тохиолдол
Хоёр дахь шинэчлэлт нь анхны V11-ийн 15-тохиолдлын hard-coded Python literal-ийг илүү том, програмчлан үүсгэсэн синтетик тохиолдлын багцаар сольсон. Тохиолдлын багцыг ажиллуулах бүрийн эхэнд ачаалж, тохиргоог ил тод байдлын үүднээс бүртгэдэг. Агуулгын чиглэлээрх когортын тархалтыг доор үзүүлэв.
Синтетик улсын-шошгоны тархалт — хамгийн дээд 10 шошго
100,000 синтетик тохиолдол нь байршил (locale) боловсруулахыг туршихын тулд 127 улсын шошгыг (ISO 3166-1 alpha-2) агуулна. Шошго оноолт: Европ 57.7%, Америк тивүүд 25.4%, Ази-Номхон далай 6.2%, нэрлэсэн Дундад Зүүн/Африкийн шошго 3.4%, мөн нэмэлт 97 шошгоноос бүрдэх урт сүүл нь ойролцоогоор нийт 7.3%. Тохиолдлын тоогоор хамгийн их давтамжтай арван шошго нь АНУ (10,500), Бразил (9,500), Испани (9,000), Итали (8,000), Герман (7,800), Франц (7,400), Португал (5,800), Türkiye (3,400), Их Британи (2,900), Мексик (2,500) байв. Шошго тус бүрийн нийлмэл оноо 0.9971-ээс 0.9985 хооронд хэлбэлзсэн. Эдгээр шошгоны тоонууд нь байршил боловсруулахыг туршихад ашигласан үүсгэсэн тохиолдлуудын шинж чанар бөгөөд бодит хэрэглэгчид биш, бодит газарзүйн хамрах хүрээ биш.
Урьдчилан бүртгэгдсэн шалгуур (rubric), тайлбарласан нь
Урьдчилсан бүртгэл (pre-registration) нь энэхүү жишиг (benchmark)-ийн хамгийн чухал арга зүйн сонголт юм. Хүлээгдэж буй онош бүр, эмнэлзүйн оноо тооцох систем бүр, мөн тайлангийн хэсэг бүрийг эх кодод (source code) оруулсан хөдөлгүүрийг дуулахаас өмнө. Тиймээс хөдөлгүүрийг “хөөргөх” зорилготой рубрикийн (rubric) дараах тохируулга (post-hoc tuning) хийх боломжгүй.
Нийлмэл оноог бүрдүүлэх гурван бүрэлдэхүүн бий. Тэдгээрийн бүтцийн бүрэлдэхүүн 35 хувийг эзэлж, хөдөлгүүр нь заавал байх долоон тайлангийн хэсгийг (гарчиг, хураангуй, гол олдворууд, дифференциал, оноо тооцох системүүд, зөвлөмжүүд, хяналт/дараагийн алхам) болон тэдгээрийн доторх заавал байх арван зургаан дэд хэсгийг буцаасан эсэхийг хэмжинэ. Хэсгийн оршихуй нь бүтцийн тооцоонд 40 хувийг, дэд хэсгийн оршихуй нь 60 хувийг эзэлнэ.
The эмнэлзүйн бүрэлдэхүүн 55 хувийг эзэлж, гурван зүйлийг нэгтгэнэ: онош-гол түлхүүр үгийн сэргэлт (эмнэлзүйн дэд онооны 70 хувь), оноо тооцох системийн сэргэлт (20 хувь — шаардлагатай үед хөдөлгүүр Mentzer, FIB-4, HOMA-IR, ASCVD эрсдэл, KDIGO шатлал, EULAR/ACR шалгуурыг тооцдог эсэх), мөн магадлалын нийлбэрийн хүчинтэй байдлын шалгалт (10 хувь — дифференциал магадлалууд [90, 110] интервал дотор нийлэгдэх ёстой). “Хууран мэхлэх” (trap) тохиолдлуудад зохиомлоор эмгэгийн туг (pathology flag) үүсгэсэн тохиолдол бүрт 0.10-аар тооцож, дээд тал нь гурван туг хүртэл хязгаарласан, 0.30 хүртэлх тодорхой гипер-оношлох (hyperdiagnosis) торгууль хасна.
The саатлын (latency) бүрэлдэхүүн 10 хувийг эзэлнэ. 20 секундээс бага хугацаанд хариулбал бүтэн 0.10, 40 секундээс бага хугацаанд хариулбал 0.05, түүнээс удаан бол 0 оноо. 20 секундын зорилт нь үйлдвэрлэлийн (production) primary-path үйлчилгээний түвшний зорилт; 40 секундын дээд хязгаар нь хүнд хөдөлгүүрийн (heavy-engine) дуудах үед хэрэгжих Phase 2-ийн нөөц төсөв юм.
Урьдчилсан бүртгэл (pre-registration) юуг сэргийлдэг вэ
Нэгдүгээр талын (first-party) жишигүүд нь post-hoc рубрикийн тохируулгаар өөрсдийн тоонуудыг хөөрөгдөх нь элбэг. Ихэнхдээ хэв маяг нь бараг ижил байдаг: баг хөдөлгүүрийг ажиллуулж, хаанаа дутуу гүйцэтгэж байгааг хармагцаа, дутуу гүйцэтгэсэн хэсгүүдийг бага тооцдог болгохын тулд рубрикийг чимээгүйхэн тохируулдаг. Анхны хөдөлгүүрийн дуудлагаас өмнө рубрикийг эх кодод оруулж, MIT лицензийн дор туршилтын орчныг (harness) нийтэлснээр энэ тохируулга хувилбарын хяналтад (version control) ил тод болдог. Хэн ч репозиторыг (repository) клон хийж, рубрикийн зохиогчийн огноог шалгаж, хөдөлгүүрийн үр дүнг оноог хэлбэржүүлэхэд ашиглаагүйг баталгаажуулж чадна.
Хэт оношлох (Hyperdiagnosis) урхи — хэт дуудлага хийх нь бодит алдаа болох шалтгаан
Энгийн дэлгэцийн шинжилгээн дээр хэвийн гарсан тохиолдолд эмгэгийг хэт түргэн (over-calling) оношлох нь хэрэглэгчид чиглэсэн эмнэлгийн туслахуудын баримтжуулсан доголдлын горим юм. Үүний үр дагаварт шаардлагагүй шинжилгээ, өвчтөний түгшүүр, мөн эмчилгээний улмаас үүсэх (iatrogenic) нэмэлт үзлэг/ажиллагаа орно. Энэхүү жишиг дэх хоёр “хууран мэхлэх” тохиолдлыг энэ доголдлын горимыг ил харагдаж, оноож болохуйц болгохоор зохион бүтээсэн.
🟡 Trap 1 — BT-014-GILBERT
Илрэл. Нийт билирубин 2.4 мг/дл бүхий 24 настай эрэгтэй. Шууд фракц хэвийн, трансаминаз ба шүлтлэг фосфатаза нь лавлах хүрээндээ байна, ретикулоцитүүд онцгүй, мөн гаптоглобин ба LDH нь гемолизийг үгүйсгэнэ.
Зөв тайлал. Гилбертийн хам шинж — UGT1A1-ийн хоргүй полиморфизм. Тайлал нь гепатит, элэгний хатуурал (цирроз), гемолизийн цус багадалт, эсвэл цөсний замын бөглөрөл зэргийг дуудах ёсгүй.
V11-ийн үр дүн. Нийлмэл 1.000. Хянасан зургаан хэт-оношлох (over-diagnosis) тугны аль нь ч идэвхтэй онош хэлбэрээр гарч ирээгүй.
🟡 Trap 2 — BT-015-HEALTHY
Илрэл. 15 параметртэй энгийн (routine) скрининг самбар бүхий 35 настай эмэгтэй. Бүх шинжилгээний үзүүлэлтүүд нь лавлах хүрээндээ бүрэн багтсан.
Зөв тайлал. Тайвшруулах зөвлөмж ба амьдралын хэв маягийг тогтвортой барих. Тайлал нь эмнэлзүйн хувьд хэрэгтэй мэт харагдуулахын тулд хил хязгаарын эмгэгийг зохиомлоор үүсгэж болохгүй.
V11-ийн үр дүн. Нийлмэл 1.000. Хянагдсан долоон хэт оношлох дохионы аль нь ч — чихрийн шижин, цус багадалт, бамбай булчирхайн үйл ажиллагааны бууралт, дислипидеми, гепатит, бөөрний өвчин, дутагдал — идэвхтэй онош хэлбэрээр илрээгүй.
Хоёр сорилтын аль алинд нь хянагдсан 13 хэт оношлох дохиог шалгасан. Ямар ч нь идэвхжээгүй. Энэ бол ямар ч эмч AI хөдөлгүүрийг triage эсвэл зөвлөгөө авахаас өмнөх хэрэгсэл болгон ашиглах талаар бодож байгаа бол хамгийн чухалд тооцогдох үр дүн юм: систем өвчин байхгүй газарт өвчин зохиож гаргаагүй.
Ментцерийн индекс: төмрийн дутагдлыг талассемийн шинж (thalassaemia trait)-ээс ялгах
Өндөр үнэ цэнтэй хоёр дахь олдвор нь BT-001 (төмрийн дутагдлын цус багадалт) тохиолдлыг BT-007 (бета-талассеми бага хэлбэр) тохиолдолтой хослуулсан явдалтай холбоотой. Аль аль нь микроцитозтой илэрдэг бөгөөд энгийн ангилагчдад түгээмэл саад болдог. MCV-ийг RBC-ийн тоонд хувааж тооцдог Ментцерийн индекс нь төмрийн дутагдалд 13-аас их, талассемийн шинжид 13-аас доогуур гардаг.
BT-001-д өвчтөн 34 настай эмэгтэй байсан бөгөөд гемоглобин 10.4 г/дл, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферритин 6 нг/мл, мөн TIBC өндөр байв. Ойролцоогоор 17.7 гэсэн Ментцерийн индекс нь абсолют төмрийн дутагдлыг дэмжиж байна. BT-007-д өвчтөн 28 настай эрэгтэй бөгөөд микроцитозтой (MCV 65.8 фл) боловч RBC-ийн тоо 6.2 өндөр, RDW хэвийн, ферритин хэвийн, HbA2 5.6 хувь байв. Ойролцоогоор 10.6 гэсэн Ментцерийн индекс нь талассемийн шинжийг зааж, өндөр HbA2 нь бета-талассеми бага хэлбэрийг баталж байна.
Хоёр тохиолдол хоёулаа 1.000 оноо авсан. Хөдөлгүүр нь хоёр тайлалд Ментцерийн индексыг ил тод ашигласан бөгөөд тохиолдол бүрт зөв оношийг буцаасан. Энэ бол бүхэл benchmark-ийн хамгийн эмнэлзүйн хувьд тайвшруулах ганц үр дүн, учир нь талассемийн шинжийг төмрийн дутагдал гэж буруу ангилах нь зохисгүй төмрийн нэмэлт өгөхөд хүргэж, гэр бүлийн скринингийн боломжууд алдагддаг; харин төмрийн дутагдлыг талассеми гэж буруу ангилах нь энгийн орлуулах эмчилгээг хойшлуулдаг. Манай ферритины хүрээний заавар ялгавартай оношлогооны өргөн хүрээний контекстийг тайлбарладаг.
V11 анхны лавлагаа ажиллуулалтын тохиолдол тус бүрийн үр дүн (2026 оны 4-р сарын 23)
15 тохиолдлын proof-of-concept кохорт дээрх анхны V11 лавлагаа ажиллуулалт нь арга зүйн суурь болдог Хоёр дахь шинэчлэлтийн хувьд: доорх тохиолдол бүрийн нарийн мэдээлэл нь рубрик бодит хөдөлгүүрийн хариуг хэрхэн боловсруулдгийг харуулна. Арван таван тохиолдлын 12 нь үндсэн зам дээр нийлмэл онооны тааз болох 1.000-д хүрсэн; гурван тохиолдлыг Phase 2-ийн fallback-оор үйлчилсэн бөгөөд 0.05 latency бонусоо алдсан ч бүх клиник болон бүтцийн агуулгыг хадгалсан. Нэг тохиолдолд нэг заавал оруулах дэд хэсэг дутуу байсан; нэг нь магадлалын тархалтын нийлбэрийг ялимгүй бууруулсан байдлаар буцаасан.
PCOS-ийн тохиолдол (BT-008) хариуны бүтэц дэх заавал оруулах нэг дэд хэсгийг алдсан — арван зургаан дэд хэсгийн оронд арван таван нь — үүний улмаас бүтцийн оноо 1.000-аас 0.963 болж буурсан. SLE-ийн тохиолдол (BT-011) оношилгооны түлхүүр үг болон онооны систем бүрийг хадгалсан хэвээр мөртлөө клиник оноог 0.965 болгон бууруулсан, магадлалын тархалтын нийлбэр нь ялимгүй буурсан дүнг буцаасан. Аль ч төгс бус тохиолдол зөв оношийг алдсангүй.
V11 Хоёр дахь шинэчлэлтийн нэгтгэсэн дүн — 100,000 тохиолдол
Хүн амын түвшинд хувь хүний тохиолдлын мөрүүд хүний уншигдахуйц биш тул Хоёр дахь шинэчлэлт нь 100,000 мөртэй хүснэгтээс илүүтэйгээр нэгтгэсэн хэмжүүрүүдийг тайлагнадаг. Гол нэгтгэсэн үзүүлэлтийг доор үзүүлэв; мэргэжил тус бүр болон улсын шошго тус бүрийн задлалыг техникийн тайлан болон Figshare-ийн байршуулалтад нийтэлсэн. Давхарласан санамсаргүй түүвэр n = 201 түүхий хөдөлгүүрийн хариултууд (детерминист үрийн утга 20260426) нь шалгах зорилгоор GitHub-ийн results/ директорид нийтлэгдсэн.
Гарчгийн оноо бидэнд юу хэлж өгдөггүй вэ
Энэхүү урьдчилан бүртгэгдсэн рубрикийн дагуу 99.80 хувийн нийлмэл оноо, 127 улсын шошгыг хамарсан 100,000 тохиолдлын синтетик когорт дээр — тааз (ceiling) түвшинд ойр гүйцэтгэл гэж үзнэ; гэхдээ үүнийг болгоомжтой хүрээнд тайлбарлах хэрэгтэй. Үр дүн нь V11-д бид эх кодондоо амласан рубрикийн эсрэг хөдөлгүүрийн зан төлөвийг тодорхойлдог; энэ нь байгаль дээр оршиж буй бүх цусны шинжилгээний панел дээр хөдөлгүүрийн зөв байдлын тухай бүх нийтийн (universal) мэдэгдэл биш.
Оноо нь хөдөлгүүр энэ үнэлгээнд сонгосон оношилгооны хэв маягийг хүн амын хэмжээнд түүвэр дээр зөв боловсруулсан гэж хэлж байна; нийтлэгдсэн бөгөөд давтагдах боломжтой аргачлалын дагуу. Энэ нь хөдөлгүүр бодит ертөнцөд байдаг бүх цусны шинжилгээний самбар дээр зөв гэсэн үг биш. Мөн хөдөлгүүр эмчийн шийдвэрийг орлох ёстой гэж хэлээгүй. Түүнчлэн хөдөлгүүр бусад AI системүүдээс илүү гүйцэтгэлтэй гэж хэлээгүй — бусад хөдөлгүүрүүдтэй харьцуулсан дүн шинжилгээг энэ тайланд зориуд хамрах хүрээнээс гадуур (out of scope) үлдээсэн.
Оноо нь тогтоож өгдөг зүйл бол суурь (baseline) юм. Шалгуур ба туршилтын орчны (harness) мэдээлэл нийтэд нээлттэй бол хөдөлгүүрийн ирээдүйн хувилбаруудыг мөн тэр шалгуурын дагуу үнэлж болно — V11 анхны 15 тохиолдолд, Хоёр дахь шинэчлэлтийн 100,000 тохиолдлын түүвэрт, эсвэл цаашдын өргөтгөлүүдэд; нийтлэгдсэн оноо ба дараагийн аль нэг ажиллуулах (run) хоорондын зөрүү өөрөө хэмжигдэх боломжтой. Энэ бол урьдчилан бүртгэлийн (pre-registration) үнэ цэнэ: гүйцэтгэлийн нэхэмжлэлийг шалгаж болох нэхэмжлэл болгон хувиргадаг.
Энэхүү жишиг (benchmark)-ийг 10 минутанд хэрхэн давтах вэ
Давтахын тулд зөвхөн Kantesti API итгэмжлэл (credential) хослол, мөн Python 3.10 ба түүнээс хойшхи орчин хэрэгтэй бөгөөд requests болон reportlab сангууд суусан байх шаардлагатай. Бүрэн harness нь MIT лицензийн дагуу гаргасан, нэг л бие даасан Python модулиас бүрдэнэ.
Шинэ run хийх дөрвөн алхам
Нэг. Репозиторыг клон хийх: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Хоёр. Хамаарлуудыг суулгана уу: pip install -r requirements.txt (Хоёр дахь шинэчлэлт нэмдэг mysql-connector-python ≥ 8.0 SQL case loader-д). Гурав. Тохируулна уу KANTESTI_USERNAME болон KANTESTI_PASSWORD Хөдөлгүүрийн API-д орчны хувьсагч (environment variables) байдлаар. Хоёр дахь шинэчлэлтийн SQL case loader-д мөн дарааг тохируулна уу: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ба KANTESTI_DB_PASSWORD — ачаалагч нь зөвхөн унших эрхтэй үүрэг (role)-ээр холбогддог (bench_reader) бөгөөд хүснэгтүүдийг тодорхойлох эрхгүй. Дөрөв. Ажиллуулна уу python benchmark_bloodtest.py --limit 100000 Бүрэн Second-Update ажиллуулахын тулд, эсвэл python benchmark_bloodtest.py --limit 1000 Хурдан давталт хийхэд. Гаралтууд байрлана ./benchmark_results/: улс/шошго ба мэргэжлээрх баганатай CSV онооны хүснэгт, JSON агрегат, тэгш давхарласан санамсаргүй түүвэр (stratified-random raw-response sample), мөн Markdown тайлан.
2026 оны 4-р сарын 23-ны өдрийн лавлагаа ажиллалт (V11 анхны, 15 тохиолдол) болон 2026 оны 4-р сарын 26-ны өдрийн лавлагаа ажиллалт (V11 Second Update, 100,000 тохиолдол) нь репозиторын results/ дотор хадгалагдсан. Шинэ ажиллалт нь лавлагаа ажиллалтуудыг өөрчлөхгүйгээр шинэ timestamp-тай онооны хүснэгт үүсгэнэ. Хэрэв таны ажиллалт утгын хувьд мэдэгдэхүйц өөр үр дүн гаргавал, GitHub issue нээгээд ажиллалтын timestamp болон хариуны metadata-д буцсан engine хувилбарыг оруулна уу.
Хязгаарлалтууд ба ирээдүйн ажил
127 улс/шошго дээр 100,000 тохиолдол хүртэлх хэмжээнд ч гэсэн, дөрвөн хязгаарлалтыг ил тод хүлээн зөвшөөрөх шаардлагатай: long-tail шошгоны дутуу түүвэрлэлт, нэг удаагийн (single-shot) үнэлгээ, нэг хөдөлгүүрийн (single-engine) хамрах хүрээ, мөн нэг эх сурвалжаас (single-source) гаралтай өгөгдлийн гарал. Эдгээрийг идэвхтэй дагалдах ажлаар шийдвэрлэж байна.
Long-tail шошгоны хамрах хүрээ. Хоёр дахь шинэчлэл (Second Update) нь 127 улс/шошгыг хамардаг боловч тархалт тэнцвэргүй — дээд 10 шошго нь ≈66.4% тохиолдлыг эзэлж, харин нэмэлт 97 шошгоноос бүрдэх long tail нь хамтад нь ≈7.3% (ойролцоогоор 7,300 тохиолдол, шошго тус бүрт дунджаар ~75 тохиолдол) бүрдүүлдэг. Тиймээс энэ long tail дахь шошго тус бүрийн нийлмэл (per-label composites) үзүүлэлтүүд нь гарчигласан тоонуудын санал болгож буй хэмжээнээс илүү их шуугиантай. Ирээдүйн ажиллууд шошго оноолтыг дахин тэнцвэржүүлж, шошго тус бүрийн тооцооллыг илүү бат бөх болгоно.
Нэг удаагийн үнэлгээ. Кохорт дахь тохиолдол бүрийг нэг удаа үнэлсэн. Том хэлний загварууд нь түүвэрлэлтийн температур бага байсан ч гаралтын хэлбэлзэл (output variance) мэдэгдэхүйц байдаг тул тохиолдол бүрт таван үнэлгээ хийж, тайлагнасан хэлбэлзэлтэй олон удаагийн протокол нь дараагийн байгалийн алхам юм — ялангуяа trap-case дэд хэсэг дээр, түүвэрлэлтийн чичиргээнээс үүдэлтэй хэлбэлзэлд тогтвортой байх нь аюулгүй байдлын баталгааны нэг хэсэг байдаг.
Нэг хөдөлгүүрийн хүрээ. Энэхүү тайлан нь нэг хөдөлгүүрийг тодорхойлж байна. Бусад AI системүүдтэй харьцуулсан шинжилгээ нь энд хамрах хүрээнээс гадуур; бид ижил MIT лицензтэй harness-ийн эсрэг, зохих аргачлалтайгаар тусдаа бие даасан судалгаа болгон үргэлжлүүлж магадгүй.
Синтетик өгөгдөл. 100,000 тохиолдол нь синтетикаар үүсгэгдсэн (synthetically generated) бөгөөд “синтетик тохиолдол” (synthetic cases) биш; мөн үр дүн нь бодит ертөнцийн эмнэлзүйн гүйцэтгэлд шилжихгүй. Бодит, зөвшөөрөлтэй, гаднаас эх сурвалжаас авсан өгөгдөл дээр үнэлэхийн тулд зохих ёс зүйн хяналт шаардлагатай бөгөөд энэхүү синтетик benchmark-ийн хүрээнээс гадуур.
Эдгээр дөрвөөс гадна хамгийн нөлөөтэй төлөвлөсөн өргөтгөл нь улс орон тус бүр дээр олон хэлний тэнцвэржилт (parity) юм. Kantesti AI Engine нь 75+ хэл дээр хэрэглэгчдэд үйлчилдэг бөгөөд хэлээр нь давхарласан Second-Update дэд кохортуудыг (Турк, Герман, Испани, Франц, Итали, Португал, Араб, Мандарин) ажиллуулах нь хөдөлгүүрийн дэмждэг хэлүүдийн хүрээнд гаралтын чанарыг хэмжинэ. Хэл тус бүрээр давхарласан шинжилгээ бүрийг өөрийн DOI болон harness branch-тай хамт нийтэлнэ.