Энэ жишиг (benchmark) яагаад оршдог вэ, мөн юу шалгадаг вэ

AI-тай дэмжсэн цусны шинжилгээний тайлал нь хэрэглэгчийн болон клиникийн ажлын урсгалд улам бүр ашиглагдаж байна, гэхдээ лабораторийн анагаах ухаанд зориулсан давтагдахуйц үнэлгээний хүрээ (framework) ховор хэвээр байна. Энэ нөхцөлд хамгийн чухал асуултууд нь ерөнхий анагаахын асуулт-хариултын жишиг (benchmark)-уудад хамрагддаг асуултууд биш: дундаж корпускулын эзлэхүүн (MCV) ижил байхад хөдөлгүүр төмрийн дутагдлыг талассеми шинжээс ялгаж чадах уу, Гилбертийн хам шинжийг гепатит гэж хэт оношлох уу, мөн бүрэн хэвийн скринингийн багцад эмгэгийг зохиож гаргах уу?

Kantesti AI хөдөлгүүрийг хөлдөөсөн онооны шалгууртай хэрхэн харьцуулан үнэлж байгааг харуулсан урьдчилан бүртгэгдсэн рубрикын урсгал диаграм
Зураг 1: Жишиг (benchmark) архитектур — тохиолдол бүр, түлхүүр үг бүр, онооны систем бүр нь хөдөлгүүр ямар ч нэг PDF-ийг харахаас өмнө эх кодонд тогтмол байдаг. Post-hoc үнэлгээний шалгуур (rubric) тохируулга хийх боломжгүй, энэ нь дизайны хувьд боломжгүй.

Нэг удаагийн цусны шинжилгээний багц нь ихэвчлэн хэд хэдэн өрсөлдөх тайлбарыг дэмжих хангалттай мэдээлэл агуулдаг бөгөөд тайлбар хийх эмчийн үүрэг нь тэрхүү тайлбаруудыг сурах бичгийн нэг “зөв хариулт” руу хайж олохын оронд хооронд нь харьцуулж жинлэх явдал юм. Сурах бичгийн жишээн дээр сайн ажилладаг хөдөлгүүр хамгийн чухал тохиолдлуудад бүтэлгүйтэж болно: ялган оношлох үеийн түгээмэл алдаа, дангаараа харахад түгшүүртэй мэт боловч хоргүй хувилбарууд, мөн итгэлтэй туслахуудыг эмгэг үүсгэж зохиомлоор дүгнүүлэхэд хүргэдэг бүрэн хэвийн багцууд.

Энэхүү шалгуурыг яг эдгээр бүтэлгүйтлийн хэлбэрүүд дээр тулгуурлан бүтээсэн. Арван таван тохиолдол бүрийг тодорхой оношлогооны шинж чанараар сонгосон: ижил MCV-тэй (дунджаар эритроцитын эзлэхүүн) β-талассемийн шинжээс ялгаж салгаж хадгалах шаардлагатай төмрийн дутагдлын улмаас үүссэн микроцитоз; зөвхөн тусгаарлагдсан шууд бус гипербилирубинеми л илэрдэг Гилбертийн хам шинжийн илрэл; мөн шинжилгээний 15 үзүүлэлттэй скрининг багц бөгөөд бүх шинжилгээний үзүүлэлтүүд нь өөрийн лавлах хүрээндээ багтсан. Журам нь тохиолдол бүрийг өөрийн нөхцөлөөр нь уншиж чаддаг хөдөлгүүрүүдийг урамшуулж, тийм онош шаардлагагүй байхад итгэлтэй онош руу “хүрэх” хөдөлгүүрүүдийг торгодог.

Анагаах ухааны доктор Томас Клейн (MD) би энэ тохиолдлын багцыг сонгосон, учир нь лабораторийн анагаахын туслахууд хамгийн ихээр буруу ойлгодог хэв маяг эдгээр байдаг. Хамгийн үнэтэй бүтэлгүйтэл нь "ховор өвчнийг алгасах" биш — харин түүнийг нь байхгүй өвчтөнүүдэд энгийн мэт харагдах эмгэгийг зохиомлоор бүтээх явдал юм. Манай Эмнэлгийн баталгаажуулалт hub нь илүү өргөн хүрээний суурийг тайлбарладаг; энэ хуудас нь түүний V11 хөдөлгүүр дээрх хэрэглээний үр дүнг тайлбарлана.

Хамгийн сүүлийн лавлагаа ажиллуулалт — V11 (2026 оны 4-р сар)

2026 оны 4-р сарын Kantesti AI Engine V11-ийн лавлагаа шалгалтын давталтаар 99.12% урьдчилан бүртгэгдсэн арван таван тохиолдлын шалгуур дээр нийлмэл оноо авсан. Хэт оношлох (hyperdiagnosis) урхи бүхий хоёр тохиолдол хоёулаа дээд хязгаарт оноо авсан. Төмрийн дутагдал ба талассемийн ялган оношилгоонд Mentzer индексийг зөв хэрэглэсэн.

Нийлмэл 99.12% 15/15 тохиолдол оноо авсан
0.998 Бүтцийн оноо
0.998 Клиникийн оноо
20.17 с Дундаж саатал
0 / 13 Урхинд орсон хуурамч эерэгүүд

Нийлмэл томьёо нь гурван бүрэлдэхүүн хэсгийг нэгтгэнэ: бүтцийн нийцэл долоон заавал тайлагнах хэсэг болон арван зургаан заавал дэд хэсэгтэй, клиникийн зөв байдал түлхүүр үгийн эргэн саналт + онооны системийн эргэн саналт + магадлалын тархалтын хүчинтэй эсэхийг шалгах тестээр хэмжигдсэн, мөн хариу өгөх саатал 20 секундын үндсэн үйлчилгээний түвшний зорилттой харьцуулсан. Нарийвчилсан задлалыг доорх журам (rubric) томьёонд үзүүлсэн.

Нийлмэл = 0.35 × Бүтцийн + 0.55 × Клиникийн + 0.10 × Саатлын

Үлдсэн 0.88 хувийн “headroom”-ын үлдэгдэл нь бараг бүхэлдээ latency loss болж задарсан — тус бүр нь нийлмэл дүнгээрээ -0.05 байсан 2-р шатны нөөц (fallback) гурван удаагийн дуудлага нь 0.88 пунктын дутагдлын ойролцоогоор 0.60-ыг бүрдүүлсэн — харин эмнэлзүйн агуулгад биш. Хөдөлгүүр нь нийт 15 тохиолдлын аль нэгэнд нь зөв оношийг алдаагүй; хэрвээ дутуу байсан бол 20 секундын үндсэн-path зорилтоос цөөн тооны дуудлагад арай удаан хугацаанд ажилласнаар л дутсан.

Долоон эмнэлгийн мэргэжлээрх арван таван тохиолдол

Тохиолдлын самбар нь долоон мэргэжлийг хамарна — гематологи, дотоод шүүрэл судлал, бодисын солилцооны анагаах ухаан, элэг судлал, бөөр судлал, зүрх судас, ревматологи — мөн хоёр тусгай hyperdiagnosis trap тохиолдол. Тохиолдол бүр нь бичгээр өгсөн мэдээлэлтэй зөвшөөрлийн дагуу Kantesti клиник өгөгдлийн сангаас авсан нэргүйжүүлсэн бодит өвчтөний бүртгэл юм.

Долоон эмнэлгийн мэргэжилд хуваарилагдсан, нэргүйжүүлсэн арван таван цусны шинжилгээний тохиолдлын хамрах газрын зураг; мөн хэт оношилгооны урхи тохиолдлууд
Зураг 2: Гематологи, дотоод шүүрэл судлал, бодисын солилцооны анагаах ухаан, элэг судлал, бөөр судлал, зүрх судас, ревматологи дахь тохиолдлын хуваарилалт — мөн хоёр trap тохиолдол: Гилбертийн хам шинж ба бүрэн хэвийн скрининг самбар.

Нэргүйжүүлэлтийг Safe Harbor аргачлалаар хийсэн: бүх шууд танигчийг устгасан эсвэл орлуулсан бөгөөд бүртгэл бүрт BT-NNN-LABEL хэлбэрийн жишиг-дотоод тохиолдлын код оноосон. Боловсруулалтыг GDPR-ийн 9(2)(j) зүйлд шинжлэх ухааны судалгаанд зориулсан зохих хамгаалалтын арга хэмжээнүүдийн хамт, мөн Их Британийн GDPR-ийн дүйцэх заалтуудын дагуу гүйцэтгэсэн. Хэвлэгдсэн harness, техникийн тайлан, эсвэл гаргасан өгөгдлийн багцын аль ч хэсэгт хувийн таних мэдээлэл огт харагдахгүй.

Гематологи (3) BT-001, BT-006, BT-007 Төмрийн дутагдлын цус багадалт · B12 витамины дутагдал · Бета-талассеми бага хэлбэр
Дотоод шүүрэл судлал (3) BT-002, BT-008, BT-012 Хашимотогийн бамбай булчирхайн үрэвсэл · Инсулины эсэргүүцэлтэй PCOS · Дунд/хүнд хэлбэрийн D витамины дутагдал
Бодисын солилцоо (2) BT-003, BT-013 Метаболик хам шинжтэй T2DM · тулай үүсэх эрсдэлтэй гиперурикеми
Элэг судлал (2) BT-004, BT-009 NAFLD / NASH · Цочмог вируст гепатит
Бөөр судлал · Зүрх судас · Ревматологи (3) BT-005, BT-010, BT-011 Бөөрний архаг өвчин 3-р шат · Атероген дислипидеми · Системийн чонон хөрвөс
Trap тохиолдлууд (2) BT-014, BT-015 Гилбертийн хам шинж (тусгаарлагдсан шууд бус гипербилирубинеми) · Насанд хүрэгчдийн бүрэн хэвийн скрининг

Яагаад яг энэ хуваарилалт вэ

Гематологи нь бодит лабораторийн практикт хамгийн их тохиолддог “хууран мэхлэх” бүсүүд болох микроцитик дифференциалууд болон макроцитик дифференциалуудын эзлэхүүн өндөртэй тул гурван тохиолдол авдаг. Эндокринологи нь Хашимотогийн өвчин, PCOS, мөн D витамины дутагдал гэсэн илрэлүүд нь өөр өөр оношлох хэлбэрүүдийг (аутоэсрэгбиеэр өдөөгдсөн, дааврын харьцаагаар өдөөгдсөн, ганц маркераар өдөөгдсөн) дасгалжуулдаг тул гурван тохиолдол авдаг. Нэг тохиолдлын мэргэжлүүд ч гэсэн утга учиртай хэвээр, учир нь CKD, ASCVD эрсдэл, мөн SLE тус бүр өөрийн оноо тооцох системтэй бөгөөд хөдөлгүүр (engine) үүнийг дуудах ёстой (тус тусдаа KDIGO шатлал, ASCVD 10 жилийн эрсдэл, 2019 EULAR/ACR SLE шалгуур).

Урьдчилан бүртгэгдсэн шалгуур (rubric), тайлбарласан нь

Урьдчилсан бүртгэл (pre-registration) нь энэхүү жишиг (benchmark)-ийн хамгийн чухал арга зүйн сонголт юм. Хүлээгдэж буй онош бүр, эмнэлзүйн оноо тооцох систем бүр, мөн тайлангийн хэсэг бүрийг эх кодод (source code) оруулсан хөдөлгүүрийг дуулахаас өмнө. Тиймээс хөдөлгүүрийг “хөөргөх” зорилготой рубрикийн (rubric) дараах тохируулга (post-hoc tuning) хийх боломжгүй.

Нийлмэл оноог бүрдүүлэх гурван бүрэлдэхүүн бий. Тэдгээрийн бүтцийн бүрэлдэхүүн 35 хувийг эзэлж, хөдөлгүүр нь заавал байх долоон тайлангийн хэсгийг (гарчиг, хураангуй, гол олдворууд, дифференциал, оноо тооцох системүүд, зөвлөмжүүд, хяналт/дараагийн алхам) болон тэдгээрийн доторх заавал байх арван зургаан дэд хэсгийг буцаасан эсэхийг хэмжинэ. Хэсгийн оршихуй нь бүтцийн тооцоонд 40 хувийг, дэд хэсгийн оршихуй нь 60 хувийг эзэлнэ.

The эмнэлзүйн бүрэлдэхүүн 55 хувийг эзэлж, гурван зүйлийг нэгтгэнэ: онош-гол түлхүүр үгийн сэргэлт (эмнэлзүйн дэд онооны 70 хувь), оноо тооцох системийн сэргэлт (20 хувь — шаардлагатай үед хөдөлгүүр Mentzer, FIB-4, HOMA-IR, ASCVD эрсдэл, KDIGO шатлал, EULAR/ACR шалгуурыг тооцдог эсэх), мөн магадлалын нийлбэрийн хүчинтэй байдлын шалгалт (10 хувь — дифференциал магадлалууд [90, 110] интервал дотор нийлэгдэх ёстой). “Хууран мэхлэх” (trap) тохиолдлуудад зохиомлоор эмгэгийн туг (pathology flag) үүсгэсэн тохиолдол бүрт 0.10-аар тооцож, дээд тал нь гурван туг хүртэл хязгаарласан, 0.30 хүртэлх тодорхой гипер-оношлох (hyperdiagnosis) торгууль хасна.

The саатлын (latency) бүрэлдэхүүн 10 хувийг эзэлнэ. 20 секундээс бага хугацаанд хариулбал бүтэн 0.10, 40 секундээс бага хугацаанд хариулбал 0.05, түүнээс удаан бол 0 оноо. 20 секундын зорилт нь үйлдвэрлэлийн (production) primary-path үйлчилгээний түвшний зорилт; 40 секундын дээд хязгаар нь хүнд хөдөлгүүрийн (heavy-engine) дуудах үед хэрэгжих Phase 2-ийн нөөц төсөв юм.

MIT лицензтэй Kantesti жишиг (benchmark) хэрэгсэл ажиллаж, тохиолдол тус бүрийн оноог гаргаж буй төгсгөлийн дэлгэцийн агшин
Зураг 3: Ажиллуулах үеийн (execution) туршилтын орчин. Тохиолдол бүрийг A4 PDF хэлбэрээр гаргаж, production v11 endpoint руу байршуулж, хөлдөөсөн рубрикт (frozen rubric) тулган онооно. Бүх түүхий хариуг нэгтгэсэн онооны хүснэгтийн (scorecard) хамт хадгална.

Урьдчилсан бүртгэл (pre-registration) юуг сэргийлдэг вэ

Нэгдүгээр талын (first-party) жишигүүд нь post-hoc рубрикийн тохируулгаар өөрсдийн тоонуудыг хөөрөгдөх нь элбэг. Ихэнхдээ хэв маяг нь бараг ижил байдаг: баг хөдөлгүүрийг ажиллуулж, хаанаа дутуу гүйцэтгэж байгааг хармагцаа, дутуу гүйцэтгэсэн хэсгүүдийг бага тооцдог болгохын тулд рубрикийг чимээгүйхэн тохируулдаг. Анхны хөдөлгүүрийн дуудлагаас өмнө рубрикийг эх кодод оруулж, MIT лицензийн дор туршилтын орчныг (harness) нийтэлснээр энэ тохируулга хувилбарын хяналтад (version control) ил тод болдог. Хэн ч репозиторыг (repository) клон хийж, рубрикийн зохиогчийн огноог шалгаж, хөдөлгүүрийн үр дүнг оноог хэлбэржүүлэхэд ашиглаагүйг баталгаажуулж чадна.

Хэт оношлох (Hyperdiagnosis) урхи — хэт дуудлага хийх нь бодит алдаа болох шалтгаан

Энгийн дэлгэцийн шинжилгээн дээр хэвийн гарсан тохиолдолд эмгэгийг хэт түргэн (over-calling) оношлох нь хэрэглэгчид чиглэсэн эмнэлгийн туслахуудын баримтжуулсан доголдлын горим юм. Үүний үр дагаварт шаардлагагүй шинжилгээ, өвчтөний түгшүүр, мөн эмчилгээний улмаас үүсэх (iatrogenic) нэмэлт үзлэг/ажиллагаа орно. Энэхүү жишиг дэх хоёр “хууран мэхлэх” тохиолдлыг энэ доголдлын горимыг ил харагдаж, оноож болохуйц болгохоор зохион бүтээсэн.

Гилбертийн хам шинжийн самбар дээр гепатитыг зохиомлоор гаргаж буй энгийн AI-ийн эсрэгээр Kantesti хөдөлгүүр UGT1A1-ийн хоргүй полиморфизмыг зөв таньж илрүүлж буйг зэрэгцүүлсэн харьцуулалт
Зураг 4: “Хууран мэхлэх” тохиолдлын дизайн. Хөдөлгүүр Гилбертийн хам шинжийг гепатит гэж итгэлтэйгээр тэмдэглэдэг, эсвэл бүрэн хэвийн дэлгэц дээр хил хязгаарын эмгэгийг зохиож гаргадаг бол торгууль ногдуулна — эмнэлзүйн мэт сонсогдож байгаагаар нь шагнахгүй.

🟡 Trap 1 — BT-014-GILBERT

Илрэл. Нийт билирубин 2.4 мг/дл бүхий 24 настай эрэгтэй. Шууд фракц хэвийн, трансаминаз ба шүлтлэг фосфатаза нь лавлах хүрээндээ байна, ретикулоцитүүд онцгүй, мөн гаптоглобин ба LDH нь гемолизийг үгүйсгэнэ.

Зөв тайлал. Гилбертийн хам шинж — UGT1A1-ийн хоргүй полиморфизм. Тайлал нь гепатит, элэгний хатуурал (цирроз), гемолизийн цус багадалт, эсвэл цөсний замын бөглөрөл зэргийг дуудах ёсгүй.

V11-ийн үр дүн. Нийлмэл 1.000. Хянасан зургаан хэт-оношлох (over-diagnosis) тугны аль нь ч идэвхтэй онош хэлбэрээр гарч ирээгүй.

🟡 Trap 2 — BT-015-HEALTHY

Илрэл. 15 параметртэй энгийн (routine) скрининг самбар бүхий 35 настай эмэгтэй. Бүх шинжилгээний үзүүлэлтүүд нь лавлах хүрээндээ бүрэн багтсан.

Зөв тайлал. Тайвшруулах зөвлөмж ба амьдралын хэв маягийг тогтвортой барих. Тайлал нь эмнэлзүйн хувьд хэрэгтэй мэт харагдуулахын тулд хил хязгаарын эмгэгийг зохиомлоор үүсгэж болохгүй.

V11-ийн үр дүн. Нийлмэл 1.000. Хянагдсан долоон хэт оношлох дохионы аль нь ч — чихрийн шижин, цус багадалт, бамбай булчирхайн үйл ажиллагааны бууралт, дислипидеми, гепатит, бөөрний өвчин, дутагдал — идэвхтэй онош хэлбэрээр илрээгүй.

Хоёр сорилтын аль алинд нь хянагдсан 13 хэт оношлох дохиог шалгасан. Ямар ч нь идэвхжээгүй. Энэ бол ямар ч эмч AI хөдөлгүүрийг triage эсвэл зөвлөгөө авахаас өмнөх хэрэгсэл болгон ашиглах талаар бодож байгаа бол хамгийн чухалд тооцогдох үр дүн юм: систем өвчин байхгүй газарт өвчин зохиож гаргаагүй.

Ментцерийн индекс: төмрийн дутагдлыг талассемийн шинж (thalassaemia trait)-ээс ялгах

Өндөр үнэ цэнтэй хоёр дахь олдвор нь BT-001 (төмрийн дутагдлын цус багадалт) тохиолдлыг BT-007 (бета-талассеми бага хэлбэр) тохиолдолтой хослуулсан явдалтай холбоотой. Аль аль нь микроцитозтой илэрдэг бөгөөд энгийн ангилагчдад түгээмэл саад болдог. MCV-ийг RBC-ийн тоонд хувааж тооцдог Ментцерийн индекс нь төмрийн дутагдалд 13-аас их, талассемийн шинжид 13-аас доогуур гардаг.

BT-001-д өвчтөн 34 настай эмэгтэй байсан бөгөөд гемоглобин 10.4 г/дл, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферритин 6 нг/мл, мөн TIBC өндөр байв. Ойролцоогоор 17.7 гэсэн Ментцерийн индекс нь абсолют төмрийн дутагдлыг дэмжиж байна. BT-007-д өвчтөн 28 настай эрэгтэй бөгөөд микроцитозтой (MCV 65.8 фл) боловч RBC-ийн тоо 6.2 өндөр, RDW хэвийн, ферритин хэвийн, HbA2 5.6 хувь байв. Ойролцоогоор 10.6 гэсэн Ментцерийн индекс нь талассемийн шинжийг зааж, өндөр HbA2 нь бета-талассеми бага хэлбэрийг баталж байна.

Төмрийн дутагдлын цус багадалт Ментцер > 13 Ферритин бага, TSAT бага, TIBC өндөр, RDW өндөр
Бета-талассемийн шинж Ментцер < 13 Ферритин хэвийн, RDW хэвийн, HbA2 өндөр (>3.5%), RBC-ийн тоо өндөр

Хоёр тохиолдол хоёулаа 1.000 оноо авсан. Хөдөлгүүр нь хоёр тайлалд Ментцерийн индексыг ил тод ашигласан бөгөөд тохиолдол бүрт зөв оношийг буцаасан. Энэ бол бүхэл benchmark-ийн хамгийн эмнэлзүйн хувьд тайвшруулах ганц үр дүн, учир нь талассемийн шинжийг төмрийн дутагдал гэж буруу ангилах нь зохисгүй төмрийн нэмэлт өгөхөд хүргэж, гэр бүлийн скринингийн боломжууд алдагддаг; харин төмрийн дутагдлыг талассеми гэж буруу ангилах нь энгийн орлуулах эмчилгээг хойшлуулдаг. Манай ферритины хүрээний заавар ялгавартай оношлогооны өргөн хүрээний контекстийг тайлбарладаг.

2026 оны 4-р сарын ажиллуулалтын үеийн тохиолдол тус бүрийн үр дүн

Арван таван тохиолдлын 12 нь үндсэн path дээр 1.000 гэсэн дээд нийлмэл оноонд хүрсэн. Гурван тохиолдлыг Phase 2-ийн fallback-оор үйлчилсэн бөгөөд 0.05 latency бонусоо алдавч бүх клиник болон бүтцийн агуулгыг хадгалсан. Нэг тохиолдолд нэг заавал оруулах дэд хэсэг дутуу байсан; нэг нь магадлалын тархалтын нийлбэрийг ялимгүй бууруулсан байдлаар буцаасан.

Тохиолдлын ID Мэргэжил Нийлмэл Хугацаа (Latency) Path
BT-001-IDAГематологи1.00017.8 сүндсэн
BT-006-B12Гематологи1.00018.4 сүндсэн
BT-007-THALГематологи1.00017.0 сүндсэн
BT-002-HASHЭндокринологи0.95037.0 снөөц (fallback)
BT-008-PCOSЭндокринологи0.98718.6 сүндсэн
BT-003-T2DMБодисын солилцоо1.00019.1 сүндсэн
BT-013-GOUTБодисын солилцоо1.00019.4 сүндсэн
BT-004-NAFLDГепатологи1.00019.6 сүндсэн
BT-009-VIRHEPГепатологи0.95023.4 снөөц (fallback)
BT-014-GILBERTТрап (Trap)1.00018.9 сүндсэн
BT-005-CKDНефрологи1.00017.4 сүндсэн
BT-010-ASCVDЗүрх судас1.00019.7 сүндсэн
BT-011-SLEРевматологи0.98118.2 сүндсэн
BT-012-VITDЭндокринологи1.00019.3 сүндсэн
BT-015-HEALTHYТрап (Trap)1.00018.7 снөөц (fallback)

PCOS-ийн тохиолдол (BT-008) хариуны бүтэц дэх заавал оруулах нэг дэд хэсгийг алдсан — арван зургаан дэд хэсгийн оронд арван таван нь — үүний улмаас бүтцийн оноо 1.000-аас 0.963 болж буурсан. SLE-ийн тохиолдол (BT-011) оношилгооны түлхүүр үг болон онооны систем бүрийг хадгалсан хэвээр мөртлөө клиник оноог 0.965 болгон бууруулсан, магадлалын тархалтын нийлбэр нь ялимгүй буурсан дүнг буцаасан. Аль ч төгс бус тохиолдол зөв оношийг алдсангүй.

Гарчгийн оноо бидэнд юу хэлж өгдөггүй вэ

Энэхүү урьдчилан бүртгэгдсэн тухайн журам (рубрик)-ын дагуу 99.12 хувийн нийлмэл оноо нь бараг дээд түвшний гүйцэтгэлийг илэрхийлж байгаа ч үүнийг нягт нямбай тайлбарлах хэрэгтэй. Энэ үр дүн нь хөдөлгүүрийн зан төлөвийг нэг л рубрик ашиглан, тус бүрийг нь нэг удаа үнэлсэн, анхааралтай сонгосон арван таван нэргүйжүүлсэн тохиолдлын эсрэг хэрхэн ажилласныг тайлбарлаж байна. Тоо нь юу тогтоож, юу тогтоохгүйг бид тодорхой хэлнэ.

Оноо нь V11 хөдөлгүүр нь энэхүү үнэлгээнд сонгосон оношилгооны хэв маягийг зөв боловсруулсан гэж хэлж байна; энэ нь нийтлэгдсэн бөгөөд давтагдах боломжтой аргачлалаар хийгдсэн. Энэ нь хөдөлгүүр нь бодит амьдрал дээр байдаг бүх цусны шинжилгээний самбар дээр зөв байна гэж хэлэхгүй. Мөн хөдөлгүүр нь эмчийн шийдвэр гаргалтыг орлох ёстой гэж хэлэхгүй. Түүнчлэн хөдөлгүүр нь бусад AI системүүдээс илүү гүйцэтгэлтэй гэж хэлэхгүй — бусад хөдөлгүүрүүдтэй харьцуулсан шинжилгээнүүдийг энэ тайлангийн хүрээнээс санаатайгаар гадуур үлдээсэн.

Оноо нь тогтоож өгдөг зүйл бол суурь (baseline) юм. Рубрик болон harness олон нийтэд нээлттэй тул хөдөлгүүрийн ирээдүйн хувилбаруудыг мөн л тэр арван таван тохиолдлын эсрэг үнэлж болно, мөн нийтлэгдсэн оноо болон дараагийн аль нэг ажиллуулалтын хоорондох зөрүү өөрөө хэмжигдэх боломжтой. Урьдчилан бүртгүүлэхийн үнэ цэнэ нь үүнд оршино: гүйцэтгэлийн нэхэмжлэлийг шалгаж болох нэхэмжлэл болгон хувиргадаг.

Энэхүү жишиг (benchmark)-ийг 10 минутанд хэрхэн давтах вэ

Давтахын тулд зөвхөн Kantesti API итгэмжлэл (credential) хослол, мөн Python 3.10 ба түүнээс хойшхи орчин хэрэгтэй бөгөөд requests болон reportlab сангууд суусан байх шаардлагатай. Бүрэн harness нь MIT лицензийн дагуу гаргасан, нэг л бие даасан Python модулиас бүрдэнэ.

Figshare, ResearchGate, Academia.edu, GitHub дээр жишгийг (benchmark) тусган байршуулсан байдлыг харуулсан давтагдах байдлын сүлжээний диаграм; Figshare DOI-г каноник зангуу (anchor) болгон ашигласан
Зураг 5: Энэхүү жишиг (benchmark)-ийг дөрвөн судалгааны платформ дээр тусган байршуулсан. Figshare DOI нь эрдэм шинжилгээний каноник танигч; ResearchGate, Academia.edu, мөн GitHub нь код болон түүхий өгөгдөлтэй зэрэгцээ хуулбаруудыг байршуулдаг.

Шинэ run хийх дөрвөн алхам

Нэг. Репозиторыг клон хийх: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Хоёр. Хамаарлуудыг суулгана уу: pip install -r requirements.txt. Гурав. Тохируулна уу KANTESTI_USERNAME болон KANTESTI_PASSWORD орчны хувьсагч болгон — итгэмжлэлүүдийг ажиллах үед уншдаг бөгөөд скриптэд ямар ч зүйлсийг хатуу кодлоогүй. Дөрөв. Ажиллуулна уу python benchmark_bloodtest.py мөн ажлын директорид үүссэн дөрвөн артефакттай танилцана уу: CSV scorecard, JSON scorecard, түүхий хөдөлгүүрийн хариултуудыг багтаасан бүрэн JSON dump, мөн хүний уншихад ойлгомжтой Markdown тайлан.

2026 оны 4-р сарын 23-ны өдрийн лавлагаа ажиллалт нь хадгалагдсан results/ репозиторийн директор дотор. Шинэ ажиллалт нь лавлагаа ажиллалтыг өөрчлөхгүйгээр шинэ timestamp-тай scorecard үүсгэнэ. Хэрэв таны ажиллалт утгын хувьд мэдэгдэхүйц өөр үр дүн гаргавал GitHub issue нээгээд ажиллалтын timestamp болон хариуны метадата дахь хөдөлгүүрийн хувилбарыг оруулна уу.

Хязгаарлалтууд ба ирээдүйн ажил

Дөрвөн хязгаарлалтыг ил тод хүлээн зөвшөөрөх шаардлагатай: түүврийн хэмжээ, нэг удаагийн үнэлгээ, нэг хөдөлгүүрийн хүрээ, мөн нэг эх сурвалжаас авсан өгөгдлийн гарал үүсэл. Эдгээрийг идэвхтэй дагаж хэрэгжүүлэх ажлын хүрээнд шийдвэрлэж байна.

Түүврийн хэмжээ. Найман мэргэжлийн ангилалд хуваарилагдсан арван таван тохиолдол нь proof of concept-д хангалттай боловч тухайн мэргэжлийн доторх дэд бүлгийн шинжилгээнд хангалтгүй. Тохиолдлын тоог тавин болгохоор төлөвлөж байгаа бөгөөд үүнд коагуляцийн панель, гематологийн хорт хавдрын илрүүлэг, жирэмсний панель, мөн хүүхдийн (педиатр) илрэлүүдийг багтаана.

Нэг удаагийн үнэлгээ. Тохиолдол бүрийг нэг удаа үнэлсэн. Том хэлний загварууд нь sampling temperature бага байсан ч гаралтын хэлбэлзэл мэдэгдэхүйц байдаг тул тохиолдол бүрт таван үнэлгээтэй, тайлагнасан хэлбэлзэл бүхий олон удаагийн протокол нь дараагийн байгалийн алхам юм.

Нэг хөдөлгүүрийн хүрээ. Энэхүү тайлан нь нэг хөдөлгүүрийг тодорхойлж байна. Энд өөр AI системүүдтэй харьцуулсан шинжилгээ хийх нь хамрах хүрээнээс гадуур; бид зохих аргачлалтай тусдаа бие даасан судалгаа болгон хэрэгжүүлэх боломжтой.

Нэг эх сурвалжаас авсан өгөгдлийн гарал үүсэл. Арван таван тохиолдол нь нэг клиникийн репозиторид буй бодит өвчтөний нэргүйжүүлсэн бүртгэлүүд юм. Эдгээр нь сонгон авсан түүвэр бөгөөд хүн амыг төлөөлөх санамсаргүй түүвэр биш. Үнэлгээг олон төвийн өгөгдөлд өргөжүүлэх нь замын зураглалд орсон.

Хамгийн их нөлөөтэй төлөвлөсөн өргөтгөл бол олон хэлний тэнцвэржилт юм. Kantesti AI Engine нь 75+ хэл дээр хэрэглэгчдэд үйлчилдэг бөгөөд Турк, Герман, Испани, Франц, Араб хэл дээр мөн адил арван таван тохиолдлын harness-ийг ажиллуулснаар хөдөлгүүрийн дэмждэг хэлүүдийн хүрээнд гаралтын чанарыг тоон байдлаар хэмжинэ. Хэл тус бүрийн ажиллалтыг өөрийн DOI болон harness branch-тай нь хамт нийтэлнэ.