Kantesti AI цусны шинжилгээний жишиг — Клиникийн баталгаажуулалт

Эмнэлзүйн баталгаажуулалт Урьдчилан бүртгэгдсэн жишиг (Benchmark) V11 — 2026 оны 4-р сар MIT лицензтэй Хараат бус, баталгаажуулах боломжтой (Peer-Verifiable)

Урьдчилан бүртгэгдсэн рубрик дээрх 0 хэт оношилгооны хуурамч эерэггүй 99.12% нэгдсэн оноо

Kantesti AI хөдөлгүүрийн анонимчилсан цусны шинжилгээний тохиолдлууд дээр хийсэн бие даасан, урьдчилан бүртгэгдсэн эмнэлзүйн үнэлгээ. Үнэлгээний шалгуурыг (rubric) хөдөлгүүрийн анхны дуудлагаас өмнө эх кодонд царцаасан бөгөөд үнэлгээний туршилтын орчныг MIT лицензтэй, мөн түүхий (raw) бүх хариуг нийтэлсэн.

📖 ~14 минут 📅 2026 оны 4 сарын 23 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Нийтлэгдсэн: 2026 оны 4 сарын 23 🩺 Эмнэлзүйн хувьд хянасан: 2026 оны 4 сарын 23 ✅ Урьдчилан бүртгэгдсэн шалгуур (Rubric) 🔓 Нээлттэй код & өгөгдөл

Энэхүү эмнэлзүйн баталгаажуулалтын судалгааг удирдсан Доктор Томас Клейн, Анагаах ухааны доктор, Kantesti AI-ийн Анагаах ухааны ерөнхий захирал (Chief Medical Officer) бөгөөд хамтран Жулиан Эмирхан Булут, Kantesti Ltd-ийн Ахлах AI инженер, Гүйцэтгэх захирал (CEO). Аргачлал болон шалгуурыг (rubric) хянасан Кантести AI Эмнэлгийн Зөвлөх Зөвлөл.

Тэргүүлэх зохиогч & Эмнэлзүйн хяналт

Томас Клейн, Мэрилэнд

Кантести AI эмнэлгийн ахлах эмч

Доктор Томас Кляйн бол лабораторийн анагаах ухаанд 15+ жилийн туршлагатай, зөвшөөрөгдсөн (board-certified) клиник гематологич, дотрын эмч юм. Kantesti AI-ийн Анагаах ухааны ерөнхий захирлын хувьд тэрээр энэхүү жишиг (benchmark)-ийн тохиолдлын багцыг сонгож, бүх оношлогооны үнэн зөв баримтуудыг (diagnostic ground truths) хянаж, хөдөлгүүрийг анх дуудах (engine invocation)ын өмнө урьдчилан бүртгэгдсэн шалгуурыг (rubric) баталсан.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Хамтран зохиогч & Хэрэгжилт

Жулиан Эмирхан Булут

Ахлах AI инженер & Гүйцэтгэх захирал, Kantesti Ltd

Жулиан Эмирхан Булут бол Kantesti Ltd-ийн үүсгэн байгуулагч бөгөөд Гүйцэтгэх захирал (CEO) юм. Тэрээр үнэлгээний туршилтын орчныг (evaluation harness) зохион бүтээж, хэрэгжүүлсэн; API-ийн интеграцийг хийж, 2026 оны 4-р сарын жишиг (benchmark) ажиллуулалтыг гүйцэтгэж, статистикийн нэгтгэлийг бэлтгэсэн. 2019 оноос хойш платформын үүсгэн байгуулагч.

GitHub Кантестийн тухай

⚡ Товч тойм V11 — 2026 оны 4 сарын 23

99.12% нийлмэл оноо Долоон эмнэлгийн мэргэжлээр ангилсан 15 нэргүй бодит өвчтөний цусны шинжилгээний тохиолдолд.
Хэт оношилгооны (hyperdiagnosis) хуурамч эерэг тохиолдол 0 Аль аль нь trap case дээр (Гилбертийн хам шинж ба бүрэн хэвийн насанд хүрэгчийн скрининг).
Урьдчилан бүртгэгдсэн үнэлгээний шалгуур (rubric) Эхний хөдөлгүүрийн (engine) дуудлагаас өмнө эх кодонд хөлдөөсөн — post-hoc тохируулга хийх боломжгүй байсан.
Ментцерийн индексийг зөв хэрэглэсэн төмрийн дутагдлын цус багадалтыг бета-талассеми бага хэлбэрээс ялгахын тулд.
Зөвхөн үйлдвэрлэлийн төгсгөлийн цэг (production endpoint) — давуу эрхтэй чиглүүлэлт (privileged routing) байхгүй; төлбөр төлөгч хэрэглэгч яг хэрхэн нэвтрэхээр нь яг таг үнэлсэн.
Дундаж саатал 20.17 секунд төгсгөлөөс төгсгөл хүртэл, 15 тохиолдлын 12 нь 20 секундын үндсэн замын (primary-path) зорилтын дор.
MIT лицензтэй harness GitHub дээр бүх түүхий хөдөлгүүрийн хариултуудтайгаа хамт нийтэлсэн — бие даан давтан шалгах боломж дэмжигдсэн.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub дээр мөн тусгагдсан.

Энэ жишиг (benchmark) яагаад оршдог вэ, мөн юу шалгадаг вэ

AI-тай дэмжсэн цусны шинжилгээний тайлал нь хэрэглэгчийн болон клиникийн ажлын урсгалд улам бүр ашиглагдаж байна, гэхдээ лабораторийн анагаах ухаанд зориулсан давтагдахуйц үнэлгээний хүрээ (framework) ховор хэвээр байна. Энэ нөхцөлд хамгийн чухал асуултууд нь ерөнхий анагаахын асуулт-хариултын жишиг (benchmark)-уудад хамрагддаг асуултууд биш: дундаж корпускулын эзлэхүүн (MCV) ижил байхад хөдөлгүүр төмрийн дутагдлыг талассеми шинжээс ялгаж чадах уу, Гилбертийн хам шинжийг гепатит гэж хэт оношлох уу, мөн бүрэн хэвийн скринингийн багцад эмгэгийг зохиож гаргах уу?

Нэг удаагийн цусны шинжилгээний багц нь ихэвчлэн хэд хэдэн өрсөлдөх тайлбарыг дэмжих хангалттай мэдээлэл агуулдаг бөгөөд тайлбар хийх эмчийн үүрэг нь тэрхүү тайлбаруудыг сурах бичгийн нэг “зөв хариулт” руу хайж олохын оронд хооронд нь харьцуулж жинлэх явдал юм. Сурах бичгийн жишээн дээр сайн ажилладаг хөдөлгүүр хамгийн чухал тохиолдлуудад бүтэлгүйтэж болно: ялган оношлох үеийн түгээмэл алдаа, дангаараа харахад түгшүүртэй мэт боловч хоргүй хувилбарууд, мөн итгэлтэй туслахуудыг эмгэг үүсгэж зохиомлоор дүгнүүлэхэд хүргэдэг бүрэн хэвийн багцууд.

Энэхүү шалгуурыг яг эдгээр бүтэлгүйтлийн хэлбэрүүд дээр тулгуурлан бүтээсэн. Арван таван тохиолдол бүрийг тодорхой оношлогооны шинж чанараар сонгосон: ижил MCV-тэй (дунджаар эритроцитын эзлэхүүн) β-талассемийн шинжээс ялгаж салгаж хадгалах шаардлагатай төмрийн дутагдлын улмаас үүссэн микроцитоз; зөвхөн тусгаарлагдсан шууд бус гипербилирубинеми л илэрдэг Гилбертийн хам шинжийн илрэл; мөн шинжилгээний 15 үзүүлэлттэй скрининг багц бөгөөд бүх шинжилгээний үзүүлэлтүүд нь өөрийн лавлах хүрээндээ багтсан. Журам нь тохиолдол бүрийг өөрийн нөхцөлөөр нь уншиж чаддаг хөдөлгүүрүүдийг урамшуулж, тийм онош шаардлагагүй байхад итгэлтэй онош руу “хүрэх” хөдөлгүүрүүдийг торгодог.

Анагаах ухааны доктор Томас Клейн (MD) би энэ тохиолдлын багцыг сонгосон, учир нь лабораторийн анагаахын туслахууд хамгийн ихээр буруу ойлгодог хэв маяг эдгээр байдаг. Хамгийн үнэтэй бүтэлгүйтэл нь "ховор өвчнийг алгасах" биш — харин түүнийг нь байхгүй өвчтөнүүдэд энгийн мэт харагдах эмгэгийг зохиомлоор бүтээх явдал юм. Манай Эмнэлгийн баталгаажуулалт hub нь илүү өргөн хүрээний суурийг тайлбарладаг; энэ хуудас нь түүний V11 хөдөлгүүр дээрх хэрэглээний үр дүнг тайлбарлана.

Хамгийн сүүлийн лавлагаа ажиллуулалт — V11 (2026 оны 4-р сар)

2026 оны 4-р сарын Kantesti AI Engine V11-ийн лавлагаа шалгалтын давталтаар 99.12% урьдчилан бүртгэгдсэн арван таван тохиолдлын шалгуур дээр нийлмэл оноо авсан. Хэт оношлох (hyperdiagnosis) урхи бүхий хоёр тохиолдол хоёулаа дээд хязгаарт оноо авсан. Төмрийн дутагдал ба талассемийн ялган оношилгоонд Mentzer индексийг зөв хэрэглэсэн.

Нийлмэл 99.12% 15/15 тохиолдол оноо авсан

0.998 Бүтцийн оноо

0.998 Клиникийн оноо

20.17 с Дундаж саатал

0 / 13 Урхинд орсон хуурамч эерэгүүд

Нийлмэл томьёо нь гурван бүрэлдэхүүн хэсгийг нэгтгэнэ: бүтцийн нийцэл долоон заавал тайлагнах хэсэг болон арван зургаан заавал дэд хэсэгтэй, клиникийн зөв байдал түлхүүр үгийн эргэн саналт + онооны системийн эргэн саналт + магадлалын тархалтын хүчинтэй эсэхийг шалгах тестээр хэмжигдсэн, мөн хариу өгөх саатал 20 секундын үндсэн үйлчилгээний түвшний зорилттой харьцуулсан. Нарийвчилсан задлалыг доорх журам (rubric) томьёонд үзүүлсэн.

Нийлмэл = 0.35 × Бүтцийн + 0.55 × Клиникийн + 0.10 × Саатлын

Үлдсэн 0.88 хувийн “headroom”-ын үлдэгдэл нь бараг бүхэлдээ latency loss болж задарсан — тус бүр нь нийлмэл дүнгээрээ -0.05 байсан 2-р шатны нөөц (fallback) гурван удаагийн дуудлага нь 0.88 пунктын дутагдлын ойролцоогоор 0.60-ыг бүрдүүлсэн — харин эмнэлзүйн агуулгад биш. Хөдөлгүүр нь нийт 15 тохиолдлын аль нэгэнд нь зөв оношийг алдаагүй; хэрвээ дутуу байсан бол 20 секундын үндсэн-path зорилтоос цөөн тооны дуудлагад арай удаан хугацаанд ажилласнаар л дутсан.

Долоон эмнэлгийн мэргэжлээрх арван таван тохиолдол

Тохиолдлын самбар нь долоон мэргэжлийг хамарна — гематологи, дотоод шүүрэл судлал, бодисын солилцооны анагаах ухаан, элэг судлал, бөөр судлал, зүрх судас, ревматологи — мөн хоёр тусгай hyperdiagnosis trap тохиолдол. Тохиолдол бүр нь бичгээр өгсөн мэдээлэлтэй зөвшөөрлийн дагуу Kantesti клиник өгөгдлийн сангаас авсан нэргүйжүүлсэн бодит өвчтөний бүртгэл юм.

Нэргүйжүүлэлтийг Safe Harbor аргачлалаар хийсэн: бүх шууд танигчийг устгасан эсвэл орлуулсан бөгөөд бүртгэл бүрт BT-NNN-LABEL хэлбэрийн жишиг-дотоод тохиолдлын код оноосон. Боловсруулалтыг GDPR-ийн 9(2)(j) зүйлд шинжлэх ухааны судалгаанд зориулсан зохих хамгаалалтын арга хэмжээнүүдийн хамт, мөн Их Британийн GDPR-ийн дүйцэх заалтуудын дагуу гүйцэтгэсэн. Хэвлэгдсэн harness, техникийн тайлан, эсвэл гаргасан өгөгдлийн багцын аль ч хэсэгт хувийн таних мэдээлэл огт харагдахгүй.

Гематологи (3) BT-001, BT-006, BT-007 Төмрийн дутагдлын цус багадалт · B12 витамины дутагдал · Бета-талассеми бага хэлбэр

Дотоод шүүрэл судлал (3) BT-002, BT-008, BT-012 Хашимотогийн бамбай булчирхайн үрэвсэл · Инсулины эсэргүүцэлтэй PCOS · Дунд/хүнд хэлбэрийн D витамины дутагдал

Бодисын солилцоо (2) BT-003, BT-013 Метаболик хам шинжтэй T2DM · тулай үүсэх эрсдэлтэй гиперурикеми

Элэг судлал (2) BT-004, BT-009 NAFLD / NASH · Цочмог вируст гепатит

Бөөр судлал · Зүрх судас · Ревматологи (3) BT-005, BT-010, BT-011 Бөөрний архаг өвчин 3-р шат · Атероген дислипидеми · Системийн чонон хөрвөс

Trap тохиолдлууд (2) BT-014, BT-015 Гилбертийн хам шинж (тусгаарлагдсан шууд бус гипербилирубинеми) · Насанд хүрэгчдийн бүрэн хэвийн скрининг

Яагаад яг энэ хуваарилалт вэ

Гематологи нь бодит лабораторийн практикт хамгийн их тохиолддог “хууран мэхлэх” бүсүүд болох микроцитик дифференциалууд болон макроцитик дифференциалуудын эзлэхүүн өндөртэй тул гурван тохиолдол авдаг. Эндокринологи нь Хашимотогийн өвчин, PCOS, мөн D витамины дутагдал гэсэн илрэлүүд нь өөр өөр оношлох хэлбэрүүдийг (аутоэсрэгбиеэр өдөөгдсөн, дааврын харьцаагаар өдөөгдсөн, ганц маркераар өдөөгдсөн) дасгалжуулдаг тул гурван тохиолдол авдаг. Нэг тохиолдлын мэргэжлүүд ч гэсэн утга учиртай хэвээр, учир нь CKD, ASCVD эрсдэл, мөн SLE тус бүр өөрийн оноо тооцох системтэй бөгөөд хөдөлгүүр (engine) үүнийг дуудах ёстой (тус тусдаа KDIGO шатлал, ASCVD 10 жилийн эрсдэл, 2019 EULAR/ACR SLE шалгуур).

Урьдчилан бүртгэгдсэн шалгуур (rubric), тайлбарласан нь

Урьдчилсан бүртгэл (pre-registration) нь энэхүү жишиг (benchmark)-ийн хамгийн чухал арга зүйн сонголт юм. Хүлээгдэж буй онош бүр, эмнэлзүйн оноо тооцох систем бүр, мөн тайлангийн хэсэг бүрийг эх кодод (source code) оруулсан хөдөлгүүрийг дуулахаас өмнө. Тиймээс хөдөлгүүрийг “хөөргөх” зорилготой рубрикийн (rubric) дараах тохируулга (post-hoc tuning) хийх боломжгүй.

Нийлмэл оноог бүрдүүлэх гурван бүрэлдэхүүн бий. Тэдгээрийн бүтцийн бүрэлдэхүүн 35 хувийг эзэлж, хөдөлгүүр нь заавал байх долоон тайлангийн хэсгийг (гарчиг, хураангуй, гол олдворууд, дифференциал, оноо тооцох системүүд, зөвлөмжүүд, хяналт/дараагийн алхам) болон тэдгээрийн доторх заавал байх арван зургаан дэд хэсгийг буцаасан эсэхийг хэмжинэ. Хэсгийн оршихуй нь бүтцийн тооцоонд 40 хувийг, дэд хэсгийн оршихуй нь 60 хувийг эзэлнэ.

The эмнэлзүйн бүрэлдэхүүн 55 хувийг эзэлж, гурван зүйлийг нэгтгэнэ: онош-гол түлхүүр үгийн сэргэлт (эмнэлзүйн дэд онооны 70 хувь), оноо тооцох системийн сэргэлт (20 хувь — шаардлагатай үед хөдөлгүүр Mentzer, FIB-4, HOMA-IR, ASCVD эрсдэл, KDIGO шатлал, EULAR/ACR шалгуурыг тооцдог эсэх), мөн магадлалын нийлбэрийн хүчинтэй байдлын шалгалт (10 хувь — дифференциал магадлалууд [90, 110] интервал дотор нийлэгдэх ёстой). “Хууран мэхлэх” (trap) тохиолдлуудад зохиомлоор эмгэгийн туг (pathology flag) үүсгэсэн тохиолдол бүрт 0.10-аар тооцож, дээд тал нь гурван туг хүртэл хязгаарласан, 0.30 хүртэлх тодорхой гипер-оношлох (hyperdiagnosis) торгууль хасна.

The саатлын (latency) бүрэлдэхүүн 10 хувийг эзэлнэ. 20 секундээс бага хугацаанд хариулбал бүтэн 0.10, 40 секундээс бага хугацаанд хариулбал 0.05, түүнээс удаан бол 0 оноо. 20 секундын зорилт нь үйлдвэрлэлийн (production) primary-path үйлчилгээний түвшний зорилт; 40 секундын дээд хязгаар нь хүнд хөдөлгүүрийн (heavy-engine) дуудах үед хэрэгжих Phase 2-ийн нөөц төсөв юм.

Урьдчилсан бүртгэл (pre-registration) юуг сэргийлдэг вэ

Нэгдүгээр талын (first-party) жишигүүд нь post-hoc рубрикийн тохируулгаар өөрсдийн тоонуудыг хөөрөгдөх нь элбэг. Ихэнхдээ хэв маяг нь бараг ижил байдаг: баг хөдөлгүүрийг ажиллуулж, хаанаа дутуу гүйцэтгэж байгааг хармагцаа, дутуу гүйцэтгэсэн хэсгүүдийг бага тооцдог болгохын тулд рубрикийг чимээгүйхэн тохируулдаг. Анхны хөдөлгүүрийн дуудлагаас өмнө рубрикийг эх кодод оруулж, MIT лицензийн дор туршилтын орчныг (harness) нийтэлснээр энэ тохируулга хувилбарын хяналтад (version control) ил тод болдог. Хэн ч репозиторыг (repository) клон хийж, рубрикийн зохиогчийн огноог шалгаж, хөдөлгүүрийн үр дүнг оноог хэлбэржүүлэхэд ашиглаагүйг баталгаажуулж чадна.

Хэт оношлох (Hyperdiagnosis) урхи — хэт дуудлага хийх нь бодит алдаа болох шалтгаан

Энгийн дэлгэцийн шинжилгээн дээр хэвийн гарсан тохиолдолд эмгэгийг хэт түргэн (over-calling) оношлох нь хэрэглэгчид чиглэсэн эмнэлгийн туслахуудын баримтжуулсан доголдлын горим юм. Үүний үр дагаварт шаардлагагүй шинжилгээ, өвчтөний түгшүүр, мөн эмчилгээний улмаас үүсэх (iatrogenic) нэмэлт үзлэг/ажиллагаа орно. Энэхүү жишиг дэх хоёр “хууран мэхлэх” тохиолдлыг энэ доголдлын горимыг ил харагдаж, оноож болохуйц болгохоор зохион бүтээсэн.

🟡 Trap 1 — BT-014-GILBERT

Илрэл. Нийт билирубин 2.4 мг/дл бүхий 24 настай эрэгтэй. Шууд фракц хэвийн, трансаминаз ба шүлтлэг фосфатаза нь лавлах хүрээндээ байна, ретикулоцитүүд онцгүй, мөн гаптоглобин ба LDH нь гемолизийг үгүйсгэнэ.

Зөв тайлал. Гилбертийн хам шинж — UGT1A1-ийн хоргүй полиморфизм. Тайлал нь гепатит, элэгний хатуурал (цирроз), гемолизийн цус багадалт, эсвэл цөсний замын бөглөрөл зэргийг дуудах ёсгүй.

V11-ийн үр дүн. Нийлмэл 1.000. Хянасан зургаан хэт-оношлох (over-diagnosis) тугны аль нь ч идэвхтэй онош хэлбэрээр гарч ирээгүй.

🟡 Trap 2 — BT-015-HEALTHY

Илрэл. 15 параметртэй энгийн (routine) скрининг самбар бүхий 35 настай эмэгтэй. Бүх шинжилгээний үзүүлэлтүүд нь лавлах хүрээндээ бүрэн багтсан.

Зөв тайлал. Тайвшруулах зөвлөмж ба амьдралын хэв маягийг тогтвортой барих. Тайлал нь эмнэлзүйн хувьд хэрэгтэй мэт харагдуулахын тулд хил хязгаарын эмгэгийг зохиомлоор үүсгэж болохгүй.

V11-ийн үр дүн. Нийлмэл 1.000. Хянагдсан долоон хэт оношлох дохионы аль нь ч — чихрийн шижин, цус багадалт, бамбай булчирхайн үйл ажиллагааны бууралт, дислипидеми, гепатит, бөөрний өвчин, дутагдал — идэвхтэй онош хэлбэрээр илрээгүй.

Хоёр сорилтын аль алинд нь хянагдсан 13 хэт оношлох дохиог шалгасан. Ямар ч нь идэвхжээгүй. Энэ бол ямар ч эмч AI хөдөлгүүрийг triage эсвэл зөвлөгөө авахаас өмнөх хэрэгсэл болгон ашиглах талаар бодож байгаа бол хамгийн чухалд тооцогдох үр дүн юм: систем өвчин байхгүй газарт өвчин зохиож гаргаагүй.

Ментцерийн индекс: төмрийн дутагдлыг талассемийн шинж (thalassaemia trait)-ээс ялгах

Өндөр үнэ цэнтэй хоёр дахь олдвор нь BT-001 (төмрийн дутагдлын цус багадалт) тохиолдлыг BT-007 (бета-талассеми бага хэлбэр) тохиолдолтой хослуулсан явдалтай холбоотой. Аль аль нь микроцитозтой илэрдэг бөгөөд энгийн ангилагчдад түгээмэл саад болдог. MCV-ийг RBC-ийн тоонд хувааж тооцдог Ментцерийн индекс нь төмрийн дутагдалд 13-аас их, талассемийн шинжид 13-аас доогуур гардаг.

BT-001-д өвчтөн 34 настай эмэгтэй байсан бөгөөд гемоглобин 10.4 г/дл, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферритин 6 нг/мл, мөн TIBC өндөр байв. Ойролцоогоор 17.7 гэсэн Ментцерийн индекс нь абсолют төмрийн дутагдлыг дэмжиж байна. BT-007-д өвчтөн 28 настай эрэгтэй бөгөөд микроцитозтой (MCV 65.8 фл) боловч RBC-ийн тоо 6.2 өндөр, RDW хэвийн, ферритин хэвийн, HbA2 5.6 хувь байв. Ойролцоогоор 10.6 гэсэн Ментцерийн индекс нь талассемийн шинжийг зааж, өндөр HbA2 нь бета-талассеми бага хэлбэрийг баталж байна.

Төмрийн дутагдлын цус багадалт Ментцер > 13 Ферритин бага, TSAT бага, TIBC өндөр, RDW өндөр

Бета-талассемийн шинж Ментцер < 13 Ферритин хэвийн, RDW хэвийн, HbA2 өндөр (>3.5%), RBC-ийн тоо өндөр

Хоёр тохиолдол хоёулаа 1.000 оноо авсан. Хөдөлгүүр нь хоёр тайлалд Ментцерийн индексыг ил тод ашигласан бөгөөд тохиолдол бүрт зөв оношийг буцаасан. Энэ бол бүхэл benchmark-ийн хамгийн эмнэлзүйн хувьд тайвшруулах ганц үр дүн, учир нь талассемийн шинжийг төмрийн дутагдал гэж буруу ангилах нь зохисгүй төмрийн нэмэлт өгөхөд хүргэж, гэр бүлийн скринингийн боломжууд алдагддаг; харин төмрийн дутагдлыг талассеми гэж буруу ангилах нь энгийн орлуулах эмчилгээг хойшлуулдаг. Манай ферритины хүрээний заавар ялгавартай оношлогооны өргөн хүрээний контекстийг тайлбарладаг.

2026 оны 4-р сарын ажиллуулалтын үеийн тохиолдол тус бүрийн үр дүн

Арван таван тохиолдлын 12 нь үндсэн path дээр 1.000 гэсэн дээд нийлмэл оноонд хүрсэн. Гурван тохиолдлыг Phase 2-ийн fallback-оор үйлчилсэн бөгөөд 0.05 latency бонусоо алдавч бүх клиник болон бүтцийн агуулгыг хадгалсан. Нэг тохиолдолд нэг заавал оруулах дэд хэсэг дутуу байсан; нэг нь магадлалын тархалтын нийлбэрийг ялимгүй бууруулсан байдлаар буцаасан.

Тохиолдлын ID Мэргэжил Нийлмэл Хугацаа (Latency) Path

BT-001-IDAГематологи1.00017.8 сүндсэн

BT-006-B12Гематологи1.00018.4 сүндсэн

BT-007-THALГематологи1.00017.0 сүндсэн

BT-002-HASHЭндокринологи0.95037.0 снөөц (fallback)

BT-008-PCOSЭндокринологи0.98718.6 сүндсэн

BT-003-T2DMБодисын солилцоо1.00019.1 сүндсэн

BT-013-GOUTБодисын солилцоо1.00019.4 сүндсэн

BT-004-NAFLDГепатологи1.00019.6 сүндсэн

BT-009-VIRHEPГепатологи0.95023.4 снөөц (fallback)

BT-014-GILBERTТрап (Trap)1.00018.9 сүндсэн

BT-005-CKDНефрологи1.00017.4 сүндсэн

BT-010-ASCVDЗүрх судас1.00019.7 сүндсэн

BT-011-SLEРевматологи0.98118.2 сүндсэн

BT-012-VITDЭндокринологи1.00019.3 сүндсэн

BT-015-HEALTHYТрап (Trap)1.00018.7 снөөц (fallback)

PCOS-ийн тохиолдол (BT-008) хариуны бүтэц дэх заавал оруулах нэг дэд хэсгийг алдсан — арван зургаан дэд хэсгийн оронд арван таван нь — үүний улмаас бүтцийн оноо 1.000-аас 0.963 болж буурсан. SLE-ийн тохиолдол (BT-011) оношилгооны түлхүүр үг болон онооны систем бүрийг хадгалсан хэвээр мөртлөө клиник оноог 0.965 болгон бууруулсан, магадлалын тархалтын нийлбэр нь ялимгүй буурсан дүнг буцаасан. Аль ч төгс бус тохиолдол зөв оношийг алдсангүй.

Гарчгийн оноо бидэнд юу хэлж өгдөггүй вэ

Энэхүү урьдчилан бүртгэгдсэн тухайн журам (рубрик)-ын дагуу 99.12 хувийн нийлмэл оноо нь бараг дээд түвшний гүйцэтгэлийг илэрхийлж байгаа ч үүнийг нягт нямбай тайлбарлах хэрэгтэй. Энэ үр дүн нь хөдөлгүүрийн зан төлөвийг нэг л рубрик ашиглан, тус бүрийг нь нэг удаа үнэлсэн, анхааралтай сонгосон арван таван нэргүйжүүлсэн тохиолдлын эсрэг хэрхэн ажилласныг тайлбарлаж байна. Тоо нь юу тогтоож, юу тогтоохгүйг бид тодорхой хэлнэ.

Оноо нь V11 хөдөлгүүр нь энэхүү үнэлгээнд сонгосон оношилгооны хэв маягийг зөв боловсруулсан гэж хэлж байна; энэ нь нийтлэгдсэн бөгөөд давтагдах боломжтой аргачлалаар хийгдсэн. Энэ нь хөдөлгүүр нь бодит амьдрал дээр байдаг бүх цусны шинжилгээний самбар дээр зөв байна гэж хэлэхгүй. Мөн хөдөлгүүр нь эмчийн шийдвэр гаргалтыг орлох ёстой гэж хэлэхгүй. Түүнчлэн хөдөлгүүр нь бусад AI системүүдээс илүү гүйцэтгэлтэй гэж хэлэхгүй — бусад хөдөлгүүрүүдтэй харьцуулсан шинжилгээнүүдийг энэ тайлангийн хүрээнээс санаатайгаар гадуур үлдээсэн.

Оноо нь тогтоож өгдөг зүйл бол суурь (baseline) юм. Рубрик болон harness олон нийтэд нээлттэй тул хөдөлгүүрийн ирээдүйн хувилбаруудыг мөн л тэр арван таван тохиолдлын эсрэг үнэлж болно, мөн нийтлэгдсэн оноо болон дараагийн аль нэг ажиллуулалтын хоорондох зөрүү өөрөө хэмжигдэх боломжтой. Урьдчилан бүртгүүлэхийн үнэ цэнэ нь үүнд оршино: гүйцэтгэлийн нэхэмжлэлийг шалгаж болох нэхэмжлэл болгон хувиргадаг.

Энэхүү жишиг (benchmark)-ийг 10 минутанд хэрхэн давтах вэ

Давтахын тулд зөвхөн Kantesti API итгэмжлэл (credential) хослол, мөн Python 3.10 ба түүнээс хойшхи орчин хэрэгтэй бөгөөд requests болон reportlab сангууд суусан байх шаардлагатай. Бүрэн harness нь MIT лицензийн дагуу гаргасан, нэг л бие даасан Python модулиас бүрдэнэ.

💻 GitHub MIT лицензтэй harness · түүхий хариунууд · лавлагаа run 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · каноник эрдэм шинжилгээний бүртгэл 🎓 ResearchGate Publication 404175463 · эрдэм шинжилгээний нээлтийн давхарга 📄 Academia.edu Paper 165956808 · эрдэм шинжилгээний нээлтийн давхарга

Шинэ run хийх дөрвөн алхам

Нэг. Репозиторыг клон хийх: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Хоёр. Хамаарлуудыг суулгана уу: pip install -r requirements.txt. Гурав. Тохируулна уу KANTESTI_USERNAME болон KANTESTI_PASSWORD орчны хувьсагч болгон — итгэмжлэлүүдийг ажиллах үед уншдаг бөгөөд скриптэд ямар ч зүйлсийг хатуу кодлоогүй. Дөрөв. Ажиллуулна уу python benchmark_bloodtest.py мөн ажлын директорид үүссэн дөрвөн артефакттай танилцана уу: CSV scorecard, JSON scorecard, түүхий хөдөлгүүрийн хариултуудыг багтаасан бүрэн JSON dump, мөн хүний уншихад ойлгомжтой Markdown тайлан.

2026 оны 4-р сарын 23-ны өдрийн лавлагаа ажиллалт нь хадгалагдсан results/ репозиторийн директор дотор. Шинэ ажиллалт нь лавлагаа ажиллалтыг өөрчлөхгүйгээр шинэ timestamp-тай scorecard үүсгэнэ. Хэрэв таны ажиллалт утгын хувьд мэдэгдэхүйц өөр үр дүн гаргавал GitHub issue нээгээд ажиллалтын timestamp болон хариуны метадата дахь хөдөлгүүрийн хувилбарыг оруулна уу.

Хязгаарлалтууд ба ирээдүйн ажил

Дөрвөн хязгаарлалтыг ил тод хүлээн зөвшөөрөх шаардлагатай: түүврийн хэмжээ, нэг удаагийн үнэлгээ, нэг хөдөлгүүрийн хүрээ, мөн нэг эх сурвалжаас авсан өгөгдлийн гарал үүсэл. Эдгээрийг идэвхтэй дагаж хэрэгжүүлэх ажлын хүрээнд шийдвэрлэж байна.

Түүврийн хэмжээ. Найман мэргэжлийн ангилалд хуваарилагдсан арван таван тохиолдол нь proof of concept-д хангалттай боловч тухайн мэргэжлийн доторх дэд бүлгийн шинжилгээнд хангалтгүй. Тохиолдлын тоог тавин болгохоор төлөвлөж байгаа бөгөөд үүнд коагуляцийн панель, гематологийн хорт хавдрын илрүүлэг, жирэмсний панель, мөн хүүхдийн (педиатр) илрэлүүдийг багтаана.

Нэг удаагийн үнэлгээ. Тохиолдол бүрийг нэг удаа үнэлсэн. Том хэлний загварууд нь sampling temperature бага байсан ч гаралтын хэлбэлзэл мэдэгдэхүйц байдаг тул тохиолдол бүрт таван үнэлгээтэй, тайлагнасан хэлбэлзэл бүхий олон удаагийн протокол нь дараагийн байгалийн алхам юм.

Нэг хөдөлгүүрийн хүрээ. Энэхүү тайлан нь нэг хөдөлгүүрийг тодорхойлж байна. Энд өөр AI системүүдтэй харьцуулсан шинжилгээ хийх нь хамрах хүрээнээс гадуур; бид зохих аргачлалтай тусдаа бие даасан судалгаа болгон хэрэгжүүлэх боломжтой.

Нэг эх сурвалжаас авсан өгөгдлийн гарал үүсэл. Арван таван тохиолдол нь нэг клиникийн репозиторид буй бодит өвчтөний нэргүйжүүлсэн бүртгэлүүд юм. Эдгээр нь сонгон авсан түүвэр бөгөөд хүн амыг төлөөлөх санамсаргүй түүвэр биш. Үнэлгээг олон төвийн өгөгдөлд өргөжүүлэх нь замын зураглалд орсон.

Хамгийн их нөлөөтэй төлөвлөсөн өргөтгөл бол олон хэлний тэнцвэржилт юм. Kantesti AI Engine нь 75+ хэл дээр хэрэглэгчдэд үйлчилдэг бөгөөд Турк, Герман, Испани, Франц, Араб хэл дээр мөн адил арван таван тохиолдлын harness-ийг ажиллуулснаар хөдөлгүүрийн дэмждэг хэлүүдийн хүрээнд гаралтын чанарыг тоон байдлаар хэмжинэ. Хэл тус бүрийн ажиллалтыг өөрийн DOI болон harness branch-тай нь хамт нийтэлнэ.

99.12% Composite Score-д хүрсэн Мөн Адил Хөдөлгүүрийг туршаад үзээрэй

Өөрийн цусны шинжилгээний самбараа энэхүү жишигт үнэлэгдсэнтэй ижил үйлдвэрлэлийн (production) төгсгөлийн цэг рүү байршуулна уу. Дэлхий даяар 2 саяас дээш хэрэглэгч Kantesti AI Engine-ийг ашиглан 75+ хэл дээр 15,000 гаруй биомаркерыг тайлбарладаг.

🔬 Үнэгүй демо хувилбарыг туршаад үзээрэй

Chrome өргөтгөл Апп Дэлгүүр Google Play

📚 Энэхүү жишгийг хэрхэн иш татах вэ

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Kantesti AI Engine-ийн клиник баталгаажуулалт (2.78T)
                 15 нэргүйжүүлсэн цусны шинжилгээний  тохиолдол дээр: Урьдчилан бүртгэгдсэн
                 рубрик дээр суурилсан жишиг, долоон эмнэлгийн мэргэжлээр дамжсан
                 хэт оношилгооны урхи (hyperdiagnosis trap) тохиолдлуудыг багтаасан},
  institution = {Kantesti Ltd},
  address     = {Лондон, Нэгдсэн Вант Улс},
  year        = {2026},
  month       = {Дөрөвдүгээр сар},
  type        = {Техникийн тайлан},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti AI Engine-ийн клиник баталгаажуулалт (2.78T) 15 нэргүйжүүлсэн цусны шинжилгээний тохиолдол дээр: Долоон эмнэлгийн мэргэжлээр дамжсан хэт оношилгооны урхи тохиолдлуудыг багтаасан урьдчилан бүртгэгдсэн рубрик дээр суурилсан жишиг (Техникийн тайлан V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Холбогдох Kantesti баталгаажуулалтын ажил

. Хиймэл оюун ухаанаар ажилладаг цусны шинжилгээний тайлбарын клиник баталгаажуулалтын хүрээ: Гурвалсан нууц баталгаажуулалтын арга зүй, гүйцэтгэлийн үзүүлэлтүүд болон чанарын баталгаажуулалтын протоколууд. Kantesti AI Medical Research.

🎓 ResearchGate

📖 Гадаад арга зүйн лавлагаа

Mentzer, W. C. (1973). Төмрийн дутагдлыг талассемийн шинжээс ялгах. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 оны Ревматизмын эсрэг Европын лиг / Америкийн ревматологийн коллежийн ангиллын шалгуур Системийн чонон хөрвөс (Systemic Lupus Erythematosus). Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Том хэлний загваруудад зориулсан анагаах ухааны домэйн хийрхлэлтийн тест. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Нийлмэл оноо

15Оношлогдсон тохиолдлууд

7Мэргэжлүүд

0Урхины хуурамч эерэгүүд

Байнга асуудаг асуултууд

Бодит цусны шинжилгээний тохиолдлууд дээр Kantesti AI хөдөлгүүр хэр үнэн зөв вэ?

Долоон эмнэлгийн мэргэжлээр дамжсан бодит өвчтөний нэргүйжүүлсэн 15 цусны шинжилгээний тохиолдлын урьдчилан бүртгэгдсэн рубрик дээр Kantesti AI Engine V11 нь 99.12 хувийн нийлмэл оноонд хүрсэн бөгөөд урхи тохиолдлууд дээр хэт оношилгооны хуурамч эерэгүүд 0 байсан; мөн дундаж хариу өгөх хугацаа 20.17 секунд байв. Тохиолдол бүрийн бүрэн онооны хүснэгтийг Figshare дээр DOI 10.6084/m9.figshare.32095435, мөн GitHub дээр MIT лицензийн дагуу нийтэлсэн.

Kantesti AI хөдөлгүүр нь эмнэлзүйн хувьд баталгаажсан уу?

Тийм ээ. Уг хөдөлгүүрийг клиникийн хувьд баталгаажуулсан бөгөөд хөдөлгүүрийг дуудах (invoke) үйлдлээс өмнө эх кодонд царцаасан рубрикын дагуу үнэлсэн. Гематологи, эндокринологи, бодисын солилцооны анагаах ухаан, элэг судлал, бөөр судлал, зүрх судас, ревматологийн чиглэлээр 15 нэргүйжүүлсэн цусны шинжилгээний тохиолдлыг ашиглан үнэлгээ хийсэн. Клиникийн хяналтыг Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) гүйцэтгэсэн бөгөөд тэрээр Kantesti AI дээр зөвлөлөөр баталгаажсан клиникийн гематологич, Ерөнхий эмнэлгийн захирал (Chief Medical Officer) юм.

Гипердиагнозын урхины тохиолдол гэж юу вэ?

Хэт оношлох (hyperdiagnosis) урхины тохиолдол гэдэг нь AI хөдөлгүүрүүдийн хэт оношлох зан үйлийг илрүүлэх зорилгоор тусгайлан зохиосон клиникийн нөхцөл юм. Kantesti V11 жишиг (benchmark) нь ийм хоёр тохиолдлыг ашигладаг. Эхнийх нь Гилбертын хам шинжтэй нийцэх тусгаарлагдсан шууд бус гипербилирубинеми бөгөөд зөв тайлал нь гепатит эсвэл гемолиз биш харин UGT1A1 полиморфизмийн хоргүй (benign) хувилбар юм. Хоёр дахь нь бүрэн хэвийн насанд хүрэгчдийн скрининг самбар бөгөөд зөв хариу нь хил хязгаарын эмгэгийг зохиож гаргах биш, харин тайвшруулах (reassurance) болон амьдралын хэв маягийг хэвээр хадгалах явдал юм.

Kantesti AI хөдөлгүүрийн үнэлгээ давтагдах боломжтой юу?

Бүрэн үнэлгээний (evaluation) хэрэгслийг MIT лицензийн дагуу нэг бие даасан Python модулиар гаргасан. Дахин бүтээхэд зөвхөн Kantesti API итгэмжлэл (credential) хослол болон Python 3.10 буюу түүнээс хойшхи хувилбар шаардлагатай. Код, тохиолдлын тодорхойлолтууд, мөн 2026 оны 4-р сарын лавлагаа (reference) ажиллуулалтын үеийн хөдөлгүүрийн бүх түүхий хариунууд github.com/emirhanai/kantesti-blood-test-benchmark дээр байгаа бөгөөд Figshare, ResearchGate, Academia.edu дээр мөн хуулбарласан (mirrored) болно.

Kantesti AI хөдөлгүүр төмрийн дутагдлыг бета-талассемийн шинжээс хэрхэн ялгадаг вэ?

Хөдөлгүүр нь Mentzer индексийг ашигладаг бөгөөд үүнийг дундаж эритроцитын эзлэхүүн (mean corpuscular volume) / улаан эсийн тоо (red blood cell count) гэж тооцдог. Mentzer индекс 13-аас дээш байвал төмрийн дутагдлын цус багадалтыг дэмжинэ, харин 13-аас доош байвал бета-талассемийн шинж (trait)-ийг дэмжинэ. V11 жишигт эдгээр хоёр илрэл хоёуланг нь Mentzer индексийг ил тод тооцоолсон байдлаар зөв ангилсан бөгөөд ферритин, RDW, HbA2-ийн нөхцөл (context)-оор дэмжсэн.

Түүхий жишиг (benchmark) өгөгдөл болон эх кодыг хаанаас олж болох вэ?

Техникийн тайланг Figshare дээр DOI 10.6084/m9.figshare.32095435 дор байршуулсан бөгөөд ResearchGate дээрх нийтлэл 404175463 болон Academia.edu дээрх өгүүлэл 165956808 дээр мөн хуулбарласан (mirrored) байна. Мөн MIT лицензтэй Python хэрэгсэл (harness) нь бүх лавлагаа ажиллуулалтын үр дүнгийн хамт github.com/emirhanai/kantesti-blood-test-benchmark дээр байна. Дөрвөн платформын хуулбар (mirror) сүлжээ нь урт хугацааны хүртээмж болон ишлэл (citation) хийх уян хатан байдлыг баталгаажуулдаг.

AI-ийн эмнэлгийн жишиг (benchmark)-ийн хувьд урьдчилан бүртгүүлэх (pre-registration) нь яагаад чухал вэ?

Урьдчилан бүртгүүлэх нь post-hoc рубрик тааруулалтыг (rubric tuning) зогсоодог бөгөөд энэ нь компанийн удирддаг жишгүүд өөрсдийнхөө тоог хөөрөгдөх хамгийн түгээмэл ганц арга юм. Рубрикийг хөдөлгүүрийг дуудах (engine call) үйлдэл бүрийн өмнө эх кодонд оруулж, хэрэгслийг (harness) олон нийтэд нийтэлснээр рубрик бичигчийн огноонууд хувилбарын хяналтад (version control) шалгагдах боломжтой болж, хөдөлгүүрийн үр дүн онооны шалгуурыг хэлбэржүүлж чадахгүй.

Энэхүү жишиг нь бусад AI хөдөлгүүрүүдтэй харьцуулалт оруулсан уу?

Үгүй. V11 тайлан нь нэг хөдөлгүүрийг тогтмол рубрикын эсрэг зориуд тодорхойлсон бөгөөд түүнийг өөр хувилбарын арилжааны системүүдтэй зэрэгцүүлэн байршуулж (positioning) харьцуулаагүй. Хэрэгсэл (harness) нь MIT лицензийн дагуу нээлттэй эх кодтой тул бие даасан судлаачид өөрсдийн сонгосон ямар ч хөдөлгүүрийг мөн адил 15 тохиолдол болон рубрикын эсрэг үнэлж, үр дүнгээ нийтлэх боломжтой.

Өвчтөний тохиолдлууд бодит уу, эсвэл зохиомол уу?

Арван таван тохиолдол нь Kantesti клиникийн мэдээллийн сангаас бичгээр өгсөн зөвшөөрлийн дагуу татсан нэргүйжүүлсэн бодит өвчтөний бүртгэлүүд юм. Нэргүйжүүлэлтийг Safe Harbor аргачлалаар хийж, бүх шууд танигчийг устгасан эсвэл орлуулсан. Боловсруулалтыг GDPR-ийн 9(2)(j) зүйл болон Их Британийн GDPR-ийн түүнтэй адилтгах заалтуудын дагуу гүйцэтгэсэн. Нийтлэгдсэн хэрэгсэл (harness), техникийн тайлан, эсвэл гаргасан мэдээллийн багцуудад (datasets) хувийн таних мэдээлэл харагдахгүй.

⚕️ Эмнэлгийн мэдэгдэл & Ашиг сонирхлын зөрчил

Энэхүү жишиг (benchmark) тайлан нь судалгаа болон арга зүйн (methodological) ил тод байдлын зорилготой. Энэ нь эмнэлгийн зөвлөгөө биш. Оношилгоо, эмчилгээний шийдвэр гаргахдаа үргэлж мэргэшсэн эрүүл мэндийн үйлчилгээ үзүүлэгчтэй зөвлөлдөнө. Хоёр зохиогч хоёулаа Kantesti Ltd-д ажилладаг бөгөөд хувь эзэмшдэг (equity) бөгөөд үнэлэгдэж буй хөдөлгүүр нь мөн тэр байгууллагын арилжааны бүтээгдэхүүн юм. Энэхүү ашиг сонирхлын зөрчлийг рубрикийг эх кодонд урьдчилан бүртгэх, хэрэгслийг MIT лицензийн дагуу гаргах, мөн хөдөлгүүрийн бүх түүхий хариуг нийтлэх замаар бууруулсан.

E-E-A-T итгэлийн дохио

⭐

Туршлага

Тохиолдлын самбарын сонголтыг удирдан хянасан 15+ жилийн клиникийн гематологи болон лабораторийн анагаах ухааны туршлага.

📋

Мэргэшсэн байдал

Урьдчилан бүртгэгдсэн рубрикийн дизайн: ил тод хэт оношлох (hyperdiagnosis) торгуультай, мөн хүлээн зөвшөөрөгдсөн клиникийн онооны системүүд (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Эрх мэдэл

Тэргүүлэх зохиогч Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Хэрэгжилтийг Julian Emirhan Bulut, Kantesti Ltd-ийн гүйцэтгэх захирал (CEO) хийсэн.

🛡️

Найдвартай байдал

MIT лицензтэй давтагдах боломжтой (reproducible) хэрэгсэл (harness), түүхий хөдөлгүүрийн хариунууд нийтлэгдсэн, ашиг сонирхлын зөрчлийн нээлттэй мэдүүлэг, дөрвөн платформын судалгааны хуулбар (mirror) сүлжээ.

🏢 Кантести ХХК Англи, Уэльст бүртгэлтэй · Компанийн дугаар. 17090423 Лондон, Их Британи · kantesti.net