Kantesti AI цусны шинжилгээний жишиг — Клиникийн баталгаажуулалт

Автоматжуулсан Benchmark Урьдчилан бүртгэгдсэн жишиг (Benchmark) V11 Хоёр дахь шинэчлэлт — 2026 оны 4-р сар MIT лицензтэй Давтагдах боломжтой · Нээлттэй өгөгдөл 100K синтетик когорт · 127 улсын шошго

Урьдчилан бүртгэгдсэн рубрик дээрх 99.80% нийлмэл оноо — V11 Хоёр дахь шинэчлэлт, 127 улсын шошготой 100,000 тохиолдлын когорт

127 улсын шошготой тэмдэглэгдсэн 100,000 синтетик цусны шинжилгээний тохиолдол дээрх Kantesti хөдөлгүүрийн урьдчилан бүртгэгдсэн, рубрик суурьтай автоматжуулсан техникийн жишиг (benchmark). Энэ нь оношилгооны нарийвчлалыг биш, гаралтын нийцлийг хэмждэг. Рубрик нь V11 анхны хувилбарын өмнө эх кодонд царцаасан бөгөөд энэ Хоёр дахь шинэчлэлтэд byte-тай ижил (byte-identical) хэвээр хадгалагдсан; үнэлгээний орчин MIT лицензтэй; шалгалтад зориулж хөдөлгүүрийн түүхий хариултуудын давхарласан санамсаргүй түүврийг нийтэлсэн. Бүх тохиолдлууд синтетик; хувийн мэдээлэл ашиглаагүй.

📖 ~14 минут 📅 2026 оны 4-р сарын 23-нд нийтэлсэн · 2026 оны 4-р сарын 26-нд шинэчилсэн (V11 Хоёр дахь шинэчлэлт) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Нийтлэгдсэн: 2026 оны 4 сарын 23 🔄 V11 Хоёр дахь шинэчлэлт: 2026 оны 4-р сарын 26 🩺 Эмнэлзүйн хувьд хянасан: 2026 оны 4-р сарын 26 ✅ Урьдчилан бүртгэгдсэн рубрик (Byte-Identical) 🔓 Нээлттэй код & өгөгдөл

Энэхүү автоматжуулсан benchmark-ийг Жулиан Эмирхан Булут, Kantesti Ltd-ийн Ахлах AI инженер бөгөөд Гүйцэтгэх захирал (CEO) боловсруулж, ажиллуулсан. Оноолт нь эх код дотор бүрэн автоматжуулсан; оноолтын шалгуурын хүснэгт болон кейсийн самбарыг Доктор Томас Клейн, Анагаах ухааны доктор, Kantesti AI-ийн Анагаах ухааны ерөнхий захирал (Chief Medical Officer) клиник оролцоотойгоор боловсруулж, Кантести AI Эмнэлгийн Зөвлөх Зөвлөл. Энэ нь бие даасан эсвэл үе тэнгийн хяналттай (peer-reviewed) автоматжуулсан техникийн жишиг биш, харин өөрөө ажиллуулсан дотоод жишиг юм.

Тэргүүлэх зохиогч & Эмнэлзүйн хяналт

Томас Клейн, Мэрилэнд

Кантести AI эмнэлгийн ахлах эмч

Доктор Томас Кляйн бол лабораторийн анагаах ухаанд 15 гаруй жилийн туршлагатай, зөвлөлөөр баталгаажсан клиник гематологич, дотрын эмч. Kantesti AI-ийн Анагаах ухааны ерөнхий захирал (Chief Medical Officer) байхдаа тэрээр энэхүү жишгийн (benchmark) тохиолдлын панелийг сонгож, синтетик тохиолдлуудын клиник агуулга болон хүлээгдэж буй хариултуудыг нягталж, хөдөлгүүрийг анх дуудах (engine invocation)ын өмнө урьдчилан бүртгэгдсэн рубрикийг баталсан.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Хамтран зохиогч & Хэрэгжилт

Жулиан Эмирхан Булут

Ахлах AI инженер & Гүйцэтгэх захирал, Kantesti Ltd

Жулиан Эмирхан Булут нь Kantesti Ltd-ийн үүсгэн байгуулагч бөгөөд гүйцэтгэх захирал юм. Тэр үнэлгээний хэрэгслийг — V11 Хоёр дахь шинэчлэлтэд нэмэгдсэн SQL case loader зэрэг — зохион бүтээж хэрэгжүүлсэн, API интеграц хийсэн, V11 анхны лавлагаа ажиллуулалт болон V11 Хоёр дахь шинэчлэлтэд 100,000 тохиолдлын ажиллуулалтыг хоёуланг нь гүйцэтгэсэн, мөн статистикийн нэгтгэлийг бэлтгэсэн. 2019 оноос хойш платформын үүсгэн байгуулагч.

GitHub Кантестийн тухай

⚡ Товч тойм V11 Хоёр дахь шинэчлэлт — 2026 оны 4-р сарын 26

99.80% нэгдсэн оноо Найман анагаахын мэргэжил болон 127 улсын шошготой 100,000 синтетик цусны шинжилгээний тохиолдолд (V11 Хоёр дахь шинэчлэлт).
Хэт оношилгооны (hyperdiagnosis) хуурамч эерэг тохиолдол 0 87,412 хянагдсан trap-case flag боломжуудын дунд — V11 анхны хувилбарынхтай ижил trap-case аргачлал, хүн амын түвшинд өргөтгөсөн.
Урьдчилан бүртгэгдсэн үнэлгээний шалгуур (rubric) V11 анхны ажиллуулалтын өмнө эх кодонд хөлдөөсөн бөгөөд хадгалсан яг ижил (byte-identical) энэ Хоёр дахь шинэчлэлтэд — post-hoc тохируулга хийх боломжгүй байсан.
Ментцерийн индексийг зөв хэрэглэсэн V11 анхны хувилбар дахь төмрийн дутагдлын цус багадалтыг бета-талассеми бага хэлбэрээс ялгах; ялгавартай зан төлөв нь хүн амын түвшинд хадгалагдсан.
Зөвхөн үйлдвэрлэлийн төгсгөлийн цэг (production endpoint) — давуу эрхтэй чиглүүлэлт (privileged routing) байхгүй; төлбөр төлөгч хэрэглэгч яг хэрхэн нэвтрэхээр нь яг таг үнэлсэн.
13.26 секунд дундаж саатал (latency) төгсгөлөөс төгсгөл хүртэл (9.0–16.94 с хүрээ), бүх 100,000 тохиолдол хөдөлгүүрийн үндсэн зам дээр дууссан.
Синтетик когорт. Ажиллуулах үед (run-time) ачаалагдсан 100,000 синтетик үүсгэсэн тест тохиолдол. Синтетик өгөгдөл болон хувийн өгөгдөл ашиглаагүй.
MIT лицензтэй harness GitHub дээр шалгалтад зориулж хөдөлгүүрийн бүрэн түүхий хариултуудын давхарласан санамсаргүй түүвэр (n = 201)-ийг нийтэлсэн.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu, GitHub дээр мөн тусгагдсан.

Энэ жишиг (benchmark) яагаад оршдог вэ, мөн юу шалгадаг вэ

AI-тай дэмжсэн цусны шинжилгээний тайлал нь хэрэглэгчийн болон клиникийн ажлын урсгалд улам бүр ашиглагдаж байна, гэхдээ лабораторийн анагаах ухаанд зориулсан давтагдахуйц үнэлгээний хүрээ (framework) ховор хэвээр байна. Энэ нөхцөлд хамгийн чухал асуултууд нь ерөнхий анагаахын асуулт-хариултын жишиг (benchmark)-уудад хамрагддаг асуултууд биш: дундаж корпускулын эзлэхүүн (MCV) ижил байхад хөдөлгүүр төмрийн дутагдлыг талассеми шинжээс ялгаж чадах уу, Гилбертийн хам шинжийг гепатит гэж хэт оношлох уу, мөн бүрэн хэвийн скринингийн багцад эмгэгийг зохиож гаргах уу?

Нэг удаагийн цусны шинжилгээний багц нь ихэвчлэн хэд хэдэн өрсөлдөх тайлбарыг дэмжих хангалттай мэдээлэл агуулдаг бөгөөд тайлбар хийх эмчийн үүрэг нь тэрхүү тайлбаруудыг сурах бичгийн нэг “зөв хариулт” руу хайж олохын оронд хооронд нь харьцуулж жинлэх явдал юм. Сурах бичгийн жишээн дээр сайн ажилладаг хөдөлгүүр хамгийн чухал тохиолдлуудад бүтэлгүйтэж болно: ялган оношлох үеийн түгээмэл алдаа, дангаараа харахад түгшүүртэй мэт боловч хоргүй хувилбарууд, мөн итгэлтэй туслахуудыг эмгэг үүсгэж зохиомлоор дүгнүүлэхэд хүргэдэг бүрэн хэвийн багцууд.

Энэхүү шалгуурыг яг эдгээр бүтэлгүйтлийн хэлбэрүүд дээр тулгуурлан бүтээсэн. Арван таван тохиолдол бүрийг тодорхой оношлогооны шинж чанараар сонгосон: ижил MCV-тэй (дунджаар эритроцитын эзлэхүүн) β-талассемийн шинжээс ялгаж салгаж хадгалах шаардлагатай төмрийн дутагдлын улмаас үүссэн микроцитоз; зөвхөн тусгаарлагдсан шууд бус гипербилирубинеми л илэрдэг Гилбертийн хам шинжийн илрэл; мөн шинжилгээний 15 үзүүлэлттэй скрининг багц бөгөөд бүх шинжилгээний үзүүлэлтүүд нь өөрийн лавлах хүрээндээ багтсан. Журам нь тохиолдол бүрийг өөрийн нөхцөлөөр нь уншиж чаддаг хөдөлгүүрүүдийг урамшуулж, тийм онош шаардлагагүй байхад итгэлтэй онош руу “хүрэх” хөдөлгүүрүүдийг торгодог.

Анагаах ухааны доктор Томас Клейн (MD) би энэ тохиолдлын багцыг сонгосон, учир нь лабораторийн анагаахын туслахууд хамгийн ихээр буруу ойлгодог хэв маяг эдгээр байдаг. Хамгийн үнэтэй бүтэлгүйтэл нь "ховор өвчнийг алгасах" биш — харин түүнийг нь байхгүй өвчтөнүүдэд энгийн мэт харагдах эмгэгийг зохиомлоор бүтээх явдал юм. Манай Эмнэлгийн баталгаажуулалт hub нь илүү өргөн хүрээний суурь фреймворкийг тайлбарладаг; энэ хуудас нь V11 анхны proof-of-concept болон түүнийг 127 улсын шошготой синтетик тохиолдлын багцаас татсан 100,000 синтетик тохиолдол болгон өргөтгөсөн V11 Хоёр дахь шинэчлэлтийг тайлбарлана — мөн ижил онооны рубрик, byte-тай ижил, post-hoc тохируулга хийхийг зөвшөөрөөгүй.

Хамгийн сүүлийн лавлагаа ажиллуулалт — V11 Second Update (2026 оны 4-р сарын 26)

2026 оны 4-р сарын 26-ны V11 Second Update лавлагаа ажиллуулалт нь 99.80% V11 анхны хувилбарт ашигласан урьдчилан бүртгэгдсэн рубриктэй ижил рубрикийг ашиглан, үнэлсэн 100,000 синтетик тохиолдол Kantesti синтетик тохиолдлын багцаас сонгогдсон бөгөөд 127 улсын шошгыг хамарсан болон 75+ хэлүүдийг хамарсан. Тохиолдол бүр хөдөлгүүрийн үндсэн зам дээр бүрэн дууссан; trap-case hyperdiagnosis flag идэвхжил 0 / 87,412. хэвээр үлдсэн. 2026 оны 4-р сарын 23-ны V11 анхны ажиллуулалт нь 15 гар аргаар сонгосон тохиолдлыг (нийлмэл 99.12%) хамарч рубрикийг баталгаажуулсан; Second Update нь тэр рубрикийг байт-ижил хэвээр хадгалж, үнэлгээг хүн амын хэмжээний кохорт руу өргөтгөсөн.

Нийлмэл 99.80% 100,000 тохиолдлын 100,000 нь оноо авсан

1.000 Бүтцийн оноо

0.996 Клиникийн оноо

13.26 s Дундаж саатал

0 / 87,412 Урхинд орсон хуурамч эерэгүүд

Нийлмэл томьёо нь гурван бүрэлдэхүүн хэсгийг нэгтгэнэ: бүтцийн нийцэл долоон заавал тайлагнах хэсэг болон арван зургаан заавал дэд хэсэгтэй, агуулгын үнэн зөв байдал түлхүүр үгийн эргэн саналт + онооны системийн эргэн саналт + магадлалын тархалтын хүчинтэй эсэхийг шалгах тестээр хэмжигдсэн, мөн хариу өгөх саатал үндсэн замын үйлчилгээний түвшний зорилтот үзүүлэлттэй харьцуулахад. Нарийвчилсан задралыг доорх рубрикийн томьёонд үзүүлсэн — эдгээр жин эсвэл дэд-рубрикуудыг Second Update-д өөрчөөгүй.

Нийлмэл = 0.35 × Бүтцийн + 0.55 × Клиникийн + 0.10 × Саатлын

Үлдсэн 0.20 хувийн пунктын “толгой зай” нь бараг бүхэлдээ клиникийн дэд оноонд задардаг — цөөн тохиолдолд (ихэвчлэн Гепатологи ба Ревматологи) онооны системийн нэг хүлээгдэж байсан түлхүүр үг хөдөлгүүрийн тайлбарт байхгүй байсан ч оношлогооны агуулга зөв байсан. 100,000 тохиолдлын Second-Update кохортын аль ч тохиолдол өөрөө оношийг алдсангүй. Хугацаа (латенц) V11 анхны хувилбарт дунджаар 20.17 s байсан бол Second Update-д 13.26 s болж сайжирсан; хоёр ажиллуулалтын хооронд үйлдвэрлэлийн хөдөлгүүрийн оновчлол хийгдсэнийг харуулж байна. Рубрик, онооны код, API endpoint өөрчлөгдөөгүй.

Шошго тус бүрийн нийлмэл оноо нь хамгийн их төлөөлөлтэй 30 улсын шошго дээр 0.9971-ээс 0.9985 хооронд хэлбэлзсэн. Нэмэлт 97 шошгоноос бүрдэх урт сүүл (long tail) (нийлээд ≈7,300 тохиолдол) системчилсэн доройтол үзүүлээгүй. Тохиолдлын тоогоор хамгийн түгээмэл шошгууд нь АНУ (10,500), Бразил (9,500), Испани (9,000), Итали (8,000), Герман (7,800), Франц (7,400), Португал (5,800), Türkiye (3,400), Их Британи (2,900), Мексик (2,500) байв.

15 тохиолдлоос 100,000 хүртэл: 127 улсын шошго дахь когортын хувьсал

Анхны V11 тохиолдлын панел нь долоон мэргэжлийг — гематологи, дотоод шүүрэл судлал (эндокринологи), бодисын солилцооны анагаах ухаан, элэгний анагаах ухаан (гепатологи), бөөрний анагаах ухаан (нефрологи), зүрх судас, ревматологи — мөн хоёр тусгай hyperdiagnosis trap тохиолдлыг хамарсан бөгөөд тохиолдол бүр нь синтетик үүсгэсэн цусны шинжилгээний панел байв. V11 Хоёр дахь шинэчлэлт нь үнэлгээг 100,000 синтетик тохиолдол болгон, 127 улсын шошгыг хамруулан өргөжүүлсэн, найман мэргэжлээр хуваарилан (анхны долоо плюс trap дэд хэсгийг шингээх дотоод анагаахын зориулалтын bucket) өргөтгөнө. Мөн адил онооны рубрикийг хоёр ажиллуулалтын хооронд байт-ижил байдлаар хэрэглэсэн.

Бүх тохиолдлууд синтетик үүсгэсэн тул устгах бодит танигч (identifier) байхгүй бөгөөд хувийн мэдээлэл оролцохгүй. Тохиолдол бүр нь жишиг дотоодын (benchmark-internal) тохиолдлын кодтой (V11 анхны багцад BT-NNN-LABEL, Хоёр дахь шинэчлэлтэд тогтвортой case_uid ). Нийтэлсэн жишиг (harness), техникийн тайлан, эсвэл гаргасан өгөгдлийн багцын аль ч хэсэгт хувийн мэдээлэл харагдахгүй.

V11 анхны хувилбарын дагуу боловсруулалт хийгдсэн — 15 гар аргаар сонгосон тохиолдол

Анхны V11 тохиолдлын самбарыг доктор Томас Клейн лабораторийн анагаахын туслахууд хамгийн их андуурдаг оношилгооны хэв маягийг дасгалжуулах зорилгоор гараар сонгон боловсруулсан. Арван таван тохиолдол тус бүрийг доор жагсаасан тодорхой оношилгооны шинж чанараар сонгосон.

Гематологи (3) BT-001, BT-006, BT-007 Төмрийн дутагдлын цус багадалт · B12 витамины дутагдал · Бета-талассеми бага хэлбэр

Дотоод шүүрэл судлал (3) BT-002, BT-008, BT-012 Хашимотогийн бамбай булчирхайн үрэвсэл · Инсулины эсэргүүцэлтэй PCOS · Дунд/хүнд хэлбэрийн D витамины дутагдал

Бодисын солилцоо (2) BT-003, BT-013 Метаболик хам шинжтэй T2DM · тулай үүсэх эрсдэлтэй гиперурикеми

Элэг судлал (2) BT-004, BT-009 NAFLD / NASH · Цочмог вируст гепатит

Бөөр судлал · Зүрх судас · Ревматологи (3) BT-005, BT-010, BT-011 Бөөрний архаг өвчин 3-р шат · Атероген дислипидеми · Системийн чонон хөрвөс

Trap тохиолдлууд (2) BT-014, BT-015 Гилбертийн хам шинж (тусгаарлагдсан шууд бус гипербилирубинеми) · Насанд хүрэгчдийн бүрэн хэвийн скрининг

Яагаад яг энэ хуваарилалт вэ

Гематологи нь бодит лабораторийн практикт хамгийн их тохиолддог “хууран мэхлэх” бүсүүд болох микроцитик дифференциалууд болон макроцитик дифференциалуудын эзлэхүүн өндөртэй тул гурван тохиолдол авдаг. Эндокринологи нь Хашимотогийн өвчин, PCOS, мөн D витамины дутагдал гэсэн илрэлүүд нь өөр өөр оношлох хэлбэрүүдийг (аутоэсрэгбиеэр өдөөгдсөн, дааврын харьцаагаар өдөөгдсөн, ганц маркераар өдөөгдсөн) дасгалжуулдаг тул гурван тохиолдол авдаг. Нэг тохиолдлын мэргэжлүүд ч гэсэн утга учиртай хэвээр, учир нь CKD, ASCVD эрсдэл, мөн SLE тус бүр өөрийн оноо тооцох системтэй бөгөөд хөдөлгүүр (engine) үүнийг дуудах ёстой (тус тусдаа KDIGO шатлал, ASCVD 10 жилийн эрсдэл, 2019 EULAR/ACR SLE шалгуур).

V11 Хоёр дахь шинэчлэлт — 127 улсын шошготой 100,000 синтетик тохиолдол

Хоёр дахь шинэчлэлт нь анхны V11-ийн 15-тохиолдлын hard-coded Python literal-ийг илүү том, програмчлан үүсгэсэн синтетик тохиолдлын багцаар сольсон. Тохиолдлын багцыг ажиллуулах бүрийн эхэнд ачаалж, тохиргоог ил тод байдлын үүднээс бүртгэдэг. Агуулгын чиглэлээрх когортын тархалтыг доор үзүүлэв.

Эндокринологи 23,900 тохиолдол (23.9%) Бамбай булчирхай, PCOS, D витамин, бэлгийн булчирхайн тэнхлэг, гипофиз

Бодисын солилцооны анагаах ухаан 21,900 тохиолдол (21.9%) T2DM, бодисын солилцооны хам шинж, липидийн самбар, гиперурикеми

Гематологи 15,400 тохиолдол (15.4%) Микроцит ба макроцит ялгаварлалт, B12/фолат, төмрийн шинжилгээ

Гепатологи 12,400 тохиолдол (12.4%) NAFLD/NASH, вируст гепатит, FIB-4, холестаз

Дотоод анагаах ухаан (үүнд trap subset орно) 9,000 тохиолдол (9.0%) Холимог илрэлүүд ба 8,723 зориулалтын хэт-оношилгооны trap тохиолдол

Зүрх судас 7,500 тохиолдол (7.5%) ASCVD эрсдэл, атероген дислипидеми, hs-CRP

Ревматологи 6,000 тохиолдол (6.0%) SLE, RA, васкулит, аутоэсрэгбиеийн самбар (EULAR/ACR шалгуур)

Нефрологи 4,000 тохиолдол (4.0%) Бөөрний архаг өвчний (CKD) үе шатлал (KDIGO), eGFR-ийн чиг хандлага, электролитийн алдагдал

Синтетик улсын-шошгоны тархалт — хамгийн дээд 10 шошго

100,000 синтетик тохиолдол нь байршил (locale) боловсруулахыг туршихын тулд 127 улсын шошгыг (ISO 3166-1 alpha-2) агуулна. Шошго оноолт: Европ 57.7%, Америк тивүүд 25.4%, Ази-Номхон далай 6.2%, нэрлэсэн Дундад Зүүн/Африкийн шошго 3.4%, мөн нэмэлт 97 шошгоноос бүрдэх урт сүүл нь ойролцоогоор нийт 7.3%. Тохиолдлын тоогоор хамгийн их давтамжтай арван шошго нь АНУ (10,500), Бразил (9,500), Испани (9,000), Итали (8,000), Герман (7,800), Франц (7,400), Португал (5,800), Türkiye (3,400), Их Британи (2,900), Мексик (2,500) байв. Шошго тус бүрийн нийлмэл оноо 0.9971-ээс 0.9985 хооронд хэлбэлзсэн. Эдгээр шошгоны тоонууд нь байршил боловсруулахыг туршихад ашигласан үүсгэсэн тохиолдлуудын шинж чанар бөгөөд бодит хэрэглэгчид биш, бодит газарзүйн хамрах хүрээ биш.

Урьдчилан бүртгэгдсэн шалгуур (rubric), тайлбарласан нь

Урьдчилсан бүртгэл (pre-registration) нь энэхүү жишиг (benchmark)-ийн хамгийн чухал арга зүйн сонголт юм. Хүлээгдэж буй онош бүр, эмнэлзүйн оноо тооцох систем бүр, мөн тайлангийн хэсэг бүрийг эх кодод (source code) оруулсан хөдөлгүүрийг дуулахаас өмнө. Тиймээс хөдөлгүүрийг “хөөргөх” зорилготой рубрикийн (rubric) дараах тохируулга (post-hoc tuning) хийх боломжгүй.

Нийлмэл оноог бүрдүүлэх гурван бүрэлдэхүүн бий. Тэдгээрийн бүтцийн бүрэлдэхүүн 35 хувийг эзэлж, хөдөлгүүр нь заавал байх долоон тайлангийн хэсгийг (гарчиг, хураангуй, гол олдворууд, дифференциал, оноо тооцох системүүд, зөвлөмжүүд, хяналт/дараагийн алхам) болон тэдгээрийн доторх заавал байх арван зургаан дэд хэсгийг буцаасан эсэхийг хэмжинэ. Хэсгийн оршихуй нь бүтцийн тооцоонд 40 хувийг, дэд хэсгийн оршихуй нь 60 хувийг эзэлнэ.

The эмнэлзүйн бүрэлдэхүүн 55 хувийг эзэлж, гурван зүйлийг нэгтгэнэ: онош-гол түлхүүр үгийн сэргэлт (эмнэлзүйн дэд онооны 70 хувь), оноо тооцох системийн сэргэлт (20 хувь — шаардлагатай үед хөдөлгүүр Mentzer, FIB-4, HOMA-IR, ASCVD эрсдэл, KDIGO шатлал, EULAR/ACR шалгуурыг тооцдог эсэх), мөн магадлалын нийлбэрийн хүчинтэй байдлын шалгалт (10 хувь — дифференциал магадлалууд [90, 110] интервал дотор нийлэгдэх ёстой). “Хууран мэхлэх” (trap) тохиолдлуудад зохиомлоор эмгэгийн туг (pathology flag) үүсгэсэн тохиолдол бүрт 0.10-аар тооцож, дээд тал нь гурван туг хүртэл хязгаарласан, 0.30 хүртэлх тодорхой гипер-оношлох (hyperdiagnosis) торгууль хасна.

The саатлын (latency) бүрэлдэхүүн 10 хувийг эзэлнэ. 20 секундээс бага хугацаанд хариулбал бүтэн 0.10, 40 секундээс бага хугацаанд хариулбал 0.05, түүнээс удаан бол 0 оноо. 20 секундын зорилт нь үйлдвэрлэлийн (production) primary-path үйлчилгээний түвшний зорилт; 40 секундын дээд хязгаар нь хүнд хөдөлгүүрийн (heavy-engine) дуудах үед хэрэгжих Phase 2-ийн нөөц төсөв юм.

Урьдчилсан бүртгэл (pre-registration) юуг сэргийлдэг вэ

Нэгдүгээр талын (first-party) жишигүүд нь post-hoc рубрикийн тохируулгаар өөрсдийн тоонуудыг хөөрөгдөх нь элбэг. Ихэнхдээ хэв маяг нь бараг ижил байдаг: баг хөдөлгүүрийг ажиллуулж, хаанаа дутуу гүйцэтгэж байгааг хармагцаа, дутуу гүйцэтгэсэн хэсгүүдийг бага тооцдог болгохын тулд рубрикийг чимээгүйхэн тохируулдаг. Анхны хөдөлгүүрийн дуудлагаас өмнө рубрикийг эх кодод оруулж, MIT лицензийн дор туршилтын орчныг (harness) нийтэлснээр энэ тохируулга хувилбарын хяналтад (version control) ил тод болдог. Хэн ч репозиторыг (repository) клон хийж, рубрикийн зохиогчийн огноог шалгаж, хөдөлгүүрийн үр дүнг оноог хэлбэржүүлэхэд ашиглаагүйг баталгаажуулж чадна.

Хэт оношлох (Hyperdiagnosis) урхи — хэт дуудлага хийх нь бодит алдаа болох шалтгаан

Энгийн дэлгэцийн шинжилгээн дээр хэвийн гарсан тохиолдолд эмгэгийг хэт түргэн (over-calling) оношлох нь хэрэглэгчид чиглэсэн эмнэлгийн туслахуудын баримтжуулсан доголдлын горим юм. Үүний үр дагаварт шаардлагагүй шинжилгээ, өвчтөний түгшүүр, мөн эмчилгээний улмаас үүсэх (iatrogenic) нэмэлт үзлэг/ажиллагаа орно. Энэхүү жишиг дэх хоёр “хууран мэхлэх” тохиолдлыг энэ доголдлын горимыг ил харагдаж, оноож болохуйц болгохоор зохион бүтээсэн.

🟡 Trap 1 — BT-014-GILBERT

Илрэл. Нийт билирубин 2.4 мг/дл бүхий 24 настай эрэгтэй. Шууд фракц хэвийн, трансаминаз ба шүлтлэг фосфатаза нь лавлах хүрээндээ байна, ретикулоцитүүд онцгүй, мөн гаптоглобин ба LDH нь гемолизийг үгүйсгэнэ.

Зөв тайлал. Гилбертийн хам шинж — UGT1A1-ийн хоргүй полиморфизм. Тайлал нь гепатит, элэгний хатуурал (цирроз), гемолизийн цус багадалт, эсвэл цөсний замын бөглөрөл зэргийг дуудах ёсгүй.

V11-ийн үр дүн. Нийлмэл 1.000. Хянасан зургаан хэт-оношлох (over-diagnosis) тугны аль нь ч идэвхтэй онош хэлбэрээр гарч ирээгүй.

🟡 Trap 2 — BT-015-HEALTHY

Илрэл. 15 параметртэй энгийн (routine) скрининг самбар бүхий 35 настай эмэгтэй. Бүх шинжилгээний үзүүлэлтүүд нь лавлах хүрээндээ бүрэн багтсан.

Зөв тайлал. Тайвшруулах зөвлөмж ба амьдралын хэв маягийг тогтвортой барих. Тайлал нь эмнэлзүйн хувьд хэрэгтэй мэт харагдуулахын тулд хил хязгаарын эмгэгийг зохиомлоор үүсгэж болохгүй.

V11-ийн үр дүн. Нийлмэл 1.000. Хянагдсан долоон хэт оношлох дохионы аль нь ч — чихрийн шижин, цус багадалт, бамбай булчирхайн үйл ажиллагааны бууралт, дислипидеми, гепатит, бөөрний өвчин, дутагдал — идэвхтэй онош хэлбэрээр илрээгүй.

Хоёр сорилтын аль алинд нь хянагдсан 13 хэт оношлох дохиог шалгасан. Ямар ч нь идэвхжээгүй. Энэ бол ямар ч эмч AI хөдөлгүүрийг triage эсвэл зөвлөгөө авахаас өмнөх хэрэгсэл болгон ашиглах талаар бодож байгаа бол хамгийн чухалд тооцогдох үр дүн юм: систем өвчин байхгүй газарт өвчин зохиож гаргаагүй.

Ментцерийн индекс: төмрийн дутагдлыг талассемийн шинж (thalassaemia trait)-ээс ялгах

Өндөр үнэ цэнтэй хоёр дахь олдвор нь BT-001 (төмрийн дутагдлын цус багадалт) тохиолдлыг BT-007 (бета-талассеми бага хэлбэр) тохиолдолтой хослуулсан явдалтай холбоотой. Аль аль нь микроцитозтой илэрдэг бөгөөд энгийн ангилагчдад түгээмэл саад болдог. MCV-ийг RBC-ийн тоонд хувааж тооцдог Ментцерийн индекс нь төмрийн дутагдалд 13-аас их, талассемийн шинжид 13-аас доогуур гардаг.

BT-001-д өвчтөн 34 настай эмэгтэй байсан бөгөөд гемоглобин 10.4 г/дл, MCV 72.4 фл, RBC 4.1 × 10¹²/л, ферритин 6 нг/мл, мөн TIBC өндөр байв. Ойролцоогоор 17.7 гэсэн Ментцерийн индекс нь абсолют төмрийн дутагдлыг дэмжиж байна. BT-007-д өвчтөн 28 настай эрэгтэй бөгөөд микроцитозтой (MCV 65.8 фл) боловч RBC-ийн тоо 6.2 өндөр, RDW хэвийн, ферритин хэвийн, HbA2 5.6 хувь байв. Ойролцоогоор 10.6 гэсэн Ментцерийн индекс нь талассемийн шинжийг зааж, өндөр HbA2 нь бета-талассеми бага хэлбэрийг баталж байна.

Төмрийн дутагдлын цус багадалт Ментцер > 13 Ферритин бага, TSAT бага, TIBC өндөр, RDW өндөр

Бета-талассемийн шинж Ментцер < 13 Ферритин хэвийн, RDW хэвийн, HbA2 өндөр (>3.5%), RBC-ийн тоо өндөр

Хоёр тохиолдол хоёулаа 1.000 оноо авсан. Хөдөлгүүр нь хоёр тайлалд Ментцерийн индексыг ил тод ашигласан бөгөөд тохиолдол бүрт зөв оношийг буцаасан. Энэ бол бүхэл benchmark-ийн хамгийн эмнэлзүйн хувьд тайвшруулах ганц үр дүн, учир нь талассемийн шинжийг төмрийн дутагдал гэж буруу ангилах нь зохисгүй төмрийн нэмэлт өгөхөд хүргэж, гэр бүлийн скринингийн боломжууд алдагддаг; харин төмрийн дутагдлыг талассеми гэж буруу ангилах нь энгийн орлуулах эмчилгээг хойшлуулдаг. Манай ферритины хүрээний заавар ялгавартай оношлогооны өргөн хүрээний контекстийг тайлбарладаг.

V11 анхны лавлагаа ажиллуулалтын тохиолдол тус бүрийн үр дүн (2026 оны 4-р сарын 23)

15 тохиолдлын proof-of-concept кохорт дээрх анхны V11 лавлагаа ажиллуулалт нь арга зүйн суурь болдог Хоёр дахь шинэчлэлтийн хувьд: доорх тохиолдол бүрийн нарийн мэдээлэл нь рубрик бодит хөдөлгүүрийн хариуг хэрхэн боловсруулдгийг харуулна. Арван таван тохиолдлын 12 нь үндсэн зам дээр нийлмэл онооны тааз болох 1.000-д хүрсэн; гурван тохиолдлыг Phase 2-ийн fallback-оор үйлчилсэн бөгөөд 0.05 latency бонусоо алдсан ч бүх клиник болон бүтцийн агуулгыг хадгалсан. Нэг тохиолдолд нэг заавал оруулах дэд хэсэг дутуу байсан; нэг нь магадлалын тархалтын нийлбэрийг ялимгүй бууруулсан байдлаар буцаасан.

Тохиолдлын ID Мэргэжил Нийлмэл Хугацаа (Latency) Path

BT-001-IDAГематологи1.00017.8 сүндсэн

BT-006-B12Гематологи1.00018.4 сүндсэн

BT-007-THALГематологи1.00017.0 сүндсэн

BT-002-HASHЭндокринологи0.95037.0 снөөц (fallback)

BT-008-PCOSЭндокринологи0.98718.6 сүндсэн

BT-003-T2DMБодисын солилцоо1.00019.1 сүндсэн

BT-013-GOUTБодисын солилцоо1.00019.4 сүндсэн

BT-004-NAFLDГепатологи1.00019.6 сүндсэн

BT-009-VIRHEPГепатологи0.95023.4 снөөц (fallback)

BT-014-GILBERTТрап (Trap)1.00018.9 сүндсэн

BT-005-CKDНефрологи1.00017.4 сүндсэн

BT-010-ASCVDЗүрх судас1.00019.7 сүндсэн

BT-011-SLEРевматологи0.98118.2 сүндсэн

BT-012-VITDЭндокринологи1.00019.3 сүндсэн

BT-015-HEALTHYТрап (Trap)1.00018.7 снөөц (fallback)

PCOS-ийн тохиолдол (BT-008) хариуны бүтэц дэх заавал оруулах нэг дэд хэсгийг алдсан — арван зургаан дэд хэсгийн оронд арван таван нь — үүний улмаас бүтцийн оноо 1.000-аас 0.963 болж буурсан. SLE-ийн тохиолдол (BT-011) оношилгооны түлхүүр үг болон онооны систем бүрийг хадгалсан хэвээр мөртлөө клиник оноог 0.965 болгон бууруулсан, магадлалын тархалтын нийлбэр нь ялимгүй буурсан дүнг буцаасан. Аль ч төгс бус тохиолдол зөв оношийг алдсангүй.

V11 Хоёр дахь шинэчлэлтийн нэгтгэсэн дүн — 100,000 тохиолдол

Хүн амын түвшинд хувь хүний тохиолдлын мөрүүд хүний уншигдахуйц биш тул Хоёр дахь шинэчлэлт нь 100,000 мөртэй хүснэгтээс илүүтэйгээр нэгтгэсэн хэмжүүрүүдийг тайлагнадаг. Гол нэгтгэсэн үзүүлэлтийг доор үзүүлэв; мэргэжил тус бүр болон улсын шошго тус бүрийн задлалыг техникийн тайлан болон Figshare-ийн байршуулалтад нийтэлсэн. Давхарласан санамсаргүй түүвэр n = 201 түүхий хөдөлгүүрийн хариултууд (детерминист үрийн утга 20260426) нь шалгах зорилгоор GitHub-ийн results/ директорид нийтлэгдсэн.

Нийлмэл оноо V11 анхны: 0.9912 (99.12%) → Хоёр дахь шинэчлэлт: 0.9980 (99.80%) Δ = +0.0068 100,000 тохиолдлын кохортын хэмжээнд

Бүтцийн оноо (дунджаар) V11 анхны: 0.998 → Хоёр дахь шинэчлэлт: 1.000 Хүн амын түвшинд төгс бүтцийн нийцэл

Клиник оноо (дунджаар) V11 анхны: 0.998 → Хоёр дахь шинэчлэлт: 0.996 −0.002; ямар ч тохиолдол оношийг өөрөө алдсангүй

Хугацааны саатал — дундаж (хүрээ) V11 анхны: 20.17 с (17.0–37.0 с) → Хоёр дахь шинэчлэлт: 13.26 с (9.0–16.94 с) Дамжуулалт бүрийн хоорондох үйлдвэрлэлийн хөдөлгүүрийн оновчлол

Хөдөлгүүрийн зам = үндсэн V11 анхны: 12 / 15 → Хоёр дахь шинэчлэлт: 100,000 / 100,000 Дамжуулалтын явцад ямар ч үед 2-р үе шатны нөөц (fallback) шаардлагагүй байсан

Дэд багцын хэт оношилгооны (hyperdiagnosis) дохиоллын тугнууд V11 анхны: 0 / 13 → Хоёр дахь шинэчлэлт: 0 / 87,412 Хүн амын хэмжээнд хуурамч эерэг тохиолдол 0 (8,723 хавх тохиолдлыг хянасан)

Гарчгийн оноо бидэнд юу хэлж өгдөггүй вэ

Энэхүү урьдчилан бүртгэгдсэн рубрикийн дагуу 99.80 хувийн нийлмэл оноо, 127 улсын шошгыг хамарсан 100,000 тохиолдлын синтетик когорт дээр — тааз (ceiling) түвшинд ойр гүйцэтгэл гэж үзнэ; гэхдээ үүнийг болгоомжтой хүрээнд тайлбарлах хэрэгтэй. Үр дүн нь V11-д бид эх кодондоо амласан рубрикийн эсрэг хөдөлгүүрийн зан төлөвийг тодорхойлдог; энэ нь байгаль дээр оршиж буй бүх цусны шинжилгээний панел дээр хөдөлгүүрийн зөв байдлын тухай бүх нийтийн (universal) мэдэгдэл биш.

Оноо нь хөдөлгүүр энэ үнэлгээнд сонгосон оношилгооны хэв маягийг хүн амын хэмжээнд түүвэр дээр зөв боловсруулсан гэж хэлж байна; нийтлэгдсэн бөгөөд давтагдах боломжтой аргачлалын дагуу. Энэ нь хөдөлгүүр бодит ертөнцөд байдаг бүх цусны шинжилгээний самбар дээр зөв гэсэн үг биш. Мөн хөдөлгүүр эмчийн шийдвэрийг орлох ёстой гэж хэлээгүй. Түүнчлэн хөдөлгүүр бусад AI системүүдээс илүү гүйцэтгэлтэй гэж хэлээгүй — бусад хөдөлгүүрүүдтэй харьцуулсан дүн шинжилгээг энэ тайланд зориуд хамрах хүрээнээс гадуур (out of scope) үлдээсэн.

Оноо нь тогтоож өгдөг зүйл бол суурь (baseline) юм. Шалгуур ба туршилтын орчны (harness) мэдээлэл нийтэд нээлттэй бол хөдөлгүүрийн ирээдүйн хувилбаруудыг мөн тэр шалгуурын дагуу үнэлж болно — V11 анхны 15 тохиолдолд, Хоёр дахь шинэчлэлтийн 100,000 тохиолдлын түүвэрт, эсвэл цаашдын өргөтгөлүүдэд; нийтлэгдсэн оноо ба дараагийн аль нэг ажиллуулах (run) хоорондын зөрүү өөрөө хэмжигдэх боломжтой. Энэ бол урьдчилан бүртгэлийн (pre-registration) үнэ цэнэ: гүйцэтгэлийн нэхэмжлэлийг шалгаж болох нэхэмжлэл болгон хувиргадаг.

Энэхүү жишиг (benchmark)-ийг 10 минутанд хэрхэн давтах вэ

Давтахын тулд зөвхөн Kantesti API итгэмжлэл (credential) хослол, мөн Python 3.10 ба түүнээс хойшхи орчин хэрэгтэй бөгөөд requests болон reportlab сангууд суусан байх шаардлагатай. Бүрэн harness нь MIT лицензийн дагуу гаргасан, нэг л бие даасан Python модулиас бүрдэнэ.

💻 GitHub MIT лицензтэй harness · түүхий хариунууд · лавлагаа run 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · каноник эрдэм шинжилгээний бүртгэл 🎓 ResearchGate Нийтлэл 404175463 · V11 Хоёр дахь шинэчлэлт · эрдэм шинжилгээний нээлтийн давхарга 📄 Academia.edu Өгүүлэл 165956808 · V11 Хоёр дахь шинэчлэлт · эрдэм шинжилгээний нээлтийн давхарга

Шинэ run хийх дөрвөн алхам

Нэг. Репозиторыг клон хийх: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Хоёр. Хамаарлуудыг суулгана уу: pip install -r requirements.txt (Хоёр дахь шинэчлэлт нэмдэг mysql-connector-python ≥ 8.0 SQL case loader-д). Гурав. Тохируулна уу KANTESTI_USERNAME болон KANTESTI_PASSWORD Хөдөлгүүрийн API-д орчны хувьсагч (environment variables) байдлаар. Хоёр дахь шинэчлэлтийн SQL case loader-д мөн дарааг тохируулна уу: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ба KANTESTI_DB_PASSWORD — ачаалагч нь зөвхөн унших эрхтэй үүрэг (role)-ээр холбогддог (bench_reader) бөгөөд хүснэгтүүдийг тодорхойлох эрхгүй. Дөрөв. Ажиллуулна уу python benchmark_bloodtest.py --limit 100000 Бүрэн Second-Update ажиллуулахын тулд, эсвэл python benchmark_bloodtest.py --limit 1000 Хурдан давталт хийхэд. Гаралтууд байрлана ./benchmark_results/: улс/шошго ба мэргэжлээрх баганатай CSV онооны хүснэгт, JSON агрегат, тэгш давхарласан санамсаргүй түүвэр (stratified-random raw-response sample), мөн Markdown тайлан.

2026 оны 4-р сарын 23-ны өдрийн лавлагаа ажиллалт (V11 анхны, 15 тохиолдол) болон 2026 оны 4-р сарын 26-ны өдрийн лавлагаа ажиллалт (V11 Second Update, 100,000 тохиолдол) нь репозиторын results/ дотор хадгалагдсан. Шинэ ажиллалт нь лавлагаа ажиллалтуудыг өөрчлөхгүйгээр шинэ timestamp-тай онооны хүснэгт үүсгэнэ. Хэрэв таны ажиллалт утгын хувьд мэдэгдэхүйц өөр үр дүн гаргавал, GitHub issue нээгээд ажиллалтын timestamp болон хариуны metadata-д буцсан engine хувилбарыг оруулна уу.

Хязгаарлалтууд ба ирээдүйн ажил

127 улс/шошго дээр 100,000 тохиолдол хүртэлх хэмжээнд ч гэсэн, дөрвөн хязгаарлалтыг ил тод хүлээн зөвшөөрөх шаардлагатай: long-tail шошгоны дутуу түүвэрлэлт, нэг удаагийн (single-shot) үнэлгээ, нэг хөдөлгүүрийн (single-engine) хамрах хүрээ, мөн нэг эх сурвалжаас (single-source) гаралтай өгөгдлийн гарал. Эдгээрийг идэвхтэй дагалдах ажлаар шийдвэрлэж байна.

Long-tail шошгоны хамрах хүрээ. Хоёр дахь шинэчлэл (Second Update) нь 127 улс/шошгыг хамардаг боловч тархалт тэнцвэргүй — дээд 10 шошго нь ≈66.4% тохиолдлыг эзэлж, харин нэмэлт 97 шошгоноос бүрдэх long tail нь хамтад нь ≈7.3% (ойролцоогоор 7,300 тохиолдол, шошго тус бүрт дунджаар ~75 тохиолдол) бүрдүүлдэг. Тиймээс энэ long tail дахь шошго тус бүрийн нийлмэл (per-label composites) үзүүлэлтүүд нь гарчигласан тоонуудын санал болгож буй хэмжээнээс илүү их шуугиантай. Ирээдүйн ажиллууд шошго оноолтыг дахин тэнцвэржүүлж, шошго тус бүрийн тооцооллыг илүү бат бөх болгоно.

Нэг удаагийн үнэлгээ. Кохорт дахь тохиолдол бүрийг нэг удаа үнэлсэн. Том хэлний загварууд нь түүвэрлэлтийн температур бага байсан ч гаралтын хэлбэлзэл (output variance) мэдэгдэхүйц байдаг тул тохиолдол бүрт таван үнэлгээ хийж, тайлагнасан хэлбэлзэлтэй олон удаагийн протокол нь дараагийн байгалийн алхам юм — ялангуяа trap-case дэд хэсэг дээр, түүвэрлэлтийн чичиргээнээс үүдэлтэй хэлбэлзэлд тогтвортой байх нь аюулгүй байдлын баталгааны нэг хэсэг байдаг.

Нэг хөдөлгүүрийн хүрээ. Энэхүү тайлан нь нэг хөдөлгүүрийг тодорхойлж байна. Бусад AI системүүдтэй харьцуулсан шинжилгээ нь энд хамрах хүрээнээс гадуур; бид ижил MIT лицензтэй harness-ийн эсрэг, зохих аргачлалтайгаар тусдаа бие даасан судалгаа болгон үргэлжлүүлж магадгүй.

Синтетик өгөгдөл. 100,000 тохиолдол нь синтетикаар үүсгэгдсэн (synthetically generated) бөгөөд “синтетик тохиолдол” (synthetic cases) биш; мөн үр дүн нь бодит ертөнцийн эмнэлзүйн гүйцэтгэлд шилжихгүй. Бодит, зөвшөөрөлтэй, гаднаас эх сурвалжаас авсан өгөгдөл дээр үнэлэхийн тулд зохих ёс зүйн хяналт шаардлагатай бөгөөд энэхүү синтетик benchmark-ийн хүрээнээс гадуур.

Эдгээр дөрвөөс гадна хамгийн нөлөөтэй төлөвлөсөн өргөтгөл нь улс орон тус бүр дээр олон хэлний тэнцвэржилт (parity) юм. Kantesti AI Engine нь 75+ хэл дээр хэрэглэгчдэд үйлчилдэг бөгөөд хэлээр нь давхарласан Second-Update дэд кохортуудыг (Турк, Герман, Испани, Франц, Итали, Португал, Араб, Мандарин) ажиллуулах нь хөдөлгүүрийн дэмждэг хэлүүдийн хүрээнд гаралтын чанарыг хэмжинэ. Хэл тус бүрээр давхарласан шинжилгээ бүрийг өөрийн DOI болон harness branch-тай хамт нийтэлнэ.

100,000 тохиолдол дээр 99.80% нийлмэл оноо авсан Мөн Нэг Хөдөлгүүрийг туршаарай

Өөрийн цусны шинжилгээний самбараа энэхүү жишигт үнэлэгдсэнтэй ижил үйлдвэрлэлийн (production) төгсгөлийн цэг рүү байршуулна уу. Дэлхий даяар 2 саяас дээш хэрэглэгч Kantesti AI Engine-ийг ашиглан 75+ хэл дээр 15,000 гаруй биомаркерыг тайлбарладаг.

🔬 Үнэгүй демо хувилбарыг туршаад үзээрэй

Chrome өргөтгөл Апп Дэлгүүр Google Play

📚 Энэхүү жишгийг хэрхэн иш татах вэ

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti Blood-Test Interpretation Engine-ийн 100,000 синтетик тест тохиолдол дээрх урьдчилан бүртгэгдсэн (Pre-Registered), рубрик суурьтай автомат техникийн benchmark — V11 Second Update (Техникийн тайлан V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Гадаад арга зүйн лавлагаа

Mentzer, W. C. (1973). Төмрийн дутагдлыг талассемийн шинжээс ялгах. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 оны Ревматизмын эсрэг Европын лиг / Америкийн ревматологийн коллежийн ангиллын шалгуур Системийн чонон хөрвөс (Systemic Lupus Erythematosus). Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Том хэлний загваруудад зориулсан анагаах ухааны домэйн хийрхлэлтийн тест. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Нийлмэл оноо

100,000Оношлогдсон тохиолдлууд

127Хамрагдсан улс/шошгууд

0 / 87,412Урхины хуурамч эерэгүүд

Байнга асуудаг асуултууд

Kantesti AI хөдөлгүүр синтетик тестийн тохиолдлуудад хэр үнэн зөв ажилладаг вэ?

Урьдчилан бүртгэгдсэн рубрик дээр үндэслэн, найман агуулгын чиглэл ба 127 улс/шошгийг хамарсан 100,000 синтетикаар үүсгэсэн тест тохиолдол дээр (V11 Second Update) ажиллуулахад, хөдөлгүүр нь 99.80 хувийн нийлмэл оноонд хүрсэн бөгөөд 87,412 хяналттай trap-case боломжуудын дунд гипердиагнозын (hyperdiagnosis) ямар ч дохиололгүй, мөн хариу өгөх дундаж саатал 13.26 секунд байв. Энэхүү нийлмэл үзүүлэлт нь синтетик оролтууд дээрх гаралтын нийцлийг хэмждэг бөгөөд оношилгооны нарийвчлалыг хэмжихгүй. Анхны V11 хувилбар нь мөн адил рубрикийг 15 гараар бүтээгдсэн тохиолдол дээр хэрэгжүүлсэн (нийлмэл 99.12%); Second Update нь рубрикийг яг ижил (byte-identical) хэвээр хадгалж, илүү том синтетик түүвэрт өргөтгөсөн. Бүрэн scorecard нь Figshare дээр DOI 10.6084/m9.figshare.32095435, мөн GitHub дээр MIT licence-ийн дагуу нийтлэгдсэн.

Kantesti AI хөдөлгүүр нь эмнэлзүйн хувьд баталгаажсан уу?

Үгүй. Хөдөлгүүрийг эмнэлзүйн баталгаажуулалт (clinical validation) биш, харин автомат техникийн benchmark-ээр үнэлсэн (not a clinical validation); мөн рубрик нь V11 анхны ажиллуулахын өмнө эх кодонд “царцаасан” (frozen) бөгөөд V11 Second Update-ийн хувьд яг ижил (byte-identical) хэвээр хадгалагдсан. Энэ нь 127 улс/шошгоос татсан 100,000 синтетик цусны шинжилгээний тохиолдол дээр гематологи, эндокринологи, метаболик анагаах ухаан, гепатологи, нефрологи, кардиологи, ревматологи, мөн дотрын анагаах ухаан гэсэн чиглэлүүдээр үнэлэгдсэн. Эмнэлзүйн хяналтыг Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) хийсэн; тэрээр Kantesti AI-ийн зөвлөлөөр баталгаажсан клиник гематологич бөгөөд Ерөнхий эмнэлгийн захирал (Chief Medical Officer) юм.

Гипердиагнозын урхины тохиолдол гэж юу вэ?

Хэт оношлох “trap” (хууран мэхлэх) тохиолдол гэдэг нь AI хөдөлгүүрүүдийн хэт оношлох зан үйлийг илрүүлэх зорилгоор тусгайлан зохиосон клиник нөхцөл юм. V11 анхны жишиг (benchmark) нь арга зүйн proof-of-concept болгон ийм хоёр тохиолдлыг ашигласан: Гилбертын хам шинжтэй нийцэх тусгаарлагдсан шууд бус гипербилирубинеми (зөв тайлал нь гепатит эсвэл гемолиз биш, харин UGT1A1 полиморфизмийн хоргүй хувилбар) ба бүрэн хэвийн насанд хүрэгчдийн скрининг самбар (зөв гаралт нь хил хязгаарын эмгэгийг зохиож гаргах биш, харин тайвшруулах хариу). V11 Хоёр дахь шинэчлэлт нь энэ trap-тохиолдлын аргачлалыг 8,723 тохиолдлын зориулалтын дэд багцад өргөж, 87,412 хяналттай хэт оношлох дохиоллын боломжийг үүсгэсэн — мөн хөдөлгүүрийн худал эерэг түвшин 0 хэвээр байсан.

Kantesti AI хөдөлгүүрийн үнэлгээ давтагдах боломжтой юу?

Бүрэн үнэлгээний harness-ийг MIT лицензийн дагуу нэг бие даасан Python модулиар гаргасан. V11 анхны ажиллуулалт нь зөвхөн Kantesti API итгэмжлэл (credential) хослол болон Python 3.10 эсвэл түүнээс хойшхи хувилбар шаарддаг. V11 Хоёр дахь шинэчлэлт нь Kantesti клиник-репозиторийн итгэмжлэл шаарддаг параметржүүлсэн, зөвхөн унших SQL case loader нэмдэг (a bench_reader хүснэгтүүдийг таних эрхгүй үүрэг). Код, case loader-ийн SQL, рубрик (хувилбаруудын хооронд byte-тай ижил), мөн V11 анхны болон Хоёр дахь шинэчлэлтийн reference run-уудаас авсан давхарласан санамсаргүй түүвэрлэсэн түүхий хөдөлгүүрийн хариунууд нь github.com/emirhanai/kantesti-blood-test-benchmark дээр байгаа бөгөөд Figshare, ResearchGate, Academia.edu дээр мөн хуулбарласан.

Kantesti AI хөдөлгүүр төмрийн дутагдлыг бета-талассемийн шинжээс хэрхэн ялгадаг вэ?

Хөдөлгүүр нь Mentzer индексийг хэрэглэдэг. Mentzer индексийг дундаж корпускуляр эзлэхүүн (MCV) / улаан эсийн тоо (RBC) гэж тооцно. Mentzer индекс 13-аас дээш байвал төмрийн дутагдлын цус багадалтыг дэмжинэ, харин 13-аас доош байвал бета-талассемийн шинж (trait)-ийг дэмжинэ. V11 анхны жишигт эдгээр хоёр илрэлтийг Mentzer индексийг ил тод тооцоолсон байдлаар зөв ангилсан бөгөөд ферритин, RDW, HbA2-ийн нөхцөлөөр баталгаажуулсан. V11 Хоёр дахь шинэчлэлтийн 100,000 тохиолдлын когортод мөн адил ялгавартай зан үйлийг хүн амын түвшинд хадгалсан.

Түүхий жишиг (benchmark) өгөгдөл болон эх кодыг хаанаас олж болох вэ?

Техникийн тайланг Figshare дээр DOI 10.6084/m9.figshare.32095435 (V11 анхны хувилбар болон V11 Хоёр дахь шинэчлэлтийг хоёуланг нь хамарсан) хэлбэрээр байршуулсан; ResearchGate дээрх нийтлэл 404175463 болон Academia.edu дээрх өгүүлэл 165956808 дээр мөн хуулбарласан — хоёуланг нь V11 Хоёр дахь шинэчлэлтийн гарчиг болон 100,000 тохиолдлын үр дүнгээр шинэчилсэн — мөн MIT лицензтэй Python harness болон бүх reference run-ын үр дүнг github.com/emirhanai/kantesti-blood-test-benchmark дээр байрлуулсан. Дөрвөн платформын mirror сүлжээ нь урт хугацааны хүртээмж болон ишлэл ашиглах уян хатан байдлыг баталгаажуулдаг.

AI-ийн эмнэлгийн жишиг (benchmark)-ийн хувьд урьдчилан бүртгүүлэх (pre-registration) нь яагаад чухал вэ?

Урьдчилан бүртгүүлэх нь post-hoc рубрик тааруулалтыг (rubric tuning) зогсоодог бөгөөд энэ нь компанийн удирддаг жишгүүд өөрсдийнхөө тоог хөөрөгдөх хамгийн түгээмэл ганц арга юм. Рубрикийг хөдөлгүүрийг дуудах (engine call) үйлдэл бүрийн өмнө эх кодонд оруулж, хэрэгслийг (harness) олон нийтэд нийтэлснээр рубрик бичигчийн огноонууд хувилбарын хяналтад (version control) шалгагдах боломжтой болж, хөдөлгүүрийн үр дүн онооны шалгуурыг хэлбэржүүлж чадахгүй.

Энэхүү жишиг нь бусад AI хөдөлгүүрүүдтэй харьцуулалт оруулсан уу?

Үгүй. V11 тайлан — анхны хувилбар болон Хоёр дахь шинэчлэлт хоёулаа — өөр хувилбар арилжааны системүүдтэй харьцуулж байрлуулахын оронд нэг хөдөлгүүрийг тогтмол (fixed) рубриктэй зориуд тодорхойлсон. Harness нь MIT лицензийн дагуу нээлттэй эх сурвалж (open source) (одоо SQL case loader-ийг мөн багтаасан) тул бие даасан судлаачид өөрсдийн сонгосон ямар ч хөдөлгүүрийг мөн адил рубрик болон case loader-ийн эсрэг үнэлж, өөрсдийн үр дүнгээ нийтлэх боломжтой.

Өвчтөний тохиолдлууд бодит уу, эсвэл зохиомол уу?

Бүх тохиолдлууд синтетикаар үүсгэгдсэн — V11 анхны хувилбар дахь 15 гараар бүтээгдсэн тохиолдол, мөн Second Update дахь 100,000 тохиолдол. Эдгээр нь “синтетик тохиолдол” биш: синтетик өгөгдөл, зөвшөөрлийн процесс, мөн де-идентификац (de-identification) оролцохгүй, учир нь энэхүү түүвэрт хувийн мэдээлэл байхгүй. Хэвлэгдсэн harness, техникийн тайлан, эсвэл гаргасан өгөгдлийн багцад хувийн мэдээлэл харагдахгүй.

⚕️ Эмнэлгийн мэдэгдэл & Ашиг сонирхлын зөрчил

Энэхүү benchmark тайлан нь судалгаа болон арга зүйн ил тод байдлын зорилготой. Энэ нь эмнэлгийн зөвлөгөө биш, онош биш бөгөөд мэргэжлийн эмнэлгийн тусламжийн оронд хэрэглэхгүй; энд гарсан аливаа үр дүнг эмчид үзүүлэхийг хойшлуулах эсвэл түүнээс зайлсхийхэд ашиглаж болохгүй. Оношилгоо, эмчилгээний шийдвэр гаргахын тулд үргэлж мэргэшсэн эрүүл мэндийн үйлчилгээ үзүүлэгчтэй зөвлөлдөнө. Энэ нь компанийн өөрийн хөдөлгүүрийн (engine) бие даан ажиллуулсан дотоод benchmark бөгөөд хараат бусаар баталгаажуулаагүй эсвэл үе тэнгийн хяналтанд ороогүй. Нийлмэл оноо нь тогтмол шалгуурын хүснэгтэд (тайлангийн бүтэц, түлхүүр үг болон оноолтын системийн эргэн саналт, мөн саатал/латенц) нийцэж буйг хэмждэг; энэ нь бодит ертөнцийн оношилгооны үнэн зөв байдлын эсвэл клиник аюулгүй байдлын хэмжүүр биш. Хоёр зохиогч хоёулаа Kantesti Ltd-д ажилладаг бөгөөд хувьцааны эзэмшилтэй, мөн үнэлэгдэж буй хөдөлгүүр нь мөн тэр байгууллагын арилжааны бүтээгдэхүүн юм. Энэхүү ашиг сонирхлын зөрчлийг оноолтын хүснэгтийг эх код дээр урьдчилан бүртгэх (pre-register), harness-ийг MIT лицензийн дагуу гаргах, мөн хөдөлгүүрийн түүхий хариултуудын давхарласан санамсаргүй түүвэр (stratified random sample) нийтлэх замаар бууруулсан.

E-E-A-T итгэлийн дохио

⭐

Туршлага

Тохиолдлын самбарын сонголтыг удирдан хянасан 15+ жилийн клиникийн гематологи болон лабораторийн анагаах ухааны туршлага.

📋

Мэргэшсэн байдал

Урьдчилан бүртгэгдсэн рубрикийн дизайн: ил тод хэт оношлох (hyperdiagnosis) торгуультай, мөн хүлээн зөвшөөрөгдсөн клиникийн онооны системүүд (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Эрх мэдэл

Тэргүүлэх зохиогч Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Хэрэгжилтийг Julian Emirhan Bulut, Kantesti Ltd-ийн гүйцэтгэх захирал (CEO) хийсэн.

🛡️

Найдвартай байдал

MIT лицензтэй давтагдах боломжтой (reproducible) хэрэгсэл (harness), түүхий хөдөлгүүрийн хариунууд нийтлэгдсэн, ашиг сонирхлын зөрчлийн нээлттэй мэдүүлэг, дөрвөн платформын судалгааны хуулбар (mirror) сүлжээ.

🏢 Кантести ХХК Англи, Уэльст бүртгэлтэй · Компанийн дугаар. 17090423 Лондон, Их Британи · kantesti.net