Kantesti AI արյան անալիզի բենչմարկ — կլինիկական վալիդացում

Ավտոմատացված բենչմարկ Նախապես գրանցված բենչմարկ V11 Երկրորդ թարմացում — 2026թ. ապրիլ MIT լիցենզավորված Վերարտադրելի · Բաց տվյալներ 100K սինթետիկ կոհորտ · 127 երկրի պիտակներ

99.80% կոմպոզիտային միավոր՝ նախապես գրանցված ռուբրիկի վրա — V11 երկրորդ թարմացում, 100,000-դեպք կոհորտ՝ 127 երկրի պիտակների շրջանակում

Նախապես գրանցված, ռուբրիկային վրա հիմնված ավտոմատացված տեխնիկական բենչմարկ՝ Kantesti շարժիչի համար՝ 100,000 սինթետիկ արյան անալիզի դեպքերով, որոնք պիտակավորված են 127 երկրի պիտակներով։ Այն չափում է ելքի համապատասխանությունը, ոչ թե ախտորոշիչ ճշգրտությունը։ Ռուբրիկը սառեցվել է սկզբնային կոդում՝ V11-ի նախնական թողարկումից առաջ և պահվել է բայթ-համարժեք այս Երկրորդ Թարմացման համար. գնահատման հարթակը MIT լիցենզավորված է. հրապարակվում է շարժիչի հում պատասխանների շերտավորված պատահական նմուշ՝ ստուգման համար։ Բոլոր դեպքերը սինթետիկ են. չի օգտագործվում անձնական տվյալներ։.

📖 ~14 րոպե 📅 Հրապարակվել է 2026թ. ապրիլի 23-ին · Թարմացվել է 2026թ. ապրիլի 26-ին (V11 Երկրորդ թարմացում) 🔗 DOI՝ 10.6084/m9.figshare.32095435

📝 Հրապարակված՝ 23 ապրիլի, 2026 թ. 🔄 V11 Երկրորդ թարմացում. Ապրիլի 26, 2026 🩺 Բժշկական վերանայված՝ Ապրիլի 26, 2026 ✅ Նախապես գրանցված ռուբրիկ (բայթ-համարժեք) 🔓 Բաց կոդ & տվյալներ

Այս ավտոմատացված բենչմարկը նախագծվել և գործարկվել է Ջուլիան Էմիրհան Բուլութ, Senior AI Engineer և Kantesti Ltd-ի գործադիր տնօրեն։ Գնահատումը ամբողջությամբ ավտոմատացված է աղբյուրային կոդում. գնահատման չափանիշը և դեպքերի վահանակը մշակվել են կլինիկական ներդրումներով՝ Դոկտոր Թոմաս Քլեյն, բժշկական գիտությունների դոկտոր, Kantesti AI-ի գլխավոր բժշկական տնօրեն, և վերանայվել է՝ Կանտեստի արհեստական բանականության բժշկական խորհրդատվական խորհուրդ. Սա ինքնուրույն գործարկվող ներքին բենչմարկ է, ոչ թե անկախ կամ գործընկերների կողմից վերանայված ավտոմատացված տեխնիկական բենչմարկ։.

Գլխավոր հեղինակ & կլինիկական վերահսկողություն

Թոմաս Քլայն, բժշկական գիտությունների դոկտոր

Գլխավոր բժիշկ, Կանտեստի ԱԻ

Դոկտոր Թոմաս Քլայնը սերտիֆիկացված կլինիկական հեմատոլոգ և ինտերնիստ է՝ լաբորատոր բժշկության ոլորտում ավելի քան 15 տարվա փորձով։ Որպես Kantesti AI-ի գլխավոր բժշկական պատասխանատու՝ նա ընտրել է այս բենչմարկի համար դեպքերի պանելն, վերանայել է սինթետիկ դեպքերի կլինիկական բովանդակությունը և ակնկալվող պատասխանները և հաստատել է նախապես գրանցված ռուբրիկը՝ մինչև առաջին շարժիչի կանչը։.

ORCID 0009-0009-1490-1321 Հետազոտական դարպաս Google Scholar

Համահեղինակ & իրականացում

Ջուլիան Էմիրհան Բուլութ

Ավագ AI ինժեներ & CEO, Kantesti Ltd

Ջուլիան Էմիրհան Բուլութը Kantesti Ltd-ի հիմնադիրն ու գործադիր տնօրենն է։ Նա նախագծել և իրականացրել է գնահատման հարթակը — ներառյալ SQL-ի միջոցով դեպքերի բեռնիչը, որը ավելացվել է V11 Երկրորդ թարմացման համար — կատարել է API-ի ինտեգրումը, իրականացրել է ինչպես V11-ի սկզբնական հղման գործարկումը, այնպես էլ V11 Երկրորդ թարմացման 100,000-դեպք գործարկումը և պատրաստել է վիճակագրական համախմբումը։ Հարթակի հիմնադիրը 2019 թվականից։.

GitHub Կանտեստիի մասին

⚡ Արագ ամփոփում V11 Երկրորդ թարմացում — Ապրիլի 26, 2026

99.80% կոմպոզիտային միավոր 100,000 սինթետիկ արյան անալիզի դեպքերի վրա՝ ութ բժշկական մասնագիտությունների և 127 երկրի պիտակների շրջանակում (V11 Երկրորդ Թարմացում)։.
Չկա հիպերդիագնոստիկայի կեղծ դրական արդյունք 87,412 վերահսկվող «trap-case» դրոշակման հնարավորությունների շրջանակում — նույն «trap-case» մեթոդաբանությունը, ինչ V11-ի սկզբնականում, մասշտաբավորված՝ բնակչության մակարդակով։.
Նախապես գրանցված ռուբրիկ սառեցվել է սկզբնաղբյուր կոդում մինչև V11-ի սկզբնական գործարկումը և պահպանվել է բայթ-համարժեք այս Երկրորդ թարմացման համար — հետհաշվարկային (post-hoc) կարգավորում հնարավոր չէր։.
Մենցերի ինդեքսը ճիշտ կիրառված է V11-ի սկզբնական թողարկման մեջ երկաթի անբավարարության անեմիան տարբերակելու համար բետա-թալասեմիա մինորից. տարբերակման վարքագիծը պահպանվել է նաև բնակչության մասշտաբով։.
Միայն արտադրական վերջնակետ — առանց արտոնյալ երթուղավորման, գնահատվել է հենց այնպես, ինչպես կստանար վճարող հաճախորդը։.
13.26 վրկ միջին ուշացում վերջից-վերջ (տիրույթ՝ 9.0–16.94 վրկ), ընդ որում բոլոր 100,000 դեպքերը ավարտվել են շարժիչի առաջնային ուղու վրա։.
Սինթետիկ կոհորտ։. 100,000 սինթետիկ կերպով ստեղծված թեստային դեպքեր՝ բեռնվում են գործարկման պահին։ Չի օգտագործվում սինթետիկ տվյալ և ոչ էլ անձնական տվյալ։.
MIT արտոնագրով տրամադրված գործիքակազմ (harness) թողարկվել է GitHub-ում՝ ստուգման համար շերտավորված պատահական նմուշով (n = 201)՝ շարժիչի ամբողջական հում պատասխաններից։.
Figshare DOI: 10.6084/m9.figshare.32095435 · Արտացոլված է ResearchGate-ում, Academia.edu-ում, GitHub-ում։.

Ինչու գոյություն ունի այս բենչմարկը և ինչ է այն ստուգում

AI-ի օգնությամբ արյան անալիզի մեկնաբանությունն ավելի ու ավելի հաճախ է կիրառվում ինչպես սպառողական, այնպես էլ կլինիկական աշխատանքային հոսքերում, սակայն լաբորատոր բժշկությանը հարմարեցված՝ վերարտադրելի գնահատման շրջանակներ դեռևս հազվադեպ են։ Այս միջավայրում ամենակարևոր հարցերը չեն այն հարցերը, որոնք ընդգրկված են ընդհանուր բժշկական հարց-պատասխան բենչմարքներում. արդյոք շարժիչը կարողանում է տարբերակել երկաթի անբավարարությունը թալասեմիայի հատկանիշից, երբ միջին կորպուսկուլյար ծավալը նույնն է, արդյոք այն գերախտորոշում է Գիլբերտի համախտանիշը որպես հեպատիտ, և արդյոք այն ստեղծում է պաթոլոգիա լիովին նորմալ սքրինինգային վահանակում։

Արյան մեկ անալիզների վահանակը սովորաբար պարունակում է այնքան ազդանշան, որ կարող է աջակցել մի քանի մրցակցող մեկնաբանությունների, և մեկնաբանող բժիշկ-մասնագետի գործն է այդ մեկնաբանությունները կշռադատել միմյանց նկատմամբ՝ այլ ոչ թե տեքստբուքային «ճիշտ պատասխանը» վերականգնել։ Այն շարժիչը, որը լավ է աշխատում տեքստբուքային դեպքերում, կարող է ձախողվել ամենակարևոր դեպքերում՝ դիֆերենցիալ ախտորոշման թակարդներում, անվնաս տարբերակներում, որոնք միայնակ դիտելիս տագնապալի են թվում, և լիովին նորմալ վահանակներում, որոնք վստահ օգնականներին մղում են «ախտաբանություն արտադրելու»։.

Այս բենչմարկը կառուցվել է հենց այդ ձախողման ձևերի շուրջ։ Տասնհինգ դեպքերից յուրաքանչյուրն ընտրվել է որոշակի ախտորոշիչ հատկության համար՝ երկաթի պակասով միկրոցիտոզ, որը պետք է հստակ տարանջատվի նույն միջին կորպուսկուլյար ծավալով բետա-թալասեմիայի հատկանիշից, Գիլբերտի համախտանիշի դրսևորում, որտեղ միակ շեղումը մեկուսացված անուղղակի հիպերբիլիռուբինեմիան է, և տասնհինգ պարամետրով սքրինինգային վահանակ, որտեղ յուրաքանչյուր անալիտ գտնվում է իր հղման միջակայքում։ Ռուբրիկը պարգևատրում է շարժիչներին, որոնք յուրաքանչյուր դեպք կարդում են իր սեփական տրամաբանությամբ, և տուգանում է շարժիչներին, որոնք վստահ ախտորոշման են հասնում այնտեղ, որտեղ նման ախտորոշում հիմնավորված չէ։.

Որպես բժիշկ Թոմաս Քլայն՝ ես ընտրեցի դեպքերի այս վահանակը, քանի որ դրանք այն օրինաչափություններն են, որոնք լաբորատոր-բժշկության օգնականները ամենից հաճախ սխալ են հասկանում։. Թանկարժեք ձախողման ձևը "հազվագյուտ հիվանդությունը բաց թողնելը" չէ․ դա սովորական ախտաբանություն «կերտելն» է այն հիվանդների մոտ, որոնց մոտ այն չկա։. Մեր Բժշկական վավերացում hub-ը նկարագրում է ավելի լայն շրջանակը. այս էջը նկարագրում է V11 սկզբնական proof-of-concept-ը և V11 Երկրորդ Թարմացումը, որը այն մասշտաբավորել է մինչև 100,000 սինթետիկ դեպք՝ վերցված սինթետիկ դեպքերի մի շարքից, որը ընդգրկում է 127 երկրի պիտակներ — օգտագործելով նույն գնահատման ռուբրիկը, բայթ-համարժեք, առանց հետհաշվարկային (post-hoc) կարգաբերման թույլտվության։.

Վերջին հղման գործարկում — V11 Երկրորդ Թարմացում (2026 թ. ապրիլի 26)

2026 թ. ապրիլի 26-ի V11 Երկրորդ Թարմացման հղման գործարկումը ստեղծեց կոմպոզիտային միավոր՝ 99.80% նույն նախապես գրանցված սանդղակի (rubric) հիման վրա, որն օգտագործվել էր V11 սկզբնական թողարկման ժամանակ, գնահատվել է 100,000 սինթետիկ դեպքեր վերցված են Kantesti սինթետիկ դեպքերի մի շարքից և ընդգրկում են 127 երկրի պիտակներ և 75+ լեզուներ։ Յուրաքանչյուր դեպք ավարտվեց շարժիչի առաջնային ուղու (primary path) վրա. trap-դեպքերի հիպերճանաչման (hyperdiagnosis) դրոշակի ակտիվացումները մնացին 0 / 87,412. ։ V11-ի սկզբնական գործարկումը՝ 2026 թ. ապրիլի 23-ին, ընդգրկում էր 15 ձեռքով ընտրված դեպք (կոմպոզիտ 99.12%) և վավերացրեց սանդղակը (rubric)․ Երկրորդ Թարմացումը պահպանում է այդ սանդղակը բայթ-համարժեք և ընդլայնում է գնահատումը մինչև բնակչական մասշտաբի կոհորտ։.

Կոմպոզիտ 99.80% 100,000-ից 100,000 դեպք գնահատվեց

1.000 Կառուցվածքային միավոր

0.996 Կլինիկական միավոր

13.26 վ Միջին ուշացում

0 / 87,412 Թակարդային կեղծ դրականներ

Կոմպոզիտային բանաձևը համադրում է երեք բաղադրիչ․ կառուցվածքային համապատասխանություն յոթ պարտադիր հաշվետվության բաժինների և տասնվեց պարտադիր ենթաբաժինների հետ, բովանդակության ճշգրտություն չափված որպես հիմնաբառերի հետկանչ + միավորային համակարգի հետկանչ + հավանականությունների բաշխման վավերականության ստուգում, և պատասխանի ուշացում առաջնային ուղու ծառայության մակարդակի թիրախի (service-level target) դեմ։ Ճշգրիտ տարաբաժանումը ներկայացված է ստորև բերված սանդղակի (rubric) բանաձևում — այս կշիռներից կամ ենթասանդղակներից ոչ մեկը չի փոխվել Երկրորդ Թարմացման համար։.

Կոմպոզիտ = 0.35 × Կառուցվածքային + 0.55 × Կլինիկական + 0.10 × Ուշացում

Մնացած 0.20 տոկոսային կետերի չափով «հաշվանցման» (headroom) մեծ մասը գրեթե ամբողջությամբ քայքայվում է կլինիկական ենթամիավորի մեջ — դեպքերի փոքր մասն (հիմնականում՝ Հեպատոլոգիայում և Ռևմատոլոգիայում) ուներ մեկ ակնկալվող գնահատման համակարգի հիմնաբառ, որը բացակայում էր շարժիչի մեկնաբանությունից, չնայած ախտորոշիչ բովանդակությունը ճիշտ էր։. 100,000-դեպքանոց Երկրորդ Թարմացման կոհորտում ոչ մի դեպք չի բաց թողել հենց ախտորոշումը։. Լատենտությունը բարելավվել է V11 սկզբնական թողարկման միջին 20.17 վ-ից մինչև 13.26 վ Երկրորդ Թարմացման ժամանակ՝ արտացոլելով արտադրական շարժիչի օպտիմիզացումները երկու գործարկումների միջև. սանդղակը (rubric), գնահատման կոդը և API-ի վերջնակետը (endpoint) անփոփոխ են։.

Պիտակ-առ-պիտակ կոմպոզիտային միավորները տատանվել են 0.9971-ից մինչև 0.9985՝ 30 ամենաբազմամարդ երկրի պիտակների համար։ 97 լրացուցիչ պիտակներից բաղկացած երկար պոչը (≈7,300 դեպք միասին) չի ցուցաբերել համակարգային վատթարացում։ Դեպքերի քանակով ամենահաճախ պիտակներն էին՝ Միացյալ Նահանգները (10,500), Բրազիլիան (9,500), Իսպանիան (9,000), Իտալիան (8,000), Գերմանիան (7,800), Ֆրանսիան (7,400), Պորտուգալիան (5,800), Türkiye-ն (3,400), Միացյալ Թագավորությունը (2,900) և Մեքսիկան (2,500)։.

15 դեպքից մինչև 100,000. կոհորտի էվոլյուցիա՝ 127 երկրի պիտակների շրջանակում

Սկզբնական V11 դեպքերի պանելն ընդգրկում էր յոթ մասնագիտություն՝ հեմատոլոգիա, էնդոկրինոլոգիա, նյութափոխանակային բժշկություն, հեպատոլոգիա, նեֆրոլոգիա, կարդիոլոգիա, ռևմատոլոգիա — ինչպես նաև երկու հատուկ հիպերճանաչման trap դեպք, ընդ որում յուրաքանչյուր դեպք սինթետիկ կերպով ստեղծված արյան անալիզների պանել էր։ V11 Երկրորդ Թարմացումը ընդլայնում է գնահատումը մինչև 100,000 սինթետիկ դեպք՝ 127 երկրի պիտակների շրջանակում, ՝ բաշխված ութ մասնագիտությունների միջև (սկզբնական յոթը գումարած ներքին բժշկության համար նախատեսված հատուկ «bucket»-ը, որը կլանում է trap ենթաբազմությունը)։ Նույն գնահատման սանդղակը (rubric) կիրառվում է բայթ-համարժեք երկու գործարկումների միջև։.

Քանի որ բոլոր դեպքերը սինթետիկ կերպով են ստեղծված, չկա իրական նույնացուցիչներ հեռացնելու և ներգրավված չէ անձնական տվյալ։ Յուրաքանչյուր սինթետիկ դեպք ունի բենչմարկի ներքին դեպքի կոդ (BT-NNN-LABEL՝ V11 սկզբնական փաթեթում, կայուն case_uid Երկրորդ Թարմացման մեջ)։ Հրապարակված հարթակում, տեխնիկական զեկույցում կամ թողարկված տվյալների հավաքածուներում անձնական տվյալ չի երևում։.

V11 սկզբնական թողարկման — 15 ձեռքով ընտրված դեպքեր

Վ11-ի սկզբնական դեպքերի վահանակը ձեռքով կազմվել է դոկտոր Թոմաս Քլայնի կողմից՝ կիրառելու ախտորոշիչ օրինաչափությունները, որոնք լաբորատոր-բժշկական օգնականները ամենից հաճախ սխալ են մեկնաբանում։ Տասնհինգ դեպքերից յուրաքանչյուրն ընտրվել է հատուկ ախտորոշիչ հատկանիշի համար, որոնք թվարկված են ստորև։.

Հեմատոլոգիա (3) BT-001, BT-006, BT-007 Երկաթի անբավարարության անեմիա · B12-ի անբավարարություն · Բետա-թալասեմիա մինոր

Էնդոկրինոլոգիա (3) BT-002, BT-008, BT-012 Հաշիմոտոյի թիրեոիդիտ · PCOS՝ ինսուլինային ռեզիստենտությամբ · D վիտամինի ծանր անբավարարություն

Նյութափոխանակություն (2) BT-003, BT-013 T2DM՝ նյութափոխանակային համախտանիշով · Հիպերուրիկեմիա՝ հոդատապի ռիսկով

Հեպատոլոգիա (2) BT-004, BT-009 NAFLD / NASH · Սուր վիրուսային հեպատիտ

Նեֆրոլոգիա · Սրտաբանություն · Ռևմատոլոգիա (3) BT-005, BT-010, BT-011 CKD 3-րդ փուլ · Աթերոգեն դիսլիպիդեմիա · Համակարգային կարմիր գայլախտ

Trap դեպքեր (2) BT-014, BT-015 Գիլբերտի համախտանիշ (մեկուսացված անուղղակի հիպերբիլիռուբինեմիա) · Լիովին նորմալ չափահաս սքրինինգ

Ինչո՞ւ է ընտրված հենց այս բաշխումը

Հեմատոլոգիան ստանում է երեք դեպք, քանի որ միկրոցիտային դիֆերենցիալների և մակրոցիտային դիֆերենցիալների թակարդները իրական լաբորատոր պրակտիկայում ամենաբարձր ծավալն ունեցողներն են։ Էնդոկրինոլոգիան ստանում է երեք դեպք, քանի որ Հաշիմոտոյի, PCOS-ի և D վիտամինի անբավարարության ներկայացումները տարբեր ախտորոշիչ ձևեր են առաջացնում (ինքնահակամարմիններով պայմանավորված, հորմոնների հարաբերակցությամբ պայմանավորված, մեկ մարկերով պայմանավորված)։ Միակ դեպքի մասնագիտությունները դեռևս իմաստալից են, քանի որ յուրաքանչյուր CKD-ի, ASCVD ռիսկի և SLE-ի համար ունի իր սեփական գնահատման համակարգը, որը շարժիչը պետք է կանչի (համապատասխանաբար՝ KDIGO փուլավորում, ASCVD 10-ամյա ռիսկ, 2019 EULAR/ACR SLE չափանիշներ)։.

V11 Երկրորդ Թարմացում — 100,000 սինթետիկ դեպք՝ 127 երկրի պիտակների շրջանակում

Երկրորդ Թարմացումը փոխարինում է սկզբնական V11-ի կոշտ կոդավորված 15-դեպք Python literal-ը ավելի մեծ, ծրագրային կերպով ստեղծված սինթետիկ դեպքերի մի շարքով։ Դեպքերի մի շարքը բեռնվում է յուրաքանչյուր գործարկման սկզբում, և կազմաձևումը գրանցվում է թափանցիկության համար։ Կոհորտի բաշխումը ըստ բովանդակային ոլորտների ներկայացված է ստորև։.

Էնդոկրինոլոգիա 23,900 դեպք (23.9%) Վահանագեղձ, PCOS, D վիտամին, գոնադալ առանցք, հիպոֆիզ

Մետաբոլիկ բժշկություն 21,900 դեպք (21.9%) T2DM, մետաբոլիկ համախտանիշ, լիպիդային վահանակներ, հիպերուրիկեմիա

Արյունաբանություն 15,400 դեպք (15.4%) Միկրոցիտային և մակրոցիտային տարբերակներ, B12/ֆոլաթ, երկաթի հետազոտություններ

Հեպատոլոգիա 12,400 դեպք (12.4%) NAFLD/NASH, վիրուսային հեպատիտ, FIB-4, խոլեստազ

Ներքին բժշկություն (ներառյալ trap ենթաբազմությունը) 9,000 դեպք (9.0%) Խառը դրսևորումներ և 8,723 հատուկ հիպերճանաչման trap դեպք

Կարդիոլոգիա 7,500 դեպք (7.5%) ASCVD ռիսկ, աթերոգեն դիսլիպիդեմիա, hs-CRP

Ռևմատոլոգիա 6,000 դեպք (6.0%) SLE, RA, վասկուլիտ, աուտոհակամարմինների վահանակներ (EULAR/ACR չափանիշներ)

Նեֆրոլոգիա 4,000 դեպք (4.0%) CKD փուլավորում (KDIGO), eGFR-ի միտումներ, էլեկտրոլիտային խանգարում

Սինթետիկ երկրի-պիտակի բաշխում — լավագույն 10 պիտակ

100,000 սինթետիկ դեպքերը կրում են 127 երկրի պիտակներ (ISO 3166-1 alpha-2)՝ տեղայնացման մշակումը ստուգելու համար։ Պիտակների հատկացում. Եվրոպա 57.7%, Ամերիկա 25.4%, Ասիա-Խաղաղօվկիանոս 6.2%, անվանված Մերձավոր Արևելք/Աֆրիկա պիտակներ 3.4%, և երկար պոչ՝ 97 լրացուցիչ պիտակներով՝ միասին մոտ 7.3%։ Դեպքերի քանակով տասը ամենահաճախ պիտակներն են՝ Միացյալ Նահանգները (10,500), Բրազիլիան (9,500), Իսպանիան (9,000), Իտալիան (8,000), Գերմանիան (7,800), Ֆրանսիան (7,400), Պորտուգալիան (5,800), Türkiye-ն (3,400), Միացյալ Թագավորությունը (2,900) և Մեքսիկան (2,500)։ Պիտակ-առ-պիտակ կոմպոզիտային միավորները տատանվել են 0.9971-ից մինչև 0.9985։ Պիտակների այս քանակները գեներացված դեպքերի հատկություններն են, որոնք օգտագործվում են տեղայնացման մշակումը ստուգելու համար — դրանք իրական օգտատերեր չեն և ոչ էլ իրական աշխարհագրական ծածկույթ։.

Նախապես գրանցված rubric-ը՝ բացատրված

Նախնական գրանցումը այս բենչմարկում մեթոդաբանական ամենակարևոր ընտրությունն է։ Յուրաքանչյուր սպասվող ախտորոշում, յուրաքանչյուր կլինիկական գնահատման համակարգ և յուրաքանչյուր հաշվետվության բաժին պարտավորվել է որպես սկզբնաղբյուրային կոդ նախքան շարժիչը կանչվելը. ։ Ուստի ռուբրիկի հետհաշվարկային (post-hoc) ճշգրտումը՝ շարժիչին «հարմարեցնելու» համար, անհնար է։.

Կոմպոզիտ միավորն կազմված է երեք բաղադրիչից։ կառուցվածքային բաղադրիչը կազմում է 35 տոկոս և չափում է՝ արդյոք շարժիչը վերադարձրել է յոթ պարտադիր հաշվետվական բաժինները (վերնագիր, ամփոփում, հիմնական հայտնագործություններ, դիֆերենցիալ, գնահատման համակարգեր, առաջարկություններ, հետագա քայլեր) և դրանց մեջ գտնվող տասնվեց պարտադիր ենթաբաժինները։ Բաժնի առկայությունը կշռում է 40 տոկոս, իսկ ենթաբաժնի առկայությունը՝ 60 տոկոս՝ կառուցվածքային հաշվարկի շրջանակում։.

Այն կլինիկական բաղադրիչը կազմում է 55 տոկոս և համադրում է երեք բան՝ ախտորոշում-բանալի բառերի հիշողություն (կլինիկական ենթամիավորի 70 տոկոսը), գնահատման համակարգի հիշողություն (20 տոկոս — արդյոք շարժիչը հաշվարկում է Mentzer-ը, FIB-4-ը, HOMA-IR-ը, ASCVD ռիսկը, KDIGO փուլավորումը, EULAR/ACR չափանիշները՝ համապատասխանության դեպքում), և հավանականությունների գումարի վավերականության ստուգում (10 տոկոս — դիֆերենցիալ հավանականությունները պետք է գումարվեն [90, 110] միջակայքում)։ Թակարդային դեպքերի համար հստակ հիպերճանաչման տուգանք մինչև 0.30 է հանվում՝ հաշվարկված որպես 0.10 յուրաքանչյուր հորինված պաթոլոգիայի դրոշակի համար, սահմանափակված մինչև երեք դրոշակ։.

Այն ուշացման (latency) բաղադրիչը կազմում է 10 տոկոս։ Պատասխանը 20 վայրկյանից պակաս՝ ստանում է ամբողջական 0.10, 40 վայրկյանից պակաս՝ 0.05, իսկ ցանկացած ավելի դանդաղ՝ զրո։ 20 վայրկյան թիրախը արտացոլում է արտադրական առաջնային primary-path ծառայության մակարդակի նպատակային ցուցանիշը; 40 վայրկյան շեմը արտացոլում է Phase 2-ի fallback բյուջեն՝ ծանր շարժիչ կանչերի համար։.

Ինչը կանխում է նախնական գրանցումը

Առաջին կողմի (first-party) բենչմարկները հայտնի են իրենց սեփական թվերը հետհաշվարկային (post-hoc) ռուբրիկի ճշգրտման միջոցով ուռճացնելու սովորությամբ։ Կաղապարը գրեթե միշտ նույնն է. թիմը գործարկում է շարժիչը, տեսնում է, թե որտեղ է թերակատարում, ապա հանգիստ ճշգրտում է ռուբրիկը, որպեսզի թերակատարող ոլորտները ավելի քիչ հաշվվեն։ Ռուբրիկը սկզբնաղբյուրային կոդում ամրագրելով՝ մինչև առաջին շարժիչի կանչը, և հարմարանքը հրապարակելով MIT լիցենզիայով, այդ ճշգրտումը դառնում է տեսանելի տարբերակների կառավարման մեջ։ Յուրաքանչյուրը կարող է կրկնօրինակել ռեպոզիտորիան, ստուգել ռուբրիկի հեղինակների ամսաթվերը և հավաստել, որ շարժիչի արդյունքները չեն օգտագործվել գնահատման ձևավորելու համար։.

Հիպերդիագնոստիկացման թակարդների դեպքեր — ինչու «չափից շատ կանչելը» իրական ձախողման ռեժիմն է

Պաթոլոգիայի ագրեսիվ գերագնահատումը նորմալ էկրանների վրա՝ սպառողական ուղղվածությամբ բժշկական օգնականների փաստագրված ձախողման ռեժիմ է։ Դրա ներքևի ծախսերը ներառում են անհարկի հետազոտություն, հիվանդի անհանգստություն և իատրոգեն հետազոտական աշխատանք։ Այս բենչմարկի երկու թակարդային դեպքերը նախագծված են այդ ձախողման ռեժիմը տեսանելի և գնահատելի դարձնելու համար։.

🟡 Թակարդ 1 — BT-014-GILBERT

Ներկայացում։. 24-ամյա տղամարդ՝ ընդհանուր բիլիռուբինով 2.4 մգ/դլ։ Ուղիղ ֆրակցիան նորմալ է, տրանսամինազները և ալկալային ֆոսֆատազը գտնվում են իրենց հղման միջակայքերում, ռետիկուլոցիտները՝ աննկատ, իսկ հապտոգլոբինը և LDH-ը բացառում են հեմոլիզը։.

Ճիշտ մեկնաբանություն։. Գիլբերտի համախտանիշ — UGT1A1-ի բարորակ պոլիմորֆիզմ։ Մեկնաբանությունը չպետք է ներառի հեպատիտ, ցիռոզ, հեմոլիտիկ անեմիա կամ բիլյարային խցանում։.

V11 արդյունք։. Կոմպոզիտ 1.000։ Վեց վերահսկվող գերախտորոշման (over-diagnosis) դրոշակներից ոչ մեկը չի հայտնվել որպես ակտիվ ախտորոշում։.

🟡 Թակարդ 2 — BT-015-HEALTHY

Ներկայացում։. 35-ամյա կին՝ տասնհինգ պարամետր ունեցող սովորական սքրինինգ վահանակով։ Յուրաքանչյուր անալիտ հարմարավետորեն գտնվում է իր հղման միջակայքում։.

Ճիշտ մեկնաբանություն։. Հանգստացնողություն և կենսակերպի պահպանում։ Մեկնաբանությունը չպետք է ստեղծի սահմանային պաթոլոգիա՝ կլինիկապես օգտակար հնչելու համար։.

V11 արդյունք։. Կոմպոզիտ 1.000։ Չորսից յոթ վերահսկվող գերհայտնաբերման ազդանշաններից ոչ մեկը՝ շաքարախտ, անեմիա, հիպոթիրեոզ, դիսլիպիդեմիա, հեպատիտ, երիկամային հիվանդություն, անբավարարություն, չի հայտնվել որպես ակտիվ ախտորոշում։.

Երկու թակարդներում էլ ստուգվել են տասներեք վերահսկվող գերհայտնաբերման ազդանշաններ։ Ոչ մեկը չի ակտիվացվել։ Սա է այն արդյունքը, որն ամենակարևորն է ցանկացած կլինիկոսի համար, ով մտածում է AI շարժիչն օգտագործել որպես տրիաժի կամ նախախորհրդատվական գործիք. համակարգը չի հորինել հիվանդություն, եթե այն գոյություն չի ունեցել.

Մենցերի ինդեքս՝ երկաթի անբավարարությունը թալասեմիայի հատկանիշից տարանջատելու համար

Երկրորդ բարձրարժեք հայտնագործությունը վերաբերում է գործ BT-001-ի (երկաթի անբավարարության անեմիա) և գործ BT-007-ի (բետա-թալասեմիա մինոր) զուգակցմանը։ Երկուսն էլ դրսևորում են միկրոցիտոզ և հայտնի խոչընդոտ են սկսնակ դասակարգիչների համար։ Մենցերի ինդեքսը, որը հաշվարկվում է որպես MCV՝ բաժանած RBC քանակի վրա, երկաթի անբավարարության դեպքում գերազանցում է 13-ը, իսկ թալասեմիայի հատկանիշի դեպքում ընկնում է 13-ից ցածր։.

BT-001-ում հիվանդը 34-ամյա կին էր՝ հեմոգլոբին 10.4 գ/դլ, MCV 72.4 ֆլ, RBC 4.1 × 10¹²/լ, ֆերիտին 6 նգ/մլ և բարձրացված TIBC։ Մոտավորապես 17.7 մենցերի ինդեքսը հաստատում է երկաթի բացարձակ անբավարարությունը։ BT-007-ում հիվանդը 28-ամյա տղամարդ էր՝ միկրոցիտոզով (MCV 65.8 ֆլ), սակայն RBC-ի բարձր քանակով՝ 6.2, նորմալ RDW, նորմալ ֆերիտին և HbA2՝ 5.6 տոկոս։ Մոտավորապես 10.6 մենցերի ինդեքսը ցույց է տալիս թալասեմիայի հատկանիշ, իսկ բարձրացված HbA2-ը հաստատում է բետա-թալասեմիա մինորը։.

Երկաթի անբավարարության անեմիա Մենցեր > 13 Ցածր ֆերիտին, ցածր TSAT, բարձր TIBC, բարձրացված RDW

Թալասեմիայի հատկանիշ (բետա-թալասեմիա) Մենցեր < 13 Նորմալ ֆերիտին, նորմալ RDW, բարձրացված HbA2 (>3.5%), RBC-ի բարձր քանակ

Երկու դեպքերն էլ ստացել են 1.000 միավոր։ Շարժիչը մենցերի ինդեքսը հստակորեն կիրառել է երկու մեկնաբանություններում էլ և յուրաքանչյուր դեպքում վերադարձրել է ճիշտ ախտորոշումը։. Սա ամբողջ բենչմարկի ամենաառաջատար կլինիկորեն հանգստացնող արդյունքն է, քանի որ թալասեմիայի հատկանիշը երկաթի անբավարարության հետ սխալ դասակարգելը հանգեցնում է ոչ պատշաճ երկաթի հավելումների և բաց թողնված ընտանեկան սկրինինգի հնարավորությունների, իսկ երկաթի անբավարարությունը թալասեմիայի հետ սխալ դասակարգելը հետաձգում է պարզ փոխարինող բուժումը։ Մեր ֆերիտինի միջակայքի ուղեցույցը բացատրում է ավելի լայն դիֆերենցիալ համատեքստը։.

Դեպք առ դեպք արդյունքներ V11 սկզբնական հղման գործարկումից (2026 թ. ապրիլի 23)

Վ11-ի բնօրինակ հղման գործարկումը 15-դեպք ապացուցման-հայեցակարգ կոհորտում ծառայում է որպես մեթոդաբանական հիմք Երկրորդ Թարմացման համար. ստորև յուրաքանչյուր դեպքի մանրամասնությունը ցույց է տալիս, թե ինչպես է ռուբրիկը մշակում իրական շարժիչի պատասխանը։ Տասներկու դեպք տասնհինգից հասավ առաջնային ուղու վրա կոմպոզիտային միավորի առաստաղին՝ 1.000; երեք դեպք սպասարկվեց 2-րդ փուլի հետադարձ տարբերակով՝ կորցնելով 0.05 ուշացման բոնուսը՝ միաժամանակ պահպանելով ամբողջ կլինիկական և կառուցվածքային բովանդակությունը։ Մեկ դեպք բացակայում էր մեկ պարտադիր ենթաբաժին. մեկը վերադարձրեց հավանականությունների բաշխման գումարի՝ միայն փոքր-ինչ նվազեցված տարբերակ։.

Դեպքի ID Մասնագիտություն Կոմպոզիտ Լատենտություն Ուղի

BT-001-IDAԱրյունաբանություն1.00017.8 վրկprimary

BT-006-B12Արյունաբանություն1.00018.4 վprimary

BT-007-ԹալասեմիաԱրյունաբանություն1.00017.0 վprimary

BT-002-ՀաշիմոտոԷնդոկրինոլոգիա0.95037.0 վհետադարձ տարբերակ

BT-008-PCOSԷնդոկրինոլոգիա0.98718.6 վprimary

BT-003-2-րդ տիպի շաքարախտնյութափոխանակություն1.00019.1 վprimary

BT-013-Պոդագրանյութափոխանակություն1.00019.4 վprimary

BT-004-Ոչ ալկոհոլային ճարպային լյարդՀեպատոլոգիա1.00019.6 վprimary

BT-009-Վիրուսային հեպատիտՀեպատոլոգիա0.95023.4 վհետադարձ տարբերակ

BT-014-Գիլբերտի համախտանիշԹակարդ1.00018.9 վprimary

BT-005-Քրոնիկ երիկամային անբավարարությունՆեֆրոլոգիա1.00017.4 վprimary

BT-010-ԱՍՎԴԿարդիոլոգիա1.00019.7 վprimary

BT-011-SLEՌևմատոլոգիա0.98118.2 վprimary

BT-012-VITDԷնդոկրինոլոգիա1.00019.3 վprimary

BT-015-HEALTHYԹակարդ1.00018.7 վհետադարձ տարբերակ

PCOS-ի դեպքը (BT-008) պատասխանների կառուցվածքում կորցրել է մեկ պարտադիր ենթաբաժին՝ տասնվեցից տասնհինգ փոխարեն՝ ինչը կառուցվածքային միավորը նվազեցրել է 1.000-ից մինչև 0.963։ SLE-ի դեպքը (BT-011) վերադարձրել է սահմանային կերպով նվազած հավանականությունների բաշխման գումար, որը կլինիկական միավորը իջեցրել է մինչև 0.965՝ պահպանելով բոլոր ախտորոշիչ հիմնաբառերը և գնահատման համակարգը։ Ոչ մի ենթա-կատարյալ դեպք չի բաց թողել ճիշտ ախտորոշումը։.

V11 Երկրորդ Թարմացման ագրեգատ — 100,000 դեպք

Բնակչական մասշտաբով անհատական դեպքերի տողերը մարդկայնորեն ընթեռնելի չեն, ուստի Երկրորդ Թարմացումը ներկայացնում է համախառն չափորոշիչներ՝ 100,000-տող աղյուսակի փոխարեն։ Գլխավոր համախառն արդյունքը ներկայացված է ստորև. մասնագիտությունների և երկրի-պիտակների մանրամասները հրապարակվում են տեխնիկական զեկույցում և Figshare-ի պահոցում։ Շերտավորված պատահական նմուշը n = 201 շարժիչի հում պատասխանների (որոշիչ սերմ 20260426) հրապարակվում է GitHub-ի results/ գրացուցակում՝ ստուգման համար։.

Կոմպոզիտային միավոր V11 սկզբնական՝ 0.9912 (99.12%) → Երկրորդ Թարմացում՝ 0.9980 (99.80%) Δ = +0.0068 100,000-դեպք կոհորտի ընթացքում

Կառուցվածքային միավոր (միջին) V11 սկզբնական՝ 0.998 → Երկրորդ Թարմացում՝ 1.000 Կատարյալ կառուցվածքային համապատասխանություն բնակչական մասշտաբով

Կլինիկական միավոր (միջին) V11 սկզբնական՝ 0.998 → Երկրորդ Թարմացում՝ 0.996 −0.002; ոչ մի դեպք չի բաց թողել հենց ախտորոշումը

Լատենտություն — միջին (տիրույթ) V11 սկզբնական՝ 20.17 վրկ (17.0–37.0 վրկ) → Երկրորդ թարմացում․ 13.26 վրկ (9.0–16.94 վրկ) Շարունակական գործարկումների միջև՝ շարժիչի օպտիմիզացումներ

Շարժիչի ուղին = առաջնային V11 սկզբնական՝ 12 / 15 → Երկրորդ թարմացում․ 100,000 / 100,000 Ոչ մի պահի ընթացքում չի պահանջվել Phase 2-ի հետադարձ տարբերակ

Թակարդ-ենթաբազմության հիպերդիագնոստիկացման դրոշակներ V11 սկզբնական՝ 0 / 13 → Երկրորդ թարմացում․ 0 / 87,412 Բնակչական մասշտաբով զրոյական կեղծ դրականներ (8,723 թակարդային դեպք՝ վերահսկված)

Ինչը չի բացահայտում վերնագրային գնահատականը

99.80 տոկոսի կոմպոզիտային միավոր՝ այս կոնկրետ նախապես գրանցված ռուբրիկի ներքո, 100,000-դեպք սինթետիկ կոհորտի վրա՝ ընդգրկելով 127 երկրի պիտակներ, ներկայացնում է գրեթե առաստաղային կատարում — բայց այն արժանի է զգույշ ձևակերպման։ Արդյունքը նկարագրում է շարժիչի վարքագիծը այն ռուբրիկի նկատմամբ, որը մենք պարտավորվել էինք ներառել V11-ի սկզբնաղբյուրի կոդում. սա համընդհանուր պնդում չէ շարժիչի ճիշտ լինելու մասին յուրաքանչյուր արյան անալիզների պանելի համար, որը գոյություն ունի իրական աշխարհում։.

Միավորը ասում է, որ շարժիչը ճիշտ է մշակել այս գնահատման համար ընտրված դիագնոստիկ օրինաչափությունները՝ բնակչական մասշտաբով կոհորտում, հրապարակված և վերարտադրելի մեթոդաբանությամբ։ Այն չի ասում, որ շարժիչը ճիշտ է յուրաքանչյուր արյան անալիզի վահանակի համար, որը գոյություն ունի իրական աշխարհում։ Այն չի ասում, որ շարժիչը պետք է փոխարինի կլինիկական դատողությանը։ Եվ այն չի ասում, որ շարժիչը գերազանցում է այլ AI համակարգերին — այլ շարժիչների նկատմամբ համեմատական վերլուծությունները դիտավորյալ դուրս են եղել սույն զեկույցի շրջանակից։.

Այն, ինչ միավորն իրականում հաստատում է, հիմքային չափանիշն է։ Քանի որ չափանիշն ու գործարկման միջավայրը հրապարակային են, շարժիչի ապագա տարբերակները կարող են գնահատվել նույն չափանիշով — կիրառվելով V11 սկզբնական 15 դեպքերի, Երկրորդ թարմացման 100,000 դեպք պարունակող կոհորտի կամ ցանկացած հետագա ընդլայնման վրա — և հրապարակված միավորի ու ցանկացած հետագա գործարկման միջև բացը ինքնին չափելի է։ Սա է նախնական գրանցման արժեքը․ այն կատարողականի պնդումները վերածում է ստուգելի պնդումների.

Ինչպես վերարտադրել այս բենչմարքը 10 րոպեում

Վերարտադրության համար անհրաժեշտ է միայն Kantesti API-ի հավատարմագրերի զույգ և Python 3.10 կամ ավելի ուշ միջավայր՝ հետևյալով requests և reportlab գրադարանները տեղադրված։ Ամբողջ գործարկման միջավայրը մեկ ինքնաբավ Python մոդուլ է՝ թողարկված MIT լիցենզիայով։.

💻 GitHub MIT-լիցենզավորված գործարկման միջավայր · հում պատասխաններ · հղումային գործարկում 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · կանոնական ակադեմիական գրառում 🎓 Հետազոտական դարպաս Հրապարակում 404175463 · V11 Երկրորդ թարմացում · ակադեմիական հայտնաբերման շերտ 📄 Academia.edu Հոդված 165956808 · V11 Երկրորդ թարմացում · ակադեմիական հայտնաբերման շերտ

Թարմ գործարկման չորս քայլ

Մեկ. Կլոնավորել ռեպոզիտորին՝ git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Երկու. Տեղադրեք կախվածությունները՝ pip install -r requirements.txt (Երկրորդ թարմացումը ավելացնում է mysql-connector-python ≥ 8.0 SQL գործ բեռնողի համար)։. Երեք։. Սահմանեք KANTESTI_USERNAME և KANTESTI_PASSWORD որպես միջավայրի փոփոխականներ՝ շարժիչի API-ի համար։ Երկրորդ թարմացման SQL գործ բեռնողի համար նաև սահմանեք KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, և KANTESTI_DB_PASSWORD — բեռնիչը միանում է միայն կարդալու դերակատարության միջոցով (bench_reader) որը չունի արտոնություններ՝ նույնականացնող աղյուսակների վերաբերյալ։. Չորս։. Գործարկեք python benchmark_bloodtest.py --limit 100000 ամբողջ Second-Update գործարկման համար, կամ python benchmark_bloodtest.py --limit 1000 արագ կրկնության համար։ Արդյունքները տեղադրվում են ./benchmark_results/: CSV գնահատման քարտ՝ պիտակ-առ-պիտակ և մասնագիտություն-առ-մասնագիտություն սյունակներով, JSON համախառն, շերտավորված-պատահական հում-պատասխանների նմուշ և Markdown զեկույց։.

Հղման գործարկումները պահպանված են 23 ապրիլի 2026-ից (V11 սկզբնական, 15 դեպք) և 26 ապրիլի 2026-ից (V11 Second Update, 100,000 դեպք)՝ պահոցում։ Թարմ գործարկումը կստեղծի նոր ժամանակակնիքով գնահատականային քարտ՝ հղման գործարկումները չփոխելով։ Եթե ձեր գործարկումը տալիս է էականորեն տարբեր արդյունք, խնդրում ենք բացել GitHub issue՝ գործարկման ժամանակակնիքով և պատասխանների մետատվյալներում վերադարձված շարժիչի տարբերակով։ results/ directory of the repository. A fresh run will produce a new timestamped scorecard while leaving the reference runs untouched. If your run produces a meaningfully different result, please open a GitHub issue with the run timestamp and the engine version returned in the response metadata.

Սահմանափակումներ և ապագա աշխատանք

Նույնիսկ 100,000 դեպքերի և 127 երկրի պիտակների շրջանակում՝ չորս սահմանափակումներ արժանի են հստակ ճանաչման. երկար պոչի պիտակների թերի նմուշառում, մեկանգամյա գնահատում, մեկ շարժիչի շրջանակ, և մեկ աղբյուրի տվյալների ծագում։ Դրանցից յուրաքանչյուրը հասցեագրվում է ակտիվ հետագա աշխատանքում։.

Երկար պոչի պիտակների ծածկույթ։. Երկրորդ Թարմացումը ընդգրկում է 127 երկրի պիտակ, սակայն բաշխումը անհավասարակշիռ է — լավագույն 10 պիտակները կազմում են ≈66.4% դեպքերը, իսկ 97 լրացուցիչ պիտակներից բաղկացած երկար պոչը միասին նպաստում է ≈7.3%-ին (մոտ 7,300 դեպք միասին, միջինը ~75 դեպք մեկ պիտակի համար)։ Ուստի այս երկար պոչում պիտակ-առ-պիտակ կոմպոզիտները ավելի աղմկոտ են, քան ենթադրում են գլխավոր ցուցանիշները։ Ապագա գործարկումները կվերաբաշխեն պիտակների հատկացումը՝ պիտակ-առ-պիտակ գնահատականները ամրացնելու համար։.

Մեկանգամյա գնահատում։. Կոհորտի յուրաքանչյուր դեպք գնահատվել է մեկ անգամ։ Խոշոր լեզվական մոդելները ցուցաբերում են ոչ տրիվիալ ելքային տատանումներ նույնիսկ ցածր նմուշառման ջերմաստիճանի դեպքում, ուստի բազմակի գործարկման պրոտոկոլը՝ յուրաքանչյուր դեպքի համար հինգ գնահատումով և ներկայացված տատանումով, բնական հաջորդ քայլ է՝ հատկապես trap-case ենթաբազմության վրա, որտեղ նմուշառման «ցնցումների» պայմաններում կայունությունը հանդիսանում է անվտանգության պնդման մաս։.

Մեկ շարժիչի շրջանակ։. Այս հաշվետվությունը բնութագրում է մեկ շարժիչ։ Համեմատական վերլուծությունները այլ AI համակարգերի նկատմամբ այստեղ դուրս են այս շրջանակից. մենք կարող ենք դրանք հետապնդել որպես առանձին անկախ ուսումնասիրություն՝ համապատասխան մեթոդաբանությամբ, նույն MIT-լիցենզավորված հարմարանքով (harness)։.

Սինթետիկ տվյալ։. 100,000 դեպքերը սինթետիկ կերպով են ստեղծված, ոչ թե սինթետիկ դեպքեր, և արդյունքները չեն փոխանցվում իրական աշխարհի կլինիկական կատարողականին։ Իրական, համաձայնեցված և արտաքին աղբյուրից ստացված տվյալների վրա գնահատումը կպահանջեր համապատասխան էթիկական վերահսկողություն և դուրս է այս սինթետիկ բենչմարկի շրջանակից։.

Այս չորսից բացի, ամենաազդեցիկ նախատեսված ընդլայնումը յուրաքանչյուր իրավասության համար բազմալեզու համարժեքությունն է։ Kantesti AI Engine-ը սպասարկում է օգտատերերի 75+ լեզուներով, և գործարկելով լեզվով շերտավորված Second-Update ենթակոհորտերը (թուրքերեն, գերմաներեն, իսպաներեն, ֆրանսերեն, իտալերեն, պորտուգալերեն, արաբերեն, մանդարին)՝ կքանակականացվի ելքային որակը շարժիչի աջակցվող լեզուների շրջանակում։ Յուրաքանչյուր լեզվով շերտավորված վերլուծություն կհրապարակվի իր սեփական DOI-ով և harness մասնաճյուղով։.

Փորձեք նույն շարժիչը, որը հասավ 99.80% կոմպոզիտային գնահատականին 100,000 դեպքերում

Վերբեռնեք ձեր սեփական արյան անալիզների պանելն այն նույն արտադրական վերջնակետ (endpoint) հասցեով, որը գնահատվել է այս բենչմարկում։ Աշխարհում 2 միլիոնից ավելի օգտատեր օգտագործում է Kantesti AI Engine-ը՝ 75+ լեզուներով մեկնաբանելու ավելի քան 15,000 բիոմարկեր։.

🔬 Փորձեք անվճար դեմո տարբերակը

Chrome-ի ընդլայնում App Store Google Play

📚 Ինչպես մեջբերել այս բենչմարկը

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Նախապես գրանցված, ռուբրիկայի վրա հիմնված ավտոմատացված տեխնիկական բենչմարք՝ Kantesti արյան քննության մեկնաբանման շարժիչի համար 100,000 սինթետիկ թեստային դեպքերի վրա — V11 Երկրորդ թարմացում (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Արտաքին մեթոդաբանական հղումներ

Mentzer, W. C. (1973). Երկաթի անբավարարության տարբերակում թալասեմիայի հատկանիշից. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology դասակարգման չափանիշներ համակարգային կարմիր գայլախտի համար. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ԴՕԻ 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Բժշկական դոմենի հալյուցինացիաների թեստ մեծ լեզվական մոդելների համար. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Կոմպոզիտային միավոր

100,000Գնահատված դեպքեր

127Ծածկված երկրի պիտակներ

0 / 87,412«Trap» կեղծ դրականներ

Հաճախակի տրվող հարցեր

Насколько точен Kantesti AI Engine на синтетических тестовых случаях?

Նախապես գրանցված ռուբրիկայի վրա՝ 100,000 սինթետիկ կերպով ստեղծված թեստային դեպքերի հիման վրա, ութ բովանդակային ոլորտներում և 127 երկրի պիտակներով (V11 Երկրորդ թարմացում) շարժիչը հասել է 99.80 տոկոսի կոմպոզիտային գնահատականի՝ զրոյական հիպերդիագնոզի դրոշակներով 87,412 վերահսկվող «trap-case» հնարավորությունների շրջանակում և 13.26 վայրկյան միջին պատասխանման ուշացումով։ Այս կոմպոզիտը չափում է ելքային համապատասխանությունը սինթետիկ մուտքերին, ոչ թե ախտորոշիչ ճշգրտությունը։ Սկզբնական V11 թողարկումը նույն ռուբրիկան կիրառել է 15 ձեռքով կառուցված դեպքերի վրա (կոմպոզիտ 99.12%)․ Երկրորդ թարմացումը պահպանում է ռուբրիկան բայթ-իդենտիկ և ընդլայնում է այն ավելի մեծ սինթետիկ կոհորտի վրա։ Ամբողջական գնահատման աղյուսակը հրապարակված է Figshare-ում՝ DOI 10.6084/m9.figshare.32095435 ներքո և GitHub-ում՝ MIT լիցենզիայով։.

Արդյո՞ք Kantesti AI շարժիչը կլինիկորեն վավերացված է։

Ոչ։ Շարժիչը գնահատվել է ավտոմատացված տեխնիկական բենչմարկով (ոչ թե կլինիկական վալիդացիայով), ռուբրիկի հիման վրա, որը սառեցվել էր սկզբնային կոդում՝ V11-ի նախնական գործարկումից առաջ և պահվել բայթ-համարժեք՝ V11 Երկրորդ Թարմացման համար, գնահատվել է 100,000 սինթետիկ արյան անալիզի դեպքերի վրա՝ հեմատոլոգիայի, էնդոկրինոլոգիայի, մետաբոլիկ բժշկության, հեպատոլոգիայի, նեֆրոլոգիայի, կարդիոլոգիայի, ռևմատոլոգիայի և ներքին բժշկության ոլորտներում՝ վերցված 127 երկրի պիտակների շրջանակից։ Կլինիկական վերահսկողությունն իրականացվել է դոկտոր Թոմաս Քլայնի կողմից, MD (ORCID 0009-0009-1490-1321), բորդ-հավաստագրված կլինիկական հեմատոլոգ և Kantesti AI-ի գլխավոր բժշկական պատասխանատու։.

Ի՞նչ է հիպերդիագնոստիկայի թակարդի դեպքը։

«Հիպերդիագնոզի թակարդ» դեպքը կլինիկական իրավիճակ է, որը հատուկ նախագծված է հայտնաբերելու AI շարժիչներում գերդիագնոզավորման վարքագիծը։ V11-ի առաջին բենչմարկը որպես մեթոդաբանական ապացույց-հայեցակարգ օգտագործել է երկու այդպիսի դեպք՝ մեկուսացված անուղղակի հիպերբիլիռուբինեմիա, որը համահունչ է Գիլբերտի համախտանիշին (որտեղ ճիշտ մեկնաբանությունը բարորակ UGT1A1 պոլիմորֆիզմն է, ոչ թե հեպատիտ կամ հեմոլիզ) և լիովին նորմալ չափահասների սքրինինգ պանել (որտեղ ճիշտ ելքը հանգստացնող գնահատականն է, ոչ թե «արտադրված» սահմանային պաթոլոգիա)։ V11 Երկրորդ Թարմացումը այս թակարդ-մեթոդաբանությունը մասշտաբավորել է՝ ստեղծելով 8,723 դեպքից բաղկացած հատուկ ենթաբազմություն՝ ստանալով 87,412 մոնիտորինգով հիպերդիագնոզի դրոշակման հնարավորություններ, և շարժիչի կեղծ-դրականների (false-positive) տոկոսադրույքը մնացել է զրո։.

Արդյո՞ք Kantesti AI շարժիչի գնահատումը կրկնելի է։

Ամբողջական գնահատման գործիքը թողարկվում է MIT լիցենզիայի ներքո՝ որպես մեկ ինքնաբավ Python մոդուլ։ V11-ի առաջին գործարկման համար անհրաժեշտ է միայն Kantesti API կրեդենցիալների զույգ և Python 3.10 կամ ավելի բարձր տարբերակ։ V11 Երկրորդ Թարմացումը ավելացնում է պարամետրացված, միայն-կարդալու SQL դեպքերի բեռնիչ, որը պահանջում է Kantesti կլինիկական-ռեպոզիտորիայի կրեդենցիալներ (ա bench_reader դերը՝ առանց աղյուսակների նույնականացման արտոնությունների)։ Կոդը, դեպքերի բեռնիչի SQL-ը, ռուբրիկը (բայթ-համարժեք՝ թողարկումներից միջև) և V11-ի առաջին ու Երկրորդ Թարմացման հղման գործարկումներից ստացված շարժիչի պատասխանների շերտավորված պատահական նմուշը հասանելի են github.com/emirhanai/kantesti-blood-test-benchmark հասցեում և արտացոլված են Figshare-ում, ResearchGate-ում և Academia.edu-ում։.

Ինչպե՞ս է Kantesti AI Engine-ը տարբերակում երկաթի անբավարարությունը բետա-թալասեմիայի կրողության (trait) վիճակից։

Շարժիչը կիրառում է Մենցերի ինդեքսը, որը հաշվարկվում է՝ միջին կորպուսկուլյար ծավալը բաժանելով էրիթրոցիտների քանակի վրա։ Մենցերի ինդեքսը 13-ից բարձր՝ աջակցում է երկաթի անբավարարության անեմիային, իսկ 13-ից ցածր արժեքը՝ բետա-թալասեմիայի հատկանիշին (trait)։ V11-ի առաջին բենչմարկում երկու ներկայացումներն էլ ճիշտ դասակարգվել են՝ հստակ Մենցերի ինդեքսի հաշվարկով, որը հիմնավորվել է ֆերիտինի, RDW-ի և HbA2-ի համատեքստով։ V11 Երկրորդ Թարմացման ընթացքում 100,000 դեպքից բաղկացած կոհորտում նույն տարբերակիչ վարքագիծը պահպանվել է նաև բնակչական մակարդակում։.

Որտե՞ղ կարող եմ գտնել հում հենանիշային տվյալները և աղբյուրային կոդը։

Տեխնիկական հաշվետվությունը տեղադրված է Figshare-ում՝ DOI 10.6084/m9.figshare.32095435 (ընդգրկելով ինչպես V11-ի առաջին թողարկումը, այնպես էլ V11 Երկրորդ Թարմացումը), արտացոլված է ResearchGate-ի հրապարակում 404175463-ում և Academia.edu-ի հոդված 165956808-ում՝ երկուսն էլ թարմացված V11 Երկրորդ Թարմացման վերնագրով և 100,000 դեպքերի արդյունքներով, և MIT-լիցենզավորված Python գործիքը՝ բոլոր հղման գործարկումների արդյունքներով, հասանելի է github.com/emirhanai/kantesti-blood-test-benchmark հասցեում։ Չորս հարթակների արտացոլման ցանցը ապահովում է երկարաժամկետ հասանելիություն և հղում կատարելու ճկունություն։.

Ինչո՞ւ է կարևոր նախնական գրանցումը (pre-registration) AI բժշկական բենչմարկների համար։

Նախնական գրանցումը կանխում է հետհաշվարկային (post-hoc) չափանիշների (rubric) «կարգավորումը», որը ընկերությունների կողմից իրականացվող բենչմարկների՝ իրենց իսկ թվերը ուռճացնելու ամենատարածված միջոցն է։ Քանի որ չափանիշները պարտադիր կերպով ամրագրվում են սկզբնաղբյուր կոդում՝ մինչև որևէ շարժիչի կանչ, և գործարկման միջավայրը հրապարակվում է հանրությանը, չափանիշների հեղինակների ամսաթվերը դառնում են ստուգելի՝ տարբերակների կառավարման համակարգում, և շարժիչի արդյունքները չեն կարողացել ձևավորել գնահատման չափանիշները։.

Արդյո՞ք այս բենչմարկը ներառում է համեմատություններ այլ AI շարժիչների հետ։

Ոչ։ V11-ի հաշվետվությունը՝ թե՛ սկզբնական թողարկումը, թե՛ Երկրորդ Թարմացումը, դիտավորյալ բնութագրում է մեկ շարժիչ՝ ֆիքսված ռուբրիկի համեմատ, այլ ոչ թե այն դիրքավորում է այլընտրանքային առևտրային համակարգերի համեմատ։ Գործիքը բաց կոդով է MIT լիցենզիայի ներքո (այժմ ներառելով նաև SQL դեպքերի բեռնիչը), որպեսզի անկախ հետազոտողները կարողանան գնահատել ցանկացած շարժիչ, որը կընտրեն, նույն ռուբրիկի և դեպքերի բեռնիչի դեմ և հրապարակել իրենց արդյունքները։.

Հիվանդների դեպքերը իրական են, թե սինթետիկ։

Բոլոր դեպքերը սինթետիկ են՝ V11 նախնական թողարկման մեջ՝ 15 ձեռքով կառուցված դեպք և Երկրորդ թարմացման մեջ՝ 100,000։ Դրանք սինթետիկ դեպքեր չեն. ներգրավված չէ սինթետիկ տվյալներ, համաձայնության գործընթաց, և դե-իդենտիֆիկացում, քանի որ կոհորտում անձնական տվյալներ գոյություն չունեն։ Հրապարակված harness-ում, տեխնիկական հաշվետվությունում կամ թողարկված տվյալների հավաքածուներում անձնական տվյալներ չեն հայտնվում։.

⚕️ Բժշկական Disclaimer (ծանուցում) և շահերի բախում

Այս բենչմարկի հաշվետվությունը նախատեսված է հետազոտական և մեթոդաբանական թափանցիկության նպատակներով։ Այն չի հանդիսանում բժշկական խորհրդատվություն, ախտորոշում չէ և չի փոխարինում մասնագիտական բժշկական օգնությանը. այստեղ ներկայացված որևէ արդյունք չպետք է օգտագործվի բժշկի այցելությունը հետաձգելու կամ դրանից խուսափելու համար։ Ախտորոշման և բուժման որոշումների համար միշտ դիմեք որակավորված առողջապահական ծառայություններ մատուցողին։ Սա ընկերության սեփական շարժիչի ինքնուրույն գործարկվող ներքին բենչմարկ է և չի վալիդացվել անկախ կերպով կամ ենթարկվել հասակակիցների կողմից վերանայման։ Կոմպոզիտային միավորը չափում է ֆիքսված չափանիշին համապատասխանությունը (հաշվետվության կառուցվածք, հիմնաբառերի և գնահատման համակարգի հետկանչ, և ուշացում)․ այն իրական աշխարհում ախտորոշիչ ճշգրտության կամ կլինիկական անվտանգության չափանիշ չէ։ Երկու հեղինակներն էլ աշխատում են Kantesti Ltd-ում և ունեն բաժնեմասեր, իսկ գնահատվող շարժիչը նույն կազմակերպության առևտրային արտադրանքն է։ շահերի բախումը մեղմացվում է՝ չափանիշը նախապես գրանցելով աղբյուրային կոդում, harness-ը թողարկելով MIT լիցենզիայով և հրապարակելով շարժիչի հում պատասխանների շերտավորված պատահական նմուշ։.

E-E-A-T վստահության ազդանշաններ

⭐

Փորձառություն

15+ տարվա կլինիկական հեմատոլոգիայի և լաբորատոր բժշկության փորձ՝ դեպքերի պանելների ընտրության վերահսկմամբ։.

📋

Մասնագիտություն

Նախապես գրանցված չափանիշների (rubric) ձևավորում՝ հստակ հիպերդիագնոզի տույժերով և ճանաչված կլինիկական գնահատման համակարգերով (Mentzer, FIB-4, EULAR/ACR, KDIGO)։.

👤

Հեղինակություն

Առաջատար հեղինակ դոկտոր Թոմաս Քլայն, Բժշկ. գիտ. (MD) (ORCID 0009-0009-1490-1321)։ Իրականացումը՝ Ջուլիան Էմիրհան Բուլութի կողմից՝ Kantesti Ltd-ի գործադիր տնօրեն (CEO)։.

🛡️

Հուսալիություն

MIT-լիցենզավորված վերարտադրելի գործարկման միջավայր, հրապարակված շարժիչի հում պատասխաններ, բաց շահերի բախման բացահայտում, չորս հարթակների հետազոտական հայելային ցանց։.

🏢 «Կանտեստի» ՍՊԸ Գրանցված է Անգլիայում և Ուելսում · Ընկերության No. 17090423 Լոնդոն, Միացյալ Թագավորություն · kantesti.net