Ինչու գոյություն ունի այս բենչմարկը և ինչ է այն ստուգում

AI-ի օգնությամբ արյան անալիզի մեկնաբանությունն ավելի ու ավելի հաճախ է կիրառվում ինչպես սպառողական, այնպես էլ կլինիկական աշխատանքային հոսքերում, սակայն լաբորատոր բժշկությանը հարմարեցված՝ վերարտադրելի գնահատման շրջանակներ դեռևս հազվադեպ են։ Այս միջավայրում ամենակարևոր հարցերը չեն այն հարցերը, որոնք ընդգրկված են ընդհանուր բժշկական հարց-պատասխան բենչմարքներում. արդյոք շարժիչը կարողանում է տարբերակել երկաթի անբավարարությունը թալասեմիայի հատկանիշից, երբ միջին կորպուսկուլյար ծավալը նույնն է, արդյոք այն գերախտորոշում է Գիլբերտի համախտանիշը որպես հեպատիտ, և արդյոք այն ստեղծում է պաթոլոգիա լիովին նորմալ սքրինինգային վահանակում։

Նախապես գրանցված ռուբրիկի հոսքագծային դիագրամ՝ ցույց տալու համար, թե ինչպես է Kantesti AI Engine — V11 Երկրորդ Թարմացում, 99.80% կոմպոզիտ միավոր՝ 100,000 դեպքերի վրա — գնահատվում ֆիքսված գնահատման չափանիշների դեմ
Նկար 1: Հենանիշային ճարտարապետությունը, որը հիմք է հանդիսանում 99.80% կոմպոզիտային միավոր V11 Երկրորդ Թարմացումում 100,000-դեպքանոց կոհորտի համար — յուրաքանչյուր դեպք, յուրաքանչյուր հիմնաբառ, յուրաքանչյուր գնահատման համակարգ ֆիքսված է սկզբնաղբյուր կոդում նախքան շարժիչը կտեսնի մեկ էլեկտրոնային PDF, և գնահատման սանդղակը (rubric) բայթ-համարժեք է V11 սկզբնական թողարկմանը։ Հետ-փաստացի (post-hoc) սանդղակի ճշգրտումը անհնար է՝ ըստ նախագծման։.

Արյան մեկ անալիզների վահանակը սովորաբար պարունակում է այնքան ազդանշան, որ կարող է աջակցել մի քանի մրցակցող մեկնաբանությունների, և մեկնաբանող բժիշկ-մասնագետի գործն է այդ մեկնաբանությունները կշռադատել միմյանց նկատմամբ՝ այլ ոչ թե տեքստբուքային «ճիշտ պատասխանը» վերականգնել։ Այն շարժիչը, որը լավ է աշխատում տեքստբուքային դեպքերում, կարող է ձախողվել ամենակարևոր դեպքերում՝ դիֆերենցիալ ախտորոշման թակարդներում, անվնաս տարբերակներում, որոնք միայնակ դիտելիս տագնապալի են թվում, և լիովին նորմալ վահանակներում, որոնք վստահ օգնականներին մղում են «ախտաբանություն արտադրելու»։.

Այս բենչմարկը կառուցվել է հենց այդ ձախողման ձևերի շուրջ։ Տասնհինգ դեպքերից յուրաքանչյուրն ընտրվել է որոշակի ախտորոշիչ հատկության համար՝ երկաթի պակասով միկրոցիտոզ, որը պետք է հստակ տարանջատվի նույն միջին կորպուսկուլյար ծավալով բետա-թալասեմիայի հատկանիշից, Գիլբերտի համախտանիշի դրսևորում, որտեղ միակ շեղումը մեկուսացված անուղղակի հիպերբիլիռուբինեմիան է, և տասնհինգ պարամետրով սքրինինգային վահանակ, որտեղ յուրաքանչյուր անալիտ գտնվում է իր հղման միջակայքում։ Ռուբրիկը պարգևատրում է շարժիչներին, որոնք յուրաքանչյուր դեպք կարդում են իր սեփական տրամաբանությամբ, և տուգանում է շարժիչներին, որոնք վստահ ախտորոշման են հասնում այնտեղ, որտեղ նման ախտորոշում հիմնավորված չէ։.

Որպես բժիշկ Թոմաս Քլայն՝ ես ընտրեցի դեպքերի այս վահանակը, քանի որ դրանք այն օրինաչափություններն են, որոնք լաբորատոր-բժշկության օգնականները ամենից հաճախ սխալ են հասկանում։. Թանկարժեք ձախողման ձևը "հազվագյուտ հիվանդությունը բաց թողնելը" չէ․ դա սովորական ախտաբանություն «կերտելն» է այն հիվանդների մոտ, որոնց մոտ այն չկա։. Մեր Բժշկական վավերացում hub-ը նկարագրում է ավելի լայն շրջանակը. այս էջը նկարագրում է V11 սկզբնական proof-of-concept-ը և V11 Երկրորդ Թարմացումը, որը այն մասշտաբավորել է մինչև 100,000 սինթետիկ դեպք՝ վերցված սինթետիկ դեպքերի մի շարքից, որը ընդգրկում է 127 երկրի պիտակներ — օգտագործելով նույն գնահատման ռուբրիկը, բայթ-համարժեք, առանց հետհաշվարկային (post-hoc) կարգաբերման թույլտվության։.

Վերջին հղման գործարկում — V11 Երկրորդ Թարմացում (2026 թ. ապրիլի 26)

2026 թ. ապրիլի 26-ի V11 Երկրորդ Թարմացման հղման գործարկումը ստեղծեց կոմպոզիտային միավոր՝ 99.80% նույն նախապես գրանցված սանդղակի (rubric) հիման վրա, որն օգտագործվել էր V11 սկզբնական թողարկման ժամանակ, գնահատվել է 100,000 սինթետիկ դեպքեր վերցված են Kantesti սինթետիկ դեպքերի մի շարքից և ընդգրկում են 127 երկրի պիտակներ և 75+ լեզուներ։ Յուրաքանչյուր դեպք ավարտվեց շարժիչի առաջնային ուղու (primary path) վրա. trap-դեպքերի հիպերճանաչման (hyperdiagnosis) դրոշակի ակտիվացումները մնացին 0 / 87,412. ։ V11-ի սկզբնական գործարկումը՝ 2026 թ. ապրիլի 23-ին, ընդգրկում էր 15 ձեռքով ընտրված դեպք (կոմպոզիտ 99.12%) և վավերացրեց սանդղակը (rubric)․ Երկրորդ Թարմացումը պահպանում է այդ սանդղակը բայթ-համարժեք և ընդլայնում է գնահատումը մինչև բնակչական մասշտաբի կոհորտ։.

Կոմպոզիտ 99.80% 100,000-ից 100,000 դեպք գնահատվեց
1.000 Կառուցվածքային միավոր
0.996 Կլինիկական միավոր
13.26 վ Միջին ուշացում
0 / 87,412 Թակարդային կեղծ դրականներ

Կոմպոզիտային բանաձևը համադրում է երեք բաղադրիչ․ կառուցվածքային համապատասխանություն յոթ պարտադիր հաշվետվության բաժինների և տասնվեց պարտադիր ենթաբաժինների հետ, բովանդակության ճշգրտություն չափված որպես հիմնաբառերի հետկանչ + միավորային համակարգի հետկանչ + հավանականությունների բաշխման վավերականության ստուգում, և պատասխանի ուշացում առաջնային ուղու ծառայության մակարդակի թիրախի (service-level target) դեմ։ Ճշգրիտ տարաբաժանումը ներկայացված է ստորև բերված սանդղակի (rubric) բանաձևում — այս կշիռներից կամ ենթասանդղակներից ոչ մեկը չի փոխվել Երկրորդ Թարմացման համար։.

Կոմպոզիտ = 0.35 × Կառուցվածքային + 0.55 × Կլինիկական + 0.10 × Ուշացում

Մնացած 0.20 տոկոսային կետերի չափով «հաշվանցման» (headroom) մեծ մասը գրեթե ամբողջությամբ քայքայվում է կլինիկական ենթամիավորի մեջ — դեպքերի փոքր մասն (հիմնականում՝ Հեպատոլոգիայում և Ռևմատոլոգիայում) ուներ մեկ ակնկալվող գնահատման համակարգի հիմնաբառ, որը բացակայում էր շարժիչի մեկնաբանությունից, չնայած ախտորոշիչ բովանդակությունը ճիշտ էր։. 100,000-դեպքանոց Երկրորդ Թարմացման կոհորտում ոչ մի դեպք չի բաց թողել հենց ախտորոշումը։. Լատենտությունը բարելավվել է V11 սկզբնական թողարկման միջին 20.17 վ-ից մինչև 13.26 վ Երկրորդ Թարմացման ժամանակ՝ արտացոլելով արտադրական շարժիչի օպտիմիզացումները երկու գործարկումների միջև. սանդղակը (rubric), գնահատման կոդը և API-ի վերջնակետը (endpoint) անփոփոխ են։.

Պիտակ-առ-պիտակ կոմպոզիտային միավորները տատանվել են 0.9971-ից մինչև 0.9985՝ 30 ամենաբազմամարդ երկրի պիտակների համար։ 97 լրացուցիչ պիտակներից բաղկացած երկար պոչը (≈7,300 դեպք միասին) չի ցուցաբերել համակարգային վատթարացում։ Դեպքերի քանակով ամենահաճախ պիտակներն էին՝ Միացյալ Նահանգները (10,500), Բրազիլիան (9,500), Իսպանիան (9,000), Իտալիան (8,000), Գերմանիան (7,800), Ֆրանսիան (7,400), Պորտուգալիան (5,800), Türkiye-ն (3,400), Միացյալ Թագավորությունը (2,900) և Մեքսիկան (2,500)։.

15 դեպքից մինչև 100,000. կոհորտի էվոլյուցիա՝ 127 երկրի պիտակների շրջանակում

Սկզբնական V11 դեպքերի պանելն ընդգրկում էր յոթ մասնագիտություն՝ հեմատոլոգիա, էնդոկրինոլոգիա, նյութափոխանակային բժշկություն, հեպատոլոգիա, նեֆրոլոգիա, կարդիոլոգիա, ռևմատոլոգիա — ինչպես նաև երկու հատուկ հիպերճանաչման trap դեպք, ընդ որում յուրաքանչյուր դեպք սինթետիկ կերպով ստեղծված արյան անալիզների պանել էր։ V11 Երկրորդ Թարմացումը ընդլայնում է գնահատումը մինչև 100,000 սինթետիկ դեպք՝ 127 երկրի պիտակների շրջանակում, ՝ բաշխված ութ մասնագիտությունների միջև (սկզբնական յոթը գումարած ներքին բժշկության համար նախատեսված հատուկ «bucket»-ը, որը կլանում է trap ենթաբազմությունը)։ Նույն գնահատման սանդղակը (rubric) կիրառվում է բայթ-համարժեք երկու գործարկումների միջև։.

V11 նախնական դեպքերի պանելների դիզայն — տասնհինգ սինթետիկ արյան քննության դեպք՝ յոթ բժշկական մասնագիտությունների շրջանակում, գումարած երկու հիպերդիագնոզի «trap» դեպք. նույն ռուբրիկան հասել է 99.1TP40 կոմպոզիտային գնահատականի 100,000 դեպքերի վրա՝ V11 Երկրորդ թարմացման մեջ
Նկար 2: V11 սկզբնական դեպքերի-պանելի դիզայնը հեմատոլոգիայի, էնդոկրինոլոգիայի, նյութափոխանակային բժշկության, հեպատոլոգիայի, նեֆրոլոգիայի, սրտաբանության, ռևմատոլոգիայի շրջանակներում, գումարած երկու trap-դեպքերին — Գիլբերտի համախտանիշ և լիովին նորմալ սքրինինգ պանել։ Երկրորդ Թարմացումը պահպանում է այս սանդղակը (rubric) բայթ-համարժեք՝ միաժամանակ ընդլայնելով կոհորտը մինչև 100,000 դեպք, որոնք վերցված են Kantesti SQL ռեպոզիտորից։.

Քանի որ բոլոր դեպքերը սինթետիկ կերպով են ստեղծված, չկա իրական նույնացուցիչներ հեռացնելու և ներգրավված չէ անձնական տվյալ։ Յուրաքանչյուր սինթետիկ դեպք ունի բենչմարկի ներքին դեպքի կոդ (BT-NNN-LABEL՝ V11 սկզբնական փաթեթում, կայուն case_uid Երկրորդ Թարմացման մեջ)։ Հրապարակված հարթակում, տեխնիկական զեկույցում կամ թողարկված տվյալների հավաքածուներում անձնական տվյալ չի երևում։.

V11 սկզբնական թողարկման — 15 ձեռքով ընտրված դեպքեր

Վ11-ի սկզբնական դեպքերի վահանակը ձեռքով կազմվել է դոկտոր Թոմաս Քլայնի կողմից՝ կիրառելու ախտորոշիչ օրինաչափությունները, որոնք լաբորատոր-բժշկական օգնականները ամենից հաճախ սխալ են մեկնաբանում։ Տասնհինգ դեպքերից յուրաքանչյուրն ընտրվել է հատուկ ախտորոշիչ հատկանիշի համար, որոնք թվարկված են ստորև։.

Հեմատոլոգիա (3) BT-001, BT-006, BT-007 Երկաթի անբավարարության անեմիա · B12-ի անբավարարություն · Բետա-թալասեմիա մինոր
Էնդոկրինոլոգիա (3) BT-002, BT-008, BT-012 Հաշիմոտոյի թիրեոիդիտ · PCOS՝ ինսուլինային ռեզիստենտությամբ · D վիտամինի ծանր անբավարարություն
Նյութափոխանակություն (2) BT-003, BT-013 T2DM՝ նյութափոխանակային համախտանիշով · Հիպերուրիկեմիա՝ հոդատապի ռիսկով
Հեպատոլոգիա (2) BT-004, BT-009 NAFLD / NASH · Սուր վիրուսային հեպատիտ
Նեֆրոլոգիա · Սրտաբանություն · Ռևմատոլոգիա (3) BT-005, BT-010, BT-011 CKD 3-րդ փուլ · Աթերոգեն դիսլիպիդեմիա · Համակարգային կարմիր գայլախտ
Trap դեպքեր (2) BT-014, BT-015 Գիլբերտի համախտանիշ (մեկուսացված անուղղակի հիպերբիլիռուբինեմիա) · Լիովին նորմալ չափահաս սքրինինգ

Ինչո՞ւ է ընտրված հենց այս բաշխումը

Հեմատոլոգիան ստանում է երեք դեպք, քանի որ միկրոցիտային դիֆերենցիալների և մակրոցիտային դիֆերենցիալների թակարդները իրական լաբորատոր պրակտիկայում ամենաբարձր ծավալն ունեցողներն են։ Էնդոկրինոլոգիան ստանում է երեք դեպք, քանի որ Հաշիմոտոյի, PCOS-ի և D վիտամինի անբավարարության ներկայացումները տարբեր ախտորոշիչ ձևեր են առաջացնում (ինքնահակամարմիններով պայմանավորված, հորմոնների հարաբերակցությամբ պայմանավորված, մեկ մարկերով պայմանավորված)։ Միակ դեպքի մասնագիտությունները դեռևս իմաստալից են, քանի որ յուրաքանչյուր CKD-ի, ASCVD ռիսկի և SLE-ի համար ունի իր սեփական գնահատման համակարգը, որը շարժիչը պետք է կանչի (համապատասխանաբար՝ KDIGO փուլավորում, ASCVD 10-ամյա ռիսկ, 2019 EULAR/ACR SLE չափանիշներ)։.

V11 Երկրորդ Թարմացում — 100,000 սինթետիկ դեպք՝ 127 երկրի պիտակների շրջանակում

Երկրորդ Թարմացումը փոխարինում է սկզբնական V11-ի կոշտ կոդավորված 15-դեպք Python literal-ը ավելի մեծ, ծրագրային կերպով ստեղծված սինթետիկ դեպքերի մի շարքով։ Դեպքերի մի շարքը բեռնվում է յուրաքանչյուր գործարկման սկզբում, և կազմաձևումը գրանցվում է թափանցիկության համար։ Կոհորտի բաշխումը ըստ բովանդակային ոլորտների ներկայացված է ստորև։.

Էնդոկրինոլոգիա 23,900 դեպք (23.9%) Վահանագեղձ, PCOS, D վիտամին, գոնադալ առանցք, հիպոֆիզ
Մետաբոլիկ բժշկություն 21,900 դեպք (21.9%) T2DM, մետաբոլիկ համախտանիշ, լիպիդային վահանակներ, հիպերուրիկեմիա
Արյունաբանություն 15,400 դեպք (15.4%) Միկրոցիտային և մակրոցիտային տարբերակներ, B12/ֆոլաթ, երկաթի հետազոտություններ
Հեպատոլոգիա 12,400 դեպք (12.4%) NAFLD/NASH, վիրուսային հեպատիտ, FIB-4, խոլեստազ
Ներքին բժշկություն (ներառյալ trap ենթաբազմությունը) 9,000 դեպք (9.0%) Խառը դրսևորումներ և 8,723 հատուկ հիպերճանաչման trap դեպք
Կարդիոլոգիա 7,500 դեպք (7.5%) ASCVD ռիսկ, աթերոգեն դիսլիպիդեմիա, hs-CRP
Ռևմատոլոգիա 6,000 դեպք (6.0%) SLE, RA, վասկուլիտ, աուտոհակամարմինների վահանակներ (EULAR/ACR չափանիշներ)
Նեֆրոլոգիա 4,000 դեպք (4.0%) CKD փուլավորում (KDIGO), eGFR-ի միտումներ, էլեկտրոլիտային խանգարում

Սինթետիկ երկրի-պիտակի բաշխում — լավագույն 10 պիտակ

100,000 սինթետիկ դեպքերը կրում են 127 երկրի պիտակներ (ISO 3166-1 alpha-2)՝ տեղայնացման մշակումը ստուգելու համար։ Պիտակների հատկացում. Եվրոպա 57.7%, Ամերիկա 25.4%, Ասիա-Խաղաղօվկիանոս 6.2%, անվանված Մերձավոր Արևելք/Աֆրիկա պիտակներ 3.4%, և երկար պոչ՝ 97 լրացուցիչ պիտակներով՝ միասին մոտ 7.3%։ Դեպքերի քանակով տասը ամենահաճախ պիտակներն են՝ Միացյալ Նահանգները (10,500), Բրազիլիան (9,500), Իսպանիան (9,000), Իտալիան (8,000), Գերմանիան (7,800), Ֆրանսիան (7,400), Պորտուգալիան (5,800), Türkiye-ն (3,400), Միացյալ Թագավորությունը (2,900) և Մեքսիկան (2,500)։ Պիտակ-առ-պիտակ կոմպոզիտային միավորները տատանվել են 0.9971-ից մինչև 0.9985։ Պիտակների այս քանակները գեներացված դեպքերի հատկություններն են, որոնք օգտագործվում են տեղայնացման մշակումը ստուգելու համար — դրանք իրական օգտատերեր չեն և ոչ էլ իրական աշխարհագրական ծածկույթ։.

Նախապես գրանցված rubric-ը՝ բացատրված

Նախնական գրանցումը այս բենչմարկում մեթոդաբանական ամենակարևոր ընտրությունն է։ Յուրաքանչյուր սպասվող ախտորոշում, յուրաքանչյուր կլինիկական գնահատման համակարգ և յուրաքանչյուր հաշվետվության բաժին պարտավորվել է որպես սկզբնաղբյուրային կոդ նախքան շարժիչը կանչվելը. ։ Ուստի ռուբրիկի հետհաշվարկային (post-hoc) ճշգրտումը՝ շարժիչին «հարմարեցնելու» համար, անհնար է։.

Կոմպոզիտ միավորն կազմված է երեք բաղադրիչից։ կառուցվածքային բաղադրիչը կազմում է 35 տոկոս և չափում է՝ արդյոք շարժիչը վերադարձրել է յոթ պարտադիր հաշվետվական բաժինները (վերնագիր, ամփոփում, հիմնական հայտնագործություններ, դիֆերենցիալ, գնահատման համակարգեր, առաջարկություններ, հետագա քայլեր) և դրանց մեջ գտնվող տասնվեց պարտադիր ենթաբաժինները։ Բաժնի առկայությունը կշռում է 40 տոկոս, իսկ ենթաբաժնի առկայությունը՝ 60 տոկոս՝ կառուցվածքային հաշվարկի շրջանակում։.

Այն կլինիկական բաղադրիչը կազմում է 55 տոկոս և համադրում է երեք բան՝ ախտորոշում-բանալի բառերի հիշողություն (կլինիկական ենթամիավորի 70 տոկոսը), գնահատման համակարգի հիշողություն (20 տոկոս — արդյոք շարժիչը հաշվարկում է Mentzer-ը, FIB-4-ը, HOMA-IR-ը, ASCVD ռիսկը, KDIGO փուլավորումը, EULAR/ACR չափանիշները՝ համապատասխանության դեպքում), և հավանականությունների գումարի վավերականության ստուգում (10 տոկոս — դիֆերենցիալ հավանականությունները պետք է գումարվեն [90, 110] միջակայքում)։ Թակարդային դեպքերի համար հստակ հիպերճանաչման տուգանք մինչև 0.30 է հանվում՝ հաշվարկված որպես 0.10 յուրաքանչյուր հորինված պաթոլոգիայի դրոշակի համար, սահմանափակված մինչև երեք դրոշակ։.

Այն ուշացման (latency) բաղադրիչը կազմում է 10 տոկոս։ Պատասխանը 20 վայրկյանից պակաս՝ ստանում է ամբողջական 0.10, 40 վայրկյանից պակաս՝ 0.05, իսկ ցանկացած ավելի դանդաղ՝ զրո։ 20 վայրկյան թիրախը արտացոլում է արտադրական առաջնային primary-path ծառայության մակարդակի նպատակային ցուցանիշը; 40 վայրկյան շեմը արտացոլում է Phase 2-ի fallback բյուջեն՝ ծանր շարժիչ կանչերի համար։.

MIT-լիցենզավորված Kantesti բենչմարկի գործարկման և մեկ դեպքի համար միավորներ արտածելու վերջնական սքրինշոթ — նույն գործիքը, որն այժմ SQL-ով է ղեկավարվում, տվել է 99.80% կոմպոզիտ միավորը V11 Երկրորդ Թարմացման 100,000-դեպք գործարկման ժամանակ
Նկար 3: Գործարկման հարթակը — նույն շարժիչը, որը ստեղծեց 99.80% կոմպոզիտային միավորը V11 Երկրորդ Թարմացում 100,000-դեպք կոհորտում։ Յուրաքանչյուր դեպք մատուցվում է որպես A4 PDF, տեղադրվում է արտադրական v11 վերջնակետում և գնահատվում է սառեցված ռուբրիկի համաձայն։ Երկրորդ Թարմացումը ավելացրեց պարամետրացված SQL դեպքերի բեռնիչ; հարթեցված պատահական նմուշը շարժիչի հում պատասխաններից (n = 201) պահպանվում է ագրեգացված գնահատականների աղյուսակի կողքին։.

Ինչը կանխում է նախնական գրանցումը

Առաջին կողմի (first-party) բենչմարկները հայտնի են իրենց սեփական թվերը հետհաշվարկային (post-hoc) ռուբրիկի ճշգրտման միջոցով ուռճացնելու սովորությամբ։ Կաղապարը գրեթե միշտ նույնն է. թիմը գործարկում է շարժիչը, տեսնում է, թե որտեղ է թերակատարում, ապա հանգիստ ճշգրտում է ռուբրիկը, որպեսզի թերակատարող ոլորտները ավելի քիչ հաշվվեն։ Ռուբրիկը սկզբնաղբյուրային կոդում ամրագրելով՝ մինչև առաջին շարժիչի կանչը, և հարմարանքը հրապարակելով MIT լիցենզիայով, այդ ճշգրտումը դառնում է տեսանելի տարբերակների կառավարման մեջ։ Յուրաքանչյուրը կարող է կրկնօրինակել ռեպոզիտորիան, ստուգել ռուբրիկի հեղինակների ամսաթվերը և հավաստել, որ շարժիչի արդյունքները չեն օգտագործվել գնահատման ձևավորելու համար։.

Հիպերդիագնոստիկացման թակարդների դեպքեր — ինչու «չափից շատ կանչելը» իրական ձախողման ռեժիմն է

Պաթոլոգիայի ագրեսիվ գերագնահատումը նորմալ էկրանների վրա՝ սպառողական ուղղվածությամբ բժշկական օգնականների փաստագրված ձախողման ռեժիմ է։ Դրա ներքևի ծախսերը ներառում են անհարկի հետազոտություն, հիվանդի անհանգստություն և իատրոգեն հետազոտական աշխատանք։ Այս բենչմարկի երկու թակարդային դեպքերը նախագծված են այդ ձախողման ռեժիմը տեսանելի և գնահատելի դարձնելու համար։.

Դեպք առ դեպք համեմատություն՝ ինչպես պարզունակ AI-ն հեպատիտ է «կեղծում» Գիլբերտի համախտանիշի պանելում, ընդդեմ Kantesti շարժիչի, որը ճիշտ է հայտնաբերում բարորակ UGT1A1 պոլիմորֆիզմը — մեթոդաբանություն, որը մասշտաբավորվել է մինչև զրո կեղծ-դրականներ՝ 87,412 թակարդ-դրոշակման հնարավորությունների վրա V11 Երկրորդ Թարմացման 99.80% բենչմարկում
Նկար 4: V11 սկզբնական թողարկման «թակարդ-դեպքերի» դիզայնը — շարժիչ, որը վստահորեն պիտակավորում է Գիլբերտի համախտանիշը որպես հեպատիտ, կամ որը արտադրում է սահմանային պաթոլոգիա լիովին նորմալ էկրանի վրա, պատժվում է, այլ ոչ թե պարգևատրվում՝ կլինիկական հնչելու համար։ Այս մեթոդաբանությունը մասշտաբվեց 0 / 87,412 կեղծ դրականների վրա V11 Երկրորդ Թարմացում 100,000-դեպք գործարկման ընթացքում, որը ստեղծեց 99.80% կոմպոզիտային միավորը։.

🟡 Թակարդ 1 — BT-014-GILBERT

Ներկայացում։. 24-ամյա տղամարդ՝ ընդհանուր բիլիռուբինով 2.4 մգ/դլ։ Ուղիղ ֆրակցիան նորմալ է, տրանսամինազները և ալկալային ֆոսֆատազը գտնվում են իրենց հղման միջակայքերում, ռետիկուլոցիտները՝ աննկատ, իսկ հապտոգլոբինը և LDH-ը բացառում են հեմոլիզը։.

Ճիշտ մեկնաբանություն։. Գիլբերտի համախտանիշ — UGT1A1-ի բարորակ պոլիմորֆիզմ։ Մեկնաբանությունը չպետք է ներառի հեպատիտ, ցիռոզ, հեմոլիտիկ անեմիա կամ բիլյարային խցանում։.

V11 արդյունք։. Կոմպոզիտ 1.000։ Վեց վերահսկվող գերախտորոշման (over-diagnosis) դրոշակներից ոչ մեկը չի հայտնվել որպես ակտիվ ախտորոշում։.

🟡 Թակարդ 2 — BT-015-HEALTHY

Ներկայացում։. 35-ամյա կին՝ տասնհինգ պարամետր ունեցող սովորական սքրինինգ վահանակով։ Յուրաքանչյուր անալիտ հարմարավետորեն գտնվում է իր հղման միջակայքում։.

Ճիշտ մեկնաբանություն։. Հանգստացնողություն և կենսակերպի պահպանում։ Մեկնաբանությունը չպետք է ստեղծի սահմանային պաթոլոգիա՝ կլինիկապես օգտակար հնչելու համար։.

V11 արդյունք։. Կոմպոզիտ 1.000։ Չորսից յոթ վերահսկվող գերհայտնաբերման ազդանշաններից ոչ մեկը՝ շաքարախտ, անեմիա, հիպոթիրեոզ, դիսլիպիդեմիա, հեպատիտ, երիկամային հիվանդություն, անբավարարություն, չի հայտնվել որպես ակտիվ ախտորոշում։.

Երկու թակարդներում էլ ստուգվել են տասներեք վերահսկվող գերհայտնաբերման ազդանշաններ։ Ոչ մեկը չի ակտիվացվել։ Սա է այն արդյունքը, որն ամենակարևորն է ցանկացած կլինիկոսի համար, ով մտածում է AI շարժիչն օգտագործել որպես տրիաժի կամ նախախորհրդատվական գործիք. համակարգը չի հորինել հիվանդություն, եթե այն գոյություն չի ունեցել.

Մենցերի ինդեքս՝ երկաթի անբավարարությունը թալասեմիայի հատկանիշից տարանջատելու համար

Երկրորդ բարձրարժեք հայտնագործությունը վերաբերում է գործ BT-001-ի (երկաթի անբավարարության անեմիա) և գործ BT-007-ի (բետա-թալասեմիա մինոր) զուգակցմանը։ Երկուսն էլ դրսևորում են միկրոցիտոզ և հայտնի խոչընդոտ են սկսնակ դասակարգիչների համար։ Մենցերի ինդեքսը, որը հաշվարկվում է որպես MCV՝ բաժանած RBC քանակի վրա, երկաթի անբավարարության դեպքում գերազանցում է 13-ը, իսկ թալասեմիայի հատկանիշի դեպքում ընկնում է 13-ից ցածր։.

BT-001-ում հիվանդը 34-ամյա կին էր՝ հեմոգլոբին 10.4 գ/դլ, MCV 72.4 ֆլ, RBC 4.1 × 10¹²/լ, ֆերիտին 6 նգ/մլ և բարձրացված TIBC։ Մոտավորապես 17.7 մենցերի ինդեքսը հաստատում է երկաթի բացարձակ անբավարարությունը։ BT-007-ում հիվանդը 28-ամյա տղամարդ էր՝ միկրոցիտոզով (MCV 65.8 ֆլ), սակայն RBC-ի բարձր քանակով՝ 6.2, նորմալ RDW, նորմալ ֆերիտին և HbA2՝ 5.6 տոկոս։ Մոտավորապես 10.6 մենցերի ինդեքսը ցույց է տալիս թալասեմիայի հատկանիշ, իսկ բարձրացված HbA2-ը հաստատում է բետա-թալասեմիա մինորը։.

Երկաթի անբավարարության անեմիա Մենցեր > 13 Ցածր ֆերիտին, ցածր TSAT, բարձր TIBC, բարձրացված RDW
Թալասեմիայի հատկանիշ (բետա-թալասեմիա) Մենցեր < 13 Նորմալ ֆերիտին, նորմալ RDW, բարձրացված HbA2 (>3.5%), RBC-ի բարձր քանակ

Երկու դեպքերն էլ ստացել են 1.000 միավոր։ Շարժիչը մենցերի ինդեքսը հստակորեն կիրառել է երկու մեկնաբանություններում էլ և յուրաքանչյուր դեպքում վերադարձրել է ճիշտ ախտորոշումը։. Սա ամբողջ բենչմարկի ամենաառաջատար կլինիկորեն հանգստացնող արդյունքն է, քանի որ թալասեմիայի հատկանիշը երկաթի անբավարարության հետ սխալ դասակարգելը հանգեցնում է ոչ պատշաճ երկաթի հավելումների և բաց թողնված ընտանեկան սկրինինգի հնարավորությունների, իսկ երկաթի անբավարարությունը թալասեմիայի հետ սխալ դասակարգելը հետաձգում է պարզ փոխարինող բուժումը։ Մեր ֆերիտինի միջակայքի ուղեցույցը բացատրում է ավելի լայն դիֆերենցիալ համատեքստը։.

Դեպք առ դեպք արդյունքներ V11 սկզբնական հղման գործարկումից (2026 թ. ապրիլի 23)

Վ11-ի բնօրինակ հղման գործարկումը 15-դեպք ապացուցման-հայեցակարգ կոհորտում ծառայում է որպես մեթոդաբանական հիմք Երկրորդ Թարմացման համար. ստորև յուրաքանչյուր դեպքի մանրամասնությունը ցույց է տալիս, թե ինչպես է ռուբրիկը մշակում իրական շարժիչի պատասխանը։ Տասներկու դեպք տասնհինգից հասավ առաջնային ուղու վրա կոմպոզիտային միավորի առաստաղին՝ 1.000; երեք դեպք սպասարկվեց 2-րդ փուլի հետադարձ տարբերակով՝ կորցնելով 0.05 ուշացման բոնուսը՝ միաժամանակ պահպանելով ամբողջ կլինիկական և կառուցվածքային բովանդակությունը։ Մեկ դեպք բացակայում էր մեկ պարտադիր ենթաբաժին. մեկը վերադարձրեց հավանականությունների բաշխման գումարի՝ միայն փոքր-ինչ նվազեցված տարբերակ։.

Դեպքի ID Մասնագիտություն Կոմպոզիտ Լատենտություն Ուղի
BT-001-IDAԱրյունաբանություն1.00017.8 վրկprimary
BT-006-B12Արյունաբանություն1.00018.4 վprimary
BT-007-ԹալասեմիաԱրյունաբանություն1.00017.0 վprimary
BT-002-ՀաշիմոտոԷնդոկրինոլոգիա0.95037.0 վհետադարձ տարբերակ
BT-008-PCOSԷնդոկրինոլոգիա0.98718.6 վprimary
BT-003-2-րդ տիպի շաքարախտնյութափոխանակություն1.00019.1 վprimary
BT-013-Պոդագրանյութափոխանակություն1.00019.4 վprimary
BT-004-Ոչ ալկոհոլային ճարպային լյարդՀեպատոլոգիա1.00019.6 վprimary
BT-009-Վիրուսային հեպատիտՀեպատոլոգիա0.95023.4 վհետադարձ տարբերակ
BT-014-Գիլբերտի համախտանիշԹակարդ1.00018.9 վprimary
BT-005-Քրոնիկ երիկամային անբավարարությունՆեֆրոլոգիա1.00017.4 վprimary
BT-010-ԱՍՎԴԿարդիոլոգիա1.00019.7 վprimary
BT-011-SLEՌևմատոլոգիա0.98118.2 վprimary
BT-012-VITDԷնդոկրինոլոգիա1.00019.3 վprimary
BT-015-HEALTHYԹակարդ1.00018.7 վհետադարձ տարբերակ

PCOS-ի դեպքը (BT-008) պատասխանների կառուցվածքում կորցրել է մեկ պարտադիր ենթաբաժին՝ տասնվեցից տասնհինգ փոխարեն՝ ինչը կառուցվածքային միավորը նվազեցրել է 1.000-ից մինչև 0.963։ SLE-ի դեպքը (BT-011) վերադարձրել է սահմանային կերպով նվազած հավանականությունների բաշխման գումար, որը կլինիկական միավորը իջեցրել է մինչև 0.965՝ պահպանելով բոլոր ախտորոշիչ հիմնաբառերը և գնահատման համակարգը։ Ոչ մի ենթա-կատարյալ դեպք չի բաց թողել ճիշտ ախտորոշումը։.

V11 Երկրորդ Թարմացման ագրեգատ — 100,000 դեպք

Բնակչական մասշտաբով անհատական դեպքերի տողերը մարդկայնորեն ընթեռնելի չեն, ուստի Երկրորդ Թարմացումը ներկայացնում է համախառն չափորոշիչներ՝ 100,000-տող աղյուսակի փոխարեն։ Գլխավոր համախառն արդյունքը ներկայացված է ստորև. մասնագիտությունների և երկրի-պիտակների մանրամասները հրապարակվում են տեխնիկական զեկույցում և Figshare-ի պահոցում։ Շերտավորված պատահական նմուշը n = 201 շարժիչի հում պատասխանների (որոշիչ սերմ 20260426) հրապարակվում է GitHub-ի results/ գրացուցակում՝ ստուգման համար։.

Կոմպոզիտային միավոր V11 սկզբնական՝ 0.9912 (99.12%) → Երկրորդ Թարմացում՝ 0.9980 (99.80%) Δ = +0.0068 100,000-դեպք կոհորտի ընթացքում
Կառուցվածքային միավոր (միջին) V11 սկզբնական՝ 0.998 → Երկրորդ Թարմացում՝ 1.000 Կատարյալ կառուցվածքային համապատասխանություն բնակչական մասշտաբով
Կլինիկական միավոր (միջին) V11 սկզբնական՝ 0.998 → Երկրորդ Թարմացում՝ 0.996 −0.002; ոչ մի դեպք չի բաց թողել հենց ախտորոշումը
Լատենտություն — միջին (տիրույթ) V11 սկզբնական՝ 20.17 վրկ (17.0–37.0 վրկ) → Երկրորդ թարմացում․ 13.26 վրկ (9.0–16.94 վրկ) Շարունակական գործարկումների միջև՝ շարժիչի օպտիմիզացումներ
Շարժիչի ուղին = առաջնային V11 սկզբնական՝ 12 / 15 → Երկրորդ թարմացում․ 100,000 / 100,000 Ոչ մի պահի ընթացքում չի պահանջվել Phase 2-ի հետադարձ տարբերակ
Թակարդ-ենթաբազմության հիպերդիագնոստիկացման դրոշակներ V11 սկզբնական՝ 0 / 13 → Երկրորդ թարմացում․ 0 / 87,412 Բնակչական մասշտաբով զրոյական կեղծ դրականներ (8,723 թակարդային դեպք՝ վերահսկված)

Ինչը չի բացահայտում վերնագրային գնահատականը

99.80 տոկոսի կոմպոզիտային միավոր՝ այս կոնկրետ նախապես գրանցված ռուբրիկի ներքո, 100,000-դեպք սինթետիկ կոհորտի վրա՝ ընդգրկելով 127 երկրի պիտակներ, ներկայացնում է գրեթե առաստաղային կատարում — բայց այն արժանի է զգույշ ձևակերպման։ Արդյունքը նկարագրում է շարժիչի վարքագիծը այն ռուբրիկի նկատմամբ, որը մենք պարտավորվել էինք ներառել V11-ի սկզբնաղբյուրի կոդում. սա համընդհանուր պնդում չէ շարժիչի ճիշտ լինելու մասին յուրաքանչյուր արյան անալիզների պանելի համար, որը գոյություն ունի իրական աշխարհում։.

Միավորը ասում է, որ շարժիչը ճիշտ է մշակել այս գնահատման համար ընտրված դիագնոստիկ օրինաչափությունները՝ բնակչական մասշտաբով կոհորտում, հրապարակված և վերարտադրելի մեթոդաբանությամբ։ Այն չի ասում, որ շարժիչը ճիշտ է յուրաքանչյուր արյան անալիզի վահանակի համար, որը գոյություն ունի իրական աշխարհում։ Այն չի ասում, որ շարժիչը պետք է փոխարինի կլինիկական դատողությանը։ Եվ այն չի ասում, որ շարժիչը գերազանցում է այլ AI համակարգերին — այլ շարժիչների նկատմամբ համեմատական վերլուծությունները դիտավորյալ դուրս են եղել սույն զեկույցի շրջանակից։.

Այն, ինչ միավորն իրականում հաստատում է, հիմքային չափանիշն է։ Քանի որ չափանիշն ու գործարկման միջավայրը հրապարակային են, շարժիչի ապագա տարբերակները կարող են գնահատվել նույն չափանիշով — կիրառվելով V11 սկզբնական 15 դեպքերի, Երկրորդ թարմացման 100,000 դեպք պարունակող կոհորտի կամ ցանկացած հետագա ընդլայնման վրա — և հրապարակված միավորի ու ցանկացած հետագա գործարկման միջև բացը ինքնին չափելի է։ Սա է նախնական գրանցման արժեքը․ այն կատարողականի պնդումները վերածում է ստուգելի պնդումների.

Ինչպես վերարտադրել այս բենչմարքը 10 րոպեում

Վերարտադրության համար անհրաժեշտ է միայն Kantesti API-ի հավատարմագրերի զույգ և Python 3.10 կամ ավելի ուշ միջավայր՝ հետևյալով requests և reportlab գրադարանները տեղադրված։ Ամբողջ գործարկման միջավայրը մեկ ինքնաբավ Python մոդուլ է՝ թողարկված MIT լիցենզիայով։.

Վերարտադրելիության ցանցային դիագրամ, որը ցույց է տալիս V11 Երկրորդ Թարմացման բենչմարկը (99.80% կոմպոզիտ, 100,000 դեպքեր, 127 երկրի պիտակներ)՝ արտացոլված Figshare-ում, ResearchGate-ում, Academia.edu-ում և GitHub-ում՝ Figshare DOI-ն որպես կանոնական հենակետ
Նկար 5: V11 Երկրորդ թարմացման բենչմարկը — 99.80% կոմպոզիտային միավոր՝ 100,000 դեպքերի վրա՝ 127 երկրի պիտակների շրջանակում — արտացոլվում է չորս հետազոտական հարթակներում։ Figshare DOI-ն գիտականության համար կանոնական նույնացուցիչն է. ResearchGate (հրապարակում 404175463), Academia.edu (աշխատանք 165956808) և GitHub-ը տեղադրում են զուգահեռ պատճեններ՝ բենչմարկի հարթակով, հում պատասխանների շերտավորված պատահական նմուշով և պիտակ-առ-պիտակ/մասնագիտություն-առ-մասնագիտություն գնահատման քարտերով։.

Թարմ գործարկման չորս քայլ

Մեկ. Կլոնավորել ռեպոզիտորին՝ git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Երկու. Տեղադրեք կախվածությունները՝ pip install -r requirements.txt (Երկրորդ թարմացումը ավելացնում է mysql-connector-python ≥ 8.0 SQL գործ բեռնողի համար)։. Երեք։. Սահմանեք KANTESTI_USERNAME և KANTESTI_PASSWORD որպես միջավայրի փոփոխականներ՝ շարժիչի API-ի համար։ Երկրորդ թարմացման SQL գործ բեռնողի համար նաև սահմանեք KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, և KANTESTI_DB_PASSWORD — բեռնիչը միանում է միայն կարդալու դերակատարության միջոցով (bench_reader) որը չունի արտոնություններ՝ նույնականացնող աղյուսակների վերաբերյալ։. Չորս։. Գործարկեք python benchmark_bloodtest.py --limit 100000 ամբողջ Second-Update գործարկման համար, կամ python benchmark_bloodtest.py --limit 1000 արագ կրկնության համար։ Արդյունքները տեղադրվում են ./benchmark_results/: CSV գնահատման քարտ՝ պիտակ-առ-պիտակ և մասնագիտություն-առ-մասնագիտություն սյունակներով, JSON համախառն, շերտավորված-պատահական հում-պատասխանների նմուշ և Markdown զեկույց։.

Հղման գործարկումները պահպանված են 23 ապրիլի 2026-ից (V11 սկզբնական, 15 դեպք) և 26 ապրիլի 2026-ից (V11 Second Update, 100,000 դեպք)՝ պահոցում։ Թարմ գործարկումը կստեղծի նոր ժամանակակնիքով գնահատականային քարտ՝ հղման գործարկումները չփոխելով։ Եթե ձեր գործարկումը տալիս է էականորեն տարբեր արդյունք, խնդրում ենք բացել GitHub issue՝ գործարկման ժամանակակնիքով և պատասխանների մետատվյալներում վերադարձված շարժիչի տարբերակով։ results/ directory of the repository. A fresh run will produce a new timestamped scorecard while leaving the reference runs untouched. If your run produces a meaningfully different result, please open a GitHub issue with the run timestamp and the engine version returned in the response metadata.

Սահմանափակումներ և ապագա աշխատանք

Նույնիսկ 100,000 դեպքերի և 127 երկրի պիտակների շրջանակում՝ չորս սահմանափակումներ արժանի են հստակ ճանաչման. երկար պոչի պիտակների թերի նմուշառում, մեկանգամյա գնահատում, մեկ շարժիչի շրջանակ, և մեկ աղբյուրի տվյալների ծագում։ Դրանցից յուրաքանչյուրը հասցեագրվում է ակտիվ հետագա աշխատանքում։.

Երկար պոչի պիտակների ծածկույթ։. Երկրորդ Թարմացումը ընդգրկում է 127 երկրի պիտակ, սակայն բաշխումը անհավասարակշիռ է — լավագույն 10 պիտակները կազմում են ≈66.4% դեպքերը, իսկ 97 լրացուցիչ պիտակներից բաղկացած երկար պոչը միասին նպաստում է ≈7.3%-ին (մոտ 7,300 դեպք միասին, միջինը ~75 դեպք մեկ պիտակի համար)։ Ուստի այս երկար պոչում պիտակ-առ-պիտակ կոմպոզիտները ավելի աղմկոտ են, քան ենթադրում են գլխավոր ցուցանիշները։ Ապագա գործարկումները կվերաբաշխեն պիտակների հատկացումը՝ պիտակ-առ-պիտակ գնահատականները ամրացնելու համար։.

Մեկանգամյա գնահատում։. Կոհորտի յուրաքանչյուր դեպք գնահատվել է մեկ անգամ։ Խոշոր լեզվական մոդելները ցուցաբերում են ոչ տրիվիալ ելքային տատանումներ նույնիսկ ցածր նմուշառման ջերմաստիճանի դեպքում, ուստի բազմակի գործարկման պրոտոկոլը՝ յուրաքանչյուր դեպքի համար հինգ գնահատումով և ներկայացված տատանումով, բնական հաջորդ քայլ է՝ հատկապես trap-case ենթաբազմության վրա, որտեղ նմուշառման «ցնցումների» պայմաններում կայունությունը հանդիսանում է անվտանգության պնդման մաս։.

Մեկ շարժիչի շրջանակ։. Այս հաշվետվությունը բնութագրում է մեկ շարժիչ։ Համեմատական վերլուծությունները այլ AI համակարգերի նկատմամբ այստեղ դուրս են այս շրջանակից. մենք կարող ենք դրանք հետապնդել որպես առանձին անկախ ուսումնասիրություն՝ համապատասխան մեթոդաբանությամբ, նույն MIT-լիցենզավորված հարմարանքով (harness)։.

Սինթետիկ տվյալ։. 100,000 դեպքերը սինթետիկ կերպով են ստեղծված, ոչ թե սինթետիկ դեպքեր, և արդյունքները չեն փոխանցվում իրական աշխարհի կլինիկական կատարողականին։ Իրական, համաձայնեցված և արտաքին աղբյուրից ստացված տվյալների վրա գնահատումը կպահանջեր համապատասխան էթիկական վերահսկողություն և դուրս է այս սինթետիկ բենչմարկի շրջանակից։.

Այս չորսից բացի, ամենաազդեցիկ նախատեսված ընդլայնումը յուրաքանչյուր իրավասության համար բազմալեզու համարժեքությունն է։ Kantesti AI Engine-ը սպասարկում է օգտատերերի 75+ լեզուներով, և գործարկելով լեզվով շերտավորված Second-Update ենթակոհորտերը (թուրքերեն, գերմաներեն, իսպաներեն, ֆրանսերեն, իտալերեն, պորտուգալերեն, արաբերեն, մանդարին)՝ կքանակականացվի ելքային որակը շարժիչի աջակցվող լեզուների շրջանակում։ Յուրաքանչյուր լեզվով շերտավորված վերլուծություն կհրապարակվի իր սեփական DOI-ով և harness մասնաճյուղով։.