Ինչու գոյություն ունի այս բենչմարկը և ինչ է այն ստուգում
AI-ի օգնությամբ արյան անալիզի մեկնաբանությունն ավելի ու ավելի հաճախ է կիրառվում ինչպես սպառողական, այնպես էլ կլինիկական աշխատանքային հոսքերում, սակայն լաբորատոր բժշկությանը հարմարեցված՝ վերարտադրելի գնահատման շրջանակներ դեռևս հազվադեպ են։ Այս միջավայրում ամենակարևոր հարցերը չեն այն հարցերը, որոնք ընդգրկված են ընդհանուր բժշկական հարց-պատասխան բենչմարքներում. արդյոք շարժիչը կարողանում է տարբերակել երկաթի անբավարարությունը թալասեմիայի հատկանիշից, երբ միջին կորպուսկուլյար ծավալը նույնն է, արդյոք այն գերախտորոշում է Գիլբերտի համախտանիշը որպես հեպատիտ, և արդյոք այն ստեղծում է պաթոլոգիա լիովին նորմալ սքրինինգային վահանակում։
Արյան մեկ անալիզների վահանակը սովորաբար պարունակում է այնքան ազդանշան, որ կարող է աջակցել մի քանի մրցակցող մեկնաբանությունների, և մեկնաբանող բժիշկ-մասնագետի գործն է այդ մեկնաբանությունները կշռադատել միմյանց նկատմամբ՝ այլ ոչ թե տեքստբուքային «ճիշտ պատասխանը» վերականգնել։ Այն շարժիչը, որը լավ է աշխատում տեքստբուքային դեպքերում, կարող է ձախողվել ամենակարևոր դեպքերում՝ դիֆերենցիալ ախտորոշման թակարդներում, անվնաս տարբերակներում, որոնք միայնակ դիտելիս տագնապալի են թվում, և լիովին նորմալ վահանակներում, որոնք վստահ օգնականներին մղում են «ախտաբանություն արտադրելու»։.
Այս բենչմարկը կառուցվել է հենց այդ ձախողման ձևերի շուրջ։ Տասնհինգ դեպքերից յուրաքանչյուրն ընտրվել է որոշակի ախտորոշիչ հատկության համար՝ երկաթի պակասով միկրոցիտոզ, որը պետք է հստակ տարանջատվի նույն միջին կորպուսկուլյար ծավալով բետա-թալասեմիայի հատկանիշից, Գիլբերտի համախտանիշի դրսևորում, որտեղ միակ շեղումը մեկուսացված անուղղակի հիպերբիլիռուբինեմիան է, և տասնհինգ պարամետրով սքրինինգային վահանակ, որտեղ յուրաքանչյուր անալիտ գտնվում է իր հղման միջակայքում։ Ռուբրիկը պարգևատրում է շարժիչներին, որոնք յուրաքանչյուր դեպք կարդում են իր սեփական տրամաբանությամբ, և տուգանում է շարժիչներին, որոնք վստահ ախտորոշման են հասնում այնտեղ, որտեղ նման ախտորոշում հիմնավորված չէ։.
Որպես բժիշկ Թոմաս Քլայն՝ ես ընտրեցի դեպքերի այս վահանակը, քանի որ դրանք այն օրինաչափություններն են, որոնք լաբորատոր-բժշկության օգնականները ամենից հաճախ սխալ են հասկանում։. Թանկարժեք ձախողման ձևը "հազվագյուտ հիվանդությունը բաց թողնելը" չէ․ դա սովորական ախտաբանություն «կերտելն» է այն հիվանդների մոտ, որոնց մոտ այն չկա։. Մեր Բժշկական վավերացում hub-ը նկարագրում է ավելի լայն շրջանակը. այս էջը նկարագրում է V11 սկզբնական proof-of-concept-ը և V11 Երկրորդ Թարմացումը, որը այն մասշտաբավորել է մինչև 100,000 սինթետիկ դեպք՝ վերցված սինթետիկ դեպքերի մի շարքից, որը ընդգրկում է 127 երկրի պիտակներ — օգտագործելով նույն գնահատման ռուբրիկը, բայթ-համարժեք, առանց հետհաշվարկային (post-hoc) կարգաբերման թույլտվության։.
Վերջին հղման գործարկում — V11 Երկրորդ Թարմացում (2026 թ. ապրիլի 26)
2026 թ. ապրիլի 26-ի V11 Երկրորդ Թարմացման հղման գործարկումը ստեղծեց կոմպոզիտային միավոր՝ 99.80% նույն նախապես գրանցված սանդղակի (rubric) հիման վրա, որն օգտագործվել էր V11 սկզբնական թողարկման ժամանակ, գնահատվել է 100,000 սինթետիկ դեպքեր վերցված են Kantesti սինթետիկ դեպքերի մի շարքից և ընդգրկում են 127 երկրի պիտակներ և 75+ լեզուներ։ Յուրաքանչյուր դեպք ավարտվեց շարժիչի առաջնային ուղու (primary path) վրա. trap-դեպքերի հիպերճանաչման (hyperdiagnosis) դրոշակի ակտիվացումները մնացին 0 / 87,412. ։ V11-ի սկզբնական գործարկումը՝ 2026 թ. ապրիլի 23-ին, ընդգրկում էր 15 ձեռքով ընտրված դեպք (կոմպոզիտ 99.12%) և վավերացրեց սանդղակը (rubric)․ Երկրորդ Թարմացումը պահպանում է այդ սանդղակը բայթ-համարժեք և ընդլայնում է գնահատումը մինչև բնակչական մասշտաբի կոհորտ։.
Կոմպոզիտային բանաձևը համադրում է երեք բաղադրիչ․ կառուցվածքային համապատասխանություն յոթ պարտադիր հաշվետվության բաժինների և տասնվեց պարտադիր ենթաբաժինների հետ, բովանդակության ճշգրտություն չափված որպես հիմնաբառերի հետկանչ + միավորային համակարգի հետկանչ + հավանականությունների բաշխման վավերականության ստուգում, և պատասխանի ուշացում առաջնային ուղու ծառայության մակարդակի թիրախի (service-level target) դեմ։ Ճշգրիտ տարաբաժանումը ներկայացված է ստորև բերված սանդղակի (rubric) բանաձևում — այս կշիռներից կամ ենթասանդղակներից ոչ մեկը չի փոխվել Երկրորդ Թարմացման համար։.
Մնացած 0.20 տոկոսային կետերի չափով «հաշվանցման» (headroom) մեծ մասը գրեթե ամբողջությամբ քայքայվում է կլինիկական ենթամիավորի մեջ — դեպքերի փոքր մասն (հիմնականում՝ Հեպատոլոգիայում և Ռևմատոլոգիայում) ուներ մեկ ակնկալվող գնահատման համակարգի հիմնաբառ, որը բացակայում էր շարժիչի մեկնաբանությունից, չնայած ախտորոշիչ բովանդակությունը ճիշտ էր։. 100,000-դեպքանոց Երկրորդ Թարմացման կոհորտում ոչ մի դեպք չի բաց թողել հենց ախտորոշումը։. Լատենտությունը բարելավվել է V11 սկզբնական թողարկման միջին 20.17 վ-ից մինչև 13.26 վ Երկրորդ Թարմացման ժամանակ՝ արտացոլելով արտադրական շարժիչի օպտիմիզացումները երկու գործարկումների միջև. սանդղակը (rubric), գնահատման կոդը և API-ի վերջնակետը (endpoint) անփոփոխ են։.
Պիտակ-առ-պիտակ կոմպոզիտային միավորները տատանվել են 0.9971-ից մինչև 0.9985՝ 30 ամենաբազմամարդ երկրի պիտակների համար։ 97 լրացուցիչ պիտակներից բաղկացած երկար պոչը (≈7,300 դեպք միասին) չի ցուցաբերել համակարգային վատթարացում։ Դեպքերի քանակով ամենահաճախ պիտակներն էին՝ Միացյալ Նահանգները (10,500), Բրազիլիան (9,500), Իսպանիան (9,000), Իտալիան (8,000), Գերմանիան (7,800), Ֆրանսիան (7,400), Պորտուգալիան (5,800), Türkiye-ն (3,400), Միացյալ Թագավորությունը (2,900) և Մեքսիկան (2,500)։.
15 դեպքից մինչև 100,000. կոհորտի էվոլյուցիա՝ 127 երկրի պիտակների շրջանակում
Սկզբնական V11 դեպքերի պանելն ընդգրկում էր յոթ մասնագիտություն՝ հեմատոլոգիա, էնդոկրինոլոգիա, նյութափոխանակային բժշկություն, հեպատոլոգիա, նեֆրոլոգիա, կարդիոլոգիա, ռևմատոլոգիա — ինչպես նաև երկու հատուկ հիպերճանաչման trap դեպք, ընդ որում յուրաքանչյուր դեպք սինթետիկ կերպով ստեղծված արյան անալիզների պանել էր։ V11 Երկրորդ Թարմացումը ընդլայնում է գնահատումը մինչև 100,000 սինթետիկ դեպք՝ 127 երկրի պիտակների շրջանակում, ՝ բաշխված ութ մասնագիտությունների միջև (սկզբնական յոթը գումարած ներքին բժշկության համար նախատեսված հատուկ «bucket»-ը, որը կլանում է trap ենթաբազմությունը)։ Նույն գնահատման սանդղակը (rubric) կիրառվում է բայթ-համարժեք երկու գործարկումների միջև։.
Քանի որ բոլոր դեպքերը սինթետիկ կերպով են ստեղծված, չկա իրական նույնացուցիչներ հեռացնելու և ներգրավված չէ անձնական տվյալ։ Յուրաքանչյուր սինթետիկ դեպք ունի բենչմարկի ներքին դեպքի կոդ (BT-NNN-LABEL՝ V11 սկզբնական փաթեթում, կայուն case_uid Երկրորդ Թարմացման մեջ)։ Հրապարակված հարթակում, տեխնիկական զեկույցում կամ թողարկված տվյալների հավաքածուներում անձնական տվյալ չի երևում։.
V11 սկզբնական թողարկման — 15 ձեռքով ընտրված դեպքեր
Վ11-ի սկզբնական դեպքերի վահանակը ձեռքով կազմվել է դոկտոր Թոմաս Քլայնի կողմից՝ կիրառելու ախտորոշիչ օրինաչափությունները, որոնք լաբորատոր-բժշկական օգնականները ամենից հաճախ սխալ են մեկնաբանում։ Տասնհինգ դեպքերից յուրաքանչյուրն ընտրվել է հատուկ ախտորոշիչ հատկանիշի համար, որոնք թվարկված են ստորև։.
Ինչո՞ւ է ընտրված հենց այս բաշխումը
Հեմատոլոգիան ստանում է երեք դեպք, քանի որ միկրոցիտային դիֆերենցիալների և մակրոցիտային դիֆերենցիալների թակարդները իրական լաբորատոր պրակտիկայում ամենաբարձր ծավալն ունեցողներն են։ Էնդոկրինոլոգիան ստանում է երեք դեպք, քանի որ Հաշիմոտոյի, PCOS-ի և D վիտամինի անբավարարության ներկայացումները տարբեր ախտորոշիչ ձևեր են առաջացնում (ինքնահակամարմիններով պայմանավորված, հորմոնների հարաբերակցությամբ պայմանավորված, մեկ մարկերով պայմանավորված)։ Միակ դեպքի մասնագիտությունները դեռևս իմաստալից են, քանի որ յուրաքանչյուր CKD-ի, ASCVD ռիսկի և SLE-ի համար ունի իր սեփական գնահատման համակարգը, որը շարժիչը պետք է կանչի (համապատասխանաբար՝ KDIGO փուլավորում, ASCVD 10-ամյա ռիսկ, 2019 EULAR/ACR SLE չափանիշներ)։.
V11 Երկրորդ Թարմացում — 100,000 սինթետիկ դեպք՝ 127 երկրի պիտակների շրջանակում
Երկրորդ Թարմացումը փոխարինում է սկզբնական V11-ի կոշտ կոդավորված 15-դեպք Python literal-ը ավելի մեծ, ծրագրային կերպով ստեղծված սինթետիկ դեպքերի մի շարքով։ Դեպքերի մի շարքը բեռնվում է յուրաքանչյուր գործարկման սկզբում, և կազմաձևումը գրանցվում է թափանցիկության համար։ Կոհորտի բաշխումը ըստ բովանդակային ոլորտների ներկայացված է ստորև։.
Սինթետիկ երկրի-պիտակի բաշխում — լավագույն 10 պիտակ
100,000 սինթետիկ դեպքերը կրում են 127 երկրի պիտակներ (ISO 3166-1 alpha-2)՝ տեղայնացման մշակումը ստուգելու համար։ Պիտակների հատկացում. Եվրոպա 57.7%, Ամերիկա 25.4%, Ասիա-Խաղաղօվկիանոս 6.2%, անվանված Մերձավոր Արևելք/Աֆրիկա պիտակներ 3.4%, և երկար պոչ՝ 97 լրացուցիչ պիտակներով՝ միասին մոտ 7.3%։ Դեպքերի քանակով տասը ամենահաճախ պիտակներն են՝ Միացյալ Նահանգները (10,500), Բրազիլիան (9,500), Իսպանիան (9,000), Իտալիան (8,000), Գերմանիան (7,800), Ֆրանսիան (7,400), Պորտուգալիան (5,800), Türkiye-ն (3,400), Միացյալ Թագավորությունը (2,900) և Մեքսիկան (2,500)։ Պիտակ-առ-պիտակ կոմպոզիտային միավորները տատանվել են 0.9971-ից մինչև 0.9985։ Պիտակների այս քանակները գեներացված դեպքերի հատկություններն են, որոնք օգտագործվում են տեղայնացման մշակումը ստուգելու համար — դրանք իրական օգտատերեր չեն և ոչ էլ իրական աշխարհագրական ծածկույթ։.
Նախապես գրանցված rubric-ը՝ բացատրված
Նախնական գրանցումը այս բենչմարկում մեթոդաբանական ամենակարևոր ընտրությունն է։ Յուրաքանչյուր սպասվող ախտորոշում, յուրաքանչյուր կլինիկական գնահատման համակարգ և յուրաքանչյուր հաշվետվության բաժին պարտավորվել է որպես սկզբնաղբյուրային կոդ նախքան շարժիչը կանչվելը. ։ Ուստի ռուբրիկի հետհաշվարկային (post-hoc) ճշգրտումը՝ շարժիչին «հարմարեցնելու» համար, անհնար է։.
Կոմպոզիտ միավորն կազմված է երեք բաղադրիչից։ կառուցվածքային բաղադրիչը կազմում է 35 տոկոս և չափում է՝ արդյոք շարժիչը վերադարձրել է յոթ պարտադիր հաշվետվական բաժինները (վերնագիր, ամփոփում, հիմնական հայտնագործություններ, դիֆերենցիալ, գնահատման համակարգեր, առաջարկություններ, հետագա քայլեր) և դրանց մեջ գտնվող տասնվեց պարտադիր ենթաբաժինները։ Բաժնի առկայությունը կշռում է 40 տոկոս, իսկ ենթաբաժնի առկայությունը՝ 60 տոկոս՝ կառուցվածքային հաշվարկի շրջանակում։.
Այն կլինիկական բաղադրիչը կազմում է 55 տոկոս և համադրում է երեք բան՝ ախտորոշում-բանալի բառերի հիշողություն (կլինիկական ենթամիավորի 70 տոկոսը), գնահատման համակարգի հիշողություն (20 տոկոս — արդյոք շարժիչը հաշվարկում է Mentzer-ը, FIB-4-ը, HOMA-IR-ը, ASCVD ռիսկը, KDIGO փուլավորումը, EULAR/ACR չափանիշները՝ համապատասխանության դեպքում), և հավանականությունների գումարի վավերականության ստուգում (10 տոկոս — դիֆերենցիալ հավանականությունները պետք է գումարվեն [90, 110] միջակայքում)։ Թակարդային դեպքերի համար հստակ հիպերճանաչման տուգանք մինչև 0.30 է հանվում՝ հաշվարկված որպես 0.10 յուրաքանչյուր հորինված պաթոլոգիայի դրոշակի համար, սահմանափակված մինչև երեք դրոշակ։.
Այն ուշացման (latency) բաղադրիչը կազմում է 10 տոկոս։ Պատասխանը 20 վայրկյանից պակաս՝ ստանում է ամբողջական 0.10, 40 վայրկյանից պակաս՝ 0.05, իսկ ցանկացած ավելի դանդաղ՝ զրո։ 20 վայրկյան թիրախը արտացոլում է արտադրական առաջնային primary-path ծառայության մակարդակի նպատակային ցուցանիշը; 40 վայրկյան շեմը արտացոլում է Phase 2-ի fallback բյուջեն՝ ծանր շարժիչ կանչերի համար։.
Ինչը կանխում է նախնական գրանցումը
Առաջին կողմի (first-party) բենչմարկները հայտնի են իրենց սեփական թվերը հետհաշվարկային (post-hoc) ռուբրիկի ճշգրտման միջոցով ուռճացնելու սովորությամբ։ Կաղապարը գրեթե միշտ նույնն է. թիմը գործարկում է շարժիչը, տեսնում է, թե որտեղ է թերակատարում, ապա հանգիստ ճշգրտում է ռուբրիկը, որպեսզի թերակատարող ոլորտները ավելի քիչ հաշվվեն։ Ռուբրիկը սկզբնաղբյուրային կոդում ամրագրելով՝ մինչև առաջին շարժիչի կանչը, և հարմարանքը հրապարակելով MIT լիցենզիայով, այդ ճշգրտումը դառնում է տեսանելի տարբերակների կառավարման մեջ։ Յուրաքանչյուրը կարող է կրկնօրինակել ռեպոզիտորիան, ստուգել ռուբրիկի հեղինակների ամսաթվերը և հավաստել, որ շարժիչի արդյունքները չեն օգտագործվել գնահատման ձևավորելու համար։.
Հիպերդիագնոստիկացման թակարդների դեպքեր — ինչու «չափից շատ կանչելը» իրական ձախողման ռեժիմն է
Պաթոլոգիայի ագրեսիվ գերագնահատումը նորմալ էկրանների վրա՝ սպառողական ուղղվածությամբ բժշկական օգնականների փաստագրված ձախողման ռեժիմ է։ Դրա ներքևի ծախսերը ներառում են անհարկի հետազոտություն, հիվանդի անհանգստություն և իատրոգեն հետազոտական աշխատանք։ Այս բենչմարկի երկու թակարդային դեպքերը նախագծված են այդ ձախողման ռեժիմը տեսանելի և գնահատելի դարձնելու համար։.
🟡 Թակարդ 1 — BT-014-GILBERT
Ներկայացում։. 24-ամյա տղամարդ՝ ընդհանուր բիլիռուբինով 2.4 մգ/դլ։ Ուղիղ ֆրակցիան նորմալ է, տրանսամինազները և ալկալային ֆոսֆատազը գտնվում են իրենց հղման միջակայքերում, ռետիկուլոցիտները՝ աննկատ, իսկ հապտոգլոբինը և LDH-ը բացառում են հեմոլիզը։.
Ճիշտ մեկնաբանություն։. Գիլբերտի համախտանիշ — UGT1A1-ի բարորակ պոլիմորֆիզմ։ Մեկնաբանությունը չպետք է ներառի հեպատիտ, ցիռոզ, հեմոլիտիկ անեմիա կամ բիլյարային խցանում։.
V11 արդյունք։. Կոմպոզիտ 1.000։ Վեց վերահսկվող գերախտորոշման (over-diagnosis) դրոշակներից ոչ մեկը չի հայտնվել որպես ակտիվ ախտորոշում։.
🟡 Թակարդ 2 — BT-015-HEALTHY
Ներկայացում։. 35-ամյա կին՝ տասնհինգ պարամետր ունեցող սովորական սքրինինգ վահանակով։ Յուրաքանչյուր անալիտ հարմարավետորեն գտնվում է իր հղման միջակայքում։.
Ճիշտ մեկնաբանություն։. Հանգստացնողություն և կենսակերպի պահպանում։ Մեկնաբանությունը չպետք է ստեղծի սահմանային պաթոլոգիա՝ կլինիկապես օգտակար հնչելու համար։.
V11 արդյունք։. Կոմպոզիտ 1.000։ Չորսից յոթ վերահսկվող գերհայտնաբերման ազդանշաններից ոչ մեկը՝ շաքարախտ, անեմիա, հիպոթիրեոզ, դիսլիպիդեմիա, հեպատիտ, երիկամային հիվանդություն, անբավարարություն, չի հայտնվել որպես ակտիվ ախտորոշում։.
Երկու թակարդներում էլ ստուգվել են տասներեք վերահսկվող գերհայտնաբերման ազդանշաններ։ Ոչ մեկը չի ակտիվացվել։ Սա է այն արդյունքը, որն ամենակարևորն է ցանկացած կլինիկոսի համար, ով մտածում է AI շարժիչն օգտագործել որպես տրիաժի կամ նախախորհրդատվական գործիք. համակարգը չի հորինել հիվանդություն, եթե այն գոյություն չի ունեցել.
Մենցերի ինդեքս՝ երկաթի անբավարարությունը թալասեմիայի հատկանիշից տարանջատելու համար
Երկրորդ բարձրարժեք հայտնագործությունը վերաբերում է գործ BT-001-ի (երկաթի անբավարարության անեմիա) և գործ BT-007-ի (բետա-թալասեմիա մինոր) զուգակցմանը։ Երկուսն էլ դրսևորում են միկրոցիտոզ և հայտնի խոչընդոտ են սկսնակ դասակարգիչների համար։ Մենցերի ինդեքսը, որը հաշվարկվում է որպես MCV՝ բաժանած RBC քանակի վրա, երկաթի անբավարարության դեպքում գերազանցում է 13-ը, իսկ թալասեմիայի հատկանիշի դեպքում ընկնում է 13-ից ցածր։.
BT-001-ում հիվանդը 34-ամյա կին էր՝ հեմոգլոբին 10.4 գ/դլ, MCV 72.4 ֆլ, RBC 4.1 × 10¹²/լ, ֆերիտին 6 նգ/մլ և բարձրացված TIBC։ Մոտավորապես 17.7 մենցերի ինդեքսը հաստատում է երկաթի բացարձակ անբավարարությունը։ BT-007-ում հիվանդը 28-ամյա տղամարդ էր՝ միկրոցիտոզով (MCV 65.8 ֆլ), սակայն RBC-ի բարձր քանակով՝ 6.2, նորմալ RDW, նորմալ ֆերիտին և HbA2՝ 5.6 տոկոս։ Մոտավորապես 10.6 մենցերի ինդեքսը ցույց է տալիս թալասեմիայի հատկանիշ, իսկ բարձրացված HbA2-ը հաստատում է բետա-թալասեմիա մինորը։.
Երկու դեպքերն էլ ստացել են 1.000 միավոր։ Շարժիչը մենցերի ինդեքսը հստակորեն կիրառել է երկու մեկնաբանություններում էլ և յուրաքանչյուր դեպքում վերադարձրել է ճիշտ ախտորոշումը։. Սա ամբողջ բենչմարկի ամենաառաջատար կլինիկորեն հանգստացնող արդյունքն է, քանի որ թալասեմիայի հատկանիշը երկաթի անբավարարության հետ սխալ դասակարգելը հանգեցնում է ոչ պատշաճ երկաթի հավելումների և բաց թողնված ընտանեկան սկրինինգի հնարավորությունների, իսկ երկաթի անբավարարությունը թալասեմիայի հետ սխալ դասակարգելը հետաձգում է պարզ փոխարինող բուժումը։ Մեր ֆերիտինի միջակայքի ուղեցույցը բացատրում է ավելի լայն դիֆերենցիալ համատեքստը։.
Դեպք առ դեպք արդյունքներ V11 սկզբնական հղման գործարկումից (2026 թ. ապրիլի 23)
Վ11-ի բնօրինակ հղման գործարկումը 15-դեպք ապացուցման-հայեցակարգ կոհորտում ծառայում է որպես մեթոդաբանական հիմք Երկրորդ Թարմացման համար. ստորև յուրաքանչյուր դեպքի մանրամասնությունը ցույց է տալիս, թե ինչպես է ռուբրիկը մշակում իրական շարժիչի պատասխանը։ Տասներկու դեպք տասնհինգից հասավ առաջնային ուղու վրա կոմպոզիտային միավորի առաստաղին՝ 1.000; երեք դեպք սպասարկվեց 2-րդ փուլի հետադարձ տարբերակով՝ կորցնելով 0.05 ուշացման բոնուսը՝ միաժամանակ պահպանելով ամբողջ կլինիկական և կառուցվածքային բովանդակությունը։ Մեկ դեպք բացակայում էր մեկ պարտադիր ենթաբաժին. մեկը վերադարձրեց հավանականությունների բաշխման գումարի՝ միայն փոքր-ինչ նվազեցված տարբերակ։.
PCOS-ի դեպքը (BT-008) պատասխանների կառուցվածքում կորցրել է մեկ պարտադիր ենթաբաժին՝ տասնվեցից տասնհինգ փոխարեն՝ ինչը կառուցվածքային միավորը նվազեցրել է 1.000-ից մինչև 0.963։ SLE-ի դեպքը (BT-011) վերադարձրել է սահմանային կերպով նվազած հավանականությունների բաշխման գումար, որը կլինիկական միավորը իջեցրել է մինչև 0.965՝ պահպանելով բոլոր ախտորոշիչ հիմնաբառերը և գնահատման համակարգը։ Ոչ մի ենթա-կատարյալ դեպք չի բաց թողել ճիշտ ախտորոշումը։.
V11 Երկրորդ Թարմացման ագրեգատ — 100,000 դեպք
Բնակչական մասշտաբով անհատական դեպքերի տողերը մարդկայնորեն ընթեռնելի չեն, ուստի Երկրորդ Թարմացումը ներկայացնում է համախառն չափորոշիչներ՝ 100,000-տող աղյուսակի փոխարեն։ Գլխավոր համախառն արդյունքը ներկայացված է ստորև. մասնագիտությունների և երկրի-պիտակների մանրամասները հրապարակվում են տեխնիկական զեկույցում և Figshare-ի պահոցում։ Շերտավորված պատահական նմուշը n = 201 շարժիչի հում պատասխանների (որոշիչ սերմ 20260426) հրապարակվում է GitHub-ի results/ գրացուցակում՝ ստուգման համար։.
Ինչը չի բացահայտում վերնագրային գնահատականը
99.80 տոկոսի կոմպոզիտային միավոր՝ այս կոնկրետ նախապես գրանցված ռուբրիկի ներքո, 100,000-դեպք սինթետիկ կոհորտի վրա՝ ընդգրկելով 127 երկրի պիտակներ, ներկայացնում է գրեթե առաստաղային կատարում — բայց այն արժանի է զգույշ ձևակերպման։ Արդյունքը նկարագրում է շարժիչի վարքագիծը այն ռուբրիկի նկատմամբ, որը մենք պարտավորվել էինք ներառել V11-ի սկզբնաղբյուրի կոդում. սա համընդհանուր պնդում չէ շարժիչի ճիշտ լինելու մասին յուրաքանչյուր արյան անալիզների պանելի համար, որը գոյություն ունի իրական աշխարհում։.
Միավորը ասում է, որ շարժիչը ճիշտ է մշակել այս գնահատման համար ընտրված դիագնոստիկ օրինաչափությունները՝ բնակչական մասշտաբով կոհորտում, հրապարակված և վերարտադրելի մեթոդաբանությամբ։ Այն չի ասում, որ շարժիչը ճիշտ է յուրաքանչյուր արյան անալիզի վահանակի համար, որը գոյություն ունի իրական աշխարհում։ Այն չի ասում, որ շարժիչը պետք է փոխարինի կլինիկական դատողությանը։ Եվ այն չի ասում, որ շարժիչը գերազանցում է այլ AI համակարգերին — այլ շարժիչների նկատմամբ համեմատական վերլուծությունները դիտավորյալ դուրս են եղել սույն զեկույցի շրջանակից։.
Այն, ինչ միավորն իրականում հաստատում է, հիմքային չափանիշն է։ Քանի որ չափանիշն ու գործարկման միջավայրը հրապարակային են, շարժիչի ապագա տարբերակները կարող են գնահատվել նույն չափանիշով — կիրառվելով V11 սկզբնական 15 դեպքերի, Երկրորդ թարմացման 100,000 դեպք պարունակող կոհորտի կամ ցանկացած հետագա ընդլայնման վրա — և հրապարակված միավորի ու ցանկացած հետագա գործարկման միջև բացը ինքնին չափելի է։ Սա է նախնական գրանցման արժեքը․ այն կատարողականի պնդումները վերածում է ստուգելի պնդումների.
Ինչպես վերարտադրել այս բենչմարքը 10 րոպեում
Վերարտադրության համար անհրաժեշտ է միայն Kantesti API-ի հավատարմագրերի զույգ և Python 3.10 կամ ավելի ուշ միջավայր՝ հետևյալով requests և reportlab գրադարանները տեղադրված։ Ամբողջ գործարկման միջավայրը մեկ ինքնաբավ Python մոդուլ է՝ թողարկված MIT լիցենզիայով։.
Թարմ գործարկման չորս քայլ
Մեկ. Կլոնավորել ռեպոզիտորին՝ git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Երկու. Տեղադրեք կախվածությունները՝ pip install -r requirements.txt (Երկրորդ թարմացումը ավելացնում է mysql-connector-python ≥ 8.0 SQL գործ բեռնողի համար)։. Երեք։. Սահմանեք KANTESTI_USERNAME և KANTESTI_PASSWORD որպես միջավայրի փոփոխականներ՝ շարժիչի API-ի համար։ Երկրորդ թարմացման SQL գործ բեռնողի համար նաև սահմանեք KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, և KANTESTI_DB_PASSWORD — բեռնիչը միանում է միայն կարդալու դերակատարության միջոցով (bench_reader) որը չունի արտոնություններ՝ նույնականացնող աղյուսակների վերաբերյալ։. Չորս։. Գործարկեք python benchmark_bloodtest.py --limit 100000 ամբողջ Second-Update գործարկման համար, կամ python benchmark_bloodtest.py --limit 1000 արագ կրկնության համար։ Արդյունքները տեղադրվում են ./benchmark_results/: CSV գնահատման քարտ՝ պիտակ-առ-պիտակ և մասնագիտություն-առ-մասնագիտություն սյունակներով, JSON համախառն, շերտավորված-պատահական հում-պատասխանների նմուշ և Markdown զեկույց։.
Հղման գործարկումները պահպանված են 23 ապրիլի 2026-ից (V11 սկզբնական, 15 դեպք) և 26 ապրիլի 2026-ից (V11 Second Update, 100,000 դեպք)՝ պահոցում։ Թարմ գործարկումը կստեղծի նոր ժամանակակնիքով գնահատականային քարտ՝ հղման գործարկումները չփոխելով։ Եթե ձեր գործարկումը տալիս է էականորեն տարբեր արդյունք, խնդրում ենք բացել GitHub issue՝ գործարկման ժամանակակնիքով և պատասխանների մետատվյալներում վերադարձված շարժիչի տարբերակով։ results/ directory of the repository. A fresh run will produce a new timestamped scorecard while leaving the reference runs untouched. If your run produces a meaningfully different result, please open a GitHub issue with the run timestamp and the engine version returned in the response metadata.
Սահմանափակումներ և ապագա աշխատանք
Նույնիսկ 100,000 դեպքերի և 127 երկրի պիտակների շրջանակում՝ չորս սահմանափակումներ արժանի են հստակ ճանաչման. երկար պոչի պիտակների թերի նմուշառում, մեկանգամյա գնահատում, մեկ շարժիչի շրջանակ, և մեկ աղբյուրի տվյալների ծագում։ Դրանցից յուրաքանչյուրը հասցեագրվում է ակտիվ հետագա աշխատանքում։.
Երկար պոչի պիտակների ծածկույթ։. Երկրորդ Թարմացումը ընդգրկում է 127 երկրի պիտակ, սակայն բաշխումը անհավասարակշիռ է — լավագույն 10 պիտակները կազմում են ≈66.4% դեպքերը, իսկ 97 լրացուցիչ պիտակներից բաղկացած երկար պոչը միասին նպաստում է ≈7.3%-ին (մոտ 7,300 դեպք միասին, միջինը ~75 դեպք մեկ պիտակի համար)։ Ուստի այս երկար պոչում պիտակ-առ-պիտակ կոմպոզիտները ավելի աղմկոտ են, քան ենթադրում են գլխավոր ցուցանիշները։ Ապագա գործարկումները կվերաբաշխեն պիտակների հատկացումը՝ պիտակ-առ-պիտակ գնահատականները ամրացնելու համար։.
Մեկանգամյա գնահատում։. Կոհորտի յուրաքանչյուր դեպք գնահատվել է մեկ անգամ։ Խոշոր լեզվական մոդելները ցուցաբերում են ոչ տրիվիալ ելքային տատանումներ նույնիսկ ցածր նմուշառման ջերմաստիճանի դեպքում, ուստի բազմակի գործարկման պրոտոկոլը՝ յուրաքանչյուր դեպքի համար հինգ գնահատումով և ներկայացված տատանումով, բնական հաջորդ քայլ է՝ հատկապես trap-case ենթաբազմության վրա, որտեղ նմուշառման «ցնցումների» պայմաններում կայունությունը հանդիսանում է անվտանգության պնդման մաս։.
Մեկ շարժիչի շրջանակ։. Այս հաշվետվությունը բնութագրում է մեկ շարժիչ։ Համեմատական վերլուծությունները այլ AI համակարգերի նկատմամբ այստեղ դուրս են այս շրջանակից. մենք կարող ենք դրանք հետապնդել որպես առանձին անկախ ուսումնասիրություն՝ համապատասխան մեթոդաբանությամբ, նույն MIT-լիցենզավորված հարմարանքով (harness)։.
Սինթետիկ տվյալ։. 100,000 դեպքերը սինթետիկ կերպով են ստեղծված, ոչ թե սինթետիկ դեպքեր, և արդյունքները չեն փոխանցվում իրական աշխարհի կլինիկական կատարողականին։ Իրական, համաձայնեցված և արտաքին աղբյուրից ստացված տվյալների վրա գնահատումը կպահանջեր համապատասխան էթիկական վերահսկողություն և դուրս է այս սինթետիկ բենչմարկի շրջանակից։.
Այս չորսից բացի, ամենաազդեցիկ նախատեսված ընդլայնումը յուրաքանչյուր իրավասության համար բազմալեզու համարժեքությունն է։ Kantesti AI Engine-ը սպասարկում է օգտատերերի 75+ լեզուներով, և գործարկելով լեզվով շերտավորված Second-Update ենթակոհորտերը (թուրքերեն, գերմաներեն, իսպաներեն, ֆրանսերեն, իտալերեն, պորտուգալերեն, արաբերեն, մանդարին)՝ կքանակականացվի ելքային որակը շարժիչի աջակցվող լեզուների շրջանակում։ Յուրաքանչյուր լեզվով շերտավորված վերլուծություն կհրապարակվի իր սեփական DOI-ով և harness մասնաճյուղով։.