Kantesti AI анализа на крв — клиничка валидација

Автоматизиран бенчмарк Предрегистрирана референтна вредност V11 Втора надградба — април 2026 Лиценцирано под MIT Репродуцибилен · Отворени податоци 100K синтетичка кохорта · 127 ознаки за земји

99.80% композитен резултат според претходно регистрирана рубрика — V11 второ ажурирање, кохорта од 100,000 случаи низ 127 ознаки за земји

Претходно регистрирана, рубрика-базирана автоматизирана техничка проценка на моторот Kantesti на 100,000 синтетички генерирани случаи од крвни тестови означени со 127 ознаки за земји. Мери усогласеност на излезот, а не дијагностичка точност. Рубриката беше „замрзната“ во изворниот код пред првичното издавање на V11 и остана идентична по бајт за ова Второ ажурирање; оценувачкиот хардвер е лиценциран под MIT; стратифициран случаен примерок од сурови одговори на моторот е објавен за увид. Сите случаи се синтетички; не се користат лични податоци.

📖 ~14 минути 📅 Објавено на 23 април 2026 · Ажурирано на 26 април 2026 (V11 Втора надградба) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Објавено: 23 април 2026 🔄 V11 Втора надградба: 26 април 2026 🩺 Медицински прегледано: 26 април 2026 ✅ Претходно регистрирана рубрика (идентична по бајт) 🔓 Отворен код и податоци

Овој автоматизиран бенчмарк беше дизајниран и извршен од Џулијан Емирхан Булут, виш AI инженер и извршен директор на Kantesti Ltd. Бодувањето е целосно автоматизирано во изворниот код; бодувачката рубрика и панелот со случаи беа развиени со клинички придонес од Д-р Томас Клајн, доктор по медицина, главен медицински директор во Kantesti AI, и беа разгледани од Медицински советодавен одбор за вештачка интелигенција „Кантести“. Ова е самостојно извршувана внатрешна проценка, а не независна или рецензирана автоматизирана техничка проценка.

Главен автор и клинички надзор

Томас Клајн, доктор по медицина

Главен медицински директор, Кантести АИ

Д-р Томас Клајн е сертифициран клинички хематолог и интернист со над 15 години искуство во лабораториска медицина. Како главен медицински директор во Kantesti AI, тој го избра панелот со случаи за оваа проценка, го разгледа клиничкиот материјал и очекуваните одговори на синтетичките случаи и ја одобри претходно регистрираната рубрика пред првото повикување на моторот.

ORCID 0009-0009-1490-1321 Истражувачка порта Google Scholar

Ко-автор & имплементација

Џулијан Емирхан Булут

Виш AI инженер & извршен директор (CEO), Kantesti Ltd

Јулијан Емирхан Булут е основач и извршен директор на Kantesti Ltd. Тој го дизајнираше и имплементираше хардверот за евалуација — вклучувајќи го SQL case loader-от додаден за V11 Втората надградба — ја изврши API-интеграцијата, спроведе и првичното референтно извршување за V11 и извршувањето на V11 Втората надградба со 100.000 случаи, и ја подготви статистичката агрегација. Основач на платформата од 2019 година.

GitHub За Кантести

⚡ Краток преглед V11 Втора надградба — 26 април 2026

99.80% композитен резултат на 100,000 синтетички случаи од крвни тестови низ осум медицински специјалности и 127 ознаки за земји (V11 второ ажурирање).
Нула лажни позитиви за хипердијагноза низ 87.412 можности за следење на trap-case flag — истата методологија за trap-case како во првичното V11, скалирана на ниво на популација.
Рубрика регистрирана однапред замрзната во изворниот код пред првичното извршување на V11 и задржана идентична по бајт за оваа Втора надградба — не беше можено дополнително подесување по фактот.
Ментцеров индекс правилно применет за да се разликува железодефициентна анемија од бета-таласемија минор во првичното издание на V11; диференцијалното однесување беше зачувано на ниво на популација.
Само производствен краен резултат — без привилегирано рутирање, оценувано точно како што би пристапил платен клиент.
13.26 секунди просечна латентност енд-ту-енд (опсег 9.0–16.94 s), при што сите 100.000 случаи завршија на примарната патека на моторот.
Синтетичка кохорта. 100,000 синтетички генерирани тест-случаи вчитани при извршување. Не се користат синтетички податоци и не се користат лични податоци.
Хардвер/платформа со лиценца MIT објавено на GitHub со стратифициран случаен примерок (n = 201) од целосни сурови одговори на моторот за преглед.
Figshare DOI: 10.6084/m9.figshare.32095435 · Огледано на ResearchGate, Academia.edu, GitHub.

Зошто постои оваа референтна вредност и што тестира

AI-помогнато толкување крвна слика сè повеќе се користи во потрошувачки и клинички работни текови, но репродуцибилни рамки за евалуација прилагодени за лабораториска медицина остануваат ретки. Прашањата што најмногу се важни во оваа средина не се оние опфатени со општи бенчмаркови за медицинско одговарање на прашања: дали моторот може да разликува недостаток на железо од таласемиска особина кога средниот волумен на еритроцитите е идентичен, дали прекумерно дијагностицира синдром на Жилберт како хепатитис и дали создава патологија во целосно нормален панел за скрининг?

Една единствена панел-крвна анализа обично содржи доволно сигнал за да поддржи повеќе конкурирачки толкувања, а задачата на клиничарот што го толкува наодот е да ги одмери тие толкувања меѓусебно, наместо да извлече „точен одговор“ од учебник. Мотор што добро се снаоѓа на случаи од учебник сепак може да потфрли на оние случаи што се најважни: стапиците во диференцијалната дијагноза, бенигните варијанти што изгледаат алармантно кога се гледаат изолирано и целосно нормалните панели што ги наведуваат самоуверените асистенти да „произведуваат“ патологија.

Овој бенчмарк е изграден токму околу тие начини на неуспех. Секој од петнаесетте случаи беше избран за одредена дијагностичка карактеристика: микроцитоза поради недостаток на железо што мора да се разликува од носителство на бета-таласемија со идентичен просечен волумен на еритроцитите, презентација на Гилберт-ов синдром каде единствената абнормалност е изолирана индиректна хипербилирубинемија и панел за скрининг со петнаесет параметри во кој секој аналит се наоѓа во својот референтен опсег. Рубриката ги наградува моторите што го читаат секој случај според неговите сопствени услови и ги казнува моторите што се впуштаат во самоуверена дијагноза кога таква дијагноза не е оправдана.

Како Томас Клајн, д-р, го избрав панелот со случаи затоа што токму овие шеми најчесто ги погрешуваат асистентите за лабораториска медицина. Скапиот начин на неуспех не е "да се пропушти ретка болест" — туку да се измислува рутинска патологија кај пациенти кај кои таа не постои. Нашето Медицинска валидација hub ја опишува пошироката рамка; оваа страница го опишува првичниот proof-of-concept за V11 и Второто ажурирање на V11 кое го прошири на 100,000 синтетички случаи извлечени од синтетички сет на случаи што опфаќа 127 ознаки за земји — со истата рубрика за оценување, идентична по бајт, без дозволено „пост-хок“ подесување.

Најново референтно извршување — V11 Second Update (26 април 2026)

Референтното извршување на V11 Second Update од 26 април 2026 произведе композитен резултат од 99.80% на истата претходно регистрирана рубрика што се користеше во првичното издание на V11, оценувано на 100,000 синтетички случаи извлечени од Kantesti синтетичкиот сет на случаи и опфаќаат 127 ознаки за земји и јазиците 75+. Секој случај беше завршен по примарната патека на моторот; активирањата на знамето за хипердијагностичка „trap-case“ останаа на 0 / 87,412. Првичното извршување на V11 од 23 април 2026 опфати 15 рачно селектирани случаи (композит 99.12%) и ја валидираше рубриката; Second Update ја задржува истата рубрика идентична по бајт и ја проширува евалуацијата на кохорта од популациски размери.

Композитен 99.80% 100,000 од 100,000 случаи со резултат

1.000 Структурен резултат

0.996 Клинички резултат

13.26 s Средно доцнење

0 / 87,412 Лажни позитиви во стапицата

Композитната формула ги комбинира три компоненти: структурна усогласеност со седумте задолжителни делови за извештај и шеснаесет задолжителни подделови, точност на содржината мерена како поврат на клучни зборови плус поврат на елементи од системот за бодување плус проверка на валидноста на веројатносната дистрибуција, и доцнење на одговорот спроти примарната цел за сервисно ниво. Точната декомпозиција е прикажана во формулата за рубриката подолу — ниту овие тежини ниту под-рубрики беа изменети за Second Update.

Композитен = 0.35 × Структурен + 0.55 × Клинички + 0.10 × Доцнење

Преостанатите 0.20 процентни поени од „headroom“ се декомпонираат речиси целосно во клиничкиот под-резултат — мал дел од случаите (претежно во Хепатологија и Ревматологија) имале еден очекуван клучен збор од системот за бодување отсутен од интерпретацијата на моторот, иако дијагностичката содржина била точна. Ниту еден случај во кохортата Second-Update со 100,000 случаи не ја пропушти самата дијагноза. Латентноста се подобри од средна вредност од 20.17 s во првичното издание на V11 до 13.26 s во Second Update, што одразува оптимизации на производствениот мотор меѓу двете извршувања; рубриката, кодот за бодување и API-ендпоинтот се непроменети.

Композитните резултати по ознака се движеа од 0.9971 до 0.9985 низ 30-те најзастапени ознаки за земји. Долгата опашка од 97 дополнителни ознаки (≈7,300 случаи вкупно) не покажа систематско влошување. Најчестите ознаки по број на случаи беа Соединетите Американски Држави (10,500), Бразил (9,500), Шпанија (9,000), Италија (8,000), Германија (7,800), Франција (7,400), Португалија (5,800), Türkiye (3,400), Обединетото Кралство (2,900) и Мексико (2,500).

Од 15 случаи до 100,000: еволуција на кохортата низ 127 ознаки за земји

Првичниот панел на случаи за V11 опфаќаше седум специјалности — хематологија, ендокринологија, метаболна медицина, хепатологија, нефрологија, кардиологија, реуматологија — плус два посветени случаи „хипердијагностичка стапица“, при што секој случај беше синтетички генериран панел од крвни тестови. Второто ажурирање на V11 ја проширува процената на 100,000 синтетички случаи низ 127 ознаки за земји, распоредени во осум специјалности (оригиналните седум плус посветена „internal medicine“ група што го апсорбира „trap“ подмножеството). Истата рубрика за бодување се применува идентично по бајт во двата извршувања.

Бидејќи сите случаи се синтетички генерирани, нема реални идентификатори за отстранување и не се вклучени лични податоци. Секој синтетички случај носи код внатре во проценката (BT-NNN-LABEL во првичниот сет на V11, стабилен case_uid во Второто ажурирање). Никакви лични податоци не се појавуваат никаде во објавениот хардвер, техничкиот извештај или објавените сетови на податоци.

првичното издание на V11 — 15 рачно селектирани случаи

Оригиналниот панел за случај V11 го избра и уреди рачно д-р Томас Клајн за да ги опфати дијагностичките обрасци што најчесто ги погрешуваат асистентите во лабораториската медицина. Секој од петнаесетте случаи беше избран за одредена дијагностичка карактеристика, наведена подолу.

Хематологија (3) BT-001, BT-006, BT-007 Железодефицитна анемија · Дефицит на витамин B12 · Бета-таласемија минор

Ендокринологија (3) BT-002, BT-008, BT-012 Хашимотов тироидитис · PCOS со инсулинска резистенција · Тешка недостаток на витамин D

Метаболна (2) BT-003, BT-013 T2DM со метаболен синдром · Хиперурикемија со ризик од гихт

Хепатологија (2) BT-004, BT-009 NAFLD / NASH · Акутен вирусен хепатит

Нефрологија · Кардиологија · Реуматологија (3) BT-005, BT-010, BT-011 CKD стадиум 3 · Атерогена дислипидемија · Системски лупус еритематозус

Случаи за стапица (2) BT-014, BT-015 Гилберт-ов синдром (изолирана индиректна хипербилирубинемија) · Целосно нормален скрининг за возрасни

Зошто токму оваа распределба

Хематологијата добива три случаи затоа што микоцитните диференцијали и макроцитните диференцијали се најголемите „замки“ со најголем обем во реалната лабораториска пракса. Ендокринологијата добива три затоа што презентациите на Хашимото, PCOS и недостаток на витамин D вежбаат различни дијагностички форми (управувани од автоантитела, управувани од сооднос на хормони, управувани од единствен маркер). Специјалностите со по еден случај сè уште се значајни затоа што секоја од CKD, ризикот за ASCVD и SLE има сопствен систем за бодување што моторот треба да го повика (KDIGO стадирање, ASCVD 10-годишен ризик, и критериуми за 2019 EULAR/ACR за SLE, соодветно).

Второ ажурирање на V11 — 100,000 синтетички случаи низ 127 ознаки за земји

Второто ажурирање го заменува оригиналниот V11 хард-кодиран Python литерал од 15 случаи со поголем, програмски генериран синтетички сет на случаи. Сетот на случаи се вчитува на почетокот на секое извршување и конфигурацијата се евидентира за транспарентност. Дистрибуцијата на кохортата по област на содржина е прикажана подолу.

Ендокринологија 23,900 случаи (23.9%) Тироидна жлезда, PCOS, витамин D, гонадална оска, хипофиза

Метаболна медицина 21,900 случаи (21.9%) T2DM, метаболен синдром, липидни панели, хиперурикемија

Хематологија 15,400 случаи (15.4%) Микроцитни и макроцитни диференцијали, B12/фолат, студии за железо

хепатологија 12,400 случаи (12.4%) NAFLD/NASH, вирусен хепатит, FIB-4, холестаза

Интерна медицина (вкл. подмножество за стапица) 9,000 случаи (9.0%) Мешани презентации и 8,723 посветени случаи за хипердијагностичка стапица

Кардиологија 7,500 случаи (7.5%) Ризик за ASCVD, атерогена дислипидемија, hs-CRP

Ревматологија 6,000 случаи (6.0%) SLE, RA, васкулитис, панели за автоантитела (EULAR/ACR критериуми)

Нефрологија 4,000 случаи (4.0%) Стадирање на CKD (KDIGO), трендови на eGFR, нарушување на електролити

Синтетичка дистрибуција на ознаки за земји — топ 10 ознаки

100,000 синтетички случаи носат 127 ознаки за земји (ISO 3166-1 alpha-2) за да се вежба ракување со локалитет. Доделување на ознаки: Европа 57.7%, Америките 25.4%, Азија-Пацифик 6.2%, именувани ознаки за Блиски Исток/Африка 3.4% и долга опашка од 97 дополнителни ознаки приближно 7.3% вкупно. Десетте најчести ознаки по број на случаи се Соединетите Американски Држави (10,500), Бразил (9,500), Шпанија (9,000), Италија (8,000), Германија (7,800), Франција (7,400), Португалија (5,800), Türkiye (3,400), Обединетото Кралство (2,900) и Мексико (2,500). Композитните резултати по ознака се движеа од 0.9971 до 0.9985. Овие броеви на ознаки се својства на генерираните случаи користени за вежбање ракување со локалитет — тие не се реални корисници и не претставуваат реална географска покриеност.

Однапред регистрираната рубрика, објаснета

Предрегистрацијата е единствениот најважен методолошки избор во оваа споредба. Секое очекувано дијагностицирање, секој клинички систем за бодување и секој дел од извештајот беа посветени на изворниот код пред да биде повикан моторот. Затоа, пост-хок прилагодување на рубриката за да го „пофали“ моторот е невозможно.

Три компоненти го сочинуваат композитниот резултат. структурната компонента придонесува со 35 проценти и мери дали моторот ги врати седумте задолжителни делови од извештајот (заглавје, резиме, клучни наоди, диференцијал, системи за бодување, препораки, следење) и шестнаесетте задолжителни подделови во рамките на нив. Присуството на дел тежи 40 проценти, а присуството на поддел тежи 60 проценти во структурната пресметка.

На клиничката компонента придонесува со 55 проценти и комбинира три работи: повикување на дијагностички клучни зборови (70 проценти од клиничкиот под-резултат), повикување на системи за бодување (20 проценти — дали моторот пресметува Mentzer, FIB-4, HOMA-IR, ризик за ASCVD, KDIGO стадирање, критериуми EULAR/ACR кога е релевантно) и проверка на валидност на збир на веројатности (10 проценти — диференцијалните веројатности треба да се соберат во интервалот [90, 110]). За „замкови“ случаи, се одзема експлицитна казна за хипердијагноза до 0.30, пресметана како 0.10 по измислено знаме за патологија, ограничено на три знамиња.

На компонента на латентност придонесува со 10 проценти. Одговор под 20 секунди добива целосни 0.10, одговор под 40 секунди добива 0.05, а сè што е побавно добива нула. Целта од 20 секунди ја одразува производната примарна услужна цел за ниво на услуга; таванот од 40 секунди ја одразува буџетската резерва за Фаза 2 при тешки повици на моторот.

Што спречува предрегистрацијата

Првостепените споредби се познати по тоа што ги надувуваат сопствените бројки преку пост-хок прилагодување на рубриката. Шаблонот речиси секогаш е ист: тимот го пушта моторот, гледа каде потфрла, а потоа тивко ја прилагодува рубриката така што подфрлањата да бројат помалку. Со тоа што рубриката се посветува на изворниот код пред првиот повик на моторот и се објавува хранеcот под MIT лиценца, ова прилагодување станува видливо во контролата на верзии. Секој може да го клонира репозиториумот, да ги провери датумите на авторите на рубриката и да потврди дека резултатите од моторот не биле користени за обликување на бодувањето.

Случаи „замка за хипердијагноза“ — зошто прекумерното повикување е вистинскиот режим на неуспех

Агресивното прекумерно повикување патологија на нормални екрани е документиран начин на неуспех кај потрошувачки медицински асистенти. Неговите последователни трошоци вклучуваат непотребна истрага, вознемиреност кај пациентот и јатрогена обработка. Двата „замкови“ случаи во оваа споредба се дизајнирани да го направат овој начин на неуспех видлив и податлив за бодување.

🟡 Замка 1 — BT-014-GILBERT

Презентација. Маж на 24 години со вкупен билирубин од 2.4 mg/dL. Директната фракција е нормална, трансаминазите и алкалната фосфатаза се во нивните референтни опсези, ретикулоцитите се без особености, а хаптоглобинот и LDH исклучуваат хемолиза.

Точна толкување. Gilbert-ов синдром — бенигна полиморфизам на UGT1A1. Толкувањето не треба да повикува хепатитис, цироза, хемолитичка анемија или опструкција на жолчни патишта.

Резултат v11. Композитен 1.000. Ниту едно од шесте следени знамиња за прекумерно дијагностицирање не се појави како активна дијагноза.

🟡 Замка 2 — BT-015-HEALTHY

Презентација. Жена на 35 години со рутински панел за скрининг со петнаесет параметри. Секој аналит удобно се наоѓа во рамките на својот референтен опсег.

Точна толкување. Уверување и одржување на животниот стил. Толкувањето не треба да „измислува“ гранична патологија за да звучи клинички корисно.

Резултат v11. Композит 1.000. Ниту една од седумте следени алармни ознаки за прекумерно дијагностицирање — дијабетес, анемија, хипотироидизам, дислипидемија, хепатитис, бубрежна болест, дефицит — не се појави како активна дијагноза.

На двата „трап“ беа проверени тринаесет следени алармни ознаки за хипердијагностицирање. Ниту една не беше активирана. Ова е резултатот што најмногу е важен за секој клиничар што размислува да користи AI мотор како алатка за тријажа или пред-консултација: системот не измисли болест таму каде што не постоела.

Ментцеров индекс: одвојување на дефицит на железо од носителство на таласемија

Вториот наод со висока вредност се однесува на спојувањето на случајот BT-001 (анемија поради недостаток на железо) со случајот BT-007 (бета-таласемија минор). И двата се јавуваат со микроцитоза и се добро позната „кочница“ за наивни класификатори. Индексот на Mentzer, пресметан како MCV поделено со бројот на RBC, е над 13 кај недостаток на железо и паѓа под 13 кај таласемиска особина.

Во BT-001, пациентката имала 34 години, хемоглобин 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, феритин 6 ng/mL и покачен TIBC. Индексот на Mentzer од приближно 17.7 поддржува апсолутен недостаток на железо. Во BT-007, пациентот имал 28 години, микроцитоза (MCV 65.8 fL) но висок број на RBC од 6.2, нормален RDW, нормален феритин и HbA2 од 5.6 проценти. Индексот на Mentzer од приближно 10.6 укажува на таласемиска особина, а покачениот HbA2 ја потврдува бета-таласемија минор.

Анемија поради недостаток на железо Mentzer > 13 Низок феритин, низок TSAT, висок TIBC, покачен RDW

Таласемиска особина (бета) Mentzer < 13 Нормален феритин, нормален RDW, покачен HbA2 (>3.5%), висок број на RBC

И двата случаи постигнаа 1.000. Моторот експлицитно го повика индексот на Mentzer во двете интерпретации и ја врати точната дијагноза во секој случај. Ова е единствениот резултат со најголема клиничка уверливост во целиот бенчмарк, бидејќи погрешното класифицирање на таласемиска особина како недостаток на железо води до несоодветна суплементација со железо и пропуштени можности за семејно скринирање, а погрешното класифицирање на недостаток на железо како таласемија ја одложува едноставната терапија за замена. Нашето водич за опсегот на феритин објаснува поширок контекст на диференцијалот.

Резултати по случај од првичното референтно извршување на V11 (23 април 2026)

Оригиналното референтно извршување на V11 на кохортата proof-of-concept со 15 случаи ја служи како методолошка основа на Second Update: секој детал по случај подолу покажува како рубриката се справува со реален одговор на моторот. Дванаесет од петнаесет случаи го постигнаа максималниот композитен резултат од 1.000 на примарната патека; три случаи беа опслужени преку fallback за Phase 2, губејќи ја бонусот за латентност од 0.05 додека се зачувува целата клиничка и структурна содржина. Еден случај недостасуваше една единствена задолжителна под-секција; еден врати збир на веројатносни распределби маргинално намален.

ИД на случај Специјалност Композитен Латентност Патека

BT-001-IDAХематологија1.00017.8 sпримарна

BT-006-B12Хематологија1.00018,4 sпримарна

BT-007-THALХематологија1.00017,0 sпримарна

BT-002-HASHЕндокринологија0.95037,0 sрезервна опција

BT-008-PCOSЕндокринологија0.98718,6 sпримарна

BT-003-T2DMМетаболички1.00019,1 sпримарна

BT-013-GOUTМетаболички1.00019,4 sпримарна

BT-004-NAFLDхепатологија1.00019,6 sпримарна

BT-009-VIRHEPхепатологија0.95023,4 sрезервна опција

BT-014-GILBERTстапица1.00018,9 sпримарна

BT-005-CKDНефрологија1.00017,4 sпримарна

BT-010-ASCVDКардиологија1.00019,7 sпримарна

BT-011-SLEРевматологија0.98118,2 sпримарна

BT-012-VITDЕндокринологија1.00019,3 sпримарна

BT-015-HEALTHYстапица1.00018,7 sрезервна опција

Случајот со PCOS (BT-008) изгуби една задолжителна под-секција во структурата на одговорот — петнаесет од шеснаесет наместо шеснаесет од шеснаесет — што го намали структурниот резултат од 1,000 на 0,963. Случајот со SLE (BT-011) врати малку намалена сума на веројатносно-распределување што го спушти клиничкиот резултат на 0,965, притоа зачувувајќи секој дијагностички клучен збор и систем за бодување. Ниту еден од двата случаи со резултат под совршен не пропушти точна дијагноза.

Агрегат V11 Second Update — 100,000 случаи

На ниво на популација, поединечните редови на случаи не се читливи за човек, па Второто ажурирање пријавува агрегирани метрики наместо табела со 100,000 редови. Главниот агрегат е прикажан подолу; разбивките по специјалност и по ознака за земја се објавени во техничкиот извештај и во депозитот Figshare. Стратифициран случаен примерок од n = 201 сурови одговори на моторот (детерминистичко семе 20260426) се објавува во GitHub results/ директориумот за преглед.

Композитен резултат V11 почетно: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 низ кохортата од 100,000 случаи

Структурен резултат (средна вредност) V11 почетно: 0.998 → Second Update: 1.000 Совршено структурно усогласување на ниво на популација

Клинички резултат (средна вредност) V11 почетно: 0.998 → Second Update: 0.996 −0.002; ниту еден случај не ја пропушти самата дијагноза

Латентност — средна вредност (опсег) Првично V11: 20,17 s (17,0–37,0 s) → Второ ажурирање: 13,26 s (9,0–16,94 s) Оптимизации на производниот мотор помеѓу извршувањата

Патека на моторот = примарна Првично V11: 12 / 15 → Второ ажурирање: 100,000 / 100,000 Ниту во еден момент за време на извршувањето не беше потребен резервен план за Фаза 2

Флагови за хипердијагноза на подмножество на стапици Првично V11: 0 / 13 → Второ ажурирање: 0 / 87,412 Нула лажни позитиви на ниво на популација (8.723 случаи на стапици следени)

Што не ни кажува насловниот резултат

Композитен резултат од 99.80 проценти според оваа конкретна претходно регистрирана рубрика, на синтетичка кохорта од 100,000 случаи што опфаќа 127 ознаки за земји, претставува перформанси речиси до „таван“ — но заслужува внимателно поставување во контекст. Резултатот ја опишува однесувањето на моторот спроти рубриката на која се обврзавме во изворниот код во V11; тоа не е универзална тврдња за исправноста на моторот на секој панел од крвни тестови што постои во реалниот свет.

Резултатот вели дека моторот правилно ги обработил дијагностичките обрасци избрани за оваа евалуација низ кохорт на ниво на популација, според методологија што е објавена и може да се репродуцира. Не вели дека моторот е точен на секој панел за крвна слика што постои во „дивината“. Не вели дека моторот треба да го замени клиничкото проценување. И не вели дека моторот ги надминува алтернативните системи со вештачка интелигенција — компаративните анализи со други мотори беа намерно надвор од опсегот на овој извештај.

Она што резултатот го утврдува е основна линија. Со рубриката и „храната“ јавно достапни, идните верзии на моторот може да се оценуваат според истата рубрика — применета на првичните 15 случаи од V11, кохортот од 100.000 случаи од Второто ажурирање или на било какво последователно проширување — а разликата меѓу објавениот резултат и било кое последователно извршување е самата по себе мерлива. Вредноста на однапред регистрирањето е: ги претвора тврдењата за перформанси во проверливи тврдења.

Како да го репродуцирате овој бенчмарк за 10 минути

Репродукцијата бара само пар Kantesti API акредитиви и средина со Python 3.10 или понова верзија со requests и reportlab инсталирани библиотеки. Целиот хaрнес е еден самостоен Python модул објавен под MIT лиценца.

💻 GitHub MIT-лиценциран хaрнес · сурови одговори · референтно извршување 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · канонски академски запис 🎓 Истражувачка порта Објава 404175463 · V11 Второ ажурирање · слој за академско откривање 📄 Академија.еду Труд 165956808 · V11 Второ ажурирање · слој за академско откривање

Четири чекори за ново извршување

Еден. Клонирај го репозиториумот: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Два. Инсталирајте ги зависностите со pip install -r requirements.txt (Второто ажурирање додава mysql-connector-python ≥ 8.0 за SQL case loader). Три. Поставете KANTESTI_USERNAME и KANTESTI_PASSWORD како променливи на околината за API на моторот. За SQL case loader во Второто ажурирање, исто така поставете KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, и KANTESTI_DB_PASSWORD — натоварувачот се поврзува преку улога само за читање (bench_reader) која нема привилегии за идентификување табели. Четири. Извршете python benchmark_bloodtest.py --limit 100000 за целосното извршување Second-Update, или python benchmark_bloodtest.py --limit 1000 за брза итерација. Излезите се запишуваат во ./benchmark_results/: CSV скоркарта со колони по земја-ознака и по специјалност, JSON агрегат, стратифициран-случаен примерок на сурови одговори и Markdown извештај.

Референтните извршувања од 23 април 2026 (V11 почетно, 15 случаи) и 26 април 2026 (V11 Second Update, 100,000 случаи) се зачувани во results/ директориумот на репозиториумот. Ново извршување ќе создаде нова скор-картичка со нов временски печат, притоа оставајќи ги референтните извршувања недопрени. Ако вашето извршување даде значително различен резултат, ве молиме отворете GitHub issue со временскиот печат на извршувањето и верзијата на моторот вратена во метаподатоците на одговорот.

Ограничувања и идни работи

Дури и при 100,000 случаи низ 127 земји-ознаки, четири ограничувања заслужуваат експлицитно признавање: недоволно опфаќање на ознаки со долга опашка, еднократно (single-shot) оценување, опсег само на еден мотор и потекло на податоци само од еден извор. Секое од нив се адресира во активна последователна работа.

Покриеност на ознаки со долга опашка. Второто ажурирање опфаќа 127 земји-ознаки, но дистрибуцијата е неурамнотежена — првите 10 ознаки сочинуваат ≈66.4% од случаите, а долгата опашка од 97 дополнителни ознаки заедно придонесува ≈7.3% (приближно 7,300 случаи вкупно, ~75 случаи по ознака во просек). Затоа, композитите по ознака во оваа долга опашка се понеизвесни (помалку сигурни) отколку што сугерираат насловните бројки. Идните извршувања ќе ја ребалансираат доделбата на ознаки за да се зацврстат проценките по ознака.

Еднократно оценување. Секој случај во кохортата беше оценет еднаш. Големите јазични модели покажуваат не-тривијална варијанса на излезот дури и при ниска температура на семплирање, па протокол со повеќе извршувања со пет оценки по случај и пријавена варијанса е природен следен чекор — особено на подмножеството „trap-case“, каде конзистентноста при „jitter“ на семплирањето е дел од безбедносното тврдење.

Опфат на единствен мотор. Овој извештај карактеризира еден мотор. Компаративни анализи со алтернативни AI системи не се во опсегот овде; можеби ќе ги спроведеме како посебна независна студија со соодветна методологија, користејќи го истиот MIT-лиценциран harness.

Синтетички податоци. Овие 100,000 случаи се синтетички генерирани, а не „синтетички случаи“, и резултатите не се пренесуваат на реални клинички перформанси. Оценување на реални, со согласност обезбедени, надворешно-изворни податоци би барало соодветен етички надзор и е надвор од опсегот на овој синтетички benchmark.

Над овие четири, највлијателното планирано проширување е паритет по јазик за секоја јурисдикција. Kantesti AI Engine им служи на корисници на 75+ јазици, а извршувањето на јазично-стратифицирани под-кохорти Second-Update (турски, германски, шпански, француски, италијански, португалски, арапски, мандарински) ќе го квантифицира квалитетот на излезот низ поддржаните јазици на моторот. Секоја јазично-стратифицирана анализа ќе биде објавена со сопствен DOI и harness гранка.

Обидете се со истиот мотор што постигна композитен резултат од 99.80% на 100,000 случаи

Поставете го вашиот сопствен панел за крвни анализи на истиот производствен endpoint што беше оценет во оваа бенчмарка. Над 2 милиони корисници ширум светот го користат Kantesti AI Engine за толкување на над 15,000 биомаркери на 75+ јазици.

🔬 Пробајте бесплатна демо верзија

Екстензија за Chrome Продавница за апликации Google Play

📚 Како да ја цитирате оваа бенчмарка

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Технички извештај V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Надворешни методолошки референци

Mentzer, W. C. (1973). Разликување на недостаток на железо од таласемиска особина. The Lancet, 301(7808), 882.

🏥 ПабМед

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Класификациски критериуми на Европската лига против ревматизам / Американскиот колеџ за ревматологија за системски еритематозус лупус. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 ДОИ 🏥 ПабМед

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Тест за медицинска домен халуцинација за големи јазични модели. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Композитен резултат

100,000Оценети случаи

127Опфатени земји-ознаки

0 / 87,412Лажни позитиви на стапицата

Често поставувани прашања

Колку е точен AI моторот Kantesti на синтетички тест случаи?

На однапред регистрирана рубрика, извршена на 100,000 синтетички генерирани тест случаи низ осум области на содржина и 127 земји-ознаки (V11 Second Update), моторот достигна композитен резултат од 99.80 проценти, со нула флагови за хипердијагностика во 87,412 следени можности за „trap-case“ и средна латентност на одговор од 13.26 секунди. Овој композит мери усогласеност на излезот со синтетички влезови, а не дијагностичка точност. Оригиналното издание V11 ја применуваше истата рубрика на 15 рачно конструирани случаи (композит 99.12%); Второто ажурирање ја задржува рубриката идентична по бајт и ја проширува на поголема синтетичка кохорта. Целосната скоркарта е објавена на Figshare под DOI 10.6084/m9.figshare.32095435 и на GitHub под MIT лиценца.

Дали Kantesti AI моторот е клинички валидиран?

Не. Моторот е оценуван со автоматизиран технички benchmark (не клиничка валидација), според рубрика што беше „замрзната“ во изходниот код пред првичното извршување на V11 и беше задржана идентична по бајт за V11 Second Update, оценуван на 100,000 синтетички случаи на крвни тестови низ хематологија, ендокринологија, метаболна медицина, хепатологија, нефрологија, кардиологија, реуматологија и интерна медицина, извлечени од 127 земји-ознаки. Клинички надзор беше обезбеден од д-р Thomas Klein, MD (ORCID 0009-0009-1490-1321), сертифициран клинички хематолог и Chief Medical Officer во Kantesti AI.

Што е случај на „хипердијагностичка стапица“?

Случај за стапица на хипердијагноза е клиничко сценарио специјално дизајнирано да открие однесување на прекумерна дијагноза кај вештачките интелигентни (AI) енџини. Првичниот бенчмарк V11 користеше два такви случаи како методолошки доказ за концепт: изолирана индиректна хипербилирубинемија што одговара на Гилберт-ов синдром (каде што точното толкување е бенигниот полиморфизам UGT1A1, а не хепатитис или хемолиза) и целосно нормален панел за скрининг кај возрасни (каде што точниот излез е уверување, а не вештачки гранична патологија). V11 Второто ажурирање ја прошири оваа методологија на стапица на посебен подзбир од 8.723 случаи, давајќи 87.412 можности за следење на знамиња за хипердијагноза — и стапката на лажни позитиви на енџинот остана нула.

Дали оценката на Kantesti AI Engine може да се повтори?

Целокупниот сет за евалуација е објавен под MIT лиценцата како единствен самостоен Python модул. Првичното извршување V11 бара само пар Kantesti API акредитиви и Python 3.10 или понов. V11 Второто ажурирање додава параметризирачки, само-за-читање SQL-лоадер за случаи кој бара Kantesti акредитиви за клиничко складиште (a bench_reader улога без привилегии за идентификување табели). Кодот, SQL-лоадерот за случаи, рубриката (идентична по бајт меѓу изданијата) и стратифициран случаен примерок од сурови одговори на енџинот и од првичното извршување V11 и од референтните извршувања на Второто ажурирање се достапни на github.com/emirhanai/kantesti-blood-test-benchmark и се огледуваат на Figshare, ResearchGate и Academia.edu.

Како Kantesti AI Engine ја разликува недостатокот на железо од особината на бета-таласемија?

Енџинот го применува индексот Ментцер, пресметан како среден волумен на еритроцити (MCV) поделен со бројот на црвени крвни клетки. Индекс над 13 поддржува анемија поради дефицит на железо, додека вредност под 13 поддржува носителство на бета-таласемија. Во првичниот бенчмарк V11 и двата приказа беа класифицирани правилно со експлицитно пресметување на индексот Ментцер, поддржано со феритин, RDW и контекст за HbA2. Во текот на V11 Второто ажурирање, кохортата од 100.000 случаи, истото диференцијално однесување беше зачувано на ниво на популација.

Каде можам да ги најдам суровите податоци за споредба и изворниот код?

Техничкиот извештај е депониран на Figshare под DOI 10.6084/m9.figshare.32095435 (опфаќајќи го и првичното издание V11 и V11 Второто ажурирање), огледан на ResearchGate публикацијата 404175463 и трудот на Academia.edu 165956808 — и двете ажурирани со насловот на V11 Второто ажурирање и резултатите од 100.000 случаи — и MIT-лиценцираниот Python сет за евалуација со сите резултати од референтните извршувања е на github.com/emirhanai/kantesti-blood-test-benchmark. Мрежата на огледала на четири платформи обезбедува долгорочна достапност и флексибилност за цитирање.

Зошто е важна претходната регистрација за AI медицински бенчмаркови?

Претходната регистрација спречува подоцнежно „подесување“ на рубриката, што е единствениот најчест начин на кој бенчмарковите управувани од компании ги надувуваат сопствените бројки. Со тоа што рубриката се обврзува во изворниот код пред било каков повик на енџинот и се објавува јавно системот, датумите на авторот на рубриката стануваат проверливи во системот за верзии, а резултатите на енџинот не можеле да влијаат врз критериумите за оценување.

Дали овој бенчмарк вклучува споредби со други AI енџини?

Не. Извештајот V11 — и првичното издание и Второто ажурирање — намерно опишува еден енџин против фиксна рубрика, наместо да го позиционира против алтернативни комерцијални системи. Сетот за евалуација е со отворен извор под MIT лиценца (сега вклучувајќи го и SQL-лоадерот за случаи), па независни истражувачи можат да оценат кој било енџин што ќе го изберат против истата рубрика и SQL-лоадер и да ги објават своите резултати.

Дали случаите за пациенти се реални или синтетички?

Сите случаи се синтетички генерирани — 15 рачно конструирани случаи во првичното издание на V11 и 100,000 во Второто ажурирање. Тие не се „синтетички случаи“: не се вклучени синтетички податоци, процес на согласност и де-идентификација, бидејќи во кохортата не постојат лични податоци. Ниту еден личен податок не се појавува во објавениот harness, техничкиот извештај или објавените сетови на податоци.

⚕️ Медицинско одрекување од одговорност & Конфликт на интереси

Овој извештај за бенчмарк е наменет за истражувачки и методолошки цели на транспарентност. Тој не претставува медицински совет, не е дијагноза и не е замена за професионална медицинска грижа; ниту еден резултат овде не треба да се користи за одложување или избегнување посета на лекар. Секогаш консултирајте се со квалификуван здравствен работник за одлуки за дијагноза и третман. Ова е самостоен внатрешен бенчмарк на сопствениот мотор на компанијата и не е независно валидаран или peer-reviewed. Композитниот резултат мери усогласеност со фиксирана рубрика (структура на извештај, поврат на клучни зборови и на системот за бодување, и латентност); тој не е мерка за реална дијагностичка точност или клиничка безбедност. Двата автори се вработени во и имаат удел во Kantesti Ltd, а моторот што се оценува е комерцијален производ на истата организација. Овој конфликт на интереси е ублажен со претходно регистрирање на рубриката во изворниот код, објавување на harness-от под MIT лиценцата и објавување на стратифициран случаен примерок од сурови одговори на моторот.

Сигнали за доверба E-E-A-T

⭐

Искуство

15+ години клиничка пракса во хематологија и лабораториска медицина, со надзор при изборот на панелот на случаи.

📋

Експертиза

Дизајн на рубрика со претходна регистрација со експлицитни казни за хипердијагноза и признати клинички системи за оценување (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Авторитивност

Главен автор д-р Томас Клајн, м-р (ORCID 0009-0009-1490-1321). Имплементација од Џулијан Емирхан Булут, извршен директор на Kantesti Ltd.

🛡️

Доверливост

Репродуцибилен систем со MIT лиценца, објавени сурови одговори на енџинот, отворено обелоденување на конфликт на интереси, мрежа за истражувачки огледала на четири платформи.

🏢 Кантести ДООЕЛ Регистрирана во Англија и Велс · Број на компанија. 17090423 Лондон, Обединето Кралство · kantesti.net