Kantesti AI Benchmark badania krwi

Zautomatyzowany benchmark Wstępnie zarejestrowany benchmark V11 Druga aktualizacja — kwiecień 2026 Na licencji MIT Odtwarzalny · Otwarte dane 100 tys. syntetyczny kohort · 127 etykiet krajów

99,80% wynik złożony według wstępnie zarejestrowanego kryterium — V11 Druga aktualizacja, kohorta 100 000 przypadków obejmująca 127 etykiet krajów

Wstępnie zarejestrowany, oparty na rubryce, zautomatyzowany techniczny benchmark silnika Kantesti na 100 000 syntetycznie wygenerowanych przypadków badań krwi oznaczonych 127 etykietami krajów. Mierzy zgodność wyników, a nie dokładność diagnostyczną. Rubryka została zamrożona w kodzie źródłowym przed pierwszym wydaniem V11 i pozostała identyczna bajtowo dla tej Drugiej aktualizacji; zestaw ewaluacyjny jest na licencji MIT; opublikowano stratyfikowaną losową próbkę surowych odpowiedzi silnika do wglądu. Wszystkie przypadki są syntetyczne; nie używa się danych osobowych.

📖 ~14 minut 📅 Opublikowano 23 kwietnia 2026 · Zaktualizowano 26 kwietnia 2026 (V11 Druga aktualizacja) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Opublikowano: 23 kwietnia 2026 r. 🔄 V11 Druga aktualizacja: 26 kwietnia 2026 🩺 Medycznie zweryfikowane: 26 kwietnia 2026 ✅ Wstępnie zarejestrowana rubryka (identyczna bajtowo) 🔓 Otwarty kod i dane

Ten zautomatyzowany benchmark został zaprojektowany i uruchomiony przez Julian Emirhan Bulut, starszego inżyniera AI i CEO Kantesti Ltd. Punktacja jest w pełni zautomatyzowana w kodzie źródłowym; kryteria oceny i panel przypadków zostały opracowane przy udziale klinicznym przez Dr Thomas Klein, lekarz medycyny, dyrektora medycznego w Kantesti AI, i zweryfikowane przez Rada doradcza ds. medycznych Kantesti AI. To samodzielnie uruchamiany wewnętrzny benchmark, a nie niezależny ani poddany recenzji zewnętrznej zautomatyzowany techniczny benchmark.

Główny autor i nadzór kliniczny

Thomas Klein, lekarz medycyny

Główny Lekarz, Kantesti AI

Dr Thomas Klein jest certyfikowanym lekarzem hematologiem klinicznym i internistą z ponad 15-letnim doświadczeniem w medycynie laboratoryjnej. Jako Chief Medical Officer w Kantesti AI wybrał panel przypadków do tego benchmarku, przejrzał treść kliniczną i oczekiwane odpowiedzi syntetycznych przypadków oraz zatwierdził wstępnie zarejestrowaną rubrykę przed pierwszym uruchomieniem silnika.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Współautor & wdrożenie

Julian Emirhan Bulut

Starszy inżynier AI & CEO, Kantesti Ltd

Julian Emirhan Bulut jest założycielem i dyrektorem generalnym Kantesti Ltd. Zaprojektował i wdrożył środowisko testowe oceny — w tym moduł SQL do ładowania przypadków dodany do V11 Drugiej aktualizacji — przeprowadził integrację API, wykonał zarówno początkowy referencyjny przebieg V11, jak i przebieg V11 Drugiej aktualizacji obejmujący 100 000 przypadków, oraz przygotował agregację statystyczną. Założyciel platformy od 2019 roku.

GitHub O Kantesti

⚡ Szybkie podsumowanie V11 Druga aktualizacja — 26 kwietnia 2026

Złożony wynik 99.80% na 100 000 syntetycznych przypadków badań krwi obejmujących osiem specjalności medycznych i 127 etykiet krajów (V11 Druga aktualizacja).
Brak fałszywie dodatnich wyników nadrozpoznania w 87 412 monitorowanych możliwościach flagowania przypadków pułapkowych — ta sama metodologia przypadków pułapkowych co w początkowym V11, skalowana do poziomu populacji.
Rubryka zarejestrowana z wyprzedzeniem zamrożone w kodzie źródłowym przed początkowym uruchomieniem V11 i zachowane identycznie bajtowo dla tej Drugiej aktualizacji — nie było możliwe żadne strojenie post-hoc.
Prawidłowo zastosowany indeks Mentzera w celu odróżnienia niedokrwistości z niedoboru żelaza od beta-talasemii minor w początkowym wydaniu V11; zachowano zachowanie różnicujące na poziomie populacji.
Tylko punkt końcowy produkcyjny — bez uprzywilejowanego routingu, oceniane dokładnie tak, jak uzyskuje dostęp płacający klient.
Średnie opóźnienie 13,26 sekundy end-to-end (zakres 9,0–16,94 s), przy czym wszystkie 100 000 przypadków zakończyło się na głównej ścieżce silnika.
Syntetyczna kohorta. 100 000 syntetycznie wygenerowanych przypadków testowych wczytywanych w czasie uruchomienia. Nie używa się danych syntetycznych ani danych osobowych.
Testowy zestaw (harness) na licencji MIT Udostępnione na GitHub wraz z warstwowo-losową próbką (n = 201) pełnych surowych odpowiedzi silnika do wglądu.
DOI Figshare: 10.6084/m9.figshare.32095435 · Zduplikowane (mirrored) na ResearchGate, Academia.edu, GitHub.

Dlaczego istnieje ten benchmark i co sprawdza

Analiza krwi AI wspomagana przez sztuczną inteligencję jest coraz częściej stosowana w procesach konsumenckich i klinicznych, jednak ramy oceny możliwe do odtworzenia, dopasowane do medycyny laboratoryjnej, pozostają rzadkością. Najważniejsze w tym kontekście pytania nie są tymi, które obejmują ogólne benchmarki do medycznego odpowiadania na pytania: czy silnik potrafi odróżnić niedobór żelaza od cechy talasemii, gdy średnia objętość krwinki jest identyczna, czy nadmiernie diagnozuje zespół Gilberta jako zapalenie wątroby oraz czy wytwarza patologię w w pełni prawidłowym panelu przesiewowym?

Pojedynczy panel badań krwi zazwyczaj zawiera na tyle sygnału, by umożliwić kilka konkurujących interpretacji, a zadaniem interpretującego lekarza jest ważyć te interpretacje względem siebie, a nie odszukiwać odpowiedź „z podręcznika”. Silnik, który dobrze radzi sobie w przypadkach podręcznikowych, może jednak zawieść w tych, które mają największe znaczenie: w pułapkach diagnostyki różnicowej, w łagodnych wariantach wyglądających alarmująco, gdy rozpatruje się je w izolacji, oraz w pełni prawidłowych panelach, które kuszą pewnych siebie asystentów do wytwarzania patologii.

Ten benchmark został zbudowany dokładnie wokół tych trybów porażki. Każdy z piętnastu przypadków wybrano ze względu na określoną właściwość diagnostyczną: mikrocytozę z niedoboru żelaza, którą trzeba odróżnić od cechy beta-talasemii o identycznej średniej objętości krwinki (MCV), prezentację zespołu Gilberta, w której jedyną nieprawidłowością jest izolowana pośrednia hiperbilirubinemia, oraz panel przesiewowy obejmujący piętnaście parametrów, w którym każdy analit mieści się w swoim zakresie referencyjnym. Kryterium premiuje silniki, które czytają każdy przypadek na jego własnych zasadach, a karze silniki, które sięgają po pewną diagnozę tam, gdzie taka diagnoza nie jest uzasadniona.

Jako Thomas Klein, MD, wybrałem ten zestaw przypadków, ponieważ to właśnie te wzorce asystenci z obszaru medycyny laboratoryjnej najczęściej interpretują błędnie. Kosztowny tryb porażki nie polega na "pominięciu rzadkiej choroby" — polega na wytwarzaniu rutynowej patologii u pacjentów, u których jej nie ma. Nasz Walidacja medyczna hub opisuje szersze ramy; ta strona opisuje początkowy proof-of-concept V11 oraz V11 Drugą aktualizację, która skalowała go do 100 000 syntetycznych przypadków zaczerpniętych z syntetycznego zbioru przypadków obejmującego 127 etykiet krajów — z użyciem tej samej rubryki punktującej, identycznej bajtowo, bez dopuszczenia strojenia post-hoc.

Najnowszy przebieg referencyjny — V11 Second Update (26 kwietnia 2026)

Referencyjny przebieg V11 Second Update z 26 kwietnia 2026 wygenerował wynik złożony 99.80% na tej samej wstępnie zarejestrowanej rubryce użytej w początkowym wydaniu V11, oceniany na 100 000 syntetycznych przypadków zaczerpniętych z syntetycznego zbioru przypadków Kantesti i obejmujących 127 etykiet krajów oraz języki 75+. Każdy przypadek został ukończony na głównej ścieżce silnika; aktywacje flagi hiperdetekcji w przypadkach pułapkowych pozostały na 0 / 87,412. Oryginalny przebieg V11 z 23 kwietnia 2026 obejmował 15 przypadków ręcznie wyselekcjonowanych (wynik złożony 99.12%) i zweryfikował rubrykę; Second Update zachowuje tę rubrykę identyczną bajtowo i rozszerza ocenę na kohortę na skalę populacyjną.

Wynik złożony 99.80% 100 000 z 100 000 przypadków uzyskało wynik

1.000 Wynik strukturalny

0.996 Wynik kliniczny

13.26 s Średnie opóźnienie

0 / 87,412 Fałszywie dodatnie wyniki w pułapkach

Wzór na wynik złożony łączy trzy składowe: zgodność strukturalna z siedmioma obowiązkowymi sekcjami raportu i szesnastoma obowiązkowymi podsekcjami, dokładność treści mierzona jako przypominanie słów kluczowych plus przypominanie systemu punktacji plus test poprawności ważności rozkładu prawdopodobieństwa, oraz opóźnienie odpowiedzi względem docelowego poziomu usług dla głównej ścieżki. Dokładny rozkład przedstawiono w poniższym wzorze rubryki — żadne z tych wag ani pod-rubryk nie zostały zmienione w Second Update.

Wynik złożony = 0.35 × Strukturalny + 0.55 × Kliniczny + 0.10 × Opóźnienie

Pozostałe 0,20 punktu procentowego zapasu (headroom) rozkłada się prawie w całości na wynik podkliniczny — niewielka część przypadków (głównie w Hepatologii i Reumatologii) miała jedno oczekiwane słowo kluczowe z systemu punktacji nieobecne w interpretacji silnika, mimo że treść diagnostyczna była poprawna. Żaden przypadek w kohorcie Second Update liczącej 100 000 przypadków nie pominął samej diagnozy. Opóźnienie poprawiło się ze średniej 20,17 s w początkowym wydaniu V11 do 13,26 s w Second Update, odzwierciedlając optymalizacje silnika produkcyjnego pomiędzy dwoma przebiegami; rubryka, kod punktacji i punkt końcowy API pozostają bez zmian.

Wyniki złożone per etykieta wahały się od 0,9971 do 0,9985 wśród 30 najczęściej reprezentowanych etykiet krajów. Długi ogon 97 dodatkowych etykiet (łącznie ≈7 300 przypadków) nie wykazał systematycznego pogorszenia. Najczęstsze etykiety według liczby przypadków to: Stany Zjednoczone (10 500), Brazylia (9 500), Hiszpania (9 000), Włochy (8 000), Niemcy (7 800), Francja (7 400), Portugalia (5 800), Türkiye (3 400), Zjednoczone Królestwo (2 900) i Meksyk (2 500).

Od 15 przypadków do 100 000: ewolucja kohorty w obrębie 127 etykiet krajów

Oryginalny panel przypadków V11 obejmował siedem specjalności — hematologię, endokrynologię, medycynę metaboliczną, hepatologię, nefrologię, kardiologię, reumatologię — oraz dwa dedykowane przypadki pułapek do hiperdetekcji, przy czym każdy przypadek stanowił syntetycznie wygenerowany panel badań krwi. V11 Druga aktualizacja rozszerza ewaluację na 100 000 syntetycznych przypadków obejmujących 127 etykiet krajów, rozłożonych na osiem specjalności (oryginalne siedem plus dedykowana „szuflada” medycyny wewnętrznej, która obejmuje podzbiór pułapek). Ta sama rubryka punktacyjna jest stosowana identycznie bajtowo w obu przebiegach.

Ponieważ wszystkie przypadki są syntetycznie generowane, nie ma rzeczywistych identyfikatorów do usunięcia i nie są zaangażowane żadne dane osobowe. Każdy syntetyczny przypadek ma kod przypadku wewnętrzny dla benchmarku (BT-NNN-LABEL w początkowym zestawie V11, stabilny case_uid w Drugiej aktualizacji). W opublikowanym zestawie testowym, raporcie technicznym ani w udostępnionych zbiorach danych nigdzie nie pojawiają się dane osobowe.

początkowym wydaniem V11 — 15 przypadków ręcznie wyselekcjonowanych

Oryginalny panel przypadków V11 został ręcznie skomponowany przez dr. Thomasa Kleina, aby ćwiczyć wzorce diagnostyczne, które asystenci medycyny laboratoryjnej najczęściej błędnie interpretują. Każdy z piętnastu przypadków został wybrany ze względu na określoną właściwość diagnostyczną, wymienioną poniżej.

Hematologia (3) BT-001, BT-006, BT-007 Niedokrwistość z niedoboru żelaza · Niedobór B12 · Mała beta-talasemia

Endokrynologia (3) BT-002, BT-008, BT-012 Zapalenie tarczycy Hashimoto · PCOS z opornością na insulinę · Ciężki niedobór witaminy D

Metaboliczne (2) BT-003, BT-013 T2DM z zespołem metabolicznym · Hiperurykemia z ryzykiem dny

Hepatologia (2) BT-004, BT-009 NAFLD / NASH · Ostre wirusowe zapalenie wątroby

Nefrologia · Kardiologia · Reumatologia (3) BT-005, BT-010, BT-011 CKD w stadium 3 · Dyzlipidemia aterogenna · Toczeń rumieniowaty układowy

Przypadki pułapki (2) BT-014, BT-015 Zespół Gilberta (izolowana hiperbilirubinemia pośrednia) · W pełni prawidłowy przesiew u dorosłych

Dlaczego właśnie taki rozkład

Hematologia otrzymuje trzy przypadki, ponieważ w praktyce laboratoryjnej w realnym świecie największymi „pułapkami” o największej częstotliwości są różnicowania mikrocytarne i makrocytarne. Endokrynologia otrzymuje trzy, ponieważ obrazy kliniczne w przebiegu choroby Hashimoto, PCOS i niedoboru witaminy D przyjmują różne kształty diagnostyczne (napędzane autoprzeciwciałami, napędzane proporcjami hormonów, napędzane pojedynczym markerem). Specjalizacje jedno-przypadkowe nadal mają znaczenie, ponieważ każdy z CKD, ryzyka ASCVD i SLE ma własny system punktacji, który silnik powinien wywołać (odpowiednio: stopniowanie KDIGO, 10-letnie ryzyko ASCVD, kryteria SLE 2019 EULAR/ACR).

V11 Druga aktualizacja — 100 000 syntetycznych przypadków obejmujących 127 etykiet krajów

Druga aktualizacja zastępuje oryginalny V11 zakodowany na sztywno literał Pythona dla 15 przypadków większym, programowo generowanym syntetycznym zbiorem przypadków. Zbiór przypadków jest wczytywany na początku każdego uruchomienia, a konfiguracja jest logowana dla przejrzystości. Rozkład kohorty według obszaru treści pokazano poniżej.

Endokrynologia 23 900 przypadków (23,9%) Tarczyca, PCOS, witamina D, oś gonadalna, przysadka

Medycyna metaboliczna 21 900 przypadków (21,9%) T2DM, zespół metaboliczny, panele lipidowe, hiperurykemia

Hematologia 15 400 przypadków (15,4%) Różnicowanie mikrocytarne i makrocytarne, B12/folian, badania gospodarki żelazem

Hepatologia 12 400 przypadków (12,4%) NAFLD/NASH, wirusowe zapalenie wątroby, FIB-4, cholestaza

Medycyna wewnętrzna (w tym podzbiór pułapek) 9 000 przypadków (9,0%) Mieszane prezentacje oraz 8 723 dedykowane przypadki pułapek do hiperdiagnostyki

Kardiologia 7 500 przypadków (7,5%) Ryzyko ASCVD, aterogenna dyslipidemia, hs-CRP

Reumatologia 6 000 przypadków (6,0%) SLE, RZS, zapalenia naczyń, panele autoprzeciwciał (kryteria EULAR/ACR)

Nefrologia 4 000 przypadków (4,0%) Stopniowanie CKD (KDIGO), trendy eGFR, zaburzenia elektrolitowe

Syntetyczny rozkład etykiet krajów — top 10 etykiet

100 000 syntetycznych przypadków zawiera 127 etykiet krajów (ISO 3166-1 alpha-2), aby przetestować obsługę ustawień lokalnych. Przypisanie etykiet: Europa 57,7%, Ameryki 25,4%, Azja i Pacyfik 6,2%, nazwane etykiety Bliski Wschód/Afryka 3,4% oraz długi ogon 97 dodatkowych etykiet łącznie około 7,3%. Dziesięć najczęstszych etykiet według liczby przypadków to: Stany Zjednoczone (10 500), Brazylia (9 500), Hiszpania (9 000), Włochy (8 000), Niemcy (7 800), Francja (7 400), Portugalia (5 800), Türkiye (3 400), Zjednoczone Królestwo (2 900) i Meksyk (2 500). Wyniki złożone per etykieta wahały się od 0,9971 do 0,9985. Te liczności etykiet są właściwościami wygenerowanych przypadków użytych do testowania obsługi ustawień lokalnych — nie są to realni użytkownicy i nie odzwierciedlają rzeczywistego zasięgu geograficznego.

Wyjaśniona rubryka wstępnie zarejestrowana

Rejestracja wstępna jest jedną z najważniejszych decyzji metodologicznych w tym benchmarku. Każda oczekiwana diagnoza, każdy kliniczny system punktacji i każda sekcja raportu zostały zobowiązane do kodu źródłowego zanim silnik został uruchomiony. Dostosowywanie post-hoc rubryki w celu „podkręcenia” wyniku silnika jest więc niemożliwe.

Trzy składowe składają się na wynik złożony. Składowa strukturalna wnosi 35 procent i mierzy, czy silnik zwrócił siedem obowiązkowych sekcji raportu (nagłówek, podsumowanie, kluczowe ustalenia, różnicowanie, systemy punktacji, zalecenia, obserwacja) oraz szesnaście obowiązkowych podsekcji w ramach tych sekcji. Obecność sekcji waży 40 procent, a obecność podsekcji waży 60 procent w obliczeniu strukturalnym.

Ten składowa kliniczna wnosi 55 procent i łączy trzy elementy: przypominanie słów kluczowych diagnozy (70 procent klinicznej podskali), przypominanie systemu punktacji (20 procent — czy silnik oblicza Mentzer, FIB-4, HOMA-IR, ryzyko ASCVD, stopniowanie KDIGO, kryteria EULAR/ACR, gdy ma to zastosowanie) oraz test poprawności sumy prawdopodobieństw (10 procent — prawdopodobieństwa w różnicowaniu powinny sumować się do wartości w przedziale [90, 110]). W przypadkach-pułapkach odejmowana jest jawna kara za nadrozpoznanie do 0,30, obliczana jako 0,10 za każdy wytworzony znacznik patologii, z limitem do trzech znaczników.

Ten składowa opóźnienia wnosi 10 procent. Odpowiedź poniżej 20 sekund otrzymuje pełne 0,10, odpowiedź poniżej 40 sekund otrzymuje 0,05, a wszystko wolniejsze otrzymuje zero. Cel 20 sekund odzwierciedla produkcyjny cel poziomu usługi dla usługi primary-path; sufit 40 sekund odzwierciedla budżet awaryjny dla Phase 2 przy ciężkich wywołaniach silnika.

Czego zapobiega rejestracja wstępna

Benchmarki pierwszoosobowe są notorycznie podatne na zawyżanie własnych wyników poprzez dostrajanie rubryki post-hoc. Wzorzec jest prawie zawsze ten sam: zespół uruchamia silnik, widzi, gdzie wypada słabiej, a następnie cicho dostosowuje rubrykę tak, by obszary słabiej wypadające liczyły się mniej. Zobowiązując rubrykę do kodu źródłowego przed pierwszym wywołaniem silnika i publikując harness na licencji MIT, to dostosowanie staje się widoczne w kontroli wersji. Każdy może sklonować repozytorium, sprawdzić daty autorów rubryki i zweryfikować, że wyniki silnika nie były użyte do kształtowania punktacji.

Przypadki pułapki hiperdiagnozy — dlaczego nadmierne „przypisywanie” jest realnym trybem porażki

Agresywne nadawanie rozpoznań patologii na prawidłowych ekranach jest udokumentowanym trybem awarii asystentów medycznych skierowanych do konsumentów. Koszty pośrednie obejmują niepotrzebne badania, niepokój pacjenta i niekorzystne działania wynikające z niepotrzebnej diagnostyki. Dwa przypadki-pułapki w tym benchmarku są zaprojektowane tak, aby ten tryb awarii był widoczny i możliwy do punktowania.

🟡 Pułapka 1 — BT-014-GILBERT

Obraz. Mężczyzna, 24 lata, z całkowitą bilirubiną 2,4 mg/dL. Frakcja bezpośrednia jest prawidłowa, transaminazy i fosfataza alkaliczna mieszczą się w swoich zakresach referencyjnych, retikulocyty są bez istotnych cech, a haptoglobina i LDH wykluczają hemolizę.

Prawidłowa interpretacja. Zespół Gilberta — łagodny polimorfizm UGT1A1. Interpretacja nie powinna wywoływać zapalenia wątroby, marskości, niedokrwistości hemolitycznej ani niedrożności dróg żółciowych.

Wynik V11. Wynik złożony 1.000. Żaden z sześciu monitorowanych znaczników nadrozpoznania nie pojawił się jako aktywna diagnoza.

🟡 Pułapka 2 — BT-015-ZDROWY

Obraz. Kobieta, 35 lat, z piętnastoparametrowym rutynowym panelem przesiewowym. Każdy analit znajduje się wygodnie w swoim zakresie referencyjnym.

Prawidłowa interpretacja. Uspokojenie i utrzymanie stylu życia. Interpretacja nie powinna wytwarzać granicznej patologii, aby brzmiała klinicznie użytecznie.

Wynik V11. Złożony wynik 1.000. Żadna z siedmiu monitorowanych flag nadmiernego rozpoznawania — cukrzyca, anemia, niedoczynność tarczycy, dyslipidemia, zapalenie wątroby, choroba nerek, niedobór — nie pojawiła się jako aktywna diagnoza.

W obu pułapkach sprawdzono trzynaście monitorowanych flag nadrozpoznawania. Żadna nie została uruchomiona. To wynik, który ma największe znaczenie dla każdego klinicysty rozważającego użycie silnika AI jako narzędzia triage lub poprzedzającego konsultację: system nie wymyślił choroby, jeśli nie istniała.

Indeks Mentzera: rozdzielanie niedoboru żelaza od cechy talasemii

Drugie wysokowartościowe ustalenie dotyczy połączenia przypadku BT-001 (anemia z niedoboru żelaza) z przypadkiem BT-007 (beta-talasemia mała). Oba przebiegają z mikrocytozą i są dobrze znaną przeszkodą dla naiwnych klasyfikatorów. Indeks Mentzera, obliczany jako MCV podzielone przez liczbę RBC, przekracza 13 w niedoborze żelaza i spada poniżej 13 w cechach talasemii.

W BT-001 pacjentką była 34-letnia kobieta z hemoglobiną 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferrytyną 6 ng/mL oraz podwyższonym TIBC. Indeks Mentzera wynoszący około 17,7 wspiera bezwzględny niedobór żelaza. W BT-007 pacjentem był 28-letni mężczyzna z mikrocytozą (MCV 65,8 fL), ale wysoką liczbą RBC 6,2, prawidłowym RDW, prawidłową ferrytyną oraz HbA2 5,6 procent. Indeks Mentzera wynoszący około 10,6 wskazuje na cechy talasemii, a podwyższone HbA2 potwierdza beta-talasemię małą.

Anemia z niedoboru żelaza Mentzer > 13 Niska ferrytyna, niskie TSAT, wysokie TIBC, podwyższone RDW

Cechy beta-talasemii Mentzer < 13 Prawidłowa ferrytyna, prawidłowe RDW, podwyższone HbA2 (>3.5%), wysoka liczba RBC

Oba przypadki uzyskały wynik 1.000. Silnik wyraźnie użył indeksu Mentzera w obu interpretacjach i zwrócił prawidłową diagnozę w każdym przypadku. To pojedynczy najbardziej uspokajający klinicznie wynik w całym benchmarku, ponieważ błędne zaklasyfikowanie cech talasemii jako niedoboru żelaza prowadzi do nieodpowiedniej suplementacji żelazem i pominięcia możliwości przesiewu rodzinnego, a błędne zaklasyfikowanie niedoboru żelaza jako talasemii opóźnia proste leczenie zastępcze. Nasze przewodnik po zakresie ferrytyny wyjaśnia szerszy kontekst różnicowania.

Wyniki per-przypadek z początkowego przebiegu referencyjnego V11 (23 kwietnia 2026)

Oryginalny przebieg referencyjny V11 na 15-przypadkowej kohorcie proof-of-concept stanowi podstawę metodyczną dla Second Update: każdy szczegół per-przypadek poniżej pokazuje, jak rubryka obsługuje rzeczywistą odpowiedź silnika. Dwanaście z piętnastu przypadków osiągnęło sufit złożonego wyniku 1.000 na głównej ścieżce; trzy przypadki zostały obsłużone przez mechanizm awaryjny Phase 2, tracąc premię za opóźnienie 0.05, ale zachowując całą treść kliniczną i strukturalną. W jednym przypadku brakowało pojedynczej obowiązkowej podsekcji; jeden zwrócił nieco zmniejszoną sumę rozkładu prawdopodobieństwa.

Identyfikator przypadku Specjalizacja Wynik złożony Opóźnienie Ścieżka

BT-001-IDAHematologia1.00017,8 sgłówna

BT-006-B12Hematologia1.00018,4 sgłówna

BT-007-THALHematologia1.00017,0 sgłówna

BT-002-HASHEndokrynologia0.95037,0 sawaryjny tryb (fallback)

BT-008-PCOSEndokrynologia0.98718,6 sgłówna

BT-003-T2DMMetaboliczny1.00019,1 sgłówna

BT-013-GOUTMetaboliczny1.00019,4 sgłówna

BT-004-NAFLDHepatologia1.00019,6 sgłówna

BT-009-VIRHEPHepatologia0.95023,4 sawaryjny tryb (fallback)

BT-014-GILBERTPułapka1.00018,9 sgłówna

BT-005-CKDNefrologia1.00017,4 sgłówna

BT-010-ASCVDKardiologia1.00019,7 sgłówna

BT-011-SLEReumatologia0.98118,2 sgłówna

BT-012-WIT DEndokrynologia1.00019,3 sgłówna

BT-015-ZDROWYPułapka1.00018,7 sawaryjny tryb (fallback)

Przypadek PCOS (BT-008) utracił w odpowiedzi pojedynczą obowiązkową podsekcję w strukturze — piętnaście na szesnaście zamiast szesnastu na szesnaście — co obniżyło wynik strukturalny z 1,000 do 0,963. Przypadek SLE (BT-011) zwrócił nieznacznie zmniejszoną sumę rozkładu prawdopodobieństwa, przez co wynik kliniczny spadł do 0,965, przy zachowaniu każdego słowa kluczowego diagnostycznego i systemu punktacji. Żaden z przypadków nieosiągających ideału nie pominął prawidłowej diagnozy.

Agregat V11 Second Update — 100,000 przypadków

W skali populacyjnej pojedyncze wiersze przypadków nie są czytelne dla człowieka, więc Druga aktualizacja raportuje zagregowane metryki zamiast tabeli 100 000 wierszy. Główna zagregowana wartość jest pokazana poniżej; podział per specjalność i per etykieta kraju jest opublikowany w raporcie technicznym oraz w depozycie Figshare. Stratyfikowana losowa próbka n = 201 surowych odpowiedzi silnika (deterministyczne ziarno 20260426) jest publikowana w repozytorium GitHub results/ do wglądu.

Wynik złożony V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 w kohorcie 100,000 przypadków

Wynik strukturalny (średnia) V11 initial: 0.998 → Second Update: 1.000 Idealna zgodność strukturalna w skali populacyjnej

Wynik kliniczny (średnia) V11 initial: 0.998 → Second Update: 0.996 −0.002; żaden przypadek nie pominął samej diagnozy

Opóźnienie — średnia (zakres) Wstępna wersja V11: 20,17 s (17,0–37,0 s) → Druga aktualizacja: 13,26 s (9,0–16,94 s) Optymalizacje silnika produkcyjnego między uruchomieniami

Ścieżka silnika = główna Wstępna wersja V11: 12 / 15 → Druga aktualizacja: 100,000 / 100,000 W żadnym momencie podczas uruchomienia nie była potrzebna awaryjna ścieżka Phase 2

Flagi nadrozpoznania (hyperdiagnosis) dla podzbioru pułapek Wstępna wersja V11: 0 / 13 → Druga aktualizacja: 0 / 87,412 Brak fałszywych trafień na skalę populacyjną (monitorowano 8 723 przypadki pułapek)

Co nam nie mówi wynik nagłówkowy

Wynik złożony 99,80 procent w ramach tej konkretnej wstępnie zarejestrowanej rubryki, dla syntetycznej kohorty 100 000 przypadków obejmującej 127 etykiet krajów, oznacza osiągnięcie bliskie sufitowi — ale wymaga to starannego osadzenia w kontekście. Wynik opisuje zachowanie silnika względem rubryki, do której zobowiązaliśmy się w kodzie źródłowym w V11; nie jest to uniwersalne twierdzenie o poprawności silnika dla każdego istniejącego w świecie panelu badań krwi.

Wynik mówi, że silnik poprawnie obsłużył wybrane w tym badaniu wzorce diagnostyczne w kohorcie na skalę populacyjną, w oparciu o opublikowaną i możliwą do odtworzenia metodykę. Nie mówi, że silnik jest poprawny na każdym istniejącym w praktyce panelu badań krwi. Nie mówi też, że silnik powinien zastępować osąd klinicysty. I nie mówi, że silnik przewyższa alternatywne systemy AI — porównawcze analizy z innymi silnikami celowo nie wchodziły w zakres tego raportu.

To, co wynik faktycznie ustala, to punkt odniesienia. Ponieważ rubryka i środowisko testowe są publiczne, przyszłe wersje silnika można oceniać względem tej samej rubryki — stosując ją do wstępnych 15 przypadków V11, kohorty 100 000 przypadków z Drugiej aktualizacji lub do dowolnego późniejszego rozszerzenia — a różnica między opublikowanym wynikiem a dowolnym kolejnym uruchomieniem jest sama w sobie mierzalna. Taka jest wartość pre-rejestracji: przekształca twierdzenia o wydajności w twierdzenia możliwe do przetestowania.

Jak odtworzyć ten benchmark w 10 minut

Odtworzenie wymaga jedynie pary poświadczeń API Kantesti oraz środowiska z Pythonem 3.10 lub nowszym, z requests I reportlab zainstalowanymi bibliotekami. Pełne narzędzie to pojedynczy, samowystarczalny moduł Pythona wydany na licencji MIT.

💻 GitHub Narzędzie na licencji MIT · surowe odpowiedzi · uruchomienie referencyjne 🔗 DOI Figshare 10.6084/m9.figshare.32095435 · kanoniczny zapis naukowy 🎓 ResearchGate Publikacja 404175463 · V11 Druga aktualizacja · warstwa odkrywania akademickiego 📄 Academia.edu Praca 165956808 · V11 Druga aktualizacja · warstwa odkrywania akademickiego

Cztery kroki do nowego uruchomienia

Jeden. Sklonuj repozytorium: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dwa. Zainstaluj zależności za pomocą pip install -r requirements.txt (Druga aktualizacja dodaje mysql-connector-python ≥ 8.0 dla modułu ładującego przypadki SQL). Trzy. Ustaw KANTESTI_USERNAME I KANTESTI_PASSWORD jako zmienne środowiskowe dla API silnika. Dla modułu ładującego przypadki SQL w Drugiej aktualizacji ustaw także KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, I KANTESTI_DB_PASSWORD — loader łączy się przez rolę tylko do odczytu (bench_reader) która nie ma uprawnień do identyfikowania tabel. Cztery. Uruchom python benchmark_bloodtest.py --limit 100000 dla pełnego przebiegu Second-Update lub python benchmark_bloodtest.py --limit 1000 do szybkiej iteracji. Wyniki trafiają do ./benchmark_results/: karta wyników w formacie CSV z kolumnami per-kraj i per-specjalizacja, agregat w formacie JSON, stratyfikowana losowa próbka surowych odpowiedzi oraz raport w formacie Markdown.

Przebiegi referencyjne z 23 kwietnia 2026 r. (V11 początkowy, 15 przypadków) oraz z 26 kwietnia 2026 r. (V11 Second Update, 100,000 przypadków) są zachowane w results/ katalogu repozytorium. Świeży przebieg wygeneruje nowy arkusz wyników z nowym znacznikiem czasu, pozostawiając przebiegi referencyjne bez zmian. Jeśli Twój przebieg daje znacząco inny wynik, prosimy otworzyć issue na GitHubie z podaniem znacznika czasu przebiegu oraz wersji silnika zwróconej w metadanych odpowiedzi.

Ograniczenia i prace przyszłe

Nawet przy 100 000 przypadków w 127 etykietach krajów, cztery ograniczenia zasługują na wyraźne omówienie: niedosampling etykiet o długim ogonie, ocena jednorazowa, zakres obejmujący pojedynczą maszynę oraz pochodzenie danych z jednego źródła. Każde z nich jest adresowane w aktywnych pracach następczych.

Pokrycie etykiet o długim ogonie. Druga aktualizacja obejmuje 127 etykiet krajów, ale rozkład jest niezrównoważony — 10 najważniejszych etykiet stanowi ≈66.4% przypadków, a długi ogon 97 dodatkowych etykiet łącznie wnosi ≈7.3% (około 7 300 przypadków łącznie, średnio ~75 przypadków na etykietę). Zatem kompozyty per-etykieta w tym długim ogonie są bardziej zaszumione niż sugerują liczby nagłówkowe. Przyszłe uruchomienia ponownie zrównoważą przypisywanie etykiet, aby doprecyzować estymacje per-etykieta.

Ocena jednorazowa. Każdy przypadek w kohorcie był oceniany raz. Modele wielkich języków wykazują istotną zmienność wyników nawet przy niskiej temperaturze próbkowania, więc wieloprzebiegowy protokół z pięcioma ocenami na przypadek oraz raportowaną wariancją jest naturalnym kolejnym krokiem — szczególnie w podzbiorze przypadków-pułapek, gdzie spójność przy „szumie” próbkowania jest częścią twierdzenia o bezpieczeństwie.

Zakres jednego silnika. Ten raport opisuje jeden silnik. Analizy porównawcze względem alternatywnych systemów AI są poza zakresem; możemy je podjąć jako osobne niezależne badanie z odpowiednią metodyką, w oparciu o ten sam zestaw testowy na licencji MIT.

Dane syntetyczne. Te 100 000 przypadków jest wygenerowanych syntetycznie, a nie są to „przypadki syntetyczne” — wyniki nie przenoszą się na rzeczywistą wydajność kliniczną. Ocena na rzeczywistych, uzyskanych za zgodą, danych pochodzących z zewnętrznych źródeł wymagałaby odpowiedniego nadzoru etycznego i nie wchodzi w zakres tego syntetycznego benchmarku.

Poza tymi czterema, najbardziej znaczącym planowanym rozszerzeniem jest parytet wielojęzyczny per jurysdykcja. Silnik Kantesti AI obsługuje użytkowników w 75+ językach, a uruchomienie warstwowo-językowych podkohort Second-Update (turecki, niemiecki, hiszpański, francuski, włoski, portugalski, arabski, mandaryński) pozwoli zmierzyć jakość odpowiedzi wśród języków obsługiwanych przez silnik. Każda analiza warstwowo-językowa będzie publikowana wraz z własnym DOI oraz gałęzią zestawu testowego.

Wypróbuj ten sam silnik, który osiągnął wynik złożony 99.80% na 100,000 przypadków

Prześlij własny panel wyników badań krwi na ten sam końcowy punkt produkcyjny, który został oceniony w tym benchmarku. Ponad 2 miliony użytkowników na całym świecie korzysta z silnika AI Kantesti, aby interpretować ponad 15 000 biomarkerów w 75+ językach.

🔬 Wypróbuj darmową wersję demonstracyjną

Rozszerzenie Chrome Sklep z aplikacjami Google Play

📚 Jak cytować ten benchmark

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Wstępnie zarejestrowany, oparty na rubryce zautomatyzowany techniczny benchmark interpretacji testu krwi Kantesti na 100 000 syntetycznych przypadków testowych — V11 Second Update (Raport techniczny V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Zewnętrzne odniesienia metodologiczne

Mentzer, W. C. (1973). Różnicowanie niedoboru żelaza od cechy talasemii. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology kryteria klasyfikacji tocznia rumieniowatego układowego. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: test omamień w domenie medycznej dla dużych modeli językowych. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Wynik złożony

100,000Przypadki ocenione

127Obejmowane etykiety krajów

0 / 87,412Fałszywe trafienia w pułapce

Często zadawane pytania

Jak dokładny jest silnik AI Kantesti w przypadku testów na danych syntetycznych?

Na wstępnie zarejestrowanej rubryce, uruchomionej na 100 000 syntetycznie wygenerowanych przypadkach testowych w ośmiu obszarach tematycznych i 127 etykietach krajów (V11 Second Update), silnik osiągnął wynik kompozytowy 99,80 procent, bez flag hiperdiagnostyki w 87 412 monitorowanych możliwościach pułapkowych oraz ze średnim opóźnieniem odpowiedzi wynoszącym 13,26 sekundy. Ten wynik kompozytowy mierzy zgodność wyjścia na syntetycznych danych wejściowych, a nie dokładność diagnostyczną. Oryginalne wydanie V11 stosowało tę samą rubrykę do 15 ręcznie skonstruowanych przypadków (wynik kompozytowy 99,12%); Druga aktualizacja utrzymuje rubrykę identyczną bajtowo i rozszerza ją na większą kohortę syntetyczną. Pełna karta wyników jest opublikowana na Figshare pod DOI 10.6084/m9.figshare.32095435 oraz na GitHubie na licencji MIT.

Czy silnik AI Kantesti został klinicznie zwalidowany?

Nie. Silnik został oceniony za pomocą zautomatyzowanego technicznego benchmarku (a nie walidacji klinicznej), w oparciu o rubrykę zamrożoną w kodzie źródłowym przed początkowym uruchomieniem V11 i utrzymaną identyczną bajtowo dla V11 Second Update, ocenianą na 100 000 syntetycznych przypadków testów krwi w obszarach hematologii, endokrynologii, medycyny metabolicznej, hepatologii, nefrologii, kardiologii, reumatologii oraz medycyny wewnętrznej, wybranych z 127 etykiet krajów. Nadzór kliniczny zapewnił dr Thomas Klein, MD (ORCID 0009-0009-1490-1321), certyfikowany specjalista hematologii klinicznej oraz Chief Medical Officer w Kantesti AI.

Co to jest przypadek „pułapki nadrozpoznania”?

Przypadek pułapki hiperdiagnozy to scenariusz kliniczny zaprojektowany specjalnie w celu wykrycia zachowań prowadzących do nadrozpoznawania w silnikach AI. Pierwszy benchmark V11 wykorzystał dwa takie przypadki jako dowód koncepcji metodycznej: izolowaną pośrednią hiperbilirubinemię zgodną z zespołem Gilberta (gdzie prawidłowa interpretacja dotyczy łagodnego polimorfizmu UGT1A1, a nie zapalenia wątroby ani hemolizy) oraz w pełni prawidłowy panel przesiewowy dorosłych (gdzie prawidłowym wynikiem jest uspokojenie, a nie wytworzona graniczna patologia). V11 Second Update rozszerzył tę metodykę pułapki do dedykowanej podgrupy 8 723 przypadków, generując 87 412 możliwości oznaczenia hiperdiagnozy pod stałą obserwacją — a współczynnik fałszywie dodatnich wskazań silnika pozostał na poziomie zera.

Czy ocena silnika AI Kantesti jest możliwa do odtworzenia?

Pełny zestaw narzędzi ewaluacyjnych jest udostępniony na licencji MIT jako pojedynczy, samodzielny moduł Pythona. Pierwsze uruchomienie V11 wymaga jedynie pary poświadczeń API Kantesti oraz Pythona 3.10 lub nowszego. V11 Second Update dodaje parametryzowany, tylko do odczytu moduł ładujący przypadki SQL, który wymaga poświadczeń repozytorium klinicznego Kantesti (rola bench_reader bez uprawnień do identyfikowania tabel). Kod, zapytanie SQL modułu ładującego przypadki, rubryka (bajtowo identyczna między wydaniami) oraz stratyfikowana losowa próbka surowych odpowiedzi silnika z obu uruchomień referencyjnych — pierwszego V11 i Second Update — są dostępne na github.com/emirhanai/kantesti-blood-test-benchmark oraz zarchiwizowane na Figshare, ResearchGate i Academia.edu.

W jaki sposób silnik AI Kantesti rozróżnia niedobór żelaza od cechy beta-talasemii?

Silnik stosuje indeks Mentzera, obliczany jako średnia objętość krwinki czerwonej podzielona przez liczbę krwinek czerwonych. Indeks Mentzera powyżej 13 wspiera rozpoznanie niedokrwistości z niedoboru żelaza, natomiast wartość poniżej 13 wspiera cechę beta-talasemii. W pierwszym benchmarku V11 oba te obrazy kliniczne zostały sklasyfikowane poprawnie dzięki jawnemu obliczeniu indeksu Mentzera, z uwzględnieniem kontekstu ferrytyny, RDW i HbA2. W całej kohorcie 100 000 przypadków V11 Second Update zachowano to samo różnicujące zachowanie na poziomie populacyjnym.

Gdzie mogę znaleźć surowe dane porównawcze (benchmark) oraz kod źródłowy?

Raport techniczny został zdeponowany na Figshare pod DOI 10.6084/m9.figshare.32095435 (obejmującym zarówno pierwsze wydanie V11, jak i V11 Second Update), zarchiwizowany na ResearchGate pod publikacją 404175463 oraz na Academia.edu pod artykułem 165956808 — oba zaktualizowane o tytuł V11 Second Update i wyniki dla 100 000 przypadków — a zestaw narzędzi Pythona na licencji MIT wraz ze wszystkimi wynikami uruchomień referencyjnych znajduje się na github.com/emirhanai/kantesti-blood-test-benchmark. Czteroplatformowa sieć lustrzana zapewnia długoterminową dostępność i elastyczność cytowań.

Dlaczego wstępna rejestracja jest ważna dla medycznych benchmarków AI?

Wstępna rejestracja zapobiega dostrajaniu rubryki post hoc, co jest jedynym najczęstszym sposobem, w jaki benchmarki prowadzone przez firmy zawyżają własne wyniki. Zobowiązując się do zamrożenia rubryki w kodzie źródłowym przed jakimkolwiek wywołaniem silnika i publikując zestaw publicznie, daty autorów rubryki stają się możliwe do sprawdzenia w systemie kontroli wersji, a wyniki silnika nie mogły ukształtować kryteriów oceny.

Czy ten benchmark obejmuje porównania z innymi silnikami AI?

Nie. Raport V11 — zarówno pierwsze wydanie, jak i Second Update — celowo opisuje jeden silnik w odniesieniu do stałej rubryki, a nie pozycjonuje go względem alternatywnych systemów komercyjnych. Zestaw narzędzi jest open source na licencji MIT (obecnie obejmuje również moduł ładujący przypadki SQL), więc niezależni badacze mogą ocenić dowolny wybrany przez siebie silnik w odniesieniu do tej samej rubryki i modułu ładującego przypadki oraz opublikować swoje wyniki.

Czy przypadki pacjentów są prawdziwe czy syntetyczne?

Wszystkie przypadki są wygenerowane syntetycznie — 15 ręcznie skonstruowanych przypadków w początkowym wydaniu V11 oraz 100 000 w Drugiej aktualizacji. To nie są „przypadki syntetyczne”: nie ma danych syntetycznych, nie ma procesu uzyskiwania zgody i nie ma odidentyfikowania, ponieważ w kohorcie nie istnieją żadne dane osobowe. Żadne dane osobowe nie pojawiają się w opublikowanym zestawie testowym, raporcie technicznym ani w udostępnionych zbiorach danych.

⚕️ Zastrzeżenie medyczne i konflikt interesów

Niniejszy raport z benchmarku jest przeznaczony do celów badawczych oraz przejrzystości metodologicznej. Nie stanowi porady medycznej, nie jest diagnozą i nie zastępuje profesjonalnej opieki medycznej; żaden wynik tutaj nie powinien być użyty do opóźniania lub unikania wizyty u lekarza. Zawsze konsultuj się z wykwalifikowanym pracownikiem ochrony zdrowia w sprawie decyzji dotyczących diagnozy i leczenia. To samodzielnie uruchomiony wewnętrzny benchmark silnika firmy i nie został niezależnie zwalidowany ani poddany recenzji. Wynik złożony mierzy zgodność z ustalonym schematem oceny (struktura raportu, przypominanie słów kluczowych i systemu punktacji oraz opóźnienie); nie jest miarą rzeczywistej dokładności diagnostycznej ani bezpieczeństwa klinicznego. Obaj autorzy są zatrudnieni przez Kantesti Ltd i posiadają w niej udziały kapitałowe, a oceniany silnik jest produktem komercyjnym tej samej organizacji. Konflikt interesów jest łagodzony poprzez wcześniejsze zarejestrowanie schematu oceny w kodzie źródłowym, udostępnienie narzędzia testowego na licencji MIT oraz opublikowanie warstwowej losowej próby surowych odpowiedzi silnika.

Sygnały zaufania E-E-A-T

⭐

Doświadczenie

15+ lat praktyki klinicznej w hematologii i medycynie laboratoryjnej, nadzorującej dobór panelu przypadków.

📋

Ekspertyza

Projekt rubryki z wstępną rejestracją z jawnymi karami za hiperdiagnozę oraz uznanymi systemami punktacji klinicznej (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autorytatywność

Główny autor dr Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementacja: Julian Emirhan Bulut, CEO Kantesti Ltd.

🛡️

Solidność

Odtwarzalny harness na licencji MIT, opublikowane surowe odpowiedzi silnika, otwarte ujawnienie konfliktu interesów, czterosystemowa sieć lustrzanych kopii badawczych.

🏢 Kantesti LTD Zarejestrowana w Anglii i Walii · Numer spółki. 17090423 Londyn, Wielka Brytania · kantesti.net