Czemu istnieje ten benchmark i co sprawdza
AI wspomagane wyniki badańo krwi coraz częściej je używane w konsumenckich i klinicznych procesach, ale ramy do powtarzalnej oceny dopasowane do medycyny laboratoryjnej sōm jeszcze rzadkie. Pytania, ktōre tu sōm najważniejsze, to nie te, co je obejmujōm ogōlne benchmarki do medycznego question-answering: czy silnik potrafi rozdzielić niydobōr żelaza z cechōw talaszemii, gdy średnia objętość krwinki jest identyczna, czy przediagnozujō Gilbertowy zespōł jako zapalenie wątroby, i czy wytwarzō patologię w w pełni normalnym panelu przesiewowym?
Jedyn panel z krwi typowo zawiera dość sygnału, coby wspierać kilka konkurencyjnych interpretacyji, a robota interpretujōcego klinicynty polega na tym, żeby ważyć te interpretacyje miyndzy sobōm, a nie na tym, żeby wyciōngnōć odpowiedź jak z podręcznika. Motor, co dobrze radzi sobie z przypadkami z podręcznika, może jeszcze zawieść na tych, co majōm najwiyncy znacōnia: na pułapkach w dyferencyjnej diagnozie, na łagodnych wariantach, co w izolacyji wyglōndajōm alarmujōco, i na w pełni normalnych panelach, co kuszōm pewnych asystentōw do wytwarzania patologii.
Ten benchmark zbudowano dokłodnie na tych trybach porażki. Każdy z piyncyńcie przypadkōw wybrano za konkretnō własność diagnostycznō: mikrocitoza z niedobōru żelaza, co musi być trzymōna oddzielnie od cechy beta-talasemii z identycznym średnim objętościōm krwinki (MCV), prezentacyja w stylu zespołu Gilberta, gdzie jedynō nieprawidłowość je izolowanō podwyższonō pośrednō bilirubinō, oraz panel przesiewowy na piyncyńcie parametrōw, w którym każdy analit je w swōjōm zakresie referencyjnym. Rubryka nagradza motory, co czytōm każdy przypadek po swojich zasadach, a karze motory, co dochodzą do pewnej diagnozy tam, gdzie taka diagnoza niy je uzasadniona.
Jako Thomas Klein, MD, wybrałem panel przypadkōw, bo to są wzorce, co najczęściej myliōm asystentōw z medycyny laboratoryjnej. Kosztowny tryb porażki niy je "przecaśnōć rzadkō chorobę" — to je wytwarzanie rutynowej patologii u pacjentōw, co jej niy majōm. Nasz Walidacyjo medyczno hub opisuje szerszy ramowy system; ta strona opisuje jego zastosowany wynik na silniku V11.
Najnowszy referencyjny przebieg — V11 (kwiecień 2026)
Referencyjny przebieg z kwietnia 2026 dla Kantesti AI Engine V11 wytworzōł wynik złożony: 99.12% na wstępnie zarejestrowanej rubryce z piyncyńcie przypadkōw. Oba przypadki-pułapki z nadrozpoznaniym dostały wynik na pułapie. Indeks Mentzera zastosowano poprawnie w dyferencyjnej diagnozie: niedobōr żelaza vs talasemia.
Wzór na wynik złożony łączy trzy składowe: zgodność strukturalna z siedmioma obowiązkowymi sekcjami raportu i szesnastoma obowiązkowymi podsekcjami, dokładność kliniczna mierzōnō jako przypomnienie klyjuczōw + przypomnienie systemu punktacyji + sprawdzenie ważności rozkładu prawdopodobieństwa, oraz czas odpowiedzi w stosunku do głōwnego celu 20 sekund dla usługi „primary-path”. Dokładny rozkład je pokazany w wzorze rubryki poniżej.
Zbywajōnce 0,88 procenta „headroomu” rozkłodō sie prawie w całości na straty przez latency — trzy wywołania awaryjnych procedur Phase 2, kôżde po minus 0,05 w kompozycie, wniosły ôkoło 0,60 z deficytu 0,88 punktu — a nie do treści kliniczny. Silnik niy przecał niy trafnego rozpoznanio w żadnym z piyncyńcie przypadków; tam, gdzie mu brakło, to było tak, że trzymał troszka dłużej, niźli ôkłodany 20-sekundowy cel dla głōwnego ścieżkowego trybu, w małej mniejszości wywołań.
Piętnaście przypadków na siedem specjalności medycznych
Panel przypadków obejmuje siedem specjalności — hematologię, endokrynologię, medycynę metaboliczną, hepatologię, nefrologię, kardiologię, reumatologię — oraz dwa dedykowane przypadki „hyperdiagnosis trap”. Kōżdy przypadek je zanonimizowany realny zapis pacjenta, wzięty z repozytorium kliniczny danych Kantesti na podstawie pisemnej świadōmej zgody.
De-identyfikacyjo zrobiono w ramach podejścia Safe Harbor: wszyskie bezpośrednie identyfikatory ôdjęto abo zamieniono, a kôżdy zapis dostôł kod przypadkowy „benchmark-internal” w formacie BT-NNN-LABEL. Przebōr zrobiono zgodnie z GDPR Artykuł 9(2)(j) do badań naukowych z ôdpowiednimi zabezpieczeniami, oraz z ôdpowiednimi przepisami UK GDPR. Niy ma nigdzie w opublikowanym „harnessie”, w technicznym raporcie ani w udostępnionych zbiorach danych żadnych informacji, co by mogły identyfikować osobę.
Proč ta konkretna dystrybucyjo
Hematologia dostaje trzi przypadki, bo mikrocytarne róznice (microcytic differentials) i makrocytarne róznice (macrocytic differentials) są najwiyncyjowymi „pułapkami” w realnym laboratōryjnym praktykowaniu. Endokrynologia dostaje trzi, bo prezentacyje Hashimoto, PCOS i niydostōnek witaminy D majōm rózne diagnostyczne kształty (naprowiane przez autoantyciała, naprowiane przez stosunki hormonów, naprowiane przez pojedynczy marker). Specyjalizacyje z jedynym przypadkiem są nadal znaczące, bo kady z CKD, ryzyka ASCVD i SLE ma swōj własny system punktacyje, kery silnik ma wywołać (odpowiednio: stadowanie KDIGO, 10-letnie ryzyko ASCVD, kryterija 2019 EULAR/ACR dla SLE).
Wytłumaczony wstępnie zarejestrowany rubryk
Rejestracyjo przed startym (pre-registration) je jedynaj wažniyjsza metodologiczno decyzja w tym benchmarku. Kady oczekiwany rozpoznak, kady kliniczny system punktacyje i kady sekcyjo raportu były zaangażowane do kodu źródłowego zanim silnik został wywołany. Dalsze „dostrajanie” (post-hoc tuning) rubryki, coby „przyklapnōła” silnikowi, je tedy niemożliwe.
Trzi komponenty składajōm sie na kompozytowy wynik. strukturalny komponent wnosi 35 procent i mieri, czy silnik zwrōcił siedem obowiōzkowych sekcyj raportu (nagłōwek, podsumowanie, kluczowe wnioski, róznice, systemy punktacyje, rekomendacyje, follow-up) i szesnaście obowiōzkowych podsekcyj w nich. Obecność sekcyj waży 40 procent, a obecność podsekcyj waży 60 procent w ramach strukturalnego wyliczania.
Te kliniczny komponent wnosi 55 procent i łaczy trzi rzeczy: przypomnienie słōw-kluczy do rozpoznaka (70 procent klinicznego podwyniku), przypomnienie systemu punktacyje (20 procent — czy silnik liczy Mentzer, FIB-4, HOMA-IR, ryzyko ASCVD, stadowanie KDIGO, kryterija EULAR/ACR, jeźli to ma znaczenie), oraz kontrola prawidłowości sumy prawdopodobieństw (10 procent — prawdopodobieństwa w róznicach majōm sie zsumować do przedziału [90, 110]). W przypadkach „pułapek” odejmujōm jawny penal za hiperdjagnozowanie do 0.30, liczony jako 0.10 za kady wytworzony flag patologii, z limitym na trzy flagi.
Te komponent latencji wnosi 10 procent. Odpowiedz pod 20 sekund dostaje pełne 0.10, odpowiedz pod 40 sekund dostaje 0.05, a co kolwiek wolniyje dostaje zero. Celu na 20 sekund odzwierciedla produkcyjny cel poziomu usługi dla primary-path; sufit 40 sekund odzwierciedla budżet awaryjny w Phase 2 na ciynzkie wywołania silnika.
Co pre-registration zapobiega
Benchmarki robione przez „pierwszych autorōw” (first-party) są znane z napychania swych własnych liczb przez post-hoc dostrajanie rubryki. Wzōr prawie zawsze je ten sam: zespōł uruchamia silnik, widzi, gdzie nie dojeżdża, a potem po cichu dostosowuje rubryku, coby obszary, w których nie dowiozło, liczyły sie mniyj. Przez to, że rubryka je zaangażowana do kodu źródłowego przed pierwszym wywołaniem silnika i że uchwyt je opublikowany pod licencyją MIT, to dostosowanie staje sie widoczne w kontroli wersyj. Kady może sklonować repozytōry, sprawdzić daty autorōw rubryki i zweryfikować, że wyniki silnika nie były użyte do ukształtowania punktacyji.
Przypadki „pułapki” hiperdijagnozy — czemu nadmierne wzywanie je prawdziwym trybem porażki
Agresywne „przypisywanie” patologii na normalnych ekranach je udokumentowany tryb porażki w medycznych asystentach skierowanych do konsumentōw. Jej dalsze koszty zawierajōm niepotrzebne badania, niepokōj pacjenta i jatrogenny rozbōr. Dwa przypadki „pułapek” w tym benchmarku są zaprojektowane, coby ten tryb porażki był widoczny i dał sie ocenić.
🟡 Pułapka 1 — BT-014-GILBERT
Prezentacyjo. Mężczyzna 24 lata z całkowitym bilirubinōm 2.4 mg/dL. Frakcijo bezpośrednia je normalna, transaminazy i fosfataza alkaliczna siedzą w swych zakresach referencyjnych, retikulocyty są nieznaczące, a haptoglobina i LDH wykluczajōm hemolizę.
Poprawna interpretacyjo. Zespōł Gilberta — łagodna polimorfizma UGT1A1. Interpretacyjo nie powinna wywoływać zapalenia wątroby, marskości, hemolitycznej anemii ani zatoru/obstrukcyji dróg żółciowych.
Wynik v11. Kompozyt 1.000. Żadna z szostki monitorowanych flag nadmiernego rozpoznawania nie pojawiła sie jako aktywne rozpoznanie.
🟡 Pułapka 2 — BT-015-HEALTHY
Prezentacyjo. 35-letnia kobieta z rutynowym panelem przesiewowym na piętnaście parametrów. Każdy analit leży wygodnie w swoim zakresie referencyjnym.
Poprawna interpretacyjo. Uspokojenie i podtrzymanie stylu życia. Interpretacja nie powinna wytwarzać granicznej patologii, żeby brzmieć klinicznie użytecznie.
Wynik v11. Kompozyt 1.000. Żaden z siedmiu monitorowanych flag nadmiernego rozpoznawania — cukrzyca, anemia, niedoczynność tarczycy, dyslipidemia, zapalenie wątroby, choroba nerek, niedobór — nie pojawił sie jako aktywne rozpoznania.
W obu „pułapach” sprawdzono trzynaście monitorowanych flag nadmiernego rozpoznawania. Nic nie zadziałało. To je wynik, co najbarzi liczy sie dla każdego klinicysty, co rozważa użycie silnika AI jako narzędzia triage albo przedkonsultacyjnego: system nie wymyślił choroby, jakiej nie było.
Indeks Mentzera: rozdzielanie niydoboru żelaza z cechōw talaszemii
Drugie, wartościowe znalezisko dotyczy sparowania przypadku BT-001 (anemia z niedoboru żelaza) z przypadkiem BT-007 (mała beta-talasemia). Oba występują z mikrocytozą i to je dobrze znana przeszkoda dla naiwnych klasyfikatorów. Indeks Mentzera, liczony jako MCV podzielone przez liczbę RBC, je powyżej 13 w niedoborze żelaza i spada poniżej 13 w cechach talasemii.
W BT-001 pacjentka miała 34 lata, hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferrytyna 6 ng/mL i podwyższony TIBC. Indeks Mentzera, około 17.7, wspiera bezwzględny niedobór żelaza. W BT-007 pacjent miała 28 lat, mikrocytoza (MCV 65.8 fL), ale wysoka liczba RBC 6.2, normalne RDW, normalna ferrytyna i HbA2 5.6 procent. Indeks Mentzera, około 10.6, wskazuje na cechy talasemii, a podwyższony HbA2 potwierdza małą beta-talasemię.
Oba przypadki dostały wynik 1.000. Silnik użył indeksu Mentzera wprost w obu interpretacjach i zwrócił poprawne rozpoznanie w każdym wypadku. To je jedyny najbardziej uspokajający klinicznie wynik w całym benchmarku, bo mylne zaklasyfikowanie cech talasemii jako niedoboru żelaza prowadzi do nieodpowiedniego suplementowania żelaża i pominięcia możliwości przesiewu rodzinnego, a mylne zaklasyfikowanie niedoboru żelaża jako talasemii opóźnia proste leczenie zastępcze. Nasze przewodnik po zakresie ferrytyny wyjaśnia szerszy kontekst różnicowania.
Wyniki per-kazus z kwietniowego runu 2026
Dwanaście z piętnastu przypadków osiągnęło sufitowy wynik kompozytowy 1.000 na głównej ścieżce. Trzy przypadki obsłużono przez awaryjny tryb Phase 2, tracąc bonus 0.05 za latencję, ale zachowując całe treści kliniczne i strukturalne. Jeden przypadek nie miał jednego obowiązkowego podrozdziału; jeden zwrócił tylko nieco zmniejszoną sumę rozkładu prawdopodobieństwa.
Przypadek PCOS (BT-008) stracił jedynō obowiōnzujōcy podrozdział w strukturze odpowiedzi — piętnaście z szesnastu zamiast szesnastu z szesnastu — co obniżyło punktōwōnie struktury z 1.000 do 0.963. Przypadek SLE (BT-011) zwrōcił marginalnie zniżōnō sumę rozkładu prawdopodobieństwa, co obniżyło punktōwōnie kliniczne do 0.965, przy zachowaniu wszyskich słōw kluczowych do diagnozy i systemu punktōwōnia. Żaden z tych dwuch przypadkōw nie był niedoskōnały tak, żeby przeca nie trafnie postawił diagnozy.
Co nam nie mowi nagłōwkowy wynik
Złożōny wynik 99,12 procent w ramach tego konkretnego, wstępnie zarejestrowanego rubryka oznacza prawie wynik na pułce, ale zasługuje na staranne osadzenie w kontekście. Wynik opisuje zachowanie silnika w konfrontacji z piętnastoma starannie wybranymi zanonimizowanymi przypadkami, ocenianymi po jednym razie, w ramach jednego rubryka. Jesteśmy wyraźni, co ta liczba robi, a czego nie potwierdza.
Wynik mowi, że silnik V11 poprawnie obsłużył wzorce diagnostyczne wybrane do tego badania, według metodyki, kery je opublikowanō i da się ją odtworzyć. Nie mowi, że silnik je poprawny na wszysckich panelach badań krwi, jakie istniejō w realnym świecie. Nie mowi, że silnik ma zastąpić osąd klinicysty. I nie mowi, że silnik je lepszy od innyh systemōw AI — porōwnawcze analizy do innyh silnikōw były celowo poza zakresem tego raportu.
To, co wynik faktycznie potwierdza, to punkt wyjścia. Skoro rubryka i środowisko testowe sō publiczne, przyszłe wersje silnika można oceniać w odniesieniu do tych samych piętnastu przypadkōw, a różnica miyndzy opublikowanym wynikiem a każdōm następnym uruchomieniem je sama w sobie mierzalna. To je wartość wstępnej rejestracji: zamienia twierdzenia o wydajności na twierdzenia, kery da się testować.
Jak odtworzyć to benchmark w 10 minut
Odtworzenie wymaga tylko pary poświadczeń API Kantesti i środowiska Python 3.10 albo nowszego z requests i reportlab zainstalowanymi bibliotekami. Całe środowisko testowe to jeden samowystarczalny moduł Pythona wydany pod licencjō MIT.
Cztery kroki do świeżego uruchomienia
Jeden. Skloń repozytorium: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dwa. Zainstaluj zależności za pomocōm pip install -r requirements.txt. Trzi. Ustaw KANTESTI_USERNAME i KANTESTI_PASSWORD jako zmienne środowiskowe — poświadczenia sōm czytane w czasie uruchōmienia, a nic nie je na sztywno w skrypcie. Trzi. Uruchōm python benchmark_bloodtest.py i obejrzyj cztery artefakty, co sie wytworzyły do katalogu roboczego: CSV scorecard, JSON scorecard, pełny JSON dump z wkludziem surowych odpowiedzi silnika oraz czytelny dla człowieka raport w Markdown.
Referencyjny przebieg z 23 kwietnia 2026 je zachowany w results/ katalogu w repozytorium. Świeży przebieg wytworzi nowy scorecard z nowym timestampym, ale referencyjny przebieg zostawi niezmieniony. Jeźli twój przebieg da znacząco inny wynik, to proszōm otwōrz issue na GitHubie z timestampym przebiegu i wersyją silnika, co je zwrocona w metadanych odpowiedzi.
Ograniczynia i prziyszłe prace
Cztery ograniczenia zasługujōm na jawne uznanie: wielkość próby, ocena „single-shot”, zakres jednego silnika i pochodzenie danych z jednego źrōdła. Każde z nich je adresowane w aktywnych pracach następczych.
Wielkość próby. Piętnaście przypadków w ôsmu kategoriach specjalistycznych je dosyć na proof of concept, ale nie na analizę podgrup w ramach jednej specjalności. Planowane je rozszerzenie do pięćdziesiōnt przypadków i wkludzi panele do krzepnięcia, przesiew na nowotwory hematologiczne, panele do ciąż i pediatryczne przedsztywienia.
Ocena „single-shot”. Każdy przypadek był oceniony raz. Modele wielkich językōw wykazujōm niebłachowōm wariancję wyjścia nawet przy niskiej temperaturze próbkowania, wiync protokōł wielokrotnego uruchōmienia z pięcioma ewaluacjami na przypadek i podanōm wariancją je naturalnym następnym krokiem.
Zakres jednego silnika. Ten raport charakteryzuje jeden silnik. Analizy porōwnawcze do inych systemōw AI sōm poza zakresem tu; moźemy je ewentualnie podjōm jako osobne niezależne badanie z odpowiedniōm metodologiōm.
Pochodzenie danych z jednego źrōdła. Te piętnaście przypadków je zanonimizowanymi prawdziwymi zapisami pacjentōw, wziętymi z jednego klinicznego repozytorium. Reprezentujōm dopracowany zbiór i nie sōm losowym wyborem, co by był reprezentatywny dla populacyji. Rozszerzenie ewaluacyji na dane z wielu ośrodkōw je w planie na przyszłość.
Najbardziej wpływowe planowane rozszerzenie to parytet wielojęzyczny. Silnik AI Kantesti służy uźytkownikōm w 75+ językach, a uruchōmienie tego samego testowego zestawu z piętnastu przypadkami po turecku, niemiecku, hiszpańsku, francusku i po arabsku pozwoli zmierzyć jakość wyjścia w językach, co silnik wspiera. Opublikujemy każdy przebieg specyficzny dla języka z jego własnym DOI i gałęziōm harness.