Kantesti AI analiza krwi — kliniczna walidacyjo

Walidacyjo kliniczno Wcześniy zarejestrowany benchmark V11 — kwiecień 2026 Na licencyji MIT Może być weryfikowany przez rówieśników

99.12% kompozytowy wynik na wstępnie zarejestrowanym rubryku z zerowym hiperdijagnozowaniem fałszywych pozytywów

Niezależno, wstępnie zarejestrowana kliniczna ocena Kantesti AI Engine na anonimizowanych przypadkach z badańo krwi. Rubryk zamarzł w kodzie źródłowym przed pierwszym wywołaniym silnika, narzędzie do oceny je na licencyji MIT, a każda surowa odpowiedź je opublikowana.

📖 ~14 minut 📅 23. kwietnia 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Opublikowane: 23. kwietnia 2026 🩺 Medycznie zweryfikowane: 23. kwietnia 2026 ✅ Wstępnie zarejestrowany rubryk 🔓 Otwarty kod & dane

To badanie kliniczne walidacyjne prowadzōno przez Thomas Klein, dochtor, dyrektora medycznego (Chief Medical Officer) w Kantesti AI, we wspołpracy z Julian Emirhan Bulut, starszym inżynierym AI i CEO w Kantesti Ltd. Metodyka i rubryk były przejrzane przez Rada Doradczo Medyczno Kantesti AI.

Główny autor & nadzór kliniczny

Thomas Klein, dochtor

Głōwny funkcjōnariusz medyczny, Kantesti AI

Dr. Thomas Klein je certyfikowany kliniczny hematolog i internista z ponad 15 latami doświydczenia w medycynie laboratoryjnej. Jako Chief Medical Officer w Kantesti AI, wybrał panel przypadków do tego benchmarku, przejrzōł wszyskie diagnostyczne prawdy bazowe i zatwierził wstępnie zarejestrowany rubryk przed pierwszym uruchōmiyniem silnika.

ORCID 0009-0009-1490-1321 Brama Podszukowań Google Uczōny

Współautor & wdrożenie

Julian Emirhan Bulut

Starszy inżynier AI & CEO, Kantesti Ltd

Julian Emirhan Bulut je założycielem i CEO Kantesti Ltd. Zaprojektował i wdrożył narzędzie do oceny, wykonał integracyje API, przeprowadził uruchōmiynie benchmarku w kwietniu 2026 i przygotował statystyczne zsumowanie. Założyciel platformy od 2019.

GitHub Ô Kantesti

⚡ Gibke podsumowanie V11 — 23. kwietnia 2026

Złożōny wynik 99.12% na 15 zanonimizowanych realnych przypadkach badańo krwi pacjentōw w siedmiu specjalizacjach medycznych.
Zero fałszywych pozytywōw w hiper-diagnostyce na obu trap przypadkach (zespōł Gilberta i w pełni normalny przesiew dorosłego).
Rubryka zarejestrowana przed startym zamrożōna w kodzie źrōdłowym przed pierwszym wywołaniym silnika — nie było możliwe żadne strojenie post-hoc.
Indeks Mentzera poprawnie zastosowany do rozrōżnienia anemii z niydoboru żelaza od beta-talaszemii minor.
Tylko endpoint produkcyjny — bez uprziwilejowanego routingu, oceniany dokłado tak, jakby to dostympował płacōcy klient.
Średni czas latency 20.17 sekundy end-to-end, z 12 z 15 przypadkōw poniżej głōwnego celu 20 sekund.
Harness na licencyji MIT wypuszczōny na GitHub z każdym surowym odpowiedziym silnika — wspierane niezależne odtworzenie.
DOI na Figshare: 10.6084/m9.figshare.32095435 · Zmirrowane na ResearchGate, Academia.edu, GitHub.

Czemu istnieje ten benchmark i co sprawdza

AI wspomagane wyniki badańo krwi coraz częściej je używane w konsumenckich i klinicznych procesach, ale ramy do powtarzalnej oceny dopasowane do medycyny laboratoryjnej sōm jeszcze rzadkie. Pytania, ktōre tu sōm najważniejsze, to nie te, co je obejmujōm ogōlne benchmarki do medycznego question-answering: czy silnik potrafi rozdzielić niydobōr żelaza z cechōw talaszemii, gdy średnia objętość krwinki jest identyczna, czy przediagnozujō Gilbertowy zespōł jako zapalenie wątroby, i czy wytwarzō patologię w w pełni normalnym panelu przesiewowym?

Jedyn panel z krwi typowo zawiera dość sygnału, coby wspierać kilka konkurencyjnych interpretacyji, a robota interpretujōcego klinicynty polega na tym, żeby ważyć te interpretacyje miyndzy sobōm, a nie na tym, żeby wyciōngnōć odpowiedź jak z podręcznika. Motor, co dobrze radzi sobie z przypadkami z podręcznika, może jeszcze zawieść na tych, co majōm najwiyncy znacōnia: na pułapkach w dyferencyjnej diagnozie, na łagodnych wariantach, co w izolacyji wyglōndajōm alarmujōco, i na w pełni normalnych panelach, co kuszōm pewnych asystentōw do wytwarzania patologii.

Ten benchmark zbudowano dokłodnie na tych trybach porażki. Każdy z piyncyńcie przypadkōw wybrano za konkretnō własność diagnostycznō: mikrocitoza z niedobōru żelaza, co musi być trzymōna oddzielnie od cechy beta-talasemii z identycznym średnim objętościōm krwinki (MCV), prezentacyja w stylu zespołu Gilberta, gdzie jedynō nieprawidłowość je izolowanō podwyższonō pośrednō bilirubinō, oraz panel przesiewowy na piyncyńcie parametrōw, w którym każdy analit je w swōjōm zakresie referencyjnym. Rubryka nagradza motory, co czytōm każdy przypadek po swojich zasadach, a karze motory, co dochodzą do pewnej diagnozy tam, gdzie taka diagnoza niy je uzasadniona.

Jako Thomas Klein, MD, wybrałem panel przypadkōw, bo to są wzorce, co najczęściej myliōm asystentōw z medycyny laboratoryjnej. Kosztowny tryb porażki niy je "przecaśnōć rzadkō chorobę" — to je wytwarzanie rutynowej patologii u pacjentōw, co jej niy majōm. Nasz Walidacyjo medyczno hub opisuje szerszy ramowy system; ta strona opisuje jego zastosowany wynik na silniku V11.

Najnowszy referencyjny przebieg — V11 (kwiecień 2026)

Referencyjny przebieg z kwietnia 2026 dla Kantesti AI Engine V11 wytworzōł wynik złożony: 99.12% na wstępnie zarejestrowanej rubryce z piyncyńcie przypadkōw. Oba przypadki-pułapki z nadrozpoznaniym dostały wynik na pułapie. Indeks Mentzera zastosowano poprawnie w dyferencyjnej diagnozie: niedobōr żelaza vs talasemia.

Złożony 99.12% 15 z 15 przypadkōw dostało punkty

0.998 Wynik strukturalny

0.998 Wynik kliniczny

20.17 s Średni czas odpowiedzi

0 / 13 Pułapki fałszywych pozytywōw

Wzór na wynik złożony łączy trzy składowe: zgodność strukturalna z siedmioma obowiązkowymi sekcjami raportu i szesnastoma obowiązkowymi podsekcjami, dokładność kliniczna mierzōnō jako przypomnienie klyjuczōw + przypomnienie systemu punktacyji + sprawdzenie ważności rozkładu prawdopodobieństwa, oraz czas odpowiedzi w stosunku do głōwnego celu 20 sekund dla usługi „primary-path”. Dokładny rozkład je pokazany w wzorze rubryki poniżej.

Złożony = 0.35 × Strukturalny + 0.55 × Kliniczny + 0.10 × Latency

Zbywajōnce 0,88 procenta „headroomu” rozkłodō sie prawie w całości na straty przez latency — trzy wywołania awaryjnych procedur Phase 2, kôżde po minus 0,05 w kompozycie, wniosły ôkoło 0,60 z deficytu 0,88 punktu — a nie do treści kliniczny. Silnik niy przecał niy trafnego rozpoznanio w żadnym z piyncyńcie przypadków; tam, gdzie mu brakło, to było tak, że trzymał troszka dłużej, niźli ôkłodany 20-sekundowy cel dla głōwnego ścieżkowego trybu, w małej mniejszości wywołań.

Piętnaście przypadków na siedem specjalności medycznych

Panel przypadków obejmuje siedem specjalności — hematologię, endokrynologię, medycynę metaboliczną, hepatologię, nefrologię, kardiologię, reumatologię — oraz dwa dedykowane przypadki „hyperdiagnosis trap”. Kōżdy przypadek je zanonimizowany realny zapis pacjenta, wzięty z repozytorium kliniczny danych Kantesti na podstawie pisemnej świadōmej zgody.

De-identyfikacyjo zrobiono w ramach podejścia Safe Harbor: wszyskie bezpośrednie identyfikatory ôdjęto abo zamieniono, a kôżdy zapis dostôł kod przypadkowy „benchmark-internal” w formacie BT-NNN-LABEL. Przebōr zrobiono zgodnie z GDPR Artykuł 9(2)(j) do badań naukowych z ôdpowiednimi zabezpieczeniami, oraz z ôdpowiednimi przepisami UK GDPR. Niy ma nigdzie w opublikowanym „harnessie”, w technicznym raporcie ani w udostępnionych zbiorach danych żadnych informacji, co by mogły identyfikować osobę.

Hematologia (3) BT-001, BT-006, BT-007 Niedobōr żelaza, anemia · Niedobōr B12 · Mała beta-talasemia

Endokrynologia (3) BT-002, BT-008, BT-012 Zapalenie tarczycy typu Hashimoto · PCOS z insulinoopornością · Ciynki niedobōr witaminy D

Metaboliczne (2) BT-003, BT-013 Cukrzyca typu 2 z zespołem metabolicznym · Hiperurykemia z ryzykiem dny

Hepatologia (2) BT-004, BT-009 NAFLD / NASH · Ostre wirusowe zapalenie wątroby

Nefrologia · Kardiologia · Reumatologia (3) BT-005, BT-010, BT-011 CKD stopień 3 · Dyslipidemia aterogenna · Układowy toczeń rumieniowaty

Przypadki „trap” (2) BT-014, BT-015 Zespōł Gilberta (izolowana pośrednia hiperbilirubinemia) · W pełni normalny przesiew dorosłego

Proč ta konkretna dystrybucyjo

Hematologia dostaje trzi przypadki, bo mikrocytarne róznice (microcytic differentials) i makrocytarne róznice (macrocytic differentials) są najwiyncyjowymi „pułapkami” w realnym laboratōryjnym praktykowaniu. Endokrynologia dostaje trzi, bo prezentacyje Hashimoto, PCOS i niydostōnek witaminy D majōm rózne diagnostyczne kształty (naprowiane przez autoantyciała, naprowiane przez stosunki hormonów, naprowiane przez pojedynczy marker). Specyjalizacyje z jedynym przypadkiem są nadal znaczące, bo kady z CKD, ryzyka ASCVD i SLE ma swōj własny system punktacyje, kery silnik ma wywołać (odpowiednio: stadowanie KDIGO, 10-letnie ryzyko ASCVD, kryterija 2019 EULAR/ACR dla SLE).

Wytłumaczony wstępnie zarejestrowany rubryk

Rejestracyjo przed startym (pre-registration) je jedynaj wažniyjsza metodologiczno decyzja w tym benchmarku. Kady oczekiwany rozpoznak, kady kliniczny system punktacyje i kady sekcyjo raportu były zaangażowane do kodu źródłowego zanim silnik został wywołany. Dalsze „dostrajanie” (post-hoc tuning) rubryki, coby „przyklapnōła” silnikowi, je tedy niemożliwe.

Trzi komponenty składajōm sie na kompozytowy wynik. strukturalny komponent wnosi 35 procent i mieri, czy silnik zwrōcił siedem obowiōzkowych sekcyj raportu (nagłōwek, podsumowanie, kluczowe wnioski, róznice, systemy punktacyje, rekomendacyje, follow-up) i szesnaście obowiōzkowych podsekcyj w nich. Obecność sekcyj waży 40 procent, a obecność podsekcyj waży 60 procent w ramach strukturalnego wyliczania.

Te kliniczny komponent wnosi 55 procent i łaczy trzi rzeczy: przypomnienie słōw-kluczy do rozpoznaka (70 procent klinicznego podwyniku), przypomnienie systemu punktacyje (20 procent — czy silnik liczy Mentzer, FIB-4, HOMA-IR, ryzyko ASCVD, stadowanie KDIGO, kryterija EULAR/ACR, jeźli to ma znaczenie), oraz kontrola prawidłowości sumy prawdopodobieństw (10 procent — prawdopodobieństwa w róznicach majōm sie zsumować do przedziału [90, 110]). W przypadkach „pułapek” odejmujōm jawny penal za hiperdjagnozowanie do 0.30, liczony jako 0.10 za kady wytworzony flag patologii, z limitym na trzy flagi.

Te komponent latencji wnosi 10 procent. Odpowiedz pod 20 sekund dostaje pełne 0.10, odpowiedz pod 40 sekund dostaje 0.05, a co kolwiek wolniyje dostaje zero. Celu na 20 sekund odzwierciedla produkcyjny cel poziomu usługi dla primary-path; sufit 40 sekund odzwierciedla budżet awaryjny w Phase 2 na ciynzkie wywołania silnika.

Co pre-registration zapobiega

Benchmarki robione przez „pierwszych autorōw” (first-party) są znane z napychania swych własnych liczb przez post-hoc dostrajanie rubryki. Wzōr prawie zawsze je ten sam: zespōł uruchamia silnik, widzi, gdzie nie dojeżdża, a potem po cichu dostosowuje rubryku, coby obszary, w których nie dowiozło, liczyły sie mniyj. Przez to, że rubryka je zaangażowana do kodu źródłowego przed pierwszym wywołaniem silnika i że uchwyt je opublikowany pod licencyją MIT, to dostosowanie staje sie widoczne w kontroli wersyj. Kady może sklonować repozytōry, sprawdzić daty autorōw rubryki i zweryfikować, że wyniki silnika nie były użyte do ukształtowania punktacyji.

Przypadki „pułapki” hiperdijagnozy — czemu nadmierne wzywanie je prawdziwym trybem porażki

Agresywne „przypisywanie” patologii na normalnych ekranach je udokumentowany tryb porażki w medycznych asystentach skierowanych do konsumentōw. Jej dalsze koszty zawierajōm niepotrzebne badania, niepokōj pacjenta i jatrogenny rozbōr. Dwa przypadki „pułapek” w tym benchmarku są zaprojektowane, coby ten tryb porażki był widoczny i dał sie ocenić.

🟡 Pułapka 1 — BT-014-GILBERT

Prezentacyjo. Mężczyzna 24 lata z całkowitym bilirubinōm 2.4 mg/dL. Frakcijo bezpośrednia je normalna, transaminazy i fosfataza alkaliczna siedzą w swych zakresach referencyjnych, retikulocyty są nieznaczące, a haptoglobina i LDH wykluczajōm hemolizę.

Poprawna interpretacyjo. Zespōł Gilberta — łagodna polimorfizma UGT1A1. Interpretacyjo nie powinna wywoływać zapalenia wątroby, marskości, hemolitycznej anemii ani zatoru/obstrukcyji dróg żółciowych.

Wynik v11. Kompozyt 1.000. Żadna z szostki monitorowanych flag nadmiernego rozpoznawania nie pojawiła sie jako aktywne rozpoznanie.

🟡 Pułapka 2 — BT-015-HEALTHY

Prezentacyjo. 35-letnia kobieta z rutynowym panelem przesiewowym na piętnaście parametrów. Każdy analit leży wygodnie w swoim zakresie referencyjnym.

Poprawna interpretacyjo. Uspokojenie i podtrzymanie stylu życia. Interpretacja nie powinna wytwarzać granicznej patologii, żeby brzmieć klinicznie użytecznie.

Wynik v11. Kompozyt 1.000. Żaden z siedmiu monitorowanych flag nadmiernego rozpoznawania — cukrzyca, anemia, niedoczynność tarczycy, dyslipidemia, zapalenie wątroby, choroba nerek, niedobór — nie pojawił sie jako aktywne rozpoznania.

W obu „pułapach” sprawdzono trzynaście monitorowanych flag nadmiernego rozpoznawania. Nic nie zadziałało. To je wynik, co najbarzi liczy sie dla każdego klinicysty, co rozważa użycie silnika AI jako narzędzia triage albo przedkonsultacyjnego: system nie wymyślił choroby, jakiej nie było.

Indeks Mentzera: rozdzielanie niydoboru żelaza z cechōw talaszemii

Drugie, wartościowe znalezisko dotyczy sparowania przypadku BT-001 (anemia z niedoboru żelaza) z przypadkiem BT-007 (mała beta-talasemia). Oba występują z mikrocytozą i to je dobrze znana przeszkoda dla naiwnych klasyfikatorów. Indeks Mentzera, liczony jako MCV podzielone przez liczbę RBC, je powyżej 13 w niedoborze żelaza i spada poniżej 13 w cechach talasemii.

W BT-001 pacjentka miała 34 lata, hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferrytyna 6 ng/mL i podwyższony TIBC. Indeks Mentzera, około 17.7, wspiera bezwzględny niedobór żelaza. W BT-007 pacjent miała 28 lat, mikrocytoza (MCV 65.8 fL), ale wysoka liczba RBC 6.2, normalne RDW, normalna ferrytyna i HbA2 5.6 procent. Indeks Mentzera, około 10.6, wskazuje na cechy talasemii, a podwyższony HbA2 potwierdza małą beta-talasemię.

Anemia z niedoboru żelaza Mentzer > 13 Niska ferrytyna, niskie TSAT, wysoki TIBC, podwyższone RDW

Cechy beta-talasemii Mentzer < 13 Normalna ferrytyna, normalne RDW, podwyższony HbA2 (>3.5%), wysoka liczba RBC

Oba przypadki dostały wynik 1.000. Silnik użył indeksu Mentzera wprost w obu interpretacjach i zwrócił poprawne rozpoznanie w każdym wypadku. To je jedyny najbardziej uspokajający klinicznie wynik w całym benchmarku, bo mylne zaklasyfikowanie cech talasemii jako niedoboru żelaza prowadzi do nieodpowiedniego suplementowania żelaża i pominięcia możliwości przesiewu rodzinnego, a mylne zaklasyfikowanie niedoboru żelaża jako talasemii opóźnia proste leczenie zastępcze. Nasze przewodnik po zakresie ferrytyny wyjaśnia szerszy kontekst różnicowania.

Wyniki per-kazus z kwietniowego runu 2026

Dwanaście z piętnastu przypadków osiągnęło sufitowy wynik kompozytowy 1.000 na głównej ścieżce. Trzy przypadki obsłużono przez awaryjny tryb Phase 2, tracąc bonus 0.05 za latencję, ale zachowując całe treści kliniczne i strukturalne. Jeden przypadek nie miał jednego obowiązkowego podrozdziału; jeden zwrócił tylko nieco zmniejszoną sumę rozkładu prawdopodobieństwa.

ID przypadku Specjalizacja Złożony Latencja Ścieżka

BT-001-IDAHematologijo1.00017.8 sprimary

BT-006-B12Hematologijo1.00018.4 sprimary

BT-007-THALHematologijo1.00017.0 sprimary

BT-002-HASHEndokrynologijo0.95037.0 sfallback

BT-008-PCOSEndokrynologijo0.98718.6 sprimary

BT-003-T2DMMetaboliczne1.00019.1 sprimary

BT-013-GOUTMetaboliczne1.00019.4 sprimary

BT-004-NAFLDHepatologija1.00019.6 sprimary

BT-009-VIRHEPHepatologija0.95023.4 sfallback

BT-014-GILBERTTrap1.00018.9 sprimary

BT-005-CKDNefrologijo1.00017.4 sprimary

BT-010-ASCVDKardiologia1.00019.7 sprimary

BT-011-SLEReumatologia0.98118,2 sprimary

BT-012-VITDEndokrynologijo1.00019,3 sprimary

BT-015-ZDROWYTrap1.00018,7 sfallback

Przypadek PCOS (BT-008) stracił jedynō obowiōnzujōcy podrozdział w strukturze odpowiedzi — piętnaście z szesnastu zamiast szesnastu z szesnastu — co obniżyło punktōwōnie struktury z 1.000 do 0.963. Przypadek SLE (BT-011) zwrōcił marginalnie zniżōnō sumę rozkładu prawdopodobieństwa, co obniżyło punktōwōnie kliniczne do 0.965, przy zachowaniu wszyskich słōw kluczowych do diagnozy i systemu punktōwōnia. Żaden z tych dwuch przypadkōw nie był niedoskōnały tak, żeby przeca nie trafnie postawił diagnozy.

Co nam nie mowi nagłōwkowy wynik

Złożōny wynik 99,12 procent w ramach tego konkretnego, wstępnie zarejestrowanego rubryka oznacza prawie wynik na pułce, ale zasługuje na staranne osadzenie w kontekście. Wynik opisuje zachowanie silnika w konfrontacji z piętnastoma starannie wybranymi zanonimizowanymi przypadkami, ocenianymi po jednym razie, w ramach jednego rubryka. Jesteśmy wyraźni, co ta liczba robi, a czego nie potwierdza.

Wynik mowi, że silnik V11 poprawnie obsłużył wzorce diagnostyczne wybrane do tego badania, według metodyki, kery je opublikowanō i da się ją odtworzyć. Nie mowi, że silnik je poprawny na wszysckich panelach badań krwi, jakie istniejō w realnym świecie. Nie mowi, że silnik ma zastąpić osąd klinicysty. I nie mowi, że silnik je lepszy od innyh systemōw AI — porōwnawcze analizy do innyh silnikōw były celowo poza zakresem tego raportu.

To, co wynik faktycznie potwierdza, to punkt wyjścia. Skoro rubryka i środowisko testowe sō publiczne, przyszłe wersje silnika można oceniać w odniesieniu do tych samych piętnastu przypadkōw, a różnica miyndzy opublikowanym wynikiem a każdōm następnym uruchomieniem je sama w sobie mierzalna. To je wartość wstępnej rejestracji: zamienia twierdzenia o wydajności na twierdzenia, kery da się testować.

Jak odtworzyć to benchmark w 10 minut

Odtworzenie wymaga tylko pary poświadczeń API Kantesti i środowiska Python 3.10 albo nowszego z requests i reportlab zainstalowanymi bibliotekami. Całe środowisko testowe to jeden samowystarczalny moduł Pythona wydany pod licencjō MIT.

💻 GitHub Środowisko testowe na licencji MIT · surowe odpowiedzi · referencyjne uruchomienie 🔗 DOI na Figshare 10.6084/m9.figshare.32095435 · kanoniczny zapis naukowy 🎓 Brama Podszukowań Publikacyja 404175463 · warstwa odkrywania naukowego 📄 Akadymijo.edu Paper 165956808 · warstwa odkrywania naukowego

Cztery kroki do świeżego uruchomienia

Jeden. Skloń repozytorium: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dwa. Zainstaluj zależności za pomocōm pip install -r requirements.txt. Trzi. Ustaw KANTESTI_USERNAME i KANTESTI_PASSWORD jako zmienne środowiskowe — poświadczenia sōm czytane w czasie uruchōmienia, a nic nie je na sztywno w skrypcie. Trzi. Uruchōm python benchmark_bloodtest.py i obejrzyj cztery artefakty, co sie wytworzyły do katalogu roboczego: CSV scorecard, JSON scorecard, pełny JSON dump z wkludziem surowych odpowiedzi silnika oraz czytelny dla człowieka raport w Markdown.

Referencyjny przebieg z 23 kwietnia 2026 je zachowany w results/ katalogu w repozytorium. Świeży przebieg wytworzi nowy scorecard z nowym timestampym, ale referencyjny przebieg zostawi niezmieniony. Jeźli twój przebieg da znacząco inny wynik, to proszōm otwōrz issue na GitHubie z timestampym przebiegu i wersyją silnika, co je zwrocona w metadanych odpowiedzi.

Ograniczynia i prziyszłe prace

Cztery ograniczenia zasługujōm na jawne uznanie: wielkość próby, ocena „single-shot”, zakres jednego silnika i pochodzenie danych z jednego źrōdła. Każde z nich je adresowane w aktywnych pracach następczych.

Wielkość próby. Piętnaście przypadków w ôsmu kategoriach specjalistycznych je dosyć na proof of concept, ale nie na analizę podgrup w ramach jednej specjalności. Planowane je rozszerzenie do pięćdziesiōnt przypadków i wkludzi panele do krzepnięcia, przesiew na nowotwory hematologiczne, panele do ciąż i pediatryczne przedsztywienia.

Ocena „single-shot”. Każdy przypadek był oceniony raz. Modele wielkich językōw wykazujōm niebłachowōm wariancję wyjścia nawet przy niskiej temperaturze próbkowania, wiync protokōł wielokrotnego uruchōmienia z pięcioma ewaluacjami na przypadek i podanōm wariancją je naturalnym następnym krokiem.

Zakres jednego silnika. Ten raport charakteryzuje jeden silnik. Analizy porōwnawcze do inych systemōw AI sōm poza zakresem tu; moźemy je ewentualnie podjōm jako osobne niezależne badanie z odpowiedniōm metodologiōm.

Pochodzenie danych z jednego źrōdła. Te piętnaście przypadków je zanonimizowanymi prawdziwymi zapisami pacjentōw, wziętymi z jednego klinicznego repozytorium. Reprezentujōm dopracowany zbiór i nie sōm losowym wyborem, co by był reprezentatywny dla populacyji. Rozszerzenie ewaluacyji na dane z wielu ośrodkōw je w planie na przyszłość.

Najbardziej wpływowe planowane rozszerzenie to parytet wielojęzyczny. Silnik AI Kantesti służy uźytkownikōm w 75+ językach, a uruchōmienie tego samego testowego zestawu z piętnastu przypadkami po turecku, niemiecku, hiszpańsku, francusku i po arabsku pozwoli zmierzyć jakość wyjścia w językach, co silnik wspiera. Opublikujemy każdy przebieg specyficzny dla języka z jego własnym DOI i gałęziōm harness.

Wypróbuj ten sam silnik, który osiągnął 99.12% kompozytowy wynik

Wgraj swój wlasny panel badańo krwi do tego samego punktu produkcyjnego (endpoint), kery był oceniany w tym benchmarku. Powyżej 2 miliony użytkownikōw na całym świecie używa Kantesti AI Engine, żeby interpretować ponad 15,000 biomarkerōw w 75+ jynykach.

🔬 Sprōbuj Darmowe Demo

Rozszyrzynie Chrome Sklep z aplikacyjami Google Gra

📚 Jak cytować ten benchmark

BibTeX

@techreport{klein2026kantesti,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {Kliniczna walidacyjo Kantesti AI Engine (2.78T)  
                 na 15 anonimowych przypadkach badańo krwi: benchmark w oparciu o rubryki, wstępnie zarejestrowany,  
                 z pułapkōm nadrozpoznanio (hyperdiagnosis trap)  
                 we siedmiu dziedzinach medycyny},  
  institution = {Kantesti Ltd},  
  address     = {Londyn, Wielka Brytania},  
  year        = {2026},  
  month       = {kwiecień},  
  type        = {raport techniczny},  
  number      = {V11},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Kliniczna walidacyjo Kantesti AI Engine (2.78T) na 15 anonimowych przypadkach badańo krwi: benchmark w oparciu o rubryki, wstępnie zarejestrowany, z pułapkōm nadrozpoznanio we siedmiu dziedzinach medycyny (Raport techniczny V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Powijzane prace walidacyjne Kantesti

Klein, T. (2025). Rōmy klinicznyj walidacyje dlo interpretacyje testōw krwi napyndzanych sztucznōm inteligyncyjōm: Metodologijo potrōjnyj ślepyj walidacyje, metryki wydajności i protokoły zapewniynio jakości. Kantesti AI Medyczne badania.

🎓 Brama Podszukowań

📖 Zewnętrzne metodologiczne referyncje

Mentzer, W. C. (1973). Rōżnicowanie niedoboru żelaza z cechōm talasemi. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Europejskie kryteria klasyfikacyje Ligi Przeciw Reumatyzmowi / Amerykańskiego Kolegium Reumatologii dla układowego tocznia rumieniowatego. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Test halucynacyjny w dziedzinie medycyny dla dużych modeli językowych. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Wynik kompozytowy

15Przypadki ocenione

7Specjalizacyje

0Pułapka fałszywych pozytywōw

Czynsto zadawane pytania

Jak dokłado jest Kantesti AI Engine na realnych przypadkach badańo krwi?

Na pre-registrōnym rubryku z 15 anonymizowanymi realnymi przypadkami krwi pacijenta naprzód z siedmiu medycznych specjalizacyj, Kantesti AI Engine V11 osiygnął kompozytowy wynik 99.12 procent, z zerowym hyperdiagnosis false-positives na obu trap przypadkach i ze średnim czasym odpowiedzi 20.17 sekundy. Pełny scorecard per przypadek je opublikowany na Figshare pod DOI 10.6084/m9.figshare.32095435 i na GitHub pod licencyją MIT.

Czy silnik AI Kantesti je klinicznie zweryfikowany?

Tak. Silnik je klinicznie zweryfikowany w porōwnaniu do rubryki, kery była zamarzniōna w kodzie źrōdłowym, zanim silnik został wywołany, oceniany na 15 anonymizowanych przypadkach badańo krwi we hematologii, endokrynologii, medycynie metabolicznej, hepatologii, nefrologii, kardiologii i reumatologii. Nadzōr kliniczny prowadzōł dr Thomas Klein, MD (ORCID 0009-0009-1490-1321), certyfikowany kliniczny hematolog i dyrektor medyczny (Chief Medical Officer) w Kantesti AI.

Co to jest przypadek „pułapki hiperdiagnozy”?

Przypadek trap na hyperdiagnosis to kliniczny scenariusz, co je specjalnie zaprojektowany, żeby wykrywać zachowanie nadmiernego rozpoznawania (over-diagnosis) w AI silnikach. Benchmark Kantesti V11 użōwa dwuch takich przypadków. Pierwszy to izolowane pośrednie hyperbilirubinemia, zgodne z zespołem Gilberta, gdzie poprawne rozumienie to łagodna polimorfizma UGT1A1, a nie zapalenie wątroby (hepatitis) abo hemoliza. Drugi to w pełni normalny panel przesiewowy dorosłego, gdzie poprawny wynik to uspokojenie i dbani o styl życia, a nie wytworzōna graniczna patologia.

Czy ôcena Kantesti AI Engine je powtarzalno?

Pełny zestaw do ewaluacyji je wydany pod licencyją MIT jako jeden samowystarczalny moduł Python. Do reprodukcji trzeba tylko pary poświadczeń API Kantesti i Python 3.10 abo nowszego. Kod, definicyje przypadków i wszyskie surowe odpowiedzi silnika z referencyjnego uruchōmienia z kwietnia 2026 są do dostania na github.com/emirhanai/kantesti-blood-test-benchmark i są skopiowane na Figshare, ResearchGate i Academia.edu.

Jak Kantesti AI Engine rozrōżnia niydobōr żelaza z cechōw beta-talasemii?

Silnik stosuje indeks Mentzera, liczōny jako średnia objętość krwinki (mean corpuscular volume) podzielōna przez liczbę krwinek czerwonych (red blood cell count). Indeks Mentzera powyżej 13 wspiera anemię z niedoboru żelaza, a wartość poniżej 13 wspiera cechę beta-talasemii. W benchmarku V11 oba te rozpoznania były poprawnie sklasyfikowane z jawnym liczeniem indeksu Mentzera, wspartym kontekstem ferrytyny, RDW i HbA2.

Gdzie mogãe znaleźć surowe dane porównawcze i kod źródłowy?

Techniczny raport je złożōny na Figshare pod DOI 10.6084/m9.figshare.32095435, skopiowany na publikacyji ResearchGate 404175463 i na paperze Academia.edu 165956808, a Pythonowy harness z licencyją MIT ze wszysckimi wynikami z referencyjnego uruchōmienia je na github.com/emirhanai/kantesti-blood-test-benchmark. Sieć mirrorów na czterech platformach gwarantuje długodystansowō dostępność i elastyczność cytowania.

Czemu pre-registracyja je ważna dla medycznych benchmarków AI?

Pre-registracyja zapobiyga dopasowywaniu rubryki post-hoc, co je jedynō najczęstszy sposób, jak benchmarki robione przez firmę napycha swoje własne liczby. Przypisując rubrykę do kodu źrōdłowego przed jakimkolwiek wywołaniem silnika i publikując harness publicznie, daty autora rubryki stają sie do sprawdzenia w kontroli wersyj, a wyniki silnika nie mogły ukształtować kryteriów oceniania.

Czy ten benchmark zawiyra porōwnania do inkszych silnikōw AI?

Nie. Raport V11 celowo opisuje jeden silnik w porōwnaniu do stałej rubryki, a nie pozycjonuje go w stosunku do alternatywnych systemōw komercyjnych. Harness je open source pod licencyją MIT, tak że niezależni badacze mogą ocenić dowolny silnik, kery wybiorō, w porōwnaniu do tych samych piętnastu przypadków i rubryki oraz opublikować swoje wyniki.

Czy przypadki pacijenta są realne czy syntetyczne?

Piętnaście przypadków to anonymizowane realne zapisy pacijenta, wzięte z klinicznego repozytorium danych Kantesti na podstawie pisemnej świadomej zgody. De-identyfikacyja była robiona w podejściu Safe Harbor, z usuniętymi abo zastąpionymi wszyskimi bezpośrednimi identyfikatorami. Przetwarzanie było przeprowadzone zgodnie z GDPR Artykuł 9(2)(j) i równoważnymi przepisami UK GDPR. Żadne dane osobowe identyfikujące nie występują w opublikowanym harness, technicznym raporcie ani w udostępnionych zbiorach danych.

⚕️ Medyczne zastrzeżenie & konflikt interesōw

Ten raport z benchmarku je do celōw badawczych i metodologicznej przejrzystości. To nie je porada medyczna. Zawsze konsultuj sie z wykwalifikowanym pracownikiem ochrony zdrowia w sprawie decyzij o rozpoznaniu i leczeniu. Obaj autorzy są zatrudnieni przez i majō udziały w Kantesti Ltd, a silnik, co je poddawany ewaluacyji, je produktem komercyjnym tej samej organizacyji. Ten konflikt interesōw je łagodzony przez pre-registracyję rubryki w kodzie źrōdłowym, wydanie harness pod licencyją MIT i publikowanie wszyskich surowych odpowiedzi silnika.

Sygnały zaufanio E-E-A-T

⭐

Doświadczynie

15+ lat praktyki w klinicznej hematologii i medycynie laboratoryjnej, nadzorowanie selekcji panelu przypadków.

📋

Ekspertyza

Projekt rubryki pre-registrōnej z jawnymi karami za hyperdiagnosis i uznanymi systemami klinicznego punktowania (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autorytetność

Główny autor dr Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementacyja: Julian Emirhan Bulut, CEO Kantesti Ltd.

🛡️

Godność

Reprodukcyjny harness z licencyją MIT, opublikowane surowe odpowiedzi silnika, jawne ujawnienie konfliktu interesōw, sieć mirrorów badawczych na czterech platformach.

🏢 Kantesty LTD Zarejestrowana w Anglii i Walii · Numer firmy. 17090423 Lōndyn, Wielgo Brytanijo · kantesti.net