Kantesti AI analiza krwi — kliniczna walidacyjo

Zautomatyzowany benchmark Wcześniy zarejestrowany benchmark V11 Drugi update — kwiecień 2026 Na licencyji MIT Powtarzalny · Otwarte dane 100K syntetyczny kohort · 127 etykiet krajów

99.80% kompozytowy wynik na pre-registranym rubryku — V11 drugi update, kohort 100,000 przypadków w 127 etykietach krajów

Pre-registrany, rubrykowo bazowany automatyczny techniczny benchmark silnika Kantesti na 100,000 syntetycznie wygenerowanych przypadkach badań krwi z tagami 127 etykiet krajów. Mierzy zgodność wyjścia, a nie dokładność diagnostyczną. Rubryk zamarzł w kodzie źródłowym przed pierwszym wydaniem V11 i był trzymany bajt-po-bajcie identycznym na ten drugi update; harness ewaluacyjny je na licencji MIT; stratyfikowany losowy próbny zbiór surowych odpowiedzi silnika je opublikowany do wglądu. Wszystkie przypadki są syntetyczne; nie używa się danych osobowych.

📖 ~14 minut 📅 Opublikowane 23. kwietnia 2026 · Zaktualizowane 26. kwietnia 2026 (V11 Drugi update) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Opublikowane: 23. kwietnia 2026 🔄 V11 Drugi update: 26. kwietnia 2026 🩺 Medycznie zweryfikowane: 26. kwietnia 2026 ✅ Wstōpnie zarejestrowany rubryk (bajt-po-bajcie identyczny) 🔓 Otwarty kod & dane

Tyn zautomatyzowany benchmark zrobiono i uruchomiono przez Julian Emirhan Bulut, starszego inżyniera AI i CEO Kantesti Ltd. Punktowanie je w pełni zautomatyzowane w kodzie źródłowym; skala punktowania i panel przypadków zostały opracowane z wkładem klinicznym od Thomas Klein, dochtor, dyrektora medycznego (Chief Medical Officer) w Kantesti AI, i przejrzane przez Rada Doradczo Medyczno Kantesti AI. To je samodzielnie uruchamiany wewnętrzny benchmark, a nie niezależny ani poddany recenzji peer-reviewed automatyczny techniczny benchmark.

Główny autor & nadzór kliniczny

Thomas Klein, dochtor

Głōwny funkcjōnariusz medyczny, Kantesti AI

Dr Thomas Klein je certyfikowany przez radę kliniczny hematolog i internista z ponad 15 latami doświydczenia w medycynie laboratoryjnej. Jako Chief Medical Officer w Kantesti AI, wybrał panel przypadków do tego benchmarku, przejźrzał treść kliniczną i oczekiwane odpowiedzi syntetycznych przypadków oraz zatwierził pre-registrany rubryk przed pierwszym uruchomieniem silnika.

ORCID 0009-0009-1490-1321 Brama Podszukowań Google Uczōny

Współautor & wdrożenie

Julian Emirhan Bulut

Starszy inżynier AI & CEO, Kantesti Ltd

Julian Emirhan Bulut je założycielem i dyrektorem zarzōndzajōcym Kantesti Ltd. On zaprojektował i wdrożył harness do oceny — w tym ładowacz przypadkōw SQL dodany do V11 Drugigo Update — przeprowadził integracyjo API, zrobiył zarōwno pierwotny referencyjny run V11, jak i run V11 Drugigo Update na 100.000 przypadkōw, i przygotował statystyczno agregacyjo. Założyciel platformy z 2019.

GitHub Ô Kantesti

⚡ Gibke podsumowanie V11 Drugi update — 26. kwietnia 2026

99.80% kompozytowy wynik na 100,000 syntetycznych przypadkach badań krwi w ośmiu specjalizacjach medycznych i 127 etykietach krajów (V11 drugi update).
Zero fałszywych pozytywōw w hiper-diagnostyce na 87.412 monitorowanych okazjach do flagowania trap-case — ta sama metodologia trap-case co w pierwotnym V11, skalowana do poziomu populacyje.
Rubryka zarejestrowana przed startym zamarzniōne w kodzie źrōdłowym przed pierwotnym run V11 i trzymane bajt-po-bajcie identyczne dla tego Drugigo Update — nie było możliwe żadne strojenie post-hoc.
Indeks Mentzera poprawnie zastosowany do rozrōżnienia niedoboru żelaza w anemii od beta-talasemii minor w pierwotnym wydani V11; rōżnicowe zachowanie było zachowane na skali populacyje.
Tylko endpoint produkcyjny — bez uprziwilejowanego routingu, oceniany dokłado tak, jakby to dostympował płacōcy klient.
13.26 sekundy średni latency end-to-end (zakres 9.0–16.94 s), z tym, że wszystkie 100.000 przypadkōw dokończiyło na głōwnym ścieżce silnika.
Syntetyczny kohort. 100,000 syntetycznie wygenerowanych testowych przypadków załadowanych w czasie uruchomienia. Nie używa się syntetycznych danych ani danych osobowych.
Harness na licencyji MIT wydane na GitHub z warstwowo-losowym prōbkiem (n = 201) pełnych surowych odpowiedzi silnika do wglōndu.
DOI na Figshare: 10.6084/m9.figshare.32095435 · Zmirrowane na ResearchGate, Academia.edu, GitHub.

Czemu istnieje ten benchmark i co sprawdza

AI wspomagane wyniki badańo krwi coraz częściej je używane w konsumenckich i klinicznych procesach, ale ramy do powtarzalnej oceny dopasowane do medycyny laboratoryjnej sōm jeszcze rzadkie. Pytania, ktōre tu sōm najważniejsze, to nie te, co je obejmujōm ogōlne benchmarki do medycznego question-answering: czy silnik potrafi rozdzielić niydobōr żelaza z cechōw talaszemii, gdy średnia objętość krwinki jest identyczna, czy przediagnozujō Gilbertowy zespōł jako zapalenie wątroby, i czy wytwarzō patologię w w pełni normalnym panelu przesiewowym?

Jedyn panel z krwi typowo zawiera dość sygnału, coby wspierać kilka konkurencyjnych interpretacyji, a robota interpretujōcego klinicynty polega na tym, żeby ważyć te interpretacyje miyndzy sobōm, a nie na tym, żeby wyciōngnōć odpowiedź jak z podręcznika. Motor, co dobrze radzi sobie z przypadkami z podręcznika, może jeszcze zawieść na tych, co majōm najwiyncy znacōnia: na pułapkach w dyferencyjnej diagnozie, na łagodnych wariantach, co w izolacyji wyglōndajōm alarmujōco, i na w pełni normalnych panelach, co kuszōm pewnych asystentōw do wytwarzania patologii.

Ten benchmark zbudowano dokłodnie na tych trybach porażki. Każdy z piyncyńcie przypadkōw wybrano za konkretnō własność diagnostycznō: mikrocitoza z niedobōru żelaza, co musi być trzymōna oddzielnie od cechy beta-talasemii z identycznym średnim objętościōm krwinki (MCV), prezentacyja w stylu zespołu Gilberta, gdzie jedynō nieprawidłowość je izolowanō podwyższonō pośrednō bilirubinō, oraz panel przesiewowy na piyncyńcie parametrōw, w którym każdy analit je w swōjōm zakresie referencyjnym. Rubryka nagradza motory, co czytōm każdy przypadek po swojich zasadach, a karze motory, co dochodzą do pewnej diagnozy tam, gdzie taka diagnoza niy je uzasadniona.

Jako Thomas Klein, MD, wybrałem panel przypadkōw, bo to są wzorce, co najczęściej myliōm asystentōw z medycyny laboratoryjnej. Kosztowny tryb porażki niy je "przecaśnōć rzadkō chorobę" — to je wytwarzanie rutynowej patologii u pacjentōw, co jej niy majōm. Nasz Walidacyjo medyczno hub opisuje szerszy framework; ta strona opisuje początkowy proof-of-concept V11 i V11 drugi update, co to rozszerzyło na 100,000 syntetycznych przypadków wybranych z syntetycznego zbioru przypadków obejmujacego 127 etykiet krajów — z użyciem tego samego rubryku punktowania, bajt-po-bajcie identycznego, bez dopuszczenia jakiegokolwiek strojenia post-hoc.

Najnowszy test referencyjny — V11 Second Update (26. kwietnia 2026)

Referencyjny przebieg V11 Second Update z 26. kwietnia 2026 wytworzył złożōny wynik 99.80% na tej samej wstępnie zarejestrowanej rubryce, co w pierwotnym wydaniu V11, oceniany na 100,000 syntetycznych przypadków wybranych ze syntetycznego zbioru przypadków Kantesti i obejmujacych 127 etykiet krajów i języki 75+. Każdy przypadek dopełnił na głōwnōj ścieżce silnika; aktywacje flagi hiperdijagnozy w przypadkach-pułapkach pozostały na 0 / 87,412. Pierwotny przebieg V11 z 23. kwietnia 2026 obejmował 15 ręcznie wyselekcjonowanych przypadków (złożōny 99.12%) i zwalidował rubrykę; Second Update trzyma tę rubrykę bajtowo identyczno i rozszerza ocenianie na kohortę na skali populacyje.

Złożony 99.80% 100.000 z 100.000 przypadków dostało punkty

1.000 Wynik strukturalny

0.996 Wynik kliniczny

13.26 s Średni czas odpowiedzi

0 / 87,412 Pułapki fałszywych pozytywōw

Wzór na wynik złożony łączy trzy składowe: zgodność strukturalna z siedmioma obowiązkowymi sekcjami raportu i szesnastoma obowiązkowymi podsekcjami, dokładność treści mierzōnō jako przypomnienie klyjuczōw + przypomnienie systemu punktacyji + sprawdzenie ważności rozkładu prawdopodobieństwa, oraz czas odpowiedzi w stosunku do docelowego poziomu usługi na głōwnōj ścieżce. Dokładny rozkład je pokazany w formule rubryki poniży — żadne z tych wag ani pod-rubryk nie było zmienione w Second Update.

Złożony = 0.35 × Strukturalny + 0.55 × Kliniczny + 0.10 × Latency

Pozostałe 0.20 punktu procentowego zapasu rozkłada się prawie całkiem na kliniczny pod-wynik — mała część przypadków (przede wszystkim w Hepatologii i Reumatologii) miała jeden oczekiwany keyword systemu punktacyjej, którego nie było w interpretacji silnika, mimo że treść diagnostyczna była poprawna. Żaden przypadek w kohorcie 100.000 przypadków Second-Update nie przecał samej diagnozy. Opóźnienie polepszyło się z średnio 20.17 s w pierwotnym wydaniu V11 do 13.26 s w Second Update, co pokazuje optymalizacje silnika produkcyjnego miyndzy dwoma przebiegami; rubryka, kod punktacyji i endpoint API je bez zmian.

Kompozytowe wyniki per etykieta wahały się od 0.9971 do 0.9985 w 30 najbarziej reprezentowanych etykietach krajów. Długi ogon 97 dodatkowych etykiet (łącznie ≈7,300 przypadków) nie pokazał żadnej systematycznej degradacyji. Najczęstsze etykiety według liczby przypadków to: Stany Zjednoczone (10,500), Brazylia (9,500), Hiszpania (9,000), Włochy (8,000), Niemcy (7,800), Francja (7,400), Portugalia (5,800), Türkiye (3,400), Zjednoczone Królestwo (2,900) i Meksyk (2,500).

Od 15 przypadków do 100,000: ewolucja kohortu w 127 etykietach krajów

Oryginalny panel przypadków V11 obejmował siedem specjalizacji — hematologię, endokrynologię, medycynę metaboliczną, hepatologię, nefrologię, kardiologię, reumatologię — plus dwa dedykowane przypadki pułapki hyperdiagnosis, przy czym każdy przypadek był syntetycznie wygenerowanym panelem badań krwi. V11 drugi update rozszerza ewaluacyje na 100,000 syntetycznych przypadków w 127 etykietach krajów, rozdzielonych na osiem specjalności (oryginalne siedem plus dedykowany koszyk medycyny wewnętrznej, co wchłania podzbiór pułapek). Ta sama rubryka punktacyji je stosowana bajtowo identyczno w obu przebiegach.

Ponieważ wszystkie przypadki są syntetycznie wygenerowane, nie ma realnych identyfikatorów do usunięcia i nie ma udziału danych osobowych. Każdy syntetyczny przypadek niesie wewnętrzny kod przypadku do benchmarku (BT-NNN-LABEL w wstępnym zbiorze V11, stabilny case_uid w drugim update). Nigdzie w opublikowanym harnessie, w raporcie technicznym ani w wydanych zbiorach danych nie pojawiają się dane osobowe.

V11 initial release — 15 ręcznie wyselekcjonowanych przypadków

Pōwstańkowy panel sprawy V11 zrobiył ręcznie Dr. Thomas Klein, coby ćwiczić diagnostyczne wzorce, co asystenci z laboratorijnej medycyny najczãsciej mylōm. Każda z piãtnastu spraw była dobiyrana do konkretnej diagnostycznej wlastności, podanej dōl.

Hematologia (3) BT-001, BT-006, BT-007 Niedobōr żelaza, anemia · Niedobōr B12 · Mała beta-talasemia

Endokrynologia (3) BT-002, BT-008, BT-012 Zapalenie tarczycy typu Hashimoto · PCOS z insulinoopornością · Ciynki niedobōr witaminy D

Metaboliczne (2) BT-003, BT-013 Cukrzyca typu 2 z zespołem metabolicznym · Hiperurykemia z ryzykiem dny

Hepatologia (2) BT-004, BT-009 NAFLD / NASH · Ostre wirusowe zapalenie wątroby

Nefrologia · Kardiologia · Reumatologia (3) BT-005, BT-010, BT-011 CKD stopień 3 · Dyslipidemia aterogenna · Układowy toczeń rumieniowaty

Przypadki „trap” (2) BT-014, BT-015 Zespōł Gilberta (izolowana pośrednia hiperbilirubinemia) · W pełni normalny przesiew dorosłego

Proč ta konkretna dystrybucyjo

Hematologia dostaje trzi przypadki, bo mikrocytarne róznice (microcytic differentials) i makrocytarne róznice (macrocytic differentials) są najwiyncyjowymi „pułapkami” w realnym laboratōryjnym praktykowaniu. Endokrynologia dostaje trzi, bo prezentacyje Hashimoto, PCOS i niydostōnek witaminy D majōm rózne diagnostyczne kształty (naprowiane przez autoantyciała, naprowiane przez stosunki hormonów, naprowiane przez pojedynczy marker). Specyjalizacyje z jedynym przypadkiem są nadal znaczące, bo kady z CKD, ryzyka ASCVD i SLE ma swōj własny system punktacyje, kery silnik ma wywołać (odpowiednio: stadowanie KDIGO, 10-letnie ryzyko ASCVD, kryterija 2019 EULAR/ACR dla SLE).

V11 drugi update — 100,000 syntetycznych przypadków w 127 etykietach krajów

Drugi update zastępuje oryginalny V11 hard-coded 15-przypadkowy Python literal większym, programowo generowanym syntetycznym zbiorem przypadków. Zbiór przypadków je ładowany na start każdej sesji uruchomienia, a konfiguracyja je logowana dla przejrzystości. Rozkład kohortu według obszaru treści je pokazany poniży.

Endokrynologijo 23,900 spraw (23.9%) Tarczyca, PCOS, niydostōnek witaminy D, gonadalna oś, przysadka

Medycyna metaboliczna 21,900 spraw (21.9%) T2DM, zespōł metaboliczny, panele lipidowe, hiperurykemia

Hematologijo 15,400 spraw (15.4%) Rōżnice mikrocytarne i makrocytarne, B12/folian, badania żelaza

Hepatologija 12,400 spraw (12.4%) NAFLD/NASH, wirusowe zapalenie wątroby, FIB-4, cholestaza

Medycyna internistyczna (w tym podzbiōr trap) 9,000 spraw (9.0%) Mieszane prezentacje i 8,723 dedykowane sprawy z pułapkōm na hiperdijagnozę

Kardiologia 7,500 spraw (7.5%) Ryzyko ASCVD, aterogenna dyslipidemia, hs-CRP

Reumatologia 6,000 spraw (6.0%) SLE, RZS, waskulity, panele autoantyciał (kryteria EULAR/ACR)

Nefrologijo 4,000 spraw (4.0%) Staging CKD (KDIGO), trendy eGFR, zaburzenia elektrolitowe

Syntetyczny rozkład etykiet krajów — top 10 etykiet

Te 100,000 syntetycznych przypadków niosą 127 etykiet krajów (ISO 3166-1 alpha-2), żeby sprawdzić obsługę locale. Przypisanie etykiet: Europa 57.7%, Ameryki 25.4%, Azja-Pacyfik 6.2%, nazwane etykiety Bliski Wschód/Afryka 3.4% oraz długi ogon 97 dodatkowych etykiet łącznie mniej więcej 7.3%. Dziesięć najczęstszych etykiet według liczby przypadków to: Stany Zjednoczone (10,500), Brazylia (9,500), Hiszpania (9,000), Włochy (8,000), Niemcy (7,800), Francja (7,400), Portugalia (5,800), Türkiye (3,400), Zjednoczone Królestwo (2,900) i Meksyk (2,500). Kompozytowe wyniki per etykieta wahały się od 0.9971 do 0.9985. Te liczby etykiet są własnościami wygenerowanych przypadków użytych do sprawdzenia obsługi locale — to nie są realni użytkownicy i to nie je realne pokrycie geograficzne.

Wytłumaczony wstępnie zarejestrowany rubryk

Rejestracyjo przed startym (pre-registration) je jedynaj wažniyjsza metodologiczno decyzja w tym benchmarku. Kady oczekiwany rozpoznak, kady kliniczny system punktacyje i kady sekcyjo raportu były zaangażowane do kodu źródłowego zanim silnik został wywołany. Dalsze „dostrajanie” (post-hoc tuning) rubryki, coby „przyklapnōła” silnikowi, je tedy niemożliwe.

Trzi komponenty składajōm sie na kompozytowy wynik. strukturalny komponent wnosi 35 procent i mieri, czy silnik zwrōcił siedem obowiōzkowych sekcyj raportu (nagłōwek, podsumowanie, kluczowe wnioski, róznice, systemy punktacyje, rekomendacyje, follow-up) i szesnaście obowiōzkowych podsekcyj w nich. Obecność sekcyj waży 40 procent, a obecność podsekcyj waży 60 procent w ramach strukturalnego wyliczania.

Te kliniczny komponent wnosi 55 procent i łaczy trzi rzeczy: przypomnienie słōw-kluczy do rozpoznaka (70 procent klinicznego podwyniku), przypomnienie systemu punktacyje (20 procent — czy silnik liczy Mentzer, FIB-4, HOMA-IR, ryzyko ASCVD, stadowanie KDIGO, kryterija EULAR/ACR, jeźli to ma znaczenie), oraz kontrola prawidłowości sumy prawdopodobieństw (10 procent — prawdopodobieństwa w róznicach majōm sie zsumować do przedziału [90, 110]). W przypadkach „pułapek” odejmujōm jawny penal za hiperdjagnozowanie do 0.30, liczony jako 0.10 za kady wytworzony flag patologii, z limitym na trzy flagi.

Te komponent latencji wnosi 10 procent. Odpowiedz pod 20 sekund dostaje pełne 0.10, odpowiedz pod 40 sekund dostaje 0.05, a co kolwiek wolniyje dostaje zero. Celu na 20 sekund odzwierciedla produkcyjny cel poziomu usługi dla primary-path; sufit 40 sekund odzwierciedla budżet awaryjny w Phase 2 na ciynzkie wywołania silnika.

Co pre-registration zapobiega

Benchmarki robione przez „pierwszych autorōw” (first-party) są znane z napychania swych własnych liczb przez post-hoc dostrajanie rubryki. Wzōr prawie zawsze je ten sam: zespōł uruchamia silnik, widzi, gdzie nie dojeżdża, a potem po cichu dostosowuje rubryku, coby obszary, w których nie dowiozło, liczyły sie mniyj. Przez to, że rubryka je zaangażowana do kodu źródłowego przed pierwszym wywołaniem silnika i że uchwyt je opublikowany pod licencyją MIT, to dostosowanie staje sie widoczne w kontroli wersyj. Kady może sklonować repozytōry, sprawdzić daty autorōw rubryki i zweryfikować, że wyniki silnika nie były użyte do ukształtowania punktacyji.

Przypadki „pułapki” hiperdijagnozy — czemu nadmierne wzywanie je prawdziwym trybem porażki

Agresywne „przypisywanie” patologii na normalnych ekranach je udokumentowany tryb porażki w medycznych asystentach skierowanych do konsumentōw. Jej dalsze koszty zawierajōm niepotrzebne badania, niepokōj pacjenta i jatrogenny rozbōr. Dwa przypadki „pułapek” w tym benchmarku są zaprojektowane, coby ten tryb porażki był widoczny i dał sie ocenić.

🟡 Pułapka 1 — BT-014-GILBERT

Prezentacyjo. Mężczyzna 24 lata z całkowitym bilirubinōm 2.4 mg/dL. Frakcijo bezpośrednia je normalna, transaminazy i fosfataza alkaliczna siedzą w swych zakresach referencyjnych, retikulocyty są nieznaczące, a haptoglobina i LDH wykluczajōm hemolizę.

Poprawna interpretacyjo. Zespōł Gilberta — łagodna polimorfizma UGT1A1. Interpretacyjo nie powinna wywoływać zapalenia wątroby, marskości, hemolitycznej anemii ani zatoru/obstrukcyji dróg żółciowych.

Wynik v11. Kompozyt 1.000. Żadna z szostki monitorowanych flag nadmiernego rozpoznawania nie pojawiła sie jako aktywne rozpoznanie.

🟡 Pułapka 2 — BT-015-HEALTHY

Prezentacyjo. 35-letnia kobieta z rutynowym panelem przesiewowym na piętnaście parametrów. Każdy analit leży wygodnie w swoim zakresie referencyjnym.

Poprawna interpretacyjo. Uspokojenie i podtrzymanie stylu życia. Interpretacja nie powinna wytwarzać granicznej patologii, żeby brzmieć klinicznie użytecznie.

Wynik v11. Kompozyt 1.000. Żaden z siedmiu monitorowanych flag nadmiernego rozpoznawania — cukrzyca, anemia, niedoczynność tarczycy, dyslipidemia, zapalenie wątroby, choroba nerek, niedobór — nie pojawił sie jako aktywne rozpoznania.

W obu „pułapach” sprawdzono trzynaście monitorowanych flag nadmiernego rozpoznawania. Nic nie zadziałało. To je wynik, co najbarzi liczy sie dla każdego klinicysty, co rozważa użycie silnika AI jako narzędzia triage albo przedkonsultacyjnego: system nie wymyślił choroby, jakiej nie było.

Indeks Mentzera: rozdzielanie niydoboru żelaza z cechōw talaszemii

Drugie, wartościowe znalezisko dotyczy sparowania przypadku BT-001 (anemia z niedoboru żelaza) z przypadkiem BT-007 (mała beta-talasemia). Oba występują z mikrocytozą i to je dobrze znana przeszkoda dla naiwnych klasyfikatorów. Indeks Mentzera, liczony jako MCV podzielone przez liczbę RBC, je powyżej 13 w niedoborze żelaza i spada poniżej 13 w cechach talasemii.

W BT-001 pacjentka miała 34 lata, hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferrytyna 6 ng/mL i podwyższony TIBC. Indeks Mentzera, około 17.7, wspiera bezwzględny niedobór żelaza. W BT-007 pacjent miała 28 lat, mikrocytoza (MCV 65.8 fL), ale wysoka liczba RBC 6.2, normalne RDW, normalna ferrytyna i HbA2 5.6 procent. Indeks Mentzera, około 10.6, wskazuje na cechy talasemii, a podwyższony HbA2 potwierdza małą beta-talasemię.

Anemia z niedoboru żelaza Mentzer > 13 Niska ferrytyna, niskie TSAT, wysoki TIBC, podwyższone RDW

Cechy beta-talasemii Mentzer < 13 Normalna ferrytyna, normalne RDW, podwyższony HbA2 (>3.5%), wysoka liczba RBC

Oba przypadki dostały wynik 1.000. Silnik użył indeksu Mentzera wprost w obu interpretacjach i zwrócił poprawne rozpoznanie w każdym wypadku. To je jedyny najbardziej uspokajający klinicznie wynik w całym benchmarku, bo mylne zaklasyfikowanie cech talasemii jako niedoboru żelaza prowadzi do nieodpowiedniego suplementowania żelaża i pominięcia możliwości przesiewu rodzinnego, a mylne zaklasyfikowanie niedoboru żelaża jako talasemii opóźnia proste leczenie zastępcze. Nasze przewodnik po zakresie ferrytyny wyjaśnia szerszy kontekst różnicowania.

Wyniki per przypadek z wstępnego referencyjnego uruchomienia V11 (23. april 2026)

Oryginalne uruchomienie referencyjne V11 na kohorcie proof-of-concept z 15 przypadków służy jako fundament metodologiczny Second Update: każdy szczegół per przypadek poniży ilustruje, jak rubryka obchodzi sie z realną odpowiedzią silnika. Dwanaście z piętnastu przypadków osiagnęło sufit złożonego wyniku 1.000 na głównej ścieżce; trzy przypadki były obsłużone przez fallback Phase 2, tracąc bonus latencji 0.05, ale zachowując wszyskie treści kliniczne i strukturalne. Jeden przypadek nie miał jednego wymaganego podrozdziału; jeden zwrócił nieco zredukowaną sumę rozkładu prawdopodobieństwa.

ID przypadku Specjalizacja Złożony Latencja Ścieżka

BT-001-IDAHematologijo1.00017.8 sprimary

BT-006-B12Hematologijo1.00018.4 sprimary

BT-007-THALHematologijo1.00017.0 sprimary

BT-002-HASHEndokrynologijo0.95037.0 sfallback

BT-008-PCOSEndokrynologijo0.98718.6 sprimary

BT-003-T2DMMetaboliczne1.00019.1 sprimary

BT-013-GOUTMetaboliczne1.00019.4 sprimary

BT-004-NAFLDHepatologija1.00019.6 sprimary

BT-009-VIRHEPHepatologija0.95023.4 sfallback

BT-014-GILBERTTrap1.00018.9 sprimary

BT-005-CKDNefrologijo1.00017.4 sprimary

BT-010-ASCVDKardiologia1.00019.7 sprimary

BT-011-SLEReumatologia0.98118,2 sprimary

BT-012-VITDEndokrynologijo1.00019,3 sprimary

BT-015-ZDROWYTrap1.00018,7 sfallback

Przypadek PCOS (BT-008) stracił jedynō obowiōnzujōcy podrozdział w strukturze odpowiedzi — piętnaście z szesnastu zamiast szesnastu z szesnastu — co obniżyło punktōwōnie struktury z 1.000 do 0.963. Przypadek SLE (BT-011) zwrōcił marginalnie zniżōnō sumę rozkładu prawdopodobieństwa, co obniżyło punktōwōnie kliniczne do 0.965, przy zachowaniu wszyskich słōw kluczowych do diagnozy i systemu punktōwōnia. Żaden z tych dwuch przypadkōw nie był niedoskōnały tak, żeby przeca nie trafnie postawił diagnozy.

Agregat V11 Second Update — 100,000 przypadków

W skali populacyjnej pojedyncze wiersze przypadków nie są czytelne dla człowieka, więc drugi update raportuje zsumowane metryki, a nie tabelę 100,000-wierszową. Główny agregat je pokazany poniży; rozbicia per specjalizacja i per etykieta kraju są opublikowane w raporcie technicznym i w depozycie Figshare. Stratyfikowany losowy próbny zbiór n = 201 surowych odpowiedzi silnika (deterministyczne ziarno 20260426) jest publikowany w katalogu GitHub results/ do inspekcyji.

Złożony wynik V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 w kohorcie 100,000 przypadków

Wynik strukturalny (średnio) V11 initial: 0.998 → Second Update: 1.000 Perfekcyjne dopasowanie strukturalne w skali populacyjnej

Wynik kliniczny (średnio) V11 initial: 0.998 → Second Update: 0.996 −0.002; żynny przypadek nie przecał samej diagnozy

Latency — średnio (zakres) Wstępne V11: 20.17 s (17.0–37.0 s) → Druga aktualizacja: 13.26 s (9.0–16.94 s) Optymalizacje silnika produkcyjnego między uruchomieniami

Ścieżka silnika = pierwotna Wstępne V11: 12 / 15 → Druga aktualizacja: 100,000 / 100,000 W żadnym momencie podczas uruchomienia nie było potrzeby awaryjnego trybu Phase 2

Flagi hiperdetekcji dla podzbioru pułapek Wstępne V11: 0 / 13 → Druga aktualizacja: 0 / 87,412 Zero fałszywie dodatnich wyników na skali populacyjnej (8,723 przypadki pułapek monitorowane)

Co nam nie mowi nagłōwkowy wynik

Kompozytowy wynik 99.80 procent w ramach tego konkretnego pre-registranego rubryku, na syntetycznym kohorcie 100,000 przypadków obejmujacym 127 etykiet krajów, reprezentuje wynik bliski sufitowi — ale to wymaga starannego osadzenia w kontekście. Wynik opisuje zachowanie silnika względem rubryku, do którego zobowiązaliśmy się w kodzie źródłowym w V11; to nie je uniwersalne twierdzenie o poprawności silnika na każdym panelu badań krwi, jaki istnieje w realnym świecie.

Wynik mówi, że silnik poprawnie obsłużył wybrane wzorce diagnostyczne dla tej oceny w kohorcie na skali populacyjnej, w ramach opublikowanej i możliwej do odtworzenia metodologii. Nie mówi, że silnik jest poprawny na każdym panelu wyników badańo krwi, jaki istnieje w naturze. Nie mówi, że silnik powinien zastępować osąd klinicysty. I nie mówi, że silnik przewyższa alternatywne systemy AI — porównawcze analizy z innymi silnikami celowo nie wchodziły w zakres tego raportu.

To, co wynik faktycznie ustala, to punkt odniesienia. Ponieważ schemat oceny i środowisko testowe są publiczne, przyszłe wersje silnika można oceniać względem tego samego schematu — zastosowanego do wstępnych 15 przypadków V11, kohorty 100,000 przypadków Drugiej aktualizacji albo dowolnego późniejszego rozszerzenia — a różnica między opublikowanym wynikiem a dowolnym kolejnym uruchomieniem jest sama w sobie mierzalna. Taka jest wartość wstępnej rejestracji: zamienia twierdzenia o wydajności na twierdzenia, kery da się testować.

Jak odtworzyć to benchmark w 10 minut

Odtworzenie wymaga tylko pary poświadczeń API Kantesti i środowiska Python 3.10 albo nowszego z requests i reportlab zainstalowanymi bibliotekami. Całe środowisko testowe to jeden samowystarczalny moduł Pythona wydany pod licencjō MIT.

💻 GitHub Środowisko testowe na licencji MIT · surowe odpowiedzi · referencyjne uruchomienie 🔗 DOI na Figshare 10.6084/m9.figshare.32095435 · kanoniczny zapis naukowy 🎓 Brama Podszukowań Publikacja 404175463 · V11 Druga aktualizacja · warstwa odkrywania akademickiego 📄 Akadymijo.edu Paper 165956808 · V11 Druga aktualizacja · warstwa odkrywania akademickiego

Cztery kroki do świeżego uruchomienia

Jeden. Skloń repozytorium: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dwa. Zainstaluj zależności za pomocōm pip install -r requirements.txt (Druga aktualizacja dodaje mysql-connector-python ≥ 8.0 dla modułu ładującego przypadki SQL). Trzi. Ustaw KANTESTI_USERNAME i KANTESTI_PASSWORD jako zmienne środowiskowe dla API silnika. Dla modułu ładującego przypadki SQL w Drugiej aktualizacji ustaw także KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, i KANTESTI_DB_PASSWORD — loader lōczy sie przez rolō tylko do czytōnia (bench_reader) co ni ma uprawniōń do identyfikacyje tabel. Trzi. Uruchōm python benchmark_bloodtest.py --limit 100000 na kompletne uruchōmienie Second-Update, abo python benchmark_bloodtest.py --limit 1000 na szybkie iteracyje. Wyniki lōdujō do ./benchmark_results/: CSV scorecard z kolumnami per kraj-label i per specjalizacja, JSON-owy agregat, stratyfikowany-losowy sample surowych odpowiedzi i raport w Markdown.

Referencyjne uruchōmienia z 23 kwietnia 2026 (V11 poczōtkowe, 15 przypadkōw) i z 26 kwietnia 2026 (V11 Second Update, 100,000 przypadkōw) sō zachowane w results/ katalogu repozytōra. Nowe uruchōmienie wytworzi nowy timestampowany scorecard, ale referencyjne uruchōmienia zostawi nietkniōte. Jeżli twoje uruchōmienie da znacząco inny wynik, to proszō otwōrz GitHub issue z timestampem uruchōmienia i wersyjom engine, co je zwrōcona w metadanych odpowiedzi.

Ograniczynia i prziyszłe prace

Nawet przy 100,000 przypadkach na 127 krajowych labelach, cztery ograniczenia zasługujóm na jawne uznani: niedoszacowanie labelów z długim ogonem, ocena jednorazowa, zakres jednego silnika i pochodzenie danych z jednego źródła. Każde z nich je adresowane w aktywnych pracach następczych.

Pokrycie labelów z długim ogonem. Drugi Update obejmuje 127 krajowych labeli, ale rozkład je niezrównoważony — top 10 labeli stanowi ≈66.4% przypadków, a długi ogon 97 dodatkowych labeli razem dokłada ≈7.3% (około 7,300 przypadków łącznie, ~75 przypadków na label w średnim). Kompozyty per-label w tym długim ogonie są więc bardziej szumne, niźli sugerujóm liczby nagłówkowe. Przyszłe uruchomienia zrównoważą przypisywanie labeli, coby doprecyzować estymacje per label.

Ocena „single-shot”. Każdy przypadek w kohorcie był oceniony jednokrotnie. Duże modele językowe wykazujō niebłachowō zmienność wyniku nawet przy niskiej temperaturze prōbkowania, więc protokōł wielokrotnego uruchōmienia z pięcioma ocenami na przypadek i podanō wariancjō je naturalnym nastym krokiem — szczegōlnie na podzbiorze trap-case, gdzie spōjność pod wpływem jittera prōbkowania je częśćiōm twierdzenia o bezpieczństwie.

Zakres jednego silnika. Ten raport charakteryzuje jeden engine. Analizy porōwnawcze do inakszych systemōw AI sō poza zakresem tu; moźemy je ewentualnie prowadzić jako osobne niezależne badanie z odpowiedniō metodologiō, na tym samym harnessie na licencyji MIT.

Dane syntetyczne. Te 100,000 przypadków je wygenerowane syntetycznie, a nie są to „synthetic cases” — wyniki nie przenoszóm się na rzeczywistą kliniczną skuteczność. Ocena na realnych, za zgodą pozyskanych, zewnętrznie pozyskiwanych danych wymagałaby odpowiedniego nadzoru etycznego i je poza zakresem tego syntetycznego benchmarku.

Poza tymi czterma, najbarziej wpływowe planowane rozszerzenie to wielojęzyczna parytetność per jurysdykcjo. Kantesti AI Engine służy uźytkownikōm w 75+ językach, a uruchōmienie językowo-stratyfikowanych podkohort Second-Update (turecki, niemiecki, hiszpański, francuski, włoški, portugalski, arabski, mandaryński) bōdzie kwantyfikować jakość wyjścia w językach, co je wspierane przez engine. Każda analiza stratyfikowana po języku bōdzie opublikowana z własnym DOI i gałęziō harness.

Sprōbuj Tego Samego Engine, Co Osiōgnōł 99.80% Composite Score na 100,000 Przypadkōw

Wgraj swój wlasny panel badańo krwi do tego samego punktu produkcyjnego (endpoint), kery był oceniany w tym benchmarku. Powyżej 2 miliony użytkownikōw na całym świecie używa Kantesti AI Engine, żeby interpretować ponad 15,000 biomarkerōw w 75+ jynykach.

🔬 Sprōbuj Darmowe Demo

Rozszyrzynie Chrome Sklep z aplikacyjami Google Gra

📚 Jak cytować ten benchmark

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Zewnętrzne metodologiczne referyncje

Mentzer, W. C. (1973). Rōżnicowanie niedoboru żelaza z cechōm talasemi. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Europejskie kryteria klasyfikacyje Ligi Przeciw Reumatyzmowi / Amerykańskiego Kolegium Reumatologii dla układowego tocznia rumieniowatego. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Test halucynacyjny w dziedzinie medycyny dla dużych modeli językowych. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Wynik kompozytowy

100,000Przypadki ocenione

127Pokryte etykiety krajów

0 / 87,412Pułapka fałszywych pozytywōw

Czynsto zadawane pytania

Jak dokładny jest silnik AI Kantesti na syntetycznych przypadkach testowych?

Na pre-registered rubryce, uruchomionej na 100,000 syntetycznie wygenerowanych testowych przypadkach w ośmiu obszarach treści i 127 krajowych labelach (V11 Second Update), silnik osiągnął wynik kompozytowy 99.80 procent, bez flag hiperdiagnostyki w 87,412 monitorowanych okazjach „trap-case” i ze średnim opóźnieniem odpowiedzi 13.26 sekundy. Ten kompozyt mierzy zgodność wyjścia na syntetycznych wejściach, a nie dokładność diagnostyczną. Oryginalne wydanie V11 stosowało tę samą rubrykę na 15 ręcznie skonstruowanych przypadkach (kompozyt 99.12%); Drugi Update trzyma rubrykę identyczną bajt-po-bajcie i rozszerza ją na większą syntetyczną kohortę. Pełna karta wyników je opublikowana na Figshare pod DOI 10.6084/m9.figshare.32095435 i na GitHub pod licencją MIT.

Czy silnik AI Kantesti je klinicznie zweryfikowany?

Nie. Silnik był oceniany za pomocą zautomatyzowanego technicznego benchmarku (nie klinicznej walidacji), w oparciu o rubrykę zamrożoną w kodzie źródłowym przed pierwszym uruchomieniem V11 i utrzymaną bajtowo identyczną dla Drugiego Update V11, ocenianą na 100,000 syntetycznych przypadkach krwio-testów w obszarach hematologii, endokrynologii, medycyny metabolicznej, hepatologii, nefrologii, kardiologii, reumatologii i medycyny internistycznej, dobranych z 127 krajowych labeli. Nadzór kliniczny zapewnił dr Thomas Klein, MD (ORCID 0009-0009-1490-1321), certyfikowany kliniczny hematolog i Chief Medical Officer w Kantesti AI.

Co to jest przypadek „pułapki hiperdiagnozy”?

Przypadek „hyperdiagnosis trap” to kliniczny scenariusz, specjalnie zaprojektowany, żeby wykrywać zachowanie nadmiernego rozpoznawania (over-diagnosis) w silnikach AI. Pierwotny benchmark V11 używał dwu takich przypadków jako metodologiczny dowōd koncepcyji: izolowanō pośredniō hiperbilirubinemiō zgodnō z zespołem Gilberta (gdzie prawidłōwe rozumienie to łagodny polimorfizm UGT1A1, a nie zapalenie wątroby abo hemoliza) oraz w pełni normalny panel przesiewowy dorosłych (gdzie prawidłowy wynik to uspokojenie, a nie wytworzōna graniczno patologia). V11 Second Update skalo wał tę metodologiō „trap-case” do dedykowanego podzbioru 8.723 przypadków, dając 87.412 monitorowanych okazij do flagowania hyperdiagnosis — a wskaźnik fałszywie pozytywnych wyników silnika pozostał na zerze.

Czy ôcena Kantesti AI Engine je powtarzalno?

Pełne środowisko ewaluacyje je wydane w licencji MIT jako jeden samowystarczalny moduł Pythona. Pierwotny run V11 wymaga tylko pary poświadczeń API Kantesti i Pythona 3.10 abo nowszego. V11 Second Update dodaje parametryzowany, tylko-do-odczytu loader przypadków SQL, kery wymaga poświadczeń z klinicznego repozytorium Kantesti (a bench_reader rola bez uprawnień do identyfikowania tabel). Kod, SQL loadera przypadków, rubryka (bajt-po-bajcie identyczno miyndzy wydaniami) i stratyfikowany losowy próbny zbiór surowych odpowiedzi silnika z obu referencyjnych runów — z pierwotnego V11 i z Second Update — sō dostępne na github.com/emirhanai/kantesti-blood-test-benchmark i zmirrowane na Figshare, ResearchGate i Academia.edu.

Jak Kantesti AI Engine rozrōżnia niydobōr żelaza z cechōw beta-talasemii?

Silnik stosuje indeks Mentzera, liczōny jako średnia objętość krwinek (MCV) podzielōna przez liczbę erytrocytów (RBC). Indeks Mentzera powyżej 13 wspiera anemiō z niedoboru żela, a wartość poniżej 13 wspiera cechę beta-talasemii. W pierwotnym benchmarku V11 oba te rozpoznania były poprawnie sklasyfikowane z jawnym liczeniem indeksu Mentzera, wspartym kontekstem ferrytyny, RDW i HbA2. Przi V11 Second Update, w kohorcie 100.000 przypadków, to samo różnicowanie zachowanie było zachowane na skali populacyje.

Gdzie mogãe znaleźć surowe dane porównawcze i kod źródłowy?

Techniczny raport je zdeponowany na Figshare pod DOI 10.6084/m9.figshare.32095435 (obejmujōcy i pierwotne wydanie V11 i V11 Second Update), zmirrowany na publikacyji ResearchGate 404175463 i na pracy Academia.edu 165956808 — obie zaktualizowane tytułem V11 Second Update i wynikami z 100.000 przypadków — a Pythonowe środowisko w licencji MIT z wszelkiymi wynikami referencyjnych runów je na github.com/emirhanai/kantesti-blood-test-benchmark. Sieć zmirrowań na czterech platformach gwarantuje długoterminowō dostępność i elastyczność cytowania.

Czemu pre-registracyja je ważna dla medycznych benchmarków AI?

Pre-registracyja zapobiyga dopasowywaniu rubryki post-hoc, co je jedynō najczęstszy sposób, jak benchmarki robione przez firmę napycha swoje własne liczby. Przypisując rubrykę do kodu źrōdłowego przed jakimkolwiek wywołaniem silnika i publikując harness publicznie, daty autora rubryki stają sie do sprawdzenia w kontroli wersyj, a wyniki silnika nie mogły ukształtować kryteriów oceniania.

Czy ten benchmark zawiyra porōwnania do inkszych silnikōw AI?

Nie. Raport V11 — i to i pierwotne wydanie i Second Update — celowo opisuje jeden konkretny silnik w stosunku do stałej rubryki, a nie pozycjonuje go w porównaniu do alternatywnych komercyjnych systemów. Loader je open source w licencji MIT (teraz wkludzajōcy loader przypadków SQL), tak że niezależni badacze mogō ocenić dowolny silnik, kery wybiorō, w stosunku do tej samej rubryki i loadera przypadków oraz opublikować swoje wyniki.

Czy przypadki pacijenta są realne czy syntetyczne?

Wszyskie przypadki są wygenerowane syntetycznie — 15 ręcznie skonstruowanych przypadków w początkowym wydaniu V11 i 100,000 w Drugim Update. To nie są „synthetic cases”: nie ma danych syntetycznych, nie ma procesu zgody i nie ma de-identyfikacji, bo w kohorcie nie istnieją żadne dane osobowe. Żadne dane osobowe nie występują w opublikowanym harness’ie, raporcie technicznym ani w udostępnionych zbiorach danych.

⚕️ Medyczne zastrzeżenie & konflikt interesōw

Tyn raport z benchmarku je do celów badawczych i przejrzystości metodologicznej. Nie stanowi porady medycznej, nie je diagnozą i nie zastępuje profesjonalnej opieki medycznej; żyn wynik tu nie powinien być użyty, coby zwlekać z pójściym do doktora abo tego unikać. Zawsze skonsultuj sie z wykwalifikowanym pracownikiem ochrony zdrowia w sprawie diagnozy i decyzji terapeutycznych. To je samodzielnie uruchomiony wewnętrzny benchmark silnika firmy i nie był niezależnie zwalidowany ani poddany recenzji. Wynik złożony mierzy zgodność ze stałą skalą (struktura raportu, recall słów kluczowych i systemu punktowania oraz latencja); to nie je miara rzeczywistej dokładności diagnostycznej ani bezpieczeństwa klinicznego. Obaj autorzy są zatrudnieni przez i posiadają udziały w Kantesti Ltd, a silnik poddawany ocenie je produktem komercyjnym tej samej organizacji. Ten konflikt interesów je łagodzony przez pre-rejestracyje skali w kodzie źródłowym, udostępnienie harnessu na licencji MIT oraz publikowanie stratyfikowanego losowego próbkowania surowych odpowiedzi silnika.

Sygnały zaufanio E-E-A-T

⭐

Doświadczynie

15+ lat praktyki w klinicznej hematologii i medycynie laboratoryjnej, nadzorowanie selekcji panelu przypadków.

📋

Ekspertyza

Projekt rubryki pre-registrōnej z jawnymi karami za hyperdiagnosis i uznanymi systemami klinicznego punktowania (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autorytetność

Główny autor dr Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementacyja: Julian Emirhan Bulut, CEO Kantesti Ltd.

🛡️

Godność

Reprodukcyjny harness z licencyją MIT, opublikowane surowe odpowiedzi silnika, jawne ujawnienie konfliktu interesōw, sieć mirrorów badawczych na czterech platformach.

🏢 Kantesty LTD Zarejestrowana w Anglii i Walii · Numer firmy. 17090423 Lōndyn, Wielgo Brytanijo · kantesti.net