Czemu istnieje ten benchmark i co sprawdza

AI wspomagane wyniki badańo krwi coraz częściej je używane w konsumenckich i klinicznych procesach, ale ramy do powtarzalnej oceny dopasowane do medycyny laboratoryjnej sōm jeszcze rzadkie. Pytania, ktōre tu sōm najważniejsze, to nie te, co je obejmujōm ogōlne benchmarki do medycznego question-answering: czy silnik potrafi rozdzielić niydobōr żelaza z cechōw talaszemii, gdy średnia objętość krwinki jest identyczna, czy przediagnozujō Gilbertowy zespōł jako zapalenie wątroby, i czy wytwarzō patologię w w pełni normalnym panelu przesiewowym?

Diagram przepływu wstępnie zarejestrowanej rubryki, pokazujōcy, jak Kantesti AI Engine — V11 Second Update, wynik kompozytowy 99.80% na 100.000 przypadków — je oceniany w stosunku do zamrożonych kryteriów punktacyji
Rysunek 1: Architektura benchmarku za tym, co stoi za 99.80% kompozytowy wynik na V11 Second Update w kohorcie 100.000 przypadków — každy przypadek, každy keyword, každy system punktacyje je fiksowany w kodzie źródłowym, zanim silnik zobaczy choć jeden PDF, a rubryka je bajtowo identyczna z pierwotnym wydaniem V11. Dostrajanio rubryki post-hoc je niemożliwe z definicji.

Jedyn panel z krwi typowo zawiera dość sygnału, coby wspierać kilka konkurencyjnych interpretacyji, a robota interpretujōcego klinicynty polega na tym, żeby ważyć te interpretacyje miyndzy sobōm, a nie na tym, żeby wyciōngnōć odpowiedź jak z podręcznika. Motor, co dobrze radzi sobie z przypadkami z podręcznika, może jeszcze zawieść na tych, co majōm najwiyncy znacōnia: na pułapkach w dyferencyjnej diagnozie, na łagodnych wariantach, co w izolacyji wyglōndajōm alarmujōco, i na w pełni normalnych panelach, co kuszōm pewnych asystentōw do wytwarzania patologii.

Ten benchmark zbudowano dokłodnie na tych trybach porażki. Każdy z piyncyńcie przypadkōw wybrano za konkretnō własność diagnostycznō: mikrocitoza z niedobōru żelaza, co musi być trzymōna oddzielnie od cechy beta-talasemii z identycznym średnim objętościōm krwinki (MCV), prezentacyja w stylu zespołu Gilberta, gdzie jedynō nieprawidłowość je izolowanō podwyższonō pośrednō bilirubinō, oraz panel przesiewowy na piyncyńcie parametrōw, w którym każdy analit je w swōjōm zakresie referencyjnym. Rubryka nagradza motory, co czytōm każdy przypadek po swojich zasadach, a karze motory, co dochodzą do pewnej diagnozy tam, gdzie taka diagnoza niy je uzasadniona.

Jako Thomas Klein, MD, wybrałem panel przypadkōw, bo to są wzorce, co najczęściej myliōm asystentōw z medycyny laboratoryjnej. Kosztowny tryb porażki niy je "przecaśnōć rzadkō chorobę" — to je wytwarzanie rutynowej patologii u pacjentōw, co jej niy majōm. Nasz Walidacyjo medyczno hub opisuje szerszy framework; ta strona opisuje początkowy proof-of-concept V11 i V11 drugi update, co to rozszerzyło na 100,000 syntetycznych przypadków wybranych z syntetycznego zbioru przypadków obejmujacego 127 etykiet krajów — z użyciem tego samego rubryku punktowania, bajt-po-bajcie identycznego, bez dopuszczenia jakiegokolwiek strojenia post-hoc.

Najnowszy test referencyjny — V11 Second Update (26. kwietnia 2026)

Referencyjny przebieg V11 Second Update z 26. kwietnia 2026 wytworzył złożōny wynik 99.80% na tej samej wstępnie zarejestrowanej rubryce, co w pierwotnym wydaniu V11, oceniany na 100,000 syntetycznych przypadków wybranych ze syntetycznego zbioru przypadków Kantesti i obejmujacych 127 etykiet krajów i języki 75+. Każdy przypadek dopełnił na głōwnōj ścieżce silnika; aktywacje flagi hiperdijagnozy w przypadkach-pułapkach pozostały na 0 / 87,412. Pierwotny przebieg V11 z 23. kwietnia 2026 obejmował 15 ręcznie wyselekcjonowanych przypadków (złożōny 99.12%) i zwalidował rubrykę; Second Update trzyma tę rubrykę bajtowo identyczno i rozszerza ocenianie na kohortę na skali populacyje.

Złożony 99.80% 100.000 z 100.000 przypadków dostało punkty
1.000 Wynik strukturalny
0.996 Wynik kliniczny
13.26 s Średni czas odpowiedzi
0 / 87,412 Pułapki fałszywych pozytywōw

Wzór na wynik złożony łączy trzy składowe: zgodność strukturalna z siedmioma obowiązkowymi sekcjami raportu i szesnastoma obowiązkowymi podsekcjami, dokładność treści mierzōnō jako przypomnienie klyjuczōw + przypomnienie systemu punktacyji + sprawdzenie ważności rozkładu prawdopodobieństwa, oraz czas odpowiedzi w stosunku do docelowego poziomu usługi na głōwnōj ścieżce. Dokładny rozkład je pokazany w formule rubryki poniży — żadne z tych wag ani pod-rubryk nie było zmienione w Second Update.

Złożony = 0.35 × Strukturalny + 0.55 × Kliniczny + 0.10 × Latency

Pozostałe 0.20 punktu procentowego zapasu rozkłada się prawie całkiem na kliniczny pod-wynik — mała część przypadków (przede wszystkim w Hepatologii i Reumatologii) miała jeden oczekiwany keyword systemu punktacyjej, którego nie było w interpretacji silnika, mimo że treść diagnostyczna była poprawna. Żaden przypadek w kohorcie 100.000 przypadków Second-Update nie przecał samej diagnozy. Opóźnienie polepszyło się z średnio 20.17 s w pierwotnym wydaniu V11 do 13.26 s w Second Update, co pokazuje optymalizacje silnika produkcyjnego miyndzy dwoma przebiegami; rubryka, kod punktacyji i endpoint API je bez zmian.

Kompozytowe wyniki per etykieta wahały się od 0.9971 do 0.9985 w 30 najbarziej reprezentowanych etykietach krajów. Długi ogon 97 dodatkowych etykiet (łącznie ≈7,300 przypadków) nie pokazał żadnej systematycznej degradacyji. Najczęstsze etykiety według liczby przypadków to: Stany Zjednoczone (10,500), Brazylia (9,500), Hiszpania (9,000), Włochy (8,000), Niemcy (7,800), Francja (7,400), Portugalia (5,800), Türkiye (3,400), Zjednoczone Królestwo (2,900) i Meksyk (2,500).

Od 15 przypadków do 100,000: ewolucja kohortu w 127 etykietach krajów

Oryginalny panel przypadków V11 obejmował siedem specjalizacji — hematologię, endokrynologię, medycynę metaboliczną, hepatologię, nefrologię, kardiologię, reumatologię — plus dwa dedykowane przypadki pułapki hyperdiagnosis, przy czym każdy przypadek był syntetycznie wygenerowanym panelem badań krwi. V11 drugi update rozszerza ewaluacyje na 100,000 syntetycznych przypadków w 127 etykietach krajów, rozdzielonych na osiem specjalności (oryginalne siedem plus dedykowany koszyk medycyny wewnętrznej, co wchłania podzbiór pułapek). Ta sama rubryka punktacyji je stosowana bajtowo identyczno w obu przebiegach.

Projekt panelu przypadków V11 — piętnaście syntetycznych przypadków krwio-testów w siedmiu specjalizacjach medycznych plus dwa przypadki „hyperdiagnosis trap”; ta sama rubryka dała wynik kompozytowy 99.80% na 100,000 przypadkach w Drugim Update V11
Figura 2: Projekt panelu przypadków V11 na hematologię, endokrynologię, medycynę metaboliczną, hepatologię, nefrologię, kardiologię, reumatologię, plus dwa przypadki pułapki — zespół Gilberta i w pełni normalny panel przesiewowy. Second Update zachowuje tę rubrykę bajtowo identyczno, rozszerzając kohortę na 100.000 przypadków wziętych z repozytorium SQL Kantesti.

Ponieważ wszystkie przypadki są syntetycznie wygenerowane, nie ma realnych identyfikatorów do usunięcia i nie ma udziału danych osobowych. Każdy syntetyczny przypadek niesie wewnętrzny kod przypadku do benchmarku (BT-NNN-LABEL w wstępnym zbiorze V11, stabilny case_uid w drugim update). Nigdzie w opublikowanym harnessie, w raporcie technicznym ani w wydanych zbiorach danych nie pojawiają się dane osobowe.

V11 initial release — 15 ręcznie wyselekcjonowanych przypadków

Pōwstańkowy panel sprawy V11 zrobiył ręcznie Dr. Thomas Klein, coby ćwiczić diagnostyczne wzorce, co asystenci z laboratorijnej medycyny najczãsciej mylōm. Każda z piãtnastu spraw była dobiyrana do konkretnej diagnostycznej wlastności, podanej dōl.

Hematologia (3) BT-001, BT-006, BT-007 Niedobōr żelaza, anemia · Niedobōr B12 · Mała beta-talasemia
Endokrynologia (3) BT-002, BT-008, BT-012 Zapalenie tarczycy typu Hashimoto · PCOS z insulinoopornością · Ciynki niedobōr witaminy D
Metaboliczne (2) BT-003, BT-013 Cukrzyca typu 2 z zespołem metabolicznym · Hiperurykemia z ryzykiem dny
Hepatologia (2) BT-004, BT-009 NAFLD / NASH · Ostre wirusowe zapalenie wątroby
Nefrologia · Kardiologia · Reumatologia (3) BT-005, BT-010, BT-011 CKD stopień 3 · Dyslipidemia aterogenna · Układowy toczeń rumieniowaty
Przypadki „trap” (2) BT-014, BT-015 Zespōł Gilberta (izolowana pośrednia hiperbilirubinemia) · W pełni normalny przesiew dorosłego

Proč ta konkretna dystrybucyjo

Hematologia dostaje trzi przypadki, bo mikrocytarne róznice (microcytic differentials) i makrocytarne róznice (macrocytic differentials) są najwiyncyjowymi „pułapkami” w realnym laboratōryjnym praktykowaniu. Endokrynologia dostaje trzi, bo prezentacyje Hashimoto, PCOS i niydostōnek witaminy D majōm rózne diagnostyczne kształty (naprowiane przez autoantyciała, naprowiane przez stosunki hormonów, naprowiane przez pojedynczy marker). Specyjalizacyje z jedynym przypadkiem są nadal znaczące, bo kady z CKD, ryzyka ASCVD i SLE ma swōj własny system punktacyje, kery silnik ma wywołać (odpowiednio: stadowanie KDIGO, 10-letnie ryzyko ASCVD, kryterija 2019 EULAR/ACR dla SLE).

V11 drugi update — 100,000 syntetycznych przypadków w 127 etykietach krajów

Drugi update zastępuje oryginalny V11 hard-coded 15-przypadkowy Python literal większym, programowo generowanym syntetycznym zbiorem przypadków. Zbiór przypadków je ładowany na start każdej sesji uruchomienia, a konfiguracyja je logowana dla przejrzystości. Rozkład kohortu według obszaru treści je pokazany poniży.

Endokrynologijo 23,900 spraw (23.9%) Tarczyca, PCOS, niydostōnek witaminy D, gonadalna oś, przysadka
Medycyna metaboliczna 21,900 spraw (21.9%) T2DM, zespōł metaboliczny, panele lipidowe, hiperurykemia
Hematologijo 15,400 spraw (15.4%) Rōżnice mikrocytarne i makrocytarne, B12/folian, badania żelaza
Hepatologija 12,400 spraw (12.4%) NAFLD/NASH, wirusowe zapalenie wątroby, FIB-4, cholestaza
Medycyna internistyczna (w tym podzbiōr trap) 9,000 spraw (9.0%) Mieszane prezentacje i 8,723 dedykowane sprawy z pułapkōm na hiperdijagnozę
Kardiologia 7,500 spraw (7.5%) Ryzyko ASCVD, aterogenna dyslipidemia, hs-CRP
Reumatologia 6,000 spraw (6.0%) SLE, RZS, waskulity, panele autoantyciał (kryteria EULAR/ACR)
Nefrologijo 4,000 spraw (4.0%) Staging CKD (KDIGO), trendy eGFR, zaburzenia elektrolitowe

Syntetyczny rozkład etykiet krajów — top 10 etykiet

Te 100,000 syntetycznych przypadków niosą 127 etykiet krajów (ISO 3166-1 alpha-2), żeby sprawdzić obsługę locale. Przypisanie etykiet: Europa 57.7%, Ameryki 25.4%, Azja-Pacyfik 6.2%, nazwane etykiety Bliski Wschód/Afryka 3.4% oraz długi ogon 97 dodatkowych etykiet łącznie mniej więcej 7.3%. Dziesięć najczęstszych etykiet według liczby przypadków to: Stany Zjednoczone (10,500), Brazylia (9,500), Hiszpania (9,000), Włochy (8,000), Niemcy (7,800), Francja (7,400), Portugalia (5,800), Türkiye (3,400), Zjednoczone Królestwo (2,900) i Meksyk (2,500). Kompozytowe wyniki per etykieta wahały się od 0.9971 do 0.9985. Te liczby etykiet są własnościami wygenerowanych przypadków użytych do sprawdzenia obsługi locale — to nie są realni użytkownicy i to nie je realne pokrycie geograficzne.

Wytłumaczony wstępnie zarejestrowany rubryk

Rejestracyjo przed startym (pre-registration) je jedynaj wažniyjsza metodologiczno decyzja w tym benchmarku. Kady oczekiwany rozpoznak, kady kliniczny system punktacyje i kady sekcyjo raportu były zaangażowane do kodu źródłowego zanim silnik został wywołany. Dalsze „dostrajanie” (post-hoc tuning) rubryki, coby „przyklapnōła” silnikowi, je tedy niemożliwe.

Trzi komponenty składajōm sie na kompozytowy wynik. strukturalny komponent wnosi 35 procent i mieri, czy silnik zwrōcił siedem obowiōzkowych sekcyj raportu (nagłōwek, podsumowanie, kluczowe wnioski, róznice, systemy punktacyje, rekomendacyje, follow-up) i szesnaście obowiōzkowych podsekcyj w nich. Obecność sekcyj waży 40 procent, a obecność podsekcyj waży 60 procent w ramach strukturalnego wyliczania.

Te kliniczny komponent wnosi 55 procent i łaczy trzi rzeczy: przypomnienie słōw-kluczy do rozpoznaka (70 procent klinicznego podwyniku), przypomnienie systemu punktacyje (20 procent — czy silnik liczy Mentzer, FIB-4, HOMA-IR, ryzyko ASCVD, stadowanie KDIGO, kryterija EULAR/ACR, jeźli to ma znaczenie), oraz kontrola prawidłowości sumy prawdopodobieństw (10 procent — prawdopodobieństwa w róznicach majōm sie zsumować do przedziału [90, 110]). W przypadkach „pułapek” odejmujōm jawny penal za hiperdjagnozowanie do 0.30, liczony jako 0.10 za kady wytworzony flag patologii, z limitym na trzy flagi.

Te komponent latencji wnosi 10 procent. Odpowiedz pod 20 sekund dostaje pełne 0.10, odpowiedz pod 40 sekund dostaje 0.05, a co kolwiek wolniyje dostaje zero. Celu na 20 sekund odzwierciedla produkcyjny cel poziomu usługi dla primary-path; sufit 40 sekund odzwierciedla budżet awaryjny w Phase 2 na ciynzkie wywołania silnika.

Końcowy zrzut ekranu z uruchomionego i emitujōcego wyniki per-przypadek środowiska benchmarku Kantesti w licencji MIT — to samo środowisko, teraz sterowane SQL, wyprodukowało wynik kompozytowy 99.80% na runie 100.000 przypadków w V11 Second Update
Rysunek 3: Wykonaniowy harness — ten sam silnik, co wytworzył 99.80% złożony wynik na kohorcie 100,000 przypadków w V11 Second Update. Każdy przypadek jest renderowany do PDF A4, publikowany na endpoint produkcyjnym v11 i oceniany wedle zamrożonej rubryki. Second Update dodał parametryzowany loader przypadków SQL; stratyfikowany losowy próbny zbiór surowych odpowiedzi silnika (n = 201) jest zapisywany obok zsumowanego scorecardu.

Co pre-registration zapobiega

Benchmarki robione przez „pierwszych autorōw” (first-party) są znane z napychania swych własnych liczb przez post-hoc dostrajanie rubryki. Wzōr prawie zawsze je ten sam: zespōł uruchamia silnik, widzi, gdzie nie dojeżdża, a potem po cichu dostosowuje rubryku, coby obszary, w których nie dowiozło, liczyły sie mniyj. Przez to, że rubryka je zaangażowana do kodu źródłowego przed pierwszym wywołaniem silnika i że uchwyt je opublikowany pod licencyją MIT, to dostosowanie staje sie widoczne w kontroli wersyj. Kady może sklonować repozytōry, sprawdzić daty autorōw rubryki i zweryfikować, że wyniki silnika nie były użyte do ukształtowania punktacyji.

Przypadki „pułapki” hiperdijagnozy — czemu nadmierne wzywanie je prawdziwym trybem porażki

Agresywne „przypisywanie” patologii na normalnych ekranach je udokumentowany tryb porażki w medycznych asystentach skierowanych do konsumentōw. Jej dalsze koszty zawierajōm niepotrzebne badania, niepokōj pacjenta i jatrogenny rozbōr. Dwa przypadki „pułapek” w tym benchmarku są zaprojektowane, coby ten tryb porażki był widoczny i dał sie ocenić.

Porōwnanie „obok siebie” naiwnego AI, kery wytwarza zapalenie wątroby na panelu zespołu Gilberta, w porównaniu do silnika Kantesti, kery poprawnie identyfikuje łagodny polimorfizm UGT1A1 — metodologiō, kera była skalowana do zera fałszywie pozytywnych wyników na 87.412 okazij do flagowania „trap” w benchmarku V11 Second Update 99.80%
Figura 4: Projekt trap-case z wstępnego wydania V11 — silnik, co z pewnoscią etykietuje zespół Gilberta jako zapalenie wątroby, abo co wytwarza graniczną patologię na w pełni normalnym ekranie, dostaje karę zamiast nagrody za brzmienie kliniczne. Ta metodika skaluje sie do 0 / 87,412 false-positives w przebiegu V11 Second Update na 100,000 przypadków, co wytworzył wynik złożony 99.80%.

🟡 Pułapka 1 — BT-014-GILBERT

Prezentacyjo. Mężczyzna 24 lata z całkowitym bilirubinōm 2.4 mg/dL. Frakcijo bezpośrednia je normalna, transaminazy i fosfataza alkaliczna siedzą w swych zakresach referencyjnych, retikulocyty są nieznaczące, a haptoglobina i LDH wykluczajōm hemolizę.

Poprawna interpretacyjo. Zespōł Gilberta — łagodna polimorfizma UGT1A1. Interpretacyjo nie powinna wywoływać zapalenia wątroby, marskości, hemolitycznej anemii ani zatoru/obstrukcyji dróg żółciowych.

Wynik v11. Kompozyt 1.000. Żadna z szostki monitorowanych flag nadmiernego rozpoznawania nie pojawiła sie jako aktywne rozpoznanie.

🟡 Pułapka 2 — BT-015-HEALTHY

Prezentacyjo. 35-letnia kobieta z rutynowym panelem przesiewowym na piętnaście parametrów. Każdy analit leży wygodnie w swoim zakresie referencyjnym.

Poprawna interpretacyjo. Uspokojenie i podtrzymanie stylu życia. Interpretacja nie powinna wytwarzać granicznej patologii, żeby brzmieć klinicznie użytecznie.

Wynik v11. Kompozyt 1.000. Żaden z siedmiu monitorowanych flag nadmiernego rozpoznawania — cukrzyca, anemia, niedoczynność tarczycy, dyslipidemia, zapalenie wątroby, choroba nerek, niedobór — nie pojawił sie jako aktywne rozpoznania.

W obu „pułapach” sprawdzono trzynaście monitorowanych flag nadmiernego rozpoznawania. Nic nie zadziałało. To je wynik, co najbarzi liczy sie dla każdego klinicysty, co rozważa użycie silnika AI jako narzędzia triage albo przedkonsultacyjnego: system nie wymyślił choroby, jakiej nie było.

Indeks Mentzera: rozdzielanie niydoboru żelaza z cechōw talaszemii

Drugie, wartościowe znalezisko dotyczy sparowania przypadku BT-001 (anemia z niedoboru żelaza) z przypadkiem BT-007 (mała beta-talasemia). Oba występują z mikrocytozą i to je dobrze znana przeszkoda dla naiwnych klasyfikatorów. Indeks Mentzera, liczony jako MCV podzielone przez liczbę RBC, je powyżej 13 w niedoborze żelaza i spada poniżej 13 w cechach talasemii.

W BT-001 pacjentka miała 34 lata, hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferrytyna 6 ng/mL i podwyższony TIBC. Indeks Mentzera, około 17.7, wspiera bezwzględny niedobór żelaza. W BT-007 pacjent miała 28 lat, mikrocytoza (MCV 65.8 fL), ale wysoka liczba RBC 6.2, normalne RDW, normalna ferrytyna i HbA2 5.6 procent. Indeks Mentzera, około 10.6, wskazuje na cechy talasemii, a podwyższony HbA2 potwierdza małą beta-talasemię.

Anemia z niedoboru żelaza Mentzer > 13 Niska ferrytyna, niskie TSAT, wysoki TIBC, podwyższone RDW
Cechy beta-talasemii Mentzer < 13 Normalna ferrytyna, normalne RDW, podwyższony HbA2 (>3.5%), wysoka liczba RBC

Oba przypadki dostały wynik 1.000. Silnik użył indeksu Mentzera wprost w obu interpretacjach i zwrócił poprawne rozpoznanie w każdym wypadku. To je jedyny najbardziej uspokajający klinicznie wynik w całym benchmarku, bo mylne zaklasyfikowanie cech talasemii jako niedoboru żelaza prowadzi do nieodpowiedniego suplementowania żelaża i pominięcia możliwości przesiewu rodzinnego, a mylne zaklasyfikowanie niedoboru żelaża jako talasemii opóźnia proste leczenie zastępcze. Nasze przewodnik po zakresie ferrytyny wyjaśnia szerszy kontekst różnicowania.

Wyniki per przypadek z wstępnego referencyjnego uruchomienia V11 (23. april 2026)

Oryginalne uruchomienie referencyjne V11 na kohorcie proof-of-concept z 15 przypadków służy jako fundament metodologiczny Second Update: każdy szczegół per przypadek poniży ilustruje, jak rubryka obchodzi sie z realną odpowiedzią silnika. Dwanaście z piętnastu przypadków osiagnęło sufit złożonego wyniku 1.000 na głównej ścieżce; trzy przypadki były obsłużone przez fallback Phase 2, tracąc bonus latencji 0.05, ale zachowując wszyskie treści kliniczne i strukturalne. Jeden przypadek nie miał jednego wymaganego podrozdziału; jeden zwrócił nieco zredukowaną sumę rozkładu prawdopodobieństwa.

ID przypadku Specjalizacja Złożony Latencja Ścieżka
BT-001-IDAHematologijo1.00017.8 sprimary
BT-006-B12Hematologijo1.00018.4 sprimary
BT-007-THALHematologijo1.00017.0 sprimary
BT-002-HASHEndokrynologijo0.95037.0 sfallback
BT-008-PCOSEndokrynologijo0.98718.6 sprimary
BT-003-T2DMMetaboliczne1.00019.1 sprimary
BT-013-GOUTMetaboliczne1.00019.4 sprimary
BT-004-NAFLDHepatologija1.00019.6 sprimary
BT-009-VIRHEPHepatologija0.95023.4 sfallback
BT-014-GILBERTTrap1.00018.9 sprimary
BT-005-CKDNefrologijo1.00017.4 sprimary
BT-010-ASCVDKardiologia1.00019.7 sprimary
BT-011-SLEReumatologia0.98118,2 sprimary
BT-012-VITDEndokrynologijo1.00019,3 sprimary
BT-015-ZDROWYTrap1.00018,7 sfallback

Przypadek PCOS (BT-008) stracił jedynō obowiōnzujōcy podrozdział w strukturze odpowiedzi — piętnaście z szesnastu zamiast szesnastu z szesnastu — co obniżyło punktōwōnie struktury z 1.000 do 0.963. Przypadek SLE (BT-011) zwrōcił marginalnie zniżōnō sumę rozkładu prawdopodobieństwa, co obniżyło punktōwōnie kliniczne do 0.965, przy zachowaniu wszyskich słōw kluczowych do diagnozy i systemu punktōwōnia. Żaden z tych dwuch przypadkōw nie był niedoskōnały tak, żeby przeca nie trafnie postawił diagnozy.

Agregat V11 Second Update — 100,000 przypadków

W skali populacyjnej pojedyncze wiersze przypadków nie są czytelne dla człowieka, więc drugi update raportuje zsumowane metryki, a nie tabelę 100,000-wierszową. Główny agregat je pokazany poniży; rozbicia per specjalizacja i per etykieta kraju są opublikowane w raporcie technicznym i w depozycie Figshare. Stratyfikowany losowy próbny zbiór n = 201 surowych odpowiedzi silnika (deterministyczne ziarno 20260426) jest publikowany w katalogu GitHub results/ do inspekcyji.

Złożony wynik V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 w kohorcie 100,000 przypadków
Wynik strukturalny (średnio) V11 initial: 0.998 → Second Update: 1.000 Perfekcyjne dopasowanie strukturalne w skali populacyjnej
Wynik kliniczny (średnio) V11 initial: 0.998 → Second Update: 0.996 −0.002; żynny przypadek nie przecał samej diagnozy
Latency — średnio (zakres) Wstępne V11: 20.17 s (17.0–37.0 s) → Druga aktualizacja: 13.26 s (9.0–16.94 s) Optymalizacje silnika produkcyjnego między uruchomieniami
Ścieżka silnika = pierwotna Wstępne V11: 12 / 15 → Druga aktualizacja: 100,000 / 100,000 W żadnym momencie podczas uruchomienia nie było potrzeby awaryjnego trybu Phase 2
Flagi hiperdetekcji dla podzbioru pułapek Wstępne V11: 0 / 13 → Druga aktualizacja: 0 / 87,412 Zero fałszywie dodatnich wyników na skali populacyjnej (8,723 przypadki pułapek monitorowane)

Co nam nie mowi nagłōwkowy wynik

Kompozytowy wynik 99.80 procent w ramach tego konkretnego pre-registranego rubryku, na syntetycznym kohorcie 100,000 przypadków obejmujacym 127 etykiet krajów, reprezentuje wynik bliski sufitowi — ale to wymaga starannego osadzenia w kontekście. Wynik opisuje zachowanie silnika względem rubryku, do którego zobowiązaliśmy się w kodzie źródłowym w V11; to nie je uniwersalne twierdzenie o poprawności silnika na każdym panelu badań krwi, jaki istnieje w realnym świecie.

Wynik mówi, że silnik poprawnie obsłużył wybrane wzorce diagnostyczne dla tej oceny w kohorcie na skali populacyjnej, w ramach opublikowanej i możliwej do odtworzenia metodologii. Nie mówi, że silnik jest poprawny na każdym panelu wyników badańo krwi, jaki istnieje w naturze. Nie mówi, że silnik powinien zastępować osąd klinicysty. I nie mówi, że silnik przewyższa alternatywne systemy AI — porównawcze analizy z innymi silnikami celowo nie wchodziły w zakres tego raportu.

To, co wynik faktycznie ustala, to punkt odniesienia. Ponieważ schemat oceny i środowisko testowe są publiczne, przyszłe wersje silnika można oceniać względem tego samego schematu — zastosowanego do wstępnych 15 przypadków V11, kohorty 100,000 przypadków Drugiej aktualizacji albo dowolnego późniejszego rozszerzenia — a różnica między opublikowanym wynikiem a dowolnym kolejnym uruchomieniem jest sama w sobie mierzalna. Taka jest wartość wstępnej rejestracji: zamienia twierdzenia o wydajności na twierdzenia, kery da się testować.

Jak odtworzyć to benchmark w 10 minut

Odtworzenie wymaga tylko pary poświadczeń API Kantesti i środowiska Python 3.10 albo nowszego z requests i reportlab zainstalowanymi bibliotekami. Całe środowisko testowe to jeden samowystarczalny moduł Pythona wydany pod licencjō MIT.

Diagram sieci replikowalności pokazujący benchmark Drugiego Update V11 (kompozyt 99.80%, 100,000 przypadków, 127 krajowych labeli) odbity na Figshare, ResearchGate, Academia.edu i GitHub, z Figshare DOI jako kanonicznym punktem zakotwiczenia
Figura 5: Benchmark V11 Druga aktualizacja — 99.80% kompozytowy wynik na 100,000 przypadków w 127 etykietach krajów — jest odbite na czterech platformach badawczych. Figshare DOI je kanonicznym identyfikatorem naukowym; ResearchGate (publication 404175463), Academia.edu (paper 165956808) i GitHub hostujóm równoległe kopie z benchmarkowym harness’em, stratyfikowanym losowym próbkym surowych odpowiedzi i kartami wyników per kraj/per specjalizacja.

Cztery kroki do świeżego uruchomienia

Jeden. Skloń repozytorium: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dwa. Zainstaluj zależności za pomocōm pip install -r requirements.txt (Druga aktualizacja dodaje mysql-connector-python ≥ 8.0 dla modułu ładującego przypadki SQL). Trzi. Ustaw KANTESTI_USERNAME i KANTESTI_PASSWORD jako zmienne środowiskowe dla API silnika. Dla modułu ładującego przypadki SQL w Drugiej aktualizacji ustaw także KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, i KANTESTI_DB_PASSWORD — loader lōczy sie przez rolō tylko do czytōnia (bench_reader) co ni ma uprawniōń do identyfikacyje tabel. Trzi. Uruchōm python benchmark_bloodtest.py --limit 100000 na kompletne uruchōmienie Second-Update, abo python benchmark_bloodtest.py --limit 1000 na szybkie iteracyje. Wyniki lōdujō do ./benchmark_results/: CSV scorecard z kolumnami per kraj-label i per specjalizacja, JSON-owy agregat, stratyfikowany-losowy sample surowych odpowiedzi i raport w Markdown.

Referencyjne uruchōmienia z 23 kwietnia 2026 (V11 poczōtkowe, 15 przypadkōw) i z 26 kwietnia 2026 (V11 Second Update, 100,000 przypadkōw) sō zachowane w results/ katalogu repozytōra. Nowe uruchōmienie wytworzi nowy timestampowany scorecard, ale referencyjne uruchōmienia zostawi nietkniōte. Jeżli twoje uruchōmienie da znacząco inny wynik, to proszō otwōrz GitHub issue z timestampem uruchōmienia i wersyjom engine, co je zwrōcona w metadanych odpowiedzi.

Ograniczynia i prziyszłe prace

Nawet przy 100,000 przypadkach na 127 krajowych labelach, cztery ograniczenia zasługujóm na jawne uznani: niedoszacowanie labelów z długim ogonem, ocena jednorazowa, zakres jednego silnika i pochodzenie danych z jednego źródła. Każde z nich je adresowane w aktywnych pracach następczych.

Pokrycie labelów z długim ogonem. Drugi Update obejmuje 127 krajowych labeli, ale rozkład je niezrównoważony — top 10 labeli stanowi ≈66.4% przypadków, a długi ogon 97 dodatkowych labeli razem dokłada ≈7.3% (około 7,300 przypadków łącznie, ~75 przypadków na label w średnim). Kompozyty per-label w tym długim ogonie są więc bardziej szumne, niźli sugerujóm liczby nagłówkowe. Przyszłe uruchomienia zrównoważą przypisywanie labeli, coby doprecyzować estymacje per label.

Ocena „single-shot”. Każdy przypadek w kohorcie był oceniony jednokrotnie. Duże modele językowe wykazujō niebłachowō zmienność wyniku nawet przy niskiej temperaturze prōbkowania, więc protokōł wielokrotnego uruchōmienia z pięcioma ocenami na przypadek i podanō wariancjō je naturalnym nastym krokiem — szczegōlnie na podzbiorze trap-case, gdzie spōjność pod wpływem jittera prōbkowania je częśćiōm twierdzenia o bezpieczństwie.

Zakres jednego silnika. Ten raport charakteryzuje jeden engine. Analizy porōwnawcze do inakszych systemōw AI sō poza zakresem tu; moźemy je ewentualnie prowadzić jako osobne niezależne badanie z odpowiedniō metodologiō, na tym samym harnessie na licencyji MIT.

Dane syntetyczne. Te 100,000 przypadków je wygenerowane syntetycznie, a nie są to „synthetic cases” — wyniki nie przenoszóm się na rzeczywistą kliniczną skuteczność. Ocena na realnych, za zgodą pozyskanych, zewnętrznie pozyskiwanych danych wymagałaby odpowiedniego nadzoru etycznego i je poza zakresem tego syntetycznego benchmarku.

Poza tymi czterma, najbarziej wpływowe planowane rozszerzenie to wielojęzyczna parytetność per jurysdykcjo. Kantesti AI Engine służy uźytkownikōm w 75+ językach, a uruchōmienie językowo-stratyfikowanych podkohort Second-Update (turecki, niemiecki, hiszpański, francuski, włoški, portugalski, arabski, mandaryński) bōdzie kwantyfikować jakość wyjścia w językach, co je wspierane przez engine. Każda analiza stratyfikowana po języku bōdzie opublikowana z własnym DOI i gałęziō harness.