Dlaczego istnieje ten benchmark i co sprawdza
Analiza krwi AI wspomagana przez sztuczną inteligencję jest coraz częściej stosowana w procesach konsumenckich i klinicznych, jednak ramy oceny możliwe do odtworzenia, dopasowane do medycyny laboratoryjnej, pozostają rzadkością. Najważniejsze w tym kontekście pytania nie są tymi, które obejmują ogólne benchmarki do medycznego odpowiadania na pytania: czy silnik potrafi odróżnić niedobór żelaza od cechy talasemii, gdy średnia objętość krwinki jest identyczna, czy nadmiernie diagnozuje zespół Gilberta jako zapalenie wątroby oraz czy wytwarza patologię w w pełni prawidłowym panelu przesiewowym?
Pojedynczy panel badań krwi zazwyczaj zawiera na tyle sygnału, by umożliwić kilka konkurujących interpretacji, a zadaniem interpretującego lekarza jest ważyć te interpretacje względem siebie, a nie odszukiwać odpowiedź „z podręcznika”. Silnik, który dobrze radzi sobie w przypadkach podręcznikowych, może jednak zawieść w tych, które mają największe znaczenie: w pułapkach diagnostyki różnicowej, w łagodnych wariantach wyglądających alarmująco, gdy rozpatruje się je w izolacji, oraz w pełni prawidłowych panelach, które kuszą pewnych siebie asystentów do wytwarzania patologii.
Ten benchmark został zbudowany dokładnie wokół tych trybów porażki. Każdy z piętnastu przypadków wybrano ze względu na określoną właściwość diagnostyczną: mikrocytozę z niedoboru żelaza, którą trzeba odróżnić od cechy beta-talasemii o identycznej średniej objętości krwinki (MCV), prezentację zespołu Gilberta, w której jedyną nieprawidłowością jest izolowana pośrednia hiperbilirubinemia, oraz panel przesiewowy obejmujący piętnaście parametrów, w którym każdy analit mieści się w swoim zakresie referencyjnym. Kryterium premiuje silniki, które czytają każdy przypadek na jego własnych zasadach, a karze silniki, które sięgają po pewną diagnozę tam, gdzie taka diagnoza nie jest uzasadniona.
Jako Thomas Klein, MD, wybrałem ten zestaw przypadków, ponieważ to właśnie te wzorce asystenci z obszaru medycyny laboratoryjnej najczęściej interpretują błędnie. Kosztowny tryb porażki nie polega na "pominięciu rzadkiej choroby" — polega na wytwarzaniu rutynowej patologii u pacjentów, u których jej nie ma. Nasz Walidacja medyczna hub opisuje szersze ramy; ta strona opisuje początkowy proof-of-concept V11 oraz V11 Second Update, które skalowały go do 100 000 zanonimizowanych przypadków pobranych z repozytorium klinicznego opartego na SQL obejmującego 127 krajów — z użyciem tej samej rubryki punktacyjnej, identycznej bajtowo, bez dopuszczenia dostrajania post-hoc.
Najnowszy przebieg referencyjny — V11 Second Update (26 kwietnia 2026)
Referencyjny przebieg V11 Second Update z 26 kwietnia 2026 wygenerował wynik złożony 99.80% na tej samej wstępnie zarejestrowanej rubryce użytej w początkowym wydaniu V11, oceniany na 100 000 zanonimizowanych przypadków pobranych z repozytorium klinicznego opartego na SQL Kantesti i obejmujących 127 krajach oraz języki 75+. Każdy przypadek został ukończony na głównej ścieżce silnika; aktywacje flagi hiperdetekcji w przypadkach pułapkowych pozostały na 0 / 87,412. Oryginalny przebieg V11 z 23 kwietnia 2026 obejmował 15 przypadków ręcznie wyselekcjonowanych (wynik złożony 99.12%) i zweryfikował rubrykę; Second Update zachowuje tę rubrykę identyczną bajtowo i rozszerza ocenę na kohortę na skalę populacyjną.
Wzór na wynik złożony łączy trzy składowe: zgodność strukturalna z siedmioma obowiązkowymi sekcjami raportu i szesnastoma obowiązkowymi podsekcjami, dokładność kliniczna mierzona jako przypominanie słów kluczowych plus przypominanie systemu punktacji plus test poprawności ważności rozkładu prawdopodobieństwa, oraz opóźnienie odpowiedzi względem docelowego poziomu usług dla głównej ścieżki. Dokładny rozkład przedstawiono w poniższym wzorze rubryki — żadne z tych wag ani pod-rubryk nie zostały zmienione w Second Update.
Pozostałe 0,20 punktu procentowego zapasu (headroom) rozkłada się prawie w całości na wynik podkliniczny — niewielka część przypadków (głównie w Hepatologii i Reumatologii) miała jedno oczekiwane słowo kluczowe z systemu punktacji nieobecne w interpretacji silnika, mimo że treść diagnostyczna była poprawna. Żaden przypadek w kohorcie Second Update liczącej 100 000 przypadków nie pominął samej diagnozy. Opóźnienie poprawiło się ze średniej 20,17 s w początkowym wydaniu V11 do 13,26 s w Second Update, odzwierciedlając optymalizacje silnika produkcyjnego pomiędzy dwoma przebiegami; rubryka, kod punktacji i punkt końcowy API pozostają bez zmian.
Wyniki złożone według kraju wahały się od 0,9971 (Indie) do 0,9985 (Szwajcaria) wśród 30 najliczniej reprezentowanych krajów. Długi ogon 97 dodatkowych krajów (łącznie ≈7 300 przypadków) nie wykazał systematycznego pogorszenia. Największy wkład według liczby przypadków miały: Stany Zjednoczone (10 500), Brazylia (9 500), Hiszpania (9 000), Włochy (8 000), Niemcy (7 800), Francja (7 400), Portugalia (5 800), Türkiye (3 400), Wielka Brytania (2 900) i Meksyk (2 500).
Od 15 przypadków do 100 000: ewolucja kohorty w 127 krajach
Oryginalny panel przypadków V11 obejmował siedem specjalności — hematologię, endokrynologię, medycynę metaboliczną, hepatologię, nefrologię, kardiologię, reumatologię — oraz dwa dedykowane przypadki pułapek hiperdetekcji, przy czym każdy przypadek stanowił zanonimizowany rzeczywisty zapis pacjenta pobrany z repozytorium danych klinicznych Kantesti na podstawie pisemnej świadomej zgody. V11 Second Update rozszerza ocenę na 100 000 zanonimizowanych przypadków w 127 krajach, rozłożonych na osiem specjalności (oryginalne siedem plus dedykowana „szuflada” medycyny wewnętrznej, która obejmuje podzbiór pułapek). Ta sama rubryka punktacyjna jest stosowana identycznie bajtowo w obu przebiegach.
De-identyfikacja została przeprowadzona w podejściu Safe Harbor: wszystkie bezpośrednie identyfikatory zostały usunięte lub zastąpione, a każdy zapis otrzymał wewnętrzny kod przypadku benchmark w formacie BT-NNN-LABEL (V11 initial) lub stabilny zanonimizowany case_uid dla Second Update. Przetwarzanie przeprowadzono zgodnie z Artykułem 9(2)(j) RODO w celu badań naukowych z odpowiednimi zabezpieczeniami oraz z równoważnymi przepisami UK GDPR. Żadne dane umożliwiające identyfikację osoby nie występują nigdzie w opublikowanym zestawie testowym, raporcie technicznym ani w udostępnionych zbiorach danych.
początkowym wydaniem V11 — 15 przypadków ręcznie wyselekcjonowanych
Oryginalny panel przypadków V11 został ręcznie skomponowany przez dr. Thomasa Kleina, aby ćwiczyć wzorce diagnostyczne, które asystenci medycyny laboratoryjnej najczęściej błędnie interpretują. Każdy z piętnastu przypadków został wybrany ze względu na określoną właściwość diagnostyczną, wymienioną poniżej.
Dlaczego właśnie taki rozkład
Hematologia otrzymuje trzy przypadki, ponieważ w praktyce laboratoryjnej w realnym świecie największymi „pułapkami” o największej częstotliwości są różnicowania mikrocytarne i makrocytarne. Endokrynologia otrzymuje trzy, ponieważ obrazy kliniczne w przebiegu choroby Hashimoto, PCOS i niedoboru witaminy D przyjmują różne kształty diagnostyczne (napędzane autoprzeciwciałami, napędzane proporcjami hormonów, napędzane pojedynczym markerem). Specjalizacje jedno-przypadkowe nadal mają znaczenie, ponieważ każdy z CKD, ryzyka ASCVD i SLE ma własny system punktacji, który silnik powinien wywołać (odpowiednio: stopniowanie KDIGO, 10-letnie ryzyko ASCVD, kryteria SLE 2019 EULAR/ACR).
V11 Druga aktualizacja — 100 000 zanonimizowanych przypadków w 127 krajach
Druga aktualizacja zastępuje oryginalny, zakodowany na sztywno w V11 literał Pythona 15 przypadków parametryzowanym, tylko do odczytu zapytaniem SQL względem repozytorium klinicznego Kantesti (anonymised_blood_panels). Zapytanie filtruje na consent_research = 1 AND released_for_benchmark = 1 i jest drukowane u góry każdego uruchomienia benchmarku w celu zapewnienia przejrzystości. Rozkład kohorty według specjalizacji przedstawiono poniżej.
Rozkład geograficzny — 10 najlepszych krajów
Kohorta obejmuje 127 krajów (ISO 3166-1 alpha-2). Europa wnosi 57.7%, Ameryki 25.4%, Azja i Pacyfik 6.2%, wpisy dotyczące Bliskiego Wschodu/Afryki 3.4%, a długa „ogonowa” lista 97 dodatkowych krajów łącznie około 7.3%. Dziesięciu największych współtwórców to: Stany Zjednoczone (10,500), Brazylia (9,500), Hiszpania (9,000), Włochy (8,000), Niemcy (7,800), Francja (7,400), Portugalia (5,800), Türkiye (3,400), Wielka Brytania (2,900) i Meksyk (2,500). Złożone wyniki per-kraj wahały się od 0.9971 (Indie) do 0.9985 (Szwajcaria).
Wyjaśniona rubryka wstępnie zarejestrowana
Rejestracja wstępna jest jedną z najważniejszych decyzji metodologicznych w tym benchmarku. Każda oczekiwana diagnoza, każdy kliniczny system punktacji i każda sekcja raportu zostały zobowiązane do kodu źródłowego zanim silnik został uruchomiony. Dostosowywanie post-hoc rubryki w celu „podkręcenia” wyniku silnika jest więc niemożliwe.
Trzy składowe składają się na wynik złożony. Składowa strukturalna wnosi 35 procent i mierzy, czy silnik zwrócił siedem obowiązkowych sekcji raportu (nagłówek, podsumowanie, kluczowe ustalenia, różnicowanie, systemy punktacji, zalecenia, obserwacja) oraz szesnaście obowiązkowych podsekcji w ramach tych sekcji. Obecność sekcji waży 40 procent, a obecność podsekcji waży 60 procent w obliczeniu strukturalnym.
Ten składowa kliniczna wnosi 55 procent i łączy trzy elementy: przypominanie słów kluczowych diagnozy (70 procent klinicznej podskali), przypominanie systemu punktacji (20 procent — czy silnik oblicza Mentzer, FIB-4, HOMA-IR, ryzyko ASCVD, stopniowanie KDIGO, kryteria EULAR/ACR, gdy ma to zastosowanie) oraz test poprawności sumy prawdopodobieństw (10 procent — prawdopodobieństwa w różnicowaniu powinny sumować się do wartości w przedziale [90, 110]). W przypadkach-pułapkach odejmowana jest jawna kara za nadrozpoznanie do 0,30, obliczana jako 0,10 za każdy wytworzony znacznik patologii, z limitem do trzech znaczników.
Ten składowa opóźnienia wnosi 10 procent. Odpowiedź poniżej 20 sekund otrzymuje pełne 0,10, odpowiedź poniżej 40 sekund otrzymuje 0,05, a wszystko wolniejsze otrzymuje zero. Cel 20 sekund odzwierciedla produkcyjny cel poziomu usługi dla usługi primary-path; sufit 40 sekund odzwierciedla budżet awaryjny dla Phase 2 przy ciężkich wywołaniach silnika.
Czego zapobiega rejestracja wstępna
Benchmarki pierwszoosobowe są notorycznie podatne na zawyżanie własnych wyników poprzez dostrajanie rubryki post-hoc. Wzorzec jest prawie zawsze ten sam: zespół uruchamia silnik, widzi, gdzie wypada słabiej, a następnie cicho dostosowuje rubrykę tak, by obszary słabiej wypadające liczyły się mniej. Zobowiązując rubrykę do kodu źródłowego przed pierwszym wywołaniem silnika i publikując harness na licencji MIT, to dostosowanie staje się widoczne w kontroli wersji. Każdy może sklonować repozytorium, sprawdzić daty autorów rubryki i zweryfikować, że wyniki silnika nie były użyte do kształtowania punktacji.
Przypadki pułapki hiperdiagnozy — dlaczego nadmierne „przypisywanie” jest realnym trybem porażki
Agresywne nadawanie rozpoznań patologii na prawidłowych ekranach jest udokumentowanym trybem awarii asystentów medycznych skierowanych do konsumentów. Koszty pośrednie obejmują niepotrzebne badania, niepokój pacjenta i niekorzystne działania wynikające z niepotrzebnej diagnostyki. Dwa przypadki-pułapki w tym benchmarku są zaprojektowane tak, aby ten tryb awarii był widoczny i możliwy do punktowania.
🟡 Pułapka 1 — BT-014-GILBERT
Obraz. Mężczyzna, 24 lata, z całkowitą bilirubiną 2,4 mg/dL. Frakcja bezpośrednia jest prawidłowa, transaminazy i fosfataza alkaliczna mieszczą się w swoich zakresach referencyjnych, retikulocyty są bez istotnych cech, a haptoglobina i LDH wykluczają hemolizę.
Prawidłowa interpretacja. Zespół Gilberta — łagodny polimorfizm UGT1A1. Interpretacja nie powinna wywoływać zapalenia wątroby, marskości, niedokrwistości hemolitycznej ani niedrożności dróg żółciowych.
Wynik V11. Wynik złożony 1.000. Żaden z sześciu monitorowanych znaczników nadrozpoznania nie pojawił się jako aktywna diagnoza.
🟡 Pułapka 2 — BT-015-ZDROWY
Obraz. Kobieta, 35 lat, z piętnastoparametrowym rutynowym panelem przesiewowym. Każdy analit znajduje się wygodnie w swoim zakresie referencyjnym.
Prawidłowa interpretacja. Uspokojenie i utrzymanie stylu życia. Interpretacja nie powinna wytwarzać granicznej patologii, aby brzmiała klinicznie użytecznie.
Wynik V11. Złożony wynik 1.000. Żadna z siedmiu monitorowanych flag nadmiernego rozpoznawania — cukrzyca, anemia, niedoczynność tarczycy, dyslipidemia, zapalenie wątroby, choroba nerek, niedobór — nie pojawiła się jako aktywna diagnoza.
W obu pułapkach sprawdzono trzynaście monitorowanych flag nadrozpoznawania. Żadna nie została uruchomiona. To wynik, który ma największe znaczenie dla każdego klinicysty rozważającego użycie silnika AI jako narzędzia triage lub poprzedzającego konsultację: system nie wymyślił choroby, jeśli nie istniała.
Indeks Mentzera: rozdzielanie niedoboru żelaza od cechy talasemii
Drugie wysokowartościowe ustalenie dotyczy połączenia przypadku BT-001 (anemia z niedoboru żelaza) z przypadkiem BT-007 (beta-talasemia mała). Oba przebiegają z mikrocytozą i są dobrze znaną przeszkodą dla naiwnych klasyfikatorów. Indeks Mentzera, obliczany jako MCV podzielone przez liczbę RBC, przekracza 13 w niedoborze żelaza i spada poniżej 13 w cechach talasemii.
W BT-001 pacjentką była 34-letnia kobieta z hemoglobiną 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferrytyną 6 ng/mL oraz podwyższonym TIBC. Indeks Mentzera wynoszący około 17,7 wspiera bezwzględny niedobór żelaza. W BT-007 pacjentem był 28-letni mężczyzna z mikrocytozą (MCV 65,8 fL), ale wysoką liczbą RBC 6,2, prawidłowym RDW, prawidłową ferrytyną oraz HbA2 5,6 procent. Indeks Mentzera wynoszący około 10,6 wskazuje na cechy talasemii, a podwyższone HbA2 potwierdza beta-talasemię małą.
Oba przypadki uzyskały wynik 1.000. Silnik wyraźnie użył indeksu Mentzera w obu interpretacjach i zwrócił prawidłową diagnozę w każdym przypadku. To pojedynczy najbardziej uspokajający klinicznie wynik w całym benchmarku, ponieważ błędne zaklasyfikowanie cech talasemii jako niedoboru żelaza prowadzi do nieodpowiedniej suplementacji żelazem i pominięcia możliwości przesiewu rodzinnego, a błędne zaklasyfikowanie niedoboru żelaza jako talasemii opóźnia proste leczenie zastępcze. Nasze przewodnik po zakresie ferrytyny wyjaśnia szerszy kontekst różnicowania.
Wyniki per-przypadek z początkowego przebiegu referencyjnego V11 (23 kwietnia 2026)
Oryginalny przebieg referencyjny V11 na 15-przypadkowej kohorcie proof-of-concept stanowi podstawę metodyczną dla Second Update: każdy szczegół per-przypadek poniżej pokazuje, jak rubryka obsługuje rzeczywistą odpowiedź silnika. Dwanaście z piętnastu przypadków osiągnęło sufit złożonego wyniku 1.000 na głównej ścieżce; trzy przypadki zostały obsłużone przez mechanizm awaryjny Phase 2, tracąc premię za opóźnienie 0.05, ale zachowując całą treść kliniczną i strukturalną. W jednym przypadku brakowało pojedynczej obowiązkowej podsekcji; jeden zwrócił nieco zmniejszoną sumę rozkładu prawdopodobieństwa.
Przypadek PCOS (BT-008) utracił w odpowiedzi pojedynczą obowiązkową podsekcję w strukturze — piętnaście na szesnaście zamiast szesnastu na szesnaście — co obniżyło wynik strukturalny z 1,000 do 0,963. Przypadek SLE (BT-011) zwrócił nieznacznie zmniejszoną sumę rozkładu prawdopodobieństwa, przez co wynik kliniczny spadł do 0,965, przy zachowaniu każdego słowa kluczowego diagnostycznego i systemu punktacji. Żaden z przypadków nieosiągających ideału nie pominął prawidłowej diagnozy.
Agregat V11 Second Update — 100,000 przypadków
W skali populacyjnej pojedyncze wiersze przypadków nie są czytelne dla człowieka, więc Second Update raportuje zagregowane metryki zamiast tabeli 100,000 wierszy. Główny wynik zagregowany pokazano poniżej; podziały per-specjalność i per-kraj są opublikowane w raporcie technicznym oraz w depozycie Figshare. Warstwowo losowana próbka n = 201 surowych odpowiedzi silnika (deterministyczne ziarno 20260426) jest publikowana w repozytorium GitHub results/ do wglądu.
Co nam nie mówi wynik nagłówkowy
Złożony wynik 99,80 procent w ramach tej konkretnej, wcześniej zarejestrowanej rubryki, na anonimowej kohorcie obejmującej 100 000 przypadków i 127 krajów, oznacza wynik bliski pułapowi — ale wymaga to ostrożnego przedstawienia. Wynik opisuje zachowanie silnika względem rubryki, którą zobowiązaliśmy się zaimplementować w kodzie źródłowym w V11; nie jest to uniwersalne twierdzenie o poprawności silnika na każdym istniejącym w praktyce panelu badań krwi.
Wynik mówi, że silnik poprawnie obsłużył wybrane w tym badaniu wzorce diagnostyczne w kohorcie na skalę populacyjną, w oparciu o opublikowaną i możliwą do odtworzenia metodykę. Nie mówi, że silnik jest poprawny na każdym istniejącym w praktyce panelu badań krwi. Nie mówi też, że silnik powinien zastępować osąd klinicysty. I nie mówi, że silnik przewyższa alternatywne systemy AI — porównawcze analizy z innymi silnikami celowo nie wchodziły w zakres tego raportu.
To, co wynik faktycznie ustala, to punkt odniesienia. Ponieważ rubryka i środowisko testowe są publiczne, przyszłe wersje silnika można oceniać względem tej samej rubryki — stosując ją do wstępnych 15 przypadków V11, kohorty 100 000 przypadków z Drugiej aktualizacji lub do dowolnego późniejszego rozszerzenia — a różnica między opublikowanym wynikiem a dowolnym kolejnym uruchomieniem jest sama w sobie mierzalna. Taka jest wartość pre-rejestracji: przekształca twierdzenia o wydajności w twierdzenia możliwe do przetestowania.
Jak odtworzyć ten benchmark w 10 minut
Odtworzenie wymaga jedynie pary poświadczeń API Kantesti oraz środowiska z Pythonem 3.10 lub nowszym, z requests I reportlab zainstalowanymi bibliotekami. Pełne narzędzie to pojedynczy, samowystarczalny moduł Pythona wydany na licencji MIT.
Cztery kroki do nowego uruchomienia
Jeden. Sklonuj repozytorium: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dwa. Zainstaluj zależności za pomocą pip install -r requirements.txt (Druga aktualizacja dodaje mysql-connector-python ≥ 8.0 dla modułu ładującego przypadki SQL). Trzy. Ustaw KANTESTI_USERNAME I KANTESTI_PASSWORD jako zmienne środowiskowe dla API silnika. Dla modułu ładującego przypadki SQL w Drugiej aktualizacji ustaw także KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, I KANTESTI_DB_PASSWORD — loader łączy się przez rolę tylko do odczytu (bench_reader) która nie ma uprawnień do identyfikowania tabel. Cztery. Uruchom python benchmark_bloodtest.py --limit 100000 dla pełnego przebiegu Second-Update lub python benchmark_bloodtest.py --limit 1000 do szybkiej iteracji. Wyniki trafiają do ./benchmark_results/: arkusz wyników CSV z kolumnami dla każdego kraju i każdej specjalizacji, agregat JSON, warstwowo-losową próbkę odpowiedzi oraz raport w formacie Markdown.
Przebiegi referencyjne z 23 kwietnia 2026 r. (V11 początkowy, 15 przypadków) oraz z 26 kwietnia 2026 r. (V11 Second Update, 100,000 przypadków) są zachowane w results/ katalogu repozytorium. Świeży przebieg wygeneruje nowy arkusz wyników z nowym znacznikiem czasu, pozostawiając przebiegi referencyjne bez zmian. Jeśli Twój przebieg daje znacząco inny wynik, prosimy otworzyć issue na GitHubie z podaniem znacznika czasu przebiegu oraz wersji silnika zwróconej w metadanych odpowiedzi.
Ograniczenia i prace przyszłe
Nawet przy 100,000 przypadków w 127 krajach, cztery ograniczenia zasługują na wyraźne omówienie: niedoszacowanie krajów z długiego ogona, ocena jednorazowa, ograniczenie do jednego silnika oraz pochodzenie danych z jednego źródła. Każde z nich jest adresowane w aktywnych pracach następczych.
Pokrycie krajów z długiego ogona. Second Update obejmuje 127 krajów, ale rozkład jest niezrównoważony — 10 największych podmiotów dostarcza łącznie ≈66.4% przypadków, a długi ogon 97 dodatkowych krajów łącznie wnosi ≈7.3% (łącznie ok. 7,300 przypadków, średnio ~75 przypadków na kraj). Zatem kompozyty per-kraj w tym długim ogonie są bardziej „szumne” niż sugerują liczby nagłówkowe. Przyszłe przebiegi będą preferencyjnie rekrutować z krajów niedoszacowanych, aby doprecyzować szacunki dla poszczególnych jurysdykcji.
Ocena jednorazowa. Każdy przypadek w kohorcie był oceniany raz. Modele wielkich języków wykazują istotną zmienność wyników nawet przy niskiej temperaturze próbkowania, więc wieloprzebiegowy protokół z pięcioma ocenami na przypadek oraz raportowaną wariancją jest naturalnym kolejnym krokiem — szczególnie w podzbiorze przypadków-pułapek, gdzie spójność przy „szumie” próbkowania jest częścią twierdzenia o bezpieczeństwie.
Zakres jednego silnika. Ten raport opisuje jeden silnik. Analizy porównawcze względem alternatywnych systemów AI są poza zakresem; możemy je podjąć jako osobne niezależne badanie z odpowiednią metodyką, w oparciu o ten sam zestaw testowy na licencji MIT.
Pochodzenie danych z jednego źródła. Te 100,000 przypadków to zanonimizowane, rzeczywiste zapisy pacjentów pochodzące z jednego repozytorium klinicznego (Kantesti hurtownia danych klinicznych oparta o SQL). Reprezentują one dopracowany, produkcyjny strumień i nie są losowym, reprezentatywnym dla populacji pobraniem na poziomie globalnym. Rozszerzenie oceny o dane zewnętrznie pozyskiwane, wieloośrodkowe jest na etapie planowania.
Poza tymi czterema, najbardziej znaczącym planowanym rozszerzeniem jest parytet wielojęzyczny per jurysdykcja. Silnik Kantesti AI obsługuje użytkowników w 75+ językach, a uruchomienie warstwowo-językowych podkohort Second-Update (turecki, niemiecki, hiszpański, francuski, włoski, portugalski, arabski, mandaryński) pozwoli zmierzyć jakość odpowiedzi wśród języków obsługiwanych przez silnik. Każda analiza warstwowo-językowa będzie publikowana wraz z własnym DOI oraz gałęzią zestawu testowego.