Bu kıyas ölçütünün var olma nedeni ve neyi test ettiği

Yapay zeka destekli kan tahlili yorumlama, tüketici ve klinik iş akışlarında giderek daha fazla kullanılıyor; ancak laboratuvar tıbbına özel, tekrarlanabilir değerlendirme çerçeveleri hâlâ nadir. Bu bağlamda en önemli olan sorular, genel tıbbi soru-cevap kıyaslamalarında ele alınan sorular değildir: Ortalama eritrosit hacmi (MCV) aynı olduğunda bir motor demir eksikliğini talasemi taşıyıcılığından ayırabilir mi, Gilbert sendromunu hepatit olarak fazla mı teşhis eder ve tamamen normal bir tarama panelinde patoloji “üretir” mi?

Önceden kayıtlı rubrik akış diyagramı: Kantesti Yapay Zekâ Motoru — V11 İkinci Güncelleme, 100.000 vakada 99.80% bileşik puanı — dondurulmuş puanlama kriterlerine karşı nasıl değerlendiriliyor
Şekil 1: V11’in arkasındaki kıyaslama mimarisi 99.80% bileşik puan V11 İkinci Güncelleme’de 100.000 vakalık kohort — her vaka, her anahtar kelime, her puanlama sistemi; motor tek bir PDF görmeden önce kaynak koda sabitlenmiştir ve rubrik, V11 ilk sürümle birebir (bayt düzeyinde) aynıdır. Sonradan (post-hoc) rubrik ayarlaması tasarım gereği mümkün değildir.

Tek bir kan testi paneli, genellikle birden fazla farklı yorum için yeterli sinyal içerir ve yorum yapan klinisyenin görevi, bu yorumları birbirleriyle tartmak; bir ders kitabı cevabını geri getirmek değildir. Kitap örneklerinde iyi performans gösteren bir motor, en çok önem taşıyan vakalarda yine de başarısız olabilir: ayırıcı tanı tuzakları, tek başına bakıldığında alarm verici görünen zararsız varyantlar ve asıl olarak tamamen normal panellerin, kendinden emin yardımcıları patoloji üretmeye teşvik etmesi gibi.

Bu kıyaslama, tam olarak bu başarısızlık türleri üzerine inşa edildi. On beş vakanın her biri belirli bir tanısal özellik için seçildi: aynı ortalama korpüsküler hacme (MCV) sahip beta-talasemi taşıyıcılığından ayırt edilmesi gereken demir eksikliğiyle ilişkili mikrositoz; yalnızca izole indirekt hiperbilirubinemi bulunan bir Gilbert sendromu tablosu; ve her analitin kendi referans aralığı içinde yer aldığı on beş parametreli bir tarama paneli. Değerlendirme ölçütü, her vakayı kendi koşulları içinde okuyan motorları ödüllendirir; böyle bir tanı gerekmiyorken kendinden emin bir tanıya ulaşan motorları ise cezalandırır.

Dr. Thomas Klein olarak, vaka panelini seçtim; çünkü laboratuvar tıbbı asistanlarının en sık yanlış yaptığı desenler bunlar. Pahalı başarısızlık modu "nadir bir hastalığı kaçırmak" değildir; onu olmayan hastalarda rutin patoloji uydurmaktır. Bizim Tıbbi Doğrulama hub daha geniş çerçeveyi anlatır; bu sayfa V11 ilk kavram kanıtını ve bunu 127 ülkeyi kapsayan, SQL destekli bir klinik depodan alınan 100.000 anonimleştirilmiş vakaya ölçekleyen V11 İkinci Güncelleme’yi açıklar — aynı puanlama rubriği kullanılarak, birebir (bayt düzeyinde) ve sonradan ayarlamaya izin verilmeden.

En güncel referans çalıştırması — V11 İkinci Güncelleme (26 Nisan 2026)

26 Nisan 2026 tarihli V11 İkinci Güncelleme referans çalıştırması, 99.80% V11 ilk sürümde kullanılan aynı önceden kaydedilmiş rubrik üzerinden, 100.000 anonimleştirilmiş vaka üzerinde değerlendirildi Kantesti SQL destekli klinik depodan alınan ve 127 ülkede ve 75+ dillerini kapsayan. Her vaka motorun birincil yolunda tamamlandı; tuzak-vaka hiperdiyagnoz bayrağı etkinleşmeleri 0 / 87,412. .

Bileşik 99.80% 100.000 vakanın 100.000’i puanlandı
1.000 Yapısal skor
0.996 Klinik skor
13,26 sn Ortalama gecikme
0 / 87,412 Tuzak yanlış-pozitifleri

Bileşik formül üç bileşeni birleştirir: yapısal uygunluk yedi zorunlu rapor bölümü ve on altı zorunlu alt bölüm ile, klinik doğruluk anahtar kelime geri çağırma + puanlama sistemi geri çağırma + olasılık dağılımı geçerlilik kontrolü olarak ölçülür ve yanıt gecikmesi birincil yol hizmet seviyesi hedefi karşısında. Tam ayrıştırma aşağıdaki rubrik formülünde gösterilmiştir — bu ağırlıkların veya alt-rubriklerin hiçbiri İkinci Güncelleme için değiştirilmedi.

Bileşik = 0.35 × Yapısal + 0.55 × Klinik + 0.10 × Gecikme

Kalan 0,20 yüzde puanlık başlık neredeyse tamamen klinik alt puana ayrışır — az sayıda vaka (özellikle Hepatoloji ve Romatoloji’de) tanısal içerik doğru olmasına rağmen, motorun yorumunda beklenen bir puanlama-sistemi anahtar kelimesi eksikti. 100.000 vakalık İkinci Güncelleme kohortunda hiçbir vaka tanının kendisini kaçırmadı. Gecikme, V11 ilk sürümde ortalama 20,17 sn’den İkinci Güncelleme’de 13,26 sn’ye düştü; bu, iki çalıştırma arasındaki üretim motoru optimizasyonlarını yansıtır; rubrik, puanlama kodu ve API uç noktası değişmedi.

Ülke bazında bileşik puanlar, en çok temsil edilen 30 ülkede 0,9971 (Hindistan) ile 0,9985 (İsviçre) arasında değişti. Ek 97 ülkenin uzun kuyruğu (toplam ≈7.300 vaka) herhangi bir sistematik bozulma göstermedi. Vaka sayısına göre en büyük katkı sağlayanlar: Amerika Birleşik Devletleri (10.500), Brezilya (9.500), İspanya (9.000), İtalya (8.000), Almanya (7.800), Fransa (7.400), Portekiz (5.800), Türkiye (3.400), Birleşik Krallık (2.900) ve Meksika (2.500).

15 vakadan 100.000’e: 127 ülkede kohort evrimi

Orijinal V11 vaka paneli yedi uzmanlık alanını kapsıyordu — hematoloji, endokrinoloji, metabolik tıp, hepatoloji, nefroloji, kardiyoloji, romatoloji — ayrıca iki adanmış hiperdiyagnoz tuzak vakasıyla; her vaka, yazılı bilgilendirilmiş onam altında Kantesti klinik veri deposundan alınan anonimleştirilmiş gerçek bir hasta kaydıydı. V11 İkinci Güncelleme değerlendirmeyi 127 ülke genelinde 100.000 anonimleştirilmiş vakaya, sekiz uzmanlık alanına dağıtarak genişletir (orijinal yedi artı tuzak alt kümesini emen adanmış bir dahiliye grubu). Aynı puanlama rubriği, iki çalıştırma boyunca bayt düzeyinde birebir uygulanır.

V11 ilk vaka-panel tasarımı — yedi tıbbi uzmanlık alanında on beş anonimleştirilmiş kan testi vakası artı iki hiper-diagnostik tuzak vakası; aynı rubrik, V11 İkinci Güncelleme’de 100.000 vakada 99.80% bileşik puana ulaştı
Şekil 2: Hematoloji, endokrinoloji, metabolik tıp, hepatoloji, nefroloji, kardiyoloji, romatoloji alanlarında V11 ilk vaka-panel tasarımı; ayrıca iki tuzak vaka — Gilbert sendromu ve tamamen normal bir tarama paneli. İkinci Güncelleme, kohortu Kantesti SQL deposundan alınan 100.000 vakaya genişletirken bu rubriği bayt düzeyinde birebir korur.

Kimlikten arındırma Safe Harbor yaklaşımıyla gerçekleştirildi: tüm doğrudan tanımlayıcılar kaldırıldı veya değiştirildi ve her kayda BT-NNN-LABEL biçiminde bir kıyaslama-içi vaka kodu atandı (V11 ilk) veya İkinci Güncelleme için kararlı anonimleştirilmiş case_uid . İşleme, GDPR Madde 9(2)(j) uygun güvenlik önlemleriyle bilimsel araştırma için ve eşdeğer Birleşik Krallık GDPR hükümleri uyarınca yürütüldü. Yayınlanan düzenek (harness), teknik rapor veya paylaşılan veri setlerinin hiçbir yerinde kişiyi tanımlayan bilgi bulunmaz.

V11 ilk sürüm — 15 el ile seçilmiş vaka

Orijinal V11 vaka paneli, laboratuvar tıbbı asistanlarının en sık yanlış yaptığı tanısal örüntüleri çalıştırmak üzere Dr. Thomas Klein tarafından el ile seçilmiştir. Aşağıda listelenen belirli bir tanısal özellik için her birinin on beş vakası seçilmiştir.

Hematoloji (3) BT-001, BT-006, BT-007 Demir eksikliği anemisi · B12 eksikliği · Minör beta-talasemi
Endokrinoloji (3) BT-002, BT-008, BT-012 Hashimoto tiroiditi · İnsülin direnci ile seyreden PKOS · Şiddetli D vitamini eksikliği
Metabolik (2) BT-003, BT-013 Metabolik sendromlu T2DM · Gut riskiyle birlikte hiperürisemi
Hepatoloji (2) BT-004, BT-009 NAFLD / NASH · Akut viral hepatit
Nefroloji · Kardiyoloji · Romatoloji (3) BT-005, BT-010, BT-011 CKD evre 3 · Aterojenik dislipidemi · Sistemik lupus eritematozus
Tuzak vakaları (2) BT-014, BT-015 Gilbert sendromu (izole indirekt hiperbilirubinemi) · Tamamen normal erişkin taraması

Bu özel dağılımın nedeni

Hematoloji, gerçek dünyadaki laboratuvar uygulamasında en yüksek hacimli tuzaklar olan mikrositik ayırıcı tanı ve makrositik ayırıcı tanılar nedeniyle üç vaka alır. Endokrinoloji, Hashimoto, PCOS ve D vitamini eksikliği tablolarının farklı tanısal şekiller (otoantikor kaynaklı, hormon oranı kaynaklı, tek belirteç kaynaklı) ortaya koyması nedeniyle üç vaka alır. Tek vaka uzmanlıkları hâlâ anlamlıdır; çünkü CKD, ASCVD riski ve SLE’nin her birinin, motorun çağırması gereken kendine özgü bir puanlama sistemi vardır (sırasıyla KDIGO evrelemesi, ASCVD 10 yıllık riski, 2019 EULAR/ACR SLE kriterleri).

V11 İkinci Güncelleme — 127 ülkede 100.000 anonimleştirilmiş vaka

İkinci Güncelleme, orijinal V11 sabit kodlanmış 15-vakalı Python literal’ını, Kantesti klinik deposu üzerinde parametreleştirilmiş, salt okunur bir SQL sorgusuyla değiştirir (anonymised_blood_panels). Sorgu şunları filtreler: consent_research = 1 AND released_for_benchmark = 1 ve şeffaflık için her kıyaslama (benchmark) çalışmasının en üstünde yazdırılır. Uzmanlığa göre kohort dağılımı aşağıda gösterilmiştir.

Endokrinoloji 23.900 vaka (23.9%) Tiroid, PKOS, D vitamini, gonadal eksen, hipofiz
Metabolik tıp 21.900 vaka (21.9%) T2DM, metabolik sendrom, lipid panelleri, hiperürisemi
Hematoloji 15.400 vaka (15.4%) Mikrositik ve makrositik ayırıcı tanılar, B12/folat, demir çalışmaları
Hepatoloji 12.400 vaka (12.4%) NAFLD/NASH, viral hepatit, FIB-4, kolestaz
Dahiliye (örn. trap alt kümesi dahil) 9.000 vaka (9.0%) Karışık görünümler ve 8.723 adanmış hiperdanış (hyperdiagnosis) trap vakası
Kardiyoloji 7.500 vaka (7.5%) ASCVD riski, aterojenik dislipidemi, hs-CRP
Romatoloji 6.000 vaka (6.0%) SLE, RA, vaskülit, otoantikor panelleri (EULAR/ACR kriterleri)
Nefroloji 4.000 vaka (4.0%) CKD evrelemesi (KDIGO), eGFR trendleri, elektrolit bozukluğu

Coğrafi dağılım — ilk 10 ülke

Kohort 127 ülkeyi kapsar (ISO 3166-1 alpha-2). Avrupa .7%, Amerika .4%, Asya-Pasifik %6.2%, Orta Doğu/Afrika olarak adlandırılan girişler %3.4% ve yaklaşık %7.3% toplamla 97 ek ülkeye uzanan uzun bir kuyruk vardır. En büyük on katkı sağlayıcı; Amerika Birleşik Devletleri (10.500), Brezilya (9.500), İspanya (9.000), İtalya (8.000), Almanya (7.800), Fransa (7.400), Portekiz (5.800), Türkiye (3.400), Birleşik Krallık (2.900) ve Meksika (2.500)dır. Ülke bazlı bileşik skorlar 0.9971 (Hindistan) ile 0.9985 (İsviçre) arasında değişmiştir.

Önceden kaydedilmiş değerlendirme ölçütleri — açıklaması

Ön kayıt, bu kıyaslamadaki en önemli metodolojik tercihtir. Beklenen her tanı, her klinik puanlama sistemi ve her rapor bölümü, motor çağrılmadan önce kaynak koda taahhüt edilmiştir motor çağrılmadan önce. Bu nedenle, motoru pohpohlamak için rubriğe sonradan (post-hoc) ayar yapmak mümkün değildir.

Bileşik puanı oluşturan üç bileşen vardır. yapısal bileşen katkı sağlar ve motorun yedi zorunlu rapor bölümünü (başlık, özet, temel bulgular, ayırıcı tanı, puanlama sistemleri, öneriler, takip) ve bunların içindeki on altı zorunlu alt bölümü döndürüp döndürmediğini ölçer. Bölüm varlığı yapısal hesaplamada ağırlığa, alt bölüm varlığı ise ağırlığa sahiptir.

The klinik bileşen katkı sağlar ve üç şeyi birleştirir: tanı-kelime hatırlama (klinik alt puanın ’i), puanlama sistemi hatırlama ( — motorun gerektiğinde Mentzer, FIB-4, HOMA-IR, ASCVD riski, KDIGO evrelemesi, EULAR/ACR kriterlerini hesaplayıp hesaplamadığı), ve olasılık-toplamı geçerlilik kontrolü ( — ayırıcı tanı olasılıkları [90, 110] aralığı içinde toplamlanmalıdır). Tuzak vakalarda, uydurulmuş patoloji bayrağı başına 0.10 olacak şekilde hesaplanan ve en fazla üç bayrağa kadar sınırlandırılan, en fazla 0.30’a kadar açık bir hiperdiyagnoz cezası düşülür.

The gecikme (latency) bileşeni katkı sağlar. 20 saniyenin altındaki yanıt tam 0.10 alır, 40 saniyenin altındaki yanıt 0.05 alır ve daha yavaş her şey sıfır alır. 20 saniyelik hedef, üretim birincil-path servis seviye hedefini; 40 saniyelik tavan ise ağır motor çağrıları için Faz 2 yedek bütçesini yansıtır.

MIT lisanslı Kantesti kıyaslama altyapısının çalıştığı ve vaka başına puanlar ürettiğine dair terminal ekran görüntüsü — aynı altyapı, şimdi SQL tabanlı, V11 İkinci Güncelleme 100.000-vaka çalıştırmasında 99.80% bileşik puanı üretti
Şekil 3: Çalıştırma düzeneği — üreten aynı motor .80% bileşik V11 İkinci Güncelleme 100.000 vakalık kohortunda. Her vaka bir A4 PDF olarak işlenir, üretim v11 uç noktasına gönderilir ve dondurulmuş rubrikle karşılaştırılarak puanlanır. İkinci Güncelleme, parametreleştirilmiş bir SQL vaka yükleyici ekledi; ham motor yanıtlarından tabakalı rastgele bir örnek (n = 201), toplulaştırılmış skor kartıyla birlikte kalıcı hale getirilir.

Ön kayıt neyi engeller

Birinci taraf kıyaslamalar, sonradan (post-hoc) rubrik ayarıyla kendi sayılarını şişirme konusunda meşhurdur. Desen neredeyse her zaman aynıdır: ekip motoru çalıştırır, nerede yetersiz kaldığını görür, sonra yetersiz kalan alanların daha az sayılması için rubriği sessizce ayarlar. Rubriği ilk motor çağrısından önce kaynak koda taahhüt edip harness’i MIT lisansı altında yayımladığınızda, bu ayar sürüm kontrolünde görünür hale gelir. Herkes depoyu klonlayabilir, rubrik yazar tarihlerine bakabilir ve motor sonuçlarının puanlamayı şekillendirmek için kullanılmadığını doğrulayabilir.

Hiper-tanı tuzağı vakaları — aşırı çağırmanın gerçek başarısızlık modu olması

Normal taramalarda patolojiyi agresif biçimde fazla çağırmak, tüketiciye yönelik tıbbi yardımcılar için belgelenmiş bir başarısızlık modudur. Bunun aşağı akış maliyetleri; gereksiz inceleme, hasta kaygısı ve iatrojenik değerlendirmeyi içerir. Bu kıyaslamadaki iki tuzak vaka, bu başarısızlık modunu görünür ve puanlanabilir kılmak üzere tasarlanmıştır.

Gilbert sendromu panelinde hepatiti uyduran naif bir yapay zekâ ile Kantesti motorunun zararsız UGT1A1 polimorfizmini doğru şekilde tanımlamasının yan yana karşılaştırması — metodoloji; V11 İkinci Güncelleme 99.80% kıyaslamasında 87.412 tuzak-flag fırsatının tamamında yanlış-pozitifleri sıfıra ölçekledi
Şekil 4: V11 ilk sürümündeki tuzak-vaka tasarımı — Gilbert sendromunu güvenle hepatit olarak etiketleyen ya da tamamen normal bir ekranda sınırda patoloji üreten bir motor, klinik gibi ses verdiği için ödüllendirilmek yerine cezalandırılır. Bu metodoloji, 0 / 87,412 V11 İkinci Güncelleme 100.000-vaka çalıştırmasında üretilen 99.80% bileşik skorun elde edildiği yanlış-pozitifler için ölçeklendi.

🟡 Tuzak 1 — BT-014-GILBERT

Sunum. Toplam bilirubini 2.4 mg/dL olan 24 yaşında erkek. Direkt fraksiyon normaldir; transaminazlar ve alkalen fosfataz referans aralıklarının içindedir; retikülositler olağan dışı değildir ve haptoglobin ile LDH hemolizi dışlar.

Doğru yorum. Gilbert sendromu — zararsız bir UGT1A1 polimorfizmi. Yorum hepatit, siroz, hemolitik anemi veya biliyer obstrüksiyonu çağırmamalıdır.

V11 sonucu. Bileşik 1.000. İzlenen altı aşırı-tanı bayrağının hiçbiri aktif tanı olarak görünmedi.

🟡 Tuzak 2 — BT-015-SAĞLIKLI

Sunum. On beş parametreli rutin tarama paneline sahip 35 yaşında kadın. Her analit referans aralığının içinde rahatça yer alır.

Doğru yorum. Güvence ve yaşam tarzı sürdürümü. Yorumlama, klinik açıdan faydalıymış gibi görünmesi için sınırda patoloji uydurmamalıdır.

V11 sonucu. Bileşik 1.000. Yedi izlenen aşırı tanı uyarısından hiçbiri — diyabet, anemi, hipotiroidi, dislipidemi, hepatit, böbrek hastalığı, eksiklik — aktif tanı olarak ortaya çıkmadı.

Her iki tuzakta da on üç izlenen hiperdiyagnoz uyarısı kontrol edildi. Hiçbiri tetiklenmedi. Bu, bir klinisyenin bir yapay zeka motorunu triage (önceliklendirme) veya konsültasyon öncesi araç olarak kullanmayı düşünmesi açısından en çok önem taşıyan sonuçtur: sistem, var olmayan yerde hastalık icat etmedi.

Mentzer indeksi: demir eksikliğini talasemi taşıyıcılığından ayırma

İkinci yüksek değerli bulgu, olgu BT-001’in (demir eksikliği anemisi) olgu BT-007 ile (beta-talasemi minör) eşleştirilmesidir. Her ikisi de mikrositoz ile seyreder ve saf sınıflandırıcılar için iyi bilinen bir takılma noktasıdır. MCV’nin RBC sayısına bölünmesiyle hesaplanan Mentzer indeksi, demir eksikliğinde 13’ün üzerindedir; talasemi taşı durumunda ise 13’ün altına düşer.

BT-001’de hasta 34 yaşında bir kadındı; hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL ve TIBC yüksekliği vardı. Yaklaşık 17.7’lik Mentzer indeksi mutlak demir eksikliğini destekler. BT-007’de hasta 28 yaşında bir erkekti; mikrositoz (MCV 65.8 fL) vardı ancak RBC sayısı 6.2 ile yüksekti, RDW normaldi, ferritin normaldi ve HbA2 %5.6 idi. Yaklaşık 10.6’lık Mentzer indeksi talasemi taşı durumunu gösterir ve yükselmiş HbA2 beta-talasemi minörü doğrular.

Demir eksikliği anemisi Mentzer > 13 Düşük ferritin, düşük TSAT, yüksek TIBC, yüksek RDW
Beta-talasemi taşı Mentzer < 13 Normal ferritin, normal RDW, yükselmiş HbA2 (>3.5%), yüksek RBC sayısı

Her iki olgu da 1.000 puan aldı. Motor, her iki yorumda da Mentzer indeksini açıkça kullandı ve her seferinde doğru tanıyı döndürdü. Bu, tüm benchmark’ta klinik açıdan en çok güven veren tek sonuçtur, çünkü talasemi taşı durumunu demir eksikliği olarak yanlış sınıflandırmak uygunsuz demir takviyesi yapılmasına ve aile taraması fırsatlarının kaçırılmasına yol açar; demir eksikliğini talasemi olarak yanlış sınıflandırmak ise basit replasman tedavisini geciktirir. Bizim ferritin aralığı rehberimiz daha geniş ayırıcı tanı bağlamını açıklar.

V11 ilk referans çalıştırmasından vaka bazlı sonuçlar (23 Nisan 2026)

15 vakalık kavram kanıtı kohortunda yapılan orijinal V11 referans çalıştırması, metodolojik temeli oluşturur İkinci Güncelleme için: Aşağıdaki her vaka ayrıntısı, rubriğin gerçek bir motor yanıtını nasıl ele aldığını gösterir. On beş vakanın on ikisi, birincil yolda 1.000 tavan bileşik skoruna ulaştı; üç vaka, Faz 2 geri dönüşü üzerinden sunuldu ve tüm klinik ile yapısal içeriği korurken 0.05 gecikme bonusunu kaybetti. Bir vaka tek bir zorunlu alt bölümü eksikti; bir tanesi ise marjinal olarak azaltılmış bir olasılık dağılımı toplamı döndürdü.

Olgu Kimliği Uzmanlık Bileşik Gecikme Patoloji
BT-001-IDAHematoloji1.00017.8 snbirincil
BT-006-B12Hematoloji1.00018,4 snbirincil
BT-007-THALHematoloji1.00017,0 snbirincil
BT-002-HASHEndokrinoloji0.95037,0 snyedek (fallback)
BT-008-PCOSEndokrinoloji0.98718,6 snbirincil
BT-003-T2DMMetabolik1.00019,1 snbirincil
BT-013-GOUTMetabolik1.00019,4 snbirincil
BT-004-NAFLDHepatoloji1.00019,6 snbirincil
BT-009-VIRHEPHepatoloji0.95023,4 snyedek (fallback)
BT-014-GILBERTTuzak1.00018,9 snbirincil
BT-005-CKDNefroloji1.00017,4 snbirincil
BT-010-ASCVDKardiyoloji1.00019,7 snbirincil
BT-011-SLERomatoloji0.98118,2 snbirincil
BT-012-VİTDEndokrinoloji1.00019,3 snbirincil
BT-015-SAĞLIKLITuzak1.00018,7 snyedek (fallback)

PCOS vakası (BT-008), yanıt yapısında tek bir zorunlu alt bölümü kaybetti — on altıdan on altı yerine on beşten on altı — bu da yapısal puanı 1,000’den 0,963’e düşürdü. SLE vakası (BT-011), klinik puanı 0,965’e düşüren ancak her tanısal anahtar kelimeyi ve puanlama sistemini koruyan marjinal olarak azaltılmış bir olasılık-dağılımı toplamı döndürdü. İki kusurlu olmayan vakadan hiçbiri doğru tanıyı kaçırmadı.

V11 İkinci Güncelleme toplulaştırması — 100.000 vaka

Nüfus ölçeğinde, tek tek vaka satırları insan tarafından okunabilir değildir; bu nedenle İkinci Güncelleme, 100.000 satırlık bir tablo yerine toplulaştırılmış metrikler raporlar. Başlıkta yer alan toplulaştırma aşağıda gösterilmiştir; uzmanlık ve ülke kırılımları teknik raporda ve Figshare deposunda yayımlanır. n = 201 ham motor yanıtları (deterministik seed 20260426) inceleme için GitHub results/ dizininde yayımlanır.

Bileşik skor V11 ilk: 0.9912 (99.12%) → İkinci Güncelleme: 0.9980 (99.80%) Δ = +0.0068, 100.000-vaka kohortunda
Yapısal skor (ortalama) V11 ilk: 0.998 → İkinci Güncelleme: 1.000 Nüfus ölçeğinde mükemmel yapısal uyum
Klinik skor (ortalama) V11 ilk: 0.998 → İkinci Güncelleme: 0.996 −0.002; hiçbir vaka tanının kendisini kaçırmadı
Gecikme — ortalama (aralık) V11 ilk: 20,17 sn (17,0–37,0 sn) → İkinci Güncelleme: 13,26 sn (9,0–16,94 sn) Çalışmalar arasında üretim motoru optimizasyonları
Motor yolu = birincil V11 ilk: 12 / 15 → İkinci Güncelleme: 100,000 / 100,000 Çalışma sırasında hiçbir noktada 2. Aşama (Phase 2) için yedekleme gerekmedi
Tuzak-alt küme hiperdiyagnoz bayrakları V11 ilk: 0 / 13 → İkinci Güncelleme: 0 / 87,412 Popülasyon ölçeğinde sıfır yanlış-pozitif (8.723 tuzak vakası izlendi)

Başlık skorunun bize söylemediği şey

Bu özel önceden kaydedilmiş rubrik altında 100.000 vakalık, 127 ülkeye yayılan anonim bir kohortta 99,80 yüzde birleşik skor; tavan performansa çok yakındır — ancak dikkatli bir çerçevelemeyi hak eder. Sonuç, V11’de kaynak koduna taahhüt ettiğimiz rubrik karşısında motorun davranışını açıklar; doğada var olan her kan tahlili paneli için motorun doğruluğuna dair evrensel bir iddia değildir.

Skor, motorun bu değerlendirme için seçilen tanısal desenleri popülasyon ölçeğinde bir kohortta doğru şekilde ele aldığını; yayımlanmış ve tekrarlanabilir bir metodolojiyle çalıştığını söyler. Motorun doğada var olan her kan tahlili panelinde doğru olduğunu söylemez. Motorun klinisyen muhakemesinin yerini alması gerektiğini söylemez. Ayrıca motorun alternatif yapay zeka sistemlerinden daha iyi performans gösterdiğini de söylemez — diğer motorlarla karşılaştırmalı analizler bu raporun kapsamı dışında özellikle bırakılmıştır.

Skorun ortaya koyduğu şey bir temel değerdir. Rubrik ve test düzeneği (harness) kamuya açık olduğundan, motorun gelecekteki sürümleri aynı rubrikle değerlendirilebilir — V11 ilk 15 vaka, İkinci Güncelleme 100.000 vakalık kohort veya sonraki herhangi bir genişletme için — ve yayımlanan skor ile sonraki herhangi bir çalışma arasındaki farkın kendisi ölçülebilir. Ön kayıt (pre-registration) değeri işte budur: performans iddialarını test edilebilir iddialara dönüştürür.

Bu kıyaslamayı 10 dakikada nasıl yeniden üretirsiniz

Yeniden üretim için yalnızca Kantesti bir API kimlik bilgisi çifti ve Python 3.10 veya daha sonraki bir ortam gerekir; requests Ve reportlab kütüphaneleri yüklü olmalıdır. Tam düzenek, MIT lisansı altında yayımlanmış tek parça, kendi kendine yeterli bir Python modülüdür.

V11 İkinci Güncelleme kıyaslama diyagramı: (99.80% bileşik, 100.000 vaka, 127 ülke) Figshare, ResearchGate, Academia.edu ve GitHub üzerinde aynalanmış; Figshare DOI kanonik (referans) bağlantı noktası olarak kullanılmış
Şekil 5: V11 İkinci Güncelleme kıyaslaması — 127 ülkede 100.000 vaka üzerinden 99,80% birleşik skor — dört araştırma platformu arasında da aynıdır. Figshare DOI, temel (canonical) akademik tanımlayıcıdır; ResearchGate (yayın 404175463), Academia.edu (makale 165956808) ve GitHub, SQL destekli harness’ı, ham yanıtların tabakalı rastgele örneklemesini ve ülke/uzmanlık bazlı skor kartlarını içeren paralel kopyaları barındırır.

Taze bir çalıştırma için dört adım

Bir. Depoyu klonlayın: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. İki. requirements.txt dosyasını kullanarak bağımlılıkları yükleyin pip install -r requirements.txt (İkinci Güncelleme şunları ekler: mysql-connector-python ≥ 8.0 SQL durum yükleyici için). Üç. Şunu ayarlayın KANTESTI_USERNAME Ve KANTESTI_PASSWORD motor API’si için ortam değişkenleri olarak. İkinci Güncelleme SQL durum yükleyici için ayrıca şunu da ayarlayın: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, Ve KANTESTI_DB_PASSWORD — salt okunur bir rol üzerinden bağlanır (bench_reader) tanımlayıcı tablolar üzerinde hiçbir ayrıcalığı olmayan. Dört. Şunu çalıştırın python benchmark_bloodtest.py --limit 100000 tam Second-Update çalışması için veya python benchmark_bloodtest.py --limit 1000 hızlı yineleme için. Çıktılar şuraya düşer: ./benchmark_results/: ülke ve uzmanlık bazında sütunları olan bir CSV skor kartı, bir JSON toplamı, tabakalı-rastgele ham yanıt örneği ve bir Markdown raporu.

23 Nisan 2026 (V11 ilk, 15 vaka) ve 26 Nisan 2026 (V11 Second Update, 100.000 vaka) tarihli referans çalışmaları, results/ deponun dizininde korunur. Yeni bir çalışma, referans çalışmaları bozmadan yeni bir zaman damgalı skor kartı üretir. Çalışmanız anlamlı ölçüde farklı bir sonuç üretirse, lütfen çalışmanın zaman damgası ve yanıt üst verilerinde dönen motor sürümüyle birlikte bir GitHub sorunu açın.

Sınırlılıklar ve gelecek çalışmalar

127 ülke genelinde 100.000 vaka olsa bile, dört sınırlamanın açıkça kabul edilmesi gerekir: uzun kuyruklu ülke yetersiz örneklemesi, tek seferlik değerlendirme, tek motor kapsamı ve tek kaynak veri kökeni. Her biri aktif takip çalışmalarıyla ele alınmaktadır.

Uzun kuyruklu ülke kapsamı. Second Update 127 ülkeyi kapsar; ancak dağılım dengesizdir — en iyi 10 katkı sağlayıcı, vakaların yaklaşık ,4%’sini oluşturur ve ek 97 ülkenin uzun kuyruğu birlikte yaklaşık %7,3% katkı sağlar (toplamda kabaca 7.300 vaka, ülke başına ortalama ~75 vaka). Bu uzun kuyruktaki ülke bazlı bileşimler, bu nedenle manşet rakamların ima ettiğinden daha gürültülüdür. Gelecekteki çalışmalar, ülke bazında yargı/alan bazlı tahminleri sağlamlaştırmak için özellikle yetersiz örneklenen ülkelerden katılımcı toplamayı tercih edecektir.

Tek seferlik değerlendirme. Kohorttaki her vaka yalnızca bir kez değerlendirildi. Büyük dil modelleri, düşük örnekleme sıcaklığında bile önemsiz olmayan çıktı varyansı sergiler; bu nedenle her vaka için beş değerlendirmeyle çoklu çalışma protokolü ve raporlanan varyans, doğal bir sonraki adımdır — özellikle örnekleme kaynaklı oynaklığın tutarlılığın güvenlik iddiasının bir parçası olduğu tuzak-vaka alt kümesinde.

Tek motor kapsamı. Bu rapor tek bir motoru karakterize eder. Alternatif yapay zeka sistemlerine karşı karşılaştırmalı analizler burada kapsam dışıdır; aynı MIT lisanslı altyapıya karşı, uygun yöntemle bunları ayrı bir bağımsız çalışma olarak yürütmeyi düşünebiliriz.

Tek kaynak veri kökeni. 100.000 vaka, tek bir klinik depodan (Kantesti SQL destekli klinik veri ambarı) alınan anonimleştirilmiş gerçek hasta kayıtlarıdır. Küresel düzeyde popülasyon temsili rastgele bir çekim değildir; küratörlüğü yapılmış bir üretim akışını temsil eder. Değerlendirmeyi harici kaynaklı çok merkezli veriye genişletmek yol haritasındadır.

Bu dört sınırlamanın ötesinde, planlanan en etkili genişletme ülke bazında çok dilli eşdeğerliktir. Kantesti AI Engine, 75+ dilde kullanıcılara hizmet eder ve dil-odaklı Second-Update alt kohortlarını (Türkçe, Almanca, İspanyolca, Fransızca, İtalyanca, Portekizce, Arapça, Mandarin) çalıştırmak, motorun desteklediği diller genelinde çıktı kalitesini nicelleştirecektir. Her dil-odaklı analiz, kendi DOI’si ve altyapı dalıyla birlikte yayımlanacaktır.