Kantesti Yapay Zeka Kan Testi Karşılaştırması

Otomatik Kıyaslama Önceden Kaydedilmiş Kıyas Ölçütü V11 İkinci Güncelleme — Nisan 2026 MIT Lisanslı Yeniden Üretilebilir · Açık Veri 100K Sentetik Kohort · 127 Ülke Etiketi

Önceden Kaydedilmiş Bir Rubrik Üzerinde 99.80% Bileşik Puan — V11 İkinci Güncelleme, 127 Ülke Etiketi Kapsayan 100.000 Vaka Kohortu

127 ülke etiketiyle etiketlenmiş 100.000 sentetik üretilmiş kan testi vakası üzerinde Kantesti motoru için önceden kaydedilmiş, rubrik tabanlı otomatik bir teknik kıyaslama. Bu, tanısal doğruluğu değil çıktı uygunluğunu ölçer. Rubrik, V11 ilk sürümünden önce kaynak koddaki hâliyle dondurulmuş ve bu İkinci Güncelleme için bayt düzeyinde aynı tutulmuştur; değerlendirme altyapısı MIT lisanslıdır; inceleme için ham motor yanıtlarından tabakalı rastgele bir örnek yayımlanır. Tüm vakalar sentetiktir; kişisel veri kullanılmaz.

📖 ~14 dakika 📅 23 Nisan 2026 tarihinde yayımlandı · 26 Nisan 2026 tarihinde güncellendi (V11 İkinci Güncelleme) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Yayınlandı: 23 Nisan 2026 🔄 V11 İkinci Güncelleme: 26 Nisan 2026 🩺 Tıbbi olarak gözden geçirildi: 26 Nisan 2026 ✅ Önceden Kaydedilmiş Rubrik (Bayt-Özdeş) 🔓 Açık Kod & Veri

Bu otomatik kıyaslama, tarafından tasarlanmış ve çalıştırılmıştır Julian Emirhan Bulut, Kantesti Ltd’nin Kıdemli Yapay Zekâ Mühendisi ve CEO’su. Puanlama tamamen kaynak koddaki otomasyonla yapılır; puanlama ölçütü ve vaka paneli, Dr. Thomas Klein, MD, Kantesti AI’de Baş Tıbbi Sorumlu tarafından klinik katkıyla geliştirilmiş ve Kantesti Yapay Zeka Tıbbi Danışma Kurulu. Bu, bağımsız olmayan ve hakemli olmayan bir otomatik teknik kıyaslama değil, kendi kendine çalışan dahili bir kıyaslamadır.

Baş Yazar & Klinik Gözetim

Thomas Klein, MD

Kantesti AI Baş Tıp Sorumlusu

Dr. Thomas Klein, 15 yılı aşkın laboratuvar tıbbı deneyimine sahip, kurul onaylı bir klinik hematolog ve dahiliye uzmanıdır. Kantesti AI’de Tıbbi Direktör olarak, bu kıyaslama için vaka panelini seçti, sentetik vakaların klinik içeriğini ve beklenen yanıtlarını gözden geçirdi ve ilk motor çağrısından önce önceden kaydedilmiş rubriği onayladı.

ORCID 0009-0009-1490-1321 ResearchGate Google Akademik

Ortak Yazar & Uygulama

Julian Emirhan Bulut

Kıdemli Yapay Zeka Mühendisi & CEO, Kantesti Ltd

Julian Emirhan Bulut, Kantesti Ltd’nin kurucusu ve CEO’sudur. Değerlendirme altyapısını tasarladı ve uyguladı — V11 İkinci Güncelleme için eklenen SQL vaka yükleyicisi de dahil — API entegrasyonunu gerçekleştirdi, hem V11 ilk referans çalışmasını hem de V11 İkinci Güncelleme 100.000-vaka çalışmasını yürüttü ve istatistiksel birleştirmeyi hazırladı. Platformun kurucusu (2019’dan beri).

GitHub Kantesti Hakkında

⚡ Kısa Özet V11 İkinci Güncelleme — 26 Nisan 2026

99.80% bileşik puan Sekiz tıbbi uzmanlık alanı ve 127 ülke etiketi boyunca 100.000 sentetik kan testi vakasında (V11 İkinci Güncelleme).
Sıfır aşırı tanı yanlış-pozitif 87.412 izlenen tuzak-vaka bayrak fırsatı üzerinden — V11 ilkindekiyle aynı tuzak-vaka metodolojisi, popülasyon ölçeğine ölçeklenmiş.
Önceden kayıtlı rubrik V11 ilk çalışmasından önce kaynak kodunda donduruldu ve bayt-özdeş tutuldu bu İkinci Güncelleme için — sonradan (post-hoc) ayarlama yapılması mümkün değildi.
Mentzer indeksi doğru şekilde uygulandı V11 ilk sürümünde demir eksikliği anemisinden beta-talasemi minörü ayırt etmek için; ayırıcı davranış popülasyon ölçeğinde korunmuştur.
Yalnızca üretim uç noktası — ayrıcalıklı yönlendirme yok; bir ödeme yapan müşteri gibi tam olarak erişildiği şekilde değerlendirildi.
13,26 saniye ortalama gecikme uçtan uca (aralık 9,0–16,94 sn) ve tüm 100.000 vaka motorun birincil yolunda tamamlandı.
Sentetik kohort. Çalışma zamanında yüklenen 100.000 sentetik test vakası. Hiçbir sentetik veri ve hiçbir kişisel veri kullanılmaz.
MIT lisanslı altyapı (harness) inceleme için GitHub’da tabakalı rastgele örnekle (n = 201) birlikte yayımlandı; motorun tüm ham yanıtları dahil.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu ve GitHub’da aynalanmıştır.

Bu kıyas ölçütünün var olma nedeni ve neyi test ettiği

Yapay zeka destekli kan tahlili yorumlama, tüketici ve klinik iş akışlarında giderek daha fazla kullanılıyor; ancak laboratuvar tıbbına özel, tekrarlanabilir değerlendirme çerçeveleri hâlâ nadir. Bu bağlamda en önemli olan sorular, genel tıbbi soru-cevap kıyaslamalarında ele alınan sorular değildir: Ortalama eritrosit hacmi (MCV) aynı olduğunda bir motor demir eksikliğini talasemi taşıyıcılığından ayırabilir mi, Gilbert sendromunu hepatit olarak fazla mı teşhis eder ve tamamen normal bir tarama panelinde patoloji “üretir” mi?

Tek bir kan testi paneli, genellikle birden fazla farklı yorum için yeterli sinyal içerir ve yorum yapan klinisyenin görevi, bu yorumları birbirleriyle tartmak; bir ders kitabı cevabını geri getirmek değildir. Kitap örneklerinde iyi performans gösteren bir motor, en çok önem taşıyan vakalarda yine de başarısız olabilir: ayırıcı tanı tuzakları, tek başına bakıldığında alarm verici görünen zararsız varyantlar ve asıl olarak tamamen normal panellerin, kendinden emin yardımcıları patoloji üretmeye teşvik etmesi gibi.

Bu kıyaslama, tam olarak bu başarısızlık türleri üzerine inşa edildi. On beş vakanın her biri belirli bir tanısal özellik için seçildi: aynı ortalama korpüsküler hacme (MCV) sahip beta-talasemi taşıyıcılığından ayırt edilmesi gereken demir eksikliğiyle ilişkili mikrositoz; yalnızca izole indirekt hiperbilirubinemi bulunan bir Gilbert sendromu tablosu; ve her analitin kendi referans aralığı içinde yer aldığı on beş parametreli bir tarama paneli. Değerlendirme ölçütü, her vakayı kendi koşulları içinde okuyan motorları ödüllendirir; böyle bir tanı gerekmiyorken kendinden emin bir tanıya ulaşan motorları ise cezalandırır.

Dr. Thomas Klein olarak, vaka panelini seçtim; çünkü laboratuvar tıbbı asistanlarının en sık yanlış yaptığı desenler bunlar. Pahalı başarısızlık modu "nadir bir hastalığı kaçırmak" değildir; onu olmayan hastalarda rutin patoloji uydurmaktır. Bizim Tıbbi Doğrulama hub daha geniş çerçeveyi açıklar; bu sayfa, V11 ilk kavram kanıtını ve onu 127 ülke etiketi kapsayan bir sentetik vaka setinden çekilen 100.000 sentetik vakaya ölçekleyen V11 İkinci Güncelleme’yi açıklar — aynı puanlama rubriği kullanılarak, bayt düzeyinde aynı; sonradan (post-hoc) ayarlamaya izin verilmez.

En güncel referans çalıştırması — V11 İkinci Güncelleme (26 Nisan 2026)

26 Nisan 2026 tarihli V11 İkinci Güncelleme referans çalıştırması, 99.80% V11 ilk sürümde kullanılan aynı önceden kaydedilmiş rubrik üzerinden, 100.000 sentetik vaka Kantesti sentetik vaka setinden alınan ve 127 ülke etiketi kapsayan ve 75+ dillerini kapsayan. Her vaka motorun birincil yolunda tamamlandı; tuzak-vaka hiperdiyagnoz bayrağı etkinleşmeleri 0 / 87,412. .

Bileşik 99.80% 100.000 vakanın 100.000’i puanlandı

1.000 Yapısal skor

0.996 Klinik skor

13,26 sn Ortalama gecikme

0 / 87,412 Tuzak yanlış-pozitifleri

Bileşik formül üç bileşeni birleştirir: yapısal uygunluk yedi zorunlu rapor bölümü ve on altı zorunlu alt bölüm ile, içerik doğruluğu anahtar kelime geri çağırma + puanlama sistemi geri çağırma + olasılık dağılımı geçerlilik kontrolü olarak ölçülür ve yanıt gecikmesi birincil yol hizmet seviyesi hedefi karşısında. Tam ayrıştırma aşağıdaki rubrik formülünde gösterilmiştir — bu ağırlıkların veya alt-rubriklerin hiçbiri İkinci Güncelleme için değiştirilmedi.

Bileşik = 0.35 × Yapısal + 0.55 × Klinik + 0.10 × Gecikme

Kalan 0,20 yüzde puanlık başlık neredeyse tamamen klinik alt puana ayrışır — az sayıda vaka (özellikle Hepatoloji ve Romatoloji’de) tanısal içerik doğru olmasına rağmen, motorun yorumunda beklenen bir puanlama-sistemi anahtar kelimesi eksikti. 100.000 vakalık İkinci Güncelleme kohortunda hiçbir vaka tanının kendisini kaçırmadı. Gecikme, V11 ilk sürümde ortalama 20,17 sn’den İkinci Güncelleme’de 13,26 sn’ye düştü; bu, iki çalıştırma arasındaki üretim motoru optimizasyonlarını yansıtır; rubrik, puanlama kodu ve API uç noktası değişmedi.

Etikete göre bileşik puanlar, en çok temsil edilen 30 ülke etiketinde 0.9971 ile 0.9985 arasında değişti. Ek 97 etiketin uzun kuyruğu (toplam ≈7.300 vaka) herhangi bir sistematik bozulma göstermedi. Vaka sayısına göre en sık etiketler; Amerika Birleşik Devletleri (10.500), Brezilya (9.500), İspanya (9.000), İtalya (8.000), Almanya (7.800), Fransa (7.400), Portekiz (5.800), Türkiye (3.400), Birleşik Krallık (2.900) ve Meksika (2.500) idi. Etikete göre bileşik puanlar 0.9971 ile 0.9985 arasında değişti.

15 vakadan 100.000’e: 127 ülke etiketi boyunca kohort evrimi

Orijinal V11 vaka paneli yedi uzmanlığı kapsıyordu — hematoloji, endokrinoloji, metabolik tıp, hepatoloji, nefroloji, kardiyoloji, romatoloji — ayrıca iki adanmış hiperdiyagnoz tuzağı vakası; her vaka sentetik olarak üretilmiş bir kan testi paneliydi. V11 İkinci Güncelleme, değerlendirmeyi 127 ülke etiketi boyunca 100.000 sentetik vakaya genişletir, sekiz uzmanlık alanına dağıtarak genişletir (orijinal yedi artı tuzak alt kümesini emen adanmış bir dahiliye grubu). Aynı puanlama rubriği, iki çalıştırma boyunca bayt düzeyinde birebir uygulanır.

Tüm vakalar sentetik olarak üretildiğinden, kaldırılacak gerçek tanımlayıcılar yoktur ve kişisel veri söz konusu değildir. Her sentetik vaka, kıyaslama-içi bir vaka kodu taşır (V11 ilk sette BT-NNN-LABEL, İkinci Güncelleme’de sabit bir case_uid ). Yayımlanan altyapıda, teknik raporda veya yayımlanan veri setlerinde hiçbir yerde kişisel veri görünmez.

V11 ilk sürüm — 15 el ile seçilmiş vaka

Orijinal V11 vaka paneli, laboratuvar tıbbı asistanlarının en sık yanlış yaptığı tanısal örüntüleri çalıştırmak üzere Dr. Thomas Klein tarafından el ile seçilmiştir. Aşağıda listelenen belirli bir tanısal özellik için her birinin on beş vakası seçilmiştir.

Hematoloji (3) BT-001, BT-006, BT-007 Demir eksikliği anemisi · B12 eksikliği · Minör beta-talasemi

Endokrinoloji (3) BT-002, BT-008, BT-012 Hashimoto tiroiditi · İnsülin direnci ile seyreden PKOS · Şiddetli D vitamini eksikliği

Metabolik (2) BT-003, BT-013 Metabolik sendromlu T2DM · Gut riskiyle birlikte hiperürisemi

Hepatoloji (2) BT-004, BT-009 NAFLD / NASH · Akut viral hepatit

Nefroloji · Kardiyoloji · Romatoloji (3) BT-005, BT-010, BT-011 CKD evre 3 · Aterojenik dislipidemi · Sistemik lupus eritematozus

Tuzak vakaları (2) BT-014, BT-015 Gilbert sendromu (izole indirekt hiperbilirubinemi) · Tamamen normal erişkin taraması

Bu özel dağılımın nedeni

Hematoloji, gerçek dünyadaki laboratuvar uygulamasında en yüksek hacimli tuzaklar olan mikrositik ayırıcı tanı ve makrositik ayırıcı tanılar nedeniyle üç vaka alır. Endokrinoloji, Hashimoto, PCOS ve D vitamini eksikliği tablolarının farklı tanısal şekiller (otoantikor kaynaklı, hormon oranı kaynaklı, tek belirteç kaynaklı) ortaya koyması nedeniyle üç vaka alır. Tek vaka uzmanlıkları hâlâ anlamlıdır; çünkü CKD, ASCVD riski ve SLE’nin her birinin, motorun çağırması gereken kendine özgü bir puanlama sistemi vardır (sırasıyla KDIGO evrelemesi, ASCVD 10 yıllık riski, 2019 EULAR/ACR SLE kriterleri).

V11 İkinci Güncelleme — 127 ülke etiketi boyunca 100.000 sentetik vaka

İkinci Güncelleme, orijinal V11’deki 15 vakalık sabit kodlu Python literal’ı daha büyük, programatik olarak üretilmiş bir sentetik vaka setiyle değiştirir. Vaka seti her çalıştırmanın başlangıcında yüklenir ve şeffaflık için yapılandırma günlüğe kaydedilir. İçerik alanına göre kohort dağılımı aşağıda gösterilir.

Endokrinoloji 23.900 vaka (23.9%) Tiroid, PKOS, D vitamini, gonadal eksen, hipofiz

Metabolik tıp 21.900 vaka (21.9%) T2DM, metabolik sendrom, lipid panelleri, hiperürisemi

Hematoloji 15.400 vaka (15.4%) Mikrositik ve makrositik ayırıcı tanılar, B12/folat, demir çalışmaları

Hepatoloji 12.400 vaka (12.4%) NAFLD/NASH, viral hepatit, FIB-4, kolestaz

Dahiliye (örn. trap alt kümesi dahil) 9.000 vaka (9.0%) Karışık görünümler ve 8.723 adanmış hiperdanış (hyperdiagnosis) trap vakası

Kardiyoloji 7.500 vaka (7.5%) ASCVD riski, aterojenik dislipidemi, hs-CRP

Romatoloji 6.000 vaka (6.0%) SLE, RA, vaskülit, otoantikor panelleri (EULAR/ACR kriterleri)

Nefroloji 4.000 vaka (4.0%) CKD evrelemesi (KDIGO), eGFR trendleri, elektrolit bozukluğu

Sentetik ülke-etiketi dağılımı — ilk 10 etiket

100.000 sentetik vaka, yerel ayar (locale) işlemesini test etmek için 127 ülke etiketi (ISO 3166-1 alpha-2) taşır. Etiket ataması: Avrupa 57.7%, Amerika Kıtaları 25.4%, Asya-Pasifik 6.2%, adlandırılmış Orta Doğu/Afrika etiketleri 3.4% ve yaklaşık 7.3% birleşik toplamla 97 ek etiketlik uzun bir kuyruk. Vaka sayısına göre en sık on etiket; Amerika Birleşik Devletleri (10.500), Brezilya (9.500), İspanya (9.000), İtalya (8.000), Almanya (7.800), Fransa (7.400), Portekiz (5.800), Türkiye (3.400), Birleşik Krallık (2.900) ve Meksika (2.500) idi. Etikete göre bileşik puanlar 0.9971 ile 0.9985 arasında değişti. Bu etiket sayıları, yerel ayar işlemesini test etmek için kullanılan üretilmiş vakaların özellikleridir — gerçek kullanıcılar değildir ve gerçek dünyadaki coğrafi kapsama alanını temsil etmez.

Önceden kaydedilmiş değerlendirme ölçütleri — açıklaması

Ön kayıt, bu kıyaslamadaki en önemli metodolojik tercihtir. Beklenen her tanı, her klinik puanlama sistemi ve her rapor bölümü, motor çağrılmadan önce kaynak koda taahhüt edilmiştir motor çağrılmadan önce. Bu nedenle, motoru pohpohlamak için rubriğe sonradan (post-hoc) ayar yapmak mümkün değildir.

Bileşik puanı oluşturan üç bileşen vardır. yapısal bileşen katkı sağlar ve motorun yedi zorunlu rapor bölümünü (başlık, özet, temel bulgular, ayırıcı tanı, puanlama sistemleri, öneriler, takip) ve bunların içindeki on altı zorunlu alt bölümü döndürüp döndürmediğini ölçer. Bölüm varlığı yapısal hesaplamada ağırlığa, alt bölüm varlığı ise ağırlığa sahiptir.

The klinik bileşen katkı sağlar ve üç şeyi birleştirir: tanı-kelime hatırlama (klinik alt puanın ’i), puanlama sistemi hatırlama ( — motorun gerektiğinde Mentzer, FIB-4, HOMA-IR, ASCVD riski, KDIGO evrelemesi, EULAR/ACR kriterlerini hesaplayıp hesaplamadığı), ve olasılık-toplamı geçerlilik kontrolü ( — ayırıcı tanı olasılıkları [90, 110] aralığı içinde toplamlanmalıdır). Tuzak vakalarda, uydurulmuş patoloji bayrağı başına 0.10 olacak şekilde hesaplanan ve en fazla üç bayrağa kadar sınırlandırılan, en fazla 0.30’a kadar açık bir hiperdiyagnoz cezası düşülür.

The gecikme (latency) bileşeni katkı sağlar. 20 saniyenin altındaki yanıt tam 0.10 alır, 40 saniyenin altındaki yanıt 0.05 alır ve daha yavaş her şey sıfır alır. 20 saniyelik hedef, üretim birincil-path servis seviye hedefini; 40 saniyelik tavan ise ağır motor çağrıları için Faz 2 yedek bütçesini yansıtır.

Ön kayıt neyi engeller

Birinci taraf kıyaslamalar, sonradan (post-hoc) rubrik ayarıyla kendi sayılarını şişirme konusunda meşhurdur. Desen neredeyse her zaman aynıdır: ekip motoru çalıştırır, nerede yetersiz kaldığını görür, sonra yetersiz kalan alanların daha az sayılması için rubriği sessizce ayarlar. Rubriği ilk motor çağrısından önce kaynak koda taahhüt edip harness’i MIT lisansı altında yayımladığınızda, bu ayar sürüm kontrolünde görünür hale gelir. Herkes depoyu klonlayabilir, rubrik yazar tarihlerine bakabilir ve motor sonuçlarının puanlamayı şekillendirmek için kullanılmadığını doğrulayabilir.

Hiper-tanı tuzağı vakaları — aşırı çağırmanın gerçek başarısızlık modu olması

Normal taramalarda patolojiyi agresif biçimde fazla çağırmak, tüketiciye yönelik tıbbi yardımcılar için belgelenmiş bir başarısızlık modudur. Bunun aşağı akış maliyetleri; gereksiz inceleme, hasta kaygısı ve iatrojenik değerlendirmeyi içerir. Bu kıyaslamadaki iki tuzak vaka, bu başarısızlık modunu görünür ve puanlanabilir kılmak üzere tasarlanmıştır.

🟡 Tuzak 1 — BT-014-GILBERT

Sunum. Toplam bilirubini 2.4 mg/dL olan 24 yaşında erkek. Direkt fraksiyon normaldir; transaminazlar ve alkalen fosfataz referans aralıklarının içindedir; retikülositler olağan dışı değildir ve haptoglobin ile LDH hemolizi dışlar.

Doğru yorum. Gilbert sendromu — zararsız bir UGT1A1 polimorfizmi. Yorum hepatit, siroz, hemolitik anemi veya biliyer obstrüksiyonu çağırmamalıdır.

V11 sonucu. Bileşik 1.000. İzlenen altı aşırı-tanı bayrağının hiçbiri aktif tanı olarak görünmedi.

🟡 Tuzak 2 — BT-015-SAĞLIKLI

Sunum. On beş parametreli rutin tarama paneline sahip 35 yaşında kadın. Her analit referans aralığının içinde rahatça yer alır.

Doğru yorum. Güvence ve yaşam tarzı sürdürümü. Yorumlama, klinik açıdan faydalıymış gibi görünmesi için sınırda patoloji uydurmamalıdır.

V11 sonucu. Bileşik 1.000. Yedi izlenen aşırı tanı uyarısından hiçbiri — diyabet, anemi, hipotiroidi, dislipidemi, hepatit, böbrek hastalığı, eksiklik — aktif tanı olarak ortaya çıkmadı.

Her iki tuzakta da on üç izlenen hiperdiyagnoz uyarısı kontrol edildi. Hiçbiri tetiklenmedi. Bu, bir klinisyenin bir yapay zeka motorunu triage (önceliklendirme) veya konsültasyon öncesi araç olarak kullanmayı düşünmesi açısından en çok önem taşıyan sonuçtur: sistem, var olmayan yerde hastalık icat etmedi.

Mentzer indeksi: demir eksikliğini talasemi taşıyıcılığından ayırma

İkinci yüksek değerli bulgu, olgu BT-001’in (demir eksikliği anemisi) olgu BT-007 ile (beta-talasemi minör) eşleştirilmesidir. Her ikisi de mikrositoz ile seyreder ve saf sınıflandırıcılar için iyi bilinen bir takılma noktasıdır. MCV’nin RBC sayısına bölünmesiyle hesaplanan Mentzer indeksi, demir eksikliğinde 13’ün üzerindedir; talasemi taşı durumunda ise 13’ün altına düşer.

BT-001’de hasta 34 yaşında bir kadındı; hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL ve TIBC yüksekliği vardı. Yaklaşık 17.7’lik Mentzer indeksi mutlak demir eksikliğini destekler. BT-007’de hasta 28 yaşında bir erkekti; mikrositoz (MCV 65.8 fL) vardı ancak RBC sayısı 6.2 ile yüksekti, RDW normaldi, ferritin normaldi ve HbA2 %5.6 idi. Yaklaşık 10.6’lık Mentzer indeksi talasemi taşı durumunu gösterir ve yükselmiş HbA2 beta-talasemi minörü doğrular.

Demir eksikliği anemisi Mentzer > 13 Düşük ferritin, düşük TSAT, yüksek TIBC, yüksek RDW

Beta-talasemi taşı Mentzer < 13 Normal ferritin, normal RDW, yükselmiş HbA2 (>3.5%), yüksek RBC sayısı

Her iki olgu da 1.000 puan aldı. Motor, her iki yorumda da Mentzer indeksini açıkça kullandı ve her seferinde doğru tanıyı döndürdü. Bu, tüm benchmark’ta klinik açıdan en çok güven veren tek sonuçtur, çünkü talasemi taşı durumunu demir eksikliği olarak yanlış sınıflandırmak uygunsuz demir takviyesi yapılmasına ve aile taraması fırsatlarının kaçırılmasına yol açar; demir eksikliğini talasemi olarak yanlış sınıflandırmak ise basit replasman tedavisini geciktirir. Bizim ferritin aralığı rehberimiz daha geniş ayırıcı tanı bağlamını açıklar.

V11 ilk referans çalıştırmasından vaka bazlı sonuçlar (23 Nisan 2026)

15 vakalık kavram kanıtı kohortunda yapılan orijinal V11 referans çalıştırması, metodolojik temeli oluşturur İkinci Güncelleme için: Aşağıdaki her vaka ayrıntısı, rubriğin gerçek bir motor yanıtını nasıl ele aldığını gösterir. On beş vakanın on ikisi, birincil yolda 1.000 tavan bileşik skoruna ulaştı; üç vaka, Faz 2 geri dönüşü üzerinden sunuldu ve tüm klinik ile yapısal içeriği korurken 0.05 gecikme bonusunu kaybetti. Bir vaka tek bir zorunlu alt bölümü eksikti; bir tanesi ise marjinal olarak azaltılmış bir olasılık dağılımı toplamı döndürdü.

Olgu Kimliği Uzmanlık Bileşik Gecikme Patoloji

BT-001-IDAHematoloji1.00017.8 snbirincil

BT-006-B12Hematoloji1.00018,4 snbirincil

BT-007-THALHematoloji1.00017,0 snbirincil

BT-002-HASHEndokrinoloji0.95037,0 snyedek (fallback)

BT-008-PCOSEndokrinoloji0.98718,6 snbirincil

BT-003-T2DMMetabolik1.00019,1 snbirincil

BT-013-GOUTMetabolik1.00019,4 snbirincil

BT-004-NAFLDHepatoloji1.00019,6 snbirincil

BT-009-VIRHEPHepatoloji0.95023,4 snyedek (fallback)

BT-014-GILBERTTuzak1.00018,9 snbirincil

BT-005-CKDNefroloji1.00017,4 snbirincil

BT-010-ASCVDKardiyoloji1.00019,7 snbirincil

BT-011-SLERomatoloji0.98118,2 snbirincil

BT-012-VİTDEndokrinoloji1.00019,3 snbirincil

BT-015-SAĞLIKLITuzak1.00018,7 snyedek (fallback)

PCOS vakası (BT-008), yanıt yapısında tek bir zorunlu alt bölümü kaybetti — on altıdan on altı yerine on beşten on altı — bu da yapısal puanı 1,000’den 0,963’e düşürdü. SLE vakası (BT-011), klinik puanı 0,965’e düşüren ancak her tanısal anahtar kelimeyi ve puanlama sistemini koruyan marjinal olarak azaltılmış bir olasılık-dağılımı toplamı döndürdü. İki kusurlu olmayan vakadan hiçbiri doğru tanıyı kaçırmadı.

V11 İkinci Güncelleme toplulaştırması — 100.000 vaka

Nüfus ölçeğinde, tek tek vaka satırları insan tarafından okunabilir değildir; bu nedenle İkinci Güncelleme, 100.000 satırlık bir tablo yerine toplulaştırılmış ölçümler raporlar. Başlıkta yer alan özet aşağıda gösterilir; uzmanlığa ve ülke etiketine göre kırılımlar teknik raporda ve Figshare deposunda yayımlanır. Tabakalı rastgele bir örnek n = 201 ham motor yanıtları (deterministik seed 20260426) inceleme için GitHub results/ dizininde yayımlanır.

Bileşik skor V11 ilk: 0.9912 (99.12%) → İkinci Güncelleme: 0.9980 (99.80%) Δ = +0.0068, 100.000-vaka kohortunda

Yapısal skor (ortalama) V11 ilk: 0.998 → İkinci Güncelleme: 1.000 Nüfus ölçeğinde mükemmel yapısal uyum

Klinik skor (ortalama) V11 ilk: 0.998 → İkinci Güncelleme: 0.996 −0.002; hiçbir vaka tanının kendisini kaçırmadı

Gecikme — ortalama (aralık) V11 ilk: 20,17 sn (17,0–37,0 sn) → İkinci Güncelleme: 13,26 sn (9,0–16,94 sn) Çalışmalar arasında üretim motoru optimizasyonları

Motor yolu = birincil V11 ilk: 12 / 15 → İkinci Güncelleme: 100,000 / 100,000 Çalışma sırasında hiçbir noktada 2. Aşama (Phase 2) için yedekleme gerekmedi

Tuzak-alt küme hiperdiyagnoz bayrakları V11 ilk: 0 / 13 → İkinci Güncelleme: 0 / 87,412 Popülasyon ölçeğinde sıfır yanlış-pozitif (8.723 tuzak vakası izlendi)

Başlık skorunun bize söylemediği şey

Bu belirli önceden kaydedilmiş rubrik altında, 127 ülke etiketi kapsayan 100.000 vakalık sentetik bir kohortta .80’lik bileşik puan, tavan seviyeye yakın performansı temsil eder — ancak dikkatli bir çerçevelemeyi hak eder. Sonuç, V11’de kaynak koda taahhüt ettiğimiz rubrik karşısında motorun davranışını açıklar; vahşi doğada var olan her kan testi paneli için motorun doğruluğuna dair evrensel bir iddia değildir.

Skor, motorun bu değerlendirme için seçilen tanısal desenleri popülasyon ölçeğinde bir kohortta doğru şekilde ele aldığını; yayımlanmış ve tekrarlanabilir bir metodolojiyle çalıştığını söyler. Motorun doğada var olan her kan tahlili panelinde doğru olduğunu söylemez. Motorun klinisyen muhakemesinin yerini alması gerektiğini söylemez. Ayrıca motorun alternatif yapay zeka sistemlerinden daha iyi performans gösterdiğini de söylemez — diğer motorlarla karşılaştırmalı analizler bu raporun kapsamı dışında özellikle bırakılmıştır.

Skorun ortaya koyduğu şey bir temel değerdir. Rubrik ve test düzeneği (harness) kamuya açık olduğundan, motorun gelecekteki sürümleri aynı rubrikle değerlendirilebilir — V11 ilk 15 vaka, İkinci Güncelleme 100.000 vakalık kohort veya sonraki herhangi bir genişletme için — ve yayımlanan skor ile sonraki herhangi bir çalışma arasındaki farkın kendisi ölçülebilir. Ön kayıt (pre-registration) değeri işte budur: performans iddialarını test edilebilir iddialara dönüştürür.

Bu kıyaslamayı 10 dakikada nasıl yeniden üretirsiniz

Yeniden üretim için yalnızca Kantesti bir API kimlik bilgisi çifti ve Python 3.10 veya daha sonraki bir ortam gerekir; requests Ve reportlab kütüphaneleri yüklü olmalıdır. Tam düzenek, MIT lisansı altında yayımlanmış tek parça, kendi kendine yeterli bir Python modülüdür.

💻 GitHub MIT lisanslı düzenek · ham yanıtlar · referans çalıştırma 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · temel akademik kayıt 🎓 ResearchGate Yayın 404175463 · V11 İkinci Güncelleme · akademik keşif katmanı 📄 Academia.edu Makale 165956808 · V11 İkinci Güncelleme · akademik keşif katmanı

Taze bir çalıştırma için dört adım

Bir. Depoyu klonlayın: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. İki. requirements.txt dosyasını kullanarak bağımlılıkları yükleyin pip install -r requirements.txt (İkinci Güncelleme şunları ekler: mysql-connector-python ≥ 8.0 SQL durum yükleyici için). Üç. Şunu ayarlayın KANTESTI_USERNAME Ve KANTESTI_PASSWORD motor API’si için ortam değişkenleri olarak. İkinci Güncelleme SQL durum yükleyici için ayrıca şunu da ayarlayın: KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, Ve KANTESTI_DB_PASSWORD — salt okunur bir rol üzerinden bağlanır (bench_reader) tanımlayıcı tablolar üzerinde hiçbir ayrıcalığı olmayan. Dört. Şunu çalıştırın python benchmark_bloodtest.py --limit 100000 tam Second-Update çalışması için veya python benchmark_bloodtest.py --limit 1000 hızlı yineleme için. Çıktılar şuraya düşer: ./benchmark_results/: ülke-etiket ve uzmanlık başına sütunlara sahip bir CSV puan kartı, bir JSON toplamı, tabakalı-rastgele ham yanıt örneği ve bir Markdown raporu.

23 Nisan 2026 (V11 ilk, 15 vaka) ve 26 Nisan 2026 (V11 Second Update, 100.000 vaka) tarihli referans çalışmaları, results/ deponun dizininde korunur. Yeni bir çalışma, referans çalışmaları bozmadan yeni bir zaman damgalı skor kartı üretir. Çalışmanız anlamlı ölçüde farklı bir sonuç üretirse, lütfen çalışmanın zaman damgası ve yanıt üst verilerinde dönen motor sürümüyle birlikte bir GitHub sorunu açın.

Sınırlılıklar ve gelecek çalışmalar

127 ülke etiketi üzerinden 100.000 olguya kadar, dört sınırlılık açıkça kabul edilmeyi hak eder: uzun kuyruk etiketlerinin yetersiz örneklenmesi, tek seferlik değerlendirme, tek motor kapsamı ve tek kaynak veri kökeni. Bunların her biri aktif takip çalışmalarıyla ele alınmaktadır.

Uzun kuyruk etiket kapsamı. İkinci Güncelleme 127 ülke etiketini kapsar; ancak dağılım dengesizdir — ilk 10 etiket, olguların ≈,4%’sini oluşturur ve 97 ek etiketin uzun kuyruğu birlikte ≈%7,3% katkı sağlar (yaklaşık 7.300 olgu toplam, etikete ortalama ~75 olgu). Bu uzun kuyruktaki etiket başına bileşimler, bu nedenle manşet rakamların ima ettiğinden daha gürültülüdür. Gelecekteki çalışmalar, etiket atamasını yeniden dengeleyerek etiket başına tahminleri sağlamlaştıracaktır.

Tek seferlik değerlendirme. Kohorttaki her vaka yalnızca bir kez değerlendirildi. Büyük dil modelleri, düşük örnekleme sıcaklığında bile önemsiz olmayan çıktı varyansı sergiler; bu nedenle her vaka için beş değerlendirmeyle çoklu çalışma protokolü ve raporlanan varyans, doğal bir sonraki adımdır — özellikle örnekleme kaynaklı oynaklığın tutarlılığın güvenlik iddiasının bir parçası olduğu tuzak-vaka alt kümesinde.

Tek motor kapsamı. Bu rapor tek bir motoru karakterize eder. Alternatif yapay zeka sistemlerine karşı karşılaştırmalı analizler burada kapsam dışıdır; aynı MIT lisanslı altyapıya karşı, uygun yöntemle bunları ayrı bir bağımsız çalışma olarak yürütmeyi düşünebiliriz.

Sentetik veri. 100.000 olgu sentetik olarak üretilmiştir; sentetik olgular değildir ve sonuçlar gerçek dünyadaki klinik performansa aktarılmaz. Gerçek, onamlı, harici kaynaklı verilerle değerlendirme, uygun etik gözetim gerektirir ve bu sentetik kıyaslama için kapsam dışıdır.

Bu dört sınırlamanın ötesinde, planlanan en etkili genişletme ülke bazında çok dilli eşdeğerliktir. Kantesti AI Engine, 75+ dilde kullanıcılara hizmet eder ve dil-odaklı Second-Update alt kohortlarını (Türkçe, Almanca, İspanyolca, Fransızca, İtalyanca, Portekizce, Arapça, Mandarin) çalıştırmak, motorun desteklediği diller genelinde çıktı kalitesini nicelleştirecektir. Her dil-odaklı analiz, kendi DOI’si ve altyapı dalıyla birlikte yayımlanacaktır.

100.000 Vakada 99.80% Bileşik Skoru Elde Eden Aynı Motoru Deneyin

Kendi kan tahlili panelinizi, bu kıyaslamada değerlendirilen aynı üretim uç noktasına yükleyin. Dünya genelinde 2 milyondan fazla kullanıcı, 75+ dilinde 15.000’den fazla biyobelirteci yorumlamak için Kantesti Yapay Zeka Motorunu kullanır.

🔬 Ücretsiz Demoyu Deneyin

Chrome Uzantısı App Store Google Play

📚 Bu Kıyaslama Nasıl Atıf Yapılır

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {Kantesti Kan Testi Yorumlama Motoru için 100.000 Sentetik Test Olgusu Üzerinde Önceden Kaydedilmiş, Rubrik Tabanlı Otomatik Teknik Kıyaslama  
                 --- V11 İkinci Güncelleme},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Teknik Rapor},  
  number      = {V11 (İkinci Güncelleme)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti Kan Testi Yorumlama Motoru için 100.000 Sentetik Test Olgusu Üzerinde Önceden Kaydedilmiş, Rubrik Tabanlı Otomatik Teknik Kıyaslama — V11 İkinci Güncelleme (Teknik Rapor V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Harici Metodolojik Referanslar

Mentzer, W. C. (1973). Demir Eksikliğini Talasemi Taşıyıcılığından Ayırt Etme. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Sistemik Eritematoz Lupus için 2019 Avrupa Romatizma Birliği / Amerikan Romatoloji Koleji Sınıflandırma Kriterleri. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Büyük Dil Modelleri için Tıbbi Alan Halüsinasyon Testi. CoNLL 2023 Bildirileri.

🔗 ACL Anthology

99.80%Bileşik Puan

100,000Puanlanan Vaka Sayısı

127Kapsanan Ülke Etiketleri

0 / 87,412Tuzak Yanlış Pozitifleri

Sıkça Sorulan Sorular

Kantesti Yapay Zekâ Motoru sentetik test vakalarında ne kadar doğrudur?

Önceden kaydedilmiş bir rubrik üzerinde, sekiz içerik alanı ve 127 ülke etiketi boyunca 100.000 sentetik olarak üretilmiş test olgusu ile çalıştırıldığında (V11 İkinci Güncelleme), motor ,80’lik bir bileşik puana ulaştı; 87.412 izlenen tuzak-olgu fırsatında sıfır hiperdiyagnoz uyarısı ve ortalama yanıt gecikmesi 13,26 saniyeydi. Bu bileşik, sentetik girdilerde çıktı uygunluğunu ölçer; tanısal doğruluğu değil. Orijinal V11 sürümü, aynı rubriği 15 elle oluşturulmuş olgu üzerinde uyguladı (bileşik ,12%); İkinci Güncelleme rubriği bayt düzeyinde aynı tutar ve daha büyük bir sentetik kohorta genişletir. Tam puan kartı Figshare üzerinde DOI 10.6084/m9.figshare.32095435 altında ve GitHub üzerinde MIT lisansı ile yayımlanmıştır.

Kantesti yapay zeka motoru klinik olarak doğrulandı mı?

Hayır. Motor, klinik doğrulama değil, otomatik bir teknik kıyaslama ile; V11 ilk çalışmasından önce kaynak kodda dondurulmuş ve V11 İkinci Güncelleme için bayt düzeyinde aynı tutulan bir rubrik karşısında, 127 ülke etiketinden çekilen hematoloji, endokrinoloji, metabolik tıp, hepatoloji, nefroloji, kardiyoloji, romatoloji ve dahiliye alanlarındaki 100.000 sentetik kan testi olgusu üzerinde değerlendirilmiştir. Klinik gözetim, Kantesti AI’da Yönetim Kurulu sertifikalı klinik hematolog ve Baş Tıbbi Sorumlu olan Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) tarafından sağlanmıştır.

Hiper-diagnostik tuzak vakası nedir?

Hiper-diagnostik tuzak vakası, yapay zekâ motorlarında aşırı tanı koyma (over-diagnosis) davranışını tespit etmek için özellikle tasarlanmış bir klinik senaryodur. V11 ilk kıyaslama (benchmark), iki böyle vakayı metodolojik bir kanıt-değeri (proof-of-concept) olarak kullanmıştır: Gilbert sendromu ile uyumlu izole indirekt hiperbilirubinemi (doğru yorumun hepatit veya hemoliz değil, zararsız UGT1A1 polimorfizmi olması) ve tamamen normal bir erişkin tarama paneli (doğru çıktının, üretilmiş sınırda patoloji yerine güvence olması). V11 İkinci Güncelleme, bu tuzak-vakası metodolojisini 8.723 vakalık özel bir alt kümeye ölçekleyerek 87.412 izlenen hiper-diagnostik uyarı (flag) fırsatı üretmiş; motorun yanlış-pozitif oranı ise sıfırda kalmıştır.

Kantesti yapay zeka motoru değerlendirmesi tekrarlanabilir mi?

Tam değerlendirme altyapısı (evaluation harness), MIT lisansı altında tek bir, kendi içinde barındıran (self-contained) Python modülü olarak yayımlanmıştır. V11 ilk çalıştırma yalnızca bir Kantesti API kimlik bilgisi çifti ve Python 3.10 veya üzerini gerektirir. V11 İkinci Güncelleme, Kantesti klinik-repozitör kimlik bilgileri gerektiren parametreli, salt-okunur bir SQL vaka yükleyici (case loader) ekler (a bench_reader tabloları tanımlamaya yönelik hiçbir ayrıcalığı olmayan bir rol). Kod, vaka yükleyici SQL’i, rubrik (sürümler arasında bayt düzeyinde aynı) ve V11 ilk çalıştırma ile İkinci Güncelleme referans çalıştırmalarından alınan tabakalı (stratified) rastgele ham motor yanıt örnekleri github.com/emirhanai/kantesti-blood-test-benchmark adresinde mevcuttur ve Figshare, ResearchGate ve Academia.edu’da aynalanmıştır (mirrored).

Kantesti yapay zeka motoru demir eksikliğini beta-talasemi taşıyıcılığından nasıl ayırt eder?

Motor, ortalama korpüsküler hacmin (mean corpuscular volume) eritrosit sayısına (kırmızı kan hücresi sayısı) bölünmesiyle hesaplanan Mentzer indeksini uygular. Mentzer indeksi 13’ün üzerindeyse demir eksikliği anemisini destekler; 13’ün altındaysa beta-talasemi taşıyıcılığını destekler. V11 ilk kıyaslamada her iki sunum da, ferritin, RDW ve HbA2 bağlamı tarafından desteklenen açık Mentzer indeks hesaplamasıyla doğru sınıflandırılmıştır. V11 İkinci Güncelleme 100.000-vaka kohortunda, aynı ayırıcı davranış popülasyon ölçeğinde de korunmuştur.

Ham karşılaştırma (benchmark) verilerini ve kaynak kodunu nerede bulabilirim?

Teknik rapor, DOI 10.6084/m9.figshare.32095435 altında Figshare’e yatırılmıştır (V11 ilk sürüm ve V11 İkinci Güncelleme dâhil). ResearchGate yayın 404175463 ve Academia.edu makalesi 165956808 üzerinde aynalanmıştır; her ikisi de V11 İkinci Güncelleme başlığı ve 100.000-vaka sonuçlarıyla güncellenmiştir. Tüm referans çalıştırma sonuçlarını içeren MIT lisanslı Python altyapısı (harness) ise github.com/emirhanai/kantesti-blood-test-benchmark adresindedir. Dört platformlu aynalama ağı, uzun vadeli erişilebilirlik ve atıf esnekliği sağlar.

Yapay zeka tıbbi kıyaslamalarında ön kayıt (pre-registration) neden önemlidir?

Ön kayıt, sonradan (post-hoc) rubrik ayarlamasını engeller; bu, şirket tarafından yürütülen kıyaslamaların kendi sayılarını şişirmesinin en yaygın tek yoludur. Rubriği herhangi bir motor çağrısından önce kaynak koda taahhüt edip altyapıyı kamuya açık şekilde yayımlayarak, rubrik yazarının tarihleri sürüm kontrolünde incelenebilir hale gelir ve motor sonuçları puanlama ölçütlerini şekillendiremez.

Bu kıyaslama başka yapay zeka motorlarıyla karşılaştırma içeriyor mu?

Hayır. V11 raporu — hem ilk sürüm hem de İkinci Güncelleme — bir motoru alternatif ticari sistemlere konumlandırmak yerine, sabit bir rubrik karşısında tek bir motoru özellikle karakterize edecek şekilde (deliberately) tasarlanmıştır. Altyapı MIT lisansı altında açık kaynaktır (artık SQL vaka yükleyiciyi de içerir); böylece bağımsız araştırmacılar, seçtikleri herhangi bir motoru aynı rubrik ve vaka yükleyiciyle değerlendirebilir ve sonuçlarını yayımlayabilir.

Hasta vakaları gerçek mi sentetik mi?

Tüm olgular sentetik olarak üretilmiştir — V11 ilk sürümde 15 elle oluşturulmuş olgu ve İkinci Güncelleme’de 100.000 olgu. Bunlar sentetik olgular değildir: sentetik veri, onam süreci ve de- tanımlama (de-identification) söz konusu değildir; çünkü kohortta kişisel veri yoktur. Yayımlanan donanımda, teknik raporda veya paylaşılan veri setlerinde kişisel veri yer almamaktadır.

⚕️ Tıbbi Uyarı & Çıkar Çatışması

Bu kıyaslama raporu, araştırma ve metodolojik şeffaflık amaçlıdır. Tıbbi tavsiye niteliğinde değildir; tanı koymaz ve profesyonel tıbbi bakımın yerine geçmez; burada yer alan hiçbir sonuç, bir doktora görünmeyi geciktirmek veya bundan kaçınmak için kullanılmamalıdır. Tanı ve tedavi kararları için her zaman yetkin bir sağlık hizmeti sağlayıcısına danışın. Bu, şirketin kendi motoruna ilişkin kendi kendine çalıştırılan dahili bir kıyaslamadır ve bağımsız olarak doğrulanmamış veya hakemli olarak değerlendirilmemiştir. Bileşik puan, sabit bir ölçüte (rapor yapısı, anahtar kelime ve puanlama sisteminin geri çağırma performansı ve gecikme) uyumu ölçer; gerçek dünyadaki tanısal doğruluk veya klinik güvenliği ölçmez. Her iki yazar da Kantesti Ltd’de istihdam edilmekte ve özsermayeye sahiptir; değerlendirilen motor ise aynı kuruluşun ticarî bir ürünüdür. Bu çıkar çatışması, ölçütün kaynak koda önceden kaydedilmesi, MIT lisansı kapsamında harness’ın yayımlanması ve ham motor yanıtlarından tabakalı rastgele bir örneklemin yayımlanmasıyla azaltılmıştır.

E-E-A-T Güven Sinyalleri

⭐

Deneyim

Vaka paneli seçiminin denetlenmesi için 15+ yıl klinik hematoloji ve laboratuvar tıbbı uygulaması.

📋

Uzmanlık

Açık hiper-diagnostik cezalar içeren ve tanınan klinik puanlama sistemleriyle (Mentzer, FIB-4, EULAR/ACR, KDIGO) uyumlu ön kayıtlı rubrik tasarımı.

👤

Otorite

Baş yazar Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Uygulama: Kantesti Ltd CEO’su Julian Emirhan Bulut.

🛡️

Güvenilirlik

MIT lisanslı yeniden üretilebilir altyapı, yayımlanmış ham motor yanıtları, açık çıkar çatışması bildirimi, dört platformlu araştırma aynalama ağı.

🏢 Kantesti LTD İngiltere ve Galler’de kayıtlı · Şirket No. 17090423 Londra, Birleşik Krallık · kantesti.net