Kantesti Yapay Zeka Kan Testi Karşılaştırması

Klinik Doğrulama Önceden Kaydedilmiş Kıyas Ölçütü V11 — Nisan 2026 MIT Lisanslı Eş Doğrulanabilir

Sıfır aşırı tanı yanlış pozitifleriyle önceden kayıtlı bir rubrik üzerinde 99.12% Bileşik Skor

Kantesti Yapay Zeka Motoru’nun anonimleştirilmiş kan tahlili örnekleri üzerindeki bağımsız, önceden kaydedilmiş klinik değerlendirmesi. Değerlendirme ölçütleri, ilk motor çağrısından önce kaynak kodunda donduruldu; değerlendirme altyapısı MIT lisanslıdır ve her ham yanıt yayımlanır.

📖 ~14 dakika 📅 23 Nisan 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Yayınlandı: 23 Nisan 2026 🩺 Tıbbi olarak gözden geçirildi: 23 Nisan 2026 ✅ Önceden Kaydedilmiş Değerlendirme Ölçütleri 🔓 Açık Kod & Veri

Bu klinik doğrulama çalışması tarafından yürütüldü: Dr. Thomas Klein, MD, Kantesti Yapay Zeka’da Tıbbi Direktör (Chief Medical Officer); iş birliğiyle Julian Emirhan Bulut, Kantesti Ltd’de Kıdemli Yapay Zeka Mühendisi ve CEO. Metodoloji ve değerlendirme ölçütleri tarafından gözden geçirildi: Kantesti Yapay Zeka Tıbbi Danışma Kurulu.

Baş Yazar & Klinik Gözetim

Thomas Klein, MD

Kantesti AI Baş Tıp Sorumlusu

Dr. Thomas Klein, 15 yılı aşkın laboratuvar tıbbı deneyimine sahip, kurul onaylı bir klinik hematolog ve dahiliyecidir. Kantesti Yapay Zeka’da Tıbbi Direktör olarak, bu kıyas ölçütü için olgu panelini seçti, tüm tanısal kesin doğruları gözden geçirdi ve ilk motor çağrısından önce önceden kaydedilmiş değerlendirme ölçütlerini onayladı.

ORCID 0009-0009-1490-1321 ResearchGate Google Akademik

Ortak Yazar & Uygulama

Julian Emirhan Bulut

Kıdemli Yapay Zeka Mühendisi & CEO, Kantesti Ltd

Julian Emirhan Bulut, Kantesti Ltd’nin kurucusu ve CEO’sudur. Değerlendirme altyapısını tasarladı ve uyguladı, API entegrasyonunu gerçekleştirdi, Nisan 2026 kıyas ölçütü koşusunu yürüttü ve istatistiksel toplulaştırmayı hazırladı. 2019’dan beri platformun kurucusu.

GitHub Kantesti Hakkında

⚡ Kısa Özet V11 — 23 Nisan 2026

99.12% bileşik skor Yedi tıbbi uzmanlık alanı boyunca 15 anonimleştirilmiş gerçek hasta kan testi vakasında.
Sıfır aşırı tanı yanlış-pozitif Hem tuzak vakalarda (Gilbert sendromu ve tamamen normal bir yetişkin taraması).
Önceden kayıtlı rubrik İlk motor çağrısından önce kaynak kodunda donduruldu — sonradan (post-hoc) ayarlama mümkün değildi.
Mentzer indeksi doğru şekilde uygulandı Demir eksikliği anemisinden beta-talasemi minörü ayırt etmek için.
Yalnızca üretim uç noktası — ayrıcalıklı yönlendirme yok; bir ödeme yapan müşteri gibi tam olarak erişildiği şekilde değerlendirildi.
Ortalama 20.17 saniye gecikme Uçtan uca; 15 vakanın 12’si 20 saniyelik birincil yol hedefinin altındaydı.
MIT lisanslı altyapı (harness) GitHub’da, her ham motor yanıtıyla birlikte yayımlandı — bağımsız yeniden üretim desteklenir.
Figshare DOI: 10.6084/m9.figshare.32095435 · ResearchGate, Academia.edu ve GitHub’da aynalanmıştır.

Bu kıyas ölçütünün var olma nedeni ve neyi test ettiği

Yapay zeka destekli kan tahlili yorumlama, tüketici ve klinik iş akışlarında giderek daha fazla kullanılıyor; ancak laboratuvar tıbbına özel, tekrarlanabilir değerlendirme çerçeveleri hâlâ nadir. Bu bağlamda en önemli olan sorular, genel tıbbi soru-cevap kıyaslamalarında ele alınan sorular değildir: Ortalama eritrosit hacmi (MCV) aynı olduğunda bir motor demir eksikliğini talasemi taşıyıcılığından ayırabilir mi, Gilbert sendromunu hepatit olarak fazla mı teşhis eder ve tamamen normal bir tarama panelinde patoloji “üretir” mi?

Tek bir kan testi paneli, genellikle birden fazla farklı yorum için yeterli sinyal içerir ve yorum yapan klinisyenin görevi, bu yorumları birbirleriyle tartmak; bir ders kitabı cevabını geri getirmek değildir. Kitap örneklerinde iyi performans gösteren bir motor, en çok önem taşıyan vakalarda yine de başarısız olabilir: ayırıcı tanı tuzakları, tek başına bakıldığında alarm verici görünen zararsız varyantlar ve asıl olarak tamamen normal panellerin, kendinden emin yardımcıları patoloji üretmeye teşvik etmesi gibi.

Bu kıyaslama, tam olarak bu başarısızlık türleri üzerine inşa edildi. On beş vakanın her biri belirli bir tanısal özellik için seçildi: aynı ortalama korpüsküler hacme (MCV) sahip beta-talasemi taşıyıcılığından ayırt edilmesi gereken demir eksikliğiyle ilişkili mikrositoz; yalnızca izole indirekt hiperbilirubinemi bulunan bir Gilbert sendromu tablosu; ve her analitin kendi referans aralığı içinde yer aldığı on beş parametreli bir tarama paneli. Değerlendirme ölçütü, her vakayı kendi koşulları içinde okuyan motorları ödüllendirir; böyle bir tanı gerekmiyorken kendinden emin bir tanıya ulaşan motorları ise cezalandırır.

Dr. Thomas Klein olarak, vaka panelini seçtim; çünkü laboratuvar tıbbı asistanlarının en sık yanlış yaptığı desenler bunlar. Pahalı başarısızlık modu "nadir bir hastalığı kaçırmak" değildir; onu olmayan hastalarda rutin patoloji uydurmaktır. Bizim Tıbbi Doğrulama hub daha geniş çerçeveyi anlatır; bu sayfa, V11 motoru üzerindeki uygulanan sonucu açıklar.

En güncel referans çalıştırması — V11 (Nisan 2026)

Kantesti Yapay Zeka Motor V11’in Nisan 2026 referans çalışması, 99.12% önceden kaydedilmiş on beş vakalık değerlendirme ölçütünde bileşik bir skor üretti. Hiper-tanı tuzağı olan iki vaka tavan skor aldı. Mentzer indeksi, demir eksikliği ile talasemi ayırıcı tanısı bağlamında doğru şekilde uygulandı.

Bileşik 99.12% 15 / 15 vaka skorlandı

0.998 Yapısal skor

0.998 Klinik skor

20.17 sn Ortalama gecikme

0 / 13 Tuzak yanlış-pozitifleri

Bileşik formül üç bileşeni birleştirir: yapısal uygunluk yedi zorunlu rapor bölümü ve on altı zorunlu alt bölüm ile, klinik doğruluk anahtar kelime geri çağırma + puanlama sistemi geri çağırma + olasılık dağılımı geçerlilik kontrolü olarak ölçülür ve yanıt gecikmesi 20 saniyelik birincil hizmet seviyesi hedefi karşısında. Tam ayrıştırma aşağıdaki değerlendirme ölçütü formülünde gösterilmiştir.

Bileşik = 0.35 × Yapısal + 0.55 × Klinik + 0.10 × Gecikme

Kalan %0,88’lik başlık payının neredeyse tamamı gecikme kaybına ayrışıyor; yani her biri yaklaşık %0,60’lık bir katkı sağlayan, her biri bileşik başına -0,05 olan üç adet Faz 2 geri dönüş çağrısı, %0,88’lik açıkta klinik içerikten ziyade gecikme kaybı oluşturdu. Motor, on beş vakanın hiçbirinde doğru tanıyı kaçırmadı; eksik kaldığı yerlerde ise, çağrıların küçük bir azınlığında 20 saniyelik birincil yol hedefinin biraz üzerinde süre aldı.

Yedi tıbbi uzmanlık alanına yayılan on beş olgu

Vaka paneli yedi uzmanlık alanını kapsar: hematoloji, endokrinoloji, metabolik tıp, hepatoloji, nefroloji, kardiyoloji, romatoloji — ayrıca iki adet özel hiperdiyagnoz tuzağı vakası. Her vaka, yazılı bilgilendirilmiş onam kapsamında Kantesti klinik veri havuzundan alınmış anonimleştirilmiş gerçek bir hasta kaydıdır.

Kimlikten arındırma, Safe Harbor yaklaşımıyla gerçekleştirildi: tüm doğrudan tanımlayıcılar kaldırıldı veya değiştirildi ve her kayda BT-NNN-LABEL biçiminde bir kıyas-içi vaka kodu atandı. İşleme,
GDPR Madde 9(2)(j) uygun güvenlik önlemleriyle bilimsel araştırma için ve eşdeğer Birleşik Krallık GDPR hükümleri uyarınca yürütüldü. Yayınlanan düzenek (harness), teknik rapor veya paylaşılan veri setlerinin hiçbir yerinde kişiyi tanımlayan bilgi bulunmaz.

Hematoloji (3) BT-001, BT-006, BT-007 Demir eksikliği anemisi · B12 eksikliği · Minör beta-talasemi

Endokrinoloji (3) BT-002, BT-008, BT-012 Hashimoto tiroiditi · İnsülin direnci ile seyreden PKOS · Şiddetli D vitamini eksikliği

Metabolik (2) BT-003, BT-013 Metabolik sendromlu T2DM · Gut riskiyle birlikte hiperürisemi

Hepatoloji (2) BT-004, BT-009 NAFLD / NASH · Akut viral hepatit

Nefroloji · Kardiyoloji · Romatoloji (3) BT-005, BT-010, BT-011 CKD evre 3 · Aterojenik dislipidemi · Sistemik lupus eritematozus

Tuzak vakaları (2) BT-014, BT-015 Gilbert sendromu (izole indirekt hiperbilirubinemi) · Tamamen normal erişkin taraması

Bu özel dağılımın nedeni

Hematoloji, gerçek dünyadaki laboratuvar uygulamasında en yüksek hacimli tuzaklar olan mikrositik ayırıcı tanı ve makrositik ayırıcı tanılar nedeniyle üç vaka alır. Endokrinoloji, Hashimoto, PCOS ve D vitamini eksikliği tablolarının farklı tanısal şekiller (otoantikor kaynaklı, hormon oranı kaynaklı, tek belirteç kaynaklı) ortaya koyması nedeniyle üç vaka alır. Tek vaka uzmanlıkları hâlâ anlamlıdır; çünkü CKD, ASCVD riski ve SLE’nin her birinin, motorun çağırması gereken kendine özgü bir puanlama sistemi vardır (sırasıyla KDIGO evrelemesi, ASCVD 10 yıllık riski, 2019 EULAR/ACR SLE kriterleri).

Önceden kaydedilmiş değerlendirme ölçütleri — açıklaması

Ön kayıt, bu kıyaslamadaki en önemli metodolojik tercihtir. Beklenen her tanı, her klinik puanlama sistemi ve her rapor bölümü, motor çağrılmadan önce kaynak koda taahhüt edilmiştir motor çağrılmadan önce. Bu nedenle, motoru pohpohlamak için rubriğe sonradan (post-hoc) ayar yapmak mümkün değildir.

Bileşik puanı oluşturan üç bileşen vardır. yapısal bileşen katkı sağlar ve motorun yedi zorunlu rapor bölümünü (başlık, özet, temel bulgular, ayırıcı tanı, puanlama sistemleri, öneriler, takip) ve bunların içindeki on altı zorunlu alt bölümü döndürüp döndürmediğini ölçer. Bölüm varlığı yapısal hesaplamada ağırlığa, alt bölüm varlığı ise ağırlığa sahiptir.

The klinik bileşen katkı sağlar ve üç şeyi birleştirir: tanı-kelime hatırlama (klinik alt puanın ’i), puanlama sistemi hatırlama ( — motorun gerektiğinde Mentzer, FIB-4, HOMA-IR, ASCVD riski, KDIGO evrelemesi, EULAR/ACR kriterlerini hesaplayıp hesaplamadığı), ve olasılık-toplamı geçerlilik kontrolü ( — ayırıcı tanı olasılıkları [90, 110] aralığı içinde toplamlanmalıdır). Tuzak vakalarda, uydurulmuş patoloji bayrağı başına 0.10 olacak şekilde hesaplanan ve en fazla üç bayrağa kadar sınırlandırılan, en fazla 0.30’a kadar açık bir hiperdiyagnoz cezası düşülür.

The gecikme (latency) bileşeni katkı sağlar. 20 saniyenin altındaki yanıt tam 0.10 alır, 40 saniyenin altındaki yanıt 0.05 alır ve daha yavaş her şey sıfır alır. 20 saniyelik hedef, üretim birincil-path servis seviye hedefini; 40 saniyelik tavan ise ağır motor çağrıları için Faz 2 yedek bütçesini yansıtır.

Ön kayıt neyi engeller

Birinci taraf kıyaslamalar, sonradan (post-hoc) rubrik ayarıyla kendi sayılarını şişirme konusunda meşhurdur. Desen neredeyse her zaman aynıdır: ekip motoru çalıştırır, nerede yetersiz kaldığını görür, sonra yetersiz kalan alanların daha az sayılması için rubriği sessizce ayarlar. Rubriği ilk motor çağrısından önce kaynak koda taahhüt edip harness’i MIT lisansı altında yayımladığınızda, bu ayar sürüm kontrolünde görünür hale gelir. Herkes depoyu klonlayabilir, rubrik yazar tarihlerine bakabilir ve motor sonuçlarının puanlamayı şekillendirmek için kullanılmadığını doğrulayabilir.

Hiper-tanı tuzağı vakaları — aşırı çağırmanın gerçek başarısızlık modu olması

Normal taramalarda patolojiyi agresif biçimde fazla çağırmak, tüketiciye yönelik tıbbi yardımcılar için belgelenmiş bir başarısızlık modudur. Bunun aşağı akış maliyetleri; gereksiz inceleme, hasta kaygısı ve iatrojenik değerlendirmeyi içerir. Bu kıyaslamadaki iki tuzak vaka, bu başarısızlık modunu görünür ve puanlanabilir kılmak üzere tasarlanmıştır.

🟡 Tuzak 1 — BT-014-GILBERT

Sunum. Toplam bilirubini 2.4 mg/dL olan 24 yaşında erkek. Direkt fraksiyon normaldir; transaminazlar ve alkalen fosfataz referans aralıklarının içindedir; retikülositler olağan dışı değildir ve haptoglobin ile LDH hemolizi dışlar.

Doğru yorum. Gilbert sendromu — zararsız bir UGT1A1 polimorfizmi. Yorum hepatit, siroz, hemolitik anemi veya biliyer obstrüksiyonu çağırmamalıdır.

V11 sonucu. Bileşik 1.000. İzlenen altı aşırı-tanı bayrağının hiçbiri aktif tanı olarak görünmedi.

🟡 Tuzak 2 — BT-015-SAĞLIKLI

Sunum. On beş parametreli rutin tarama paneline sahip 35 yaşında kadın. Her analit referans aralığının içinde rahatça yer alır.

Doğru yorum. Güvence ve yaşam tarzı sürdürümü. Yorumlama, klinik açıdan faydalıymış gibi görünmesi için sınırda patoloji uydurmamalıdır.

V11 sonucu. Bileşik 1.000. Yedi izlenen aşırı tanı uyarısından hiçbiri — diyabet, anemi, hipotiroidi, dislipidemi, hepatit, böbrek hastalığı, eksiklik — aktif tanı olarak ortaya çıkmadı.

Her iki tuzakta da on üç izlenen hiperdiyagnoz uyarısı kontrol edildi. Hiçbiri tetiklenmedi. Bu, bir klinisyenin bir yapay zeka motorunu triage (önceliklendirme) veya konsültasyon öncesi araç olarak kullanmayı düşünmesi açısından en çok önem taşıyan sonuçtur: sistem, var olmayan yerde hastalık icat etmedi.

Mentzer indeksi: demir eksikliğini talasemi taşıyıcılığından ayırma

İkinci yüksek değerli bulgu, olgu BT-001’in (demir eksikliği anemisi) olgu BT-007 ile (beta-talasemi minör) eşleştirilmesidir. Her ikisi de mikrositoz ile seyreder ve saf sınıflandırıcılar için iyi bilinen bir takılma noktasıdır. MCV’nin RBC sayısına bölünmesiyle hesaplanan Mentzer indeksi, demir eksikliğinde 13’ün üzerindedir; talasemi taşı durumunda ise 13’ün altına düşer.

BT-001’de hasta 34 yaşında bir kadındı; hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL ve TIBC yüksekliği vardı. Yaklaşık 17.7’lik Mentzer indeksi mutlak demir eksikliğini destekler. BT-007’de hasta 28 yaşında bir erkekti; mikrositoz (MCV 65.8 fL) vardı ancak RBC sayısı 6.2 ile yüksekti, RDW normaldi, ferritin normaldi ve HbA2 %5.6 idi. Yaklaşık 10.6’lık Mentzer indeksi talasemi taşı durumunu gösterir ve yükselmiş HbA2 beta-talasemi minörü doğrular.

Demir eksikliği anemisi Mentzer > 13 Düşük ferritin, düşük TSAT, yüksek TIBC, yüksek RDW

Beta-talasemi taşı Mentzer < 13 Normal ferritin, normal RDW, yükselmiş HbA2 (>3.5%), yüksek RBC sayısı

Her iki olgu da 1.000 puan aldı. Motor, her iki yorumda da Mentzer indeksini açıkça kullandı ve her seferinde doğru tanıyı döndürdü. Bu, tüm benchmark’ta klinik açıdan en çok güven veren tek sonuçtur, çünkü talasemi taşı durumunu demir eksikliği olarak yanlış sınıflandırmak uygunsuz demir takviyesi yapılmasına ve aile taraması fırsatlarının kaçırılmasına yol açar; demir eksikliğini talasemi olarak yanlış sınıflandırmak ise basit replasman tedavisini geciktirir. Bizim ferritin aralığı rehberimiz daha geniş ayırıcı tanı bağlamını açıklar.

Nisan 2026 çalıştırmasından vaka bazlı sonuçlar

On beş vakanın on ikisi, birincil pat üzerinde birincil bileşik puan olan 1.000 tavanına ulaştı. Üç vaka Faz 2 geri dönüşü üzerinden sunuldu; klinik ve yapısal tüm içerik korunurken 0.05 gecikme (latency) bonusu kaybedildi. Bir vakada tek bir zorunlu alt bölüm eksikti; bir vaka ise marjinal olarak azaltılmış bir olasılık dağılımı toplamı döndürdü.

Olgu Kimliği Uzmanlık Bileşik Gecikme Patoloji

BT-001-IDAHematoloji1.00017.8 snbirincil

BT-006-B12Hematoloji1.00018,4 snbirincil

BT-007-THALHematoloji1.00017,0 snbirincil

BT-002-HASHEndokrinoloji0.95037,0 snyedek (fallback)

BT-008-PCOSEndokrinoloji0.98718,6 snbirincil

BT-003-T2DMMetabolik1.00019,1 snbirincil

BT-013-GOUTMetabolik1.00019,4 snbirincil

BT-004-NAFLDHepatoloji1.00019,6 snbirincil

BT-009-VIRHEPHepatoloji0.95023,4 snyedek (fallback)

BT-014-GILBERTTuzak1.00018,9 snbirincil

BT-005-CKDNefroloji1.00017,4 snbirincil

BT-010-ASCVDKardiyoloji1.00019,7 snbirincil

BT-011-SLERomatoloji0.98118,2 snbirincil

BT-012-VİTDEndokrinoloji1.00019,3 snbirincil

BT-015-SAĞLIKLITuzak1.00018,7 snyedek (fallback)

PCOS vakası (BT-008), yanıt yapısında tek bir zorunlu alt bölümü kaybetti — on altıdan on altı yerine on beşten on altı — bu da yapısal puanı 1,000’den 0,963’e düşürdü. SLE vakası (BT-011), klinik puanı 0,965’e düşüren ancak her tanısal anahtar kelimeyi ve puanlama sistemini koruyan marjinal olarak azaltılmış bir olasılık-dağılımı toplamı döndürdü. İki kusurlu olmayan vakadan hiçbiri doğru tanıyı kaçırmadı.

Başlık skorunun bize söylemediği şey

Bu özel önceden kayıtlı ölçüte göre 99,12 yüzde birleşik bir puan, tavan seviyeye yakın performansı temsil eder; ancak dikkatli bir çerçevelemeyi hak eder. Sonuç, motorun, her biri bir kez değerlendirilmiş, dikkatle seçilmiş on beş anonim vaka karşısındaki davranışını tek bir ölçütle anlatır. Sayının neyi ve neyi kanıtlamadığını açıkça belirtiyoruz.

Puan, V11 motorunun bu değerlendirme için seçilen tanısal örüntüleri yayımlanmış ve tekrarlanabilir bir yöntemle doğru şekilde ele aldığını söyler. Motorun, doğada var olan her kan testi panelinde doğru olduğu anlamına gelmez. Motorun klinisyen muhakemesinin yerini alması gerektiğini de söylemez. Ayrıca motorun alternatif yapay zeka sistemlerinden daha iyi performans gösterdiğini de söylemez — diğer motorlarla karşılaştırmalı analizler bu raporun kapsamı dışında özellikle bırakılmıştır.

Puanın ortaya koyduğu şey bir temel değerdir. Ölçüt ve düzenek herkese açık olduğundan, motorun gelecekteki sürümleri aynı on beş vaka üzerinden değerlendirilebilir ve yayımlanan puan ile sonraki herhangi bir çalıştırma arasındaki farkın kendisi de ölçülebilir. Ön kayıtlamanın değeri budur: performans iddialarını test edilebilir iddialara dönüştürür.

Bu kıyaslamayı 10 dakikada nasıl yeniden üretirsiniz

Yeniden üretim için yalnızca Kantesti bir API kimlik bilgisi çifti ve Python 3.10 veya daha sonraki bir ortam gerekir; requests Ve reportlab kütüphaneleri yüklü olmalıdır. Tam düzenek, MIT lisansı altında yayımlanmış tek parça, kendi kendine yeterli bir Python modülüdür.

💻 GitHub MIT lisanslı düzenek · ham yanıtlar · referans çalıştırma 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · temel akademik kayıt 🎓 ResearchGate Yayın 404175463 · akademik keşif katmanı 📄 Academia.edu Makale 165956808 · akademik keşif katmanı

Taze bir çalıştırma için dört adım

Bir. Depoyu klonlayın: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. İki. requirements.txt dosyasını kullanarak bağımlılıkları yükleyin pip install -r requirements.txt. Üç. Şunu ayarlayın KANTESTI_USERNAME Ve KANTESTI_PASSWORD ortam değişkenleri olarak — kimlik bilgileri çalışma zamanında okunur ve betikte hiçbir şey sabit kodlanmaz. Dört. Şunu çalıştırın python benchmark_bloodtest.py ve çalışma dizinine yayılan dört çıktıyı inceleyin: bir CSV skor kartı, bir JSON skor kartı, ham motor yanıtlarını da içeren tam bir JSON dökümü ve insan tarafından okunabilir bir Markdown raporu.

23 Nisan 2026 tarihli referans çalışması, şurada saklanır: results/ deponun dizini. Yeni bir çalışma, referans çalışmayı bozmadan yeni bir zaman damgalı skor kartı üretecektir. Çalışmanız anlamlı ölçüde farklı bir sonuç üretirse, lütfen çalışmanın zaman damgası ve yanıt üst verilerinde dönen motor sürümüyle birlikte bir GitHub sorunu açın.

Sınırlılıklar ve gelecek çalışmalar

Dört sınırlılık açıkça kabul edilmelidir: örneklem büyüklüğü, tek seferlik değerlendirme, tek motor kapsamı ve tek kaynak veri kökeni. Her biri, devam eden takip çalışmalarıyla ele alınmaktadır.

Örneklem büyüklüğü. Sekiz uzmanlık grubuna yayılan on beş olgu, bir kavram kanıtı için yeterlidir; ancak uzmanlık içi alt grup analizi için yeterli değildir. Elli olguya genişletme planlanmıştır ve pıhtılaşma panelleri, hematolojik malignite taraması, gebelik panelleri ve pediatrik başvuruları içerecektir.

Tek seferlik değerlendirme. Her olgu yalnızca bir kez değerlendirildi. Büyük dil modelleri, düşük örnekleme sıcaklığında bile önemsiz olmayan çıktı değişkenliği sergiler; bu nedenle olgu başına beş değerlendirmeyle çoklu çalıştırma protokolü ve bildirilen varyans doğal bir sonraki adımdır.

Tek motor kapsamı. Bu rapor tek bir motoru tanımlar. Burada alternatif yapay zeka sistemlerine karşı karşılaştırmalı analizler kapsam dışıdır; uygun yöntemle bunları ayrı bir bağımsız çalışma olarak sürdürebiliriz.

Tek kaynak veri kökeni. On beş olgu, tek bir klinik depodan alınan anonimleştirilmiş gerçek hasta kayıtlarıdır. Bunlar seçilmiş bir örneği temsil eder ve popülasyon temsili rastgele bir çekim değildir. Değerlendirmeyi çok merkezli verilere genişletmek yol haritasındadır.

Planlanan en etkili genişletme çok dilli eşdeğerliktir. Kantesti Yapay Zeka Motoru, 75+ dilde kullanıcılara hizmet verir ve aynı on beş olguluk test düzeneğini Türkçe, Almanca, İspanyolca, Fransızca ve Arapça ile çalıştırmak, motorun desteklediği diller genelinde çıktı kalitesini nicel olarak ölçecektir. Her dil için yapılan çalışmayı, kendi DOI’si ve test düzeneği dalıyla birlikte yayımlayacağız.

99.12% Bileşik Skoru Elde Eden Aynı Motoru Deneyin

Kendi kan tahlili panelinizi, bu kıyaslamada değerlendirilen aynı üretim uç noktasına yükleyin. Dünya genelinde 2 milyondan fazla kullanıcı, 75+ dilinde 15.000’den fazla biyobelirteci yorumlamak için Kantesti Yapay Zeka Motorunu kullanır.

🔬 Ücretsiz Demoyu Deneyin

Chrome Uzantısı App Store Google Play

📚 Bu Kıyaslama Nasıl Atıf Yapılır

BibTeX

@techreport{klein2026kantesti,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {Kantesti Yapay Zeka Motorunun Klinik Doğrulaması (2.78T) 15 Anonimleştirilmiş Kan Tahlili Vakasında: Yedi Tıbbi Uzmanlık Alanı Kapsayan, Hiper-diagnostik Tuzak Vakalarını İçeren Önceden Kaydedilmiş Rubrik Tabanlı Bir Kıyaslama},  
  institution = {Kantesti Ltd},  
  address     = {Londra, Birleşik Krallık},  
  year        = {2026},  
  month       = {Nisan},  
  type        = {Teknik Rapor},  
  number      = {V11},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti Yapay Zeka Motorunun Klinik Doğrulaması (2.78T) 15 Anonimleştirilmiş Kan Tahlili Vakasında: Yedi Tıbbi Uzmanlık Alanı Kapsayan, Hiper-diagnostik Tuzak Vakalarını İçeren Önceden Kaydedilmiş Rubrik Tabanlı Bir Kıyaslama (Teknik Rapor V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 İlgili Kantesti Doğrulama Çalışmaları

Klein, T. (2025). Yapay Zeka Destekli Kan Testi Yorumlaması için Klinik Doğrulama Çerçevesi: Üçlü Kör Doğrulama Metodolojisi, Performans Ölçütleri ve Kalite Güvence Protokolleri. Kantesti Yapay Zekâ Tıbbi Araştırma.

🎓 ResearchGate

📖 Harici Metodolojik Referanslar

Mentzer, W. C. (1973). Demir Eksikliğini Talasemi Taşıyıcılığından Ayırt Etme. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Sistemik Eritematoz Lupus için 2019 Avrupa Romatizma Birliği / Amerikan Romatoloji Koleji Sınıflandırma Kriterleri. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Büyük Dil Modelleri için Tıbbi Alan Halüsinasyon Testi. CoNLL 2023 Bildirileri.

🔗 ACL Anthology

99.12%Bileşik Puan

15Puanlanan Vaka Sayısı

7Uzmanlık Alanları

0Tuzak Yanlış Pozitifleri

Sıkça Sorulan Sorular

Gerçek kan tahlili vakalarında Kantesti yapay zeka motoru ne kadar doğru?

Yedi tıbbi uzmanlık alanı boyunca gerçek hastalardan anonimleştirilmiş 15 kan tahlili vakasına ilişkin önceden kaydedilmiş bir rubrik üzerinde, Kantesti Yapay Zeka Motoru V11 bileşik olarak ,12’lik bir puan elde etti; tuzak vakalarında hiper-diagnostik yanlış pozitifler sıfırdı ve ortalama yanıt gecikmesi 20,17 saniyeydi. Tam vaka bazlı puan kartı, DOI 10.6084/m9.figshare.32095435 altında Figshare’da ve MIT lisansı ile GitHub’da yayımlanmıştır.

Kantesti yapay zeka motoru klinik olarak doğrulandı mı?

Evet. Motor, çalıştırılmadan önce kaynak koddaki bir rubrik ile klinik olarak doğrulanmıştır; hematoloji, endokrinoloji, metabolik tıp, hepatoloji, nefroloji, kardiyoloji ve romatoloji alanlarında 15 anonimleştirilmiş kan testi vakası üzerinde değerlendirilmiştir. Klinik gözetim, Kantesti AI’da yönetim kurulu onaylı klinik hematolog ve Baş Tıbbi Sorumlu olan Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321) tarafından sağlanmıştır.

Hiper-diagnostik tuzak vakası nedir?

Hiper-diagnostik tuzak vakası, yapay zeka motorlarında aşırı tanı koyma davranışını tespit etmek için özellikle tasarlanmış bir klinik senaryodur. Kantesti V11 kıyaslaması bu tür iki vakayı kullanır. Birincisi, hepatit veya hemoliz ile değil, doğru yorumun zararsız UGT1A1 polimorfizmi olduğu Gilbert sendromu ile uyumlu izole indirekt hiperbilirubinemidir. İkincisi ise tamamen normal bir erişkin tarama panelidir; doğru çıktı, üretilmiş sınırda bir patoloji yerine güvence ve yaşam tarzı sürdürmedir.

Kantesti yapay zeka motoru değerlendirmesi tekrarlanabilir mi?

Tam değerlendirme altyapısı, MIT lisansı altında tek bir bağımsız Python modülü olarak yayımlanmıştır. Yeniden üretim için yalnızca bir Kantesti API kimlik bilgisi çifti ve Python 3.10 veya üzeri gerekir. Kod, vaka tanımları ve Nisan 2026 referans çalıştırmasından gelen her ham motor yanıtı github.com/emirhanai/kantesti-blood-test-benchmark adresinde bulunur ve Figshare, ResearchGate ve Academia.edu’da aynalanmıştır.

Kantesti yapay zeka motoru demir eksikliğini beta-talasemi taşıyıcılığından nasıl ayırt eder?

Motor, ortalama eritrosit hacminin (MCV) kırmızı kan hücresi sayısına bölünmesiyle hesaplanan Mentzer indeksini uygular. Mentzer indeksi 13’ün üzerindeyse demir eksikliği anemisini destekler; 13’ün altındaysa beta-talasemi taşıyıcılığını destekler. V11 kıyaslamasında her iki durum da, ferritin, RDW ve HbA2 bağlamı ile desteklenen açık Mentzer indeksi hesaplamasıyla doğru sınıflandırılmıştır.

Ham karşılaştırma (benchmark) verilerini ve kaynak kodunu nerede bulabilirim?

Teknik rapor, DOI 10.6084/m9.figshare altında Figshare’a yüklenmiştir; ResearchGate yayın 404175463 ve Academia.edu makalesi 165956808 üzerinde aynalanmıştır ve tüm referans çalıştırma sonuçlarıyla birlikte MIT lisanslı Python altyapısı github.com/emirhanai/kantesti-blood-test-benchmark adresindedir. Dört platformlu aynalama ağı, uzun vadeli erişilebilirlik ve atıf esnekliği sağlar.

Yapay zeka tıbbi kıyaslamalarında ön kayıt (pre-registration) neden önemlidir?

Ön kayıt, sonradan (post-hoc) rubrik ayarlamasını engeller; bu, şirket tarafından yürütülen kıyaslamaların kendi sayılarını şişirmesinin en yaygın tek yoludur. Rubriği herhangi bir motor çağrısından önce kaynak koda taahhüt edip altyapıyı kamuya açık şekilde yayımlayarak, rubrik yazarının tarihleri sürüm kontrolünde incelenebilir hale gelir ve motor sonuçları puanlama ölçütlerini şekillendiremez.

Bu kıyaslama başka yapay zeka motorlarıyla karşılaştırma içeriyor mu?

Hayır. V11 raporu, onu alternatif ticari sistemlere konumlandırmak yerine, sabit bir rubrik karşısında tek bir motoru özellikle tanımlamak üzere tasarlanmıştır. Altyapı MIT lisansı altında açık kaynaktır; böylece bağımsız araştırmacılar, seçtikleri herhangi bir motoru aynı on beş vaka ve rubrikle değerlendirebilir ve sonuçlarını yayımlayabilir.

Hasta vakaları gerçek mi sentetik mi?

On beş vaka, yazılı bilgilendirilmiş onam kapsamında Kantesti klinik veri deposundan alınmış anonimleştirilmiş gerçek hasta kayıtlarıdır. Kimlikten arındırma, Safe Harbor yaklaşımıyla yapılmış; tüm doğrudan tanımlayıcılar kaldırılmış veya değiştirilmiştir. İşleme, GDPR Madde 9(2)(j) ve eşdeğer Birleşik Krallık GDPR hükümleri uyarınca gerçekleştirilmiştir. Yayımlanan altyapıda, teknik raporda veya yayımlanan veri setlerinde kişisel olarak tanımlayıcı bilgi yer almaz.

⚕️ Tıbbi Uyarı & Çıkar Çatışması

Bu kıyaslama raporu, araştırma ve yöntemsel şeffaflık amaçları içindir. Tıbbi tavsiye niteliği taşımaz. Tanı ve tedavi kararları için her zaman yetkin bir sağlık hizmeti sağlayıcısına danışın. Her iki yazar da Kantesti Ltd’te çalışmaktadır ve şirkette pay sahibidir; değerlendirilen motor ise aynı kuruluşun ticari bir ürünüdür. Bu çıkar çatışması, rubriğin kaynak koda önceden kaydedilmesi, altyapının MIT lisansı altında yayımlanması ve her bir ham motor yanıtının yayımlanmasıyla azaltılmıştır.

E-E-A-T Güven Sinyalleri

⭐

Deneyim

Vaka paneli seçiminin denetlenmesi için 15+ yıl klinik hematoloji ve laboratuvar tıbbı uygulaması.

📋

Uzmanlık

Açık hiper-diagnostik cezalar içeren ve tanınan klinik puanlama sistemleriyle (Mentzer, FIB-4, EULAR/ACR, KDIGO) uyumlu ön kayıtlı rubrik tasarımı.

👤

Otorite

Baş yazar Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Uygulama: Kantesti Ltd CEO’su Julian Emirhan Bulut.

🛡️

Güvenilirlik

MIT lisanslı yeniden üretilebilir altyapı, yayımlanmış ham motor yanıtları, açık çıkar çatışması bildirimi, dört platformlu araştırma aynalama ağı.

🏢 Kantesti LTD İngiltere ve Galler’de kayıtlı · Şirket No. 17090423 Londra, Birleşik Krallık · kantesti.net