معيار تحليل الدم بالذكاء الاصطناعي Kantesti

التحقق السريري معيار مُسجَّل مسبقًا تحديث V11 الثاني — أبريل 2026 مرخّص من MIT قابل للتحقق من قِبل الأقران مجموعة 100K · 127 دولة

درجة مركبة 99.80% على Rubric مُسجَّل مسبقًا — تحديث V11 الثاني، مجموعة من 100,000 حالة عبر 127 دولة

تقييم سريري قائم على Rubric مُسجَّل مسبقًا لمحرك الذكاء الاصطناعي Kantesti على 100,000 حالة حقيقية من تحاليل الدم لمرضى تم إخفاء هويتهم، مأخوذة من مستودع سريري مدعوم بـ SQL ويغطي 127 دولة. تم تجميد الـ Rubric في كود المصدر قبل الإصدار الأولي لـ V11 وتم الحفاظ عليه مطابقًا للبايتات لهذا التحديث الثاني؛ أداة التقييم مرخّصة من MIT؛ وتم نشر عينة عشوائية مُقسَّمة طبقيًا من الاستجابات الخام للمحرك للفحص.

📖 ~14 دقيقة 📅 نُشر في 23 أبريل 2026 · تم التحديث في 26 أبريل 2026 (تحديث V11 الثاني) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 نُشر: 23 أبريل 2026 🔄 تحديث V11 الثاني: 26 أبريل 2026 🩺 تمت المراجعة طبيًا بواسطة: 26 أبريل 2026 ✅ Rubric مُسجَّل مسبقًا (مطابق للبايتات) 🔓 كود وبيانات مفتوحة

قادَت هذه الدراسة السريرية للتحقق الدكتور توماس كلاين، طبيب, ، مديرًا طبيًا تنفيذيًا في Kantesti AI، بالتعاون مع جوليان أميرهان بولوت, ، مهندس ذكاء اصطناعي كبير والرئيس التنفيذي لـ Kantesti Ltd. تمت مراجعة المنهجية والـ Rubric بواسطة المجلس الاستشاري الطبي لشركة كانتيستي للذكاء الاصطناعي.

المؤلف الرئيسي والإشراف السريري

توماس كلاين، طبيب

كبير المسؤولين الطبيين، شركة كانتيستي للذكاء الاصطناعي

الدكتور توماس كلاين هو طبيب أمراض دم سريري معتمد من مجلس الاختصاصات، وأخصائي باطنة، يتمتع بخبرة تزيد عن 15 عامًا في طب المختبرات. بصفته مديرًا طبيًا تنفيذيًا في Kantesti AI، اختار لوحة الحالات لهذا المعيار، وراجع جميع الحقائق التشخيصية الأساسية، واعتمد الـ Rubric المُسجَّل مسبقًا قبل أول استدعاء للمحرك.

ORCID 0009-0009-1490-1321 ResearchGate جوجل سكولار

المؤلف المشارك & التنفيذ

جوليان أميرهان بولوت

مهندس ذكاء اصطناعي كبير & الرئيس التنفيذي، Kantesti Ltd

جوليان أميرهان بولوت هو مؤسس ومدير تنفيذي لـ Kantesti Ltd. صمّم ونفّذ أداة التقييم — بما في ذلك مُحمّل حالات SQL المُضاف لتحديث V11 الثاني — وأجرى تكامل واجهة برمجة التطبيقات، وقام بتنفيذ كلٍّ من التشغيل المرجعي الأولي لـ V11 وتشغيل مجموعة 100,000 حالة لتحديث V11 الثاني، كما أعدّ التجميع الإحصائي. مؤسس المنصة منذ 2019.

GitHub نبذة عن كانتستي

⚡ ملخص سريع تحديث V11 الثاني — 26 أبريل 2026

درجة مركبة 99.80% على 100,000 حالة حقيقية لتحاليل الدم لمرضى تم إخفاء هويتهم عبر ثماني تخصصات طبية و127 دولة (تحديث V11 الثاني).
لا توجد إيجابيات كاذبة لفرط التشخيص عبر 87,412 فرصة راية “trap-case” تمت مراقبتها — نفس منهجية “trap-case” كما في التشغيل الأولي لـ V11، مع توسيع على مستوى السكان.
معيار مُسجَّل مسبقًا تم تجميده في كود المصدر قبل التشغيل الأولي لـ V11 وتم الحفاظ عليه مطابقًا للبايتات لهذا التحديث الثاني — لم يكن ممكنًا إجراء ضبط لاحق (post-hoc).
تم تطبيق مؤشر منتزر بشكل صحيح للتمييز بين فقر الدم الناجم عن نقص الحديد والأنيميا الثلاسيمية الصغرى بيتا في الإصدار الأولي لـ V11؛ وتم الحفاظ على السلوك التفريقي على مستوى السكان.
نقطة نهاية الإنتاج فقط — بدون توجيه مميّز، وتم تقييمه تمامًا كما سيصل إليه عميل يدفع.
متوسط زمن استجابة 13.26 ثانية من طرف إلى طرف (النطاق 9.0–16.94 ثانية)، مع اكتمال جميع الحالات الـ 100,000 على المسار الأساسي للمحرك.
مجموعة مدعومة بـ SQL. تم تحميل الحالات أثناء التشغيل عبر استعلام مُعلَّم (parameterised) للقراءة فقط مقابل المستودع السريري لـ Kantesti — مع إخفاء الهوية ضمن Safe Harbor ووفقًا للمادة 9(2)(j) من اللائحة العامة لحماية البيانات (GDPR).
أداة اختبار برخصة MIT تم إتاحته على GitHub مع عينة عشوائية مُقسَّمة طبقيًا (n = 201) من الاستجابات الخام الكاملة للمحرك للفحص.
DOI على Figshare: 10.6084/m9.figshare.32095435 · مُنعكسة على ResearchGate وAcademia.edu وGitHub.

لماذا يوجد هذا المعيار وما الذي يختبره

يُستخدم تفسير تحليل الدم بالذكاء الاصطناعي بمساعدة الذكاء الاصطناعي بشكل متزايد في سير العمل الاستهلاكي والسريري، ومع ذلك تظل أطر التقييم القابلة لإعادة الإنتاج والمصممة لطب المختبرات غير شائعة. إن الأسئلة الأكثر أهمية في هذا السياق ليست تلك التي يغطيها معيار عام للإجابة عن الأسئلة الطبية: هل يمكن للمحرك فصل نقص الحديد عن سِمة الثلاسيميا عندما يكون حجم الكريات الحمراء المتوسط متطابقًا، وهل يفرط في تشخيص متلازمة جيلبرت على أنها التهاب كبد، وهل يصنع مرضًا في لوحة فحص طبيعية بالكامل؟

عادةً ما يحتوي لوح تحليل دم واحد على إشارة كافية لدعم عدة تفسيرات متنافسة، ومهمة الطبيب/الاختصاصي الذي يفسّر النتائج هي موازنة تلك التفسيرات فيما بينها بدلًا من استرجاع إجابة من كتاب مدرسي. يمكن لمحرك يتفوّق في الحالات المدرسية أن يفشل في الحالات الأكثر أهمية: فخاخ التشخيص التفريقي، والاختلافات الحميدة التي تبدو مقلقة عند النظر إليها بمعزل، ولوحات التحليل الطبيعية بالكامل التي تُغري المساعدين الواثقين بتصنيع اعتلالات مرضية.

بُني هذا المعيار تحديدًا حول أنماط الفشل تلك. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية محددة: نقص الحديد مع صِغَر الكريات (microcytosis) يجب الحفاظ على تمييزه عن سِمة بيتا-ثالاسيميا (beta-thalassaemia) ذات متوسط حجم كروي متطابق، وظهور متلازمة جيلبرت حيث الشذوذ الوحيد هو فرط بيليروبين غير مباشر معزول، ولوح فحص من خمسة عشر معاملًا تكون فيه كل مادة محلَّلة ضمن مجالها المرجعي. يكافئ السلم/الروبرك المحركات التي تقرأ كل حالة وفق شروطها الخاصة ويُعاقب المحركات التي تتجه إلى تشخيص واثق حيث لا يكون مثل هذا التشخيص مبررًا.

بصفتي توماس كلاين، دكتوراه في الطب (MD)، اخترت مجموعة الحالات لأن هذه هي الأنماط التي أراها مساعدي طب المختبر يخطئون فيها أكثر من غيرها. نمط الفشل المكلف ليس "تفويت مرض نادر" — بل هو اختلاق اعتلالات مرضية روتينية لدى مرضى لا يعانون منها. ملكنا التحقق الطبي يصف hub الإطار الأوسع؛ وتشرح هذه الصفحة إثبات المفهوم الأولي لـ V11 وتحديث V11 الثاني الذي قام بتوسيعه إلى 100,000 حالة مجهولة المصدر مستمدة من مستودع سريري مدعوم بـ SQL يمتد عبر 127 دولة — باستخدام نفس الروبرك للتقييم، مطابق للبايت، مع عدم السماح بأي تعديل بعد التنفيذ.

أحدث تشغيل مرجعي — V11 Second Update (26 أبريل 2026)

أنتج تشغيل V11 Second Update المرجعي بتاريخ 26 أبريل 2026 درجة مركبة قدرها 99.80% على نفس الروبرك المُسجَّل مسبقًا المستخدم في الإصدار الأولي لـ V11، وتم تقييمه على 100,000 حالة مجهولة المصدر مستمدة من مستودع Kantesti السريري المدعوم بـ SQL وتمتد عبر 127 دولة و75+ لغات. اكتملت كل حالة على المسار الأساسي الرئيسي للمحرك؛ ظلت عمليات تفعيل راية فرط التشخيص في حالات الفخ عند 0 / 87,412. غطى تشغيل V11 الأصلي بتاريخ 23 أبريل 2026 15 حالة تم اختيارها يدويًا (درجة مركبة 99.12%) وجرّب الروبرك؛ ويحافظ التحديث الثاني على هذا الروبرك مطابقًا للبايت ويُوسّع التقييم إلى نطاق مجموعة سكانية.

مركب 99.80% 100,000 من 100,000 حالة حصلت على درجة

1.000 الدرجة البنيوية

0.996 الدرجة السريرية

13.26 s متوسط زمن الاستجابة

0 / 87,412 فخاخ الإيجابيات الكاذبة

تجمع معادلة المركب بين ثلاثة مكوّنات: المطابقة البنيوية مع أقسام التقرير الإلزامية السبعة وضمّات/فرعيات إلزامية ست عشرة،, الدقة السريرية ويُقاس ذلك عبر استرجاع الكلمات المفتاحية (keyword recall) بالإضافة إلى استرجاع نظام التقييم (scoring-system recall) مع التحقق من صحة توزيع الاحتمالات، و زمن الاستجابة مقابل هدف مستوى الخدمة للخدمة على المسار الأساسي. يُعرض التفصيل الدقيق في صيغة الروبرك أدناه — لم يتم تعديل أي من هذه الأوزان أو الروبركات الفرعية في التحديث الثاني.

المركب = 0.35 × البنيوي + 0.55 × السريري + 0.10 × زمن التأخير

يتفكك الجزء المتبقي البالغ 0.20 نقطة مئوية من هامش التحسن تقريبًا بالكامل إلى الدرجة الفرعية السريرية — فقد كانت هناك نسبة صغيرة من الحالات (بشكل أساسي في أمراض الكبد وطب الروماتيزم) تفتقد كلمة مفتاحية واحدة متوقعة من نظام التقييم في تفسير المحرك، رغم أن المحتوى التشخيصي كان صحيحًا. لم تفوّت أي حالة في مجموعة 100,000 حالة في تحديث V11 الثاني التشخيص نفسه. تحسنت زمنية الاستجابة من متوسط 20.17 s في الإصدار الأولي لـ V11 إلى 13.26 s في التحديث الثاني، بما يعكس تحسينات محرك الإنتاج بين التشغيلين؛ الروبرك، وكود التقييم، ونقطة نهاية واجهة برمجة التطبيقات دون تغيير.

تراوحت الدرجات المركبة حسب البلد من 0.9971 (الهند) إلى 0.9985 (سويسرا) عبر أكثر 30 دولة تمثيلًا. لم تُظهر الذيل الطويل لـ 97 دولة إضافية (≈7,300 حالة مجتمعة) أي تدهور منهجي. كان أبرز المساهمين حسب عدد الحالات: الولايات المتحدة (10,500)، البرازيل (9,500)، إسبانيا (9,000)، إيطاليا (8,000)، ألمانيا (7,800)، فرنسا (7,400)، البرتغال (5,800)، Türkiye (3,400)، المملكة المتحدة (2,900)، والمكسيك (2,500).

من 15 حالة إلى 100,000: تطور المجموعة عبر 127 دولة

غطى لوح حالات V11 الأصلي سبع تخصصات — أمراض الدم، الغدد الصماء، الطب الاستقلابي، أمراض الكبد، طب الكلى، طب القلب، طب الروماتيزم — بالإضافة إلى حالتي فخ مخصصتين لفرط التشخيص، وكانت كل حالة عبارة عن سجل مريض حقيقي مجهول المصدر مستمد من مستودع البيانات السريرية Kantesti بموجب موافقة مستنيرة مكتوبة. يوسّع تحديث V11 Second Update التقييم إلى 100,000 حالة مجهولة المصدر عبر 127 دولة, ، موزعة على ثمانية تخصصات (السبعة الأصلية بالإضافة إلى دلو مخصص للطب الباطني الداخلي يستوعب مجموعة الفخ). يُطبَّق نفس الروبرك للتقييم مطابقًا للبايت عبر كلا التشغيلين.

تم إجراء إزالة التعريفات وفق نهج الملاذ الآمن: تمت إزالة جميع المعرفات المباشرة أو استبدالها، وتم تعيين كل سجل برمز حالة داخلي مرجعي في صيغة BT-NNN-LABEL (V11 initial) أو معرف حالة مجهول مستقر case_uid لتحديث Second Update. تم تنفيذ المعالجة وفقًا لـ المادة 9(2)(j) من اللائحة العامة لحماية البيانات (GDPR) لأغراض البحث العلمي مع وجود ضمانات مناسبة، وبما يعادل أحكام المملكة المتحدة الخاصة بـ GDPR. لا تظهر أي معلومات شخصية مُعرِّفة في أي مكان ضمن المنظومة المنشورة أو التقرير التقني أو مجموعات البيانات المُفرج عنها.

الإصدار الأولي لـ V11 — 15 حالة تم اختيارها يدويًا

تم اختيار لوحة الحالات الأصلية V11 يدويًا بواسطة الدكتور توماس كلاين لتدريب أنماط التشخيص التي يخطئ فيها مساعدو الطبّ المخبري في أغلب الأحيان. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية محددة، كما هو مذكور أدناه.

أمراض الدم (3) BT-001، BT-006، BT-007 فقر الدم بسبب نقص الحديد · نقص فيتامين B12 · بيتا-ثالاسيميا قاصر

الغدد الصماء (3) BT-002، BT-008، BT-012 التهاب الغدة الدرقية المناعي الذاتي (هاشيموتو) · متلازمة تكيس المبايض مع مقاومة الإنسولين · نقص شديد فيتامين د

الأيض (2) BT-003، BT-013 داء السكري من النوع الثاني مع متلازمة أيضية · فرط حمض يوريك مع خطر النقرس

أمراض الكبد (2) BT-004، BT-009 الكبد الدهني غير الكحولي / التهاب الكبد الدهني غير الكحولي (NASH) · التهاب كبدي فيروسي حاد

طب الكلى · طب القلب · طب الروماتيزم (3) BT-005، BT-010، BT-011 مرض الكلى المزمن المرحلة 3 · ديسليبيديميا مولِّدة لتصلب الشرايين · الذئبة الحمامية الجهازية

حالات الفخ (2) BT-014، BT-015 متلازمة جيلبرت (فرط بيليروبين غير مباشر معزول) · فحص للبالغين طبيعي بالكامل

لماذا تم اختيار هذا التوزيع تحديدًا

تخصصات أمراض الدم تحصل على ثلاث حالات لأن التفريعات متناهية الصغر (microcytic) ومتناهية الكِبر (macrocytic) تمثل أعلى فخاخ من حيث الحجم في الممارسة المختبرية الواقعية. تخصصات الغدد تحصل على ثلاث حالات لأن العروض السريرية لمرض هاشيموتو وPCOS ونقص فيتامين د تمارس أشكالًا تشخيصية مختلفة (مدفوعة بالأجسام المضادة، مدفوعة بنسبة الهرمونات، ومدفوعة بعلامة واحدة). أما تخصصات الحالة الواحدة فلا تزال ذات معنى لأن كلًا من CKD وخطر ASCVD وSLE لديها نظامها الخاص للتقييم الذي يجب على المحرك استدعاؤه (على التوالي: مراحل KDIGO، وخطر ASCVD لمدة 10 سنوات، ومعايير 2019 EULAR/ACR لـ SLE).

تحديث V11 الثاني — 100,000 حالة مجهولة الهوية عبر 127 دولة

يستبدل التحديث الثاني حرفية بايثون الأصلية V11 المبرمجة مسبقًا المكوّنة من 15 حالة باستعلام SQL مُعَلَّمَ المعلمات، للقراءة فقط، مقابل مستودع Kantesti السريري (anonymised_blood_panels). يقوم الاستعلام بتصفية consent_research = 1 AND released_for_benchmark = 1 ويتم طباعته في أعلى كل تشغيل معياري من أجل الشفافية. يوضح توزيع المجموعة حسب التخصص أدناه.

الغدد الصماء 23,900 حالة (23.9%) الغدة الدرقية، متلازمة تكيس المبايض (PCOS)، نقص فيتامين د، محور الغدد التناسلية، الغدة النخامية

الطبّ الاستقلابي 21,900 حالة (21.9%) داء السكري من النوع الثاني (T2DM)، المتلازمة الاستقلابية، لوحات الدهون، فرط حمض يوريك الدم

أمراض الدم 15,400 حالة (15.4%) الفروقات بين نقص كريات الدم الصغري والكبرية، B12/حمض الفوليك، دراسات الحديد

طب الكبد 12,400 حالة (12.4%) اعتلال دهني كبدي غير كحولي (NAFLD)/التهاب كبدي دهني غير كحولي (NASH)، التهاب كبدي فيروسي، FIB-4، ركود صفراوي

الطبّ الباطني (بما في ذلك مجموعة فرعية من المصائد) 9,000 حالات (9.0%) عروض مختلطة و8,723 حالة مخصصة لمصائد فرط التشخيص

طب القلب 7,500 حالات (7.5%) مخاطر ASCVD، خلل دهني مُسبب للتصلب العصيدي، hs-CRP

أمراض الروماتيزم 6,000 حالات (6.0%) الذئبة الحمراء الجهازية (SLE)، التهاب المفاصل الروماتويدي (RA)، التهاب الأوعية، لوحات الأجسام المضادة الذاتية (معايير EULAR/ACR)

طب الكلى 4,000 حالات (4.0%) تحديد مراحل مرض الكلى المزمن (KDIGO)، اتجاهات eGFR، اضطراب الشوارد

التوزيع الجغرافي — أفضل 10 دول

يمتد.تجميع العينة عبر 127 دولة (ISO 3166-1 alpha-2). تساهم أوروبا بنسبة 57.7%، والأمريكتان بنسبة 25.4%، وآسيا-المحيط الهادئ بنسبة 6.2%، وتُسجَّل إدخالات الشرق الأوسط/أفريقيا بنسبة 3.4%، مع ذيل طويل من 97 دولة إضافية تبلغ مجتمعةً نحو 7.3%. أكبر 10 مساهمين هم: الولايات المتحدة (10,500)، والبرازيل (9,500)، وإسبانيا (9,000)، وإيطاليا (8,000)، وألمانيا (7,800)، وفرنسا (7,400)، والبرتغال (5,800)، وTürkiye (3,400)، والمملكة المتحدة (2,900)، والمكسيك (2,500). تراوحت الدرجات المركبة لكل دولة بين 0.9971 (الهند) و0.9985 (سويسرا).

شرح الـ Rubric المُسجَّل مسبقًا

التسجيل المسبق هو الاختيار المنهجي الأهم في هذا المعيار. تم الالتزام بكل تشخيص متوقع، وبكل نظام تقييم سريري، وبكل قسم من أقسام التقرير ضمن كود المصدر قبل استدعاء المحرك قبل استدعاء المحرك. لذلك لا يمكن إجراء ضبط لاحق للمعيار لإرضاء المحرك.

يتكون الدرجة المركبة من ثلاثة مكونات. المكوّن البنيوي يساهم بنسبة 35% ويقيس ما إذا كان المحرك قد أرجع الأقسام السبعة الإلزامية للتقرير (الترويسة، الملخص، أبرز النتائج، التفريق التشخيصي، أنظمة التقييم، التوصيات، المتابعة) والـ16 قسمًا فرعيًا إلزاميًا ضمنها. وزن وجود القسم يساوي 40% ووزن وجود القسم الفرعي يساوي 60% ضمن الحساب البنيوي.

ال المكوّن السريري يساهم بنسبة 55% ويجمع بين ثلاثة أشياء: استرجاع الكلمات المفتاحية للتشخيص (70% من الدرجة الفرعية السريرية)، واسترجاع نظام التقييم (20% — هل يحسب المحرك Mentzer وFIB-4 وHOMA-IR وخطر ASCVD ومراحل KDIGO ومعايير EULAR/ACR عند الاقتضاء)، وفحص صحة مجموع الاحتمالات (10% — يجب أن تتجمع احتمالات التفريق ضمن الفاصل [90, 110]). في حالات الفخ، يتم طرح عقوبة صريحة لفرط التشخيص تصل إلى 0.30، محسوبة بمقدار 0.10 لكل علامة مرض مُصطنعة، مع سقف ثلاث علامات.

ال مكوّن زمن الاستجابة يساهم بنسبة 10%. الاستجابة خلال أقل من 20 ثانية تحصل على الدرجة الكاملة 0.10، والاستجابة خلال أقل من 40 ثانية تحصل على 0.05، وأي شيء أبطأ يحصل على صفر. يعكس هدف 20 ثانية هدف خدمة الإنتاج الأساسي؛ ويعكس سقف 40 ثانية ميزانية النسخة الاحتياطية في المرحلة 2 لاستدعاءات المحرك الثقيلة.

ما الذي يمنعه التسجيل المسبق

تشتهر المعايير التي يضعها أصحابها (من طرف أول) بتضخيم أرقامها عبر ضبط المعيار لاحقًا. النمط يكاد يكون دائمًا هو نفسه: الفريق يشغّل المحرك، يرى أين يتراجع الأداء، ثم يعدّل المعيار بهدوء بحيث تُحسب مناطق ضعف الأداء بدرجة أقل. وبحصر المعيار في كود المصدر قبل أول استدعاء للمحرك ونشر الاختبار تحت رخصة MIT، يصبح هذا التعديل ظاهرًا في التحكم بالإصدارات. يمكن لأي شخص استنساخ المستودع والتحقق من تواريخ تأليف المعيار، والتأكد من عدم استخدام نتائج المحرك لتشكيل عملية التقييم.

حالات فخّ فرط التشخيص — لماذا يُعدّ الإفراط في الاستدعاء هو وضع الفشل الحقيقي

الإفراط في إطلاق تشخيصات مرضية على فحوصات طبيعية هو نمط فشل موثق لدى المساعدات الطبية الموجهة للمستهلكين. تشمل تكاليفه اللاحقة إجراء تحقيقات غير ضرورية، وقلق المريض، وإعدادًا علاجيًا مُحدثًا (iatrogenic). تم تصميم حالتي الفخ في هذا المعيار لجعل هذا الفشل ظاهرًا وقابلًا للتقييم.

🟡 الفخ 1 — BT-014-GILBERT

العرض. رجل عمره 24 عامًا مع إجمالي بيليروبين قدره 2.4 ملغ/دل. الجزء المباشر طبيعي، والإنزيمات ناقلة الأمين والفوسفاتاز القلوي ضمن نطاقات المرجع، والخلايا الشبكية غير لافتة، ويستبعد الهبتوغلوبين وLDH حدوث انحلال الدم.

التفسير الصحيح. متلازمة جيلبرت — تعدد أشكال حميد في UGT1A1. يجب ألا يستدعي التفسير التهاب كبد أو تليفًا أو فقر دم انحلاليًا أو انسدادًا صفراويًا.

نتيجة V11. المركب 1.000. لم تظهر أي من إشارات الإفراط في التشخيص الست المراقبة كتشخيصات نشطة.

🟡 الفخ 2 — BT-015-HEALTHY

العرض. امرأة تبلغ من العمر 35 عامًا مع لوحة فحص روتينية مكوّنة من خمسة عشر مؤشرًا. كل تحليل يقع بشكل مريح داخل نطاقه المرجعي.

التفسير الصحيح. طمأنة والحفاظ على نمط حياة صحي. يجب ألا يقوم التفسير باختلاق اعتلالات حدودية لجعل النتيجة تبدو مفيدة سريريًا.

نتيجة V11. مركّب 1.000. لم تظهر أي من إشارات الإفراط في التشخيص السبعة التي تمت مراقبتها — السكري، فقر الدم، قصور الغدة الدرقية، اضطرابات الدهون، التهاب الكبد، مرض الكلى، النقص — كتشخيصات نشطة.

عبر كلتا مجموعتي الفحص، تم التحقق من ثلاث عشرة إشارة فرط تشخيص تمت مراقبتها. لم يتم تفعيل أي منها. هذه هي النتيجة الأهم لأي طبيب يفكر في استخدام محرك ذكاء اصطناعي كأداة فرز أو ما قبل الاستشارة: لم يقم النظام باختراع مرض حيث لا يوجد مرض.

مؤشر منتزر: فصل نقص الحديد عن سِمة الثلاسيميا

اكتشاف عالي القيمة ثانٍ يتعلق بربط الحالة BT-001 (فقر الدم بسبب نقص الحديد) بالحالة BT-007 (الثلاسيميا بيتا الصغرى). كلاهما يظهر مع صِغر حجم الكريات (microcytosis) ويُعد عائقًا معروفًا أمام المصنّفات الساذجة. يتجاوز مؤشر منتزر، المحسوب على أنه MCV مقسومًا على عدد كريات الدم الحمراء (RBC)، 13 في نقص الحديد وينخفض تحت 13 في سِمة الثلاسيميا.

في BT-001، كانت المريضة امرأة تبلغ 34 عامًا مع هيموغلوبين 10.4 g/dL، وMCV 72.4 fL، وRBC 4.1 × 10¹²/L، وفيريتين 6 ng/mL، وارتفاع TIBC. يدعم مؤشر منتزر البالغ تقريبًا 17.7 نقص الحديد المطلق. في BT-007، كان المريض رجلًا يبلغ 28 عامًا مع صِغر حجم الكريات (MCV 65.8 fL) لكن مع ارتفاع عدد RBC إلى 6.2، وRDW طبيعي، وفيريتين طبيعي، وHbA2 قدره 5.6 بالمئة. يشير مؤشر منتزر البالغ تقريبًا 10.6 إلى سِمة الثلاسيميا، ويؤكد ارتفاع HbA2 الثلاسيميا بيتا الصغرى.

فقر الدم بسبب نقص الحديد منتزر > 13 فيريتين منخفض، TSAT منخفض، TIBC مرتفع، RDW مرتفع

سِمة الثلاسيميا بيتا منتزر < 13 فيريتين طبيعي، RDW طبيعي، HbA2 مرتفع (>3.5%)، عدد RBC مرتفع

حصلت الحالتان على درجة 1.000. استدعى المحرك مؤشر منتزر صراحةً في كلتا عمليتي التفسير وأعاد التشخيص الصحيح في كل مرة. هذه هي النتيجة الأكثر طمأنة سريريًا في كامل الاختبار المرجعي, ، لأن تصنيف سِمة الثلاسيميا على أنها نقص الحديد يؤدي إلى إعطاء مكملات حديد غير مناسبة وفرص تفويت فحص أفراد العائلة، ولأن تصنيف نقص الحديد على أنه ثلاسيميا يؤخر العلاج التعويضي البسيط. إن لنطاق الفيريتين يشرح السياق التفريقي الأوسع.

النتائج لكل حالة من التشغيل المرجعي الأول لـ V11 (23 أبريل 2026)

يشكل التشغيل المرجعي الأصلي لـ V11 ضمن تجميعة إثبات المفهوم المكوّنة من 15 حالة الأساس المنهجي للتحديث الثاني: تُوضح كل التفاصيل الخاصة بكل حالة أدناه كيف يتعامل السلم/الروبرك مع استجابة حقيقية من محرك. حققت 12 من أصل 15 حالة الدرجة المركبة القصوى 1.000 على المسار الأساسي؛ وتمت خدمة ثلاث حالات عبر آلية التعويض في المرحلة 2، مع فقدان مكافأة زمن الوصول 0.05 مع الحفاظ على كامل المحتوى السريري والبنيوي. كانت حالة واحدة ناقصة في قسم فرعي إجباري واحد؛ وأعاد أحدها مجموع توزيع احتمالات مُخفَّضًا بشكل طفيف.

رقم الحالة التخصص مركب زمن الاستجابة المسار

BT-001-IDAأمراض الدم1.00017.8 ثأساسي

BT-006-B12أمراض الدم1.00018.4 ثانيةأساسي

BT-007-ثلاسيمياأمراض الدم1.00017.0 ثانيةأساسي

BT-002-هاشالغدد الصماء0.95037.0 ثانيةالرجوع إلى الإعداد الافتراضي

BT-008-تكيس المبايضالغدد الصماء0.98718.6 ثانيةأساسي

BT-003-السكري من النوع الثانيالأيض1.00019.1 ثانيةأساسي

BT-013-النقرسالأيض1.00019.4 ثانيةأساسي

BT-004-الكبد الدهني غير الكحوليطب الكبد1.00019.6 ثانيةأساسي

BT-009-التهاب الكبد الفيروسيطب الكبد0.95023.4 ثانيةالرجوع إلى الإعداد الافتراضي

BT-014-غيلبرتمصيدة1.00018.9 ثانيةأساسي

BT-005-مرض الكلى المزمنطب الكلى1.00017.4 ثانيةأساسي

BT-010-الاعتلال القلبي الوعائي المرتبط بتصلب الشرايينطب القلب1.00019.7 ثانيةأساسي

BT-011-SLEأمراض الروماتيزم0.98118.2 ثانيةأساسي

BT-012-VITDالغدد الصماء1.00019.3 ثانيةأساسي

BT-015-HEALTHYمصيدة1.00018.7 ثانيةالرجوع إلى الإعداد الافتراضي

حالة تكيس المبايض (BT-008) فقدت بندًا فرعيًا إلزاميًا واحدًا في بنية الاستجابة — خمسة عشر من ستة عشر بدلًا من ستة عشر من ستة عشر — مما خفّض الدرجة البنيوية من 1.000 إلى 0.963. أما حالة SLE (BT-011) فقد أعادت مجموعًا لاحتمالات موزعة بشكل مخفّض بشكل طفيف انخفضت معه الدرجة السريرية إلى 0.965 مع الحفاظ على كل الكلمات التشخيصية ونظام التقييم. لم تفوّت أي من الحالتين غير المثالية تشخيصًا صحيحًا.

تجميع V11 التحديث الثاني — 100,000 حالة

على نطاق المجتمع، لا تكون صفوف كل حالة قابلة للقراءة من قِبل البشر، لذا يبلّغ التحديث الثاني عن المقاييس المجمعة بدلًا من جدول من 100,000 صف. تُعرض النتيجة المجمعة الرئيسية أدناه؛ وتُنشر التفصيلات حسب التخصص وحسب الدولة في التقرير التقني وإيداع Figshare. يتم نشر عينة عشوائية مُطبَّقة طبقيًا من n = 201 استجابات المحرك الخام (بذرة حتمية 20260426) في دليل GitHub results/ للفحص.

الدرجة المركبة V11 الأولي: 0.9912 (99.12%) → التحديث الثاني: 0.9980 (99.80%) Δ = +0.0068 عبر تجميعة 100,000 حالة

الدرجة البنيوية (المتوسط) V11 الأولي: 0.998 → التحديث الثاني: 1.000 تطابق بنيوي مثالي على نطاق المجتمع

الدرجة السريرية (المتوسط) V11 الأولي: 0.998 → التحديث الثاني: 0.996 −0.002؛ لم تفُت أي حالة التشخيص نفسه

زمن الاستجابة — المتوسط (النطاق) التحديث الأول لـ V11: 20.17 ثانية (17.0–37.0 ثانية) → التحديث الثاني: 13.26 ثانية (9.0–16.94 ثانية) تحسينات محرك الإنتاج بين مرات التشغيل

مسار المحرك = الأساسي التحديث الأول لـ V11: 12 / 15 → التحديث الثاني: 100,000 / 100,000 لم تكن هناك حاجة إلى الرجوع إلى المرحلة 2 في أي نقطة أثناء التشغيل

إشارات فرط التشخيص لمجموعة فرعية من المصائد التحديث الأول لـ V11: 0 / 13 → التحديث الثاني: 0 / 87,412 لا توجد نتائج إيجابية كاذبة على نطاق المجتمع (تمت مراقبة 8,723 حالة مصيدة)

ما الذي لا تخبرنا به الدرجة الرئيسية

تمثل درجة مركبة قدرها 99.80 بالمئة ضمن هذا المعيار المُسجَّل مسبقًا تحديدًا، على مجموعة مجهولة الهوية من 100,000 حالة تمتد عبر 127 دولة، أداءً قريبًا من الحد الأعلى — لكنها تستحق تأطيرًا دقيقًا. يصف هذا النتيجة سلوك المحرك مقابل المعيار الذي التزمنا بمصدر الشيفرة في V11؛ ولا تمثل ادعاءً عامًا بصحة المحرك في كل لوحة blood test موجودة في الواقع.

تقول الدرجة إن المحرك تعامل مع أنماط التشخيص التي تم اختيارها لهذا التقييم بشكل صحيح عبر مجموعة على نطاق المجتمع، باستخدام منهجية منشورة وقابلة لإعادة الإنتاج. لا تقول إن المحرك صحيح في كل لوحة blood test موجودة في الواقع. ولا تقول إن المحرك ينبغي أن يحل محل حكم الطبيب. ولا تقول إن المحرك يتفوق على أنظمة ذكاء اصطناعي بديلة — إذ كانت التحليلات المقارنة مع محركات أخرى خارج نطاق هذا التقرير عمدًا.

ما تثبته الدرجة هو خط أساس. وبما أن المعيار والهيكل (harness) متاحان للعامة، يمكن تقييم الإصدارات المستقبلية من المحرك مقابل المعيار نفسه — المطبق على حالات التحديث الأول لـ V11 البالغ عددها 15 حالة، أو مجموعة التحديث الثاني البالغ عددها 100,000 حالة، أو أي توسع لاحق — والفجوة بين الدرجة المنشورة وأي تشغيل لاحق قابلة للقياس بحد ذاتها. وتتمثل قيمة التسجيل المسبق في: إذ يحوّل ادعاءات الأداء إلى ادعاءات قابلة للاختبار.

كيفية إعادة إنتاج هذا المعيار في 10 دقائق

تتطلب إعادة الإنتاج فقط زوج بيانات اعتماد Kantesti API وبيئة Python 3.10 أو أحدث مع requests و reportlab مكتبات مثبتة. تتألف البيئة التجريبية الكاملة من وحدة Python واحدة مستقلة بذاتها ومُصدرة تحت ترخيص MIT.

💻 GitHub بيئة تجريبية مرخّصة من MIT · استجابات خام · تشغيل مرجعي 🔗 DOI على Figshare 10.6084/m9.figshare.32095435 · سجل أكاديمي مرجعي 🎓 ResearchGate النشر 404175463 · V11 التحديث الثاني · طبقة اكتشاف أكاديمية 📄 Academia.edu الورقة 165956808 · V11 التحديث الثاني · طبقة اكتشاف أكاديمية

أربع خطوات لتشغيل جديد

أولًا. استنسخ المستودع: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. اثنان. ثبّت التبعيات باستخدام pip install -r requirements.txt (يضيف التحديث الثاني mysql-connector-python ≥ 8.0 لِمُحمِّل حالات SQL). ثلاثة. اضبط KANTESTI_USERNAME و KANTESTI_PASSWORD كمتغيرات بيئية لواجهة برمجة تطبيقات المحرك. ولِمُحمِّل حالات SQL في التحديث الثاني، اضبط أيضًا KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، و KANTESTI_DB_PASSWORD — يقوم المُحمِّل بالاتصال عبر دور للقراءة فقط (bench_reader) لا يملك أي صلاحيات لتحديد الجداول. أربعة. شغّل python benchmark_bloodtest.py --limit 100000 لعملية التشغيل الكاملة Second-Update، أو python benchmark_bloodtest.py --limit 1000 للتكرار السريع. يتم حفظ المخرجات في ./benchmark_results/: لوحة معلومات CSV بأعمدة لكل بلد ولكل تخصص، وتجميع JSON، وعينة خام من الاستجابات العشوائية المُقسَّمة طبقيًا، وتقرير Markdown.

يتم الاحتفاظ بنتائج التشغيل المرجعية من 23 أبريل 2026 (V11 الأولي، 15 حالة) ومن 26 أبريل 2026 (V11 Second Update، 100,000 حالة) في results/ دليل المستودع. سيُنتج التشغيل الجديد لوحة معلومات جديدة مُؤرَّخة بطابع زمني مع ترك نتائج التشغيل المرجعية دون تغيير. إذا أسفر تشغيلك عن نتيجة مختلفة بشكل جوهري، يُرجى فتح issue على GitHub مع طابع زمن التشغيل وإصدار المحرّك المُعاد في بيانات الاستجابة الوصفية (metadata).

القيود والعمل المستقبلي

حتى مع 100,000 حالة عبر 127 دولة، توجد أربع قيود تستحق إقرارًا صريحًا: نقص تمثيل الدول ذات الذيل الطويل، والتقييم مرة واحدة، ونطاق محرّك واحد، ومصدر بيانات واحد. تتم معالجة كل منها ضمن أعمال متابعة جارية.

تغطية الدول ذات الذيل الطويل. تمتد Second Update على 127 دولة، لكن التوزيع غير متوازن — إذ تمثل أفضل 10 مساهمين حوالي 66.4% من الحالات، ويساهم الذيل الطويل المكوَّن من 97 دولة إضافية معًا بحوالي 7.3% (بما يقارب 7,300 حالة إجمالًا، ~75 حالة لكل دولة في المتوسط). لذلك تكون المركبات الخاصة بكل بلد في هذا الذيل الطويل أكثر ضجيجًا مما توحي به الأرقام الرئيسية. ستقوم عمليات التشغيل المستقبلية بالتجنيد بشكل تفضيلي من الدول الأقل تمثيلًا لتثبيت تقديرات كل اختصاص/ولاية قضائية.

التقييم بنقرة واحدة. تم تقييم كل حالة في المجموعة مرة واحدة. تُظهر نماذج اللغات الكبيرة تباينًا غير تافه في المخرجات حتى عند درجة حرارة أخذ عينات منخفضة، لذا فإن بروتوكول متعدد التشغيلات مع خمس تقييمات لكل حالة والإبلاغ عن التباين يُعد خطوة طبيعية تالية — خصوصًا على مجموعة الحالات الفخّية (trap-case subset)، حيث تُعد الاتساق تحت اهتزاز أخذ العينات جزءًا من ادعاء السلامة.

نطاق محرك واحد. يصف هذا التقرير محرّكًا واحدًا. التحليلات المقارنة مقابل أنظمة ذكاء اصطناعي بديلة خارج نطاق هذا التقرير؛ وقد نتابعها كدراسة مستقلة منفصلة باستخدام منهجية مناسبة، وبالاستناد إلى نفس إطار العمل المرخّص من MIT.

أصل مصدر البيانات من جهة واحدة. تم إخفاء هوية 100,000 حالة وهي سجلات حقيقية لمرضى مأخوذة من مستودع سريري واحد (مستودع بيانات سريرية مدعوم بـ Kantesti SQL). تمثل هذه الحالات تدفقًا إنتاجيًا مُنسَّقًا وليست سحبًا عشوائيًا ممثلًا للسكان على المستوى العالمي. إن توسيع التقييم ليشمل بيانات متعددة المراكز مُستقاة خارجيًا موجود على خريطة الطريق.

بالإضافة إلى هذه الأربع، فإن أكثر امتداد مخطط تأثيرًا هو تكافؤ متعدد اللغات لكل اختصاص/ولاية قضائية. يخدم محرّك Kantesti AI المستخدمين في 75+ لغة، وسيؤدي تشغيل مجموعات فرعية من Second-Update مُقسَّمة حسب اللغة (التركية، الألمانية، الإسبانية، الفرنسية، الإيطالية، البرتغالية، العربية، الماندارين) إلى قياس جودة المخرجات عبر اللغات المدعومة من المحرّك. سيتم نشر كل تحليل مُقسَّم حسب اللغة مع DOI خاص به وفرع إطار العمل (harness branch).

جرّب نفس المحرّك الذي حقق درجة مركبة 99.80% على 100,000 حالة

ارفع لوحة تحليل الدم الخاصة بك إلى نقطة النهاية الخاصة بالإنتاج نفسها التي تم تقييمها في هذا المعيار. يستخدم أكثر من 2 مليون مستخدم حول العالم محرّك الذكاء الاصطناعي Kantesti لتفسير أكثر من 15,000 مؤشّر حيوي عبر 75+ لغة.

🔬 جرب النسخة التجريبية المجانية

إضافة كروم متجر التطبيقات متجر جوجل بلاي

📚 كيفية الاستشهاد بهذا المعيار

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {التحقق السريري من محرّك Kantesti AI (2.78T) (2.78T) على 100,000 حالة تحليل دم مُخفاة الهوية عبر 127 دولة: معيار مُسجَّل مسبقًا قائم على Rubric، على نطاق السكان، بما في ذلك حالات الفخّ ذات التشخيص المفرط --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}

APA

Klein, T., & Bulut, J. E. (2026). التحقق السريري من محرّك Kantesti AI (2.78T) على 100,000 حالة تحليل دم مُخفاة الهوية عبر 127 دولة: معيار مُسجَّل مسبقًا قائم على Rubric، على نطاق السكان، بما في ذلك حالات الفخّ ذات التشخيص المفرط — V11 Second Update (التقرير الفني V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 أعمال التحقق ذات الصلة من Kantesti

Klein, T. (2025). إطار التحقق السريري لتفسير اختبارات الدم المدعوم بالذكاء الاصطناعي: منهجية التحقق الثلاثي التعمية، ومؤشرات الأداء، وبروتوكولات ضمان الجودة. Kantesti أبحاث طبية بالذكاء الاصطناعي.

🎓 ResearchGate

📖 مراجع منهجية خارجية

Mentzer, W. C. (1973). التمييز بين نقص الحديد وسمّة الثلاسيميا. The Lancet, 301(7808), 882.

🏥 ببميد

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). معايير تصنيف 2019 للرابطة الأوروبية لمكافحة الروماتيزم / الكلية الأمريكية لأمراض الروماتيزم لمرض الذئبة الحمامية الجهازية. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 ببميد

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: اختبار هلوسة المجال الطبي لاختبارات نماذج اللغات الكبيرة. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%الدرجة المركّبة

100,000الحالات التي تم تقييمها

127الدول المغطاة

0 / 87,412الإيجابيات الكاذبة للفخّ

الأسئلة الشائعة

ما مدى دقة محرك الذكاء الاصطناعي Kantesti في الحالات الفعلية لتحليل الدم؟

على Rubric مُسجَّل مسبقًا يتضمن 100,000 حالة تحليل دم حقيقية مُخفاة الهوية عبر ثمانية تخصصات طبية و127 دولة (V11 Second Update)، حقق محرّك Kantesti AI درجة مركبة قدرها 99.80 بالمئة، مع عدم وجود حالات إيجابية كاذبة للتشخيص المفرط (hyperdiagnosis false-positives) عبر 87,412 فرصة رصد لحالات الفخّ، ومتوسط زمن استجابة بلغ 13.26 ثانية. قام إصدار V11 الأصلي بالتحقق من نفس Rubric على 15 حالة تم اختيارها يدويًا (درجة مركبة 99.12%)؛ ويحافظ Second Update على Rubric مطابقًا للبايت (byte-identical) ويُوسّع التقييم ليشمل مجموعة على نطاق السكان. تم نشر لوحة الدرجات الكاملة لكل تخصص ولكل دولة على Figshare تحت DOI 10.6084/m9.figshare.32095435 وعلى GitHub تحت رخصة MIT.

هل تم التحقق سريريًا من محرك الذكاء الاصطناعي Kantesti؟

نعم. تم التحقق سريريًا من دقة المحرك مقابل معيار تقييم (rubric) تم تجميده في كود المصدر قبل التشغيل الأولي لـ V11، وتم الحفاظ عليه مطابقًا للبايت (byte-identical) في تحديث V11 الثاني، مع تقييمه على 100,000 حالة من تحاليل الدم مجهولة الهوية عبر تخصصات أمراض الدم، والغدد الصماء، والطب الاستقلابي، وأمراض الكبد، وأمراض الكلى، وأمراض القلب، والروماتيزم، والطب الباطني، مأخوذة من 127 دولة. تم توفير الإشراف السريري بواسطة الدكتور توماس كلاين، دكتوراه في الطب (ORCID 0009-0009-1490-1321)، وهو اختصاصي أمراض دم معتمد من مجلس الإدارة (board-certified) والمدير الطبي الرئيسي في Kantesti AI.

ما هي حالة فخ التشخيص المفرط؟

تُعد حالة فخّ فرط التشخيص (hyperdiagnosis trap) سيناريوًا سريريًا مُصممًا خصيصًا لاكتشاف سلوك الإفراط في التشخيص داخل محركات الذكاء الاصطناعي. استخدم معيار V11 الأولي حالتين من هذا النوع كدليل منهجي على المفهوم: حالة واحدة من فرط بيليروبين غير مباشر معزول ومتوافق مع متلازمة جيلبرت (حيث يكون التفسير الصحيح هو تعدد أشكال UGT1A1 الحميد وليس التهاب الكبد أو انحلال الدم) ولوحة فحص للبالغين طبيعية بالكامل (حيث يكون الإخراج الصحيح هو الطمأنة وليس مرضًا حدوديًا مُصطنعًا). قام تحديث V11 الثاني بتوسيع منهجية فخّ الحالة إلى مجموعة فرعية مخصصة من 8,723 حالة، مما أسفر عن 87,412 فرصة تم رصدها لعلامات فرط التشخيص — وظل معدل الإيجابيات الكاذبة للمحرك عند الصفر.

هل يمكن إعادة إنتاج تقييم محرك الذكاء الاصطناعي Kantesti؟

تم إصدار بيئة التقييم الكاملة بموجب ترخيص MIT كملف Python واحد مستقل. يتطلب التشغيل الأولي لـ V11 زوج بيانات اعتماد API من Kantesti فقط وPython 3.10 أو أحدث. يضيف تحديث V11 الثاني مُحمّل حالات SQL للقراءة فقط مع معاملات (parameterised)، ويتطلب بيانات اعتماد من مستودع Kantesti السريري (a bench_reader دور بدون صلاحيات لتحديد الجداول). الكود، وSQL الخاص بمُحمّل الحالات، والمعيار (rubric) (مطابق للبايت بين الإصدارات)، وعينة عشوائية مُقسّمة (stratified) من الاستجابات الخام للمحرك من كل من تشغيل V11 الأولي وتشغيل المرجع للتحديث الثاني متاحة على github.com/emirhanai/kantesti-blood-test-benchmark ومُنعكسة (mirrored) أيضًا على Figshare وResearchGate وAcademia.edu.

كيف يميّز محرك الذكاء الاصطناعي Kantesti بين نقص الحديد وسمّة بيتا-ثالاسيميا؟

يطبق المحرك مؤشر منتزر (Mentzer index)، المحسوب على أنه متوسط حجم الكرية (mean corpuscular volume) مقسومًا على عدد كريات الدم الحمراء. يدعم مؤشر منتزر أعلى من 13 فقر الدم بسبب نقص الحديد، بينما يدعم قيمة أقل من 13 سمة بيتا-ثالاسيميا. في معيار V11 الأولي، تم تصنيف العرضين بشكل صحيح مع حساب صريح لمؤشر منتزر، مدعومًا بسياق الفيريتين (ferritin) وRDW وHbA2. عبر مجموعة الحالات البالغ عددها 100,000 في تحديث V11 الثاني، تم الحفاظ على السلوك التفريقي نفسه على مستوى السكان.

أين يمكنني العثور على بيانات المعايير الخام والشفرة المصدرية؟

تم إيداع التقرير الفني على Figshare تحت DOI 10.6084/m9.figshare.32095435 (يغطي كلًا من الإصدار الأولي لـ V11 وتحديث V11 الثاني)، ومُنعكس على ResearchGate (منشور 404175463) وعلى Academia.edu (ورقة 165956808) — وكلاهما مُحدّث بعنوان تحديث V11 الثاني ونتائج مجموعة 100,000 حالة — كما أن بيئة Python المرخصة بموجب MIT مع جميع نتائج التشغيل المرجعي متاحة على github.com/emirhanai/kantesti-blood-test-benchmark. يضمن تكرار الشبكة عبر أربع منصات توفرًا طويل الأمد ومرونة في الاستشهادات.

لماذا تُعدّ “التسجيل المسبق” مهمًا لمعايير الذكاء الاصطناعي الطبية؟

يمنع التسجيل المسبق ضبط Rubric بعد وقوع الحدث (post-hoc rubric tuning)، وهو الطريقة الأكثر شيوعًا التي تقوم بها الشركات التي تدير المعايير بتضخيم أرقامها الخاصة. من خلال الالتزام بتثبيت Rubric في كود المصدر قبل أي استدعاء للمحرك ونشر الأداة علنًا، تصبح تواريخ مؤلف الـRubric قابلة للفحص في نظام التحكم بالإصدارات، ولا يمكن أن تكون نتائج المحرك قد شكّلت معايير التقييم.

هل يتضمن هذا المعيار مقارنات مع محركات ذكاء اصطناعي أخرى؟

لا. يصف تقرير V11 — سواء الإصدار الأولي أو التحديث الثاني — عمدًا محركًا واحدًا مقابل معيار تقييم ثابت (fixed rubric) بدلًا من وضعه في مواجهة أنظمة تجارية بديلة. بيئة الاختبار (harness) مفتوحة المصدر بموجب ترخيص MIT (وتشمل الآن مُحمّل حالات SQL)، لذا يمكن للباحثين المستقلين تقييم أي محرك يختارونه مقابل المعيار نفسه ومُحمّل الحالات نفسه ونشر نتائجهم.

هل حالات المرضى حقيقية أم مُصطنعة؟

جميع الحالات مجهولة الهوية وهي سجلات حقيقية لمرضى تم سحبها من مستودع البيانات السريرية Kantesti بموجب موافقة مستنيرة مكتوبة — 15 حالة تم اختيارها يدويًا بعناية في الإصدار الأولي لـ V11 و100,000 حالة في تحديث V11 الثاني، وكلها مأخوذة من المستودع نفسه المدعوم بـ SQL والمجهول. تم إجراء إزالة التعريفات (de-identification) وفق نهج الملاذ الآمن (Safe Harbor)، مع إزالة جميع المعرفات المباشرة أو استبدالها وقت الكتابة. يتصل مُحمّل معيار التحديث الثاني عبر دور للقراءة فقط (bench_reader) لا يملك صلاحيات لتحديد الجداول — ويتم فرض ذلك على مستوى قاعدة البيانات. تم تنفيذ المعالجة وفقًا للمادة 9(2)(j) من اللائحة العامة لحماية البيانات (GDPR) والأحكام المكافئة في UK GDPR. لا تظهر أي معلومات شخصية مُعرِّفة في بيئة الاختبار المنشورة أو في التقرير الفني أو في مجموعات البيانات المُفرج عنها.

⚕️ إخلاء مسؤولية طبي & تضارب مصالح

هذا التقرير الخاص بالمعيار مخصص لأغراض البحث والشفافية المنهجية. لا يشكل نصيحة طبية. استشر دائمًا مقدم رعاية صحية مؤهلًا لاتخاذ قرارات التشخيص والعلاج. يعمل كلا المؤلفين لدى Kantesti Ltd ويمتلكان حصصًا/أسهمًا فيها، كما أن المحرك قيد التقييم هو منتج تجاري لنفس المنظمة. يتم التخفيف من تضارب المصالح هذا عبر تسجيل Rubric مسبقًا في كود المصدر، وإصدار الأداة بموجب رخصة MIT، ونشر كل استجابة خام من المحرك.

إشارات الثقة E-E-A-T

⭐

خبرة

خبرة سريرية لمدة 15+ عامًا في أمراض الدم المخبرية والطب المخبري، مع الإشراف على اختيار لوحة الحالات.

📋

خبرة

تصميم Rubric مُسجَّل مسبقًا مع عقوبات صريحة لفرط التشخيص وأنظمة تقييم سريرية معترف بها (Mentzer، FIB-4، EULAR/ACR، KDIGO).

👤

السلطة

المؤلف الرئيسي الدكتور Thomas Klein، دكتوراه في الطب (ORCID 0009-0009-1490-1321). التنفيذ بواسطة Julian Emirhan Bulut، الرئيس التنفيذي (CEO) لـ Kantesti Ltd.

🛡️

الجدارة بالثقة

أداة قابلة لإعادة الإنتاج بموجب رخصة MIT، ونشر استجابات المحرك الخام، وإفصاح مفتوح عن تضارب المصالح، وشبكة مرايا بحث عبر أربع منصات.

🏢 شركة كانتيستي المحدودة مسجل في إنجلترا وويلز · رقم الشركة. 17090423 لندن، المملكة المتحدة · كانتستي.نت