لماذا يوجد هذا المعيار وما الذي يختبره

يُستخدم تفسير تحليل الدم بالذكاء الاصطناعي بمساعدة الذكاء الاصطناعي بشكل متزايد في سير العمل الاستهلاكي والسريري، ومع ذلك تظل أطر التقييم القابلة لإعادة الإنتاج والمصممة لطب المختبرات غير شائعة. إن الأسئلة الأكثر أهمية في هذا السياق ليست تلك التي يغطيها معيار عام للإجابة عن الأسئلة الطبية: هل يمكن للمحرك فصل نقص الحديد عن سِمة الثلاسيميا عندما يكون حجم الكريات الحمراء المتوسط متطابقًا، وهل يفرط في تشخيص متلازمة جيلبرت على أنها التهاب كبد، وهل يصنع مرضًا في لوحة فحص طبيعية بالكامل؟

مخطط تدفق المعيار المُسجل مسبقًا يوضح كيفية تقييم محرك Kantesti للذكاء الاصطناعي — تحديث V11 الثاني، درجة 99.80% على 100,000 حالة — مقابل معايير التقييم المجمدة
الشكل 1: البنية المرجعية للهندسة المعمارية الكامنة وراء درجة مركبة 99.80% في تحديث V11 الثاني — مجموعة تضم 100,000 حالة؛ كل حالة، كل كلمة مفتاحية، كل نظام ترميز ثابت في كود المصدر قبل أن يرى المحرك أي ملف PDF، والروبرك مطابق للنسخة الأولى من V11 من حيث التطابق على مستوى البايت. تعديل الروبرك بعد التنفيذ غير ممكن بحكم التصميم.

عادةً ما يحتوي لوح تحليل دم واحد على إشارة كافية لدعم عدة تفسيرات متنافسة، ومهمة الطبيب/الاختصاصي الذي يفسّر النتائج هي موازنة تلك التفسيرات فيما بينها بدلًا من استرجاع إجابة من كتاب مدرسي. يمكن لمحرك يتفوّق في الحالات المدرسية أن يفشل في الحالات الأكثر أهمية: فخاخ التشخيص التفريقي، والاختلافات الحميدة التي تبدو مقلقة عند النظر إليها بمعزل، ولوحات التحليل الطبيعية بالكامل التي تُغري المساعدين الواثقين بتصنيع اعتلالات مرضية.

بُني هذا المعيار تحديدًا حول أنماط الفشل تلك. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية محددة: نقص الحديد مع صِغَر الكريات (microcytosis) يجب الحفاظ على تمييزه عن سِمة بيتا-ثالاسيميا (beta-thalassaemia) ذات متوسط حجم كروي متطابق، وظهور متلازمة جيلبرت حيث الشذوذ الوحيد هو فرط بيليروبين غير مباشر معزول، ولوح فحص من خمسة عشر معاملًا تكون فيه كل مادة محلَّلة ضمن مجالها المرجعي. يكافئ السلم/الروبرك المحركات التي تقرأ كل حالة وفق شروطها الخاصة ويُعاقب المحركات التي تتجه إلى تشخيص واثق حيث لا يكون مثل هذا التشخيص مبررًا.

بصفتي توماس كلاين، دكتوراه في الطب (MD)، اخترت مجموعة الحالات لأن هذه هي الأنماط التي أراها مساعدي طب المختبر يخطئون فيها أكثر من غيرها. نمط الفشل المكلف ليس "تفويت مرض نادر" — بل هو اختلاق اعتلالات مرضية روتينية لدى مرضى لا يعانون منها. ملكنا التحقق الطبي يصف hub الإطار الأوسع؛ وتشرح هذه الصفحة إثبات المفهوم الأولي لـ V11 وتحديث V11 الثاني الذي قام بتوسيعه إلى 100,000 حالة مجهولة المصدر مستمدة من مستودع سريري مدعوم بـ SQL يمتد عبر 127 دولة — باستخدام نفس الروبرك للتقييم، مطابق للبايت، مع عدم السماح بأي تعديل بعد التنفيذ.

أحدث تشغيل مرجعي — V11 Second Update (26 أبريل 2026)

أنتج تشغيل V11 Second Update المرجعي بتاريخ 26 أبريل 2026 درجة مركبة قدرها 99.80% على نفس الروبرك المُسجَّل مسبقًا المستخدم في الإصدار الأولي لـ V11، وتم تقييمه على 100,000 حالة مجهولة المصدر مستمدة من مستودع Kantesti السريري المدعوم بـ SQL وتمتد عبر 127 دولة و75+ لغات. اكتملت كل حالة على المسار الأساسي الرئيسي للمحرك؛ ظلت عمليات تفعيل راية فرط التشخيص في حالات الفخ عند 0 / 87,412. غطى تشغيل V11 الأصلي بتاريخ 23 أبريل 2026 15 حالة تم اختيارها يدويًا (درجة مركبة 99.12%) وجرّب الروبرك؛ ويحافظ التحديث الثاني على هذا الروبرك مطابقًا للبايت ويُوسّع التقييم إلى نطاق مجموعة سكانية.

مركب 99.80% 100,000 من 100,000 حالة حصلت على درجة
1.000 الدرجة البنيوية
0.996 الدرجة السريرية
13.26 s متوسط زمن الاستجابة
0 / 87,412 فخاخ الإيجابيات الكاذبة

تجمع معادلة المركب بين ثلاثة مكوّنات: المطابقة البنيوية مع أقسام التقرير الإلزامية السبعة وضمّات/فرعيات إلزامية ست عشرة،, الدقة السريرية ويُقاس ذلك عبر استرجاع الكلمات المفتاحية (keyword recall) بالإضافة إلى استرجاع نظام التقييم (scoring-system recall) مع التحقق من صحة توزيع الاحتمالات، و زمن الاستجابة مقابل هدف مستوى الخدمة للخدمة على المسار الأساسي. يُعرض التفصيل الدقيق في صيغة الروبرك أدناه — لم يتم تعديل أي من هذه الأوزان أو الروبركات الفرعية في التحديث الثاني.

المركب = 0.35 × البنيوي + 0.55 × السريري + 0.10 × زمن التأخير

يتفكك الجزء المتبقي البالغ 0.20 نقطة مئوية من هامش التحسن تقريبًا بالكامل إلى الدرجة الفرعية السريرية — فقد كانت هناك نسبة صغيرة من الحالات (بشكل أساسي في أمراض الكبد وطب الروماتيزم) تفتقد كلمة مفتاحية واحدة متوقعة من نظام التقييم في تفسير المحرك، رغم أن المحتوى التشخيصي كان صحيحًا. لم تفوّت أي حالة في مجموعة 100,000 حالة في تحديث V11 الثاني التشخيص نفسه. تحسنت زمنية الاستجابة من متوسط 20.17 s في الإصدار الأولي لـ V11 إلى 13.26 s في التحديث الثاني، بما يعكس تحسينات محرك الإنتاج بين التشغيلين؛ الروبرك، وكود التقييم، ونقطة نهاية واجهة برمجة التطبيقات دون تغيير.

تراوحت الدرجات المركبة حسب البلد من 0.9971 (الهند) إلى 0.9985 (سويسرا) عبر أكثر 30 دولة تمثيلًا. لم تُظهر الذيل الطويل لـ 97 دولة إضافية (≈7,300 حالة مجتمعة) أي تدهور منهجي. كان أبرز المساهمين حسب عدد الحالات: الولايات المتحدة (10,500)، البرازيل (9,500)، إسبانيا (9,000)، إيطاليا (8,000)، ألمانيا (7,800)، فرنسا (7,400)، البرتغال (5,800)، Türkiye (3,400)، المملكة المتحدة (2,900)، والمكسيك (2,500).

من 15 حالة إلى 100,000: تطور المجموعة عبر 127 دولة

غطى لوح حالات V11 الأصلي سبع تخصصات — أمراض الدم، الغدد الصماء، الطب الاستقلابي، أمراض الكبد، طب الكلى، طب القلب، طب الروماتيزم — بالإضافة إلى حالتي فخ مخصصتين لفرط التشخيص، وكانت كل حالة عبارة عن سجل مريض حقيقي مجهول المصدر مستمد من مستودع البيانات السريرية Kantesti بموجب موافقة مستنيرة مكتوبة. يوسّع تحديث V11 Second Update التقييم إلى 100,000 حالة مجهولة المصدر عبر 127 دولة, ، موزعة على ثمانية تخصصات (السبعة الأصلية بالإضافة إلى دلو مخصص للطب الباطني الداخلي يستوعب مجموعة الفخ). يُطبَّق نفس الروبرك للتقييم مطابقًا للبايت عبر كلا التشغيلين.

تصميم لوحة الحالات في V11 الأولي — خمس عشرة حالة مجهولة الهوية لتحليل الدم عبر سبع تخصصات طبية بالإضافة إلى حالتي فخّ فرط التشخيص؛ حقق المعيار نفسه درجة 99.80% على 100,000 حالة في تحديث V11 الثاني
الشكل 2: تصميم لوح الحالات في V11 الأولي عبر أمراض الدم، الغدد الصماء، الطب الاستقلابي، أمراض الكبد، طب الكلى، طب القلب، طب الروماتيزم، بالإضافة إلى حالتي فخ — متلازمة جيلبرت ولوح فحص طبيعي بالكامل. يحافظ التحديث الثاني على هذا الروبرك مطابقًا للبايت مع توسيع المجموعة إلى 100,000 حالة مستمدة من مستودع Kantesti SQL.

تم إجراء إزالة التعريفات وفق نهج الملاذ الآمن: تمت إزالة جميع المعرفات المباشرة أو استبدالها، وتم تعيين كل سجل برمز حالة داخلي مرجعي في صيغة BT-NNN-LABEL (V11 initial) أو معرف حالة مجهول مستقر case_uid لتحديث Second Update. تم تنفيذ المعالجة وفقًا لـ المادة 9(2)(j) من اللائحة العامة لحماية البيانات (GDPR) لأغراض البحث العلمي مع وجود ضمانات مناسبة، وبما يعادل أحكام المملكة المتحدة الخاصة بـ GDPR. لا تظهر أي معلومات شخصية مُعرِّفة في أي مكان ضمن المنظومة المنشورة أو التقرير التقني أو مجموعات البيانات المُفرج عنها.

الإصدار الأولي لـ V11 — 15 حالة تم اختيارها يدويًا

تم اختيار لوحة الحالات الأصلية V11 يدويًا بواسطة الدكتور توماس كلاين لتدريب أنماط التشخيص التي يخطئ فيها مساعدو الطبّ المخبري في أغلب الأحيان. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية محددة، كما هو مذكور أدناه.

أمراض الدم (3) BT-001، BT-006، BT-007 فقر الدم بسبب نقص الحديد · نقص فيتامين B12 · بيتا-ثالاسيميا قاصر
الغدد الصماء (3) BT-002، BT-008، BT-012 التهاب الغدة الدرقية المناعي الذاتي (هاشيموتو) · متلازمة تكيس المبايض مع مقاومة الإنسولين · نقص شديد فيتامين د
الأيض (2) BT-003، BT-013 داء السكري من النوع الثاني مع متلازمة أيضية · فرط حمض يوريك مع خطر النقرس
أمراض الكبد (2) BT-004، BT-009 الكبد الدهني غير الكحولي / التهاب الكبد الدهني غير الكحولي (NASH) · التهاب كبدي فيروسي حاد
طب الكلى · طب القلب · طب الروماتيزم (3) BT-005، BT-010، BT-011 مرض الكلى المزمن المرحلة 3 · ديسليبيديميا مولِّدة لتصلب الشرايين · الذئبة الحمامية الجهازية
حالات الفخ (2) BT-014، BT-015 متلازمة جيلبرت (فرط بيليروبين غير مباشر معزول) · فحص للبالغين طبيعي بالكامل

لماذا تم اختيار هذا التوزيع تحديدًا

تخصصات أمراض الدم تحصل على ثلاث حالات لأن التفريعات متناهية الصغر (microcytic) ومتناهية الكِبر (macrocytic) تمثل أعلى فخاخ من حيث الحجم في الممارسة المختبرية الواقعية. تخصصات الغدد تحصل على ثلاث حالات لأن العروض السريرية لمرض هاشيموتو وPCOS ونقص فيتامين د تمارس أشكالًا تشخيصية مختلفة (مدفوعة بالأجسام المضادة، مدفوعة بنسبة الهرمونات، ومدفوعة بعلامة واحدة). أما تخصصات الحالة الواحدة فلا تزال ذات معنى لأن كلًا من CKD وخطر ASCVD وSLE لديها نظامها الخاص للتقييم الذي يجب على المحرك استدعاؤه (على التوالي: مراحل KDIGO، وخطر ASCVD لمدة 10 سنوات، ومعايير 2019 EULAR/ACR لـ SLE).

تحديث V11 الثاني — 100,000 حالة مجهولة الهوية عبر 127 دولة

يستبدل التحديث الثاني حرفية بايثون الأصلية V11 المبرمجة مسبقًا المكوّنة من 15 حالة باستعلام SQL مُعَلَّمَ المعلمات، للقراءة فقط، مقابل مستودع Kantesti السريري (anonymised_blood_panels). يقوم الاستعلام بتصفية consent_research = 1 AND released_for_benchmark = 1 ويتم طباعته في أعلى كل تشغيل معياري من أجل الشفافية. يوضح توزيع المجموعة حسب التخصص أدناه.

الغدد الصماء 23,900 حالة (23.9%) الغدة الدرقية، متلازمة تكيس المبايض (PCOS)، نقص فيتامين د، محور الغدد التناسلية، الغدة النخامية
الطبّ الاستقلابي 21,900 حالة (21.9%) داء السكري من النوع الثاني (T2DM)، المتلازمة الاستقلابية، لوحات الدهون، فرط حمض يوريك الدم
أمراض الدم 15,400 حالة (15.4%) الفروقات بين نقص كريات الدم الصغري والكبرية، B12/حمض الفوليك، دراسات الحديد
طب الكبد 12,400 حالة (12.4%) اعتلال دهني كبدي غير كحولي (NAFLD)/التهاب كبدي دهني غير كحولي (NASH)، التهاب كبدي فيروسي، FIB-4، ركود صفراوي
الطبّ الباطني (بما في ذلك مجموعة فرعية من المصائد) 9,000 حالات (9.0%) عروض مختلطة و8,723 حالة مخصصة لمصائد فرط التشخيص
طب القلب 7,500 حالات (7.5%) مخاطر ASCVD، خلل دهني مُسبب للتصلب العصيدي، hs-CRP
أمراض الروماتيزم 6,000 حالات (6.0%) الذئبة الحمراء الجهازية (SLE)، التهاب المفاصل الروماتويدي (RA)، التهاب الأوعية، لوحات الأجسام المضادة الذاتية (معايير EULAR/ACR)
طب الكلى 4,000 حالات (4.0%) تحديد مراحل مرض الكلى المزمن (KDIGO)، اتجاهات eGFR، اضطراب الشوارد

التوزيع الجغرافي — أفضل 10 دول

يمتد.تجميع العينة عبر 127 دولة (ISO 3166-1 alpha-2). تساهم أوروبا بنسبة 57.7%، والأمريكتان بنسبة 25.4%، وآسيا-المحيط الهادئ بنسبة 6.2%، وتُسجَّل إدخالات الشرق الأوسط/أفريقيا بنسبة 3.4%، مع ذيل طويل من 97 دولة إضافية تبلغ مجتمعةً نحو 7.3%. أكبر 10 مساهمين هم: الولايات المتحدة (10,500)، والبرازيل (9,500)، وإسبانيا (9,000)، وإيطاليا (8,000)، وألمانيا (7,800)، وفرنسا (7,400)، والبرتغال (5,800)، وTürkiye (3,400)، والمملكة المتحدة (2,900)، والمكسيك (2,500). تراوحت الدرجات المركبة لكل دولة بين 0.9971 (الهند) و0.9985 (سويسرا).

شرح الـ Rubric المُسجَّل مسبقًا

التسجيل المسبق هو الاختيار المنهجي الأهم في هذا المعيار. تم الالتزام بكل تشخيص متوقع، وبكل نظام تقييم سريري، وبكل قسم من أقسام التقرير ضمن كود المصدر قبل استدعاء المحرك قبل استدعاء المحرك. لذلك لا يمكن إجراء ضبط لاحق للمعيار لإرضاء المحرك.

يتكون الدرجة المركبة من ثلاثة مكونات. المكوّن البنيوي يساهم بنسبة 35% ويقيس ما إذا كان المحرك قد أرجع الأقسام السبعة الإلزامية للتقرير (الترويسة، الملخص، أبرز النتائج، التفريق التشخيصي، أنظمة التقييم، التوصيات، المتابعة) والـ16 قسمًا فرعيًا إلزاميًا ضمنها. وزن وجود القسم يساوي 40% ووزن وجود القسم الفرعي يساوي 60% ضمن الحساب البنيوي.

ال المكوّن السريري يساهم بنسبة 55% ويجمع بين ثلاثة أشياء: استرجاع الكلمات المفتاحية للتشخيص (70% من الدرجة الفرعية السريرية)، واسترجاع نظام التقييم (20% — هل يحسب المحرك Mentzer وFIB-4 وHOMA-IR وخطر ASCVD ومراحل KDIGO ومعايير EULAR/ACR عند الاقتضاء)، وفحص صحة مجموع الاحتمالات (10% — يجب أن تتجمع احتمالات التفريق ضمن الفاصل [90, 110]). في حالات الفخ، يتم طرح عقوبة صريحة لفرط التشخيص تصل إلى 0.30، محسوبة بمقدار 0.10 لكل علامة مرض مُصطنعة، مع سقف ثلاث علامات.

ال مكوّن زمن الاستجابة يساهم بنسبة 10%. الاستجابة خلال أقل من 20 ثانية تحصل على الدرجة الكاملة 0.10، والاستجابة خلال أقل من 40 ثانية تحصل على 0.05، وأي شيء أبطأ يحصل على صفر. يعكس هدف 20 ثانية هدف خدمة الإنتاج الأساسي؛ ويعكس سقف 40 ثانية ميزانية النسخة الاحتياطية في المرحلة 2 لاستدعاءات المحرك الثقيلة.

لقطة شاشة نهائية لبيئة الاختبار المعيارية Kantesti المرخصة بموجب MIT أثناء التشغيل وإصدار الدرجات لكل حالة — نفس البيئة، والآن مدفوعة بـ SQL، أنتجت درجة 99.80% في تشغيل مجموعة 100,000 حالة لتحديث V11 الثاني
الشكل 3: بيئة التشغيل قيد التنفيذ — المحرك نفسه الذي أنتج 99.80% درجة مركبة ضمن تجميعة 100,000 حالة في التحديث V11 الثاني. يتم عرض كل حالة على ملف PDF بحجم A4، ونشرها إلى نقطة نهاية الإنتاج v11، ثم تقييمها مقابل السلم/الروبرك المجمَّد. أضاف التحديث الثاني مُحمِّل حالات SQL مُعَلَّمَ المعلمات؛ ويتم حفظ عينة عشوائية مُطبَّقة طبقيًا من استجابات المحرك الخام (n = 201) إلى جانب بطاقة النتائج المجمعة.

ما الذي يمنعه التسجيل المسبق

تشتهر المعايير التي يضعها أصحابها (من طرف أول) بتضخيم أرقامها عبر ضبط المعيار لاحقًا. النمط يكاد يكون دائمًا هو نفسه: الفريق يشغّل المحرك، يرى أين يتراجع الأداء، ثم يعدّل المعيار بهدوء بحيث تُحسب مناطق ضعف الأداء بدرجة أقل. وبحصر المعيار في كود المصدر قبل أول استدعاء للمحرك ونشر الاختبار تحت رخصة MIT، يصبح هذا التعديل ظاهرًا في التحكم بالإصدارات. يمكن لأي شخص استنساخ المستودع والتحقق من تواريخ تأليف المعيار، والتأكد من عدم استخدام نتائج المحرك لتشكيل عملية التقييم.

حالات فخّ فرط التشخيص — لماذا يُعدّ الإفراط في الاستدعاء هو وضع الفشل الحقيقي

الإفراط في إطلاق تشخيصات مرضية على فحوصات طبيعية هو نمط فشل موثق لدى المساعدات الطبية الموجهة للمستهلكين. تشمل تكاليفه اللاحقة إجراء تحقيقات غير ضرورية، وقلق المريض، وإعدادًا علاجيًا مُحدثًا (iatrogenic). تم تصميم حالتي الفخ في هذا المعيار لجعل هذا الفشل ظاهرًا وقابلًا للتقييم.

مقارنة جنبًا إلى جنب بين ذكاء اصطناعي ساذج يقوم باختلاق التهاب الكبد على لوحة متلازمة جيلبرت وبين محرك Kantesti الذي يحدد بشكل صحيح تعدد أشكال UGT1A1 الحميد — منهجية تم توسيعها لتصل إلى صفر إيجابيات كاذبة عبر 87,412 فرصة لعلامات فخّ فرط التشخيص في معيار V11 Second Update 99.80%
الشكل 4: تصميم حالة الفخ من الإصدار الأول لـ V11 — محرك يوسم بثقة متلازمة جيلبرت كالتهاب كبد، أو يقوم بتصنيع اعتلال مرضي حدودي على شاشة طبيعية بالكامل، يُعاقَب بدلًا من أن يُكافأ على “التصريح” بشكل سريري. تم توسيع هذه المنهجية إلى 0 / 87,412 الإيجابيات الكاذبة عبر تشغيل تجميعة 100,000 حالة في التحديث V11 الثاني الذي أنتج درجة 99.80% المركبة.

🟡 الفخ 1 — BT-014-GILBERT

العرض. رجل عمره 24 عامًا مع إجمالي بيليروبين قدره 2.4 ملغ/دل. الجزء المباشر طبيعي، والإنزيمات ناقلة الأمين والفوسفاتاز القلوي ضمن نطاقات المرجع، والخلايا الشبكية غير لافتة، ويستبعد الهبتوغلوبين وLDH حدوث انحلال الدم.

التفسير الصحيح. متلازمة جيلبرت — تعدد أشكال حميد في UGT1A1. يجب ألا يستدعي التفسير التهاب كبد أو تليفًا أو فقر دم انحلاليًا أو انسدادًا صفراويًا.

نتيجة V11. المركب 1.000. لم تظهر أي من إشارات الإفراط في التشخيص الست المراقبة كتشخيصات نشطة.

🟡 الفخ 2 — BT-015-HEALTHY

العرض. امرأة تبلغ من العمر 35 عامًا مع لوحة فحص روتينية مكوّنة من خمسة عشر مؤشرًا. كل تحليل يقع بشكل مريح داخل نطاقه المرجعي.

التفسير الصحيح. طمأنة والحفاظ على نمط حياة صحي. يجب ألا يقوم التفسير باختلاق اعتلالات حدودية لجعل النتيجة تبدو مفيدة سريريًا.

نتيجة V11. مركّب 1.000. لم تظهر أي من إشارات الإفراط في التشخيص السبعة التي تمت مراقبتها — السكري، فقر الدم، قصور الغدة الدرقية، اضطرابات الدهون، التهاب الكبد، مرض الكلى، النقص — كتشخيصات نشطة.

عبر كلتا مجموعتي الفحص، تم التحقق من ثلاث عشرة إشارة فرط تشخيص تمت مراقبتها. لم يتم تفعيل أي منها. هذه هي النتيجة الأهم لأي طبيب يفكر في استخدام محرك ذكاء اصطناعي كأداة فرز أو ما قبل الاستشارة: لم يقم النظام باختراع مرض حيث لا يوجد مرض.

مؤشر منتزر: فصل نقص الحديد عن سِمة الثلاسيميا

اكتشاف عالي القيمة ثانٍ يتعلق بربط الحالة BT-001 (فقر الدم بسبب نقص الحديد) بالحالة BT-007 (الثلاسيميا بيتا الصغرى). كلاهما يظهر مع صِغر حجم الكريات (microcytosis) ويُعد عائقًا معروفًا أمام المصنّفات الساذجة. يتجاوز مؤشر منتزر، المحسوب على أنه MCV مقسومًا على عدد كريات الدم الحمراء (RBC)، 13 في نقص الحديد وينخفض تحت 13 في سِمة الثلاسيميا.

في BT-001، كانت المريضة امرأة تبلغ 34 عامًا مع هيموغلوبين 10.4 g/dL، وMCV 72.4 fL، وRBC 4.1 × 10¹²/L، وفيريتين 6 ng/mL، وارتفاع TIBC. يدعم مؤشر منتزر البالغ تقريبًا 17.7 نقص الحديد المطلق. في BT-007، كان المريض رجلًا يبلغ 28 عامًا مع صِغر حجم الكريات (MCV 65.8 fL) لكن مع ارتفاع عدد RBC إلى 6.2، وRDW طبيعي، وفيريتين طبيعي، وHbA2 قدره 5.6 بالمئة. يشير مؤشر منتزر البالغ تقريبًا 10.6 إلى سِمة الثلاسيميا، ويؤكد ارتفاع HbA2 الثلاسيميا بيتا الصغرى.

فقر الدم بسبب نقص الحديد منتزر > 13 فيريتين منخفض، TSAT منخفض، TIBC مرتفع، RDW مرتفع
سِمة الثلاسيميا بيتا منتزر < 13 فيريتين طبيعي، RDW طبيعي، HbA2 مرتفع (>3.5%)، عدد RBC مرتفع

حصلت الحالتان على درجة 1.000. استدعى المحرك مؤشر منتزر صراحةً في كلتا عمليتي التفسير وأعاد التشخيص الصحيح في كل مرة. هذه هي النتيجة الأكثر طمأنة سريريًا في كامل الاختبار المرجعي, ، لأن تصنيف سِمة الثلاسيميا على أنها نقص الحديد يؤدي إلى إعطاء مكملات حديد غير مناسبة وفرص تفويت فحص أفراد العائلة، ولأن تصنيف نقص الحديد على أنه ثلاسيميا يؤخر العلاج التعويضي البسيط. إن لنطاق الفيريتين يشرح السياق التفريقي الأوسع.

النتائج لكل حالة من التشغيل المرجعي الأول لـ V11 (23 أبريل 2026)

يشكل التشغيل المرجعي الأصلي لـ V11 ضمن تجميعة إثبات المفهوم المكوّنة من 15 حالة الأساس المنهجي للتحديث الثاني: تُوضح كل التفاصيل الخاصة بكل حالة أدناه كيف يتعامل السلم/الروبرك مع استجابة حقيقية من محرك. حققت 12 من أصل 15 حالة الدرجة المركبة القصوى 1.000 على المسار الأساسي؛ وتمت خدمة ثلاث حالات عبر آلية التعويض في المرحلة 2، مع فقدان مكافأة زمن الوصول 0.05 مع الحفاظ على كامل المحتوى السريري والبنيوي. كانت حالة واحدة ناقصة في قسم فرعي إجباري واحد؛ وأعاد أحدها مجموع توزيع احتمالات مُخفَّضًا بشكل طفيف.

رقم الحالة التخصص مركب زمن الاستجابة المسار
BT-001-IDAأمراض الدم1.00017.8 ثأساسي
BT-006-B12أمراض الدم1.00018.4 ثانيةأساسي
BT-007-ثلاسيمياأمراض الدم1.00017.0 ثانيةأساسي
BT-002-هاشالغدد الصماء0.95037.0 ثانيةالرجوع إلى الإعداد الافتراضي
BT-008-تكيس المبايضالغدد الصماء0.98718.6 ثانيةأساسي
BT-003-السكري من النوع الثانيالأيض1.00019.1 ثانيةأساسي
BT-013-النقرسالأيض1.00019.4 ثانيةأساسي
BT-004-الكبد الدهني غير الكحوليطب الكبد1.00019.6 ثانيةأساسي
BT-009-التهاب الكبد الفيروسيطب الكبد0.95023.4 ثانيةالرجوع إلى الإعداد الافتراضي
BT-014-غيلبرتمصيدة1.00018.9 ثانيةأساسي
BT-005-مرض الكلى المزمنطب الكلى1.00017.4 ثانيةأساسي
BT-010-الاعتلال القلبي الوعائي المرتبط بتصلب الشرايينطب القلب1.00019.7 ثانيةأساسي
BT-011-SLEأمراض الروماتيزم0.98118.2 ثانيةأساسي
BT-012-VITDالغدد الصماء1.00019.3 ثانيةأساسي
BT-015-HEALTHYمصيدة1.00018.7 ثانيةالرجوع إلى الإعداد الافتراضي

حالة تكيس المبايض (BT-008) فقدت بندًا فرعيًا إلزاميًا واحدًا في بنية الاستجابة — خمسة عشر من ستة عشر بدلًا من ستة عشر من ستة عشر — مما خفّض الدرجة البنيوية من 1.000 إلى 0.963. أما حالة SLE (BT-011) فقد أعادت مجموعًا لاحتمالات موزعة بشكل مخفّض بشكل طفيف انخفضت معه الدرجة السريرية إلى 0.965 مع الحفاظ على كل الكلمات التشخيصية ونظام التقييم. لم تفوّت أي من الحالتين غير المثالية تشخيصًا صحيحًا.

تجميع V11 التحديث الثاني — 100,000 حالة

على نطاق المجتمع، لا تكون صفوف كل حالة قابلة للقراءة من قِبل البشر، لذا يبلّغ التحديث الثاني عن المقاييس المجمعة بدلًا من جدول من 100,000 صف. تُعرض النتيجة المجمعة الرئيسية أدناه؛ وتُنشر التفصيلات حسب التخصص وحسب الدولة في التقرير التقني وإيداع Figshare. يتم نشر عينة عشوائية مُطبَّقة طبقيًا من n = 201 استجابات المحرك الخام (بذرة حتمية 20260426) في دليل GitHub results/ للفحص.

الدرجة المركبة V11 الأولي: 0.9912 (99.12%) → التحديث الثاني: 0.9980 (99.80%) Δ = +0.0068 عبر تجميعة 100,000 حالة
الدرجة البنيوية (المتوسط) V11 الأولي: 0.998 → التحديث الثاني: 1.000 تطابق بنيوي مثالي على نطاق المجتمع
الدرجة السريرية (المتوسط) V11 الأولي: 0.998 → التحديث الثاني: 0.996 −0.002؛ لم تفُت أي حالة التشخيص نفسه
زمن الاستجابة — المتوسط (النطاق) التحديث الأول لـ V11: 20.17 ثانية (17.0–37.0 ثانية) → التحديث الثاني: 13.26 ثانية (9.0–16.94 ثانية) تحسينات محرك الإنتاج بين مرات التشغيل
مسار المحرك = الأساسي التحديث الأول لـ V11: 12 / 15 → التحديث الثاني: 100,000 / 100,000 لم تكن هناك حاجة إلى الرجوع إلى المرحلة 2 في أي نقطة أثناء التشغيل
إشارات فرط التشخيص لمجموعة فرعية من المصائد التحديث الأول لـ V11: 0 / 13 → التحديث الثاني: 0 / 87,412 لا توجد نتائج إيجابية كاذبة على نطاق المجتمع (تمت مراقبة 8,723 حالة مصيدة)

ما الذي لا تخبرنا به الدرجة الرئيسية

تمثل درجة مركبة قدرها 99.80 بالمئة ضمن هذا المعيار المُسجَّل مسبقًا تحديدًا، على مجموعة مجهولة الهوية من 100,000 حالة تمتد عبر 127 دولة، أداءً قريبًا من الحد الأعلى — لكنها تستحق تأطيرًا دقيقًا. يصف هذا النتيجة سلوك المحرك مقابل المعيار الذي التزمنا بمصدر الشيفرة في V11؛ ولا تمثل ادعاءً عامًا بصحة المحرك في كل لوحة blood test موجودة في الواقع.

تقول الدرجة إن المحرك تعامل مع أنماط التشخيص التي تم اختيارها لهذا التقييم بشكل صحيح عبر مجموعة على نطاق المجتمع، باستخدام منهجية منشورة وقابلة لإعادة الإنتاج. لا تقول إن المحرك صحيح في كل لوحة blood test موجودة في الواقع. ولا تقول إن المحرك ينبغي أن يحل محل حكم الطبيب. ولا تقول إن المحرك يتفوق على أنظمة ذكاء اصطناعي بديلة — إذ كانت التحليلات المقارنة مع محركات أخرى خارج نطاق هذا التقرير عمدًا.

ما تثبته الدرجة هو خط أساس. وبما أن المعيار والهيكل (harness) متاحان للعامة، يمكن تقييم الإصدارات المستقبلية من المحرك مقابل المعيار نفسه — المطبق على حالات التحديث الأول لـ V11 البالغ عددها 15 حالة، أو مجموعة التحديث الثاني البالغ عددها 100,000 حالة، أو أي توسع لاحق — والفجوة بين الدرجة المنشورة وأي تشغيل لاحق قابلة للقياس بحد ذاتها. وتتمثل قيمة التسجيل المسبق في: إذ يحوّل ادعاءات الأداء إلى ادعاءات قابلة للاختبار.

كيفية إعادة إنتاج هذا المعيار في 10 دقائق

تتطلب إعادة الإنتاج فقط زوج بيانات اعتماد Kantesti API وبيئة Python 3.10 أو أحدث مع requests و reportlab مكتبات مثبتة. تتألف البيئة التجريبية الكاملة من وحدة Python واحدة مستقلة بذاتها ومُصدرة تحت ترخيص MIT.

مخطط شبكة قابلية التكرار يوضح معيار تحديث V11 الثاني (99.80% مركب، 100,000 حالة، 127 دولة) مُنعكسًا عبر Figshare وResearchGate وAcademia.edu وGitHub مع اعتبار DOI الخاص بـ Figshare مرساة مرجعية
الشكل 5: معيار V11 للتحديث الثاني — درجة مركبة 99.80% على 100,000 حالة عبر 127 دولة — تنعكس عبر أربع منصات بحثية. يُعد مُعرّف Figshare DOI هو المُعرّف العلمي المرجعي؛ وتستضيف ResearchGate (النشر 404175463)، وAcademia.edu (الورقة 165956808)، وGitHub نسخًا موازية مع الهيكل المدعوم بـ SQL، والعينة العشوائية المُقسَّمة من الاستجابات الخام، ولوحات الدرجات الخاصة بكل بلد/تخصص.

أربع خطوات لتشغيل جديد

أولًا. استنسخ المستودع: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. اثنان. ثبّت التبعيات باستخدام pip install -r requirements.txt (يضيف التحديث الثاني mysql-connector-python ≥ 8.0 لِمُحمِّل حالات SQL). ثلاثة. اضبط KANTESTI_USERNAME و KANTESTI_PASSWORD كمتغيرات بيئية لواجهة برمجة تطبيقات المحرك. ولِمُحمِّل حالات SQL في التحديث الثاني، اضبط أيضًا KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، و KANTESTI_DB_PASSWORD — يقوم المُحمِّل بالاتصال عبر دور للقراءة فقط (bench_reader) لا يملك أي صلاحيات لتحديد الجداول. أربعة. شغّل python benchmark_bloodtest.py --limit 100000 لعملية التشغيل الكاملة Second-Update، أو python benchmark_bloodtest.py --limit 1000 للتكرار السريع. يتم حفظ المخرجات في ./benchmark_results/: لوحة معلومات CSV بأعمدة لكل بلد ولكل تخصص، وتجميع JSON، وعينة خام من الاستجابات العشوائية المُقسَّمة طبقيًا، وتقرير Markdown.

يتم الاحتفاظ بنتائج التشغيل المرجعية من 23 أبريل 2026 (V11 الأولي، 15 حالة) ومن 26 أبريل 2026 (V11 Second Update، 100,000 حالة) في results/ دليل المستودع. سيُنتج التشغيل الجديد لوحة معلومات جديدة مُؤرَّخة بطابع زمني مع ترك نتائج التشغيل المرجعية دون تغيير. إذا أسفر تشغيلك عن نتيجة مختلفة بشكل جوهري، يُرجى فتح issue على GitHub مع طابع زمن التشغيل وإصدار المحرّك المُعاد في بيانات الاستجابة الوصفية (metadata).

القيود والعمل المستقبلي

حتى مع 100,000 حالة عبر 127 دولة، توجد أربع قيود تستحق إقرارًا صريحًا: نقص تمثيل الدول ذات الذيل الطويل، والتقييم مرة واحدة، ونطاق محرّك واحد، ومصدر بيانات واحد. تتم معالجة كل منها ضمن أعمال متابعة جارية.

تغطية الدول ذات الذيل الطويل. تمتد Second Update على 127 دولة، لكن التوزيع غير متوازن — إذ تمثل أفضل 10 مساهمين حوالي 66.4% من الحالات، ويساهم الذيل الطويل المكوَّن من 97 دولة إضافية معًا بحوالي 7.3% (بما يقارب 7,300 حالة إجمالًا، ~75 حالة لكل دولة في المتوسط). لذلك تكون المركبات الخاصة بكل بلد في هذا الذيل الطويل أكثر ضجيجًا مما توحي به الأرقام الرئيسية. ستقوم عمليات التشغيل المستقبلية بالتجنيد بشكل تفضيلي من الدول الأقل تمثيلًا لتثبيت تقديرات كل اختصاص/ولاية قضائية.

التقييم بنقرة واحدة. تم تقييم كل حالة في المجموعة مرة واحدة. تُظهر نماذج اللغات الكبيرة تباينًا غير تافه في المخرجات حتى عند درجة حرارة أخذ عينات منخفضة، لذا فإن بروتوكول متعدد التشغيلات مع خمس تقييمات لكل حالة والإبلاغ عن التباين يُعد خطوة طبيعية تالية — خصوصًا على مجموعة الحالات الفخّية (trap-case subset)، حيث تُعد الاتساق تحت اهتزاز أخذ العينات جزءًا من ادعاء السلامة.

نطاق محرك واحد. يصف هذا التقرير محرّكًا واحدًا. التحليلات المقارنة مقابل أنظمة ذكاء اصطناعي بديلة خارج نطاق هذا التقرير؛ وقد نتابعها كدراسة مستقلة منفصلة باستخدام منهجية مناسبة، وبالاستناد إلى نفس إطار العمل المرخّص من MIT.

أصل مصدر البيانات من جهة واحدة. تم إخفاء هوية 100,000 حالة وهي سجلات حقيقية لمرضى مأخوذة من مستودع سريري واحد (مستودع بيانات سريرية مدعوم بـ Kantesti SQL). تمثل هذه الحالات تدفقًا إنتاجيًا مُنسَّقًا وليست سحبًا عشوائيًا ممثلًا للسكان على المستوى العالمي. إن توسيع التقييم ليشمل بيانات متعددة المراكز مُستقاة خارجيًا موجود على خريطة الطريق.

بالإضافة إلى هذه الأربع، فإن أكثر امتداد مخطط تأثيرًا هو تكافؤ متعدد اللغات لكل اختصاص/ولاية قضائية. يخدم محرّك Kantesti AI المستخدمين في 75+ لغة، وسيؤدي تشغيل مجموعات فرعية من Second-Update مُقسَّمة حسب اللغة (التركية، الألمانية، الإسبانية، الفرنسية، الإيطالية، البرتغالية، العربية، الماندارين) إلى قياس جودة المخرجات عبر اللغات المدعومة من المحرّك. سيتم نشر كل تحليل مُقسَّم حسب اللغة مع DOI خاص به وفرع إطار العمل (harness branch).