Kantesti تحليل الدم بالذكاء الاصطناعي

معيار مُقارن آلي معيار مُسجَّل مسبقاً تحديث V11 الثاني — أبريل 2026 مرخّص من MIT قابل لإعادة الإنتاج · بيانات مفتوحة 100K كوھورت اصطناعية · 127 وسم ديال البلدان

99.80% مجموع مركّب على Rubric مُسجّل مسبقاً — V11 التحديث الثاني، كوھورت من 100,000 حالة فـ 127 وسم ديال البلدان

معيار تقني آلي مُسجّل مسبقاً ومبني على Rubric ديال Kantesti، على 100,000 حالة ديال تحاليل دم مُولّدة اصطناعياً وموسومة بـ 127 وسم ديال البلدان. كيقيس مدى التطابق مع المخرجات، ماشي الدقة التشخيصية. تم تجميد الـ Rubric فـ كود المصدر قبل الإطلاق الأول ديال V11 وبقي مطابقاً حرفياً (byte-identical) فـ هاد التحديث الثاني؛ بيئة التقييم مرخّصة برخصة MIT؛ كاين نشر لعينة عشوائية مُقسّمة (stratified random sample) من الاستجابات الخام ديال المحرك باش يتدار فحص. جميع الحالات اصطناعية؛ ما كاينش استعمال ديال بيانات شخصية.

📖 ~14 دقيقة 📅 نُشر في 23 أبريل 2026 · تم التحديث في 26 أبريل 2026 (تحديث V11 الثاني) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 نُشر: 23 أبريل 2026 🔄 تحديث V11 الثاني: 26 أبريل 2026 🩺 تمت المراجعة طبيًا بواسطة: 26 أبريل 2026 ✅ Rubric مُسجّل مسبقًا (مطابق للبايتات) 🔓 كود وبيانات مفتوحان

صُمّم هذا المعيار المُقارن الآلي وتم تشغيله بواسطة جوليان أميرهان بولوت, ، مهندس ذكاء اصطناعي كبير والرئيس التنفيذي ديال Kantesti Ltd. التقييم مُؤتمت بالكامل داخل كود المصدر؛ تم تطوير دليل التقييم ولجنة الحالات بمُدخلات سريرية من الدكتور توماس كلاين، طبيب, ، المدير الطبي الرئيسي لدى Kantesti AI، وتمت مراجعته من طرف المجلس الاستشاري الطبي لشركة كانتيستي للذكاء الاصطناعي. هاد الشي هو معيار داخلي كيديروه بوحدهم، ماشي معيار تقني آلي مستقل ولا خاضع لمراجعة نظراء.

المؤلف الرئيسي والإشراف السريري

توماس كلاين، طبيب

كبير المسؤولين الطبيين، شركة كانتيستي للذكاء الاصطناعي

الدكتور توماس كلاين هو طبيب أمراض دم (hematologist) ومختص ف الطب الداخلي (internist) معتمد من المجلس الطبي، عندو أكثر من 15 عام ديال الخبرة ف طب المختبرات. بوصفه المدير الطبي (Chief Medical Officer) فـ Kantesti AI، اختار لوحة الحالات (case panel) ديال هاد المعيار، راجع المحتوى السريري والأجوبة المتوقعة ديال الحالات الاصطناعية، وصادق على الـ Rubric المُسجّل مسبقاً قبل أول استدعاء ديال المحرك.

ORCID 0009-0009-1490-1321 ResearchGate جوجل سكولار

المؤلف المشارك & التنفيذ

جوليان أميرهان بولوت

مهندس ذكاء اصطناعي كبير & الرئيس التنفيذي، Kantesti Ltd

جوليان أميرهان بولوت هو مؤسس والرئيس التنفيذي لـ Kantesti Ltd. صمّم ونفّذ بيئة التقييم — بما في ذلك مُحمّل الحالات عبر SQL المُضاف لتحديث V11 الثاني — وأجرى تكامل واجهة البرمجة (API)، وقام بتنفيذ كلٍّ من التشغيل المرجعي الأولي لـ V11 وتشغيل مجموعة 100,000 حالة لتحديث V11 الثاني، كما أعدّ التجميع الإحصائي. مؤسس المنصة منذ 2019.

GitHub نبذة عن كانتستي

⚡ ملخص سريع تحديث V11 الثاني — 26 أبريل 2026

درجة مركّبة 99.80% على 100,000 حالة ديال تحاليل دم اصطناعية عبر ثمان تخصصات طبية و127 وسم ديال البلدان (V11 التحديث الثاني).
لا توجد حالات فرط تشخيص إيجابية كاذبة عبر 87,412 فرصة مُراقَبة لعلامات “trap-case” — نفس منهجية “trap-case” كما في التشغيل الأولي لـ V11، مع توسيع على مستوى السكان.
معيار مُسجَّل مسبقًا مُجمّدة في كود المصدر قبل التشغيل الأولي لـ V11 وتم الحفاظ عليها مطابقة للبايتات لهذا التحديث الثاني — لم يكن ممكنًا إجراء ضبط لاحق (post-hoc).
تم تطبيق مؤشر منتزر بشكل صحيح للتمييز بين فقر الدم الناجم عن نقص الحديد واعتلال الثلاسيميا بيتا الصغرى في الإصدار الأولي لـ V11؛ وتم الحفاظ على سلوك التمييز على مستوى السكان.
نقطة نهاية الإنتاج فقط — بدون توجيه مميّز، وتم تقييمه تمامًا كما سيصل إليه عميل يدفع.
متوسط زمن استجابة 13.26 ثانية من طرف إلى طرف (النطاق 9.0–16.94 ث)، مع اكتمال جميع الحالات الـ 100,000 على المسار الأساسي للمحرك.
كوھورت اصطناعية. 100,000 حالة اختبار مُولّدة اصطناعياً محمّلة ف وقت التشغيل (run-time). ما كاينش استعمال ديال بيانات اصطناعية ولا بيانات شخصية.
أداة اختبار برخصة MIT تم نشره على GitHub مع عيّنة عشوائية مُقسّمة طبقيًا (n = 201) من الاستجابات الخام الكاملة للمحرك للفحص.
DOI على Figshare: 10.6084/m9.figshare.32095435 · مُنعكس على ResearchGate وAcademia.edu وGitHub.

لماذا يوجد هذا المعيار وماذا يختبر

يتم بشكل متزايد استخدام تحليل الدم بالذكاء الاصطناعي في سير العمل الاستهلاكي والسريري، ومع ذلك تظل أطر التقييم القابلة لإعادة الإنتاج والمصممة لطب المختبرات غير شائعة. الأسئلة الأكثر أهمية في هذا السياق ليست تلك التي يغطيها معيار عام للإجابة عن الأسئلة الطبية: هل يمكن لمحرك أن يفصل نقص الحديد عن سِمة الثلاسيميا عندما تكون الحُجيمات الكروية المتوسطة متطابقة، وهل يفرط في تشخيص Gilbert's syndrome على أنه التهاب كبدي، وهل يُنشئ أمراضًا في لوحة فحص طبيعية بالكامل؟

لوحة تحليل دم واحدة عادةً تحتوي على إشارة كافية لدعم عدة تفسيرات متنافسة، ومهمة الطبيب/الطبيبة المفسِّر/ة هي موازنة تلك التفسيرات فيما بينها بدل البحث عن جواب من كتاب مدرسي. محرّك ينجح في الحالات المدرسية قد يفشل مع الحالات الأكثر أهمية: فخاخ التشخيص التفريقي، والاختلافات الحميدة التي تبدو مقلقة عند النظر إليها وحدها، واللوحات الطبيعية تمامًا التي تُغري المساعدين الواثقين بصناعة “مرض” غير موجود.

تم بناء هذا المعيار تحديدًا حول أنماط الفشل تلك. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية معيّنة: نقص الحديد مع صِغَر الكريات (microcytosis) يجب الحفاظ على تمييزه عن سِمة بيتا-ثالاسيميا (beta-thalassaemia) مع نفس متوسط حجم الكرية (MCV)، وعرض متلازمة جيلبرت حيث الشذوذ الوحيد هو ارتفاع غير مباشر معزول في البيليروبين، ولوحة فحص من 15 معلمة تكون فيها كل مادة محلَّلة ضمن مجالها المرجعي. يكافئ معيار التقييم المحرّكات التي تقرأ كل حالة وفق شروطها الخاصة ويعاقب المحرّكات التي تصل إلى تشخيص واثق عندما لا يكون هذا التشخيص مبرَّرًا.

بصفتي الدكتور Thomas Klein، اخترت مجموعة الحالات لأن هذه هي الأنماط التي ألاحظ أن مساعدين في طب المختبر يخطئون فيها أكثر ما يمكن. نمط الفشل المكلف ليس "تفويت مرض نادر" — بل اختلاق اعتلالات روتينية لدى مرضى لا يعانون منها. ملكنا التحقق الطبي hub كيوصف الإطار العام؛ هاد الصفحة كتشرح الإثبات الأولي ديال V11 وV11 التحديث الثاني اللي وسّعوه حتى 100,000 حالة اصطناعية جايين من مجموعة حالات اصطناعية ممتدة على 127 وسم ديال البلدان — باستعمال نفس Rubric ديال التقييم، مطابق حرفياً (byte-identical)، وما مسموحش أي ضبط لاحق (no post-hoc tuning).

أحدث تشغيل مرجعي — V11 Second Update (26 أبريل 2026)

أنتج تشغيل V11 Second Update المرجعي بتاريخ 26 أبريل 2026 درجة مركّبة قدرها 99.80% على نفس الروبرك المُسجَّل مسبقًا المستخدم في الإصدار الأولي لـ V11، وتم تقييمه على 100,000 حالة اصطناعية جايين من مجموعة الحالات الاصطناعية ديال Kantesti و ممتدة على 127 وسم ديال البلدان و75+ لغات. اكتملت كل حالة على المسار الأساسي الرئيسي للمحرّك؛ ظلت عمليات تفعيل أعلام فرط التشخيص في حالات الفخ عند 0 / 87,412. غطّى تشغيل V11 الأصلي بتاريخ 23 أبريل 2026 15 حالة تم اختيارها يدويًا (درجة مركّبة 99.12%) وجرى التحقق من الروبرك؛ يحافظ التحديث الثاني على هذا الروبرك مطابقًا حرفيًا على مستوى البايت ويُوسّع التقييم ليشمل مجموعة على مستوى السكان.

مركب 99.80% 100,000 من أصل 100,000 حالة حصلت على درجة

1.000 الدرجة البنيوية

0.996 الدرجة السريرية

13.26 s متوسط التأخر

0 / 87,412 فخاخ إيجابية كاذبة

تجمع معادلة المركب بين ثلاثة مكوّنات: المطابقة البنيوية مع أقسام التقرير الإلزامية السبعة و16 فرعًا إلزاميًا،, دقة المحتوى مُقاسة عبر استرجاع الكلمات المفتاحية (keyword recall) بالإضافة إلى استرجاع نظام التقييم (scoring-system recall) مع فحص صحة التوزيع الاحتمالي، و زمن الاستجابة مقابل هدف مستوى الخدمة للخدمة على المسار الأساسي. يُعرض التفكيك الدقيق في صيغة الروبرك أدناه — لم يتم تعديل أي من هذه الأوزان أو الروبركات الفرعية في التحديث الثاني.

المركب = 0.35 × البنيوي + 0.55 × السريري + 0.10 × التأخير (Latency)

يتفكك الجزء المتبقي البالغ 0.20 نقطة مئوية من هامش السعة تقريبًا بالكامل إلى الدرجة الفرعية السريرية — نسبة صغيرة من الحالات (بشكل أساسي في أمراض الكبد والروماتيزم) كان لديها أحد كلمات نظام التقييم المتوقعة غير موجود في تفسير المحرّك رغم أن المحتوى التشخيصي كان صحيحًا. لم تفوّت أي حالة في مجموعة 100,000 حالة للتحديث الثاني التشخيص نفسه. تحسّن زمن الاستجابة من متوسط 20.17 s في الإصدار الأولي لـ V11 إلى 13.26 s في التحديث الثاني، بما يعكس تحسينات محرّك الإنتاج بين التشغيلين؛ الروبرك، كود التقييم، ونقطة نهاية الـ API دون تغيير.

المجموعات المركبة لكل وسم تراوحت من 0.9971 حتى 0.9985 عبر 30 وسم ديال البلدان الأكثر تمثيلاً. الذيل الطويل ديال 97 وسم إضافي (≈7,300 حالة مجموعاً) ما بانش فيه أي تدهور منهجي. أكثر الأوسمة تكراراً حسب عدد الحالات كانت: الولايات المتحدة (10,500)، البرازيل (9,500)، إسبانيا (9,000)، إيطاليا (8,000)، ألمانيا (7,800)، فرنسا (7,400)، البرتغال (5,800)، Türkiye (3,400)، المملكة المتحدة (2,900)، والمكسيك (2,500).

من 15 حالة حتى 100,000: تطور الكوھورت عبر 127 وسم ديال البلدان

لوحة الحالات الأصلية ديال V11 كانت كتغطي سبع تخصصات — أمراض الدم (hematology)، الغدد الصماء (endocrinology)، الطب الاستقلابي (metabolic medicine)، أمراض الكبد (hepatology)، أمراض الكلى (nephrology)، أمراض القلب (cardiology)، طب الروماتيزم (rheumatology) — إضافةً إلى حالتين مخصصتين لفخاخ فرط التشخيص (hyperdiagnosis trap)، وكل حالة كانت لوحة تحاليل دم مُولّدة اصطناعياً. التحديث الثاني ديال V11 كيوسّع التقييم حتى 100,000 حالة اصطناعية عبر 127 وسم ديال البلدان, ، موزعة على ثمانية تخصصات (السبعة الأصلية بالإضافة إلى دلو مخصص للطب الباطني الداخلي يستوعب جزء الفخ). يُطبَّق نفس الروبرك للتقييم مطابقًا حرفيًا على مستوى البايت في كلا التشغيلين.

بما أن جميع الحالات مُولّدة اصطناعياً، ما كاينش مُعرّفات حقيقية باش يتشالوا وما كاينش أي بيانات شخصية. كل حالة اصطناعية كتحتوي على كود ديال الحالة داخل المعيار (benchmark-internal case code) (BT-NNN-LABEL فـ المجموعة الأولية ديال V11، ثابت case_uid فـ التحديث الثاني). ما كاين حتى بيانات شخصية فـ أي مكان فـ الـ harness المنشور، التقرير التقني، ولا فـ المجموعات ديال البيانات اللي تْنشر.

الإصدار الأولي لـ V11 — 15 حالة تم اختيارها يدويًا

تم اختيار لوحة الحالات الأصلية V11 يدويًا من طرف الدكتور توماس كلاين بهدف تمرين أنماط التشخيص التي يخطئ فيها مساعدو الطبّ المخبري في أغلب الأحيان. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية محددة، كما هو مُدرج أدناه.

أمراض الدم (3) BT-001، BT-006، BT-007 فقر الدم بسبب نقص الحديد · نقص فيتامين B12 · بيتا-ثالاسيميا الصغرى (Beta-thalassaemia minor)

الغدد الصماء (3) BT-002، BT-008، BT-012 التهاب الغدة الدرقية هاشيموتو · متلازمة تكيس المبايض (PCOS) مع مقاومة الإنسولين · نقص شديد فيتامين د

الاستقلاب (2) BT-003، BT-013 داء السكري من النوع 2 (T2DM) مع متلازمة أيضية · فرط حمض يوريك مع خطر النقرس

أمراض الكبد (2) BT-004، BT-009 الكبد الدهني غير الكحولي (NAFLD) / التهاب كبد دهني غير كحولي (NASH) · التهاب كبدي فيروسي حاد

أمراض الكلى · طب القلب · طب الروماتيزم (3) BT-005، BT-010، BT-011 المرحلة 3 من مرض الكلى المزمن (CKD) · ديسليبيديميا مُسببة لتصلب الشرايين (Atherogenic dyslipidaemia) · الذئبة الحمامية الجهازية (Systemic lupus erythematosus)

حالات الفخ (2) BT-014، BT-015 متلازمة جيلبرت (فرط بيليروبين غير مباشر معزول) · فحص للبالغين طبيعي بالكامل

لماذا هذا التوزيع بالذات

تخصصات أمراض الدم تحصل على ثلاث حالات لأن التفريعات الصغيرة الحجم والتفريعات الكبيرة الحجم هي أعلى “مصائد” من حيث الحجم في الممارسة المختبرية الواقعية. تخصصات الغدد تحصل على ثلاث حالات لأن العروض المرتبطة بمرض هاشيموتو وPCOS ونقص فيتامين د تُمارس أشكالًا تشخيصية مختلفة (مدفوعة بالأجسام المضادة، مدفوعة بنسبة الهرمونات، ومدفوعة بعلامة واحدة). أما تخصصات الحالة الواحدة فلا تزال ذات معنى لأن كلًّا من CKD وخطر ASCVD وSLE لديه نظامه الخاص للتقييم الذي ينبغي للمحرك استدعاؤه (على التوالي: مراحل KDIGO، وخطر ASCVD لمدة 10 سنوات، ومعايير 2019 EULAR/ACR لـ SLE).

V11 التحديث الثاني — 100,000 حالة اصطناعية عبر 127 وسم ديال البلدان

التحديث الثاني كيبدّل literal ديال بايثون ديال V11 الأصلي اللي كان “hard-coded” ديال 15 حالة، بمجموعة أكبر ديال حالات اصطناعية مُولّدة برمجياً. كتتحمّل مجموعة الحالات فبداية كل تشغيل (run) وكتسجّل الإعدادات باش تكون الشفافية. توزيع الكوھورت حسب مجال المحتوى كيبان فـ الأسفل.

الغدد الصماء 23,900 حالة (23.9%) الغدة الدرقية، تكيس المبايض (PCOS)، نقص فيتامين د، محور الغدد التناسلية، الغدة النخامية

الطبّ الاستقلابي 21,900 حالة (21.9%) داء السكري من النوع 2 (T2DM)، المتلازمة الاستقلابية، لوحات الدهون، فرط حمض يوريك الدم

أمراض الدم 15,400 حالة (15.4%) فروقات صِغَر/كبر حجم كريات الدم (microcytic وmacrocytic)، B12/حمض الفوليك، فحوصات الحديد

طب الكبد 12,400 حالة (12.4%) NAFLD/NASH، التهاب كبدي فيروسي، FIB-4، ركود صفراوي

الطبّ الباطني (بما في ذلك مجموعة فرعية للـ trap) 9,000 حالات (9.0%) عروض مختلطة و8,723 حالة مخصّصة لفخّ فرط التشخيص (hyperdiagnosis trap)

طب القلب 7,500 حالات (7.5%) خطر أمراض القلب الوعائية المُرتبطة بتصلب الشرايين (ASCVD)، عسر شحميات مُولِّد للتصلب (atherogenic dyslipidaemia)، hs-CRP

أمراض الروماتيزم 6,000 حالات (6.0%) الذئبة الحمراء الجهازية (SLE)، التهاب المفاصل الروماتويدي (RA)، التهاب الأوعية، لوحات الأجسام المضادة الذاتية (معايير EULAR/ACR)

طب الكلى 4,000 حالات (4.0%) تصنيف مرض الكلى المزمن (KDIGO)، اتجاهات eGFR، اضطراب الأملاح

توزيع وسم البلدان الاصطناعية — أفضل 10 أوسمة

الحالات الاصطناعية 100,000 كتضم 127 وسم ديال البلدان (ISO 3166-1 alpha-2) باش تختبر التعامل مع الإعدادات المحلية (locale handling). تعيين الوسم: أوروبا 57.7%، الأمريكيتين 25.4%، آسيا-المحيط الهادئ 6.2%، أوسمة الشرق الأوسط/إفريقيا 3.4%، وذيل طويل ديال 97 وسم إضافي مجموعهم تقريباً 7.3%. العشرة أوسمة الأكثر تكراراً حسب عدد الحالات هي: الولايات المتحدة (10,500)، البرازيل (9,500)، إسبانيا (9,000)، إيطاليا (8,000)، ألمانيا (7,800)، فرنسا (7,400)، البرتغال (5,800)، Türkiye (3,400)، المملكة المتحدة (2,900)، والمكسيك (2,500). المجموعات المركبة لكل وسم تراوحت من 0.9971 حتى 0.9985. هاد أعداد الأوسمة هي خصائص ديال الحالات المُولّدة اللي استعملوها باش يختبرو التعامل مع الإعدادات المحلية — ماشي مستعملين حقيقيين وماشي تغطية جغرافية واقعية.

الـ rubric المُسجَّل مسبقاً، شرح

التسجيل المسبق هو أهم خيار منهجي في هذا المعيار. تم الالتزام بكل تشخيص متوقع، بكل نظام تقييم سريري، وبكل قسم من التقرير ضمن كود المصدر قبل استدعاء المحرك. لذلك لا يمكن إجراء ضبط لاحق للمعيار بهدف “تلميع” أداء المحرك.

يتكون المجموع المركب من ثلاثة مكونات. المكوّن البنيوي يساهم بنسبة 35% ويقيس ما إذا كان المحرك قد أرجع الأقسام السبعة الإلزامية للتقرير (العنوان، الملخص، أهم النتائج، التفريق التشخيصي، أنظمة التقييم، التوصيات، المتابعة) والـ16 قسمًا فرعيًا إلزاميًا داخلها. وزن وجود القسم هو 40% ووزن وجود القسم الفرعي هو 60% ضمن الحساب البنيوي.

ال المكوّن السريري يساهم بنسبة 55% ويجمع بين ثلاثة أشياء: استرجاع الكلمات المفتاحية للتشخيص (70% من الدرجة الفرعية السريرية)، واسترجاع نظام التقييم (20% — هل يحسب المحرك Mentzer وFIB-4 وHOMA-IR وخطر ASCVD ومراحل KDIGO ومعايير EULAR/ACR عند الاقتضاء)، وفحص صحة مجموع الاحتمالات (10% — يجب أن تتجمع احتمالات التفريق ضمن المجال [90, 110]). في حالات المصائد، يتم طرح عقوبة صريحة لفرط التشخيص تصل إلى 0.30، محسوبة كـ0.10 لكل علامة مرضية مُصطنعة، مع سقف عند ثلاث علامات.

ال مكوّن زمن الاستجابة يساهم بنسبة 10%. الاستجابة تحت 20 ثانية تحصل على 0.10 كاملة، والاستجابة تحت 40 ثانية تحصل على 0.05، وأي شيء أبطأ يحصل على صفر. تعكس عتبة 20 ثانية هدف مستوى الخدمة الأساسي للإنتاج؛ وتعكس عتبة 40 ثانية ميزانية “الرجوع” في المرحلة 2 لاستدعاءات المحرك الثقيلة.

ما الذي يمنعه التسجيل المسبق

تُعرف المعايير التي ينفذها أصحابها (first-party) بأنها تضخم أرقامها عبر ضبط المعيار لاحقًا. النمط يكاد يكون دائمًا نفسه: الفريق يشغّل المحرك، يرى أين يتراجع الأداء، ثم يعدّل المعيار بهدوء بحيث تُحسب مناطق الضعف بدرجة أقل. وبما أن المعيار تم تثبيته في كود المصدر قبل أول استدعاء للمحرك ونشر الاختبار تحت رخصة MIT، يصبح هذا التعديل ظاهرًا في التحكم بالإصدارات. يمكن لأي شخص نسخ المستودع، والتحقق من تواريخ إنشاء المعيار، والتأكد من أن نتائج المحرك لم تُستخدم لتشكيل عملية التقييم.

حالات فخّ فرط التشخيص — لماذا يكون الإفراط في إطلاق الأحكام هو وضع الفشل الحقيقي

المبالغة في إطلاق تشخيصات مرضية على الفحوصات الطبيعية هي نمط فشل موثق لدى المساعدين الطبيين الموجهين للمستهلكين. تشمل تكاليفه اللاحقة إجراء تحقيقات غير ضرورية، وقلق المريض، وإعدادات علاجية غير لازمة (iatrogenic workup). تم تصميم حالتي المصيدة في هذا المعيار لجعل هذا الفشل ظاهرًا وقابلًا للتقييم.

🟡 المصيدة 1 — BT-014-GILBERT

العرض. رجل عمره 24 سنة مع بيليروبين كلي قدره 2.4 mg/dL. الجزء المباشر طبيعي، والإنزيمات ناقلة الأمين والفوسفاتاز القلوي ضمن نطاقاتها المرجعية، والخلايا الشبكية غير لافتة، ويستبعد الهبتوغلوبين وLDH حدوث انحلال الدم.

التفسير الصحيح. متلازمة جيلبرت — تعدد أشكال حميد في UGT1A1. يجب ألا يستدعي التفسير التهاب كبد أو تليفًا أو فقر دم انحلاليًا أو انسدادًا صفراويًا.

نتيجة V11. المركب 1.000. لم تظهر أي من إشارات فرط التشخيص الست المراقبة كتشخيصات نشطة.

🟡 المصيدة 2 — BT-015-HEALTHY

العرض. امرأة تبلغ من العمر 35 سنة مع لوحة فحص روتينية مكوّنة من 15 معلمة. كل مؤشّر كيميائي/تحليلي موجود بشكل مريح داخل مجاله المرجعي.

التفسير الصحيح. طمأنة والحفاظ على نمط حياة صحي. يجب ألا يقوم التفسير باختلاق اعتلالات حدودية فقط ليبدو مفيدًا سريريًا.

نتيجة V11. مركّب 1.000. لم تظهر أيٌّ من سبع إشارات إنذار مرتبطة بالإفراط في التشخيص التي تمت مراقبتها — داء السكري، فقر الدم، قصور الغدة الدرقية، اضطرابات الدهون، التهاب الكبد، مرض الكلى، نقص — كتشخيصات نشطة.

عبر كلا المسارين، تم فحص 13 إشارات مرتبطة بالإفراط في التشخيص. لم يتم تفعيل أيٍّ منها. هذه هي النتيجة الأكثر أهمية لأي طبيب يفكر في استخدام محرك ذكاء اصطناعي كأداة فرز أو قبل الاستشارة: لم يقم النظام باختراع مرض عندما لا يوجد أي مرض.

مؤشر منتزر: فصل نقص الحديد عن سِمة الثلاسيميا

اكتشاف ذو قيمة عالية ثانٍ يتعلق بربط الحالة BT-001 (فقر الدم بنقص الحديد) مع الحالة BT-007 (الثلاسيميا بيتا الصغرى). كلاهما يظهر مع صِغر حجم الكريات (microcytosis)، وهو عائق معروف جدًا أمام المصنّفات غير المتمرسة. مؤشر منتزر، المحسوب بقسمة MCV على عدد RBC، يتجاوز 13 في نقص الحديد وينخفض تحت 13 في سِمة الثلاسيميا.

في BT-001، كانت المريضة امرأة عمرها 34 سنة مع هيموغلوبين 10.4 g/dL، وMCV 72.4 fL، وRBC 4.1 × 10¹²/L، وفيريتين 6 ng/mL، وارتفاع TIBC. مؤشر منتزر بحوالي 17.7 يدعم نقص الحديد المطلق. في BT-007، كان المريض رجلًا عمره 28 سنة مع صِغر حجم الكريات (MCV 65.8 fL) لكن مع ارتفاع عدد RBC إلى 6.2، وRDW طبيعي، وفيريتين طبيعي، وHbA2 بنسبة 5.6 بالمئة. مؤشر منتزر بحوالي 10.6 يشير إلى سِمة الثلاسيميا، وارتفاع HbA2 يؤكد الثلاسيميا بيتا الصغرى.

فقر الدم بنقص الحديد منتزر > 13 فيريتين منخفض، TSAT منخفض، TIBC مرتفع، RDW مرتفع

سِمة الثلاسيميا بيتا منتزر < 13 فيريتين طبيعي، RDW طبيعي، HbA2 مرتفع (>3.5%)، عدد RBC مرتفع

حصلت الحالتان على 1.000. استدعى المحرك مؤشر منتزر صراحةً في كلتا القراءتين وأعاد التشخيص الصحيح في كل مرة. هذه هي النتيجة الأكثر طمأنة سريريًا في كامل الاختبار القياسي, ، لأن تصنيف سِمة الثلاسيميا على أنها نقص الحديد يؤدي إلى تعويض/إعطاء الحديد بشكل غير مناسب وفرص ضائعة لفحص أفراد العائلة، كما أن تصنيف نقص الحديد على أنه ثلاسيميا يؤخر العلاج التعويضي البسيط المباشر. يشرح لنطاق الفيريتين السياق التفريقي الأوسع.

نتائج كل حالة على حدة من التشغيل المرجعي الأول V11 (23 أبريل 2026)

يشكّل التشغيل المرجعي الأصلي V11 على مجموعة إثبات المفهوم المكوّنة من 15 حالة الأساس المنهجي لـ Second Update: كل تفصيل لكل حالة أدناه يوضح كيف يتعامل السلم/الروبرك مع استجابة حقيقية من المحرك. حققت 12 من أصل 15 حالة الدرجة القصوى للتركيب وهي 1.000 على المسار الأساسي؛ وتمت خدمة ثلاث حالات عبر آلية الرجوع Phase 2، مع فقدان مكافأة زمن التأخر 0.05 مع الحفاظ على كامل المحتوى السريري والبنيوي. كانت حالة واحدة ناقصة في قسم فرعي إجباري واحد؛ وأعاد أحدها مجموع توزيع احتمالات أقل بشكل طفيف.

رقم الحالة التخصص مركب زمن الاستجابة المسار

BT-001-IDAأمراض الدم1.00017.8 ثأساسي

BT-006-B12أمراض الدم1.00018.4 ثأساسي

BT-007-ثلاسيمياأمراض الدم1.00017.0 ثأساسي

BT-002-هاشالغدد الصماء0.95037.0 ثالرجوع إلى النسخة الاحتياطية

BT-008-تكيس المبايضالغدد الصماء0.98718.6 ثأساسي

BT-003-السكري من النوع 2الأيض1.00019.1 ثأساسي

BT-013-النقرسالأيض1.00019.4 ثأساسي

BT-004-كبد دهني غير كحوليطب الكبد1.00019.6 ثأساسي

BT-009-التهاب الكبد الفيروسيطب الكبد0.95023.4 ثالرجوع إلى النسخة الاحتياطية

BT-014-غيلبرتفخ1.00018.9 ثأساسي

BT-005-قصور الكلى المزمنطب الكلى1.00017.4 ثأساسي

BT-010-الخطورة القلبية الوعائية المرتبطة بتصلب الشرايينطب القلب1.00019.7 ثأساسي

BT-011-SLEأمراض الروماتيزم0.98118.2 ثانيةأساسي

BT-012-VITDالغدد الصماء1.00019.3 ثانيةأساسي

BT-015-HEALTHYفخ1.00018.7 ثانيةالرجوع إلى النسخة الاحتياطية

حالة تكيس المبايض (BT-008) فقدت قسماً فرعياً إلزامياً واحداً في بنية الاستجابة — خمسة عشر من ستة عشر بدل ستة عشر من ستة عشر — مما خفّض الدرجة البنيوية من 1.000 إلى 0.963. حالة SLE (BT-011) أعادت مجموع توزيع احتمالات منخفضاً بشكل طفيف، ما خفّض الدرجة السريرية إلى 0.965 مع الحفاظ على كل الكلمات المفتاحية التشخيصية ونظام التقييم. لم تفوّت أي من الحالتين غير المثاليتين تشخيصاً صحيحاً.

تجميع V11 Second Update — 100,000 حالة

على مستوى السكان (population scale)، صفوف كل حالة بوحدها ما كتكونش قابلة للقراءة من طرف الإنسان، لذلك التحديث الثاني كيعرض مؤشرات مجمّعة (aggregated metrics) بدل جدول من 100,000 سطر. المجمل الرئيسي كيبان فـ الأسفل؛ التفصيل حسب كل تخصص وحسب كل وسم ديال البلد منشور فـ التقرير التقني وإيداع Figshare. كاين نشر لعينة عشوائية مُقسّمة (stratified random sample) ديال n = 201 استجابات المحرك الخام (بذرة حتمية 20260426) في دليل GitHub results/ للفحص.

درجة التركيب V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 عبر مجموعة 100,000 حالة

درجة البنية (المتوسط) V11 initial: 0.998 → Second Update: 1.000 تطابق بنيوي مثالي على مستوى المجتمع/السكان

درجة الجانب السريري (المتوسط) V11 initial: 0.998 → Second Update: 0.996 −0.002؛ لم تفوّت أي حالة التشخيص نفسه

التأخير — المتوسط (النطاق) V11 البداية: 20.17 ث (17.0–37.0 ث) → التحديث الثاني: 13.26 ث (9.0–16.94 ث) تحسينات محرك الإنتاج بين الدورات

مسار المحرك = الأساسي V11 البداية: 12 / 15 → التحديث الثاني: 100,000 / 100,000 لم تكن هناك حاجة لأي رجوع احتياطي للمرحلة 2 في أي لحظة خلال التشغيل

إشارات فرط التشخيص لمجموعة فرعية من المصائد V11 البداية: 0 / 13 → التحديث الثاني: 0 / 87,412 لا توجد أي إيجابيات كاذبة على مستوى السكان (تمت مراقبة 8,723 حالة مصيدة)

ماذا لا تخبرنا به النتيجة الرئيسية

مجموع مركّب بنسبة 99.80 في المئة تحت هاد الـ Rubric المُسجّل مسبقاً بالضبط، على كوھورت اصطناعية من 100,000 حالة ممتدة على 127 وسم ديال البلدان، كيمثل أداء قريب من السقف (near-ceiling performance) — ولكن خاصو تأطير دقيق. النتيجة كتصف سلوك المحرك مقابل الـ Rubric اللي التزمنا به فـ كود المصدر فـ V11؛ ماشي ادعاء عام على صحة المحرك فكل لوحة ديال تحاليل الدم اللي كاينة فالعالم الحقيقي.

يقول هذا المجموع إن المحرك تعامل بشكل صحيح مع أنماط التشخيص التي تم اختيارها لهذا التقييم عبر مجموعة على مستوى السكان، وبمنهجية منشورة وقابلة لإعادة الإنتاج. لا يقول إن المحرك صحيح في كل لوحة لتحليل الدم موجودة في الواقع. ولا يقول إن المحرك ينبغي أن يحل محل حكم الطبيب. ولا يقول أيضاً إن المحرك يتفوق على أنظمة ذكاء اصطناعي بديلة — إذ كانت التحليلات المقارنة مع محركات أخرى خارج نطاق هذا التقرير عمداً.

ما يثبت هذا المجموع هو خط أساس. وبما أن المعيار والهيكل (harness) متاحان للعموم، يمكن تقييم الإصدارات المستقبلية من المحرك مقابل نفس المعيار — المطبق على حالات V11 البداية الـ 15، أو مجموعة التحديث الثاني من 100,000 حالة، أو أي توسع لاحق — والفجوة بين المجموع المنشور وأي تشغيل لاحق قابلة للقياس بحد ذاتها. وهذه هي قيمة التسجيل المسبق: يحوّل ادعاءات الأداء إلى ادعاءات قابلة للاختبار.

كيفية إعادة إنتاج هذا المعيار في 10 دقائق

تتطلب إعادة الإنتاج فقط زوج بيانات اعتماد API من Kantesti وبيئة Python 3.10 أو أحدث مع requests و reportlab تم تثبيت المكتبات. الهيكل الكامل عبارة عن وحدة Python واحدة مستقلة بذاتها ومُصدرة تحت رخصة MIT.

💻 GitHub هيكل مرخّص من MIT · استجابات خام · تشغيل مرجعي 🔗 DOI على Figshare 10.6084/m9.figshare.32095435 · سجل أكاديمي مرجعي 🎓 ResearchGate النشر 404175463 · V11 التحديث الثاني · طبقة الاكتشاف الأكاديمي 📄 Academia.edu الورقة 165956808 · V11 التحديث الثاني · طبقة الاكتشاف الأكاديمي

أربع خطوات لتشغيل جديد

واحدة. استنسخ المستودع: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. اثنين. ثبّت الاعتماديات عبر pip install -r requirements.txt (يضيف التحديث الثاني mysql-connector-python ≥ 8.0 لِمُحمِّل حالات SQL). ثلاثة. حدّد KANTESTI_USERNAME و KANTESTI_PASSWORD كمتغيرات بيئية لواجهة برمجة تطبيقات المحرك. ولِمُحمِّل حالات SQL في التحديث الثاني، حدّد أيضاً KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، و KANTESTI_DB_PASSWORD — المحمّل يتصل عبر دور للقراءة فقط (bench_reader) لا يملك أي صلاحيات لتحديد الجداول. أربعة. شغّل python benchmark_bloodtest.py --limit 100000 بالنسبة للتشغيل الكامل لـ Second-Update، أو python benchmark_bloodtest.py --limit 1000 للتكرار السريع. يتم حفظ المخرجات في ./benchmark_results/: لوحة نقاط بصيغة CSV فيها أعمدة للوسم حسب البلد والتخصّص، وملخّص بصيغة JSON، وعيّنة من الاستجابات الخام عشوائية مُقسّمة، وتقرير بصيغة Markdown.

يتم الاحتفاظ بالتشغيلات المرجعية من 23 أبريل 2026 (V11 الأولي، 15 حالة) ومن 26 أبريل 2026 (V11 Second Update، 100,000 حالة) داخل results/ مجلد المستودع. سيُنتج التشغيل الجديد لوحة نتائج جديدة مُؤرَّخة بالوقت مع ترك التشغيلات المرجعية دون تغيير. إذا أعطى تشغيلك نتيجة مختلفة بشكل معتبر، يُرجى فتح issue على GitHub مع وقت تشغيلك وإصدار المحرك الذي تم إرجاعه في بيانات الاستجابة الوصفية (metadata).

القيود والعمل المستقبلي

حتى عند 100,000 حالة عبر 127 وسمًا للبلد، توجد أربع محدوديات تستحق اعترافًا صريحًا: نقص أخذ عينات (undersampling) للذيل الطويل (long-tail)، تقييم مرة واحدة (single-shot evaluation)، نطاق محصور بمحرك واحد (single-engine scope)، ومصدر بيانات واحد (single-source data origin). يتمّ التعامل مع كل واحدة منها ضمن أعمال متابعة جارية.

تغطية الوسوم ذات الذيل الطويل. التحديث الثاني (Second Update) يمتدّ على 127 وسمًا للبلد، لكن التوزيع غير متوازن — أعلى 10 وسوم تمثّل ≈66.4% من الحالات، والذيل الطويل المكوّن من 97 وسمًا إضافيًا يساهم معًا ≈7.3% (حوالي 7,300 حالة مجتمعة، ~75 حالة لكل وسم في المتوسط). لذلك فإن المركّبات لكل وسم في هذا الذيل الطويل أكثر ضجيجًا (noisier) مما توحي به الأرقام الرئيسية. ستُعيد الدورات القادمة موازنة تعيين الوسوم (label assignment) لتثبيت تقديرات كل وسم.

التقييم مرة واحدة. تم تقييم كل حالة في المجموعة مرة واحدة. تُظهر نماذج اللغات الكبيرة تبايناً غير تافه في المخرجات حتى عند درجة حرارة أخذ عينات منخفضة، لذلك فإن بروتوكول متعدد التشغيلات مع خمس تقييمات لكل حالة والإبلاغ عن التباين هو الخطوة الطبيعية التالية — خصوصاً على مجموعة الحالات الفخّية (trap-case subset)، حيث تُعدّ الاتساق تحت اهتزاز أخذ العينات جزءاً من ادعاء السلامة.

نطاق محرك واحد. يصف هذا التقرير محركاً واحداً. التحليلات المقارنة مقابل أنظمة ذكاء اصطناعي بديلة خارج نطاق هذا العمل؛ قد نتابعها كدراسة مستقلة منفصلة مع منهجية مناسبة، وبنفس إطار العمل (harness) المرخّص من MIT.

بيانات مُولّدة (Synthetic data). إنّ 100,000 حالة مُولّدة اصطناعيًا (synthetically generated)، وليست “حالات اصطناعية” (synthetic cases)، والنتائج لا تنتقل إلى الأداء السريري في العالم الحقيقي. إنّ التقييم على بيانات حقيقية مُوافَق عليها (consented) ومأخوذة من مصادر خارجية (externally-sourced) يتطلّب إشرافًا أخلاقيًا مناسبًا، وهو خارج نطاق هذا المعيار الاصطناعي.

إضافةً إلى هذه الأربع، فإن أكثر امتداد مخطط تأثيراً هو تحقيق التكافؤ متعدد اللغات لكل ولاية قضائية. يخدم محرك Kantesti AI المستخدمين بـ 75+ لغة، وسيقوم تشغيل مجموعات فرعية من Second-Update مُقسّمة حسب اللغة (التركية، الألمانية، الإسبانية، الفرنسية، الإيطالية، البرتغالية، العربية، الماندارين) بقياس جودة المخرجات عبر اللغات التي يدعمها المحرك. سيتم نشر كل تحليل مُقسّم حسب اللغة مع DOI خاص به ومع فرع harness خاص.

جرّب نفس المحرك الذي حقق درجة مركّبة قدرها 99.80% على 100,000 حالة

حمّل لوحة تحليل الدم الخاصة بك إلى نفس نقطة النهاية الخاصة بالإنتاج التي تم تقييمها في هذا المعيار. أكثر من 2 مليون مستخدم حول العالم يستعملون محرّك الذكاء الاصطناعي Kantesti لتفسير أكثر من 15,000 مؤشّر حيوي عبر 75+ لغات.

🔬 جرب النسخة التجريبية المجانية

إضافة كروم متجر التطبيقات متجر جوجل بلاي

📚 كيفية الاستشهاد بهذا المعيار

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). معيار تقني آلي مُسجّل مسبقًا ومبني على Rubric لاختبار تفسير تحليل الدم الخاص بـ Kantesti على 100,000 حالة اختبار مُولّدة اصطناعيًا — التحديث الثاني V11 (التقرير التقني V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 مراجع منهجية خارجية

Mentzer, W. C. (1973). التمييز بين نقص الحديد وسمّة الثلاسيميا. The Lancet, 301(7808), 882.

🏥 ببميد

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). معايير التصنيف لدوري الروماتيزم الأوروبي/الكلية الأمريكية لأمراض الروماتيزم لسنة 2019 لمرض الذئبة الحمامية الجهازية. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 ببميد

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: اختبار هلوسة المجال الطبي للنماذج اللغوية الكبيرة. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%الدرجة المركّبة

100,000الحالات التي تم تقييمها

127وسوم البلدان المغطّاة

0 / 87,412الفخّ: إيجابيات كاذبة

الأسئلة الشائعة

ما مدى دقة محرك الذكاء الاصطناعي Kantesti في حالات الاختبار الاصطناعية؟

على Rubric مُسجّل مسبقًا، تمّ تشغيله على 100,000 حالة اختبار مُولّدة اصطناعيًا عبر ثمانية مجالات محتوى و127 وسمًا للبلد (V11 Second Update)، ووصل المحرّك إلى درجة مركّبة قدرها 99.80 بالمئة، مع عدم وجود أي إشارات فرط تشخيص (hyperdiagnosis flags) عبر 87,412 فرصة مراقبة لحالات “فخّ” (trap-case)، وبمتوسط زمن استجابة قدره 13.26 ثانية. تقيس هذه الدرجة المركّبة مدى تطابق المخرجات مع المُدخلات الاصطناعية، وليس الدقة التشخيصية. الإصدار الأصلي V11 طبّق نفس الـRubric على 15 حالة مُنشأة يدويًا (درجة مركّبة 99.12%)؛ ويُبقي التحديث الثاني الـRubric مطابقًا حرفيًا (byte-identical) ويُوسّعه إلى مجموعة اصطناعية أكبر. تم نشر لوحة الدرجات الكاملة على Figshare تحت DOI 10.6084/m9.figshare.32095435 وعلى GitHub تحت رخصة MIT.

هل تم التحقق سريريًا من محرك الذكاء الاصطناعي Kantesti؟

لا. تم تقييم المحرّك باستخدام معيار تقني آلي (وليس تحققًا سريريًا)، مقابل Rubric تم تجميده في كود المصدر قبل التشغيل الأولي لـV11، وتم الإبقاء عليه مطابقًا حرفيًا (byte-identical) للتحديث الثاني V11، وتم تقييمه على 100,000 حالة اختبار لتحليل دم مُولّدة اصطناعيًا عبر أمراض الدم (hematology)، والغدد الصماء (endocrinology)، والطب الاستقلابي (metabolic medicine)، وأمراض الكبد (hepatology)، وأمراض الكلى (nephrology)، وأمراض القلب (cardiology)، وأمراض الروماتيزم (rheumatology)، والطب الباطني (internal medicine)، مأخوذة من 127 وسمًا للبلد. تم توفير الإشراف السريري من قِبل الدكتور Thomas Klein, MD (ORCID 0009-0009-1490-1321)، وهو اختصاصي أمراض دم معتمد من مجلس (board-certified) ورئيس الشؤون الطبية (Chief Medical Officer) في Kantesti AI.

شنو هي حالة “فخ التشخيص المفرط”؟

حالة “فخ فرط التشخيص” هي سيناريو سريري مُصمَّم خصيصًا لاكتشاف سلوك الإفراط في التشخيص داخل محركات الذكاء الاصطناعي. استخدم معيار V11 الأولي حالتين من هذا النوع كدليل منهجي على المفهوم: فرط بيليروبين غير مباشر معزول متوافق مع متلازمة جيلبرت (حيث يكون التفسير الصحيح هو تعدد أشكال UGT1A1 الحميد وليس التهاب الكبد أو انحلال الدم) ولوحة فحص للبالغين طبيعية بالكامل (حيث يكون الناتج الصحيح هو الطمأنة وليس “مرضًا حدوديًا” مُصطنعًا). قام التحديث الثاني لـ V11 بتوسيع منهجية هذا الفخ إلى مجموعة مخصصة من 8,723 حالة، منتجة 87,412 فرصة مُراقَبة لعلامات فرط التشخيص — وظل معدل الإيجابيات الكاذبة للمحرك عند الصفر.

هل يمكن إعادة إنتاج تقييم محرك الذكاء الاصطناعي Kantesti؟

يتم إصدار إطار التقييم الكامل تحت رخصة MIT كملف Python واحد مستقل. يتطلب التشغيل الأولي لـ V11 فقط زوج بيانات اعتماد API من Kantesti وPython 3.10 أو أحدث. يضيف التحديث الثاني لـ V11 مُحمِّل حالات SQL للقراءة فقط مع معاملات (parameterised)، ويتطلب بيانات اعتماد من مستودع Kantesti السريري (a bench_reader دور بدون صلاحيات لتحديد الجداول). الكود، وSQL الخاص بمُحمِّل الحالات، وrubric (مطابق حرفيًا بين الإصدارات)، وعينة عشوائية مُقسَّمة (stratified) من الاستجابات الخام للمحرك من كل من تشغيل V11 الأولي وتشغيلات مرجعية للتحديث الثاني متاحة على github.com/emirhanai/kantesti-blood-test-benchmark ومُنعكسة (mirrored) أيضًا على Figshare وResearchGate وAcademia.edu.

كيف يميّز محرك الذكاء الاصطناعي Kantesti بين نقص الحديد وسمّة بيتا-ثالاسيميا؟

يطبق المحرك مؤشر Mentzer، المحسوب على أنه حجم الكريات المتوسطة (mean corpuscular volume) مقسومًا على عدد كريات الدم الحمراء. يدعم مؤشر Mentzer أعلى من 13 فقر الدم بسبب نقص الحديد، بينما يدعم قيمة أقل من 13 سِمة بيتا-ثالاسيميا. في معيار V11 الأولي، تم تصنيف العرضين بشكل صحيح مع حساب واضح لمؤشر Mentzer، مدعومًا بسياق الفيريتين (ferritin) وRDW وHbA2. عبر مجموعة 100,000 حالة في التحديث الثاني لـ V11، تم الحفاظ على نفس السلوك التفريقي على مستوى السكان.

فين نقدر نلقى البيانات الخام ديال المقارنة وكود المصدر؟

تم إيداع التقرير التقني على Figshare تحت DOI 10.6084/m9.figshare.32095435 (يغطي كلًا من الإصدار الأولي لـ V11 والتحديث الثاني لـ V11)، ومُنعكس على منشور ResearchGate رقم 404175463 وعلى ورقة Academia.edu رقم 165956808 — وكلاهما مُحدَّث بعنوان التحديث الثاني لـ V11 ونتائج 100,000 حالة — كما أن إطار Python المرخّص برخصة MIT مع جميع نتائج التشغيل المرجعي متاح على github.com/emirhanai/kantesti-blood-test-benchmark. تضمن شبكة النسخ المتطابقة عبر أربع منصات توفرًا طويل الأمد ومرونة في الاستشهاد.

لماذا يُعدّ التسجيل المسبق مهمًا لمعايير الطب بالذكاء الاصطناعي؟

يمنع التسجيل المسبق “ضبط المعيار بعد وقوع الحدث” (post-hoc rubric tuning)، وهو الطريقة الأكثر شيوعًا التي تقوم بها الشركات التي تدير المعايير بتضخيم أرقامها الخاصة. من خلال الالتزام بتضمين المعيار في كود المصدر قبل أي استدعاء للمحرك ونشر الأداة علنًا، تصبح تواريخ مؤلف المعيار قابلة للفحص في نظام التحكم بالإصدارات، ولا يمكن أن تكون نتائج المحرك قد شكّلت معايير التقييم.

هل يتضمن هذا المعيار مقارنات مع محركات ذكاء اصطناعي أخرى؟

لا. يقدّم تقرير V11 — سواء الإصدار الأولي أو التحديث الثاني — عمدًا محركًا واحدًا مقابل rubric ثابت بدل وضعه في مواجهة أنظمة تجارية بديلة. إطار العمل مفتوح المصدر تحت رخصة MIT (الآن يشمل مُحمِّل حالات SQL)، لذلك يمكن للباحثين المستقلين تقييم أي محرك يختارونه مقابل نفس rubric ومُحمِّل الحالات ونشر نتائجهم.

هل حالات المرضى حقيقية أم مُصطنعة؟

جميع الحالات مُولّدة اصطناعيًا — 15 حالة مُنشأة يدويًا في الإصدار الأولي V11 و100,000 حالة في التحديث الثاني. ليست “حالات اصطناعية”: لا توجد بيانات مُولّدة (no synthetic data)، ولا توجد عملية موافقة (consent process)، ولا توجد إزالة تحديد الهوية (de-identification)، لأنّه لا توجد بيانات شخصية ضمن المجموعة (cohort). لا تظهر أي بيانات شخصية في الحزمة المنشورة (published harness) أو التقرير التقني أو مجموعات البيانات المُفرج عنها.

⚕️ تنبيه طبي & تضارب المصالح

هذا تقرير المعيار المُقارن مخصص للبحث والشفافية المنهجية. لا يشكل نصيحة طبية، ولا يعتبر تشخيصًا، ولا يُغني عن الرعاية الطبية المهنية؛ أي نتيجة هنا لا ينبغي استعمالها لتأخير أو تجنب زيارة طبيب. استشر دائمًا مزود رعاية صحية مؤهلًا لاتخاذ قرارات التشخيص والعلاج. هذا معيار داخلي يتم تشغيله ذاتيًا لمحرك الشركة الخاص، ولم يتم التحقق منه بشكل مستقل أو مراجعته من قِبل الأقران. الدرجة المركبة تقيس مدى الامتثال لدليل ثابت (بنية التقرير، الاسترجاع ديال الكلمات المفتاحية ونظام التقييم، والكمون)؛ وليست مقياسًا لدقة التشخيص في العالم الحقيقي أو السلامة السريرية. كلا المؤلفين يعملان لدى Kantesti Ltd ويمتلكان حصصًا فيها، والمحرك قيد التقييم هو منتج تجاري لنفس المؤسسة. يتم التخفيف من تضارب المصالح هذا عبر تسجيل دليل التقييم مُسبقًا داخل كود المصدر، وإطلاق الـ harness تحت رخصة MIT، ونشر عينة عشوائية مُقسّمة طبقيًا من الاستجابات الخام للمحرك.

إشارات الثقة E-E-A-T

⭐

خبرة

15+ سنة من ممارسة طب أمراض الدم والطب المخبري السريرية، مع الإشراف على اختيار لوحة الحالات.

📋

خبرة

تصميم معيار مُسجَّل مسبقًا مع عقوبات صريحة لفرط التشخيص وأنظمة تقييم سريرية معترف بها (Mentzer، FIB-4، EULAR/ACR، KDIGO).

👤

السلطة

المؤلف الرئيسي الدكتور توماس كلاين، دكتوراه في الطب (ORCID 0009-0009-1490-1321). التنفيذ بواسطة جوليان أميرهان بولوت، الرئيس التنفيذي لدى Kantesti Ltd.

🛡️

الجدارة بالثقة

أداة قابلة لإعادة الإنتاج تحت رخصة MIT، ونشر استجابات المحرك الخام، وإفصاح مفتوح عن تضارب المصالح، وشبكة مرآة بحثية عبر أربع منصات.

🏢 شركة كانتيستي المحدودة مسجّل في إنجلترا وويلز · رقم الشركة. 17090423 لندن، المملكة المتحدة · kantesti.net