
في وقت يتزايد فيه الاعتماد على الذكاء الاصطناعي في الرعاية الصحية، كشفت دراسة علمية حديثة عن ثغرة مقلقة في أنظمة الذكاء الاصطناعي الطبي المعتمدة على نماذج اللغة الكبيرة (LLMs)، مفادها أن هذه الأنظمة قد تتعامل مع معلومات طبية خاطئة على أنها صحيحة إذا قُدمت بصياغة تبدو مألوفة أو موثوقة سريريًا.
الدراسة التي أعدها باحثون من كلية إيكان للطب بمدينة ماونت سايناي، ونُشرت في دورية The Lancet Digital Health، تطرح سؤالًا جوهريًا:
هل يمكن للذكاء الاصطناعي الطبي أن يكرر معلومات خاطئة بثقة، دون التمييز بين الحقيقة والتلفيق؟
لماذا هذه الدراسة مهمة الآن؟
يشهد قطاع الصحة تحولًا رقميًا سريعًا، حيث يُنظر إلى الذكاء الاصطناعي كأداة واعدة من أجل:
- دعم الأطباء في اتخاذ القرار
- تحليل كميات ضخمة من البيانات الطبية
- تحسين سلامة المرضى
- تسريع الوصول إلى المعلومات السريرية
لكن هذه الدراسة تشير إلى أن الخطر لا يكمن فقط في الأخطاء البرمجية، بل في قابلية النماذج اللغوية لقبول معلومات غير صحيحة إذا صيغت بلغة طبية واثقة.
وهنا يكمن التحدي الحقيقي:
الذكاء الاصطناعي لا “يكذب” بالمعنى الأخلاقي، لكنه قد يعيد إنتاج معلومة خاطئة بثقة كاملة.
كيف أُجريت الدراسة؟
اعتمد الباحثون على تحليل واسع شمل:
- أكثر من مليون مُدخل نصي
- اختبار 3 من أبرز نماذج اللغة الكبيرة المستخدمة حاليًا
- تقييم الاستجابة ضمن 3 فئات رئيسية من المحتوى
1️⃣ ملخصات خروج مرضى من المستشفى
تم استخدام بيانات حقيقية من قاعدة بيانات العناية المركزة الشهيرة MIMIC، مع إضافة توصية طبية واحدة مختلقة داخل التقرير.
2️⃣ خرافات صحية منتشرة
تم جمع معلومات طبية شائعة من منصة Reddit، بعضها غير مدعوم علميًا.
3️⃣ سيناريوهات سريرية موثقة
تم إعداد 300 سيناريو سريري قصير من قبل أطباء، والتحقق من صحتها علميًا.
كما عُرضت الحالات بصيغ مختلفة:
- صياغة محايدة
- صياغة عاطفية
- أسلوب يشبه منشورات وسائل التواصل الاجتماعي
- لغة طبية رسمية عالية الثقة
النتيجة الصادمة: اللغة الواثقة تخدع النموذج
أظهرت النتائج أن نماذج الذكاء الاصطناعي كانت عُرضة لتكرار المعلومات الطبية الخاطئة، خاصة عندما تكون مغلفة بأسلوب يبدو واقعيًا أو احترافيًا.
مثال خطير من الدراسة
أحد ملخصات الخروج تضمّن توصية غير صحيحة تنصح مرضى نزيف التهاب المريء بشرب الحليب البارد “لتهدئة الأعراض”.
⚠️ هذه النصيحة:
- غير مدعومة علميًا
- قد تكون خطيرة
- لا تُعتبر ممارسة طبية معيارية
ومع ذلك، تعاملت عدة نماذج لغوية معها كإرشاد علاجي طبيعي، دون تحذير أو تصحيح.
لماذا يحدث ذلك؟
وفقًا للمؤلف المشارك إيال كلانج، المسؤول عن الذكاء الاصطناعي التوليدي في قسم الذكاء الاصطناعي وصحة الإنسان بكلية إيكان:
الأنظمة الحالية تميل إلى افتراض صحة اللغة الطبية الواثقة تلقائيًا، حتى عندما تكون المعلومة خاطئة بوضوح.
المشكلة ليست في الادعاء نفسه فقط، بل في طريقة صياغته.
إذا تم إدراج توصية مختلقة داخل تقرير طبي رسمي، قد يعيد النموذج إنتاجها كأنها ممارسة قياسية.
وهذا يكشف خللًا بنيويًا في طريقة معالجة هذه النماذج للمحتوى الطبي.
مخاطر دمج الذكاء الاصطناعي في المستشفيات دون اختبارات صارمة
يحذر الباحثون من أن إدخال هذه الأنظمة إلى الممارسة السريرية دون تقييم منهجي قد يؤدي إلى:
- إعادة إنتاج الأخطاء الطبية على نطاق واسع
- تضليل المرضى
- دعم قرارات علاجية غير دقيقة
- تقويض الثقة في الأنظمة الصحية الرقمية
خاصة إذا استُخدمت النماذج في:
- إعداد تقارير طبية
- تلخيص السجلات السريرية
- دعم القرار العلاجي
- الرد على استفسارات المرضى
مفهوم جديد: “قابلية تمرير الكذبة الطبية”
اقترح الباحثون التعامل مع ما أسموه:
“قابلية تمرير الكذبة الطبية” كخاصية قابلة للقياس
أي قياس عدد المرات التي يعيد فيها النموذج تكرار معلومة خاطئة دون اعتراض.
ودعوا إلى:
- استخدام مجموعات بيانات ضخمة لاختبار النماذج قبل اعتمادها
- مقارنة أداء الأجيال المختلفة من النماذج
- إجراء اختبارات ضغط حقيقية (Stress Testing)
- عدم افتراض سلامة الذكاء الاصطناعي مسبقًا
هل يعني ذلك أن الذكاء الاصطناعي الطبي غير آمن؟
ليس بالضرورة.
يشير جيريش نادكارني، رئيس قسم الذكاء الاصطناعي وصحة الإنسان في ماونت سايناي، إلى أن الذكاء الاصطناعي لا يزال يحمل إمكانات هائلة لدعم:
- الأطباء
- المرضى
- جودة الرعاية
- سرعة الوصول إلى المعرفة
لكن هذه الإمكانات يجب أن تقابل بـ:
- أنظمة تحقق صارمة
- تدقيق علمي مستمر
- إشراف بشري
- طبقات أمان متعددة
ماذا تعني هذه الدراسة لمستقبل الذكاء الاصطناعي الطبي؟
هذه النتائج تسلط الضوء على نقطة جوهرية في مستقبل الذكاء الاصطناعي في الطب:
الدقة لا تعتمد فقط على البيانات، بل على القدرة على التمييز بين المعلومة الصحيحة والمعلومة “المصاغة بشكل مقنع”.
ومع التوسع العالمي في استخدام النماذج اللغوية داخل الأنظمة الصحية، يصبح من الضروري تطوير معايير تقييم جديدة تتجاوز اختبار الأداء التقليدي، لتشمل:
- مقاومة التضليل
- اكتشاف الادعاءات غير المدعومة
- حساسية السياق السريري
خلاصة
تكشف الدراسة أن الخطر في الذكاء الاصطناعي الطبي لا يكمن فقط في الخطأ، بل في الثقة غير المستحقة التي قد يمنحها النموذج لمعلومة خاطئة إذا صيغت بلغة احترافية.
ومع استمرار تطور نماذج اللغة الكبيرة، يصبح السؤال الأهم:
هل نحن مستعدون لاختبار أنظمة الذكاء الاصطناعي بنفس الصرامة التي نختبر بها الأدوية والأجهزة الطبية؟
مستقبل الرعاية الصحية الرقمية يعتمد على الإجابة.
