أظهرت دراسة حديثةٌ حول تعلم الآلة أجراها فريقٌ من جامعة أكسفورد من بينهم إيليا شوميلوف Ilia Shumailov)) -الباحث في جوجل ديبمايند ((Google DeepMind- أن الذكاء الاصطناعي التوليدي (Generative AI) يقف على حافة الانهيار، حيث إن الاستخدام “العشوائي” لمحتوى تم توليده من قبل نماذج الذكاء الاصطناعي لتدريب نماذج اللغة الكبيرة (LLMs) -مثل تطبيق ChatGPT– قد ينجُمُ عنه “عيوبٌ لا يُمكن إصلاحُها”.
وأشارت الدراسة إلى أن “هجمات تلاعب المحتوى بنماذج اللغة ليست بالأمر الجديد، فمن أبرز أشكالها إنشاءُ عناوين مُضللةٍ وتقديمُ مُحتوى كاذب، وتنتمي هذه الهجمات إلى فئة “نماذج اللغة” البشرية التي تعمل على تضليل الشبكات الاجتماعية وخوارزميات البحث… لكنّ الجديد هنا هو النطاق الواسع للتضليل مع ظهور نماذج اللغة الكبيرة وإمكانية أتمتة هذه الهجمات”.
وكما يقول المثل القديم: “إذا كانت جودة المُدخلات منخفضةً، فبالطبع سيكون الناتج رديئاً”، وإذا كان الكثير من المحتوى المُولد بواسطة الذكاء الاصطناعي سيئاً (أي مليئاً بالمعلومات المُضللة وغير الدقيقة) وتسرّب إلى بيانات تدريب البرامج مثل ChatGPT أو Gemini أو مجموعةٍ من نماذج اللغة الكبيرة الأخرى، فقد يؤثر سلباً على جودة الناتج.
وفقاً لما سبق، سيبدأ انهيار نموذج الذكاء الاصطناعي إذا استمرَّ بتقديم عباراتٍ غير مفهومةٍ تتوارى تحت ستار الإجابات الجيدة. ورغمَ أن الكلمة المفتاحية في هذا السيناريو هي “إذا“، فقد يتمكن الباحثون من الحيلولة دون هذا عن طريق اتخاذ الاحتياطات اللازمة لمعالجة وتنظيم البيانات المُصنّعة (synthetic data) عند جمعهم للمعلومات من الإنترنت.
النقاط الأساسية:
- يحدث انهيار النموذج عندما تقوم نماذج الذكاء الاصطناعي بإنشاء محتوى غير دقيقٍ بسبب تدريبها على بياناتٍ منخفضة الجودة.
- يرى العديد من الباحثين أن انهيار النموذج يشكل تهديداً محتملاً لا سيّما عند استخدام بياناتٍ مُصنّعة.
- قد يساعد ضمان جودة البيانات المُدخلة والإشراف البشري في احتواء خطر انهيار النموذج.
- يقلُّ خطر انهيار النموذج عند التنظيم الدقيق للبيانات وتحسين جودة محتوى الذكاء الاصطناعي التوليدي.
- تساعد بعض التقنيات مثل التعلم المُعزَّز ((Reinforcement Learning بالتعاضد مع المراجعة البشرية في الحفاظ على جودة أداء نموذج الذكاء الاصطناعي وتحسينه.
ما مدى احتمالية انهيار النموذج؟
تحيط الضجة والآراء المثيرة بالذكاء الاصطناعي، ويعتقد العديد من الباحثين أن فكرة انهيار النموذج تُعَد خطراً مُحدقاً يجب التصدي له أثناء تطوير النماذج، لا سيّما عند استخدام البيانات المُصنّعة.
وقال توماس راندال (Thomas Randall) مدير أبحاث سوق الذكاء الاصطناعي لدى مجموعة الأبحاث إنفوتيك ((Info-Tech Research Group:
“يجب أن تعي الشركات مدى خطورة انهيار النموذج، ولا سيّما عند استخدامها نماذج الذكاء الاصطناعي لإنشاء بياناتٍ مُصنَّعةٍ، ما يعني إنشاء هذه النماذج لمعلوماتٍ متطابقةٍ إحصائياً مع البيانات الحقيقية التي تم تدريبها عليها”.
“على سبيل المثال: إنشاء بياناتٍ للتدريب، واختبار نماذج البيانات، أو محاكاة بيانات المرضى؛ ويكمن الخطر في استخدام هذه النماذج للبيانات المُصنّعة كمُدخلاتٍ للتدريب ومن ثم إنشاء محتوى غير دقيقٍ أو يتضمّن أخطاءَ لا حصرَ لها، لتكون النتيجة تدهور أداء نموذج الذكاء الاصطناعي”.
باختصار، تزداد خطورة انهيار النموذج كلما تم تدريبه على بياناتٍ منخفضة الجودة، لذلك يجب أن يتحقق الباحثون من نوعية البيانات المُستخدمة في هذا التدريب. ويُشير راندال لإمكانية تحرّي الشركات دقة البيانات المُستخدمة من قِبل مزوّدي الذكاء الاصطناعي لتدريب وتحسين النماذج.
ويتفق ميكا آدامز (Micah Adams) -رئيس قسم تطوير العمليات لدى Focused Labs- مع راندال في أنّ انهيار النموذج يُعَد خطراً يجب التعامل معه بشكلٍ جدّي، قائلاً:
“أعتقد أن خطر انهيار النموذج حقيقيٌّ نظراً لاستمرارنا بتدريب نظم الذكاء الاصطناعي (AI) مستخدمين مخزن المعلومات المتاح على الإنترنت، لنقوم بعد ذلك بنشر ومشاركة البيانات المُولدة بواسطة الذكاء الاصطناعي على نفس المصدر (الذي استقينا منه المعلومات). وهكذا، فإننا عملياً نُعكّر البئرَ الذي يمدنا بالمياه”.
ويتابع: “بالتالي، عندما نلجأ لأسهل طرق توليد البيانات باستخدام الذكاء الاصطناعي ونماذج اللغة الكبيرة (LLMs) دون رقيب أو حسيب، فإن ذلك يجعل من هذا التهديد أكثرَ واقعية”.
ما مدى خطورة انهيار النموذج؟
رغم اتفاق العديد من الباحثين على أن انهيار النموذج يُعَد خطراً حقيقياً، فقد أخبر نيكولاوس فاسلوغلو (Nikolaos Vasloglou) -نائب رئيس أبحاث تعلم الآلة لدى RelationalAI– موقع Techopedia أنه يمكن تفاديه من خلال اهتمام الباحثين بطرق إعداد البيانات المُدخلة إلى النموذج بشكلٍ صحيح، وأضاف:
“أعتقد أن هذا الخطر قد يكون معدوماً في حال اتّبَع خبراء البيانات الإرشادات التوجيهية اللازمة لإعدادها. ونظراً لاستمرار إمكانية تسلل البيانات الخاطئة إلى بيانات التدريب -سواء تم جمعها من الويب، أو نماذج اللغة الكبيرة، أو المحاكاة، أو أي مصدر آخر- فيجب دوماً تنقيحُها رغم صعوبة هذه المهمة”.
من هذا المنطلق، وفي حال قام الباحثون بتنظيم البيانات وتنقيحها بعنايةٍ سيقل خطر تدهور النموذج، كما يجب الأخذ بعين الاعتبار أن جودة محتوى الذكاء الاصطناعي التوليدي ستتحسّن بمرور الوقت، لذا فإن تأثير البيانات المُصنّعة المغلوطة سيتضاءل بمرور الوقت.
ومثلما أوضح فاسلوغلو، فقد شارك مطوّرو Llama 3.1 كيفية استخدامهم للبيانات المُصنّعة وتكرارهم العملية عدة مراتٍ لتحسين جودتها بمرور الوقت.
سبل منع انهيار النموذج
يمكن التصدي لانهيار النموذج من خلال ضمان الإشراف البشري على البيانات المُدخلة إلى النموذج، وتنويع مصادرها، والتأكد من معالجتها بشفافيةٍ تامة.
وشدّد راندال على “أهمية الإشراف البشري للتأكد من جودة أداء نموذج الذكاء الاصطناعي، حيث إن استخدام التقنيات -المتفق عليها داخل المجال- مثل التعلم المُعزّز مع المراجعة البشرية سيضمن هذا الأمر؛ وغالباً ما يستعين مزوّدو نماذج اللغة الكبيرة أمثال OpenAI وAnthropic بالشركات الكبرى التي تضم عدداً كبيراً من الموظفين لتحسين نماذجهم (مثل Surge AI أو Appen)”.
كذلك، يمكن أن يحول الإشراف البشري المتكرر المعنيّ بمراجعة نماذج الذكاء الاصطناعي وتحديثها دون حدوث بعض المشاكل الأخرى، مثل تغير هيكل البيانات أو التحيّزات التي تؤثر سلباً على جودة المُخرجات.
بعبارة أخرى، يُعَد الالتزام بجودة البيانات المُدخلة مفتاح تفادي انهيار النموذج، علماً بأن استخدام مواقع مثل Common Crawl web data قد يكون مفيداً في تدريب النماذج. لكنْ، وبالنظر إلى زيادة المحتوى المُولد بواسطة الذكاء الاصطناعي، يجب على الباحثين الاستعانة بمصادر بياناتٍ أكثرَ اتساقاً.
ملخص ختامي
بينما يُعَد انهيار النموذج خطراً حقيقياً يجب الالتفات إليه، فلا داعي للمبالغة بالقلق حوله، ولكن يجب التصدي له وهو لا يزال في مهده، وإلا ستنال عواقبه الوخيمة كلاً من الذكاء الاصطناعي والإنترنت على حدٍّ سواء؛ علماً بأن فرص انهيار النموذج تتضاءل لدى الشركات الحريصة على جودة البيانات المُدخلة واستخدام تقنياتٍ مثل التعلم المُعزّز مع الاهتمام بالمراجعة البشرية.