روبوتات استخلاص البيانات للذكاء الاصطناعي تسبب تعطُل مواقع أكاديمية
25 June 2025
نشرت بتاريخ 25 يونيو 2025
تعمل هذه البرمجيات المؤتمتة على جمع البيانات من الويب بهدف تدريب أدوات الذكاء الاصطناعي، ما يثقل كاهل المواقع الأكاديمية.
الحجم الهائل لحركة مرور روبوتات استخلاص البيانات للذكاء الاصطناعي فاق
قدرة بعض المواقع على استيعاب الزيارات.
حقوق الصورة: Marco VDM/Getty
في فبراير الماضي، أخذ موقع «ديسكفر لايف» DiscoverLife، وهو مستودع صور على الإنترنت يضم حوالي 3 ملايين صورة لأنواع حية مختلفة، في استقبال ملايين الزيارات يوميًا، ما شكل كثافة مرورية أكبر كثيرًا من المعتاد على الموقع. وفي أحيان، بلغت حركة المرور على الموقع من الكثافة ما جعلها تتسبب في بطء الموقع، إلى حد الشلل التام. والمذنب هنا هو: روبوتات الذكاء الاصطناعي.
فهذه البرمجيات المؤتمتة، التي تسعى إلى "استخلاص" قدر هائل من محتوى المواقع الإلكترونية، تخلق متاعب متزايدة لجهات النشر الأكاديمية والباحثين الذين يديرون مواقع تستضيف ما تنشره الدوريات من أوراق بحثية وقواعد بيانات وغير ذلك من الموارد.
ولأن جانبًا كبيرًا من حركة المرور تلك يأتي من عناوين بروتوكول إنترنت مُجهًّلة، قاد النمو المفاجئ في حجم هذه الحركة العديد من ملاك المواقع إلى الاشتباه في أن أدوات استخلاص البيانات من الويب تجمع البيانات بهدف تدريب أدوات الذكاء الاصطناعي التوليدي مثل روبوتات الدردشة وأدوات استحداث الصور.
حول ذلك، يقول آندرو بيتس، الرئيس التنفيذي لشركة «بي إس آي» PSI الكائنة في أوكسفورد بالمملكة المتحدة، وهي شركة توفر مستودعًا عالميًا لعناوين بروتوكولات الإنترنت الموثوقة لخدمة الشبكات الأكاديمية: "الوضع حاليًا جنوني. المشكلة الأكبر هنا هي أن الحجم الهائل لطلبات الوصول إلى المواقع الإلكترونية يثقل كاهل أنظمتها. وهو ما يكبد أموالًا ويسبب أعطالًا لمستخدمين فعليين".
من هنا، يعمل من يديرون هذه المواقع على ابتكار طرق لحجب وصول روبوتات استخلاص البيانات لها، والحد من الأعطال التي تسببها هذه الروبوتات. غير أنها مهمة محفوفة بالصعاب، لا سيما للمنظمات محدودة الموارد. ما يُعقب عليه مايكل أور، اختصاصي علم الحيوان لدى متحف التاريخ الطبيعي لولاية شتوتجارت في ألمانيا قائلًا: "مثل هذه المؤسسات الصغيرة قد تواجه الانقراض، إذا لم تعالج المشكلات من هذا النوع".
سيل عارم من روبوتات استخلاص البيانات
يعود تاريخ روبوتات استخلاص البيانات من الويب لعقود، وبعضها أثبت جدواه. على سبيل المثال، يملك محرك بحث «جوجل» وغيره من محركات البحث روبوتات استخلاص بيانات تُجري مسحًا لملايين صفحات الويب بهدف الوقوف على محتواها واستخراج البيانات منه. غير أن ظهور أدوات الذكاء الاصطناعي التوليدي أفرز سيلًا من روبوتات استخلاص البيانات، وكثير منها "ضار"، ويجمع البيانات من دون الحصول على تصريح بذلك.
ومما يدل على ذلك، أن مواقع مؤسسة «بي إم جيه» BMJ، وهي جهة نشر كائنة في لندن تُصدر العدد من الدوريات الطبية، فاقت حركة مرور روبوتات استخلاص البيانات عليها تلك الواردة من مستخدمين بشريين. وبحسب ما يفيد إيان مولفاني، مدير الشؤون التقنية لدى جهة النشر، فاقت حملة الزيارات المكثفة التي شنتها هذه الروبوتات قدرة خوادم هذه المواقع على استيعاب حركة المرور، ما جعل الزبائن المخولين بتصريح بزيارة المواقع يواجهون انقطاعات في خدماتها.
كذلك أفادت جهات نشر أخرى بمواجهتها مشكلات مماثلة. على سبيل المثال، يقول جيس كاينث، المقيم في مدينة برايتون بالمملكة المتحدة وهو المدير المسؤول عن توريد الخدمات لدى خدمة استضافة المواقع «هاي واير بريس» HighWire Press، المتخصصة في نشر الإصدارات الأكاديمية: "رصدنا ارتفاعًا هائلًا في ما نطلق عليه حركة مرور الروبوتات الخبيثة. وهذه مشكلة جسيمة".
كذلك أخطر «الاتحاد الكوفيدرالي لمستودعات الوصول المفتوح» The Confederation of Open Access Repositories، أو اختصارًا (COAR) في إبريل الماضي بأن أكثر من 90% من أعضائه الستة والستين صرحوا في استطلاع أجراه الاتحاد بأن روبوتات استخلاص البيانات للذكاء الاصطناعي تجمع محتوى من مواقعهم، وبأن حوالي ثلثي هذا العدد قد واجه أعطالًا في خدمات هذه المواقع من جراء ذلك. حول ذلك، تقول كاثلين شيرار، المديرة التنفيذية للاتحاد: "المستودعات تتيح الوصول الحر إلى محتواها. لذا، يمكن القول بأننا نرحب بإعادة استخدام المحتوى الذي نعرضه. غير أن بعض هذه الروبوتات تستخلص بشراسة البيانات، ما يسبب أعطالًا في الخدمة، فضلًا عن مشكلات تشغيلية ملحوظة".
بيانات تدريبية
أسهم إعلان جاء مع إصدار نموذج القوالب اللغوية الكبيرة الصيني «ديبسيك» Deepseek في ارتفاع أعداد روبوتات استخلاص البيانات للذكاء الاصطناعي. فقبل صدور هذا النموذج، تطلب بناء نماذج القوالب اللغوية الكبيرة قدرًا كبيرًا من الإمكانات الحوسبية، بحسب ما يوضح روهيت براجاباتي، مدير العمليات وشؤون التطوير في مؤسسة «هاي واير بريس». غير أن مطوري «ديبسيك» نجحوا في البرهنة على إمكانية إنتاج نماذج قوالب لغوية كبيرة تنافس أدوات الذكاء الاصطناعي التوليدي الأكثر شعبية بعدد أقل من الموارد، ما أفرز كمًا هائلًا من روبوتات استخلاص البيانات المطلوبة لتدريب هذا النوع من النماذج.
وتستهدف هذه الروبوتات بالدرجة الأولى المواقع الأكاديمية، لاحتوائها على بيانات ثمينة لمطوري نماذج الذكاء الاصطناعي. في ذلك الصدد، يقول ويل آلين، نائب الرئيس المعني بالوسائط الإعلامية ومنتجات حماية خصوصية المستخدمين من نماذج الذكاء الاصطناعي لدى شركة «كلاودفلير» Cloudflare، العاملة في مجال تزويد خدمات الويب بمدينة سان فرانسيسكو بولاية كاليفورنيا الأمريكية: "إذا كان المحتوى الذي يستضيفه موقعك حديثًا أو ذي صلة بالأحداث الجارية، فسيكون محل اهتمام شديد من أي من يصمم هذه الروبوتات الحديثة لاستخلاص البيانات للذكاء الاصطناعي". ورغم أن عديدًا من مواقع الدوريات يُتاح الوصول إليها باشتراك مدفوع، ما يجعل استخلاص البيانات من محتواها أصعب قليلًا، فبحسب ما يضيفه آلين، "تبرَع الروبوتات المتطورة الخبيثة في تجاوُز هذه القيود على الوصول إلى هذا المحتوى".
أما جوش جاريت، نائب رئيس شؤون تنمية الذكاء الاصطناعي في شركة «وايلي» Wiley، وهي جهة نشر كائنة في مدينة هوبوكين بولاية نيو جيرسي الأمريكية، فيلفت إلى أن الشركة بدأ تشهد محاولات من هذه الروبوتات للوصول إلى محتواها، سواء المتاح بسياسة وصول مفتوح أو المتوفر باشتراك مدفوع. من هنا، في إبريل الماضي، نشرت الشركة بيانًا حول استخلاص البيانات المحظور قانونًا، مشددة على ضرورة استصدار مطوري نماذج الذكاء الاصطناعي لتصريح قبل لجوئهم إلى استخلاص بيانات من محتوى مواقعها الخاضع لحقوق تأليف ونشر.
ردة فعل محسوبة
في الوقت الحالي، يعكف من يديرون المواقع الأكاديمية على إيجاد حلول تقنية لهذه المشكلة. لكن في كثير من الأحوال، من الصعوبة بمكان ألا يأتي حجب وصول الروبوتات إلى هذه المواقع على حساب المستخدم العادي. إحدى الطرق التقليدية لمنع الروبوتات من استخلاص البيانات دون تصريح مسبق بذلك، تتمثل في دمج ملف في الكود البرمجي للموقع. وهذا الملف يُملي على الروبوتات المسموح به والممنوع في استخدام الموقع. إلا أن هذه الروبوتات يمكن ببساطة برمجتها لتجاهل هذه التعليمات.
كذلك يُمكن ببساطة محاولة حظر جميع الأنشطة التي يبدو أنها قد تبدر عن روبوت. غير أن فرض غطاء حماية كذلك قد يسبب مشكلات للمستخدمين المصرح لهم باستعمال الموقع. فبحسب ما يوضح مولفاني، يستخدم الأكاديميون في كثير من الأحيان مواقع الدوريات على نحو يُحتمل أن يبدو أنه قد يبدر عن روبوت. وذلك، على سبيل المثال، باستخدام خوادم وكيلة لتصفح الدوريات عن بُعد باستخدام اشتراكاتهم في مكتبات مؤسساتهم الجامعية (ما يعني أن عديدًا من طلبات زيارة الموقع قد ترد من عنوان بروتوكول إنترنت واحد). وعليه، يقول مولفاني: "علينا أن نوازن بين حماية مواقعنا من انهيار خدماتها بشكل مفاجئ بسبب الارتفاع الكبير في حركة المرور عليها، وأن نتوخى القيام بذلك على نحو لا يُخل بوصول عملائنا إلى هذه الموارد. فمما لا شك فيه أن هذه مشكلة مزعجة وتسترعي قدرًا كبيرًا من الاهتمام للتخفيف من وطأة المخاطر الناجمة عنها".
كذلك يُمكن للمواقع أن تحجب وصول روبوتات استخلاص بيانات محددة إليها، غير أن هذا يتطلب الفصل أولًا بين الروبوتات "الضارة" و"النافعة". ومن بين جملة شركات أخرى، تبذل شركتا «كلاود فاير» وشركة «بي إس آي» العديد من الجهود لبناء قوائم تحقق هذا الفصل. لكن بحسب ما يوضح، براجاباتي، العديد من روبوتات استخلاص البيانات الجديدة مجهولة المصدر وغير مُعرفة، ما يخلق تحديًا في تمييز الضار والخبيث منها.
ورغم وجود العديد من الأدوات التي تخدم في محاربة هذه الروبوتات، تكتسب مشكلة روبوتات استخلاص البيانات للذكاء الاصطناعي أبعادًا جديدة لا آخر لها، وتعجز التدابير الراهنة إلى اليوم عن منع كل عمليات استخلاص البيانات المزعجة تلك. ختامًا، يقول أور: "نحتاج حقيقةً إلى اتفاقات دولية حول الاستخدام المنُصف لأدوات الذكاء الاصطناعي، وحول احترام هذه الأنواع من الموارد. وإلا، لن نجد مستقبلًا موارد كتلك لتدريب أدوات الذكاء الاصطناعي".
هذه ترجمة المقال الإنجليزي المنشور في دورية Nature بتاريخ 2 يونيو 2025.
doi:10.1038/nmiddleeast.2025.93
تواصل معنا: