OpenAI تنشر برامجًا يزحف عبر الإنترنت لقراءة كل شيء لتدريب ChatGPT
أطلقت شركة (أوبن أي آي) OpenAI زاحفًا جديدًا للشبكة اسمه (جي بي تي بوت) GPTBot، ومهمته هي جَوْب شبكة الإنترنت بحثًا عن المحتوى لتدريب نماذج اللغات الكبيرة، مثل: (جي بي تي-4) GPT-4، التي تقوم عليها روبوت الدردشة، مثل: (شات جي بي تي) ChatGPT.
وقالت الشركة الناشئة في منشور على مدونتها: «إن السماح لـ (جي بي تي بوت) GPTBot بالوصول إلى موقعك قد يساعد نماذج الذكاء الاصطناعي في أن تصبح أدق، وفي تحسين قدراتها العامة وسلامتها».
وتدّعي رائدة مجال الذكاء الاصطناعي التوليدي أيضًا أن «(جي بي تي بوت) يخضع للترشيح والتصفية لإزالة المصادر المأجورة، ومعلومات التعريف الشخصية، والنصوص التي تنتهك سياساتها».
ولزيادة طمأنينة المستخدمين، فإن (أوبن أي آي) OpenAI توفر طريقة لحظر (جي بي تي بوت) بسهولة عن طريق إضافة مدخل إلى ملف robot.txt الخاص بمواقع الويب، الذي يخبر برامج زحف الشبكة من محركات البحث، مثل: جوجل بما يُسمح لها بالوصول إليه.
وعلاوة على ذلك، يمكن لمسؤولي مواقع الشبكة تخصيص أجزاء مواقعهم التي يمكن لـ (جي بي تي بوت) الزحف إليها. وتتوفر أيضًا عناوين IP المتعددة الخاصة به لسهولة الحظر.
موضوعات ذات صلة بما تقرأ الآن:
يُشار إلى أن نماذج اللغة الكبيرة التي يقوم عليها (شات جي بي تي) ChatGPT قد دُرِّبت حتى الآن على كميات هائلة من البيانات عبر الشبكة التي جُمعت حتى شهر أيلول/ سبتمبر 2021.
هذا، ولا توجد طريقة لإزالة البيانات التي استُخرجت قبل ذلك التاريخ بأثر رجعي، ولكن حظر زاحف الشبكة الجديد الخاص بها سوف يؤدي على الأقل إلى حماية مواقع الويب المستقبلية التي ترغب في أن تنأى بأنفسها عن الأمر.
ويُعتقد أن العديد من مالكي المواقع، الذين ربما قد لا يكونون حريصين على أن ينقل الذكاء الاصطناعي محتواهم ويقلدهم، يستفيدون بالفعل من إمكانية الحظر.
ومن الأمثلة على ذلك هو مجلة الخيال العلمي الشهيرة Clarkesworld، التي أعلنت عبر منصة التواصل الاجتماعي إكس (تويتر سابقًا)، أنها حجبت (جي بي تي بوت) GPTBot.
كما فعل موقع أخبار التقنية (ذا فيرج) The Verge الأمر ذاته، ويجري الآن تداول عدد لا يحصى من المقالات التي تقدم المشورة بشأن كيفية منع الزاحف.
هذا، وتُعدّ برامج زحف الشبكة شريان الحياة للإنترنت الحديث وليست شيئًا جديدًا. ففي كثير من الحالات، تُشجَّع مواقع الويب على السماح لبرامج الزحف من جوجل ومحركات البحث الأخرى بالمرور للمساعدة في جلب زيارات الويب لها.
ومع ذلك، يعتقد الآن العديد من مالكي مواقع الويب أن استغلال بياناتهم في تدريب نماذج الذكاء الاصطناعي التوليدي أمر غير مقبول.
فعلى سبيل المثال، جاء في دعوى قضائية حديثة رُفعت ضد شركة (أوبن أي آي) OpenAI أن السماح لروبوت الدردشة (شات جي بي تي) بالتدريب على كل ما كتبه الآخرون، مما هو متاح على الإنترنت من كتب ومقالات، دون إذن، يُعد سرقة.