ChatGPT يدعم الآن الدردشات الصوتية والاستعلامات المستندة إلى الصور
يحصل ChatGPT على بعض التحديثات المهمة التي ستمكن برنامج الدردشة الآلي من التعامل مع الأوامر الصوتية والاستعلامات المستندة إلى الصور.
فسيتمكن المستخدمون من إجراء محادثة صوتية مع ChatGPT على Android وiOS وإدخال الصور فيها على جميع الأنظمة الأساسية. وستكون هذه الميزات متاحة لمستخدمي Plus وEnterprise في البداية، وسيتمكن الأشخاص الآخرون من الوصول إلى الميزات المستندة إلى الصور لاحقًا.
ستحتاج إلى الاشتراك في المحادثات الصوتية في تطبيق ChatGPT (انتقل إلى الإعدادات ثم الميزات الجديدة) إذا كنت ترغب في تجربتها. ومن خلال النقر على زر الميكروفون، ستتمكن من الاختيار من بين خمسة أصوات مختلفة.
تقول OpenAI إن المحادثات الصوتية مدعومة بنموذج جديد لتحويل النص إلى كلام يمكنه إنشاء “صوت يشبه الإنسان من نص فقط وبضع ثوانٍ من عينة الكلام“. وقد خلقت الأصوات الخمسة بمساعدة ممثلين محترفين.
وبالذهاب في الاتجاه الآخر، يقوم نظام التعرف على الكلام Whisper الخاص بالشركة بتحويل الكلمات المنطوقة للمستخدم إلى نص.
تقول OpenAI ايضًا أنه يمكنك، على سبيل المثال، عرض صورة للشواية على برنامج الدردشة الآلي والسؤال عن سبب عدم تشغيلها، أو جعله يساعد في التخطيط لوجبة بناءً على لقطة لما يوجد في ثلاجتك أو مطالبته بحل مسألة رياضية تريدها.
يستخدم OpenAI GPT-3.5 وGPT-4 لتشغيل ميزات التعرف على الصور. ولاستخدام وظائف ChatGPT المستندة إلى الصور، انقر فوق زر الصورة (ستحتاج إلى النقر فوق زر علامة الجمع أولاً على نظام iOS أو Android) لالتقاط صورة أو اختيار صورة موجودة على جهازك. يمكنك سؤال ChatGPT عن صور متعددة واستخدام أداة الرسم للتركيز على جزء معين من الصورة.
وفي منشور بالمدونة يعلن عن التحديثات، أشارت OpenAI إلى احتمال حدوث ضرر. من الممكن أن يقلد الممثلون السيئون أصوات الشخصيات العامة (والأشخاص العاديين) وربما يرتكبون الاحتيال. ولهذا السبب تركز OpenAI على المحادثات الصوتية ChatGPT مع هذه التكنولوجيا والعمل مع شركاء مختارين في حالات استخدام محدودة أخرى (المزيد حول ذلك بعد قليل).
أما بالنسبة للصور، فقد عملت OpenAI مع Be My Eyes، وهو تطبيق مجاني يمكن للأشخاص المكفوفين وضعاف البصر استخدامه لمساعدتهم على فهم محيطهم بشكل أفضل بفضل المتطوعين الذين ينضمون إلى مكالمات الفيديو معهم.
وأشارت الشركة إلى أنها قيدت أيضًا كيفية قيام ChatGPT بالتحليل والإدلاء ببيانات مباشرة حول الأشخاص الذين يظهرون في الصور، “نظرًا لأن ChatGPT ليس دقيقًا دائمًا ويجب أن تحترم هذه الأنظمة خصوصية الأفراد“.
وقد نشرت الشركة ورقة بحثية عن خصائص السلامة للوظيفة القائمة على الصور، والتي أطلقت عليها اسم GPT-4 مع الرؤية.
يعتبر ChatGPT أكثر فعالية في فهم النص الإنجليزي في الصور من اللغات الأخرى. وتقول OpenAI إن أداء روبوت الدردشة “ضعيف” في اللغات الأخرى في الوقت الحالي، خاصة عندما يتعلق الأمر بتلك التي تستخدم نصوصًا غير رومانية.
وعلى هذا النحو، يقترح أن يتجنب المستخدمون غير الناطقين باللغة الإنجليزية استخدام ChatGPT للتعامل مع النص في الصور في الوقت الحالي.
المصدر