ميتا تجعل ترجمة الكلام سلسة ومعبرة
طورت ميتا مجموعة جديدة من نماذج الذكاء الاصطناعي تسمى (Seamless Communication) تهدف إلى تمكين المزيد من التواصل الطبيعي والحقيقي عبر اللغات، مما يجعل مفهوم المترجم العالمي للكلام حقيقة واقعية.
ويدمج النموذج الرئيسي المسمى Seamless إمكانات من ثلاثة نماذج أخرى – وهي: SeamlessExpressive و SeamlessStreaming و SeamlessM4T v2 – في نظام واحد موحد.
ووفقًا لورقة البحث، يعد Seamless النظام الأول المتاح للجمهور الذي يتيح التواصل التعبيري بين اللغات في الوقت الفعلي.
وكشفت ميتا في شهر أغسطس الماضي عن نموذج الترجمة المعتمد على الذكاء الاصطناعي SeamlessM4T الذي يدعم نحو 100 لغة للنص و 36 لغة للكلام.
من خلال معمارية v2 المحدثة، تتوسع ميتا الآن في هذه الأداة من أجل جعل ترجمات المحادثة عفوية وتعبيرية، وهو الأمر المطلوب من أجل المحادثة الحقيقية عبر اللغات.
ويجمع مترجم Seamless بين ثلاثة نماذج متطورة للشبكات العصبونية من أجل تمكين الترجمة في الوقت الفعلي بين أكثر من 100 لغة منطوقة ومكتوبة مع الحفاظ على الأسلوب الصوتي والعاطفة ونبرة صوت المتحدث.
ويركز SeamlessExpressive في الحفاظ على الأسلوب الصوتي والفروق الدقيقة العاطفية في صوت المتحدث عند الترجمة بين اللغات.
وكما هو موضح في الورقة، يجب أن تلتقط الترجمات الفروق الدقيقة في التعبير البشري، إذ إن أدوات الترجمة الحالية تعتمد عادةً على الأنظمة الرتيبة لتحويل النص إلى كلام.
وتشمل اللغات المدعومة: الإنجليزية والإسبانية والألمانية والفرنسية والإيطالية والصينية.
ويتيح SeamlessStreaming إمكانية الترجمة في الوقت الفعلي مع زمن وصول قصير يقل قليلًا عن ثانيتين، الأمر الذي يجعله النموذج المتعدد اللغات الأول الذي يقدم مثل هذه السرعة في الترجمة عبر نحو 100 لغة منطوقة ومكتوبة.
ويبدأ نموذج SeamlessStreaming بترجمة الكلام في حين لا يزال المتحدث يتحدث، مما يسمح للآخرين بسماع الترجمة بشكل سريع.
ويعد النموذج الثالث SeamlessM4T v2 بمنزلة الأساس للنموذجين الآخرين، إذ إنه نسخة مطورة من نموذج SeamlessM4T الأصلي الذي أصدرته الشركة في العام الماضي، وتوفر المعمارية الجديدة تناسقًا أفضل بين مخرجات النص والكلام.
وقالت ميتا: “يمنحنا Seamless نظرة محورية إلى الأساس التقني اللازم لتحويل المترجم العالمي للكلام من مفهوم خيال علمي إلى تكنولوجيا في العالم الحقيقي”.
وتتيح قدرات النماذج تجارب تواصل جديدة تعتمد على الصوت، بدءًا من المحادثات المتعددة اللغات في الوقت الفعلي باستخدام النظارات الذكية وكذلك مقاطع الفيديو والبودكاست المدبلجة تلقائيًا.
ويشير باحثو ميتا إلى أن النماذج قد تساعد أيضًا في كسر الحواجز اللغوية أمام المهاجرين وغيرهم ممن يعانون من التواصل.