جوجل تكشف عن نموذج الذكاء الاصطناعي الجديد AudioPaLM للكلام والترجمة
كشفت شركة جوجل عن نموذج الذكاء الاصطناعي اللغوي الجديد AudioPaLM الذي يمكنه الاستماع والتحدث والترجمة بدقة عالية وسرعة كبيرة.
وكما يُشير الاسم، فإن هذا النموذج الجديد يعتمد بالأساس على نقاط القوة في نموذجين آخرين موجودين بالفعل وهما PaLM-2 و AudioLM.
وينتمي نموذج PaLM-2 إلى نماذج اللغة الكبيرة LLMs التي تستطيع فهم ومحاكاة وتوليد النصوص بما يشبه اللغات البشرية، بينما يُعنى نموذج AudioLM بأشياء مثل الحفاظ على هوية المتحدث ونبرة الصوت (الصوتيات).
وقدم الباحثون في جوجل نموذج AudioPaLM عبر الجمع بين كلا النموذجين السابق الإشارة إليهما من أجل توليد النصوص والكلام بكفاءة عالية.
ويستطيع نموذج AudioPaLM القيام بالعديد من الوظائف المختلفة مثل الترجمة الصوتية من لغة إلى أخرى مع الحفاظ على نبرة الصوت نفسها، كما يمكنه التقاط الأصوات أو الأوامر المنطوقة، ثم إعادة إنتاج الصوت بلغات أخرى مختلفة.
ويعمل النموذج أيضًا على تعرّف الأصوات وترجمتها إلى نصوص، حتى إنه يمكنه ترجمة التراكيب اللغوية التي لم يتعرض لها من قبل بدقة كبيرة، وفقًا للباحثين العاملين على النموذج.
ولا يزال نموذج جوجل قيد البحث والتطوير، ولا يُعرف حتى الآن موعد توفره للجمهور.
ومن جهة أخرى، أعلنت شركة ميتا في وقت سابق عن نموذج ذكاء اصطناعي أطلقت عليه اسم Voicebox، وهو نموذج حديث يمكنه أداء مهام إنشاء الكلام، مثل: تحرير المقاطع الصوتية بكفاءة، وأخذ العينات الصوتية لتوليد كلام بلغات مختلفة، وغير ذلك.