بايت دانس تطور نموذج ذكاء اصطناعي يحول الصور الثابتة إلى مقاطع واقعية

المتميز6 يناير، 2025

كشفت شركة بايت دانس، المالكة لتطبيق تيك توك، عن نموذج ذكاء اصطناعي جديد يُدعى INFP، وهو نموذج يمكنه تحويل الصور الشخصية الثابتة إلى مقاطع فيديو تظهر فيها الصور كأنها تتحدث وتتفاعل مع المدخلات الصوتية.

ويتميز نموذج INFP بقدرته على إنشاء مقاطع فيديو لمحادثات واقعية بين شخصين دون الحاجة إلى تحديد أدوار التحدث والاستماع يدويًا، ويعتمد النموذج على تحليل تدفق المحادثة لتحديد الأدوار تلقائيًا.

ويتكون النظام من مرحلتين رئيسيتين، إذ تضمن المرحلة الأولى تقليد حركات الرأس عبر التقاط التفاصيل الدقيقة، مثل تعابير الوجه وحركات الرأس من مقاطع الفيديو، وتحويلها إلى بيانات قابلة للاستخدام لتحريك الصور الثابتة.

وأما المرحلة الثانية، فهي تضمن توليد الحركات استنادًا إلى الصوت، إذ تحلل الصوت لإنشاء أنماط حركة طبيعية للتحدث والاستماع، مع تعديل هذه الأنماط لتتوافق بشكل واقعي مع الصوت.

ولتحقيق دقة عالية، طوّرت الشركة قاعدة بيانات جديدة تُسمى DyConv، تضم أكثر من 200 ساعة من محادثات حقيقية جُمعت من الإنترنت، وتتميز هذه القاعدة بقدرتها على التقاط نطاق أوسع من المشاعر الإنسانية بجودة فيديو أفضل مقارنة بقواعد بيانات أخرى مثل ViCo و RealTalk.

وأكّدت بايت دانس أن نموذج INFP يتفوق على الأدوات الحالية في مطابقة حركة الشفاه بالصوت، والحفاظ على ملامح الوجه الطبيعية، بالإضافة إلى إنشاء حركات واقعية للشخص في أثناء الاستماع.

ويعتمد نموذج INFP على الصوت فقط، لكن الشركة تسعى إلى تطويره ليعمل مع النصوص والصور، بالإضافة إلى تطوير تقنيات لتحريك الجسم كاملًا، وليس الرأس فقط. ومع ذلك، تعي الشركة مخاطر إساءة استخدام هذه التقنية، لذلك تخطط لجعل استخدامها مقتصرًا على الأبحاث الأكاديمية في المرحلة الحالية.

ويُعد هذا النظام جزءًا من إستراتيجية الذكاء الاصطناعي الشام لة لبايت دانس، إذ يمكن لتطبيقات شهيرة مثل تيك توك و CapCut التابعة لبايت دانس أن تكون منصات مثالية لتوظيف هذه الابتكارات.