محققان شرکت بایت‌دنس، مالک تیک‌تاک، از مدل جدید هوش مصنوعی اومنی‌ هیومن ۱ رونمایی کردند که قادر است ویدئوهای دیپ‌فیک فوق‌العاده واقعی و باورپذیر تولید کند.

این مدل با استفاده از یک تصویر و ورودی‌های صوتی یا ویدئویی، چهره و حرکات فرد را بازآفرینی کرده و ویدئوهایی با جزئیات دقیق و هماهنگی کامل لب و صدا تولید می‌کند.

 

اومنی‌ هیومن OmniHuman چیست؟


اومنی‌ هیومن ۱ یک سیستم تولید ویدیوی چندوجهی است که بر ساخت ویدئوهای واقعی از انسان تمرکز دارد. این مدل می‌تواند با دریافت یک تصویر از فرد، همراه با ورودی‌هایی مانند سیگنال‌های صوتی یا ویدیویی، ویدئوهایی دقیق و باکیفیت تولید کند.

یکی از ویژگی‌های برجسته این مدل هوش مصنوعی، تولید صدا به‌طور همزمان با ویدئو است که باعث می‌شود دیپ‌فیک‌های تولید شده بسیار واقعی‌تر به نظر برسند.

براساس اعلام محققان بایت‌دنس، اومنی‌ هیومن ۱ از ورودی‌های تصویری با هر اندازه‌ای پشتیبانی می‌کند. به این معنا که حتی اگر تنها یک عکس چهره از فرد در اختیار باشد، مدل می‌تواند ویدئویی کاملاً پویا از او تولید کند.

علاوه بر این، اومنی‌ هیومن ۱ برای همگام‌سازی تصویر با صدا، به نمونه صوتی نیاز دارد تا حرکات لب و چهره با صدای تولیدشده کاملاً همخوانی داشته باشند.

 


 

ویژگی‌های برجسته اومنی‌ هیومن


•  پشتیبانی از ورودی‌های متنوع: اومنی‌ هیومن ۱ قادر است تصاویر با نسبت‌های مختلف، از پرتره تا تمام‌قد، را پردازش کند و ویدئوهایی با حرکات طبیعی، نورپردازی مناسب و جزئیات دقیق تولید کند.

•  دیپ‌فیک‌های فوق‌العاده باورپذیر: برخلاف بسیاری از مدل‌های دیپ‌فیک که هنوز دارای نقص‌هایی در نمایش حرکات چهره و جزئیات بافت هستند، آمنی‌ هیومن می‌تواند ویدئوهایی خلق کند که تشخیص واقعی یا جعلی بودن آنها دشوار خواهد بود.

•  تولید ویدئو با ورودی‌های ضعیف: این مدل می‌تواند حتی با استفاده از تنها یک عکس و یک نمونه صوتی، ویدئوهای کاملاً پویا و هماهنگ با صدا ایجاد کند.

•  تنوع در سبک‌ها: اومنی‌ هیومن از سبک‌های بصری و صوتی مختلف پشتیبانی کرده و می‌تواند ویدئوهایی با سبک‌های متنوع، از کارتون تا حرکات پیچیده، تولید کند.

 

چرا اومنی‌ هیومن یک دستاورد فوق‌العاده است؟


اومنی‌ هیومن با بهره‌گیری از استراتژی آموزش ترکیبی و پشتیبانی از ورودی‌های متنوع، محدودیت‌های مدل‌های پیشین را پشت سر گذاشته است. توانایی تولید ویدئوهای واقعی‌گرایانه از ورودی‌های ساده مانند یک عکس و یک نمونه صوتی، این مدل را از دیگر فناوری‌های دیپ‌فیک متمایز می‌کند.

از سوی دیگر، قابلیت تولید صدا به‌طور همزمان با ویدئو، به این معنا است که دیپ‌فیک‌های آمنی‌ هیومن می‌توانند به‌شدت باورپذیر باشند و تشخیص واقعی یا جعلی بودن آنها چالش‌برانگیزتر شود. این پیشرفت نه‌تنها برای کاربردهای سرگرمی و رسانه‌ای مفید خواهد بود، بلکه می‌تواند چالش‌های جدیدی را در حوزه امنیت سایبری و مقابله با اطلاعات جعلی ایجاد کند.

اومنی‌ هیومن استانداردهای جدیدی را در تولید ویدئوهای انسان‌محور و دیپ‌فیک‌های باکیفیت تعیین کرده است.

برای مشاهده نمونه ویدئوهای تولیدشده توسط این مدل و کسب اطلاعات بیشتر، می‌توانید به مقاله مرتبط با این پروژه مراجعه کنید.

source

توسط techkhabari.ir