محققان شرکت بایتدنس، مالک تیکتاک، از مدل جدید هوش مصنوعی اومنی هیومن ۱ رونمایی کردند که قادر است ویدئوهای دیپفیک فوقالعاده واقعی و باورپذیر تولید کند.
این مدل با استفاده از یک تصویر و ورودیهای صوتی یا ویدئویی، چهره و حرکات فرد را بازآفرینی کرده و ویدئوهایی با جزئیات دقیق و هماهنگی کامل لب و صدا تولید میکند.
اومنی هیومن OmniHuman چیست؟
اومنی هیومن ۱ یک سیستم تولید ویدیوی چندوجهی است که بر ساخت ویدئوهای واقعی از انسان تمرکز دارد. این مدل میتواند با دریافت یک تصویر از فرد، همراه با ورودیهایی مانند سیگنالهای صوتی یا ویدیویی، ویدئوهایی دقیق و باکیفیت تولید کند.
یکی از ویژگیهای برجسته این مدل هوش مصنوعی، تولید صدا بهطور همزمان با ویدئو است که باعث میشود دیپفیکهای تولید شده بسیار واقعیتر به نظر برسند.
براساس اعلام محققان بایتدنس، اومنی هیومن ۱ از ورودیهای تصویری با هر اندازهای پشتیبانی میکند. به این معنا که حتی اگر تنها یک عکس چهره از فرد در اختیار باشد، مدل میتواند ویدئویی کاملاً پویا از او تولید کند.
علاوه بر این، اومنی هیومن ۱ برای همگامسازی تصویر با صدا، به نمونه صوتی نیاز دارد تا حرکات لب و چهره با صدای تولیدشده کاملاً همخوانی داشته باشند.
ویژگیهای برجسته اومنی هیومن
• پشتیبانی از ورودیهای متنوع: اومنی هیومن ۱ قادر است تصاویر با نسبتهای مختلف، از پرتره تا تمامقد، را پردازش کند و ویدئوهایی با حرکات طبیعی، نورپردازی مناسب و جزئیات دقیق تولید کند.
• دیپفیکهای فوقالعاده باورپذیر: برخلاف بسیاری از مدلهای دیپفیک که هنوز دارای نقصهایی در نمایش حرکات چهره و جزئیات بافت هستند، آمنی هیومن میتواند ویدئوهایی خلق کند که تشخیص واقعی یا جعلی بودن آنها دشوار خواهد بود.
• تولید ویدئو با ورودیهای ضعیف: این مدل میتواند حتی با استفاده از تنها یک عکس و یک نمونه صوتی، ویدئوهای کاملاً پویا و هماهنگ با صدا ایجاد کند.
• تنوع در سبکها: اومنی هیومن از سبکهای بصری و صوتی مختلف پشتیبانی کرده و میتواند ویدئوهایی با سبکهای متنوع، از کارتون تا حرکات پیچیده، تولید کند.
چرا اومنی هیومن یک دستاورد فوقالعاده است؟
اومنی هیومن با بهرهگیری از استراتژی آموزش ترکیبی و پشتیبانی از ورودیهای متنوع، محدودیتهای مدلهای پیشین را پشت سر گذاشته است. توانایی تولید ویدئوهای واقعیگرایانه از ورودیهای ساده مانند یک عکس و یک نمونه صوتی، این مدل را از دیگر فناوریهای دیپفیک متمایز میکند.
از سوی دیگر، قابلیت تولید صدا بهطور همزمان با ویدئو، به این معنا است که دیپفیکهای آمنی هیومن میتوانند بهشدت باورپذیر باشند و تشخیص واقعی یا جعلی بودن آنها چالشبرانگیزتر شود. این پیشرفت نهتنها برای کاربردهای سرگرمی و رسانهای مفید خواهد بود، بلکه میتواند چالشهای جدیدی را در حوزه امنیت سایبری و مقابله با اطلاعات جعلی ایجاد کند.
اومنی هیومن استانداردهای جدیدی را در تولید ویدئوهای انسانمحور و دیپفیکهای باکیفیت تعیین کرده است.
برای مشاهده نمونه ویدئوهای تولیدشده توسط این مدل و کسب اطلاعات بیشتر، میتوانید به مقاله مرتبط با این پروژه مراجعه کنید.
source