هوش مصنوعی جدید تبدیل متن به تصویر توسط بایدو می تواند تصاویری تولید کند که اشیاء و افراد مشهور چینی را با دقت بیشتری نسبت به هوش مصنوعی موجود نشان دهد. اما مکانیسم سانسور داخلی کلمات حساس سیاسی را فیلتر می کند.
یک هوش مصنوعی متن به تصویر جدید در شهر وجود دارد. با ERNIE-ViLG، یک هوش مصنوعی جدید که توسط شرکت فناوری چینی Baidu توسعه یافته است، می توانید تصاویری تولید کنید که ویژگی های فرهنگی چین را به تصویر می کشد. همچنین هنر انیمه بهتری نسبت به DALL-E 2 یا سایر هوش مصنوعی های تصویرسازی غربی ایجاد می کند.
اما چیزهای زیادی وجود دارد – مانند میدان تیان آن من، دومین میدان بزرگ شهر کشور و یک مرکز سیاسی نمادین – که هوش مصنوعی از نشان دادن آنها خودداری می کند.
هنگامی که نسخه ی نمایشی این نرم افزار در اواخر آگوست منتشر شد، کاربران به سرعت دریافتند که برخی از کلمات – هم ذکر صریح نام رهبران سیاسی و هم کلماتی که به طور بالقوه فقط در زمینه های سیاسی بحث برانگیز هستند – به عنوان "حساس" برچسب گذاری شده و از ایجاد هر نتیجه ای جلوگیری می شود. . به نظر می رسد که سیستم پیچیده سانسور آنلاین چین به آخرین روند در هوش مصنوعی گسترش یافته است.
به ندرت پیش نمی آید که هوش مصنوعی های مشابه، کاربران را از تولید انواع خاصی از محتوا محدود کنند. DALL-E 2 محتوای جنسی ، چهره افراد عمومی یا تصاویر درمان پزشکی را ممنوع می کند. اما مورد ERNIE-ViLG بر این سؤال تأکید می کند که مرز بین اعتدال و سانسور سیاسی دقیقاً کجاست.
مدل ERNIE-ViLG بخشی از Wenxin است، یک پروژه در مقیاس بزرگ در پردازش زبان طبیعی از شرکت برجسته چینی هوش مصنوعی، بایدو. این بر روی یک مجموعه داده از 145 میلیون جفت تصویر-متن آموزش داده شده است و حاوی 10 میلیارد پارامتر است – مقادیری که یک شبکه عصبی هنگام یادگیری آن را تنظیم می کند، که هوش مصنوعی از آنها برای تشخیص تفاوت های ظریف بین مفاهیم و سبک های هنری استفاده می کند.
این بدان معناست که ERNIE-ViLG دارای مجموعه داده های آموزشی کوچک تری نسبت به DALL-E 2 (650 میلیون جفت) و Stable Diffusion (2.3 میلیارد جفت) است اما پارامترهای بیشتری از هر کدام (DALL-E 2 دارای 3.5 میلیارد پارامتر و Stable Diffusion دارای 890 میلیون است. ). بایدو یک نسخه آزمایشی را در اواخر ماه اوت و سپس در Hugging Face ، جامعه بین المللی هوش مصنوعی محبوب، منتشر کرد.
تفاوت اصلی بین مدل‌های ERNIE-ViLG و مدل‌های غربی این است که مدل توسعه‌یافته بایدو اعلان‌های نوشته شده به زبان چینی را می‌فهمد و احتمال کمتری دارد که در مورد کلمات خاص فرهنگی اشتباه کند.
برای مثال، یک سازنده ویدیوی چینی نتایج مدل‌های مختلف را برای پیام‌هایی که شامل شخصیت‌های تاریخی چینی، مشاهیر فرهنگ پاپ و غذا می‌شد، مقایسه کرد. او دریافت که ERNIE-ViLG تصاویر دقیق تری نسبت به DALL-E 2 یا Stable Diffusion تولید می کند. پس از انتشار، ERNIE-ViLG توسط افراد جامعه انیمه ژاپنی نیز مورد استقبال قرار گرفت و متوجه شدند که این مدل می‌تواند هنر انیمه رضایت‌بخش‌تری نسبت به مدل‌های دیگر ایجاد کند، احتمالاً به این دلیل که انیمه بیشتری را در داده‌های آموزشی خود گنجانده است.
اما ERNIE-ViLG، همانطور که سایر مدل ها هستند، با آنچه اجازه می دهد تعریف می شود. برخلاف DALL-E 2 یا Stable Diffusion، ERNIE-ViLG توضیحی منتشر شده درباره سیاست تعدیل محتوای خود ندارد و بایدو از اظهار نظر درباره این داستان خودداری کرد.
هنگامی که نسخه ی نمایشی ERNIE-ViLG برای اولین بار در Hugging Face منتشر شد، کاربرانی که کلمات خاصی را وارد می کردند، پیام «کلمات حساس پیدا شد. لطفاً دوباره وارد کنید» را دریافت می کردند، که به طرز شگفت انگیزی صادقانه در مورد مکانیسم فیلتر کردن بود. با این حال، حداقل از 12 سپتامبر، پیام خوانده شده است "محتوای وارد شده با قوانین مربوطه مطابقت ندارد. لطفاً پس از تنظیم دوباره آن را امتحان کنید.
در آزمایش نسخه ی نمایشی توسط MIT Technology Review، تعدادی از کلمات چینی مسدود شدند: نام رهبران سیاسی برجسته چینی مانند شی جین پینگ و مائو تسه تونگ. اصطلاحاتی که می توانند از نظر سیاسی حساس در نظر گرفته شوند، مانند "انقلاب" و "بالا رفتن از دیوارها" (استعاره ای برای استفاده از سرویس VPN در چین). و نام بنیانگذار و مدیر عامل بایدو، Yanhong (Robin) Li.
در حالی که کلماتی مانند «دموکراسی» و «دولت» مجاز هستند، پیام‌هایی که آنها را با کلمات دیگری مانند «دموکراسی خاورمیانه» یا «دولت بریتانیا» ترکیب می‌کنند، مسدود می‌شوند. میدان تیان‌آن‌من در پکن را نمی‌توان در ERNIE-ViLG یافت، احتمالاً به دلیل ارتباط آن با کشتار تیان‌آن‌من، که ارجاعات آن در چین به شدت سانسور می‌شود.
Google Brain از هوش مصنوعی تصویرسازی خود به نام Imagen رونمایی کرد. اما انتظار نداشته باشید چیزی را ببینید که سالم نیست.
در چین امروزی، شرکت‌های رسانه‌های اجتماعی معمولاً فهرست‌های اختصاصی از کلمات حساس دارند که هم از دستورالعمل‌های دولتی و هم از تصمیم‌های عملیاتی خودشان ساخته شده‌اند. این بدان معناست که هر فیلتری که ERNIE-ViLG استفاده می‌کند احتمالاً با فیلترهای استفاده شده توسط WeChat متعلق به Tencent یا Weibo که توسط شرکت Sina اداره می‌شود متفاوت است. برخی از این پلتفرم ها به طور سیستماتیک توسط گروه تحقیقاتی Citizen Lab مستقر در تورنتو آزمایش شده اند.
Badiucao، یک کاریکاتوریست سیاسی چینی-استرالیایی (که از نام مستعار برای آثار هنری خود برای محافظت از هویت خود استفاده می کند)، یکی از اولین کاربرانی بود که سانسور را در ERNIE-ViLG مشاهده کرد. بسیاری از آثار هنری او مستقیماً از دولت چین یا رهبران سیاسی آن انتقاد می‌کنند، بنابراین اینها برخی از اولین درخواست‌هایی بود که او در این مدل ارائه کرد.
«البته، من عمداً در حال کاوش در اکوسیستم آن بودم. بدیوکائو می‌گوید از آنجایی که این منطقه جدید است، کنجکاو هستم که بدانم آیا سانسور به آن دامن زده است یا خیر. "اما [نتیجه] بسیار شرم آور است."
به عنوان یک هنرمند، Badiucao با هیچ شکلی از اعتدال در این هوش مصنوعی، از جمله رویکرد DALL-E 2 موافق نیست، زیرا او معتقد است که او باید تصمیم بگیرد که چه چیزی در هنر خودش قابل قبول است. اما با این حال، او هشدار می دهد که سانسور ناشی از نگرانی های اخلاقی نباید با سانسور به دلایل سیاسی اشتباه گرفته شود. زمانی که یک هوش مصنوعی بر اساس معیارهای اخلاقی مورد توافق عمومی، آنچه را که نمی تواند ایجاد کند قضاوت می کند و زمانی که یک دولت به عنوان یک شخص ثالث وارد می شود و می گوید نمی توانید این کار را انجام دهید، زیرا به کشور یا دولت ملی آسیب می زند، متفاوت است. او می گوید.
Giada Pistilli، اخلاق‌شناس اصلی Hugging Face، می‌گوید دشواری تعیین مرز روشن بین سانسور و اعتدال نیز نتیجه تفاوت‌های بین فرهنگ‌ها و رژیم‌های قانونی است. به عنوان مثال، فرهنگ های مختلف ممکن است یک تصویر مشابه را به طور متفاوت تفسیر کنند. پیستیلی می گوید: «در مورد نمادهای مذهبی، در فرانسه هیچ چیزی در ملاء عام مجاز نیست و این بیانگر سکولاریسم آنهاست. وقتی به ایالات متحده می روید، سکولاریسم به این معناست که همه چیز، مانند هر نماد مذهبی، مجاز است.»
در ژانویه، دولت چین مقررات جدیدی را پیشنهاد کرد که هر گونه محتوای تولید شده توسط هوش مصنوعی را که «امنیت ملی و ثبات اجتماعی را به خطر می‌اندازد» ممنوع می‌کند، که هوش مصنوعی‌هایی مانند ERNIE-ViLG را پوشش می‌دهد.
Pistilli می‌گوید، آنچه می‌تواند در مورد ERNIE-ViLG کمک کند این است که توسعه‌دهنده سندی را منتشر کند که تصمیمات تعدیل را توضیح دهد: «آیا این سانسور شده است زیرا این قانون است که به آنها می‌گوید این کار را انجام دهند؟ آیا آنها این کار را به این دلیل انجام می دهند که معتقدند اشتباه است؟ همیشه به توضیح استدلال‌ها، انتخاب‌هایمان کمک می‌کند.»
با وجود سانسور داخلی، ERNIE-ViLG همچنان یک بازیگر مهم در توسعه هوش مصنوعی متن به تصویر در مقیاس بزرگ خواهد بود. ظهور مدل‌های هوش مصنوعی آموزش‌دیده بر روی مجموعه داده‌های زبانی خاص، برخی از محدودیت‌های مدل‌های رایج مبتنی بر انگلیسی را جبران می‌کند. به ویژه به کاربرانی که به هوش مصنوعی نیاز دارند که زبان چینی را بفهمد و بر این اساس می تواند تصاویر دقیق تولید کند، کمک می کند.
همانطور که پلتفرم‌های رسانه‌های اجتماعی چین با وجود سانسور شدید پیشرفت کرده‌اند، ERNIE-ViLG و سایر مدل‌های هوش مصنوعی چینی نیز ممکن است در نهایت همین را تجربه کنند: آنها بسیار مفید هستند که نمی‌توان آن‌ها را رها کرد.
مدل‌های زبان بزرگ بر روی مجموعه‌ای از داده‌های شخصی که از اینترنت جمع‌آوری شده‌اند، آموزش داده می‌شوند. بنابراین می خواستم بدانم: چه چیزی روی من دارد؟
آنچه Gran Turismo Sophy در پیست مسابقه یاد گرفت می تواند به شکل گیری آینده ماشین هایی کمک کند که می توانند در کنار انسان ها کار کنند یا به ما در جاده ها بپیوندند.
و داده ها را به صورت رایگان ارائه می کند، که می تواند باعث اکتشافات علمی جدید شود.
اما این شرکت برای انجام این کار مجبور شده است تا بدترین ایرادات مدل تولید تصویر را اصلاح کند.
پیشنهادهای ویژه، داستان های برتر، رویدادهای آینده و موارد دیگر را کشف کنید.
از اینکه ایمیل خود را ثبت کردید، متشکریم!
به نظر می رسد مشکلی پیش آمده است.
ما در ذخیره تنظیمات برگزیده شما با مشکل روبرو هستیم. سعی کنید این صفحه را بازخوانی کنید و یک بار دیگر آنها را به روز کنید. اگر همچنان این پیام را دریافت می‌کنید، با فهرستی از خبرنامه‌هایی که می‌خواهید دریافت کنید، با ما از طریق customer-service@technologyreview.com تماس بگیرید.
گزارش‌های عمیق ما نشان می‌دهد که در حال حاضر چه اتفاقی می‌افتد تا شما را برای اتفاقات بعدی آماده کند.
اشتراک در برای حمایت از روزنامه نگاری ما
© 2022 بررسی فناوری MIT

source

توسط techkhabari