OpenAI DALL-E متن عجیب و غریب را به تصاویر عجیب تبدیل می کند


با نامه: OpenAI می خواهد یک هوش مصنوعی مشترک (AGI) ایجاد کند که به نفع همه بشریت است و شامل توانایی درک مفاهیم روزمره و مخلوط کردن آنها با خلاقیت است. آخرین مدل های هوش مصنوعی این شرکت پردازش زبان طبیعی را با تشخیص تصویر ترکیب کرده و نتایج امیدوار کننده ای را برای این منظور نشان می دهند.

OpenAI به دلیل توسعه مدلهای چشمگیر هوش مصنوعی مانند GPT-2 و GPT-3 مشهور است ، که می توانند اخبار جعلی معتبری را بنویسند ، اما همچنین می توانند به ابزارهای اصلی برای شناسایی و فیلتر کردن اطلاعات نادرست و هرزنامه آنلاین تبدیل شوند. پیش از این ، آنها همچنین ربات هایی را ایجاد کردند که می توانند مخالفان انسانی را در بازیهایی مانند Dota 2 شکست دهند ، زیرا آنها می توانند به روشی بازی کنند که برای هزاران سال به آموزش نیاز دارد.

این گروه تحقیقاتی دو مدل دیگر ارائه داده اند که بر این اساس ساخته شده اند. شبکه اول که DALL-E نام دارد ، یک شبکه عصبی است که اساساً می تواند تصویری را براساس ورودی متن ایجاد کند. ایلیا ساتزكور ، بنیانگذار و دانشمند ارشد OpenAI خاطرنشان می كند كه با 12 میلیارد پارامتر DALL-E قادر به ایجاد تقریباً هر چیزی است كه می توانید توصیف كنید ، حتی مفاهیمی را كه هرگز در آموزش نمی بینید.

به عنوان مثال ، سیستم جدید هوش مصنوعی قادر است تصویری تولید کند که “تصویری از تربچه کودک دایکون در یک بسته در حال راه رفتن سگ” ، “یک پنجره شیشه ای رنگی با تصویر توت فرنگی آبی” ، “یک صندلی آووکادو شکل” یا یک حلزون ساخته شده است. از چنگ “

DALL-E قادر به ایجاد چندین نتیجه قابل قبول برای این توصیفات و موارد دیگر است ، که نشان می دهد دستکاری در مفاهیم بصری از طریق استفاده از زبان طبیعی از قبل امکان پذیر است.

ساتسكور می گوید كه “كارهایی كه شامل مدلهای مولد است ، می توانند تأثیرات قابل توجه و گسترده ای در جامعه داشته باشند. در آینده ، ما قصد داریم تجزیه و تحلیل كنیم كه چگونه مدلهایی مانند DALL-E با مسائل اجتماعی از جمله تأثیرات اقتصادی بر برخی از فرآیندهای كاری و مشاغل مرتبط است ، احتمال تعصب در نتایج مدل و چالش های اخلاقی بلند مدت ناشی از این فناوری. “

دومین مدل هوش چند منظوره هوش مصنوعی معرفی شده توسط OpenAI CLIP نام دارد. قدرت CLIP در کمتر از 400 میلیون جفت متن و تصویر خراشیده شده از وب آموزش دیده ، توانایی آن در گرفتن یک مفهوم تصویری و یافتن توصیف متنی است که به احتمال زیاد توصیف دقیق آن با استفاده از آموزش بسیار کم است.

این می تواند هزینه محاسباتی هوش مصنوعی را در برنامه های خاص مانند شناسایی شخصیت شی (OCR) ، تشخیص عملکرد و موقعیت جغرافیایی کاهش دهد. با این حال ، محققان دریافتند که این کار در انجام سایر وظایف مانند تشخیص تومور غدد لنفاوی و طبقه بندی تصاویر ماهواره ای موفق نیست.

از این گذشته ، هر دو DALL-E و CLIP ایجاد شده اند تا به مدل های زبانی مانند GPT-3 درک بهتری از مفاهیم روزمره ای که برای درک جهان پیرامون خود استفاده می کنیم ، دهیم ، حتی اگر هنوز فاصله زیادی با آنها داشته باشند. کمال این یک سنگ بنای مهم برای هوش مصنوعی است ، که می تواند زمینه ساز بسیاری از ابزارهای مفید باشد که افراد را در کارشان افزایش می دهد.


منبع: tanha-news.ir

Leave a reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>