هوش مصنوعی و تحول در روند تولید تصاویر (+عکس)
اگر جمله “میمون مالیات پرداخت می کند” را تایپ کنید، هوش مصنوعی برنامه به اندازه ای هوشمند است که تصویر حیوانی روبروی یک رایانه را ایجاد کند، حتی اگر با چنین تصویری طی فرایند آموزش مواجه نشده باشد.
موبنا – طی چند سال اخیر شاهد تغییری اساسی در روند تولید تصاویر بوده ایم. در همین راستا، ورود و رشد یادگیری ماشینی و هوش مصنوعی پرسش هایی را در مورد نحوه تکامل و توسعه فرایندهای خلاق از طریق فناوری ایجاد کرده اند.
سامانه هایی مانند دال-ئی (DALL-E)، دال-ئی 2 (DALL-E 2) و میدجرنی (Midjourney) برنامه های هوش مصنوعی هستند که برای ایجاد تصاویر بر مبنای توضیحات متنی با استفاده از مجموعه داده شکل گرفته اند. با استفاده از این سامانه ها طیف متنوعی از قابلیت ها مانند ایجاد جنبه های انسانی برای حیوانات و اشیا، ترکیب مفاهیم نامرتبط به روش های قابل قبول، و اعمال دگرگونی های مختلف در تصاویر در دسترس قرار گرفته اند.
دال-ئی و سامانه های مشابه می توانند تصاویر قابل قبولی را بر اساس جملات ارائه شده تولید کنند. برنامه ای مانند دال-ئی برخی از قابلیت های یک موتور رندر سه بعدی را دارد، اما تفاوت در ماهیت ورودی ها نهفته است. اطلاعات ورودی برای رندر سه بعدی باید با جزئیات کامل و دقیق مشخص شوند، در شرایطی که سامانه ای مانند دال-ئی اغلب قادر است خود جاهای خالی را پر کرده و به جزئیات دقیق برای ارائه خروجی نهایی نیاز ندارد.
خلق تصاویر مبتنی بر متن با کمک هوش مصنوعی
سامانه دال-ئی و دال-ئی 2 محصول آزمایشگاه پژوهشی اُپنایآی (OpenAI) مستقر در سانفرانسیسکو، آمریکا هستند. به عنوان نمونه، شما می توانید به این سامانه هوش مصنوعی جمله “کوآلا در حال وارد کردن توپ در حلقه بسکتبال است” را ارائه کنید تا بر اساس آن تصویری واقعی از حیوانی که به سمت حلقه بسکتبال پریده است، تولید شود.
هوش مصنوعی این سامانه همچنین می تواند عکس های موجود را با جایگزین کردن تصاویر داخل آن ویرایش کند. به عنوان نمونه، اگر برای عکس یک سگ عبارت “گربه ناز” را تایپ کنید، دال-ئی 2 تصویر سگ را به یک بچه گربه تبدیل می کند.
دال-ئی 2 از طریق یادگیری ماشینی نه تنها می تواند آنچه را که درون یک تصویر است را تشخیص دهد، بلکه می تواند برای تکرار آن تلاش کند.
شرکت اُپنایآی نخستین نسخه از برنامه دال-ئی را در ژانویه 2021 معرفی کرد. نسخه دوم این برنامه در سال 2022 معرفی شده و برای ارائه تصاویر با دقت بیشتر و کیفیت هنری با وضوح بالاتر ارتقا یافته است.
دال-ئی 2 حتی می تواند از مواردی که از نظر فنی در دنیای واقعی وجود ندارند، خروجی تصویری ارائه کند. به عنوان نمونه، اگر جمله “میمون مالیات پرداخت می کند” را تایپ کنید، هوش مصنوعی برنامه به اندازه ای هوشمند است که تصویر حیوانی روبروی یک رایانه را ایجاد کند، حتی اگر با چنین تصویری طی فرایند آموزش مواجه نشده باشد.
به گفته سم آلتمن مدیرعامل اُپنایآی، دال-ئی نشان می دهد که هوش مصنوعی قادر به ارائه کار خلاقانه است. اما در شرایطی که نقاط مثبت چنین برنامه ای جالب توجه و خوب هستند، این مدل به اندازه ای قدرتمند است که تصور جنبه های منفی نیز برای آن آسان است.
اگرچه آلتمن به جنبه های منفی اشاره ای نداشته است، اما موارد پیشین نشان داده اند که دیپفیک های افراد که توسط هوش مصنوعی خلق شده اند می توانند برای نشر تبلیغات و گمراه کردن مردم استفاده شوند.
کمک فناوری به فناوری
از برنامه های هوش مصنوعی مانند دال-ئی می توان برای خلق تصاویر مختلف از جمله پرتره های انسان استفاده کرد. اما این پرتره ها همواره بی نقص نیستند و اشکلاتی مانند بدشکلی در برخی قسمت های صورت در آنها وجود داشته یا تصاویر شبیه به یک نقاشی به نظر می رسند تا عکس. از این رو، تصویر نهایی می تواند حالتی غیر واقعی به خود بگیرد.
برای رفع این مشکل نیز می توان از ابزار ویژه ای که توسط مرکز پژوهش کاربردی (ای آر سی) شرکت تنسنت برای ترمیم صورت در تصاویر ارائه شده است، استفاده کرد. این ابزار ترمیم صورت ظاهری واقعیتر به پرتره های ایجاد شده توسط هوش مصنوعی می بخشد. این ابزار تعادل خوبی بین واقعی بودن و وفاداری به تصویر اصلی را ارائه می کند.
منبع: عصرایران