گرافیک معکوس
گرافیک معکوس
دهه های تحقیق در مورد سیستم بینایی مغز ، با جزئیات بسیار زیاد ، چگونگی تبدیل نور به شبکیه به صحنه های منسجم مورد بررسی قرار گرفته است. این درک به محققان هوش مصنوعی کمک کرده است که مدلهای رایانه ای را تولید کنند که می تواند جنبه های این سیستم را مانند شناخت چهره ها یا اشیاء دیگر ، همانند سازی کند.
تننباوم می گوید: "ویژن جنبه عملکردی مغز است که ما بهترین ها را در انسان و حیوانات دیگر درک می کنیم." "و بینایی رایانه یکی از موفق ترین زمینه های هوش مصنوعی در این مرحله است. ما این را تصدیق می کنیم که ماشین ها اکنون می توانند به تصاویر نگاه کنند و چهره ها را به خوبی تشخیص دهند و انواع دیگر اشیا را نیز تشخیص دهند."
با این حال ، حتی این سیستم های پیشرفته هوش مصنوعی به آنچه سیستم بینایی انسان می تواند انجام دهد ، نزدیک نیستند.
او می گوید: "مغز ما فقط متوجه نمی شود که یک شی وجود دارد ، یا برچسب آن را می شناسد و می گذارد." "ما همه اشکال ، هندسه ، سطوح ، بافت ها را می بینیم. دنیایی بسیار غنی را می بینیم."
بیش از یک قرن پیش ، پزشک ، فیزیکدان و فیلسوف هرمان فون هلمولتز این تئوری را مطرح کرد که مغز با وارونه کردن روند شکل گیری تصویر ، این بازنمایی های غنی را ایجاد می کند. وی فرض کرد که سیستم تصویری شامل یک ژنراتور تصویر است که به عنوان مثال برای تولید چهره هایی که در خواب می بینیم مورد استفاده قرار می گیرد. محققان می گویند ، اجرای این ژنراتور به صورت معکوس باعث می شود مغز بتواند از تصویر به عقب برگردد و نتیجه بگیرد که چه نوع چهره یا جسم دیگری آن تصویر را تولید می کند.
با این حال ، این سوال باقی مانده است: مغز چگونه می تواند این روند را که به عنوان گرافیک معکوس شناخته می شود ، خیلی سریع انجام دهد؟ دانشمندان رایانه سعی کرده اند الگوریتم هایی ایجاد کنند که بتوانند این شاهکار را انجام دهند ، اما بهترین سیستم های قبلی به چرخه های زیادی از پردازش تکراری نیاز دارند و مدت زمان بیشتری از 100 تا 200 میلی ثانیه طول می کشد که مغز برای ایجاد نمای بصری دقیق از آنچه می بینید نیاز دارد. دانشمندان علوم اعصاب بر این باورند که درک در مغز می تواند خیلی سریع پیش برود ، زیرا در یک عبور عمدتا از طریق چندین لایه سلسله مراتبی از پردازش عصبی اجرا می شود.
تیم تحت رهبری MIT تصمیم گرفتند نوع خاصی از مدل شبکه عصبی عمیق را بسازند تا نشان دهد چگونه یک سلسله مراتب عصبی می تواند به سرعت ویژگیهای اساسی یک صحنه را استنباط کند - در این مورد ، یک چهره خاص. برخلاف شبکه های عصبی عمیق استاندارد که در بینایی کامپیوتر استفاده می شود ، که از داده های دارای برچسب آموزش می دهند که نشان دهنده کلاس یک شی در تصویر است ، شبکه محققان از مدلی آموزش داده می شود که بازنمایی درونی مغز از آنچه صحنه ها با چهره می توانند باشد. شبیه.
بنابراین مدل آنها می آموزد که مراحل انجام شده توسط یک برنامه گرافیکی رایانه را برای تولید چهره معکوس کند. این برنامه های گرافیکی با نمایش سه بعدی از یک چهره فرد شروع می شوند و سپس آن را از یک دیدگاه خاص به یک تصویر دو بعدی تبدیل می کنند. این تصاویر را می توان در یک تصویر پس زمینه دلخواه قرار داد. محققان این نظریه را تصور می کنند که سیستم تصویری مغز ممکن است هنگام خواب یا انجام یک تصویر ذهنی از چهره شخصی ، کاری مشابه انجام دهد.
محققان شبکه عصبی عمیق خود را برای انجام این مراحل به صورت معکوس آموزش داده اند - یعنی با تصویر 2 بعدی شروع می شود و سپس ویژگی هایی از قبیل بافت ، انحنا و نورپردازی را اضافه می کند تا آنچه را که محققان آنرا "2.5D" می نامند ، ایجاد کنند. . این تصاویر 2.5D شکل و رنگ صورت را از دیدگاه خاصی مشخص می کنند. سپس اینها به بازنمودهای 3 بعدی تبدیل می شوند که به دیدگاه بستگی ندارند.
"این مدل به یک سطح سیستم از پردازش صورت در مغز می دهد ، به آن اجازه می دهد تصویری را ببیند و درنهایت به یک جسم 3 بعدی که شامل بازنمایی شکل و بافت است برسد ، از طریق این مرحله مهم واسطه ای از 2.5. تصویر D ، "ییلدیریم می گوید.