«Компьютерное воображение» научилось создавать картинку по ее описанию

30.07.2012 Hi-tech

Исследователи из Токийского университета создали метод для восстановления изображения по его «кусочному» описанию. Такая задача подобна сборке картины-пазла: известны типы «кусочков» и их правильное количество, нужно вернуть исходную картину. По словам авторов, эта работа есть ответственным шагом для области «компьютерного воображения», с его помощью планируется создавать изображения лишь на базе их текстового описания.

Препринт с описанием изучения выложен на сайте arXiv.org.

Сверху вниз: исходное изображение, пара примеров воссозданных картин и итог поиска в базе по картинкеИзображение: Hiroharu Kato et al./ arXiv.org

Созданная авторами программа основана на представлении изображения в виде «мешка визуальных слов» (Bag-of-Visual-Words). Данный способ изначально был создан для анализа текстов, практически, «мешок слов» является наборомпар «слово» — «число его появлений в тексте». При картин все подобно, лишь вместо «слов» употребляются маленькие усредненные фрагменты изображений.«Компьютерное воображение» научилось создавать картинку по ее описанию

Из каждой картины авторы создавали собственный «мешок», а после этого пробовали вернуть из него оригинал, другими словами расставить фрагменты в верном порядке. Для этого ученые применяли два типа параметра «естественности» (naturalness): локальную и глобальную.

Принципиальная схема нового метода. Изображение: Hiroharu Kato et al./ arXiv.org

Размещение считалось локально «естественным», в случае если изображения на кусочках медлено переходили приятель в приятеля, не было явных нестыковок. Глобальная естественность оценивалась по базе данных известных изображений. Она определяла, к примеру, что фрагменты неба должны размешаться в верхней части картины, а лицо человека на портрете — ближе к центру.

Авторы использовали собственный метод для восстановления изображений различных жанров. Они оценивали степень схожести взятых «реконструкций», и определяли, какое оптимальное соотношение должно быть между глобальной и локальной естественностью, поскольку обычно эти параметры «в чистом виде» давали совсем различные результаты.

Оказалось, что среди подобных программ новый метод выдавал отличных показателей по степени схожести с оригиналом. На многих картинах легко возможно предугадать изображенный объект, кроме того не имея под рукой описания либо исходного изображения.

Попытки создания изображений по текстовому запросу. Изображение: Hiroharu Kato et al./ arXiv.org

В качестве опыта ученые кроме этого постарались создать изображения «с нуля», основываясь лишь на текстовом описании. По словам авторов, хоть им и удалось взять изображения, отдаленно напоминающие описание, задание выяснилось через чур тяжёлым для их метода.

Неприятность складывания пазла прекрасно известна в математике, но в первый раз ученые применили ее для воссоздания картины по ее описанию. Кроме области компьютерного воображения авторы собираются использовать метод для оптимизации программ, распознающих изображения. Для их работы необходимо классифицировать картины по комплекту показателей, но не всегда удается установить, какие конкретно показатели оптимально подходят для данной задачи.

Реконструкция изображения по заданным показателям и сравнение результата с оригиналом разрешит осознать, какие конкретно показатели были значимы, а какие конкретно — нет.

Случайные записи:

как создать картинку для рекрутинга со своим фото


Похожие статьи, которые вам понравятся: