Исследователи Массачусетского технологического института разработали модель, которая восстанавливает ценные данные, потерянные из изображений и видео, которые были «сжаты» в более низкие разрешения.

Модель можно использовать для воссоздания видео по размытым изображениям или с новых типов камер, которые фиксируют движение человека по углам, но только в виде нечетких одномерных линий. Несмотря на необходимость дополнительного тестирования, исследователи полагают, что когда-нибудь этот подход можно будет использовать для преобразования двухмерных медицинских изображений в более информативные, но более дорогие трехмерные изображения, что сможет помощь в медицинских анализах в бедных странах, где, к примеру, компьютерная томография доступна не всем.

«Во всех этих случаях визуальные данные имеют одно измерение — во времени или пространстве — оно полностью потеряно. Если мы восстановим это потерянное измерение, у него может множество важных приложений», — отметил Гуха Балакришнан, ученый Лаборатории информатики и искусственного интеллекта (CSAIL) и первый автор статьи, описывающей модель, которая будет представлена на следующей неделе на Международной конференции по компьютерному видению.

К Балакришнану в его работе присоединились: Эми Чжао, аспирант кафедры электротехники и компьютерных наук (EECS) и CSAIL; профессора EECS Джон Гуттаг, Фредо Дуранд и Уильям Т. Фриман; и Адриан Далка, преподаватель радиологии Гарвардской медицинской школы.

В статье на сайте MIT приводится пример рентгеновских снимков, которые переводят трехмерные данные об анатомических структурах в плоское изображение. Кроме того, в пример приводится снимок с длинной выдержкой звезд, движущихся по небу: звезды, положение которых меняется со временем, выглядят как размытые полосы на неподвижном снимке.

Исследователи изобрели модель «визуальной депроекции», которая использует нейронную сеть для «изучения» паттернов, которые сопоставляют низкоразмерные проекции с их оригинальными многомерными изображениями и видео. Учитывая новые прогнозы, модель использует то, что она изучила, чтобы воссоздать все исходные данные из проекции.

Ученым удалось воспроизвести точные кадры снимка с движением людей исходя из информации о траектории движения человека. В ходе эксперимента было записано 35 видео с 30 людьми, идущими в одном месте. В итоге алгоритм точно воссоздал 24 кадра, вплоть до положения ног и размеров человека идущего к камере или от нее. При этом нейросеть поняла, что пиксели, которые становятся темнее и шире, скорее всего, означают приближение человека к камере.