Оглавление
- Что еще умеет DALL-E?
- Фото
- Как оживить лица на своих фото
- Как оцифровать фото на iOS
- Эксперименты
- Комбинированный лосс
- WebScore AI
- Дизайн
- Развитие нейросетей
- В чём суть
- Reflect
- Colorize
- Как устроена нейросеть
- Какие проблемы связаны с технологией и почему распознавание лиц — это всё равно хорошо
- Сам ты художник
- Шрифты
- Красивая обработка видео на смартфоне
- This Person Does Not Exist
- Нейросети для создания фото людей и аватарок
- Подведём итоги
Что еще умеет DALL-E?
Конечно, пока DALL-E кажется просто игрушкой, пусть и с серьезным научным значением. Но у нее большое будущее. Пожалуй, впервые появилась технология, где результаты ограничены не алгоритмом, а лишь нашим воображением.
Фактически создается новый вид программирования, открытый каждому, даже людям без каких-либо технических знаний. В будущем такое программирование будет все более и более распространенным. Пока это лишь предварительные результаты, но они уже поражают.
Например, DALL-E может создавать художественные иллюстрации с очень тонким контролем над их содержимым. Нарисовать можно практически все, смотрите:
Текстовый запрос: капибара на закате.
Текстовый запрос: капибара ночью
Текстовый запрос: капибара в кожаной куртке играет на гитаре
Учитываются нюансы типа отражений и теней, цветов окружения. Нейросеть понимает геометрию, формы и материалы, время года и суток, художественные стили, ракурсы и способы отображения.
Как уже упоминалось, вы можете попробовать все это сами – примеры опубликованы в блоге OpenAI. К сожалению, пока в свободном доступе можно лишь выбирать из фиксированных наборов вариантов заданий, а не вводить произвольный текст, да и результаты не всегда идеальны.
Но даже то, что уже доступно, поражает. Язык пока поддерживается только английский, хотя это вопрос обучающей выборки.
Уже сейчас DALL-E может фактически изобретать новые вещи. Например, в видео выше есть пример с зелеными треугольными часами.
Одним кликом мышки они превращались в пяти- или шестиугольные, причем предлагалось огромное количество вариантов. Можно задать любую задачу и за несколько секунд получить кучу прототипов.
Гостиная с картиной, на которой изображен Сиднейский оперный театр
Текстовый запрос: кожаное кресло в виде пончика
Текстовый запрос: манекен в джинсах и красном поло
Сложно даже представить себе все, что позволит сделать эта нейросеть в недалеком будущем, когда мы сможем получить обученные модели. Пока в тестовом режиме DALL-E пробовали применять для дизайна одежды и интерьеров.
Фото
Let’s Enhance — сервис, улучшающий фотографии с низким разрешением. Его основатель Александр Савсуненко давно занимается машинным обучением, и после неудачного проекта по производству ДНК-тестов Titanovo решился на новый стартап. Идею для сервиса Александру подсказал отец — он продает камины, сауны и аксессуары для них, и товар возит из разных стран, в том числе из Китая. О качестве фотографий китайских товаров известно по AliExpress: большинство снимков — низкого разрешения, размещать их на сайте стыдно.
Тогда Александр Савсуненко совместно с разработчиком Владиславом Пранскевичусом создали Let’s Enhance. Сервис убирает jpeg-артефакты с фотографий, увеличивает разрешение в 4 раза, восстанавливает детали и увеличивает четкость снимков.
Перед обработкой система предлагает выбрать способ — улучшить разрешение фотографии или рисунка, логотипа или комикса, добавить текстуру, поправить цвет
Работает система на основе трех нейронных сетей, которые учатся улучшать фотографии. Технология Super-resolution обучается на базе из сотен тысяч фотографий низкого и высокого качества. Нейросеть обрабатывает два снимка, восстанавливает детали и сохраняет четкие линии, опираясь на знание типовых объектов и текстур. Вторая нейросеть — Boring — увеличивает четкость изображения. Третья — Magic — дорисовывает детали, которых нет на фотографии, чтобы сделать снимок более реалистичным.
Так работает нейросеть Boring, которая лучше всего восстанавливает текст, логотипы и комиксы. «Boring is not so boring» — говорит Александр Савсуненко
Сначала сервис был бесплатным, и пользователям разрешали обрабатывать любое количество фотографий. Сейчас сайт работает по подписке — без нее можно обработать только пять изображений. Для покупки доступны пакеты на 20, 50, 120 фотографий или подписка на месяц или год. Обработка двадцати изображений стоит 5 $, месячная подписка с возможностью обработать до тысячи фото — 7 $, годовая — 52 $.
Еще одна нейросеть для улучшения фотографий — программа от NVIDIA. Исследователи компании анонсировали технологию как алгоритм, который «может исправить зернистые фотографии одним взглядом».
Обучается NVIDIA схоже с Let’s Enhance — сравнивает фотографии с шумом и без. Нейросеть умеет удалять артефакты, шум, зерно. Создатели NVIDIA считают, что технологию уже можно использовать для улучшения изображений МРТ, а в будущем — применять для визуализации в медицине.
Исследователи NVIDIA в ролике об ИИ демонстрируют работу технологии
Как оживить лица на своих фото
Давайте сейчас оставим теорию в стороне, хотя там есть еще много чего интересного, и перейдем к практике. Чтобы оживить свои фотографии, перейдите на сайт myheritage.com на русском по этой ссылке.
- Улучшить фото
- Сделать цветным (раскрасить черно-белое фото)
- Создать анимацию
Нас интересует последний пункт, поэтому нажимаем одноименную кнопку.
Я заметил, что на некоторых фото, которые я тестировал для данной публикации, сервис выдавал следующее сообщение: «К сожалению, в данный момент возникла проблема с созданием анимации Вашего фото. Выберите, пожалуйста, другое лицо или попробуйте еще раз позднее».
Я пробовал несколько раз позднее, но результат был тот же. Видимо, некоторые фото по каким-то причинам ему не подходят. Так что если у вас возникнет подобная ошибка, не отчаивайтесь. По возможности выберите другой снимок либо пробуйте запустить процесс оживления несколько раз.
Ожившие лица на фото выглядят завораживающе и, в то же самое время, даже пугающе. Мозг какое-то время отказывается верить, что это возможно! Посмотрите сами на некоторые из результатов работы нейросети Myheritage:
https://youtube.com/watch?v=cmw3Dr1nudI
Немногие знают о том, что вы можете выбрать анимацию лица из целых десяти подготовленных шаблонов («драйверов»). Все они отличаются, и каждая из анимации наделяет ожившего персонажа на фото уникальной мимикой и движениями.
По умолчанию нейросеть автоматически решает какую из анимаций применить к фото, в зависимости от положения человека на нем, поворота его головы и пр. мелочей. Но вы можете применить любой из доступных драйверов, выбрав его из выпадающего списка.
Вы также можете поделиться ожившим фото в Facebook или Twitter, отправить на него ссылку либо скачать в виде короткого видео формата mp4.
Как оцифровать фото на iOS
Оцифровка старых (да и не очень старых, впрочем, тоже) фотографий – это простой и быстрый процесс. Google максимально автоматизировала работу своего приложения, а потому всё, что от вас, по сути, потребуется, — это сфотографировать на смартфон фотокарточку с нескольких ракурсов.
- Скачайте Фотосканер из App Store себе на iPhone;
- Запустите Фотосканер и разрешите доступ к камере;
Лучше всего оцифровывать фото без вспышки
- Разместите фотографию так, чтобы на неё не попадали прямые солнечные лучи, но при этом в помещении было достаточно светло;
- Сфотографируйте снимок с общего ракурса, а потом с каждой из четырёх сторон, совмещая кружочки на экране друг с другом.
Важный момент: если в помещении, где вы ведёте съёмку, достаточно светло, вспышку лучше отключить. Без неё цвета на оцифрованном фото получатся более естественными. После того как алгоритмы приложения совместят снимки друг с другом, вы сможете увидеть результат во встроенной галерее. Здесь оцифрованный снимок можно немного подредактировать, например, перевернув его или обрезав. Других параметров настройки не предусмотрено, что, впрочем, и понятно – это приложение для оцифровки, а не фотошоп.
Эксперименты
Исследователи использовали лазерную оптическую установку и три различных метода реконструкции изображения: классический алгоритм Гершберга–Сакстона, нейросеть со сквозным обучением и физически обоснованную нейросеть Процесс восстановления оценивался для различных уровней зашумлённости изображения.
Схема установки. VND: светофильтр (variable neutral density filter), P1-P2: поляризаторы, L1: линза 10x, L2: линза 100 мм, L3: линза 230 мм, L4: линза 100 мм, F1: камера обскура 5 мкм, F2: механическая диафрагма IRIS, SLM: пространственный модулятор света (Spatial Light Modulator), EM-CCD: матрица с управляемым вторично-электронным умножителем.
Световой луч в установке генерируется гелий-неоновым лазером с рабочей длиной волны 632.8 нм, расположенной в красной части видимого спектра.
Гелий-неоновый лазер
Для каждой категории изображений (ImageNet и IC) и уровня шума обучалась отдельная глубокая нейросеть. Примеры разделены на обучающую, тестовую и проверочную выборки, содержащие 9500, 450 и 50 фотографий соответственно. Исследователи использовали сеть с архитектурой «энкодер-декодер» из своей предыдущей работы, добавив в неё один дополнительный слой.
В таблице ниже указаны уровни шума для каждого эксперимента (они относятся к исходному падающему лучу без модуляции на SLM):
Условия освещения одинаковы как у изображений микросхем, так и у набора ImageNet. Количество фотонов считается для каждого пикселя и усредняется по участку фотографии, на который попадает лазерный луч (без модуляции на SLM). Сигнал/шум (SNR) также усредняется по всему полю зрения, а предел SNR — это квадратный корень из числа фотонов.
Комбинированный лосс
Естественно, возникает желание смешать эти две функции стоимости. Тогда мы из белого шума будем генерировать такое изображение, что в нем будут сохранены признаки из content-изображения (у которых есть привязка к пространственным координатам), а также будут присутствовать «стилевые» признаки, не привязанные к пространственным координатам, т.е. мы будем надеяться, что детали изображения контента останутся нетронутыми со своих мест, но будут перерисованы с нужным стилем.
На самом деле присутствует еще и регуляризатор, но мы его опустим для простоты. Остается ответить на следующий вопрос: а какие слои (веса) использовать при оптимизации? И боюсь, что ответа на этот вопрос у меня нет, да и у авторов статьи тоже. У них есть предложение использовать следующие, но это совсем не значит, что другая комбинация будет работать хуже, слишком большое пространство поиска. Единственное правило, которое следует из понимания модели: нет смысла брать соседние слои, т.к. у них признаки будут отличаться друг от друга не сильно, потому в стиль добавляется по слою из каждой группы conv*_1.
Итоговую модель можно представить в следующем виде.
WebScore AI
Еще один сервис на базе нейросети от команды uKit Group. Фишкой сервиса является функция оценки привлекательности сайта.
Ребята из uKit Group прошерстили Интернет и сформировали выборку из 12 000 сайтов: от очень старых страниц до лендингов мировых ИТ-флагманов.
Затем профи по дизайну помогли выделить 125 параметров, по которым обычные посетители оценивают веб-страницы.
Далее фокус-группа оценила сайты в выборке по шкале от 1 до 10, чтобы моделям машинного обучения было на что ориентироваться.
В итоге оценка системы стала точнее, чем оценки её учителей, а нейросеть самостоятельно выделила еще 1000 признаков привлекательности сайта.
Сейчас WebScore AI умеет выставлять странице общий балл и находится в публичном доступе для продолжения обучения.
Какие сайты умеет обрабатывать WebScore AI?
Лендинги без сложных анимаций идеально подойдут для оценки: одностраничники товаров, услуг, семинаров, мероприятий и прочего.
При анализе дизайн-параметров WebScore AI использует скриншот сайта: если страница сильно анимирована и система запомнила не лучший кадр, это может привести к снижению балла.
Сайты-визитки и магазины. Каждую страницу сайта стоит оценивать по отдельности, давая системе нужную ссылку.
Оценка некоторых онлайн-витрин может быть понижена, если они используют много всплывающих сообщений или очень плотно размещают контент.
Дизайн
uKit AI — программа для редизайна сайтов. Чтобы выяснить, насколько он актуален для старых веб-ресурсов малого бизнеса, разработчики сервиса серьезно вложились в исследование. Оно показало, что частые проблемы сайтов и их владельцев — неадаптивность, устаревший дизайн и низкая конверсия. Предприниматели не могли предсказать, что мобильный трафик превысит десктопный, и многие веб-ресурсы работают на устаревшем Flash. При этом владельцы понимают, что технологии и тренды меняются, и видят, что сайты устарели, но откладывают обновление из-за нехватки денег и времени.
Решением для быстрого редизайна стал uKit AI — это сервис на основе SaaS+AI, сочетающий конструктор сайтов и машинное обучение. Система перекомпоновывает контент с учетом современных требований к дизайну и формирует новые версии страниц. uKit AI работает так: технология распознает контент и структуру старого сайта, алгоритм перестраивает и переоформляет контент, а нейросеть оценивает результат и выкатывает новую адаптивную версию. Лучший вариант система выбирает с помощью нейросети WebScore AI, которая не только оценивает сайт визуально, но и проверяет код на соответствие современным требованиям. Пока uKit AI дорабатывается, но уже можно записаться на бета-тестирование.
На главной странице uKit AI — «шторка», которая демонстрирует редизайн сайта с помощью этой разработки
Сайт станет подспорьем для дизайнеров — за десять минут нейросеть сгенерирует кликабельный вариант редизайна, который можно скинуть заказчику в качестве примера.
Развитие нейросетей
В начале 2019 года ученые из калифорнийской компании Open AI создали основанную на машинном обучении технологию, способную работать с естественными языками: отвечать на вопросы, завершать неполный текст, анализировать его содержание, делать выводы и выполнять многие другие задачи.
Эта нейросеть получила название GPT-2. В основе ее лежала идея о том, что все перечисленные задачи можно сформулировать в виде различных вариантов дополнения текста, где нам требовалось только предоставить системе неоконченный текстовый фрагмент, а она его дописывала.
В июне 2020 года появилась нейросеть GPT-3 – дальнейшее развитие этой идеи. Она достигла, казалось бы, совершенно невероятных результатов. Например, по текстовым описаниям могла создавать элементы веб-сайтов.
Но кто сказал, что нейросети могут работать только с текстовой информацией?
Спустя несколько месяцев у исследователей возникла идея о том, что, если мы можем дополнять текстовые предложения, почему бы не попробовать завершать изображения. Этот проект получил название Image GPT. Идея в его основе также была простой: мы даем системе неполное изображение и хотим, чтобы она дополнила отсутствующие пиксели.
Пример работы нейросети Image GPT.
Например, она смогла определить, что кот на картинке скорее держит бумагу и дополнила изображение. А если на картинке изображена капля и часть кругов на воде, то нужно завершить их и добавить брызги.
Но на этом тоже не остановились: в январе 2021 года, спустя всего 7 месяцев после разработки GPT-3, компания представила свою новую сногсшибательную технологию, которой удалось построить связь между текстом и изображениями.
Эту нейросеть назвали DALL-E.
Но если завершение изображений уже работает, что нового она может сделать? На самом деле, как вы увидите ниже, было бы правильнее задать вопрос «а чего она сделать НЕ может?»
В чём суть
Разработчик Кэтрин Кроусон написала алгоритм, в котором нейросеть по текстовому описанию на английском языке пытается нарисовать подходящую картинку. Например, мы ей пишем (на английском, естественно) «программист-полуночник», а она выдаёт картинку:
Это «полуночное программирование» — очевидно, от первого лица
Или, например, «Семь грехов», а она в ответ:
Сложно сказать, что здесь изображено, но атмосфера греховная
Мы, разумеется, попросили алгоритм показать нам кадр из ещё не вышедшей игры Half-Life 3. Фанаты по всему миру ждут, когда же будет продолжение серии про Гордона Фримена и борьбу с «Комбайном». У алгоритма для нас плохие новости:
«Мистер Фримен, я что-то неважно себя чувствую»
Интересно, что в оригинальной игре у главного героя ровно такие же очки и оранжевый защитный костюм. Сложно сказать, о чём думал алгоритм, когда рисовал эту картинку, но он явно что-то знает.
Практического смысла в этих картинках пока нет, но удовольствия море. И, самое главное, вы можете получить такие же картинки по любым собственным запросам, причём даже если у вас очень простой компьютер.
Reflect
Сервис создан на основе генеративно-состязательной сети. Он умеет заменять лица на фотографиях.
Нейросеть не просто заменяет лица на фото, но и сохраняет выражение лица, его цвет и другие характеристики. В ней можно заменять лица и на статуях, картинах, в кадрах из мультфильмов и скриншотах из видеоигр.
Чтобы обработать изображение, просто загрузите его или выберите подходящее из галереи сервиса. Там есть даже мемы и образы героев видеоигр, популярных мультфильмов. Потом выберите лица, которые хотите изменить, и выберите для каждого подходящее лицо из предложенных или загрузите свое изображение. Снимки получаются очень реалистичными.
Сегодня твое место займет Джонни, Дейенерис.
В планах сервиса научить нейросеть не только заменять лица на фото, но и тела вместе с лицами на видео. А пока что он генерирует изображения с водяным знаком. Чтобы убрать его, зарегистрируйтесь и пригласите 5 друзей по реферальной ссылке. Тогда сможете скачивать готовые иллюстрации без вотермарок.
Colorize
Сервис создан российской компанией G-Core Labs на основе проекта DeOldify с открытым исходным кодом. Нейросеть умеет раскрашивать черно-белые фотографии в реалистичные цвета.
Чтобы получить готовое изображение, просто загрузите черно-белую иллюстрацию и оставьте адрес электронной почты. Обработка займет от 10 секунд до 30 минут, в моем случае письмо было на почте через 15 секунд.
Черно-белое фото раскрашено вполне реалистично, но морю не хватает немного красок
Это условно бесплатный сервис. На каждой иллюстрации будет видна надпись «Created by colorize.cc», а всего можно загрузить до 50 картинок.
Как устроена нейросеть
Нейросеть моделирует работу человеческой нервной системы, особенностью которой является способность к самообучению с учетом предыдущего опыта. Таким образом, с каждым разом система совершает все меньше ошибок.
Как и наша нервная система, нейросеть состоит из отдельных вычислительных элементов – нейронов, расположенных на нескольких слоях. Данные, поступающие на вход нейросети, проходят последовательную обработку на каждом слое сети. При этом каждый нейрон имеет определенные параметры, которые могут изменяться в зависимости от полученных результатов – в этом и заключается обучение сети.
Предположим, что задача нейросети – отличать кошек от собак. Для настройки нейронной сети подается большой массив подписанных изображений кошек и собак. Нейросеть анализирует признаки (в том числе линии, формы, их размер и цвет) на этих картинках и строит такую распознавательную модель, которая минимизирует процент ошибок относительно эталонных результатов.
На рисунке ниже представлен процесс работы нейросети, задача которой — распознать цифру почтового индекса, написанную от руки.
Но в 2010 году появилась база ImageNet, содержащая 15 миллионов изображений в 22 тысячах категорий. ImageNet многократно превышала объем существовавших баз данных изображений и была доступна для любого исследователя. С такими объемами данных нейросети можно было учить принимать практически безошибочные решения.
Результатов в решении этой проблемы в 2006 году добились три независимых группы ученых. Во-первых, Джеффри Хинтон реализовал предобучение сети при помощи машины Больцмана, обучая каждый слой отдельно. Во-вторых, Ян ЛеКан предложил использование сверточной нейронной сети для решения проблем распознавания изображений. Наконец, Иошуа Бенджио разработал каскадный автокодировщик, позволивший задействовать все слои в глубокой нейронной сети.
Какие проблемы связаны с технологией и почему распознавание лиц — это всё равно хорошо
На сегодня с современными системами распознавания лиц связаны две основные проблемы, которые не сильно зависят от алгоритмов и носят общий характер, рассказал Skillbox Media директор департамента решений на базе ИИ компании Oberon Владимир Борисов.
Во-первых, по мнению эксперта, есть недоверие людей, страх тотальной цифровизации и того, что в современном мире у человека не останется личного пространства. В результате вокруг систем распознавания лиц образуется негативный информационный фон. «Но это не относится к корпоративному сегменту, где на протяжении многих лет формировалось мнение, что ИИ и системы распознавания приносят много пользы и работают на благо как конкретного сотрудника, так и предприятия в целом», — утверждает Владимир Борисов.
Во-вторых, у систем распознаваний лиц есть проблемы с инфраструктурой, на которой должна работать биометрия. Если базу создавать с нуля, то сложностей не возникает. Можно довольно быстро подобрать и смонтировать оборудование. Но если на предприятии уже есть видеокамеры или системы видеонаблюдения, то зачастую приходится формировать дополнительные рекомендации по верному расположению камер, изменению фокусного расстояния и светочувствительности.
Владимир Борисов убеждён, что системы распознавания лиц не могут навредить законопослушным людям. Напротив, они помогают в повседневной жизни. «Например, это различные удобные сервисы оплаты или прохода через турникеты по лицевой биометрии, биометрические карты лояльности, позволяющие продавцу-консультанту в торговом зале быстро сориентироваться и предложить покупателю необходимый товар», — объясняет он.
Системы распознавания лиц активно используются также для борьбы с преступностью. По словам Борисова, ежесекундно в России «миллионы камер в аэропортах, на ж/д вокзалах или транспорте сопоставляют пассажиропоток с базой террористов». В случае выявления совпадений камеры выдают необходимые оповещения на пульт охраны.
Фото: VladFotoMag / Shutterstock
Вопрос системы распознавания лиц чаще обсуждается не на уровне технологического прогресса, а на уровне этических нормативов, с сожалением отметил в разговоре со Skillbox Media директор по продуктам облачного сервиса для видеонаблюдения Ivideon Заур Абуталимов. Обсуждение проблемы инициировал ЕС, в ряде штатов США запрещено использование технологии для коммерческой деятельности, а в Сингапуре, например, уже действуют цифровые паспорта.
Сам ты художник
«Портрет Эдмонда де Белами» издалека кажется экспонатом классического искусства: из прямоугольника позолоченной рамы на зрителя хмуро глядит расплывчатый незнакомец в темном сюртуке и белой сорочке. Алгоритмическое происхождение картины выдает лишь подпись — математическая формула, которая создала портрет (min G max D x + z ). Это генеративно-состязательная сеть (Generative Adversarial Network, GAN) — система, которая натравливает алгоритмы друг на друга: одна нейросеть генерирует образцы изображений, а другая пытается отличить «правильные» от «неправильных». Впервые генеративно-состязательные нейросети были созданы ученым Иэном Гудфеллоу (Ian Goodfellow). Фамилия Белами — своего рода дань первосоздателю: good и fellow примерно переводятся на французский как bel ami — Белами.
Вокруг нейроискусства густо роятся споры. Может ли искусственный интеллект быть художником? Вероятно, алгоритм — это просто инструмент? Кто — или что — имеет авторское право: алгоритм; программист, его написавший; или художник, его применивший?
Мы, увы, не можем спросить, что думает нейросеть. Художники же расходятся во мнении. Пьер Фотрель из коллектива Obvious в интервью отмечал
Герман Тюменцев, создатель нейроклипа по Библии, уже не считает алгоритм лишь инструментом, но и отдавать авторство машине не склонен:
Скажем, один и тот же код Герман Тюменцев и я использовали по-разному. Я грузанула Есенина; Герман — Библию. Я грузанула, потому что «так вышло», предыстория клипа Германа интереснее. Поначалу он обучал нейросеть «разговаривать» на семплах электронной музыки. Но из-за небольшого количества слов в электронной музыке нейросети не хватило данных, произошел так называемый underfitting — сеть будто пыталась что-то сказать, но напоминало это крики из преисподней. «Вопли из ада» стали поводом задуматься о религиозной тематике и сгенерировать по библейскому тексту иллюстрации.
Именно этот процесс создания — сотрудничество человека и машины, — с точки зрения сторонников алгоритмов, гораздо ценнее конечного продукта. Признание соавторства художника и алгоритма — полумера, помогающая разрешить спор «художник ли? искусство ли?». Потому как сотрудничество человека и машины в поиске новых визуальных форм мало чем отличается от концептуального искусства, где идея, лежащая в основе работы, и процесс ее создания важнее результата.
Но можем ли мы найти у алгоритмов качества, свойственные художникам, поэтам, композиторам? Можем, но — в схожей «полумере» — не совсем можем.
Шрифты
Fontmap — интерактивная карта шрифтов, созданная ИИ. Разработчик сайта Кевин Хо вдохновился исследователем из Стенфорда, который с помощью нейросети организовал тысячи фотографий на одной карте. В блоге Кевин пишет, что эксперимент с фотографиями показал, насколько полезными стали нейросети в работе с визуальной информацией. Программист задумался, как применить машинное обучение к дизайнерской рутине, и нашел решение — выбор шрифтовых сочетаний.
По мнению Кевина, для новых проектов дизайнеры берут шрифты, которые уже использовали, и выбирают из них по простым категориям — гротеск или антиква. Но в них большой спектр различий — в макете один шрифт без засечек может не сочетаться с другим.
Тогда Кевин совместно с Google Creative Lab разработал Fontmap. Алгоритм машинного обучения сортирует шрифты по визуальным характеристикам и подбирает сочетающиеся. Сейчас в базе Fontmap 750 шрифтов.
Шрифты, которые нейронные сети Fontmap выбрали для использования с Roboto
René — программа, которая поиграет со шрифтами за вас. Ее создал разработчик Джон Голд из Airbnb и TheGrid. Работа René построена на машинном обучении — с каждым новым подбором программа учится понимать принципы сочетания шрифтов. René помогает дизайнерам и разработчикам экономить время и составлять подборки шрифтов для разных проектов.
Джон Голд настраивает базовые характеристики для подбора шрифтов
Разработчик поддерживает идею, что нейросети — это инструменты-помощники, и высказывается против автоматизированного подхода. По мнению разработчика, René будет полезна только для дизайнера-профессионала, который будет «рулить» программой.
Красивая обработка видео на смартфоне
Съёмка видео на смартфон чаще всего не подготавливается заранее и используется только для запечатления неожиданных событий и происшествий. Поэтому полученное в результате видео может не оправдать ожидания.
Однако разработчики из Mail.Ru нашли выход из этой ситуации. Приложение Artisto переделывает видео так, чтобы атмосфера гармонировала с происходящим на экране. Получается некий мультик, выполненный в определённом стиле рисовки.
Приложение сохраняет «гладкость» видео, поскольку тщательно прорабатывает каждый кадр видеофайла. Также в вашей записи могут обнаружиться лишние объекты или вы можете плохо выглядеть, но Artisto скрывает эти детали, обрабатывая их таким образом, что «мусор» удачно вписывается в общую композицию.
This Person Does Not Exist
Сотрудник Uber Филипп Ван создал сервис, генерирующий человеческие лица. Он работает на основе генеративной нейросети StyleGAN от Nvidia.
Фото человеческих лиц генерируются автоматически на основе миллионов обработанных изображений. Система анализирует их и создает собирательный образ. Каждый раз, когда обновляете страницу, появляется новое лицо. Вы можете подумать, что где-то видели этого человека, но его на самом деле нет. Этот сервис – раздолье для тех, кому нужны фейковые фото для отзывов, или тех, кто боится нарушить авторские права при использовании фотографий людей.
Возможно, вы увидите что-то знакомое в этой девушке. Но можете не переживать – использовав это фото, вы ничего не нарушите
В большинстве случаев нейросеть выдает действительно качественные фото. Но случаются и ошибки – например, размытие одной области или добавление постороннего объекта на фото, приводящее к искажению.
Пример сгенерированного фото с ошибкой
Нейросети для создания фото людей и аватарок
Следующие сервисы способны сгенерировать лицо человека или аватарку для соцсетей. Результат выглядит естественно и отличить работу нейросети от настоящего фото практически невозможно.
Еще год назад сервис пребывал в зачаточном состоянии и выдавал достаточно сырые результаты. Однако разработчики не забросили свою идею — и вот, на 2020 год в архиве нейросети более миллиона сгенерированных лиц живых людей. Самое то для аватарок в соцсетях. Например, чтобы пофармить аккаунты Facebook, а?
В Generated.photos есть удобный фильтр — можно сгенерировать лицо конкретного пола и возраста, выбрать цвет глаз и волос, длину прически и даже эмоцию на лице. Нейросеть работает безупречно.
Более простой по функционалу, но от этого не менее прекрасный сервис по созданию лиц несуществующих людей. Чтобы нейросеть сгенерировала онлайн фото, достаточно зайти на сайт и обновлять страничку. Варианты, которые подходят под ваши цели, сохраняются в формате jpg. Изображения получаются натуральными — можно использовать в отзывах, соцсетях и пр. Посмотрите, как работает нейросеть для фотографий:
ThisPersonDoesnotExist обработала миллионы человеческих лиц и создает новые на основе собирательных образов. Начинка сервиса — генеративная нейросеть StyleGAN от Nvidia.
А вот и один из самых интересных экземпляров нашей подборки. Нейросеть для создания дипфейк-видео из обычных картинок. Фото с помощью нейросети превращаются в анимацию. Для этого используется технология First Order Motion Model. Изначально код был опубликован на гитхабе, но энтузиасты уже перенесли все в Telegram-бота. Ребята даже анимировали жуткую голову из рекламы телекомпании “ВИД”:
На обработку 1 секунды видео требуется примерно 7 секунд времени, поэтому иногда в боте образовываются очереди. Подобную махинацию можно провернуть с любой фотографией, результат вас приятно удивит.
Подведём итоги
Новый подход к определению подлинности изображения превосходит современные методы. Столь высокий результат достигается путём совмещения двух различных потоков (RGB и шумового) для выявления особенностей, возникающих при редактировании. Как видно, два потока дополняют друг друга при определении обработанных областей изображения. Шумовые особенности, выявленные SRM фильтром, позволяют нейросети перехватывать шумовые несоответствия между отредактированным и оригинальным регионами изображения.
Кроме того, RGB-N способна различать методы редактирования. Таким образом, она не только указывает, какая область изображения была обработана, но и говорит, как эта область была обработана: был ли объект вставлен, удалён или копирован. Поэтому, используя такую нейросеть, вы без труда сможете отличить оригинальное изображение от подделки.