Распознать «синтетику»: тест, который мы провалили

автор: Евгений Золотов

Право, тест Тьюринга не заслужил проявляемого к нему интереса. Даже если машина когда-нибудь сможет уверенно вводить человека в заблуждение относительного того, кто находится «на той стороне провода», практической пользы от этого будет чуть. Умнее-то она не станет! И тем большей несправедливостью выглядит отсутствие интереса к своеобразной вариации того же теста применительно к чистому изображению.

Попросту говоря, как только мы перешагнём черту, за которой не сможем уверенно отличить настоящую фотографию от синтезированной компьютером картинки, можно будет считать тест пройденным (а правильней, проваленным!). Но, в отличие от классического «тьюринга», здесь последствия будут немедленными и ощутимыми. Больше того, дискуссия, тлеющая в научном сообществе последние годы, позволяет утверждать, что мы если не перешагнули, то уже стоим на этой черте.

250216-1

Формальным толчком к сегодняшнему рассказу послужила работа, опубликованная на днях коллективом психологов и компьютерщиков университетов Калифорнии и Рутгерса (статья, как водится, доступна только платно, но многое можно почерпнуть из более ранней публикациитех же авторов). Если вы накоротке с английским, я очень рекомендую хотя бы бегло пройтись по тексту: там много интересных подробностей, которые я в своём рассказе опущу. Суть, впрочем, простая. Набрав несколько сотен добровольцев, авторы предложили им пройти проверку на способность отличать рисованные компьютером человеческие лица от фотографированных.

Ради чистоты эксперимента, влияние косвенных факторов было сведено к минимуму: фон вычищен, размер изображения подобран не очень большой, но и не самый маленький, и т.д. А результат, в общем, такой: неподготовленная аудитория уверенно (больше чем в 9 из 10 случаев) узнаёт в настоящей фотографии настоящую, но лишь с трудом (6 из 10) узнаёт в синтезированном изображении синтезированное. После краткого обучения на тему того, как распознать «синтетику», процент успешного распознавания рисованных лиц вырос примерно до трёх четвертей, зато почти пропорционально ухудшился процент распознавания настоящего.

На основании этого можно сделать два важных вывода. Во-первых, следует признать, что компьютерная графика достигла уровня, на котором ничего не подозревающий обыватель может и, вероятно, будет введён в заблуждение, приняв несуществующее за настоящее. Это пока ещё не заветные 50%, но речь, заметьте, и не о произвольной картинке, а о человеческом лице — которое представляет собой уникальный с точки зрения человеческого же глаза объект (мы распознаём лица лучше всего остального).

Во-вторых, компьютерная графика стала настолько хороша, что тот же обыватель, получив некоторые базовые знания в плане распознавания синтетического изображения, склонен обманываться и находить те же признаки в изображении настоящем. Чему подопытных могли научить? Рискну предположить, основам, которые известны каждому айтишнику: «синтетика» слишком гладкая, слишком правильная, с нехарактерной стыковкой деталей, неестественным выражением лиц, позами, пропорциями, и т.п. Увы, при желании всё то же самое можно отыскать и в реальности.

250216-2

Не верите? Вижу, вижу вашу скептическую ухмылку: мол, уж меня-то они бы не провели! Хорошо. Значит вам ничего не будет стоить пройти вот этот короткий тест. К упомянутому выше исследованию он прямого касательства не имеет, но тем интересней результат. Это случайный набор картинок, в котором фотографии реальных объектов перемешаны с рендеренными моделями. И тут уже не лица, вырезанные из контекста, а более общие, более натуральные сцены. Проверьте себя и честно сообщите счёт в комментариях (ведите подсчёт самостоятельно, баллы автоматически не запоминаются). Лично я угадал правильно менее чем половину слайдов — и был поражён, считая себя, наблюдающего эволюцию компьютерной графики ещё с эпохи монохромных 8-битных машин, пусть не экспертом, но знатоком вопроса.

Теперь, после того, как ваша самоуверенность поостыла, вернёмся к исследованию. Его проводят уже не первый раз и, что интересно, результаты пятилетней давности были заметно лучше. Что это значит, помноженное на только что проваленный вами тест? Как раз то, о чём шла речь в самом начале: мы либо на черте, либо уже её перешагнули. Но какое практическое значение это может иметь? О, огромное!

Авторы исследования рисуют следующий юридический контекст. Оказывается в Соединённых Штатах в конце 90-х годов законодатели ухитрились приравнять рисованную детскую порнографию к порнографии настоящей, снятой с участием живых актёров. В начале нулевых этот пункт был не аннулирован, но сильно ослаблен: рисованная порнушка считается непристойностью, но равноценного наказания за неё решили таки не назначать, поскольку живые дети ведь не пострадали. Выходит, тот, на чьём компьютере обнаружат такое видео, всегда может прибегнуть к так называемой «виртуальной защите»: заявить, что это всего лишь компьютерная анимация. Тогда дело упрётся в решение жюри присяжных: именно присяжные (простые люди с улицы, вроде тех, которых набирали для исследования выше!) должны будут установить факт реальности или виртуальности картинки.

250216-3

Как мы только что выяснили, пока ещё обмануть человека синтезированным изображением нелегко, но тенденция, выявленная учёными, указывает, что уже через пять лет зритель будет обманываться «синтетикой» чаще, нежели распознавать реальность. И вот тогда придётся придумывать что-то ещё, чтобы преступники не распоясались. Пока идея лишь в том, чтобы привлечь к распознаванию изображения сам же компьютер — но, как свидетельствуют исследователи, эффективность применяемых для этого статистических методов далека от желаемой (они плохо работают на материале низкого качества, например).

Но и для нас, живущих не в Америке, и сейчас, а не завтра, последствия ощутимы. В этой колонке речь о них шла несколько раз за последние годы. Вспомните чувство неполноценности, рождающееся у покупателя, проходящего перед витриной с рисованной манекенщицей (формы которой, естественно, недостижимы в реальности). Или совсем свежий случай, когда предполагаемая рисованность видео некоторое время мешала признать теракт. Или незаметные улучшения, вносимые в фотоматериал искусственным интеллектом… Список наверняка можно продолжать. Пора, например, наказывать кофейни и фастфуд, выдающие желаемое за действительное: слишком уж велика разница между реальными бутербродами на прилавках и их великолепным синтетическим изображением в меню.

Важнее, впрочем, признать и помнить тот факт, что мы вступили в эпоху, когда глазам уже нельзя доверять на сто процентов. Машины стали слишком хороши в имитации реальности! Признать, помнить и — задаться вопросом: а чего ради, собственно, мы этого так настойчиво добивались? ;-)

P.S. В статье использованы графические работы Андрея Кобушенко.