От

Генри Мао

—

21 февр. 2019 г.

GPT-3 и SEO: почему ИИ навсегда революционизирует ваш контент

Генри Мао

Сооснователь/CTO

Получил степень бакалавра компьютерных наук и степень магистра наук

Сегодня мы все уже наслышаны о шумихе.

OpenAI выпустила новую версию генеративного предварительно обученного трансформера версии 3 (сокращенно GPT-3 или GPT 3) с бета-доступом к API. GPT 3, как и его предшественник GPT 2, представляет собой большую глубокую нейросеть, которая может автоматически генерировать текст, достаточно реалистичный, чтобы ввести в заблуждение среднестатистического человека. Это продвинутый ИИ, который учится подражать человеческому письму по материалам из Интернета.

Вот отрывок из статьи, сгенерированной GPT 3:

В годы после Второй мировой войны экономика западного мира, и особенно экономика Европы, начала восстанавливаться и демонстрировать рост. Началось восстановление фабрик, дорог и мостов, городов и домов, гаваней и аэропортов. Экономика Европы стала двигателем роста для всего западного мира. Страны, компании и люди процветали, и в Европе начался великий период экономического роста, роста заработной платы и повышения уровня жизни. Сочетание восстановления и новых инвестиций сделало Европу отличным местом для ведения бизнеса. Для компаний Европа представляла собой огромный рынок, члены которого были более или менее объединены с точки зрения регулирования рынка, инфраструктуры, инвестиционной политики и культуры. Фирмы строили заводы, инвестировали и находили новые рынки, и эти инвестиции в основном финансировались за счет заемных средств.

Эти результаты, несомненно, удивили публику и вызвали большой ажиотаж. Сгенерированный текст хорошо читается и грамматически правилен — но GPT 3 — это не просто мощный генератор текстов. Эта технология знаменует собой фундаментальный сдвиг в том, как мы должны думать о создании контента, маркетинге и SEO (поисковой оптимизации). Короткие фрагменты контента, подобные показанному выше, могут быть легко созданы с низкими затратами.

Для экспертов по SEO и создателей контента крайне важно понимать GPT 3. Означает ли это, что ручной труд копирайтера уходит в прошлое? Может ли он создавать высококачественные тексты? Означает ли это сценарий судного дня, когда SEO-спам-боты будут штамповать неограниченное количество мусора?

Хотя в этих опасениях есть доля правды, мы считаем, что чрезмерный ажиотаж вокруг GPT 3 требует больше ясности. Чтобы понять влияние технологий генерации текста на SEO и написание контента, нам нужно сначала разобраться, что делает GPT 3, почему это важно и как это работает.

Универсальность GPT-3

GPT-3 и предшествующие ей технологии (GPT и GPT 2) представляют собой направление исследований в области универсальных моделей NLP (обработки естественного языка), разрабатываемых OpenAI. Но что значит быть универсальным?

Машинное обучение имеет долгую историю разработки систем, которые хорошо справляются только с одной задачей. Такие системы называются узким ИИ. Если вам нужен ИИ, который прогнозирует оценку отзыва на Amazon, вы можете легко обучить его, если у вас достаточно обучающих данных. Если вы хотите разработать модель, которая сможет смотреть на фотографию профиля в социальной сети и говорить вам, кто это, вы можете обучить другую модель, которая справится с этой задачей.

Проблема в том, что системы ИИ, обученные на одной из этих задач, не способны работать ни на какой другой — отсюда и термин узкоспециализированный. Он ограничен рамками, в которых обучался. Нынешний святой грааль в исследованиях ИИ — поиск более универсальных технологий, то есть ИИ, способных делать много вещей. Вот почему универсальные технологии меняют правила игры.

Зачем создавать ИИ-универсалов?

Существует распространенное мнение: разве узкопрофильные специалисты не предпочтительнее?

На заре компьютерной эры люди создавали специализированные компьютеры, которые могли рассчитывать и решать только один тип задач. Представьте себе специализированный калькулятор, который умеет делать только сложение и ничего больше. Конечно, он очень хорош в сложении и делает это очень быстро, но пользы от этого мало.

Вместо этого гораздо полезнее иметь компьютер, который может складывать, вычитать, выходить в интернет, играть в видеоигры и т. д. Современные компьютеры, основанные на архитектуре фон Неймана, обладают этими общими возможностями. Оглядываясь назад, легко сказать, что универсальные вычисления — одно из самых эффективных изобретений человечества.

Тот же принцип применим и к технологиям ИИ вроде GPT 3. Мы хотим, чтобы наши системы были универсальными, потому что это позволяет нам решать гораздо больше задач без ручного программирования каждого отдельного процесса. Кроме того, оказалось, что универсальные подходы к обучению повышают точность ИИ в задачах NLP минимум на 60%.

В конце концов, люди — это форма общего интеллекта. Общий интеллект позволяет нам приобретать навыки, о полезности которых мы даже не догадываемся заранее. Тем, кто интересуется тем, что значит иметь общий интеллект, мы рекомендуем статью Шолле «Об измерении интеллекта».

Для SEO-маркетинга это означает, что нам не нужно заранее знать, какой тип контента мы хотим производить. Нам не нужно создавать отдельный ИИ для немного отличающихся целей.

GPT-3 — это система ИИ, демонстрирующая некоторые свойства общего интеллекта (иногда называемого Proto-AGI). Например, мы можем предложить ИИ примеры диалогов персонажей и попросить его продолжить беседу:

Рекс — путешественник во времени из будущего. Ада — дворянка девятнадцатого века. Рекс: Кажется, я разбил свою машину времени в вашем саду. Ада: Прошу прощения? Что вы сказали, молодой человек?

Он также может выполнять множество других задач и даже генерировать HTML-код. Это очень важно, поскольку означает, что мы можем решать многие задачи, связанные с контентом, с помощью GPT.

Значит ли это, что GPT 3 может решать все задачи, связанные с SEO? Может ли он создавать посты в блогах на любую тему или контент для любой категории, которую мы пожелаем? Не совсем так. Чтобы ответить на этот вопрос, нам нужно разобрать, как работает GPT 3.

Как учится GPT 3

Использование больших данных

Модели машинного обучения (и особенно глубокие нейронные сети) очень требовательны к информации и работают хорошо только тогда, когда вы предоставляете им большой объем данных. Ведь данные — это новая нефть.

Но получать информацию сложно и дорого. Большинство полезных систем машинного обучения требуют от людей кропотливой разметки каждой точки данных. Размеченные данные обычно являются основным узким местом во многих приложениях из-за высокой стоимости их сбора — только представьте себе расходы на наем армии исполнителей на Amazon Mechanical Turk!

GPT 3 обходит эту проблему, создавая свой собственный тренировочный сигнал путем моделирования естественного текста в Сети. Он использует парадигму машинного обучения под названием «обучение без учителя» (или самообучение). Это позволяет обучаться без размеченных человеком данных. Для тех, кто хочет углубиться в технические детали обучения без учителя, наш CTO написал подробный анализ по этой ссылке.

Но ведь даже без разметки нам нужно много данных, верно?

Оказывается, эти массивы информации находятся прямо у нас под носом. В Интернете содержится огромное количество качественных, хорошо написанных статей на самые разные темы, и все они легко доступны. Прелесть метода обучения GPT в том, что ему просто нужно научиться предсказывать эти написанные человеком статьи, чтобы работать хорошо.

Но подождите, разве в сети мало мусора? Разве GPT 3 не научится и этому тоже?

Это правда. Создатели GPT смягчили некоторые из этих проблем, используя краудсорсинг для отбора данных. Один из способов сделать это — изучить URL-адреса, которыми люди делятся на Reddit, и собирать контент и сообщения только с тех сайтов, у которых большое количество апвоутов на Reddit.

Обучение через генерацию языка

Как только у вас появились данные, вы можете приступать к обучению GPT. Но как обучить GPT, чтобы получить все эти универсальные возможности, к которым мы стремимся? Одна из идей заключается в простой генерации текста. GPT учится генерировать естественный язык, предсказывая следующее слово в статье на основе предыдущих слов.

Это главная причина, по которой GPT генерирует контент только слева направо (он не может делать это в обратном направлении). Этот тип обучения называется языковым моделированием.

Все предельно просто.

Предсказывая, какое слово будет следующим в предложении, ИИ должен научиться использовать другие слова в его контексте. Это косвенно заставляет GPT усваивать множество других важных общих знаний.

Чего я не могу воссоздать, того я не понимаю.

— Ричард Фейнман

Чтобы правильно предсказать следующее слово, у вас должно быть некоторое здравое понимание нашего мира в дополнение к базовым вещам, таким как английский синтаксис и грамматика. Вот так простое предсказание статей позволяет GPT осваивать удивительное поведение, похожее на человеческое.

Системы генерации языка имеют долгую историю в машинном обучении, и GPT не является новичком в этом деле. Фактически, некоторые исследователи ИИ считают GPT не столько научно новым достижением, сколько впечатляющим инженерным подвигом. Это преподносит нам важный урок о том, что могут и чего не могут дать нам более 4 миллионов долларов США, потраченных на вычислительные ресурсы в сочетании с большим объемом данных.

Каков же вердикт?

OpenAI показала нам, что масштабирование решений ИИ может увести нас довольно далеко. GPT, масштабированный до максимального размера, может извлекать множество общих возможностей, просто наблюдая за тем, как пишут люди. Вот почему вы видите такую впечатляющую производительность модели. Google недавно масштабировал версию GPT под названием Switch Transformers до размера, в 10 раз превышающего GPT-3.

Это горький урок, усвоенный многими исследователями ИИ: решения, основанные на вычислениях и обучении, превосходят ручной человеческий труд. Масштабируя простую среду генерации, мы получаем GPT 3, который пишет почти как человек.

Но GPT 3 не лишен ограничений. Для специалистов по SEO и контент-маркетологов знание этих ограничений крайне важно и влияет на то, как мы можем использовать эту технологию естественного языка.

Ограничения генерации текста

Слабая модель мира и фактическая точность

Несмотря на шумиху, GPT не имеет глубокого понимания нашего мира. Интересный способ увидеть этот недостаток — предложить GPT сделать что-либо, связанное с физикой здравого смысла или реальным миром. Как отмечается в техническом документе OpenAI, у него возникают трудности с ответами на вопросы типа «Если я положу сыр в холодильник, расплавится ли он?». Он также явно не способен понимать другие человеческие концепции, такие как каламбуры.

Одной из возможных причин этого явления является то, что ИИ не обладает телесным познанием — он никогда на самом деле не видел и не чувствовал холодильник, несмотря на то, что много раз читал о нем в обучающих данных. Если вы будете вслепую использовать ИИ для генерации текста под нужды контент-маркетинга, вы получите много несоответствий и фактически неверных данных.

Нежелательная предвзятость

GPT обучается на материалах из Сети и, следовательно, страдает от тех же искажений, которые присутствуют в интернет-данных. Таким образом, прямое использование GPT может привести к созданию неуместного или оскорбительного контента. Некоторые способы минимизации этой проблемы включают фильтры ненормативной лексики, которые отклоняют неподобающий контент. Снижение нежелательной предвзятости в машинном обучении все еще остается активной областью исследований.

Адаптация к предметной области

Хотя GPT и приобрел общее понимание языка, он может не подходить для вашей конкретной ниши. Недавние исследования показали, что тонкая настройка и корректировка моделей типа GPT могут привести к еще лучшим результатам.

GPT работает всего с несколькими примерами, но предоставление ему большего объема данных определенно принесет лучшие результаты. Еще одним ограничением GPT является его максимальная длина генерации, что может сделать его неподходящим для использования длинных документов в качестве входных данных.

Практическая эффективность

Хотя говорить об этом пока рано, похоже, что OpenAI планирует установить высокую стоимость за использование GPT. Это решение может оказаться дорогим для некоторых сценариев использования, к тому же предоставляемый сервис не адаптирован под SEO. Использование или обучение GPT силами компании является сложной практической задачей из-за огромного размера параметров нейросети.

В долгосрочной перспективе эта проблема вызывает меньше опасений. Существуют некоторые направления исследований, которые позволят найти более эффективные способы запуска GPT, что снизит долгосрочные затраты.

SEO-возможности GPT-3

Итак, GPT-3 — это мощная система генерации текста, но что все это значит для контент-маркетинга? Контент-маркетинг для SEO состоит из многих этапов. Он варьируется от исследования ключевых слов, анализа конкурентов и, наконец, до непосредственного написания ваших текстов.

Мы видим, что GPT в основном используется для создания контента, но он не может делать это в изоляции. Из-за ограничений технологии очевидно, что предоставление алгоритму полной свободы действий не принесет отличных результатов. В связке обязательно должен участвовать человек.

Писатели становятся редакторами

GPT раскрывает свой потенциал наилучшим образом, когда используется как инструмент в связке с авторами — то, как авторы используют инструменты ИИ, не теряя своего индивидуального стиля написания, становится ключевым навыком для SEO-команд. Это связано с тем, что авторы-люди сильны в некоторых вещах, которые недоступны ИИ. Например, авторы лучше справляются с высокоуровневым мышлением и определением того, о чем писать. ИИ отлично подходит для рутинных задач низкого уровня, таких как создание страниц категорий на основе списка веб-страниц веб-сайта.

Большая часть усилий при написании текста тратится на проблемы низкого уровня, такие как грамматическая правильность, тон и плавность речи. С GPT роль человека-автора переходит к редактору. Представьте себе нанесение широких мазков кистью на холст, где детали изображения заполняет ИИ, а затем человек дорабатывает эти детали до совершенства.

В каком-то смысле это здорово, поскольку авторы могут сосредоточиться на более интересных вещах — формулировать качественные контент-идеи и уделять внимание более творческой стороне процесса. Это гораздо приятнее, чем тратить время на верстку страниц категорий, высчитывание точного количества ключевых слов для оптимизации статьи под поисковики и/или рутинную вычитку каждого предложения.

Инструменты для объединения человека и ИИ

Следствием вышесказанного является то, что нам нужны отличный пользовательский интерфейс и инструменты, использующие GPT, чтобы он мог эффективно работать вместе с авторами. В целом, существует несколько способов превратить технологии типа GPT в полезные инструменты для создания контента. Вот несколько примеров технологий ИИ, реализованных в виде различных инструментов:

Анализ удобочитаемости

Хорошая читаемость — важная составляющая создания отличного контента. Она помогает удерживать внимание пользователей и увеличивает время их пребывания на странице, что является важным фактором для ранжирования на высоких позициях в Google. Но писать статьи, которые легко читать, проще сказать, чем сделать.

Здесь, в Jenni, мы разработали инструмент, который сделает эту работу за вас. Мы использовали технологию, похожую на GPT 3, но адаптировали ее для автоматического перефразирования предложений, чтобы сделать текст более легким для восприятия.

Умное перефразирование

Перефразирование — это искусство использования исходного текста без прямого цитирования материалов источника. Каждый раз, когда вы берете информацию из чужого источника, вам необходимо указывать, откуда вы ее получили. Этот вопрос также часто возникает при работе с ИИ; наш анализ ИИ-копирайтинга, плагиата и оригинальности подробно разбирает, на что следует обратить внимание.

Приведенный выше абзац был перефразирован из определения университета Пердью с помощью нашего ИИ для автоматического перефразирования. ИИ, выполняющий умное перефразирование, может переписать любое предложение так, чтобы оно отличалось от источника, или изложить его в других желаемых стилях письма.

В Jenni мы провели исследования на наших авторах и выяснили, что автоматизация перефразирования может сберечь не менее 30% времени автора. Это также позволяет экспериментировать с альтернативными формулировками предложений, некоторые из которых могут звучать более плавно, чем в оригинале, или лучше передавать суть.

Тематическая оптимизация

Многие SEO-специалисты полагаются на тематическую оптимизацию как на способ обеспечить высокие позиции своего контента в поисковых системах. Действительно, разработка пула тем важна для релевантности определенным поисковым запросам, но соответствие статьи всем тематическим требованиям представляет собой сложную задачу.

Раньше наши редакторы тратили от 1 до 4 часов на оптимизацию тем вручную. Использование систем ИИ для определения релевантности темы в вашей статье может помочь удерживать процесс написания текста в нужном русле, что избавит редакторов от необходимости переписывать неподходящие фрагменты.

Саммаризация (сжатие текста)

Как мы обсуждали ранее, ИИ превосходно справляется с задачами низкого уровня, и резюмирование информации не является исключением. Что касается написания контента, мы обнаружили, что обычная задача, которую выполняют авторы, — это резюмирование других текстов.

Саммаризация — это задача, в которой системы ИИ доказали свою способность эффективно работать в коммерческих и производственных средах. Вместо того чтобы читать плотный блок текста, почему бы не поручить ИИ составить лаконичный список в виде тезисов? В том же ключе вы можете использовать ИИ для создания предметных указателей или страниц категорий, если ваш сайт уже наполнен.

Может ли сгенерированный контент ранжироваться?

Некоторые практикующие SEO-специалисты выражают обеспокоенность по поводу использования автоматической генерации контента и возможного получения штрафов от Google.

Google, как и многие другие поисковые системы, стремится предоставлять своим пользователям наиболее релевантный контент. Так что основная проблема со сгенерированным контентом заключается не в том, что он автоматический, а в том, что его целью обычно является создание поискового спама. В Google заявляли, что до тех пор, пока контент приносит реальную пользу юзерам, а не используется для манипулирования алгоритмами системы, его генерация допустима.

Фактически, многие крупные новостные и медийные издания, такие как Forbes, уже используют подобные технологии. Секрет здесь в том, чтобы объединить лучшее из обоих миров — человеческий и искусственный интеллект — для создания привлекательного контента. Наполнение Интернета полезными знаниями гарантирует вам место в топе выдачи, даже если часть ваших текстов создана искусственно.

Будущее ИИ и SEO

Грань между наукой и фантастикой продолжает стираться с выпуском передовых моделей ИИ вроде GPT. Огромный качественный прогресс при переходе от GPT 2 к GPT 3 всего за один год поражает воображение. Пройдет время, и газета, которую вы читаете за завтраком, с большей вероятностью будет написана кем-то или чем-то, что никогда в жизни не пробовало омлет.

Вот почему мы считаем важным глубже понимать технологии ИИ за рамками одного лишь пиара. Те, кто не работает в сфере SEO, могут просто восхищаться прогрессом ИИ. Тем же, кто работает в SEO и создает контент, придется адаптироваться к этим инструментам, чтобы оставаться лидерами.

Содержание