By

21 de fev. de 2019

GPT 3 e SEO: Por que a IA vai revolucionar seu conteúdo para sempre

Todos nós já ouvimos o burburinho até agora.

A OpenAI lançou uma nova versão do Transformador Generativo Pré-treinado versão 3 (abreviado como GPT-3 ou GPT 3) com acesso à API beta GPT 3, muito parecido com seu antecessor GPT 2, é uma grande rede neural profunda que pode gerar automaticamente texto realista o suficiente para enganar o humano comum. É uma IA avançada que aprende como imitar a escrita humana da web.

Aqui está um trecho de um artigo gerado pelo GPT 3:

Nos anos após a Segunda Guerra Mundial, a economia do mundo ocidental, e especialmente as economias da Europa, começaram a se recuperar e a mostrar crescimento. A reconstrução de fábricas, de estradas e pontes, de cidades e casas, de portos e aeroportos havia começado. A economia da Europa havia se tornado um motor de crescimento para todo o mundo ocidental. Países, empresas e pessoas prosperaram, e um grande período de crescimento econômico, aumento de salários e melhoria dos padrões de vida começou na Europa. A combinação de reconstrução e novos investimentos fez da Europa um ótimo lugar para fazer negócios. Para as empresas, a Europa era um vasto mercado, com seus membros mais ou menos unificados em termos de regulação de mercado, infraestrutura, política de investimento e cultura. As empresas estabeleceram fábricas, investiram e encontraram novos mercados, e esses investimentos foram em grande parte financiados por dívida.

Esses resultados sem dúvida surpreenderam o público e geraram muito alvoroço. O texto gerado é bem escrito e gramaticalmente correto - mas o GPT 3 não é apenas um poderoso gerador de texto. A tecnologia marca uma forma fundamental que temos que pensar sobre criação de conteúdo, marketing e SEO (Otimização para Motores de Busca). Pequenos trechos de conteúdo, como o mostrado acima, podem ser facilmente criados por um baixo custo.

Como especialistas em SEO e criadores de conteúdo, é imperativo entender o GPT 3. Isso significa que a escrita humana é obsoleta? Pode produzir uma cópia de alta qualidade? Isso marca um cenário de apocalipse onde bots de spam SEO criam lixo ilimitado?

Embora haja algumas verdades nesses sentimentos, achamos que o exagero em torno do GPT 3 precisa de mais clareza. Para entender o impacto das tecnologias de geração de texto no SEO e na escrita de conteúdo, precisamos primeiro entender o que o GPT 3 faz, por que isso importa e como funciona.

A Generalidade do GPT-3

O GPT-3 e suas tecnologias antecessoras (GPT e GPT 2) são uma linha de pesquisa sobre geral modelos de PNL (Processamento de Linguagem Natural) desenvolvidos pela OpenAI. Mas o que significa ser geral?

A aprendizagem de máquina tem uma longa história de desenvolver sistemas que são bons em apenas uma coisa. Esses sistemas são chamados de IA estreita. Se você quer uma IA que preveja a classificação de uma avaliação da Amazon - você pode facilmente treinar uma se tiver dados de treinamento suficientes. Se você deseja desenvolver um modelo que pode olhar uma foto de perfil nas redes sociais e te dizer quem é - você pode treinar outro modelo que fará o trabalho.

O problema é que sistemas de IA treinados em qualquer uma dessas tarefas não conseguem trabalhar em qualquer outra - daí o termo estreito. Ele é restrito ao escopo em que foi treinado. O atual Santo Graal da pesquisa de IA é buscar tecnologias mais gerais - IAs que podem fazer muitas coisas. Aqui está o porquê as tecnologias gerais são revolucionárias.

Por que construir IAs generalistas?

Um sentimento comum vai - especialistas especializados não deveriam ser preferidos?

Nos primórdios da computação, as pessoas criaram computadores especializados que só podiam calcular e resolver um tipo de problema. Imagine ter uma calculadora especializada que só pode fazer adição, mas nada mais. Claro, ela é muito boa em adição e pode fazê-la muito rápido, mas isso não seria muito útil.

Em vez disso, é muito mais útil ter um computador que pode adicionar, subtrair, ir online, jogar videogames, etc. Os computadores modernos baseados na arquitetura von Neumann têm essas capacidades gerais. Retrospectivamente, é fácil dizer que a computação de propósito geral é uma das invenções mais impactantes da humanidade.

O mesmo princípio se aplica às tecnologias de IA como o GPT 3. Queremos ter generalidade em nossos sistemas porque isso nos permite resolver muitos mais problemas sem engenharia manual de várias tarefas em mãos. Além disso, descobriu-se que abordagens de aprendizado geral mostraram aumentar a precisão da IA em tarefas de PNL em pelo menos 60%.

Afinal, os seres humanos são uma forma de inteligência geral. A inteligência geral nos permite adquirir habilidades que nem sabemos que são úteis previamente. Para aqueles interessados em o que significa ter inteligência geral, recomendamos o artigo de Chollet Sobre a Medida da Inteligência.

Para o marketing de SEO, isso significa que não precisamos saber antecipadamente que tipo de conteúdo queremos produzir. Não precisamos criar uma IA diferente para um propósito ligeiramente diferente.

O GPT-3 é um sistema de IA que exibe algumas propriedades de inteligência geral (às vezes chamadas de Proto-AGI). Por exemplo, podemos solicitar à IA exemplos de diálogos de personagens e pedir que complete:

Rex é um viajante do tempo do futuro. Ada é uma nobre do século dezenove. Rex: Acho que estraguei minha máquina do tempo no seu jardim. Ada: Desculpe? O que você disse, jovem?

Ele também pode realizar uma variedade de outras tarefas e até mesmo gerar código HTML. Isso é um grande negócio porque significa que podemos resolver muitas tarefas relacionadas a conteúdo com o GPT.

Então, isso significa que o GPT 3 pode resolver todas as tarefas relevantes relacionadas ao SEO?  Ele pode criar postagens de blog para qualquer tópico ou conteúdo para qualquer categoria que desejamos? Não exatamente. Para responder a essa pergunta, precisamos entender como o GPT 3 funciona.

Como o GPT 3 Aprende

Utilizando Big Data

Modelos de aprendizado de máquina (e especialmente redes neurais profundas) são famintos por dados e só funcionam bem quando você os abastece com muitos dados. Afinal, dados são o novo petróleo.

Mas obter dados é difícil e caro. A maioria dos sistemas de aprendizado de máquina úteis requer que humanos rotulem meticulosamente cada ponto de dado. Dados rotulados geralmente são o principal gargalo em muitas aplicações porque é caro reuni-los - imagine o custo de contratar uma equipe de Amazon Turkers!

O GPT 3 contorna esse problema criando seu próprio sinal de treinamento modelando textos naturalmente ocorrentes na web. Adota um paradigma de aprendizado de máquina chamado aprendizagem não supervisionada (ou auto-supervisionada). Isso permite o aprendizado sem dados rotulados por humanos. Para aqueles que querem se aprofundar nos detalhes técnicos da aprendizagem não supervisionada, nosso CTO escreveu uma análise em profundidade aqui.

Mas mesmo sem rótulos, precisamos de muitos dados, certo?

Acontece que os dados estão bem diante de nossos olhos. A internet contém uma tonelada de artigos de alta qualidade, bem escritos sobre uma variedade de tópicos - e todos eles são facilmente acessíveis. A beleza da técnica de treinamento do GPT é que ele simplesmente precisa aprender a prever esses artigos escritos por humanos para se sair bem.

Mas espere - não há muito lixo na web? O GPT 3 não aprenderia isso também?

Isso é verdade. Os criadores do GPT mitigaram alguns desses problemas usando crowdsourcing para organizar seus dados. Uma forma de fazer isso é olhar para as URLs que as pessoas compartilham no Reddit e rastrear apenas conteúdo e postagens de sites com um grande número de upvotes no Reddit.

Aprendendo pela Geração de Linguagem

Uma vez que você tem os dados, agora pode treinar o GPT. Mas como pode treinar o GPT para obter todas essas capacidades gerais que desejamos? Uma ideia é simplesmente fazer a geração de texto. O GPT aprende a gerar linguagem natural prevendo a próxima palavra em um artigo a partir das palavras anteriores.

Essa é a principal razão pela qual o GPT apenas gera conteúdo da esquerda para a direita (ele não pode fazer isso para trás). Esse tipo de aprendizado é chamado de modelagem de linguagem.

É tão simples assim.

Ao prever qual palavra vem a seguir em uma frase, a IA deve aprender como utilizar outras palavras em seu contexto. Isso implicitamente força o GPT a aprender muitos outros conhecimentos gerais importantes.

O que não posso criar, não entendo.

-- Richard Feynman

Para prever corretamente a próxima palavra, você também deve ter alguma compreensão de senso comum sobre nosso mundo, além de coisas básicas como sintaxe e gramática do inglês. É assim que simplesmente fazer a previsão de artigos permite que o GPT aprenda comportamentos humanos extraordinários.

Sistemas de geração de linguagem têm uma longa história em aprendizado de máquina, e o GPT não é novo no jogo. Na verdade, alguns pesquisadores de IA consideram o GPT menos uma realização cientificamente nova, mas sim uma conquista de engenharia impressionante. Isso nos ensina uma lição importante sobre o que $4+ milhões de dólares gastos em recursos computacionais combinados com uma grande quantidade de dados podem e não podem nos proporcionar.

Então, qual é o veredicto?

A OpenAI nos mostrou que a escalabilidade de soluções de IA pode nos levar bastante longe. O GPT, quando escalado para seu maior tamanho, pode extrair muitas capacidades gerais simplesmente observando como os humanos escrevem. É por isso que você vê um desempenho tão impressionante do modelo. O Google escalou recentemente uma versão do GPT chamada Switch Transformers para 10 vezes o tamanho do GPT-3.

É a dura lição que muitos pesquisadores de IA perceberam que soluções lideradas por computação e aprendizado superam o esforço humano manual. Ao escalar uma estrutura simples de geração, obtemos o GPT 3 que escreve quase como um humano.

Mas o GPT 3 não vem sem suas limitações. Como especialistas em SEO e marketing de conteúdo, conhecer essas limitações é extremamente importante e influencia como podemos aproveitar essa tecnologia de linguagem natural.

Limitações da Geração de Texto

Pobre Modelo Mundial e Correção Factual

Apesar do alvoroço, o GPT não tem uma boa compreensão do nosso mundo. Uma maneira interessante de ver essa falta de modelo de mundo é se você solicitar ao GPT algo relacionado à física do senso comum ou ao mundo real. Como mencionado no artigo técnico da OpenAI, ele tem dificuldade em responder a perguntas como "Se eu colocar queijo na geladeira, ele vai derreter?". Ele também claramente não pode entender outros conceitos humanos como trocadilhos.

Uma possível razão para esse fenômeno é que a IA não é uma cognição incorporada - ela nunca realmente viu ou sentiu uma geladeira antes, apesar de ter lido sobre ela muitas vezes através dos dados de treinamento. Se você usar cegamente a IA para gerar texto para suas necessidades de marketing de conteúdo, você obterá algumas inconsistências e itens factualmente incorretos.

Viés Indesejado

O GPT é treinado na web e, portanto, sofre do mesmo viés que os dados da internet fornecem. Assim, usar o GPT diretamente pode levar à criação de conteúdo inadequado ou ofensivo. Algumas maneiras de mitigar isso envolveriam filtros ofensivos que rejeitam conteúdo inadequado. Reduzir o viés indesejado no aprendizado de máquina ainda é uma área ativa de pesquisa.

Adaptação ao Domínio

Embora o GPT tenha aprendido uma compreensão geral da linguagem, pode não ser apropriado para o seu domínio. Pesquisas recentes mostraram que ajustar e modificar modelos semelhantes ao GPT pode levar a resultados até melhores.

O GPT funciona com apenas alguns exemplos, mas fornecer uma quantidade maior de dados definitivamente produzirá resultados melhores. Outra limitação do GPT é seu comprimento máximo de geração, o que pode torná-lo inadequado para usar documentos longos como entrada.

Eficiência Prática

Embora ainda seja muito cedo para dizer, parece que a OpenAI planeja cobrar um preço premium pelo uso do GPT. Essa solução pode ser cara para alguns casos de uso e o serviço fornecido não é adaptado para SEO. Usar ou treinar o GPT internamente é um desafio prático devido ao seu enorme tamanho de parâmetros.

Essa questão é uma preocupação menor no longo prazo. Existem algumas direções de pesquisa que permitirão maneiras mais eficientes de rodar o GPT que reduzirão o custo a longo prazo.

A Oportunidade de SEO do GPT-3

Então, o GPT-3 é um poderoso sistema de geração de texto - mas o que tudo isso significa para o marketing de conteúdo? O marketing de conteúdo para SEO consiste em muitas etapas. Vai desde pesquisa de palavras-chave, análise de concorrentes e, finalmente, criação do seu conteúdo.

Vemos o GPT principalmente usado para criar conteúdo, mas ele não pode fazê-lo de forma isolada. Devido às limitações da tecnologia, é óbvio que deixar o algoritmo agir livremente não resultaria em grandes resultados. Deve haver um humano na equação.

Escritores se Tornando Artistas

O GPT brilha quando é melhor usado como uma ferramenta em conjunto com escritores humanos no processo. Isso ocorre porque os escritores humanos são ótimos em várias coisas que a IA não é. Por exemplo, os escritores humanos são melhores em pensamento de alto nível e descobrir o que escrever. A IA é ótima em tarefas de baixo nível, como criar páginas de categoria a partir de uma lista de páginas da web em um site.

Um grande esforço na escrita é gasto em problemas de baixo nível, como correção gramatical, tom e fluência. Com o GPT, o papel de um escritor humano se transforma em um editor. Imagine pintar largas pinceladas em uma tela, e a IA preenche os detalhes da imagem, depois o humano edita esses detalhes até que fique perfeito.

De certa forma, isso é ótimo porque os escritores podem focar em coisas que são mais interessantes - construir ideias de conteúdo de qualidade e focar no lado mais criativo da escrita. Isso é melhor do que fazer páginas de categoria, focar em quantas palavras-chave são necessárias para configurar um artigo para atingir uma quantidade ideal, e/ou garantir que cada frase seja fluente.

Ferramentas para Conectar Humanos e IAs

O corolário do acima mencionado é que precisamos de uma ótima experiência de usuário e ferramentas que aproveitem o GPT para que ele funcione bem em conjunto com os escritores. De forma ampla, existem várias maneiras de realizar tecnologias semelhantes ao GPT como ferramentas úteis para escrita de conteúdo. Aqui estão alguns exemplos de tecnologias de IA realizadas como várias ferramentas:

Análise de Legibilidade

Ter uma boa legibilidade é uma parte importante de desenvolver um ótimo conteúdo. Ajuda seus usuários a ficarem engajados e a passar mais tempo na sua página, o que é um fator importante para ter uma classificação alta no Google. Mas escrever artigos que sejam fáceis de ler é mais fácil de dizer do que fazer.

Aqui na Jenni, desenvolvemos uma ferramenta que fará o trabalho por você. Usamos tecnologia semelhante ao GPT 3, mas adaptada para reescritas automáticas de frases para que se tornem mais legíveis.

Reformulação Inteligente

Parafrasear é a arte de usar um texto fonte sem citar diretamente o material fonte.  Sempre que você estiver pegando informações de uma fonte que não é sua, precisa especificar de onde obteve essas informações.

O parágrafo acima foi parafraseado de definição da Purdue usando nossa IA de reformulação automática. Uma IA que executa a reformulação inteligente pode reescrever qualquer frase de uma maneira que seja diferente da fonte ou parafraseá-la em diferentes estilos de escrita desejados.

A Jenni, realizamos estudos com nossos escritores e descobrimos que automatizar a reformulação pode economizar pelo menos 30% do tempo de um escritor. Também permite que os escritores experimentem com a formulação alternativa de frases, algumas das quais podem fluir melhor do que a redação original ou transmitir a intenção melhor.

Otimização de Tópicos

Muitos especialistas em SEO dependem da otimização de tópicos como uma forma de garantir que seu conteúdo obtenha uma classificação alta em motores de busca. De fato, desenvolver um conjunto de tópicos é importante para ser relevante a certas consultas de busca, mas garantir que um artigo satisfaça todos os requisitos de tópicos é desafiador.

Nossos editores costumavam gastar 1-4 horas otimizando tópicos manualmente. Usar sistemas de IA para detectar a relevância do tópico em seu artigo pode ajudar você a manter sua escrita no caminho certo, o que salvará os editores de terem que reescrever conteúdo irrelevante.

Sumarização

Como discutimos anteriormente, a IA é excelente em tarefas de baixo nível, e a sumarização não é exceção. Quando se trata de escrita de conteúdo, descobrimos que uma tarefa comum que os escritores realizam é resumir outro texto.

A sumarização é uma tarefa que os sistemas de IA têm mostrado ter um bom desempenho em sistemas de produção e comerciais. Em vez de ler um denso bloco de texto, por que não fazer uma IA lhe dar uma lista de pontos sucinta? Em um espírito semelhante, você pode usar a IA para criar índices ou páginas de categoria se você já tiver construído seu site.

Conteúdo Gerado Pode Classificar?

Alguns praticantes de SEO ficaram preocupados em usar geração de conteúdo automatizada e receber penalidades do Google.

O Google, como muitos motores de busca, quer oferecer o conteúdo mais relevante para seus usuários. Então, o principal problema com o conteúdo gerado não é o fato de ser gerado, mas que a intenção geralmente é criar spam. O Google afirmou que, desde que o conteúdo adicione real valor ao usuário e não seja usado para manipular o sistema, o conteúdo gerado é aceitável.

Na verdade, muitos grandes veículos de notícias e mídia como a Forbes já usam tecnologias de geração de conteúdo para ajudá-los. A chave aqui é fundir o melhor de ambos os mundos - inteligência humana e artificial - para criar conteúdo envolvente. Contribuir com conhecimento valioso para a internet garantirá que você possa classificar na parte superior, mesmo que algum do seu conteúdo seja gerado.

O Futuro da IA e SEO

A linha entre ciência e ficção continua a se borrar com o lançamento de modelos de IA de ponta como o GPT. A vasta melhoria na qualidade entre o GPT 2 e o GPT 3 em apenas um ano é impressionante. Com o tempo, o jornal que você lê antes do café da manhã é mais provável que tenha sido escrito por alguém ou algo que nunca teve uma omelete em sua vida.

É por isso que acreditamos ser importante entender mais profundamente a tecnologia de IA além do alvoroço. Aqueles que não estão no campo de SEO podem estar apenas impressionados com o progresso da IA. Aqueles que estão no campo de SEO e criam conteúdo precisarão se adaptar a essas ferramentas para continuar no topo.

Profile Picture of Henry Mao

Co-Founder/CTO

Graduated with a Bachelor's Degree in Computer Science and a Master's in Science

Comece a escrever com Jenni hoje

Inscreva-se hoje para uma conta gratuita do Jenni AI. Desbloqueie seu potencial de pesquisa e experimente a diferença por si mesmo. Sua jornada rumo à excelência acadêmica começa aqui.