{{HeadCode}} GPT-3 pour le SEO : ce que cela signifie pour la création de contenu

Par

Henry Mao

GPT 3 et SEO : Pourquoi l'IA révolutionnera votre contenu pour toujours

Photo de profil de Henry Mao

Henry Mao

Co-fondateur/CTO

Diplômé avec un baccalauréat en informatique et une maîtrise en sciences

Nous avons tous déjà entendu le buzz.

OpenAI a lancé une nouvelle version du Generative Pre-trained Transformer version 3 (en bref, GPT-3 ou GPT 3) avec un accès bêta à l’API GPT 3, tout comme son prédécesseur GPT 2, est un vaste réseau neuronal profond capable de générer automatiquement un texte suffisamment réaliste pour tromper la personne moyenne. Il s’agit d’une IA avancée qui apprend à imiter l’écriture humaine à partir du web.

Voici un extrait d’un article généré par GPT 3 :

Au cours des années qui ont suivi la Seconde Guerre mondiale, l’économie du monde occidental, et en particulier celle de l’Europe, a commencé à se redresser et à afficher de la croissance. La reconstruction des usines, des routes et des ponts, des villes et des maisons, des ports et des aéroports avait commencé. L’économie de l’Europe était devenue un moteur de croissance pour l’ensemble du monde occidental. Les pays, les entreprises et les populations ont prospéré, et une grande période de croissance économique, de hausse des salaires et d’amélioration du niveau de vie a débuté en Europe. La combinaison de la reconstruction et des nouveaux investissements a fait de l’Europe un endroit formidable pour faire des affaires. Pour les entreprises, l’Europe était un vaste marché, dont les membres étaient plus ou moins unifiés en termes de réglementation des marchés, d’infrastructure, de politique d’investissement et de culture. Les entreprises ont créé des usines, investi et trouvé de nouveaux marchés, et ces investissements étaient en grande partie financés par la dette.

Ces résultats ont sans aucun doute surpris le public et suscité beaucoup d’engouement. Le texte généré se lit bien et est grammaticalement correct - mais GPT 3 n’est pas seulement un puissant générateur de texte. Cette technologie marque une façon fondamentale de penser la création de contenu, le marketing et le SEO (Search Engine Optimization). De courts extraits de contenu, comme celui montré ci-dessus, peuvent être créés facilement à faible coût.

En tant qu’experts SEO et créateurs de contenu, il est impératif de comprendre GPT 3. Cela signifie-t-il que l’écriture humaine est obsolète ? Peut-il produire des contenus de haute qualité ? Cela annonce-t-il un scénario catastrophe où des bots de spam SEO produisent une quantité illimitée de contenu de mauvaise qualité ?

Bien qu’il y ait une part de vérité dans ces sentiments, nous pensons que le surengouement autour de GPT 3 mérite davantage de clarté. Pour comprendre l’impact des technologies de génération de texte sur le SEO et la rédaction de contenu, nous devons d’abord décomposer ce que fait GPT 3, pourquoi c’est important et comment cela fonctionne.

La généralité de GPT-3

GPT-3 et ses technologies prédécesseures (GPT et GPT 2) constituent une ligne de recherche sur des modèles de NLP (traitement du langage naturel) généraux développés par OpenAI. Mais que signifie être général ?

L’apprentissage automatique a une longue histoire de développement de systèmes qui sont bons pour une seule chose. Ces systèmes sont appelés IA étroites. Si vous voulez une IA qui prédit la note d’un avis Amazon - vous pouvez facilement en entraîner une si vous disposez de suffisamment de données d’entraînement. Si vous voulez développer un modèle capable de regarder une photo de profil sur les réseaux sociaux et de vous dire de qui il s’agit - vous pouvez entraîner un autre modèle qui fera le travail.

Le problème, c’est que les systèmes d’IA entraînés sur l’une ou l’autre de ces tâches sont incapables d’en faire quoi que ce soit d’autre - d’où le terme étroite. Ils sont limités au périmètre sur lequel ils sont entraînés. Le Graal actuel de la recherche en IA consiste à rechercher des technologies plus générales - des IA capables de faire beaucoup de choses. Voici pourquoi les technologies générales changent la donne.

Pourquoi développer des généralistes de l’IA ?

Une idée répandue est la suivante - les experts spécialisés ne devraient-ils pas être privilégiés ?

Aux débuts de l’informatique, les gens ont créé des ordinateurs spécialisés capables de ne calculer et résoudre qu’un seul type de problème. Imaginez une calculatrice spécialisée capable de faire seulement des additions, et rien d’autre. Bien sûr, elle serait très performante en addition et irait très vite, mais elle ne serait pas très utile.

À l’inverse, il est bien plus utile d’avoir un ordinateur capable d’additionner, de soustraire, de se connecter à Internet, de jouer à des jeux vidéo, etc. Les ordinateurs modernes fondés sur l’ architecture de von Neumann disposent de ces capacités générales. Avec le recul, il est facile d’affirmer que l’informatique à usage général est l’une des inventions les plus marquantes de l’humanité.

Le même principe s’applique aux technologies d’IA comme GPT 3. Nous voulons de la généralité dans nos systèmes, car cela nous permet de résoudre bien plus de problèmes sans devoir concevoir manuellement chaque tâche. De plus, il s’avère que les approches d’apprentissage général ont montré qu’elles augmentent la précision de l’IA sur les tâches NLP d’au moins 60%.

Après tout, les êtres humains sont une forme d’intelligence générale. L’intelligence générale nous permet d’acquérir des compétences dont nous ne savons même pas à l’avance qu’elles seront utiles. Pour ceux qui souhaitent comprendre ce que signifie l’intelligence générale, nous recommandons l’article de Chollet Sur la mesure de l’intelligence.

Pour le marketing SEO, cela signifie que nous n’avons pas besoin de savoir à l’avance quel type de contenu nous voulons produire. Nous n’avons pas besoin de créer une IA différente pour un objectif légèrement différent.

GPT-3 est un système d’IA qui présente certaines propriétés de l’intelligence générale (parfois appelée Proto-AGI). Par exemple, nous pouvons lancer l’IA avec des exemples de dialogues de personnages et lui demander de les compléter :

Rex est un voyageur du temps venu du futur. Ada est une noble du XIXe siècle. Rex : Je crois avoir écrasé ma machine à remonter le temps dans votre jardin. Ada : Pardon ? Qu’avez-vous dit, jeune homme ?

Il peut aussi effectuer une variété d’autres tâches et même générer du code HTML. C’est un point important, car cela signifie que nous pouvons résoudre de nombreuses tâches liées au contenu avec GPT.

Alors, cela signifie-t-il que GPT 3 peut résoudre toutes les tâches pertinentes liées au SEO ? Peut-il créer des articles de blog sur n’importe quel sujet ou du contenu pour n’importe quelle catégorie que nous souhaitons ? Pas tout à fait. Pour répondre à cette question, nous devons décomposer le fonctionnement de GPT 3.

Comment GPT 3 apprend

Exploiter les mégadonnées

Les modèles d’apprentissage automatique (et en particulier les réseaux neuronaux profonds) sont gourmands en données et ne fonctionnent bien que si vous leur fournissez beaucoup de données. Après tout, les données sont le nouveau pétrole.

Mais obtenir des données est difficile et coûteux. La plupart des systèmes d’apprentissage automatique utiles exigent que des humains étiquettent laborieusement chaque point de données. Les données étiquetées constituent généralement le principal goulot d’étranglement dans de nombreuses applications, car elles sont coûteuses à rassembler - imaginez le coût d’embaucher une flotte de Turkers d’Amazon !

GPT 3 contourne ce problème en créant son propre signal d’entraînement en modélisant les textes qui apparaissent naturellement sur le web. Il adopte un paradigme d’apprentissage automatique appelé apprentissage non supervisé (ou auto-supervisé). Cela permet d’apprendre sans données étiquetées par des humains. Pour ceux qui souhaitent approfondir les détails techniques de l’apprentissage non supervisé, notre CTO a rédigé une analyse approfondie ici.

Mais même sans étiquettes, il nous faut beaucoup de données, non ?

En réalité, les données sont sous nos yeux. Internet contient une multitude d’articles de haute qualité, bien rédigés et portant sur des sujets variés - et ils sont tous facilement accessibles. L’avantage de la technique d’entraînement de GPT est qu’il lui suffit d’apprendre à prédire ces articles rédigés par des humains pour obtenir de bons résultats.

Mais attendez - il y a quand même beaucoup de contenu de mauvaise qualité sur le web ? GPT 3 ne l’apprendrait-il pas aussi ?

C’est vrai. Les créateurs de GPT ont atténué certains de ces problèmes en utilisant le crowdsourcing pour sélectionner ses données. Une façon de procéder consiste à examiner les URL que les gens partagent sur Reddit, puis à ne collecter que le contenu et les publications provenant de sites web ayant reçu un grand nombre de votes positifs sur Reddit.

Apprendre par la génération de langage

Une fois les données en main, vous pouvez maintenant entraîner GPT. Mais comment entraîner GPT à acquérir toutes ces capacités générales que nous recherchons ? Une idée consiste simplement à faire de la génération de texte. GPT apprend à générer du langage naturel en prévoyant le mot suivant dans un article à partir des mots précédents.

C’est la principale raison pour laquelle GPT ne génère du contenu que de gauche à droite (il ne peut pas le faire à l’envers). Ce type d’apprentissage est appelé modélisation du langage.

C’est aussi simple que cela.

En prédisant quel mot vient ensuite dans une phrase, l’IA doit apprendre à utiliser les autres mots de son contexte. Cela l’oblige implicitement à apprendre de nombreuses autres connaissances générales importantes.

Ce que je ne peux pas créer, je ne le comprends pas.

-- Richard Feynman

Pour prédire correctement le mot suivant, vous devez également avoir une certaine compréhension du monde et du bon sens, en plus d’éléments de base comme la syntaxe et la grammaire anglaises. C’est ainsi que le simple fait de prédire des articles permet à GPT d’apprendre des comportements humains étonnants.

Les systèmes de génération de langage ont une longue histoire dans l’apprentissage automatique, et GPT n’est pas un nouvel arrivant. En fait, certains chercheurs en IA considèrent GPT moins comme une avancée scientifique nouvelle que comme une prouesse d’ingénierie impressionnante. Cela nous enseigne une leçon importante sur ce que plus de 4 millions de dollars US dépensés en ressources de calcul, combinés à une grande quantité de données, peuvent ou ne peuvent pas nous apporter.

Alors, quel est le verdict ?

OpenAI nous a montré que la montée en échelle des solutions d’IA peut nous mener assez loin. GPT, lorsqu’il est porté à sa plus grande taille, peut extraire un grand nombre de capacités générales simplement en observant la manière dont les humains écrivent. C’est pourquoi les performances du modèle sont aussi impressionnantes. Google a récemment fait passer une version de GPT appelée Switch Transformers à une taille 10 fois supérieure à celle de GPT-3.

C’est la leçon amère que de nombreux chercheurs en IA ont retenue : les solutions guidées par le calcul et l’apprentissage surpassent l’effort manuel humain. En faisant évoluer un cadre de génération simple, nous obtenons GPT 3, qui écrit presque comme un humain.

Mais GPT 3 n’est pas sans limites. En tant que spécialistes du SEO et du contenu, connaître ces limites est essentiel et influence la manière dont nous pouvons tirer parti de cette technologie du langage naturel.

Limites de la génération de texte

Modèle du monde faible et exactitude factuelle

Malgré l’engouement, GPT ne comprend pas vraiment notre monde. Une façon intéressante de constater cette absence de modèle du monde est de lui soumettre quelque chose qui relève de la physique du bon sens ou du monde réel. Comme indiqué dans le document technique d’OpenAI, il a du mal à répondre à des questions comme "Si je mets du fromage au frigo, va-t-il fondre ?". Il ne parvient pas non plus à comprendre d’autres concepts humains comme les jeux de mots.

Une raison possible à ce phénomène est que l’IA n’est pas une cognition incarnée - elle n’a jamais vraiment vu ni ressenti de réfrigérateur, même si elle en a beaucoup lu dans les données d’entraînement. Si vous utilisez l’IA à l’aveugle pour générer du texte destiné à vos besoins de marketing de contenu, vous obtiendrez des incohérences et des éléments factuellement incorrects.

Biais indésirable

GPT est entraîné sur le web et souffre donc des mêmes biais que les données Internet. Ainsi, utiliser GPT directement peut conduire à la création de contenus inappropriés ou offensants. Certaines solutions pour atténuer ce problème consistent à mettre en place des filtres anti-offense qui rejettent les contenus inappropriés. La réduction des biais indésirables dans l’apprentissage automatique reste un domaine de recherche actif.

Adaptation au domaine

Bien que GPT ait acquis une compréhension générale du langage, il n’est peut-être pas adapté à votre domaine. Des recherches récentes ont montré que le réglage fin et l’ajustement de modèles de type GPT peuvent conduire à des résultats encore meilleurs.

GPT fonctionne avec seulement quelques exemples, mais lui fournir une quantité de données plus importante donnera sans aucun doute de meilleurs résultats. Une autre limite de GPT est la longueur maximale de génération, ce qui pourrait le rendre inadapté à l’utilisation de longs documents comme entrée.

Efficacité pratique

Même s’il est encore trop tôt pour le dire, il semble qu’OpenAI prévoie de facturer un prix premium pour utiliser GPT. Cette solution peut être coûteuse pour certains cas d’usage et le service fourni n’est pas conçu sur mesure pour le SEO. Utiliser ou entraîner GPT en interne constitue un défi pratique en raison de l’énorme taille de ses paramètres.

Ce problème sera moins préoccupant à long terme. Certaines pistes de recherche permettront des moyens plus efficaces d’exécuter GPT, ce qui réduira le coût à long terme.

L’opportunité SEO de GPT-3

GPT-3 est donc un puissant système de génération de texte - mais qu’est-ce que cela signifie pour le marketing de contenu ? Le marketing de contenu pour le SEO se compose de nombreuses étapes. Il va de la recherche de mots-clés, à l’analyse de la concurrence, puis à la création de votre contenu.

Nous voyons surtout GPT utilisé pour créer du contenu, mais il ne peut pas le faire seul. En raison des limites de la technologie, il est évident que laisser l’algorithme agir librement ne donnerait pas de grands résultats. Il faut un humain dans la boucle.

Les rédacteurs deviennent des artistes

GPT excelle lorsqu’il est utilisé comme un outil en complément de rédacteurs humains — savoir comment les rédacteurs utilisent les outils d’IA sans perdre leur voix devient une compétence centrale pour les équipes SEO. C’est parce que les rédacteurs humains sont meilleurs sur plusieurs points que l’IA ne maîtrise pas. Par exemple, les rédacteurs humains sont meilleurs pour la réflexion de haut niveau et pour déterminer quoi écrire. L’IA est excellente pour les tâches de bas niveau, comme créer des pages de catégories à partir d’une liste de pages web d’un site.

Une grande partie de l’effort d’écriture est consacrée à des problèmes de bas niveau comme la correction grammaticale, le ton et la fluidité. Avec GPT, le rôle du rédacteur humain se transforme en celui d’un éditeur. Imaginez tracer de larges coups de pinceau sur une toile, puis l’IA remplit les détails de l’image, et enfin l’humain ajuste ces détails jusqu’à ce que tout soit parfait.

D’une certaine manière, c’est formidable, car les rédacteurs peuvent se concentrer sur des aspects plus intéressants - élaborer des idées de contenu de qualité et se concentrer sur le côté le plus créatif de l’écriture. C’est mieux que de créer des pages de catégories, de chercher combien de mots-clés il faut insérer dans un article pour atteindre le niveau optimal, et/ou de s’assurer que chaque phrase soit fluide.

Des outils pour relier les humains et l’IA

La conséquence de ce qui précède, c’est que nous avons besoin d’une excellente expérience utilisateur et d’outils exploitant GPT afin qu’il puisse bien fonctionner aux côtés des rédacteurs. De manière générale, il existe plusieurs façons de concrétiser une technologie de type GPT en outils utiles de rédaction de contenu. Voici quelques exemples de technologies d’IA mises en œuvre sous forme de divers outils :

Analyse de la lisibilité

Avoir une bonne lisibilité est un élément important pour créer un excellent contenu. Cela aide vos utilisateurs à rester engagés et à passer plus de temps sur votre page, ce qui est un facteur important pour bien se classer sur Google. Mais écrire des articles faciles à lire est plus facile à dire qu’à faire.

Chez Jenni, nous avons développé un outil qui s’en charge pour vous. Nous avons utilisé une technologie similaire à GPT 3, mais nous l’avons adaptée pour réécrire automatiquement les phrases afin qu’elles soient plus lisibles.

Reformulation intelligente

La paraphrase est l’art d’utiliser un texte source sans citer directement le matériau source. Chaque fois que vous tirez des informations d’une source qui n’est pas la vôtre, vous devez préciser d’où proviennent ces informations. Cette question se pose souvent aussi avec l’IA ; notre analyse de l’écriture par IA, du plagiat et de l’originalité explique ce qu’il faut surveiller.

Le paragraphe ci-dessus a été paraphrasé à partir de la définition de Purdue à l’aide de notre IA de reformulation automatique. Une IA capable de reformuler intelligemment peut réécrire n’importe quelle phrase de manière différente de la source ou la reformuler dans différents styles d’écriture souhaités.

Chez Jenni, nous avons mené des études auprès de nos rédacteurs et constaté que l’automatisation de la reformulation peut faire gagner au moins 30 % du temps d’un rédacteur. Cela permet aussi aux rédacteurs d’expérimenter des formulations alternatives, dont certaines peuvent être plus fluides que le texte original ou mieux transmettre l’intention.

Optimisation des sujets

De nombreux experts SEO s’appuient sur l’optimisation des sujets pour s’assurer que leur contenu soit bien classé dans les moteurs de recherche. En effet, définir un ensemble de sujets est important pour rester pertinent face à certaines requêtes, mais s’assurer qu’un article satisfait à toutes les exigences thématiques est difficile.

Nos éditeurs passaient autrefois 1 à 4 heures à optimiser manuellement les sujets. L’utilisation de systèmes d’IA pour détecter la pertinence des sujets dans votre article peut vous aider à garder le cap, ce qui évitera aux éditeurs de devoir réécrire du contenu hors sujet.

Résumé

Comme nous l’avons évoqué plus haut, l’IA est excellente pour les tâches de bas niveau, et le résumé ne fait pas exception. En matière de rédaction de contenu, nous avons constaté qu’une tâche courante des rédacteurs consiste à résumer d’autres textes.

Le résumé est une tâche dans laquelle les systèmes d’IA ont prouvé qu’ils fonctionnent bien en production et dans des systèmes commerciaux. Plutôt que de lire un bloc de texte dense, pourquoi ne pas laisser une IA vous fournir une liste concise de points clés ? Dans le même esprit, vous pouvez utiliser l’IA pour créer des index ou des pages de catégories si votre site est déjà structuré.

Le contenu généré peut-il se classer ?

Certains professionnels du SEO s’inquiètent de l’utilisation de la génération automatisée de contenu et du risque de pénalités de Google.

Google, comme beaucoup de moteurs de recherche, veut fournir à ses utilisateurs le contenu le plus pertinent. Le principal problème du contenu généré n’est donc pas le fait qu’il soit généré, mais plutôt le fait que l’intention est généralement de produire du spam. Google a affirmé que, tant que le contenu apporte une réelle valeur à l’utilisateur et n’est pas utilisé pour contourner le système, le contenu généré convient très bien.

En fait, de nombreux grands médias et organes de presse comme Forbes utilisent déjà des technologies de génération de contenu pour les aider. L’essentiel ici est de fusionner le meilleur des deux mondes - l’intelligence humaine et l’intelligence artificielle - afin de créer un contenu convaincant. Apporter des connaissances utiles à Internet vous permettra d’atteindre les premières places, même si une partie de votre contenu est générée.

L’avenir de l’IA et du SEO

La frontière entre science et fiction continue de s’estomper avec la sortie de modèles d’IA de pointe comme GPT. L’amélioration spectaculaire de la qualité entre GPT 2 et GPT 3 en seulement un an est stupéfiante. À mesure que le temps passe, le journal que vous lisez avant le petit-déjeuner a de plus en plus de chances d’être écrit par quelqu’un ou quelque chose qui n’a jamais mangé d’omelette de sa vie.

C’est pourquoi nous pensons qu’il est important de comprendre en profondeur la technologie de l’IA, au-delà du simple engouement. Ceux qui ne travaillent pas dans le SEO peuvent simplement être impressionnés par les progrès de l’IA. Ceux qui travaillent dans le SEO et créent du contenu devront s’adapter à ces outils afin de rester au sommet.

Table des matières

Faites des progrès sur votre œuvre majeure, dès aujourd'hui

Écrivez votre premier article avec Jenni dès aujourd'hui et ne regardez jamais en arrière

Commencez gratuitement

Pas de carte de crédit requise

Annulez à tout moment

Plus de 5 millions

Universitaires du monde entier

5,2 heures économisées

En moyenne par document

Plus de 15 millions

Articles rédigés avec Jenni

Faites des progrès sur votre œuvre majeure, dès aujourd'hui

Écrivez votre premier article avec Jenni dès aujourd'hui et ne regardez jamais en arrière

Commencez gratuitement

Pas de carte de crédit requise

Annulez à tout moment

Plus de 5 millions

Universitaires du monde entier

5,2 heures économisées

En moyenne par document

Plus de 15 millions

Articles rédigés avec Jenni

Faites des progrès sur votre œuvre majeure, dès aujourd'hui

Écrivez votre premier article avec Jenni dès aujourd'hui et ne regardez jamais en arrière

Commencez gratuitement

Pas de carte de crédit requise

Annulez à tout moment

Plus de 5 millions

Universitaires du monde entier

5,2 heures économisées

En moyenne par document

Plus de 15 millions

Articles rédigés avec Jenni