21 févr. 2019

GPT 3 et SEO : Pourquoi l'IA révolutionnera votre contenu pour toujours

Nous avons tous entendu le buzz maintenant.

OpenAI a publié une nouvelle version du Generative Pre-trained Transformer version 3 (en abrégé, GPT-3 ou GPT 3) avec un accès API beta. GPT-3, tout comme son prédécesseur GPT-2, est un grand réseau neuronal profond capable de générer automatiquement du texte suffisamment réaliste pour tromper l'humain moyen. C'est une IA avancée qui apprend à imiter l'écriture humaine à partir du web.

Voici un extrait d'un article généré par GPT-3 :

Dans les années suivant la Seconde Guerre mondiale, l'économie du monde occidental, et en particulier celles de l'Europe, ont commencé à se redresser et à afficher une croissance. La reconstruction des usines, des routes et ponts, des villes et maisons, des ports et aéroports était lancée. L'économie européenne était devenue un moteur de croissance pour le monde occidental. Les pays, les entreprises et les personnes ont prospéré, ouvrant une grande période de croissance économique, d'augmentation des salaires et d'amélioration des niveaux de vie en Europe. La combinaison de la reconstruction et des nouveaux investissements a fait de l'Europe un lieu propice aux affaires. Pour les entreprises, l'Europe était un vaste marché, avec des membres plus ou moins unifiés en termes de réglementation du marché, d'infrastructures, de politique d'investissement et de culture. Les entreprises ont construit des usines, investi et trouvé de nouveaux marchés, et ces investissements étaient en grande partie financés par la dette.

Ces résultats ont sans aucun doute surpris le public et généré beaucoup de battage médiatique. Le texte généré se lit bien et est grammaticalement correct - mais GPT-3 n'est pas seulement un puissant générateur de texte. La technologie marque une manière fondamentale de penser la création de contenu, le marketing et le SEO (Search Engine Optimization). De courts extraits de contenu, comme celui montré ci-dessus, peuvent être facilement créés à moindre coût.

En tant qu'experts SEO et créateurs de contenu, il est impératif de comprendre GPT-3. Cela signifie-t-il que l'écriture humaine est obsolète ? Peut-elle produire une copie de haute qualité ? Cela marque-t-il un scénario apocalyptique où des spams SEO déversent indéfiniment des ordures ?

Bien qu'il y ait une part de vérité dans ces sentiments, nous pensons que la surenchère autour de GPT-3 nécessite plus de clarté. Pour comprendre l'impact des technologies de génération de texte sur le SEO et l'écriture de contenu, nous devons d'abord décomposer ce que fait GPT-3, pourquoi cela compte et comment cela fonctionne.

La Généralité de GPT-3

GPT-3 et ses technologies prédécesseures (GPT et GPT-2) sont une ligne de recherche sur les modèles NLP (Natural Language Processing) généraux développés par OpenAI. Mais qu'est-ce que cela signifie d'être général ?

L'apprentissage automatique a une longue histoire de développement de systèmes performants dans une seule tâche. Ces systèmes sont appelés IA étroites. Si vous souhaitez une IA qui prédit la note d'une critique Amazon - vous pouvez facilement en entraîner une si vous avez suffisamment de données d'entraînement. Si vous voulez développer un modèle capable de regarder une photo de profil sur les réseaux sociaux et de vous dire de qui il s'agit - vous pouvez former un autre modèle qui fera le travail.

Le problème, c'est que les systèmes d'IA formés sur l'une ou l'autre de ces tâches ne peuvent rien faire d'autre - d'où le terme étroit. Il est limité au champ sur lequel il est formé. Le saint graal actuel de la recherche en IA est de rechercher des technologies plus générales - des IA qui peuvent faire de nombreuses choses. Voici pourquoi les technologies générales changent la donne.

Pourquoi construire des généralistes en IA ?

Un sentiment commun va - ne devraient-ils pas être préférés aux experts spécialisés ?

Au début de l'informatique, les gens créaient des ordinateurs spécialisés capables de ne calculer et de résoudre qu'un seul type de problème. Imaginez avoir une calculatrice spécialisée qui ne peut faire que des additions, mais rien d'autre. Certes, elle est très compétente en addition et peut le faire très rapidement, mais cela ne serait pas très utile.

Au lieu de cela, il est beaucoup plus utile d'avoir un ordinateur capable d'additionner, de soustraire, d'aller en ligne, de jouer à des jeux vidéo, etc. Les ordinateurs modernes basés sur l'architecture de von Neumann possèdent ces capacités générales. Avec le recul, il est facile de dire que l'informatique polyvalente est l'une des inventions les plus marquantes de l'humanité.

Le même principe s'applique à des technologies IA comme GPT-3. Nous voulons avoir de la généralité dans nos systèmes, car cela nous permet de résoudre de nombreux problèmes supplémentaires sans devoir concevoir diverses tâches en amont. De plus, il s'avère que les approches d'apprentissage général ont montré une augmentation de l'exactitude de l'IA sur les tâches NLP par au moins 60%.

Après tout, les êtres humains sont une forme d'intelligence générale. L'intelligence générale nous permet d'acquérir des compétences que nous ne savons même pas utiles à l'avance. Pour ceux qui souhaitent comprendre ce que signifie posséder une intelligence générale, nous recommandons le papier de Chollet On the Measure of Intelligence.

Pour le marketing SEO, cela signifie que nous n'avons pas besoin de savoir à l'avance quel type de contenu nous voulons produire. Nous n'avons pas besoin de créer une IA différente pour une finalité légèrement différente.

GPT-3 est un système d'IA qui présente certaines propriétés d'intelligence générale (parfois appelée Proto-AGI). Par exemple, nous pouvons demander à l'IA de compléter des dialogues de personnages par des exemples :

Rex est un voyageur temporel venant du futur. Ada est une noble femme du XIXe siècle. Rex: Je pense que j'ai écrasé ma machine à voyager dans le temps dans votre jardin. Ada: Pardon ? Qu'avez-vous dit jeune homme ?

Elle peut également exécuter une variété d'autres tâches et même générer du code HTML. C'est une grande avancée, car cela signifie que nous pouvons résoudre de nombreuses tâches liées au contenu avec GPT.

Alors cela signifie-t-il que GPT-3 peut résoudre toutes les tâches pertinentes liées au SEO ? Peut-elle créer des articles de blog pour n'importe quel sujet ou du contenu pour n'importe quelle catégorie que nous souhaitons ? Pas tout à fait. Pour répondre à cette question, nous devons décomposer le fonctionnement de GPT-3.

Comment GPT-3 Apprend

Exploiter Big Data

Les modèles d'apprentissage automatique (et en particulier les réseaux neuronaux profonds) sont gourmands en données et ne fonctionnent bien que lorsque vous leur fournissez une grande quantité de données. Après tout, les données sont le nouveau pétrole.

Mais obtenir des données est difficile et coûteux. La plupart des systèmes d'apprentissage automatique efficaces nécessitent que des humains étiquettent laborieusement chaque point de données. Les données étiquetées constituent généralement le principal goulot d'étranglement dans de nombreuses applications, car elles sont coûteuses à collecter - imaginez le coût d'engager une flotte de Amazon Turkers !

GPT-3 contourne ce problème en créant son propre signal d'entraînement en modélisant le texte naturellement présent sur le web. Il adopte un paradigme d'apprentissage automatique appelé apprentissage non-supervisé (ou auto-supervisé). Cela permet d'apprendre sans données étiquetées par un humain. Pour ceux qui veulent approfondir les détails techniques de l'apprentissage non-supervisé, notre CTO a rédigé une analyse approfondie ici.

Mais même sans étiquettes, avons-nous besoin de beaucoup de données, non ?

Il s'avère que les données sont juste sous notre nez. Internet contient une tonne d'articles bien écrits de haute qualité sur divers sujets - et ils sont tous facilement accessibles. La beauté de la technique d'entraînement de GPT est qu'il suffit d'apprendre à prédire ces articles écrits par des humains pour bien fonctionner.

Mais attendez - n'y a-t-il pas beaucoup de déchets sur le web ? GPT-3 n'apprendrait-il pas aussi ces contenus ?

C'est vrai. Les créateurs de GPT ont atténué certains de ces problèmes en utilisant le crowdsourcing pour sélectionner ses données. Une façon de faire cela est d'examiner les URL que les gens partagent sur Reddit et de ne parcourir que le contenu et les publications provenant de sites web avec un grand nombre de votes positifs sur Reddit.

Apprentissage par Génération de Langue

Une fois que vous avez les données, vous pouvez maintenant entraîner GPT. Mais comment pouvez-vous entraîner GPT pour obtenir toutes ces capacités générales que nous désirons ? Une idée est simplement de faire de la génération de texte. GPT apprend à générer un langage naturel en prédire le mot suivant dans un article à partir des mots précédents.

C'est la principale raison pour laquelle GPT ne génère que du texte de gauche à droite (il ne peut pas le faire à l'envers). Ce type d'apprentissage est appelé modélisation de la langue.

C'est aussi simple que cela.

En prédisant quel mot vient ensuite dans une phrase, l'IA doit apprendre à utiliser d'autres mots dans son contexte. Cela force implicitement GPT à apprendre de nombreuses autres connaissances générales importantes.

Ce que je ne peux pas créer, je ne comprends pas.

-- Richard Feynman

Pour prédire correctement le mot suivant, vous devez également comprendre notre monde en plus des choses de base telles que la syntaxe et la grammaire anglaise. C'est ainsi que la simple prédiction d'article permet à GPT d'apprendre des comportements humains étonnants.

Les systèmes de génération de langage ont une longue histoire dans l'apprentissage automatique, et GPT n'est pas nouveau dans le domaine. En fait, certains chercheurs en IA considèrent GPT moins comme un exploit scientifique novateur, mais plutôt comme un exploit d'ingénierie impressionnant. Cela nous enseigne une leçon importante sur ce que $4+ millions USD dépensés sur des ressources informatiques combinées à une grande quantité de données peuvent et ne peuvent pas nous obtenir.

Alors, quelle est la conclusion ?

OpenAI nous a montré que la mise à l'échelle des solutions d'IA peut nous mener loin. GPT, lorsqu'il est mis à l'échelle à sa plus grande taille, peut extraire de nombreuses capacités générales simplement en observant comment les humains écrivent. C'est pourquoi le modèle montre des performances aussi impressionnantes. Google a récemment mis à l'échelle une version de GPT appelée Switch Transformers à 10 fois la taille de GPT-3.

C'est la leçon amère réalisée par de nombreux chercheurs en IA que les solutions dirigées par le calcul et l'apprentissage l'emportent sur l'effort manuel humain. En étendant un cadre de génération simple, nous obtenons GPT-3 qui écrit presque comme un humain.

Mais GPT-3 ne vient pas sans ses limitations. En tant que spécialistes SEO et créateurs de contenu, connaître ces limitations est très important et influence la manière dont nous pouvons exploiter cette technologie de langage naturel.

Limitations de la Génération de Texte

Pauvre Modèle du Monde et Exactitude Factice

Malgré le battage médiatique, GPT n'a pas une bonne compréhension de notre monde. Une façon intéressante de voir ce manque de modèle du monde est de demander à GPT n'importe quoi en rapport avec la physique du bon sens ou le monde réel. Comme mentionné dans le document technique d'OpenAI, il a du mal à répondre à des questions comme "Si je mets du fromage au réfrigérateur, va-t-il fondre ?". Il ne peut clairement pas comprendre d'autres concepts humains comme les jeux de mots.

Une raison possible de ce phénomène est que l'IA n'est pas une cognition incarnée - elle n'a jamais vraiment vu ou ressenti un réfrigérateur, malgré en avoir beaucoup lu à travers les données d'entraînement. Si vous utilisez aveuglément l'IA pour générer des textes pour vos besoins de marketing de contenu, vous obtiendrez des incohérences et des éléments factuellement incorrects.

Biais Indésirables

GPT est entraîné sur le web et, par conséquent, souffre des mêmes biais que les données internet fournissent. Ainsi, utiliser GPT directement peut conduire à la création de contenus inappropriés ou offensants. Certaines façons de réduire ce problème impliqueraient l'utilisation de filtres offensifs qui rejettent le contenu inapproprié. Réduire les biais indésirables en apprentissage automatique est encore un domaine actif de recherche.

Adaptation de Domaine

Bien que GPT ait acquis une compréhension générale du langage, il peut ne pas être approprié pour votre domaine. Des recherches récentes ont montré que le réglage et l'ajustement de modèles de type GPT peuvent conduire à de meilleurs résultats.

GPT fonctionne avec seulement quelques exemples, mais lui fournir une plus grande quantité de données produira certainement de meilleurs résultats. Une autre limitation de GPT est sa longueur maximale de génération, ce qui pourrait le rendre inadapté à l'utilisation de longs documents en entrée.

Efficacité Pratique

Bien qu'il soit encore trop tôt pour le dire, il semble qu'OpenAI prévoyait de facturer un prix premium pour utiliser GPT. Cette solution peut être coûteuse pour certains cas d'utilisation et le service fourni n'est pas adapté pour le SEO. Utiliser ou former GPT en interne est un défi pratique en raison de sa taille de paramètre énorme.

Ce problème est une préoccupation de moindre intensité à long terme. Il existe certaines directions de recherche qui permettront des moyens plus efficaces de faire fonctionner GPT, ce qui réduira le coût à long terme.

L'Opportunité SEO de GPT-3

Alors GPT-3 est un puissant système de génération de texte - mais qu'est-ce que cela signifie pour le marketing de contenu ? Le marketing de contenu pour le SEO comprend de nombreuses étapes. Cela va de la recherche de mots-clés, de l'analyse des concurrents, et enfin, à la création de votre contenu.

Nous voyons GPT principalement utilisé pour créer du contenu, mais il ne peut pas le faire en isolation. En raison des limites de la technologie, il est évident que laisser l'algorithme fonctionner librement ne produirait pas de bons résultats. Il doit y avoir un humain dans la boucle.

Les Écrivains Devenant des Artistes

GPT brille lorsqu'il est utilisé comme un outil en conjonction avec des écrivains humains dans la boucle. C'est parce que les écrivains humains sont excellents dans plusieurs domaines que l'IA ne maîtrise pas. Par exemple, les écrivains humains sont meilleurs dans la réflexion à haut niveau et dans la détermination de quoi écrire. L'IA est excellente dans les tâches de bas niveau, comme créer des pages de catégorie à partir d'une liste de pages web sur un site.

Beaucoup d'efforts dans l'écriture sont consacrés à des problèmes de bas niveau tels que la correction grammaticale, le ton et la fluidité. Avec GPT, le rôle de l'écrivain humain se transforme en éditeur. Imaginez peindre de larges coups de pinceau sur une toile, et l'IA remplit les détails de l'image, puis l'humain édite ces détails jusqu'à ce qu'ils soient parfaits.

D'une certaine manière, c'est formidable car les écrivains peuvent se concentrer sur des aspects plus intéressants - construire des idées de contenu de qualité et se concentrer sur le côté créatif de l'écriture. C'est mieux que de créer des pages de catégories, de se concentrer sur combien de mots-clés sont nécessaires pour bourrer un article afin qu'il atteigne un montant optimal, et/ou de s'assurer que chaque phrase est fluide.

Outils pour Relier Humains et IA

La conséquence de ce qui précède est que nous avons besoin d'une expérience utilisateur et d'outils formidables qui exploitent GPT afin qu'il puisse bien fonctionner en conjonction avec les écrivains. Broadly speaking, there are several ways to realize GPT-like technology as useful content writing tools. Here are some example of AI technologies realized as various tools:

Analyse de Lisibilité

Avoir une bonne lisibilité est une partie importante du développement de contenu de qualité. Cela aide vos utilisateurs à rester engagés et à passer plus de temps sur votre page, ce qui est un facteur important pour obtenir un bon classement sur Google. Mais écrire des articles faciles à lire est plus facile à dire qu'à faire.

Ici chez Jenni, nous avons développé un outil qui fera le travail pour vous. Nous avons utilisé une technologie similaire à GPT-3, mais l'avons adaptée pour des réécritures automatisées de phrases afin qu'elle devienne plus lisible.

Rephrasage Intelligent

La paraphrase est l'art d'utiliser un texte source sans citer directement le matériel source. Chaque fois que vous prenez des informations d'une source qui n'est pas la vôtre, vous devez spécifier où vous avez obtenu ces informations.

Le paragraphe ci-dessus a été paraphrasé à partir de la définition de Purdue en utilisant notre IA de rephrasage automatique. Une IA qui réalise une rephrase intelligente peut réécrire toute phrase d'une manière différente de la source ou la reformuler dans différents styles d'écriture souhaités.

Chez Jenni, nous avons mené des études sur nos écrivains et constaté que l'automatisation du rephrasage peut économiser au moins 30% du temps d'un écrivain. Cela permet également aux écrivains d'expérimenter des reformulations alternatives de phrases, dont certaines peuvent mieux couler que l'écriture originale ou transmettre mieux l'intention.

Optimisation de Sujet

De nombreux experts en SEO s'appuient sur l'optimisation de sujet comme moyen de garantir que leur contenu se classe bien sur les moteurs de recherche. En effet, développer un ensemble de sujets est important pour être pertinent pour certaines recherches, mais faire en sorte qu'un article satisfasse à toutes les exigences du sujet est un défi.

Nos éditeurs passaient 1-4 heures à optimiser manuellement les sujets. Utiliser des systèmes d'IA pour détecter la pertinence du sujet dans votre article peut vous aider à garder votre écriture sur la bonne voie, ce qui évitera que les éditeurs aient à réécrire du contenu non pertinent.

Résumé

Comme nous l'avons discuté plus tôt, l'IA est excellente dans les tâches de bas niveau et le résumé ne fait pas exception. Lorsqu'il s'agit de rédaction de contenu, nous avons constaté qu'une tâche commune que les écrivains accomplissent est de résumer d'autres textes.

Le résumé est une tâche sur laquelle les systèmes IA ont prouvé bien performer dans les systèmes de production et commerciaux. Plutôt que de lire un bloc de texte dense, pourquoi ne pas demander à une IA de vous donner une liste à puces succincte ? Dans un esprit similaire, vous pouvez utiliser l'IA pour créer des index ou des pages de catégorie si vous avez déjà développé votre site web.

Le Contenu Généré Peut-il se Classer ?

Certains praticiens du SEO ont exprimé des inquiétudes quant à l'utilisation de la génération de contenu automatisée et à recevoir des pénalités de Google.

Google, comme de nombreux moteurs de recherche, souhaite offrir le contenu le plus pertinent à ses utilisateurs. Donc, le problème principal avec le contenu généré n'est pas le fait qu'il soit généré, mais plutôt que l'intention est souvent de créer du spam. Google a affirmé que, tant que le contenu apporte une véritable valeur à l'utilisateur et n'est pas utilisé pour déjouer le système, le contenu généré est acceptable.

En fait, de nombreux grands médias comme Forbes utilisent déjà des technologies de génération de contenu pour les aider. La clé réside dans la fusion des deux mondes - l'intelligence humaine et artificielle - pour créer un contenu captivant. Contribuer des connaissances précieuses sur Internet garantira que vous pouvez rester en haut, même si une partie de votre contenu est généré.

L'Avenir de l'IA et du SEO

La ligne entre la science et la fiction continue de s'estomper avec la sortie de modèles d'IA de pointe comme GPT. L'amélioration considérable de la qualité entre GPT-2 et GPT-3 en seulement un an est stupéfiante. Au fil du temps, le journal que vous lisez avant le petit-déjeuner est plus susceptible d'être écrit par quelqu'un ou quelque chose qui n'a jamais mangé d'omelette de sa vie.

C'est pourquoi nous pensons qu'il est important de saisir une compréhension plus profonde de la technologie IA au-delà du simple battage médiatique. Ceux qui ne sont pas dans le domaine du SEO peuvent simplement être impressionnés par les progrès de l'IA. Ceux qui sont dans le domaine du SEO et créent du contenu devront s'adapter à ces outils pour rester en haut.

Commencez à écrire avec Jenni dès aujourd'hui

Inscrivez-vous dès aujourd'hui pour un compte gratuit de Jenni AI. Libérez votre potentiel de recherche et découvrez vous-même la différence. Votre chemin vers l'excellence académique commence ici.