—

21 feb 2019

—

21 feb 2019

Henry Mao

—

21 feb 2019

GPT 3 e SEO: perché l'IA rivoluzionerà per sempre i tuoi contenuti

Henry Mao

Co-Fondatore/CTO

Laureato con una laurea in Informatica e un master in Scienze

Henry Mao

Co-Fondatore/CTO

Laureato con una laurea in Informatica e un master in Scienze

Henry Mao

Co-Fondatore/CTO

Laureato con una laurea in Informatica e un master in Scienze

Tutti abbiamo sentito il fermento ormai.

OpenAI ha rilasciato una nuova versione di Generative Pre-trained Transformer versione 3 (in breve, GPT-3 o GPT 3) con accesso API beta GPT 3, molto simile al suo predecessore GPT 2, è una grande rete neurale profonda che può generare automaticamente testo così realistico da ingannare la persona media. È un'intelligenza artificiale avanzata che impara a imitare la scrittura umana dal web.

Ecco un estratto di un articolo generato da GPT 3:

Negli anni successivi alla Seconda Guerra Mondiale, l'economia del mondo occidentale, e in particolare le economie dell'Europa, hanno iniziato a riprendersi e mostrare crescita. La ricostruzione delle fabbriche, delle strade e ponti, delle città e delle case, dei porti e aeroporti era iniziata. L'economia dell'Europa era diventata un motore di crescita per tutto il mondo occidentale. Paesi, aziende e persone prosperavano, e un grande periodo di crescita economica, salari in aumento e standard di vita migliorati ebbe inizio in Europa. La combinazione di ricostruzione e nuovi investimenti ha reso l'Europa un ottimo luogo per fare affari. Per le aziende, l'Europa era un vasto mercato, con i suoi membri più o meno unificati in termini di regolamentazione del mercato, infrastrutture, politica di investimento e cultura. Le aziende hanno creato fabbriche, investito e trovato nuovi mercati, e questi investimenti erano in gran parte finanziati da debiti.

Questi risultati hanno senza dubbio sorpreso il pubblico e generato molto clamore. Il testo generato si legge bene ed è grammaticalmente corretto - ma GPT 3 non è solo un potente generatore di testo. La tecnologia segna un modo fondamentale in cui dobbiamo pensare alla creazione di contenuti, al marketing e al SEO (Search Engine Optimization). Brevi frammenti di contenuto, come quello mostrato sopra, possono essere facilmente creati a basso costo.

Come esperti di SEO e creatori di contenuti, è imperativo comprendere GPT 3. Significa questo che la scrittura umana è diventata obsoleta? Può produrre copie di alta qualità? Questo segna uno scenario apocalittico in cui bot per spam SEO producono contenuti senza limiti?

Sebbene alcune di queste sensazioni siano vere, pensiamo che il troppo clamore attorno a GPT 3 necessita di maggiore chiarezza. Per comprendere l'impatto delle tecnologie di generazione di testo su SEO e scrittura di contenuti, dobbiamo prima analizzare cosa fa GPT 3, perché è importante e come funziona.

La Generalità di GPT-3

GPT-3 e le sue tecnologie predecessori (GPT e GPT 2) sono una linea di ricerca sui modelli di NLP (Natural Language Processing) generali sviluppati da OpenAI. Ma cosa significa essere generale?

L'apprendimento automatico ha una lunga storia nello sviluppo di sistemi che sono bravi in una sola cosa. Questi sistemi vengono chiamati intelligenza artificiale ristretta. Se vuoi un'IA in grado di prevedere la valutazione di una recensione su Amazon, puoi addestrarne facilmente una se hai abbastanza dati di training. Se vuoi sviluppare un modello che può guardare una foto del profilo sui social media e dirti chi è - puoi addestrare un altro modello che svolgerà il compito.

Il problema è che i sistemi di IA addestrati su uno di questi compiti non sono in grado di lavorare su altri - da qui il termine ristretto. È limitato all'ambito in cui è stato addestrato. L'attuale Santo Graal della ricerca IA è cercare tecnologie più generali - IA in grado di fare molte cose. Ecco perché le tecnologie generali sono rivoluzionarie.

Perché Costruire Generalisti IA?

Un sentimento comune afferma - non dovrebbero essere preferiti gli specialisti?

Negli albori dell'informatica, le persone creavano computer specializzati che potevano calcolare e risolvere solo un tipo di problema. Immagina di avere una calcolatrice specializzata che può solo sommare, ma nulla più. Certo, è molto brava nella somma e può farla molto velocemente, ma non sarebbe troppo utile.

Invece, è molto più utile avere un computer che può sommare, sottrarre, andare online, giocare ai videogiochi ecc. I computer moderni basati sull'architettura di von Neumann hanno queste capacità generali. In retrospettiva, è facile dire che il calcolo a scopo generale è una delle invenzioni più impattanti dell'umanità.

Lo stesso principio si applica alle tecnologie di IA come GPT 3. Vogliamo avere la generalità nei nostri sistemi perché ciò ci consente di risolvere molti più problemi senza dover programmare a mano i vari compiti in questione. Inoltre, si è scoperto che gli approcci di apprendimento generale aumentano l'accuratezza dell'IA nei compiti di NLP di almeno il 60%.

dopotutto, gli esseri umani sono una forma di intelligenza generale. L'intelligenza generale ci consente di acquisire competenze che non sappiamo nemmeno in anticipo che ci saranno utili. Per coloro i quali sono interessati a cosa significhi avere intelligenza generale, raccomandiamo il documento di Chollet Sulla Misura dell'Intelligenza.

Per il marketing SEO, ciò significa che non abbiamo bisogno di sapere in anticipo che tipo di contenuto vogliamo produrre. Non dobbiamo creare un'intelligenzia artificiale diversa per uno scopo leggermente diverso.

GPT-3 è un sistema di IA che mostra alcune proprietà dell'intelligenza generale (a volte chiamata Proto-AGI). Ad esempio, possiamo indurre l'IA con esempi di dialoghi tra personaggi e chiederle di completarli:

Rex è un viaggiatore nel tempo dal futuro. Ada è una nobildonna del diciannovesimo secolo. Rex: Penso di aver schiantato la mia macchina del tempo nel tuo giardino. Ada: Mi scusi? Cosa ha detto, giovane uomo?

Può anche eseguire una varietà di altri compiti e persino generare codice HTML. Questo è un grande passo avanti perché significa che possiamo risolvere molti compiti legati ai contenuti con GPT.

Quindi ciò significa che GPT 3 può risolvere tutti i compiti pertinenti relativi a SEO? Può creare post per blog su qualsiasi argomento o contenuti per qualsiasi categoria desideriamo? Non proprio. Per rispondere a quella domanda, dobbiamo analizzare come funziona GPT 3.

Come Impara GPT 3

Sfruttare i Big Data

I modelli di apprendimento automatico (e in particolare le reti neurali profonde) sono avidi di dati e funzionano bene solo quando forniti di molti dati. dopotutto, i dati sono il nuovo petrolio.

Ma ottenere dati è difficile e costoso. La maggior parte dei sistemi di apprendimento automatico utili richiede un'etichettatura manuale laboriosa di ogni singolo punto dati. I dati etichettati sono di solito il principale collo di bottiglia in molte applicazioni perché sono costosi da raccogliere - immagina il costo di assumere una flotta di Turkers di Amazon!

GPT 3 aggira questo problema creando il proprio segnale di training modellando il testo che occorre naturalmente sul web. Adotta un paradigma di apprendimento automatico chiamato apprendimento non supervisionato (o auto-supervisionato). Questo permette l'apprendimento senza dati etichettati dall'uomo. Per coloro che vogliono addentrarsi nei dettagli tecnici dell'apprendimento non supervisionato, il nostro CTO ha scritto un'analisi approfondita qui.

Ma anche senza etichette, abbiamo bisogno di molti dati, giusto?

Si scopre che i dati sono proprio sotto il nostro naso. Internet contiene una tonnellata di articoli di alta qualità, ben scritti su una varietà di argomenti - e sono tutti facilmente accessibili. La bellezza della tecnica di addestramento di GPT è che deve semplicemente imparare a prevedere questi articoli scritti dall'uomo per esibirsi bene.

Ma aspetta - non ci sono molte sciocchezze sul web? GPT 3 non imparerà quelle anche?

Questo è vero. I creatori di GPT hanno mitigato alcuni di questi problemi utilizzando il crowdsourcing per curare i suoi dati. Un modo per fare ciò è guardare gli URL che la gente condivide su Reddit e raccogliere contenuti solo da siti web che hanno ricevuto un gran numero di upvotes su Reddit.

Apprendimento tramite Generazione di Lingua

Una volta che hai i dati, ora puoi addestrare GPT. Ma come puoi addestrare GPT per ottenere tutte queste capacità generali desiderate? Un'idea è semplicemente fare generazione di testo. GPT impara a generare linguaggio naturale prevedendo la parola successiva in un articolo dalle parole precedenti.

Questa è la ragione principale per cui GPT genera contenuti solo da sinistra a destra (non può farlo all'indietro). questo tipo di apprendimento si chiama modellizzazione del linguaggio.

È semplice come questo.

Prevedendo quale parola verrà dopo in una frase, l'IA deve imparare come fare uso delle altre parole nel suo contesto. Questo implicitamente obbliga GPT ad imparare molte altre importanti conoscenze generali.

Quello che non posso creare, non lo capisco.

-- Richard Feynman

Per prevedere correttamente la parola successiva, devi anche avere una certa comprensione di senso comune del nostro mondo, in aggiunta alle cose base come la sintassi e la grammatica inglese. È così che semplicemente facendo previsioni di articoli permette a GPT di imparare comportamenti sorprendentemente simili a quelli umani.

I sistemi di generazione di linguaggio hanno una lunga storia nell'apprendimento automatico, e GPT non è nuovo al gioco. In effetti, alcuni ricercatori di IA considerano GPT come meno di una conquista scientifica nuova, ma piuttosto un'impressionante impresa ingegneristica. Ci insegna una lezione importante su cosa oltre 4 milioni di USD spesi in risorse di calcolo combinate con una grande quantità di dati possono e non possono darci.

Quindi, qual è il verdetto?

OpenAI ci ha dimostrato che la scala delle soluzioni di IA ci può portare lontano. GPT, quando scalato alla sua dimensione più grande, può estrarre molte capacità generali semplicemente osservando come scrivono gli umani. Ecco perché si vede un tale rendimento impressionante dal modello. Google ha recentemente scalato una versione di GPT chiamata Interruttori Trasformatori a 10 volte la dimensione di GPT-3.

È la lezione amara realizzata da molti ricercatori di IA che soluzioni guidate dal calcolo e dall'apprendimento battono lo sforzo manuale umano. Dimensionando un semplice schema generativo, otteniamo GPT 3 che scrive quasi come un umano.

Ma GPT 3 non è privo di limitazioni. Come esperti SEO e di marketing dei contenuti, conoscere queste limitazioni è estremamente importante e influenza come possiamo sfruttare questa tecnologia del linguaggio naturale.

Limitazioni della Generazione di Testo

Povero Modello del Mondo e Correttezza Fattuale

Nonostante l'entusiasmo, GPT non ha una buona comprensione del nostro mondo. Un modo interessante per vedere questa mancanza di modello del mondo è se si provoca GPT con tutto ciò che riguarda la fisica del senso comune o il mondo reale. Come menzionato nel documento tecnico di OpenAI, ha difficoltà a rispondere a domande come "Se metto il formaggio in frigo, si scioglierà?". Non può chiaramente comprendere altri concetti umani come i giochi di parole.

Una possibile ragione di questo fenomeno è che l'IA non è una cognizione incapsulata - non ha mai veramente visto o sentito un frigo prima, nonostante ne abbia letto molte volte attraverso i dati di allenamento. Se utilizzi ciecamente l'IA per generare testo per le tue esigenze di marketing dei contenuti, otterrai alcune incongruenze e elementi non corretti dal punto di vista dei fatti.

Pregiudizi Non Voluti

GPT è addestrato sul web e, quindi, soffre degli stessi pregiudizi forniti dai dati di internet. Quindi, l'uso diretto di GPT potrebbe portare alla creazione di contenuti inappropriati o offensivi. Alcuni modi per mitigare questo comportamento potrebbero coinvolgere filtri offensivi che rifiutano contenuti inappropriati. Ridurre i pregiudizi indesiderati nell'apprendimento automatico è ancora un settore attivo di ricerca.

Adattamento al Dominio

Sebbene GPT abbia imparato un generale concetto della lingua, potrebbe non essere adatto al tuo dominio. Recenti ricerche hanno dimostrato che l'adattamento dei modelli simili a GPT può portare a risultati ancora migliori.

GPT funziona con solo alcuni esempi, ma fornendogli una maggiore quantità di dati otterrai sicuramente risultati migliori. Un'altra limitazione di GPT è la sua lunghezza massima di generazione, che potrebbe non renderlo adatto per l'uso di documenti lunghi come input.

Efficienza Pratica

Sebbene sia ancora troppo presto per dirlo, sembra che OpenAI prevede di far pagare un prezzo premium per utilizzare GPT. Questa soluzione potrebbe essere costosa per alcuni casi d'uso e il servizio offerto non è adatto per SEO. Usare o allenare GPT internamente è una sfida pratica a causa della sua enorme dimensione dei parametri.

Questa questione è meno preoccupante a lungo termine. Ci sono alcune direzioni di ricerca che permetteranno modi più efficienti per eseguire GPT, il che abbasserà il costo a lungo termine.

Table of Contents