21 feb 2019
GPT 3 y SEO: Por qué la IA transformará tu contenido para siempre
Todos hemos escuchado el zumbido hasta ahora.
OpenAI ha lanzado una nueva versión del Transformador Generativo Preentrenado versión 3 (en resumen, GPT-3 o GPT 3) con acceso beta a la API GPT 3, al igual que su predecesor GPT 2, es una gran red neuronal profunda que puede generar texto de manera automática lo suficientemente realista como para engañar al humano promedio. Es una IA avanzada que aprende a imitar la escritura humana desde la web.
Aquí hay un extracto de un artículo generado por GPT 3:
En los años después de la Segunda Guerra Mundial, la economía del mundo occidental y, especialmente las economías de Europa, comenzaron a recuperarse y mostrar crecimiento. La reconstrucción de fábricas, carreteras y puentes, ciudades y casas, puertos y aeropuertos había comenzado. La economía de Europa se había convertido en un motor de crecimiento para todo el mundo occidental. Los países, las empresas y las personas prosperaron, y empezó en Europa un gran período de crecimiento económico, salarios crecientes y niveles de vida mejorados. La combinación de reconstrucción y nuevas inversiones hicieron de Europa un excelente lugar para hacer negocios. Para las empresas, Europa era un vasto mercado, con sus miembros más o menos unificados en términos de regulación del mercado, infraestructura, política de inversión y cultura. Las empresas establecieron fábricas, invirtieron y encontraron nuevos mercados, y estas inversiones fueron en gran parte financiadas con deuda.
Estos resultados han sorprendido sin duda al público y generado mucha expectativa. El texto generado se lee bien y es gramaticalmente correcto, pero GPT 3 no es solo un generador de texto poderoso. La tecnología marca una forma fundamental en la que tenemos que pensar sobre la creación de contenido, marketing y SEO (Optimización de Motores de Búsqueda). Fragmentos cortos de contenido, como el mostrado arriba, se pueden crear fácilmente a bajo costo.
Como expertos en SEO y creadores de contenido, es imperativo comprender GPT 3. ¿Significa esto que la escritura humana está obsoleta? ¿Puede producir un texto de alta calidad? ¿Esto marca un escenario apocalíptico donde los bots de spam para SEO generan basura ilimitada?
Mientras que hay algunas verdades en estos sentimientos, creemos que la exageración alrededor de GPT 3 necesita más claridad. Para entender el impacto de las tecnologías de generación de texto en el SEO y la redacción de contenido, primero necesitamos desglosar qué hace GPT 3, por qué importa y cómo funciona.
La Generalidad de GPT-3
GPT-3 y sus tecnologías predecesoras (GPT y GPT 2) son una línea de investigación sobre modelos de PNL (Procesamiento de Lenguaje Natural) en general desarrollados por OpenAI. Pero, ¿qué significa ser general?
El aprendizaje automático tiene una larga historia de desarrollar sistemas que son buenos en una sola cosa. Estos sistemas se llaman IA estrecha. Si quieres una IA que prediga la calificación de una reseña en Amazon, puedes entrenar fácilmente una si tienes suficientes datos de entrenamiento. Si quieres desarrollar un modelo que pueda mirar una foto de perfil en redes sociales y decirte quién es, puedes entrenar otro modelo que hará el trabajo.
El problema es que los sistemas de IA entrenados en alguna de estas tareas son incapaces de trabajar en cualquier otra cosa, de ahí el término estrecho. Está limitado al alcance en el que fue entrenado. El Santo Grial actual de la investigación de IA es buscar tecnologías más generales: IA que pueda hacer muchas cosas. Aquí está el por qué las tecnologías generales son revolucionarias.
¿Por qué construir IA generalistas?
Un sentimiento común dice: ¿no deberíamos preferir expertos especializados?
En los primeros días de la informática, la gente creó computadoras especializadas que solo podían calcular y resolver un tipo de problema. Imagina tener una calculadora especializada que solo puede sumar, pero nada más. Claro, es muy buena para sumar y puede hacerlo muy rápido, pero eso no sería demasiado útil.
En cambio, es mucho más útil tener una computadora que pueda sumar, restar, conectarse a internet, jugar videojuegos, etc. Las computadoras modernas basadas en la arquitectura de von Neumann tienen estas capacidades generales. En retrospectiva, es fácil decir que la informática de propósito general es uno de los inventos más impactantes de la humanidad.
El mismo principio se aplica a tecnologías de IA como GPT-3. Queremos tener generalidad en nuestros sistemas porque esto nos permite resolver muchos más problemas sin tener que diseñar cada tarea a mano. Además, resulta que los enfoques de aprendizaje general tienden a aumentar la precisión de la IA en tareas de PNL en al menos un 60%.
Después de todo, los seres humanos somos una forma de inteligencia general. La inteligencia general nos permite adquirir habilidades que ni siquiera sabemos de antemano que serán útiles. Para aquellos interesados en qué significa tener inteligencia general, recomendamos el artículo de Chollet Sobre la Medida de la Inteligencia.
Para el marketing SEO, esto significa que no necesitamos saber de antemano qué tipo de contenido queremos producir. No necesitamos crear una IA diferente para un propósito ligeramente differente.
GPT-3 es un sistema de IA que exhibe algunas propiedades de inteligencia general (a veces llamado Proto-AGI). Por ejemplo, podemos pedirle a la IA con ejemplos de diálogos de personajes y pedirle que los complete:
Rex es un viajero en el tiempo del futuro. Ada es una noble del siglo XIX. Rex: Creo que he estrellado mi máquina del tiempo en tu jardín. Ada: Perdóneme, ¿Qué dijo joven?
También puede realizar una variedad de otras tareas e incluso generar código HTML. Esto es importante porque significa que podemos resolver muchas tareas relacionadas con el contenido con GPT.
Entonces, ¿significa esto que GPT 3 puede resolver todas las tareas relevantes relacionadas con SEO? ¿Puede crear entradas de blogs para cualquier tema o contenido para cualquier categoría que deseemos? No exactamente. Para responder esa pregunta, necesitamos desglosar cómo funciona GPT 3.
Cómo Aprende GPT 3
Aprovechando Big Data
Los modelos de aprendizaje automático (y especialmente las redes neuronales profundas) son ávidos de datos y solo funcionan bien cuando se les proporciona muchos datos. Después de todo, los datos son el nuevo petróleo.
Pero obtener datos es difícil y costoso. La mayoría de los sistemas de aprendizaje automático útiles requieren que los humanos etiqueten laboriosamente cada punto de datos. Los datos etiquetados suelen ser el principal cuello de botella en muchas aplicaciones porque son costosos de recopilar: imagina el costo de contratar una flota de trabajadores de Amazon Turk!
GPT 3 resuelve este problema creando su propia señal de entrenamiento al modelar textos que ocurren naturalmente en la web. Adopta un paradigma de aprendizaje automático llamado aprendizaje no supervisado (o auto-supervisado). Esto permite aprender sin datos etiquetados por humanos. Para aquellos que quieren profundizar en los detalles técnicos del aprendizaje no supervisado, nuestro Director Tecnológico ha escrito un análisis profundo aquí.
Pero incluso sin etiquetas, necesitamos muchos datos, ¿verdad?
Resulta que los datos están justo debajo de nuestras narices. Internet contiene toneladas de artículos de alta calidad, bien escritos sobre una variedad de temas, y todos son fácilmente accesibles. La belleza de la técnica de entrenamiento de GPT es que simplemente necesita aprender a predecir estos artículos escritos por humanos para tener un buen rendimiento.
Pero espera, ¿no hay un montón de basura en la web? ¿GPT 3 no aprendería eso también?
Eso es cierto. Los creadores de GPT mitigaron algunos de estos problemas mediante el uso de crowdsourcing para curar sus datos. Una forma de hacerlo es mirar las URL que la gente comparte en Reddit y solo rastrear contenido y publicaciones de sitios web con un gran número de votos positivos en Reddit.
Aprendiendo mediante la Generación de Lenguaje
Una vez que tienes los datos, ahora puedes entrenar a GPT. Pero cómo puedes entrenar GPT para obtener todas estas capacidades generales que deseamos? Una idea es simplemente hacer generación de texto. GPT aprende a generar lenguaje natural mediante prediciendo la palabra siguiente en un artículo a partir de las palabras anteriores.
Esa es la razón principal por la que GPT solo genera contenido de izquierda a derecha (no puede hacerlo hacia atrás). Este tipo de aprendizaje se llama modelado de lenguaje.
Es tan simple como eso.
Al predecir cuál palabra viene después en una oración, la IA debe aprender a hacer uso de otras palabras en su contexto. Esto implícitamente fuerza a GPT a aprender muchos otros conocimientos generales importantes.
Lo que no puedo crear, no lo entiendo.
-- Richard Feynman
Para predecir correctamente la palabra siguiente, también debes tener algún conocimiento de sentido común sobre nuestro mundo además de cosas básicas como la sintaxis y gramática inglesa. Así es como simplemente hacer predicciones de artículos permite que GPT aprenda comportamientos sorprendentemente humanos.
Los sistemas de generación de lenguaje tienen una larga historia en el aprendizaje automático, y GPT no es nuevo en el juego. De hecho, algunos investigadores de IA consideran a GPT menos como un logro científicamente novedoso sino más bien como una hazaña de ingeniería impresionante. Nos enseña una lección importante sobre lo que $4+ millones USD gastados en recursos informáticos combinados con una gran cantidad de datos pueden y no pueden darnos.
Entonces, ¿cuál es el veredicto?
OpenAI nos mostró que escalar soluciones de IA puede llevarnos muy lejos. GPT, cuando se escala a su tamaño más grande, puede extraer muchas capacidades generales simplemente observando cómo escriben los humanos. Por eso ves un rendimiento tan impresionante del modelo. Google ha escalado recientemente una versión de GPT llamada Switch Transformers 10 veces el tamaño de GPT-3.
Es la amarga lección que muchos investigadores de IA han comprendido que las soluciones lideradas por computación y aprendizaje superan el esfuerzo manual humano. Al escalar un marco de generación simple, obtenemos GPT 3 que escribe casi como un humano.
Pero GPT 3 no está exento de sus limitaciones. Como SEO y mercadólogos de contenido, conocer estas limitaciones es muy importante e influye en cómo podemos aprovechar esta tecnología de lenguaje natural.
Limitaciones de la Generación de Texto
Modelo del Mundo Pobre y Exactitud Fáctica
A pesar de la expectativa, GPT no tiene un buen entendimiento de nuestro mundo. Una manera interesante de ver esta falta de modelo del mundo es si pides a GPT anything relacionado con física del sentido común o el mundo real. Como se menciona en el documento técnico de OpenAI, tiene dificultades para responder preguntas como "Si pongo queso en el refrigerador, ¿se derretirá?". También claramente no puede entender otros conceptos humanos como los juegos de palabras.
Una posible razón para este fenómeno es que la IA no es una cognición encarnada - nunca ha visto ni sentido un refrigerador antes, a pesar de haber leído sobre él muchas veces en los datos de entrenamiento. Si usas ciegamente la IA para generar texto para tus necesidades de marketing de contenido, obtendrás algunas inconsistencias y elementos ficticios incorrectos.
Prejuicios No Deseados
GPT está entrenado en la web y, por lo tanto, sufre de los mismos sesgos que proporcionan los datos de internet. Por lo tanto, usar GPT directamente puede llevar a la creación de contenido inapropiado u ofensivo. Algunas maneras de mitigar esto podrían involucrar filtros ofensivos que rechacen contenido inapropiado. Reducir los sesgos no deseados en el aprendizaje automático sigue siendo un área de investigación activa.
Adaptación al Dominio
Aunque GPT ha aprendido una comprensión general del lenguaje, puede que no sea adecuado para tu dominio. Investigaciones recientes han demostrado que ajustar y modificar modelos similares a GPT puede conducir a mejores resultados.
GPT funciona con solo unos pocos ejemplos, pero proporcionarle una mayor cantidad de datos definitivamente dará mejores resultados. Otra limitación de GPT es su longitud máxima de generación, lo cual podría hacerlo no adecuado para usar documentos largos como entrada.
Eficiencia Práctica
Aunque todavía es muy pronto para decirlo, parece que OpenAI planea cobrar un precio premium por usar GPT. Esta solución puede ser costosa para algunos casos de uso y el servicio proporcionado no está adaptado para SEO. Usar o entrenar GPT internamente es un desafío práctico debido a su enorme tamaño de parámetros.
Este problema es una preocupación menor a largo plazo. Hay algunas direcciones de investigación que permitirán formas más eficientes de ejecutar GPT, lo que reducirá el coste a largo plazo.
La Oportunidad SEO de GPT-3
Entonces GPT-3 es un sistema poderoso de generación de texto, pero, ¿qué significa todo esto para el mercadeo de contenido? El mercadeo de contenido para SEO consiste en muchos pasos. Va desde la investigación de palabras clave, análisis de competidores y finalmente, creación de tu contenido.
Vemos que GPT se usa principalmente para crear contenido, pero no puede hacerlo aisladamente. Debido a las limitaciones de la tecnología, es obvio que dejar que el algoritmo corra libre no daría buenos resultados. Tiene que haber un humano en el bucle.
Los Escritores Conviirtiéndose en Artistas
GPT brilla cuando se usa mejor como una herramienta en conjunto con escritores humanos en el bucle. Eso es porque los escritores humanos son mejores en varias cosas que la IA no lo es. Por ejemplo, los escritores humanos son mejores pensando a alto nivel y descubriendo qué escribir. La IA es excelente en tareas de bajo nivel como crear páginas de categorías a partir de una lista de páginas web en un sitio.
Gran parte del esfuerzo en la escritura se gasta en problemas
¿Listo para revolucionar tu escritura de investigación?
Regístrese hoy para obtener una cuenta gratuita de Jenni AI. Desbloquee su potencial de investigación y experimente la diferencia por usted mismo. Su viaje hacia la excelencia académica comienza aquí.