2019年2月21日

GPT 3 和 SEO:为什么人工智能将永远改革您的内容

我们现在都听说过这些消息。

OpenAI 发布了生成预训练变换器新版本版本 3(简称为 GPT-3 或 GPT 3),并 获得了 beta API 访问权限。GPT 3 和它的前身 GPT 2 一样,是一个大型深度神经网络,可以自动生成足够逼真的文本,以至于欺骗普通人类。它是一种先进的人工智能,能够从网络上学习如何模仿人类的写作。

这是一个由 GPT 3 生成的 文章摘录

在第二次世界大战后几年,西方世界的经济,特别是欧洲的经济,开始恢复并显示出增长。工厂、道路和桥梁、城市和房屋、港口和机场的重建已经开始。欧洲的经济已成为整个西方世界的增长引擎。国家、公司和个人繁荣发展,欧洲开始了一个伟大的经济增长、工资上涨和生活水平改善的时期。重建与新投资的结合使欧洲成为一个适合做生意的地方。对于公司来说,欧洲是一个巨大的市场,其成员在市场监管、基础设施、投资政策和文化方面或多或少是统一的。公司建立工厂,进行投资,寻找新市场,这些投资在很大程度上是通过债务来融资的。

这些结果无疑让公众感到惊讶,并产生了很多炒作。生成的文本流畅可读且语法正确,但 GPT 3 不仅仅是一个强大的文本生成器。该技术标志着我们必须以根本的方式思考内容创作、营销和 SEO(搜索引擎优化)。像上述示例那样的短小内容片段可以在低成本下轻松创建。

作为 SEO 专家和内容创作者,理解 GPT 3 是 至关重要的。这是否意味着人类写作已经过时?它能否生成高质量的文案?这是否标志着一个末日场景,在这里 SEO 垃圾邮件机器人反复产生无限的垃圾内容?

虽然这些情感中有些道理,但我们认为围绕 GPT 3 的 炒作 需要更多的澄清。为了了解文本生成技术对 SEO 和内容写作的影响,我们需要首先拆解 GPT 3 的功能、重要性及其工作原理。

GPT-3 的一般性

GPT-3 及其前身技术(GPT 和 GPT 2)是 OpenAI 开发的一系列关于 通用 自然语言处理(NLP)模型的研究。但是,成为 通用 意味着什么呢?

机器学习有着悠久的发展系统的历史,这些系统被称为 只擅长一件事 的系统。这些系统被称为  人工智能。如果你想要一个可以 预测亚马逊评论评级 的人工智能 - 如果你有足够的训练数据,你可以轻松地训练出一个。如果你想开发一个可以查看社交媒体上的个人资料图片并告诉你是谁的模型 - 你可以再训练一个模型来完成这个工作。

问题是,训练在这些任务上的人工智能系统无法在其他任何事情上工作 - 因此被称为 。它受到其训练范围的限制。目前,人工智能研究的圣杯是寻求更通用的技术 - 能够同时处理多项任务的人工智能。这就是为什么通用技术是变革者。

为什么构建人工智能通才?

一个常见的观点是 - 不应该优先考虑专业专家吗?

在计算机早期,人们创建了只能计算和解决一种类型问题的专用计算机。想象一下,拥有一个只能做加法而不能做其他任何事情的专用计算器。没错,它在加法方面非常出色,速度极快,但这并不太有用。

相反,拥有一台可以加法、减法、上网、玩视频游戏等的计算机要有用得多。基于 冯·诺依曼架构 的现代计算机具备这些通用功能。从事后诸葛亮的角度来看,容易说通用计算是人类最具影响力的发明之一。

同样的原则适用于像 GPT 3 这样的人工智能技术。我们希望我们的系统具备通用性,因为这使我们能够解决更多问题,而无需手动编写各种任务。此外,事实证明,通用学习方法在自然语言处理任务中提高了人工智能的准确性 至少 60%

毕竟,人类是一种通用智能的形式。通用智能使我们能够获得尚未了解有用性的技能。想了解通用智能含义的人,我们推荐 Chollet 的论文 智能测量

对于 SEO 营销而言,这意味着我们不需要提前知道我们要生成哪种内容。我们不需要为稍有不同的目的创建不同的人工智能。

GPT-3 是一个展示出一些通用智能特性的人工智能系统(有时被称为原型 AGI)。例如,我们可以向人工智能提示 角色对话示例 并要求其完成:

雷克斯是来自未来的时间旅行者。艾达是一位 19 世纪的贵族女性。雷克斯:我想我把我的时间机器撞进了你的花园里。艾达:对不起?你说什么,年轻人?

它还可以执行多种其他任务,甚至生成 HTML 代码。这是一件大事,因为这意味着我们可以使用 GPT 解决许多与内容相关的任务。

那么,这是否意味着 GPT 3 能够解决与 SEO 相关的所有任务? 它能否为我们想要的任何主题或类别创建博客文章?并不是这样。要回答这个问题,我们需要拆解 GPT 3 的工作原理。

GPT 3 是如何学习的

利用大数据

机器学习模型(尤其是深度神经网络)饥渴于数据,只有在提供大量数据时才能良好运作。毕竟, 数据就是新石油

但获取数据是困难且昂贵的。大多数有用的机器学习系统需要人类费力地标注每个数据点。标记数据通常是许多应用中的主要瓶颈,因为收集起来昂贵 - 想象一下雇佣一组 亚马逊的工人的费用!

GPT 3 通过建模网络上自然产生的文本来解决这个问题,创建自己的训练信号。它采用了一种称为无监督(或自我监督)学习的机器学习范式。这使得在没有人类标记数据的情况下进行学习成为可能。对于那些想深入了解无监督学习技术细节的人,我们的首席技术官写了一篇 深入分析

但即使没有标签,我们仍然需要大量数据,对吗?

事实证明,数据就在我们面前。互联网包含大量高质量、写得很好的关于各种主题的文章 - 而且它们都很容易获取。GPT 的训练技术的美在于,它只需学习如何预测这些人类写作的文章即可良好表现。

但是等等 - 网络上不是有很多垃圾吗?GPT 3 不也会学习那些吗?

这是事实。GPT 的创作者通过众包来策划它的数据,从而减轻了一些这些问题。一种方法是查看人们在 Reddit 上分享的 URL,仅从获得大量 Reddit 赞的无关网站中抓取内容和帖子。

通过语言生成学习

当你拥有数据时,你现在可以训练 GPT。但是 如何 训练 GPT 以获得我们所希望的所有通用能力呢?一个想法就是简单地进行文本生成。GPT 通过从前面的单词中 预测下一个单词 来学习生成自然语言。

这就是 GPT 仅从左到右生成内容的主要原因(它无法向后生成)。这种学习方式称为 语言建模

就是这么简单。

通过预测句子中下一个单词,人工智能必须学习如何利用其上下文中的其他单词。这 隐含地 迫使 GPT 学习许多其他重要的常识。

我无法创造的,我就无法理解。

-- 理查德·费曼

为了准确预测下一个单词,你还必须对我们的世界有一些常识性的理解,另外还有英语语法等基本知识。这就是为什么仅仅进行文章预测能够让 GPT 学习惊人的类人行为。

语言生成系统在机器学习中有着悠久的历史,GPT 并不是这个游戏的新手。事实上,一些人工智能研究者认为,GPT 不那么科学新颖的成就,而更是令人印象深刻的工程成就。它教会我们一个关于所花费的 400 多万美元 的计算资源与大量数据结合所能取得的成就和不能取得的成就的重要教训。

那么结论是什么呢?

OpenAI 向我们展示了规模化的人工智能解决方案可以走得相当远。GPT 当扩大到其最大规模时,可以通过观察人类的写作提取出许多通用能力。这就是为什么你会看到模型如此令人印象深刻的表现。谷歌最近扩展了一个叫做 Switch Transformers 的 GPT 版本,达到了 GPT-3 的 10 倍大小。

这是许多人工智能研究人员意识到的 痛苦教训 :计算与学习主导的解决方案胜过人工的手动努力。通过扩大简单的生成框架,我们得到了几乎像人类一样的 GPT 3。

但 GPT 3 并不没有局限性。作为 SEO 和内容营销人员,了解这些局限性是至关重要的,它影响着我们如何利用这种自然语言技术。

文本生成的局限性

糟糕的世界模型和事实准确性

尽管有炒作,但 GPT 对我们的世界理解不佳。查看 GPT 任何与常识物理或现实世界相关的内容,会发现在缺乏世界模型方面的有趣方式。如 OpenAI 的技术论文所述,它在回答诸如“如果我把奶酪放入冰箱,会融化吗?”这样的问题时确实存在困难。它也显然无法理解其他人类概念 如双关语

这种现象的一个可能原因是,人工智能并不是一种 具身认知  - 它从未真正见过或感受到冰箱,尽管在训练数据中多次读到过。如果你盲目使用人工智能生成文本以满足内容营销需求,你将获得一些不一致和事实不准确的条目。

不必要的偏见

由于 GPT 是在网络上训练的,因此遭受与互联网数据提供的偏见同样的问题。因此,直接使用 GPT 可能会导致产生 不适当或冒犯性的内容。缓解这种问题的一种方法是使用拒绝不当内容的过滤器。减少机器学习中的不必要偏见仍然是一个 活跃的研究领域

领域适应性

尽管 GPT 学会了一般的语言理解,但它可能不适合你的领域。 最新研究 显示调优和调整 GPT 类模型能够取得更好的结果。

GPT 只需几个例子即可工作,但提供大量数据肯定会产生更好的结果。GPT 的另一个局限性是其最大生成长度,这可能使其不适合长文档的输入。

实际效率

虽然现在还为时已晚,但似乎 OpenAI 计划收费 高额费用来使用 GPT。这种解决方案对某些使用情况可能很昂贵,而提供的服务并未针对 SEO 进行定制。由于其巨大的参数大小,在内部使用或训练 GPT 是一个实际挑战。

从长远来看,这个问题的关注程度较低。有一些 研究方向 将使得更高效地运行 GPT 成为可能,从而降低长期成本。

GPT-3 SEO 机会

所以 GPT-3 是一个强大的文本生成系统 - 但这对内容营销意味着什么?SEO 的内容营销包含许多步骤。它涉及关键字研究、竞争对手分析,最终创建你的内容。

我们看到 GPT 主要用于创建内容,但它不能孤立地进行。由于技术的局限性,显然让算法独立运行不会产生良好的结果。必须有一个 人类参与

作家变成艺术家

当将 GPT 作为工具与人类作家结合使用时,它的光芒四射。这是因为人类作家擅长一些人工智能所不擅长的事情。例如,人类作家在高级思考和确定 写作内容 方面比人工智能更优秀。人工智能擅长低级任务,比如从一个网站上的网页列表中创建类别页面。

很多写作中的精力都花在低级问题上,例如语法正确性、语调和流畅性。借助 GPT,人类作家的角色向编辑转变。想象一下在画布上大笔刷涂抹,然后人工智能填充图片的细节,接着人类编辑这些细节直到完美。

在某种程度上,这很好,因为作家可以专注于更有趣的事情 - 建立优质的内容创意,专注于更具创造性的写作方面。这比制作类别页面、专注于达到最佳关键字密度或确保每句话流畅要好。

弥合人类与人工智能之间的工具

上述内容的一个推论是我们需要优秀的用户体验和工具,以便 GPT 能够与作家良好结合。广义而言,有几种方式可以实现 GPT 类技术作为有用的内容写作工具。以下是一些实现 AI 技术的示例:

可读性分析

良好的 可读性 是开发优秀内容的重要部分。它帮助用户保持参与度,让他们在您的网页上停留更长时间,这是在谷歌中排名高的一个重要因素。但写简单易读的文章说起来容易做起来难。

在 Jenni,我们开发了一种可以为您完成这项工作的工具。我们使用与 GPT 3 类似的技术,但将其调整为自动句子重写,使其更加可读。

智能改写

改写是使用源文本而不直接引用源材料的艺术。在依赖从非自己来源获取信息时,您需要指定获取该信息的来源。

以上段落是从 普渡大学的定义 改写而来,使用了我们的自动改写人工智能。能够执行智能改写的人工智能可以以不同于源文本的方式重写任何句子,或以不同的所需写作风格重新表述。

在 Jenni,我们对我们的作家进行了研究,发现自动化改写可以节省 至少 30% 的写作时间。它还使作家能够尝试替换句子的不同表述,其中一些可能比原始作文更流畅,或更好地传达意图。

主题优化

许多 SEO 专家依赖于 主题优化 来确保他们的内容在搜索引擎中排名高。确实,开发一组主题对于满足特定搜索查询至关重要,但确保一篇文章满足所有主题要求却很具有挑战性。

我们的编辑过去通常花费 1-4 小时手动优化主题。利用人工智能系统检测文章的主题相关性,可以帮助您保持写作的方向,这将节省编辑重写无关内容的时间。

摘要

如前所述,人工智能在低级任务方面表现出色,摘要也不例外。在内容写作时,我们发现作家常做的常见任务是总结其他文本。

摘要是人工智能系统在生产和商业系统中已证明 表现良好的任务。与其深入阅读一堆密集的文本,为什么不让人工智能为你提供简明的要点列表?在类似的背景下,如果您已经建好了网站,可以利用人工智能来创建索引或类别页面。

生成的内容能排位吗?

一些 SEO 从业者对自动生成内容并担心会遭受谷歌处罚感到担忧。

谷歌和许多搜索引擎一样,希望向其用户提供最相关的内容。因此,生成内容的主要问题不是它是生成的,而是意图通常是为了创建垃圾内容。谷歌已经 声明 只要内容为用户增加真正价值且不用于利用系统,生成内容是可以的。

事实上,许多大型新闻和媒体机构如福布斯已经使用内容生成技术来帮助他们。关键在于将人类和人工智能的优势结合起来,创造引人瞩目的内容。对互联网贡献有价值的知识,将确保即使部分内容是生成的,您仍然能够排名靠前。

人工智能与 SEO 的未来

科学与虚构之间的界限随着像 GPT 这样前沿 AI 模型的发布而继续模糊。仅在一年的时间里,GPT 2 和 GPT 3 之间质的飞跃令人惊叹。随着时间的推移,您早餐时阅读的报纸更有可能是由从未享用过煎蛋卷的人或 某物 编写的。

因此,我们认为要深入理解人工智能技术的重要性,超越炒作。那些不在 SEO 领域的人可能只会对 AI 的进展感到印象深刻。而在 SEO 领域并创作内容的人则需要适应这些工具,以保持领先。

Start Writing With Jenni Today

Sign up for a free Jenni AI account today. Unlock your research potential and experience the difference for yourself. Your journey to academic excellence starts here.