由

毛恆宇

—

2019年2月21日

GPT 3 與 SEO：為什麼人工智慧將永遠變革您的內容

毛恆宇

共同創辦人兼技術長

畢業於資訊科學學士學位及理學碩士學位

到目前為止，我們都聽過這個熱門話題了。

OpenAI 發布了全新版本的生成式預訓練轉換器第 3 版（簡稱 GPT-3 或 GPT 3），並提供測試版 API 存取權限。GPT 3 與其前身 GPT 2 非常相似，是一個大型的深度神經網路，可以自動生成逼真到足以愚弄普通人類的文本。這是一種先進的人工智慧，能從網路上學習如何模仿人類寫作。

以下是由 GPT 3 生成的文章節錄：

在第二次世界大戰之後的幾年裡，西方世界的經濟，特別是歐洲的經濟，開始復甦並展現增長。工廠、道路和橋樑、城市和房屋、港口和機場的重建工作已經開始。歐洲經濟已成為整個西方世界增長的引擎。國家、企業和人民繁榮昌盛，歐洲開啟了一個經濟增長、工資上漲和生活水平提高的偉大時期。重建與新投資的結合使歐洲成為一個絕佳的經商之地。對於企業而言，歐洲是一個巨大的市場，其成員國在市場監管、基礎設施、投資政策和文化方面或多或少達成了統一。企業建立工廠、進行投資並尋找新市場，而這些投資大部分是通過債務融資的。

這些結果無疑讓大眾感到驚訝，並引發了大量的炒作。生成的文本讀起來很流暢，且語法正確——但 GPT 3 不僅僅是一個強大的文本生成器。這項技術標誌著我們思考內容創作、行銷和 SEO（搜尋引擎最佳化）的根本方式。像上面顯示的簡短內容片段，可以很容易地以低成本創建。

作為 SEO 專家和內容創作者，至關重要 的是要了解 GPT 3。這是否意味著人類寫作已過時？它能產出高品質的文案嗎？這是否預示著一個末日情景，即 SEO 垃圾信息機器人無限產出垃圾內容？

雖然這些觀點中有一些事實，但我們認為圍繞 GPT 3 的過度炒作需要更多的澄清。為了了解文本生成技術對 SEO 和內容寫作的影響，我們需要首先分解 GPT 3 的功能、它為什麼重要以及它是如何運作的。

GPT-3 的通用性

GPT-3 及其前身技術（GPT 和 GPT 2）是 OpenAI 開發的一系列通用 NLP（自然語言處理）模型的研究。但什麼是通用呢？

機器學習在開發僅擅長一件事的系統方面有著悠久的歷史。這些系統被稱為窄域人工智慧。如果您需要一個能預測 Amazon 評論評分的人工智慧——只要您有足夠的訓練數據，您就可以輕鬆訓練出一個。如果您想開發一個可以查看社群媒體上的個人資料圖片並告訴您那是誰的模型——您可以訓練另一個模型來完成這項工作。

問題在於，針對這兩項任務之一進行訓練的人工智慧系統無法在其他任何事情上工作——因此被稱為窄域。它被限制在它所接受訓練的範圍內。目前人工智慧研究的終極目標是尋求更通用的技術——可以做很多事情的人工智慧。這就是為什麼通用技術是遊戲規則改變者的原因。

為什麼要打造通用型人工智慧？

一個常見的觀點是——難道不應該更偏好專業專家嗎？

在計算機發展的早期，人們創造了只能計算和解決一種問題的專用計算機。想像一下有一個專用的計算器，它只能做加法，其他什麼都做不了。當然，它非常擅長加法而且速度極快，但那不會太實用。

相反，擁有一台可以做加減法、上網、玩電子遊戲等的計算機會更有用。基於馮·紐曼架構的現代計算機就具有這些通用能力。事後看來，很容易說通用計算是人類最具影響力的發明之一。

同樣的原理也適用於像 GPT 3 這樣的人工智慧技術。我們希望系統具有通用性，因為這使我們能夠解決更多問題，而無需手動設計手頭的各種任務。此外，事實證明，通用學習方法已顯示出能將人工智慧在 NLP 任務上的準確性提高至少 60%。

畢竟，人類就是一種通用智能的形式。通用智能使我們能夠獲取我們甚至預先不知道是否有用的技能。對於那些對什麼是通用智能感興趣的人，我們推薦 Chollet 的論文《關於智能的測量》。

對於 SEO 行銷，這意味著我們不需要提前知道我們想要產出什麼類型的內容。我們不需要為稍微不同的目的創建不同的人工智慧。

GPT-3 是一個展現出通用智能某些屬性（有時稱為 Proto-AGI）的人工智慧系統。例如，我們可以用角色對話的例子來引導人工智慧並要求它完成對話：

Rex 是一位來自未來的時空旅行者。Ada 是一位 19 世紀的貴族婦女。Rex：我想我把我的時光機撞毀在妳的花園裡了。Ada：請原諒？你說什麼，年輕人？

它還可以執行各種其他任務，甚至生成 HTML 代碼。這是一件大事，因為這意味著我們可以使用 GPT 解決許多與內容相關的任務。

那麼這是否意味著 GPT 3 可以解決所有與 SEO 相關的任務？它能為我們想要的任何主題創建部落格文章，或為任何類別創建內容嗎？不完全是。為了回答這個問題，我們需要分解 GPT 3 的運作方式。

GPT 3 如何學習

利用大數據

機器學習模型（尤其是深度神經網路）對數據的需求很大，只有當您為其提供大量數據時，它們才能很好地工作。畢竟，數據是新的石油。

但是獲取數據既困難又昂貴。大多數有用的人工智慧系統都需要人類費力地標註每一個數據點。標註數據通常是許多應用程序中的主要瓶頸，因為收集成本高昂——想像一下雇用一隊 Amazon Turkers 的成本！

GPT 3 通過建立自己的訓練信號，對網路上自然產生的文本進行建模，從而解決了這個問題。它採用了一種稱為無監督（或自我監督）學習的機器學習範式。這使得無需人類標註數據即可進行學習。對於那些想深入了解無監督學習技術細節的人，我們的技術長在此撰寫了一篇深入的分析。

但即使沒有標籤，我們仍需要大量數據對吧？

事實證明，數據就在我們眼前。網際網路包含大量關於各種主題的高品質、寫得很好的文章——而且它們都很容易取得。GPT 訓練技術的妙處在於，它只需要學習如何預測這些人類撰寫的文章即可表現出色。

但是等等——網路上不是有很多垃圾內容嗎？GPT 3 不也會學到那些嗎？

確是如此。GPT 的創作者通過使用群眾外包來篩選其數據，從而減輕了其中一些問題。一種方法是查看人們在 Reddit 上分享的 URL，並僅抓取來自擁有大量 Reddit 點讚數的網站的內容和貼文。

透過語言生成進行學習

一旦有了數據，您現在就可以訓練 GPT 了。但是如何訓練 GPT 以獲得我們渴望的所有這些通用能力呢？一個想法就是單純地進行文本生成。GPT 通過從先前的單詞中預測文章中的下一個單詞來學習生成自然語言。

這就是 GPT 僅從左到右生成內容（它不能反向生成）的主要原因。這種類型的學習被稱為 語言建模。

就是這麼簡單。

通過預測句子中接下來會出現什麼單詞，人工智慧必須學會如何利用其背景中的其他單詞。這 隱性地 迫使 GPT 學習許多其他重要的通用知識。

我無法創造的事物，我就無法理解。

—— 理查·費曼

為了正確預測下一個單詞，除了英文語法和文法等基本事物外，您還必須對我們的世界有一些常識性的理解。這就是為什麼僅僅做文章預測就能使 GPT 學習到令人驚訝的類似人類的行為。

語言生成系統在機器學習中歷史悠久，GPT 並非這個領域的新手。事實上，一些人工智慧研究人員認為 GPT 算不上是科學上的新穎成就，而是一項令人印象深刻的工程壯舉。它給我們上了重要的一課，讓我們了解花在計算資源上並結合大量數據的 400多萬美元能給我們帶來什麼，以及不能帶來什麼。

那麼結論是什麼？

OpenAI 向我們展示了擴大規模的人工智慧解決方案可以走得很遠。當 GPT 擴展到其最大規模時，只需觀察人類如何寫作就可以提取出許多通用能力。這就是為什麼您會看到該模型具有如此令人印象深刻的性能。Google 最近已將名為 Switch Transformers 的 GPT 版本擴展到了 GPT-3 規模的 10 倍。

許多人工智慧研究人員意識到了一個慘痛的教訓：由計算和學習主導的解決方案勝過人工手動努力。通過擴展一個簡單的生成框架，我們得到了寫起字來幾乎像人類一樣的 GPT 3。

但 GPT 3 並非沒有局限性。作為 SEO 和內容行銷人員，了解這些局限性非常重要，並會影響我們如何利用這項自然語言技術。

文本生成的局限性

貧乏的世界模型與事實正確性

儘管被大肆炒作，GPT 對我們的世界並沒有很好的理解。要看到這種世界模型的缺乏，一個有趣的方法是如果您用任何與普通物理或現實世界有關的事物來引導 GPT。正如 OpenAI 的技術論文中提到的，它難以回答諸如“如果我把起司冰進冰箱，它會融化嗎？”之類的問題。它也顯然無法理解人類的其他概念如雙關語。

這種現象的一個可能原因是，人工智慧並非一個 具身認知 ——它從未真正看過或感受過冰箱，儘管它在訓練數據中多次閱讀過相關內容。如果您盲目使用人工智慧為您的內容行銷需求生成文本，您會得到一些不一致和事實上不正確的內容。

意想不到的偏差

GPT 是在網路上進行訓練的，因此，它也承受著與網路數據相同的偏差。因此，直接使用 GPT 可能會導致創建出不恰當或具攻擊性的內容。減輕這種情況的一些方法包括使用拒絕不當內容的敏感過濾器。減少機器學習中意想不到的偏差仍是一個活躍的研究領域。

領域適應

儘管 GPT 已經學會了對語言的通用理解，但它可能不適用於您的專業領域。最近的研究表明，對類似 GPT 的模型進行微調折騰可以帶來更好的結果。

GPT 僅需少量樣本即可工作，但為其提供大量數據肯定會產生更好的結果。GPT 的另一個局限性是它的最大生成長度，這可能使其不適合將長篇文件作為輸入。

實際效率

雖然現在下結論還為時過早，但 OpenAI 似乎計劃收取高昂的價格來使用 GPT。對於某些使用案例，此解決方案可能很昂貴，而且提供的服務並非為 SEO 量身定制。由於其巨大參數規模，在內部使用或訓練 GPT 是一項實際的挑戰。

從長遠來看，這個問題不那麼令人擔憂。有一些研究方向將實現更高效的運行 GPT 方式，這將降低長期成本。

GPT-3 的 SEO 機遇

所以 GPT-3 是一個強大的文本生成系統——但這對內容行銷意味著什麼？SEO 的內容行銷包含許多步驟。其範圍從關鍵字研究、競爭對手分析，到最後創建您的內容。

我們看到 GPT 主要用於創建內容，但它不能孤立地完成。由於該技術的局限性，顯然讓演算法自由運行不會產生很好的效果。必須有人工參與。

作家成為藝術家

當 GPT 被最好地用作與作家協同工作的工具時，它會大放異彩 — 作家如何在使用 AI 工具的同時不失去自己的風格正成為 SEO 團隊的核心技能。那是因為人類作家在幾件 AI 不擅長的事情上表現出色。例如，人類作家更擅長高層次思考以及想出要寫什麼。AI 則擅長低層次的任務，像是從網站的網頁列表中創建類別頁面。

寫作中的許多精力都花在了語法正確性、語氣和流暢度等低層次問題上。有了 GPT，人類作家的角色轉變成了編輯。想像一下在畫布上畫出粗略的線條，AI 填補圖像的細節，然後人類對這些細節進行編輯，直到完美。

在某種程度上，這很棒，因為作家可以專注於更有趣的事情——建立高質量的內容創意並專注於寫作中更具創意的一面。這比製作類別頁面、專注於需要塞入多少關鍵字才能使文章達到最佳數量，以及/或確保每句話都流暢要好得多。

橋接人類與人工智慧的工具

上述推論是，我們需要出色的用戶體驗和利用 GPT 的工具，使其能夠與作家很好地協同工作。廣義上講，有幾種方法可以將類似 GPT 的技術轉化為實用的內容寫作工具。以下是一些體現為各種工具的人工智慧技術示例：

可讀性分析

擁有良好的可讀性是開發優質內容的重要部分。它有助於讓您的用戶保持參與並在您的頁面上花費更多時間，這是 Google 排名靠前的重要因素。但是寫出易於閱讀的文章說起來容易做起來難。

在 Jenni，我們開發了一個能為您代勞的工具。我們使用了類似 GPT 3 的技術，但將其調整為自動句子改寫，以便它變得更易於閱讀。

智能改寫

改寫是一門在不直接引用源材料的情況下使用源文本的藝術。每當您從非您原創的來源獲取信息時，您都需要指明您從哪裡獲得了該信息。這個問題也經常出現在人工智慧上；我們對 AI 寫作、抄襲和原創性的剖析涵蓋了需要注意的事項。

上面這段話是使用我們的自動改寫人工智慧，根據普渡大學的定義衡量改寫而來的。執行智能改寫的人工智慧可以以不同於源文本的方式重寫任何句子，或以不同期望的寫作風格來重新表述。

在 Jenni，我們對我們的作家進行了研究，發現自動改寫可以節省 至少 30% 的作家時間。它還允許作家嘗試句子的替代措辭，其中一些可能比原始寫作更流暢或能更好地傳達意圖。

主題最佳化

許多 SEO 專家依靠主題最佳化來確保他們的內容在搜尋引擎上獲得高排名。確實，開發一組主題對於與某些搜尋查詢相關至關重要，但確保一篇文章滿足所有主題要求是具有挑戰性的。

我們的編輯以前要花費 1 到 4 個小時手動最佳化主題。使用人工智慧系統檢測文章中的主題相關性，可以幫助您保持寫作不偏離主題，這將使編輯免於重寫不相關內容。

摘要生成

如我們之前討論的，AI 在低層次任務上表現出色，摘要生成也不例外。在內容寫作方面，我們發現作家執行的一個常見任務是總結其他文本。

摘要生成是人工智慧系統已被證明在實際生產和商用系統中表現良好的一項任務。與其閱讀密密麻麻的文本塊，為什麼不讓人工智慧給您一個簡潔的重點列表呢？本著類似的精神，如果您已經構建好您的網站，您可以使用人工智慧來創建索引或類別頁面。

生成的內容能獲得排名嗎？

一些 SEO 從業者開始擔心使用自動化內容生成並收到 Google 的懲罰。

Google 與許多搜尋引擎一樣，希望向其用戶提供最相關的內容。因此，生成內容的主要問題不在於它是生成的，而在於其意圖通常是創建垃圾郵件。Google 已聲明只要內容為用戶增加了實實在在的價值，而不是用於操縱系統，生成的內容是沒有問題的。

事實上，像《富比士》這樣許多大型新聞和媒體機構已經在使用內容生成技術來幫助他們。這裡的關鍵是融合兩者的優勢——人類和人工智慧——來創建引人入勝的內容。為網路貢獻有價值的知識將確保您能夠在頂部獲得排名，即使您的一些內容是生成的。

人工智慧和 SEO 的未來

隨著像 GPT 這樣尖端人工智慧模型的發布，科學與幻想之間的界限繼續變得模糊。僅在一年時間內，GPT 2 和 GPT 3 之間的質量大幅提升就令人震驚。隨著時間的推移，您在早餐前閱讀的報紙，更有可能是由某人或某種一輩子都沒吃過歐姆蛋的東西寫成的。

這就是為什麼我們認為除了大肆炒作之外，更深入地理解人工智慧技術至關重要。非 SEO 領域的人可能只是對人工智慧的進步感到驚訝。而處於 SEO 領域並創建內容的人，則需要適應這些工具以保持在頂尖地位。

就在今天，讓您的偉大工作取得進展

今天就和 Jenni 一起撰寫你的第一篇論文，從此不再回頭

免費開始

免信用卡

隨時取消

開始寫作

– 這是免費的

超過 500 萬

全球學術界

節省了 5.2 小時

每篇論文的平均值

超過 1500 萬

在 Jenni 上撰寫的論文

就在今天，讓您的偉大工作取得進展

今天就和 Jenni 一起撰寫你的第一篇論文，從此不再回頭

免費開始

免信用卡

隨時取消

開始寫作

– 這是免費的

超過 500 萬

全球學術界

節省了 5.2 小時

每篇論文的平均值

超過 1500 萬

在 Jenni 上撰寫的論文

就在今天，讓您的偉大工作取得進展

今天就和 Jenni 一起撰寫你的第一篇論文，從此不再回頭

免費開始

免信用卡

隨時取消

開始寫作

– 這是免費的

超過 500 萬

全球學術界

節省了 5.2 小時

每篇論文的平均值

超過 1500 萬

在 Jenni 上撰寫的論文