—

2019/02/21

—

2019/02/21

Henry Mao

—

2019/02/21

GPT 3とSEO：なぜAIがあなたのコンテンツを永遠に革新するのか

Henry Mao

Co-Founder/CTO

Graduated with a Bachelor's Degree in Computer Science and a Master's in Science

Henry Mao

Co-Founder/CTO

Graduated with a Bachelor's Degree in Computer Science and a Master's in Science

Henry Mao

Co-Founder/CTO

Graduated with a Bachelor's Degree in Computer Science and a Master's in Science

私たちは皆、今やその話題を耳にしたことがあります。

OpenAIは、Generative Pre-trained Transformerの新しいバージョンであるバージョン3（短縮して、GPT-3またはGPT 3）をベータAPIアクセスとともにリリースしました。GPT 3は、前のモデルであるGPT 2と同様に、平均的な人を騙すのに十分リアルなテキストを自動的に生成できる大規模な深層ニューラルネットワークです。この技術は、ウェブから人間の書き方を模倣する方法を学習する高度なAIです。

ここに、GPT 3によって生成された記事の抜粋があります:

第二次世界大戦後の数年、世界西部の経済、特にヨーロッパの経済は回復を始め、成長を示し始めました。工場や道路、橋、都市や家、港や空港の再建が始まりました。ヨーロッパの経済は、西部全体の成長のエンジンとなりました。国々、企業、そして人々は繁栄し、ヨーロッパでは経済成長、高まる賃金、改善された生活水準の素晴らしい時代が始まりました。再建と新たな投資の組み合わせは、ヨーロッパをビジネスにとって素晴らしい場所にしました。企業にとって、ヨーロッパは広大な市場であり、市場の規制、インフラ、投資政策、文化の面でメンバーはほぼ統一されていました。企業は工場を設立し、投資し、新しい市場を見つけ、これらの投資は主に負債によって資金調達されました。

これらの結果は間違いなく一般の人々を驚かせ、多くの期待を生み出しました。生成されたテキストは良く書かれており、文法が正しいですが、GPT 3は単なる強力なテキスト生成器ではありません。この技術は、コンテンツ制作、マーケティング、SEO（検索エンジン最適化）について私たちが考えなければならない根本的な方法を示しています。上で見せたような短いコンテンツスニペットは、低コストで簡単に作成できます。

SEOの専門家やコンテンツクリエイターとして、GPT 3を理解することは 重要です 。これは人間の書き方が時代遅れであることを意味しますか？高品質なコピーを生成できますか？これはSEOスパムボットが無限のゴミを作り出す終末的なシナリオを意味しますか？

これらの感情にはいくつかの真実があるものの、私たちはGPT 3に関する過剰な期待がより明確さを必要とすると考えています。テキスト生成技術がSEOやコンテンツ制作に与える影響を理解するためには、まずGPT 3が何をするのか、その重要性、そしてどのように機能するのかを分解する必要があります。

GPT-3の一般性

GPT-3およびその前の技術（GPTとGPT 2）は、OpenAIによって開発された 一般的な NLP（自然言語処理）モデルの研究ラインです。しかし、一般的であるとはどういう意味ですか？

機械学習には、特定のタスクに対してのみ優れたシステムを開発する長い歴史があります。これらのシステムは狭い AIと呼ばれます。もしあなたが、Amazonレビューの評価を予測する AIが必要であれば、十分なトレーニングデータがあれば簡単に訓練することができます。ソーシャルメディアのプロフィール写真を見てそれが誰かを教えてくれるモデルを開発したい場合には、その仕事をする別のモデルを訓練できます。

問題は、これらのタスクのいずれかで訓練されたAIシステムは、他の作業を行うことができないことです。したがって、狭いという用語が使われています。それは、それが訓練された範囲に制約されています。現在のAI研究の聖杯は、さまざまなことができるより一般的な技術を求めることです。一般的な技術がゲームチェンジャーとなる理由はここにあります。

なぜAIの一般化を構築するのか？

一般的な感情は、特別な専門家が優先されるべきではないか、というものです。

コンピュータの初期の日々に、僕たちは一種類の問題を計算し解決するだけの専門的なコンピュータを作りました。例えば、足し算しかできない専門的な計算機を想像してください。もちろん、それは足し算が得意でとても速くできるのですが、それだけではあまり役に立ちません。

それよりも、足し算、引き算、オンライン、ゲームプレイなど、さまざまなことができるコンピュータがはるかに便利です。フォン・ノイマンアーキテクチャに基づく現代のコンピュータは、これらの一般的な能力を持っています。振り返ってみると、一般目的のコンピュータが人類の最も影響力のある発明の一つであると言うのは容易です。

同じ原則は、GPT 3のようなAI技術にも適用されます。私たちは、手作業で直面するさまざまなタスクをエンジニアリングすることなく、より多くの問題を解決できるようにシステムの一般性を持ちたいと考えています。さらに、一般的な学習アプローチは、NLPタスクにおけるAIの精度を少なくとも60％向上させることが示されています。

結局のところ、人間は一般的な知能の一形態です。一般的な知能は、私たちが事前に有用だと知らないスキルを習得することを可能にします。一般的な知能を持つことがどういう意味かに興味がある方には、Cholletの論文 知能の測定について を推奨します。

SEOマーケティングに関しては、私たちは事前にどのようなコンテンツを生成するのかを知る必要はありません。わずかに異なる目的のために異なるAIを生成する必要はありません。

GPT-3は、一般知能のいくつかの特性を示すAIシステムです（時にProto-AGIと呼ばれます）。例えば、私たちはAIにキャラクターの対話の例を提示し、その続きを求めることができます:

レックスは未来からのタイムトラベラーです。エイダは19世紀の貴族の女性です。レックス: あなたの庭にタイムマシンをクラッシュさせたと思う。エイダ: 失礼ですが？あなたは何を言いましたか若い男？

それはまた、さまざまな他のタスクを実行し、さらには HTMLコードを生成することもできます。これは重要なことです。なぜなら、私たちはGPTを使って多くのコンテンツ関連のタスクを解決できるからです。

では、これがGPT 3がSEOに関連するすべてのタスクを解決できることを意味するのでしょうか？　あらゆるトピックやカテゴリーに対してブログ記事を生成することができるのでしょうか？そうではありません。その質問に答えるためには、GPT 3がどのように機能するのかを分解する必要があります。

GPT 3が学ぶ方法

ビッグデータの活用

機械学習モデル（特に深層ニューラルネットワーク）はデータを欲しがり、大量のデータがあって初めてうまく機能します。結局のところ、データは新しい石油です。

しかし、データを取得するのは難しく、コストがかかります。ほとんどの有用な機械学習システムは、人間がすべてのデータポイントに苦労してラベルを付けることを必要とします。ラベル付きデータは、多くのアプリケーションにおいて主なボトルネックです。なぜなら、収集に多くの費用がかかるからです - 費用には、 Amazon Turkers の集団を雇うコストを想像してください！

GPT 3は、この問題に対処するために自然に発生するウェブ上のテキストをモデル化して、自分自身のトレーニング信号を生成します。これは、教師なし（または自己教師あり）学習と呼ばれる機械学習のパラダイムを採用しています。これにより、人間がラベル付けしたデータなしで学習することが可能になります。教師なし学習の技術的詳細に興味のある方には、当社のCTOが詳細な分析をここに書いています。

しかし、ラベルがなくても、多くのデータが必要ですか？

実は、そのデータは私たちの目の前にあります。インターネットには、多様なトピックに関する高品質でよく書かれた記事がたくさんあり、それらはすべて簡単にアクセス可能です。GPTのトレーニング技術の美しさは、実際には、人間が書いた記事を予測する方法を学ぶだけで良いということです。

しかし待ってください - インターネット上にはたくさんのゴミがありますよね？GPT 3もそれを学ぶでしょうか？

それは真実です。GPTの作成者は、クラウドソーシングを使用してそのデータをキュレーションすることでこれらの問題のいくつかを軽減しました。これを行う一つの方法は、人々がRedditで共有するURLを見て、大量のRedditのアップボートを持つウェブサイトからのコンテンツや投稿だけをクロールすることです。

言語生成による学習

データが揃ったら、GPTを訓練できます。しかし、 どうやって GPTを訓練して私たちが望むこれらの一般的な能力を得ることができるのでしょうか？一つのアイディアは、単純にテキスト生成を行うことです。GPTは、前の単語から記事内の次の単語を予測することによって自然言語を生成することを学びます。

これが、GPTが左から右にしかコンテンツを生成できない主な理由です（逆に行うことはできません）。この学習の種類は 言語モデル化 と呼ばれます。

それはそれほど簡単なことです。

次の単語が何であるかを予測することで、AIは文のコンテキスト内の他の単語をどのように利用するかを学ぶ必要があります。この 暗黙的に GPTが多くの重要な一般的知識を学ぶことを強制します。

私が作成できないものは、理解できません。

-- リチャード・ファインマン

次の単語を正しく予測するためには、基本的な英語の構文や文法に加えて、私たちの世界についての常識的理解が必要です。これが、単に記事予測を行うことで、GPTが驚くべき人間のような行動を学べる理由です。

言語生成システムは、機械学習の長い歴史があり、GPTはこの分野では新しい存在ではありません。実際、いくつかのAI研究者は、GPTを科学的に新しい達成というよりも、印象的なエンジニアリングの成果と見なしています。それは、 400万ドル以上のコンピューティングリソースと大量のデータが私たちにもたらすことができること、そしてできないことに関する重要な教訓を教えてくれます。

では、どんな結論が得られますか？

OpenAIは、AIソリューションをスケールすることでかなりの進展が得られることを示しました。GPTは、最大のサイズにスケールされたとき、人間がどのように書くかを観察するだけで多くの一般的な能力を抽出することができます。これが、このモデルからそのような印象的なパフォーマンスが見られる理由です。Googleは、最近GPTのバージョンを Switch Transformers と呼ばれるもので、GPT-3の10倍のサイズにスケールしました。

これは、多くのAI研究者が認識した辛い教訓です。計算と学習に導かれたソリューションは手動の人間の努力に勝ります。単純な生成フレームワークを拡張することで、私たちはほぼ人間のように書くGPT 3を得ることができます。

しかし、GPT 3にも限界が存在します。SEOやコンテンツマーケターとして、これらの限界を知っておくことが重要です。これは、この自然言語技術をどのように活用するかに影響します。

テキスト生成の限界

貧弱な世界モデルと事実の正確性

期待にもかかわらず、GPTは私たちの世界について良い理解を持っていません。この世界モデルの欠如を示す興味深い方法は、共通の物理学または現実の世界に関する何かをGPTにプロンプトすることです。 OpenAIの技術論文でも述べられているように、"もし冷蔵庫にチーズを入れたら、溶けるのか？"という質問に答えるのが困難です。また、他の人間の概念例えば言葉遊びを理解することも明らかにできません。

この現象の一因は、AIが 具体的な認知 ではなく、冷蔵庫を本当に見たり感じたりしたことがないためです。収集されたトレーニングデータを通して何度も読んだにもかかわらずです。もしAIを盲目的に使用してコンテンツマーケティングのニーズのためにテキストを生成すれば、いくつかの不一致や事実的に不正確な項目を得ることになります。

望まない偏見

GPTはウェブ上で訓練されており、したがってインターネットデータが提供するのと同じ偏見を持っています。したがって、GPTを直接使用すると、不適切または攻撃的なコンテンツが生成される可能性があります。これを軽減する方法の一つは、不適切なコンテンツを拒否する攻撃的フィルターを使用することです。機械学習における望まない偏見の削減は依然として活発な研究分野です。

ドメイン適応

GPTは言語の一般的な理解を学びましたが、それがあなたのドメインに適しているとは限りません。最近の研究では、GPTのようなモデルを調整することで、さらに良い結果を得られることが示されています。

GPTはほんの少しの例で機能しますが、より多くのデータを供給することでより良い結果が得られることは間違いありません。GPTの別の限界は、その最大生成長です。これにより、長文を入力として使用するには適さなくなる可能性があります。

実用的効率

今はまだ早すぎて判断が難しいですが、OpenAI 使用するための高額な料金を設定する予定のようです。このソリューションは一部の用途には高額になる可能性があり、提供されるサービスはSEOに特化していません。GPTを社内で使用または訓練することは、その膨大なパラメータサイズのため実用的な課題です。

この問題は、長期的にはそれほど懸念すべきことではありません。将来的には、より効率的にGPTを実行できるようにするいくつかの研究の方向性があります。これにより、長期的なコストが削減されるでしょう。

GPT-3のSEO機会

GPT-3は強力なテキスト生成システムです - しかし、これはコンテンツマーケティングに何を意味するのでしょうか？SEOのためのコンテンツマーケティングは多くのステップから成り立っています。それは、キーワード調査、競合分析、そして最終的にはコンテンツの作成まで広がっています。

私たちは主にGPTがコンテンツを作成するために使用されるのを見ますが、それは孤立して行うことはできません。この技術の限界があるため、アルゴリズムを自由に運営させても素晴らしい結果が得られないことは明らかです。必ず人間の介入が必要です。

作家がアーティストになる

GPTは、人間の作家が関与する道具として最も効果的に使用されるときに輝きます。なぜなら、人間の作家はAIが苦手なことに関して非常に優れているからです。例えば、人間の作家は、高レベルの思考や 何を書くべきか を見つけるのが得意です。AIは、ウェブサイト上のページのリストからカテゴリーを作成するような低レベルのタスクには優れています。

執筆における多くの努力は、文法の正確さ、トーン、流暢さなどの低レベルの問題に使われています。GPTを使用することで、人間の作家の役割はエディターに移行します。キャンバス上に広い筆致を描き、その後AIがその画像の詳細を埋め、それを人間が編集して完璧に仕上げるというイメージです。

ある意味、これは素晴らしいことです。作家はより興味深いことに集中できるからです - 質の高いコンテンツアイデアを構築し、より創造的な側面に焦点を合わせることができます。これは、カテゴリーのページを作成したり、どれだけのキーワードを記事に詰め込んで最適な量を達成できるかに集中することや、各文が流暢であることを確認することよりも良いです。

人間とAIの橋をかけるためのツール

上記の逆に、私たちは、GPTを活用する素晴らしいユーザー体験とツールが必要です。この技術が作家と連携してうまく機能するようにするためです。広義に言えば、GPTのような技術を有用なコンテンツ執筆ツールとして実現する方法は、いくつかあります。ここに、さまざまなツールとして具現化されたAI技術の例を示します:

可読性分析

良い可読性を持つことは、優れたコンテンツを発展させる重要な要素です。ユーザーがページに留まり、より長い時間を過ごすのに役立ちます。これはGoogleで高く評価される重要な要素です。しかし、読みやすい記事を書くのは言うは易し行うは難しです。

当社のJenniでは、あなたのためにその仕事を行うツールを開発しました。私たちはGPT 3に似た技術を使用しましたが、自動文再構成用に適応させたものです。これにより、より読みやすくなります。

スマートな言い換え

言い換えは、ソーステキストを直接引用することなく使用する技術です。他のソースから情報を取得するときは、常にその情報の出所を明記する必要があります。

上記の段落は、パデューの定義を引用しながら、私たちの自動言い換えAIを使用して言い換えられました。スマートな言い換えを行うAIは、ソースとは異なる方法で任意の文を再構成するか、異なる書き方のスタイルに言い換えることができます。

Jenniでは、私たちの作家に関する研究を行い、言い換えを自動化することで 少なくとも30％ 作家の時間を節約できることがわかりました。また、作家が文の代替の言い回しを試すことを可能にし、元の文よりも流れがよくなったり意図がより良く伝えられる場合があります。

トピック最適化

多くのSEO専門家は、トピック最適化を使用してコンテンツが検索エンジンで高く評価されるようにします。確かに、特定の検索クエリに関連するトピックセットを開発することは重要ですが、記事がすべてのトピック要件を満たしていることを確認することは挑戦です。

私たちの編集者は、かつて 1-4時間をかけて手動でトピックを最適化していました。AIシステムを使用して、記事のトピックの関連性を検出することで、執筆を正しい方向に維持でき、編集者が関連性のないコンテンツを書き直す必要がなくなります。

要約

前述のように、AIは低レベルのタスクに優れており、要約も例外ではありません。コンテンツライティングに関しては、作家が他のテキストを要約するのが一般的なタスクであることがわかりました。

要約は、AIシステムが生産および商業システムでうまく実行されることが証明されたタスクです。密なテキストの塊を読まずに、なぜAIに簡潔な箇条書きリストを提供させないのでしょうか？似たような気持ちで、 AIを使用してインデックスやカテゴリーのページを作成することができます。

生成されたコンテンツは評価されるか？

一部のSEO実務者は、自動コンテンツ生成を使用することで、Googleからペナルティを受けることを懸念しています。

Googleは、多くの検索エンジンと同様に、ユーザーに最も関連性のあるコンテンツを提供したいと考えています。したがって、生成されたコンテンツの主な問題は、生成されているという事実ではなく、通常、その意図がスパムを作成することにあるということです。Googleは主張しており、コンテンツがユーザーに実際の価値を追加し、システムを操作するために使用されない限り、生成されたコンテンツは問題ないとしています。

実際、フォーブスのような多くの大手新聞やメディアアウトレットは、すでにコンテンツ生成技術を使用して助けています。ここでの鍵は、最良の両面を融合させることです - 人間と人工知能 - 魅力的なコンテンツを生成することです。インターネットに価値ある知識を提供することで、生成されたコンテンツのいくつかがあってもトップ評価を獲得することができます。

AIとSEOの未来

科学とフィクションの境界は、GPTのような最先端のAIモデルのリリースによってますますあいまいになっています。わずか一年の間に、GPT 2とGPT 3の間の品質の大幅な改善は驚異的です。時間が経つにつれ、朝食前に読む新聞は、オムレツを食べたことがない誰か、あるいは何かによって書かれている可能性が高くなります。

だからこそ、単なる期待を超えたAI技術のより深い理解を把握することが重要だと私たちは信じています。SEOの分野にいない人々は、AIの進歩に感心するかもしれませんが、コンテンツを作成するSEOの分野にいる人々は、これらのツールに適応してトップを維持する必要があります。

Table of Contents