Tarafından

Henry Mao

—

21 Şub 2019

GPT 3 ve SEO: Neden Yapay Zeka İçeriğinizi Sonsuza Kadar Dönüştürecek

Henry Mao

Kurucu Ortak/CTO

Bilgisayar Bilimleri alanında Lisans ve Fen Bilimleri alanında Yüksek Lisans derecesi ile mezun oldum.

Artık hepimiz bu heyecanı duyduk.

OpenAI, Generative Pre-trained Transformer 3'ün yeni bir sürümünü (kısaca GPT-3 veya GPT 3) beta API erişimi ile yayınladı. GPT 3, selefi GPT 2 gibi, ortalama bir insanı bile kandırabilecek kadar gerçekçi metinleri otomatik olarak üretebilen büyük bir derin sinir ağıdır. Web’den insan yazımını taklit etmeyi öğrenen gelişmiş bir yapay zekâdır.

İşte GPT 3 tarafından oluşturulan bir makaleden bir alıntı:

II. Dünya Savaşı'ndan sonraki yıllarda Batı dünyasının ekonomisi, özellikle de Avrupa ekonomileri, toparlanmaya ve büyüme göstermeye başladı. Fabrikaların, yolların ve köprülerin, şehirlerin ve evlerin, limanların ve havaalanlarının yeniden inşası başlamıştı. Avrupa ekonomisi, tüm Batı dünyası için bir büyüme motoruna dönüşmüştü. Ülkeler, şirketler ve insanlar refaha kavuştu; Avrupa'da ekonomik büyümenin, yükselen ücretlerin ve iyileşen yaşam standartlarının yaşandığı büyük bir dönem başladı. Yeniden inşa ile yeni yatırımların birleşimi, Avrupa'yı iş yapmak için harika bir yer haline getirdi. Şirketler için Avrupa, pazar düzenlemeleri, altyapı, yatırım politikası ve kültür açısından üyeleri az çok birleşmiş devasa bir pazardı. Şirketler fabrikalar kurdu, yatırım yaptı ve yeni pazarlar buldu; bu yatırımların büyük bölümü de borçla finanse edildi.

Bu sonuçlar kuşkusuz kamuoyunu şaşırttı ve büyük bir beklenti yarattı. Üretilen metin akıcı ve dil bilgisi açısından doğru olsa da GPT 3 yalnızca güçlü bir metin üreticisi değildir. Bu teknoloji, içerik oluşturma, pazarlama ve SEO (Arama Motoru Optimizasyonu) konularında nasıl düşünmemiz gerektiğine dair temel bir dönüşümü işaret ediyor. Yukarıda gösterilen gibi kısa içerik parçaları düşük maliyetle kolayca oluşturulabilir.

SEO uzmanları ve içerik üreticileri olarak GPT 3'ü anlamak çok önemlidir. Bu, insan yazımının artık gereksiz olduğu anlamına mı gelir? Yüksek kaliteli metin üretebilir mi? Bu, SEO spam botlarının sınırsız çöp içerik ürettiği bir kıyamet senaryosunun habercisi mi?

Bu duygularda bir miktar doğruluk payı olsa da GPT 3 etrafındaki aşırı heyecanın daha net anlaşılması gerektiğini düşünüyoruz. Metin üretim teknolojilerinin SEO ve içerik yazımı üzerindeki etkisini anlamak için önce GPT 3'ün ne yaptığını, neden önemli olduğunu ve nasıl çalıştığını parçalarına ayırmamız gerekiyor.

GPT-3'ün Genel Yapısı

GPT-3 ve onun öncül teknolojileri (GPT ve GPT 2), OpenAI tarafından geliştirilen genel amaçlı NLP (Doğal Dil İşleme) modelleri üzerine bir araştırma hattıdır. Peki genel olmak ne anlama gelir?

Makine öğrenimi, yalnızca tek bir işte iyi olan sistemler geliştirme konusunda uzun bir geçmişe sahiptir. Bu sistemlere dar yapay zekâ denir. Bir Amazon yorumunun puanını tahmin eden bir YZ istiyorsanız, yeterli eğitim veriniz varsa bunu kolayca eğitebilirsiniz. Sosyal medyadaki profil fotoğrafına bakıp kişinin kim olduğunu söyleyen bir model geliştirmek istiyorsanız, bu işi yapacak başka bir model eğitebilirsiniz.

Sorun şu ki, bu görevlerden biri için eğitilen YZ sistemleri başka hiçbir şey üzerinde çalışamaz; bu yüzden dar denir. Eğitildiği kapsamla sınırlıdır. Bugünkü YZ araştırmalarının kutsal kasesi, daha genel teknolojiler - yani birçok işi yapabilen yapay zekâlar - geliştirmektir. İşte genel teknolojilerin neden oyunun kurallarını değiştirdiği.

Neden genel amaçlı YZ'ler geliştirelim?

Yaygın bir görüş şöyle der - uzmanlaşmış profesyoneller tercih edilmemeli mi?

Bilgisayarların ilk dönemlerinde insanlar yalnızca hesaplama yapabilen ve tek tür problemi çözen özel bilgisayarlar üretiyordu. Sadece toplama yapabilen, başka hiçbir şey yapamayan özel bir hesap makineniz olduğunu düşünün. Elbette toplamada çok iyidir ve bunu çok hızlı yapabilir, ama pek faydalı olmazdı.

Bunun yerine toplama, çıkarma yapabilen, internete bağlanabilen, video oyunları oynayabilen vb. bir bilgisayar çok daha kullanışlıdır. von Neumann mimarisine dayalı modern bilgisayarlar bu genel yeteneklere sahiptir. Geriye dönüp bakınca, genel amaçlı bilgi işlemin insanlığın en etkili icatlarından biri olduğunu söylemek kolaydır.

Aynı ilke GPT 3 gibi YZ teknolojileri için de geçerlidir. Sistemlerimizde genelliği isteriz çünkü bu, çeşitli görevleri tek tek elle mühendislik yapmak zorunda kalmadan çok daha fazla problemi çözmemizi sağlar. Üstelik genel öğrenme yaklaşımlarının YZ doğruluğunu NLP görevlerinde en az %60 artırdığı gösterildi.

Sonuçta insan, bir genel zekâ biçimidir. Genel zekâ, önceden yararlı olduğunu bile bilmediğimiz becerileri edinmemizi sağlar. Genel zekânın ne anlama geldiğini merak edenler için Chollet'in On the Measure of Intelligence adlı makalesini öneriyoruz.

SEO pazarlaması açısından bu, ne tür içerik üretmek istediğimizi önceden bilmemiz gerekmediği anlamına gelir. Hafifçe farklı bir amaç için bile ayrı bir YZ oluşturmamız gerekmez.

GPT-3, genel zekânın bazı özelliklerini sergileyen bir YZ sistemidir (bazen Proto-AGI olarak da adlandırılır). Örneğin, YZ'ye karakter diyaloglarından örnekler verip devamını tamamlamasını isteyebiliriz:

Rex gelecekten gelen bir zaman yolcusudur. Ada on dokuzuncu yüzyıldan bir soylu kadındır. Rex: Sanırım zaman makinemi bahçenize çarptım. Ada: Affedersiniz? Genç adam, ne dediniz?

Ayrıca çeşitli başka görevleri de yapabilir, hatta HTML kodu üretebilir. Bu büyük bir olaydır çünkü GPT ile içerikle ilgili birçok görevi çözebileceğimiz anlamına gelir.

Peki bu, GPT 3'ün SEO ile ilgili tüm önemli görevleri çözebileceği anlamına mı geliyor? Herhangi bir konu için blog yazıları ya da istediğimiz herhangi bir kategori için içerik oluşturabilir mi? Pek sayılmaz. Bu soruyu yanıtlamak için GPT 3'ün nasıl çalıştığını parçalamamız gerekiyor.

GPT 3 Nasıl Öğrenir

Büyük Veriden Yararlanmak

Makine öğrenimi modelleri (özellikle derin sinir ağları) veri açtır ve yalnızca onlara çok fazla veri verdiğinizde iyi çalışır. Sonuçta, veri yeni petroldür.

Ancak veri elde etmek zor ve maliyetlidir. Çoğu faydalı makine öğrenimi sistemi, insanların her bir veri noktasını tek tek ve zahmetli bir şekilde etiketlemesini gerektirir. Etiketli veri çoğu uygulamada genellikle birincil darboğazdır çünkü toplaması pahalıdır - bir sürü Amazon Turk çalışanı işe almanın maliyetini düşünün!

GPT 3 bu sorunu, web’de doğal olarak oluşan metinleri modelleyerek kendi eğitim sinyalini üreterek aşar. Denetimsiz (ya da öz-denetimli) öğrenme adı verilen bir makine öğrenimi paradigmasını benimser. Bu, insan tarafından etiketlenmiş veriye ihtiyaç duymadan öğrenmeyi mümkün kılar. Denetimsiz öğrenmenin teknik ayrıntılarına inmek isteyenler için CTO'muz burada ayrıntılı bir analiz yazdı.

Ama etiketler olmasa bile yine de çok veriye ihtiyacımız yok mu?

Meğer veri tam da burnumuzun dibinde. İnternette birçok farklı konuda yüksek kaliteli, iyi yazılmış tonla makale var - ve bunların hepsine kolayca erişilebiliyor. GPT'nin eğitim tekniğinin güzelliği, iyi performans göstermek için yalnızca bu insan yazımı makalelerin nasıl tahmin edileceğini öğrenmesi gerektiğidir.

Ama durun - web’de çok fazla çöp içerik yok mu? GPT 3 onlardan da öğrenmez mi?

Bu doğru. GPT'nin yaratıcıları, verilerini kürate etmek için kitle kaynak kullanımından yararlanarak bu sorunların bir kısmını azalttı. Bunu yapmanın bir yolu, insanların Reddit'te paylaştığı URL'lere bakmak ve yalnızca Reddit'te çok sayıda upvote alan web sitelerinden içerik ve gönderileri taramaktır.

Dil Üretimiyle Öğrenme

Veriye sahip olduğunuzda artık GPT'yi eğitebilirsiniz. Peki istediğimiz tüm bu genel yetenekleri elde etmek için GPT'yi nasıl eğitebiliriz? Bir fikir, basitçe metin üretimidir. GPT, bir makaledeki bir sonraki kelimeyi önceki kelimelere bakarak tahmin etmeyi öğrenerek doğal dili üretir.

GPT'nin içeriği yalnızca soldan sağa üretmesinin ana nedeni budur (geriye doğru yapamaz). Bu öğrenme türüne dil modelleme denir.

Bu kadar basit.

Bir cümlede sıradaki kelimeyi tahmin ederek YZ, bağlamındaki diğer kelimeleri nasıl kullanacağını öğrenmek zorunda kalır. Bu, GPT'yi dolaylı olarak birçok başka önemli genel bilgiyi öğrenmeye zorlar.

Yaratamadığımı anlayamam.

-- Richard Feynman

Bir sonraki kelimeyi doğru tahmin etmek için, İngilizce sözdizimi ve dil bilgisi gibi temel şeylerin yanı sıra dünyaya dair sağduyulu bir anlayışa da sahip olmanız gerekir. Makale tahmini yapmak gibi basit bir yöntem, GPT'nin şaşırtıcı derecede insan benzeri davranışlar öğrenmesini böyle sağlar.

Dil üretim sistemlerinin makine öğreniminde uzun bir geçmişi vardır ve GPT bu alanda yeni değildir. Hatta bazı YZ araştırmacıları GPT'yi bilimsel açıdan yenilikçi bir başarıdan çok etkileyici bir mühendislik başarısı olarak görür. Bu bize, hesaplama kaynaklarına harcanan $4+ milyon ABD doları ile büyük miktarda verinin bize ne sağlayıp ne sağlayamayacağı konusunda önemli bir ders verir.

Peki sonuç ne?

OpenAI, YZ çözümlerini ölçeklendirmenin bizi oldukça ileri taşıyabileceğini gösterdi. GPT, en büyük boyutuna ölçeklendiğinde, insanların nasıl yazdığını gözlemleyerek birçok genel yetenek çıkarabiliyor. Modelden gördüğünüz etkileyici performansın nedeni budur. Google, GPT'nin Switch Transformers adlı bir sürümünü yakın zamanda GPT-3'ün boyutunun 10 katına ölçeklendirdi.

Birçok YZ araştırmacısının fark ettiği acı ders şudur: hesaplama ve öğrenmenin yön verdiği çözümler, el emeğiyle yapılan insan çabasını geride bırakır. Basit bir üretim çerçevesini ölçeklendirerek, neredeyse insan gibi yazan GPT 3'ü elde ediyoruz.

Ancak GPT 3 de sınırlamalarından muaf değildir. SEO ve içerik pazarlamacıları olarak bu sınırlamaları bilmek son derece önemlidir ve doğal dil teknolojisini nasıl kullanacağımızı doğrudan etkiler.

Metin Üretiminin Sınırlamaları

Zayıf Dünya Modeli ve Gerçek Doğruluk

Hype'a rağmen GPT, dünyamızı iyi anlamaz. Bu dünya modelinin eksikliğini görmenin ilginç bir yolu, GPT'ye sağduyu fiziği ya da gerçek dünyayla ilgili herhangi bir şey sormaktır. OpenAI'nin teknik makalesinde belirtildiği gibi, "Peynir koyarsam buzdolabında erir mi?" gibi soruları yanıtlamakta zorlanır. Ayrıca kelime oyunları gibi diğer insan kavramlarını da açıkça anlayamaz.

Bu olgunun olası nedenlerinden biri, YZ'nin bedenselleşmiş bilişe sahip olmamasıdır - eğitim verilerinde defalarca hakkında okumuş olsa da bir buzdolabını aslında hiç görmemiş ya da hissetmemiştir. İçerik pazarlama ihtiyaçlarınız için YZ'yi körü körüne metin üretmekte kullanırsanız, bazı tutarsızlıklar ve gerçeğe aykırı ifadeler elde edersiniz.

İstenmeyen Önyargı

GPT internetteki verilerle eğitildiği için web verilerinin sunduğu aynı önyargılardan muzdariptir. Bu nedenle GPT'yi doğrudan kullanmak, uygunsuz veya saldırgan içerik üretilmesine yol açabilir. Bunu azaltmanın yollarından biri, uygunsuz içeriği reddeden saldırganlık filtreleri kullanmaktır. Makine öğreniminde istenmeyen önyargıyı azaltmak hâlâ aktif bir araştırma alanıdır.

Alan Uyarlaması

GPT dilin genel bir anlayışını öğrenmiş olsa da, alanınız için uygun olmayabilir. Yakın tarihli araştırmalar, GPT benzeri modelleri ayarlamanın ve ince ince optimize etmenin daha da iyi sonuçlar verebileceğini gösterdi.

GPT birkaç örnekle çalışabilir, ancak ona daha büyük miktarda veri vermek kesinlikle daha iyi sonuçlar verir. GPT'nin bir başka sınırlaması da maksimum üretim uzunluğudur; bu da onu uzun belgeleri girdi olarak kullanmak için uygun olmayabilir.

Pratik Verimlilik

Henüz kesin konuşmak için erken olsa da, OpenAI'nin GPT'yi kullanmak için premium bir fiyat talep etmeyi planladığı görünüyor. Bu çözüm bazı kullanım senaryoları için pahalı olabilir ve sunulan hizmet SEO'ya özel olarak tasarlanmamıştır. GPT'yi kurum içinde kullanmak veya eğitmek, devasa parametre boyutu nedeniyle pratikte zorlu bir iştir.

Uzun vadede bu sorun daha az önemli hale gelir. GPT'yi daha verimli çalıştırmayı sağlayacak ve uzun vadeli maliyeti düşürecek bazı araştırma yönleri vardır.

GPT-3'ün SEO Fırsatı

Öyleyse GPT-3 güçlü bir metin üretim sistemidir - peki tüm bunlar içerik pazarlaması için ne anlama geliyor? SEO için içerik pazarlaması birçok adımdan oluşur. Anahtar kelime araştırmasından rakip analizine ve son olarak içeriğin oluşturulmasına kadar uzanır.

GPT'nin çoğunlukla içerik oluşturmak için kullanıldığını görüyoruz, ancak bunu tek başına yapamaz. Teknolojinin sınırlamaları nedeniyle algoritmayı serbest bırakmanın iyi sonuçlar vermeyeceği açıktır. Sürece bir insan dahil olmalıdır.

Yazarların Sanatçıya Dönüşmesi

GPT, insan yazarların sürece dahil olduğu bir araç olarak en iyi kullanıldığında parlıyor — yazarların kendi seslerini kaybetmeden YZ araçlarını nasıl kullandıkları, SEO ekipleri için temel bir beceri haline geliyor. Bunun nedeni, insan yazarların YZ'nin güçlü olmadığı birkaç konuda çok iyi olmasıdır. Örneğin insan yazarlar üst düzey düşünme ve ne yazılacağını bulma konusunda daha iyidir. YZ ise bir sitedeki web sayfaları listesinden kategori sayfaları oluşturmak gibi düşük seviyeli görevlerde harikadır.

Yazı işinin büyük bir kısmı dil bilgisi doğruluğu, ton ve akıcılık gibi düşük seviye sorunlara harcanır. GPT ile insan yazarın rolü bir editöre dönüşür. Bir tuval üzerine geniş fırça darbeleri attığınızı, YZ'nin görüntünün ayrıntılarını doldurduğunu ve ardından insanın bu ayrıntıları mükemmel olana kadar düzenlediğini düşünün.

Bir bakıma bu harika bir şeydir; çünkü yazarlar daha ilginç şeylere odaklanabilir - kaliteli içerik fikirleri geliştirmeye ve yazının daha yaratıcı tarafına yoğunlaşmaya. Bu, kategori sayfaları oluşturmak, bir makaleyi ideal anahtar kelime yoğunluğuna ulaştırmak için kaç kelime gerektiğine odaklanmak ve/veya her cümlenin akıcı olduğundan emin olmaya çalışmaktan çok daha iyidir.

İnsan ve YZ Arasındaki Köprüyü Kuracak Araçlar

Bunun doğal sonucu, GPT'den yararlanan ve yazarlarla birlikte iyi çalışmasını sağlayan harika bir kullanıcı deneyimi ve araçlara ihtiyaç duymamızdır. Geniş anlamda, GPT benzeri teknolojileri faydalı içerik yazma araçları olarak hayata geçirmenin birkaç yolu vardır. İşte YZ teknolojilerinin farklı araçlar olarak somutlaştığı bazı örnekler:

Okunabilirlik Analizi

İyi okunabilirlik, harika içerik geliştirmenin önemli bir parçasıdır. Kullanıcılarınızın ilgisini canlı tutar ve sayfanızda daha uzun kalmalarını sağlar; bu da Google'da üst sıralarda yer almak için önemli bir faktördür. Ancak okunması kolay makaleler yazmak söylemesi yapmasından kolay değildir.

Jenni'de bu işi sizin için yapacak bir araç geliştirdik. GPT 3'e benzer bir teknoloji kullandık, ancak daha okunabilir olması için otomatik cümle yeniden yazımına uyarladık.

Akıllı Yeniden İfade

Parafraz, bir kaynak metni doğrudan alıntılamadan kullanma sanatıdır. Kendi kaynağınız olmayan bir kaynaktan bilgi aldığınız her durumda, bu bilgiyi nereden aldığınızı belirtmeniz gerekir. Bu soru YZ söz konusu olduğunda da sık sık ortaya çıkar; YZ yazımı, intihal ve özgünlük üzerine incelememiz dikkat etmeniz gerekenleri açıklar.

Yukarıdaki paragraf, otomatik yeniden ifade eden YZ'miz kullanılarak Purdue'nün tanımından yeniden yazılmıştır. Akıllı yeniden ifade yapan bir YZ, herhangi bir cümleyi kaynaktan farklı bir biçimde yeniden yazabilir veya onu istenen farklı yazım stillerine uyarlayabilir.

Jenni'de yazarlarımız üzerinde yaptığımız çalışmalarda, yeniden ifade işlemini otomatikleştirmenin bir yazarın zamanının en az %30'unu tasarruf ettirebildiğini gördük. Ayrıca yazarların cümleler için alternatif ifade biçimlerini denemesine olanak tanır; bunların bir kısmı özgün metinden daha akıcı olabilir veya niyeti daha iyi aktarabilir.

Konu Optimizasyonu

Birçok SEO uzmanı, içeriklerinin arama motorlarında üst sıralarda yer almasını sağlamak için konu optimizasyonuna güvenir. Gerçekten de, belirli arama sorgularıyla ilgili olabilmek için bir dizi konuyu geliştirmek önemlidir; ancak bir makalenin tüm konu gereksinimlerini karşıladığından emin olmak zordur.

Editörlerimiz eskiden konuları manuel olarak optimize etmek için 1-4 saat harcardı. Makalenizdeki konu alaka düzeyini tespit etmek için YZ sistemleri kullanmak, yazınızı doğru çizgide tutmanıza yardımcı olur; böylece editörlerin alakasız içerikleri yeniden yazması gerekmez.

Özetleme

Daha önce de konuştuğumuz gibi, YZ düşük seviyeli görevlerde mükemmeldir ve özetleme de bunun istisnası değildir. İçerik yazımı söz konusu olduğunda, yazarların sık yaptığı görevlerden birinin başka metinleri özetlemek olduğunu gördük.

Özetleme, YZ sistemlerinin üretim ve ticari sistemlerde iyi performans gösterdiği bir görevdir. Yoğun bir metin bloğunu baştan sona okumak yerine, neden bir YZ'nin size kısa ve öz bir madde listesi sunmasına izin vermeyesiniz? Benzer şekilde, web sitenizi zaten oluşturduysanız, YZ'yi dizinler veya kategori sayfaları oluşturmak için kullanabilirsiniz.

Üretilen İçerik Sıralama Alabilir mi?

Bazı SEO uzmanları, otomatik içerik üretimi kullanmanın ve Google'dan ceza almanın endişesini yaşamaya başladı.

Google, birçok arama motoru gibi, kullanıcılarına en alakalı içeriği sunmak ister. Dolayısıyla üretilen içerikle ilgili asıl sorun, üretilmiş olması değil; genellikle amacın spam üretmek olmasıdır. Google, içeriğin kullanıcıya gerçek değer kattığı ve sistemi kandırmak için kullanılmadığı sürece üretilen içeriğin sorun olmadığını iddia etmiştir.

Hatta Forbes gibi birçok büyük haber ve medya kuruluşu, kendilerine yardımcı olması için halihazırda içerik üretim teknolojileri kullanıyor. Buradaki kilit nokta, insan ve yapay zekânın en iyi yönlerini birleştirerek etkileyici içerik oluşturmaktır. İnternete değerli bilgi katkısı sağlamak, içeriğinizin bir kısmı üretilmiş olsa bile üst sıralarda yer almanızı sağlar.

YZ ve SEO'nun Geleceği

GPT gibi son teknoloji YZ modellerinin piyasaya sürülmesiyle bilim ile kurgu arasındaki çizgi giderek bulanıklaşıyor. GPT 2 ile GPT 3 arasındaki kalite farkının yalnızca bir yıl içinde bu kadar büyük olması şaşırtıcı. Zaman geçtikçe, kahvaltıdan önce okuduğunuz gazetenin, hayatında hiç omlet yememiş bir kişi ya da bir şey tarafından yazılmış olma ihtimali daha yüksek olacak.

İşte bu yüzden, yalnızca etrafındaki heyecanın ötesine geçip YZ teknolojisini daha derinlemesine anlamanın önemli olduğuna inanıyoruz. SEO alanında olmayanlar YZ'nin ilerlemesinden sadece etkilenebilir. SEO alanında olup içerik üretenlerin ise zirvede kalmak için bu araçlara uyum sağlaması gerekecek.

İçindekiler