Veri, günümüzün gelişmiş yapay zeka sistemlerinin merkezinde yer alıyor, ancak giderek daha pahalıya mal oluyor ve en zengin teknoloji şirketleri dışında herkes için ulaşılamaz hale geliyor.
Geçtiğimiz yıl, OpenAI’da araştırmacı olan James Betker bir yazı kaleme aldı kişisel blogunda yayınladı üretken YZ modellerinin doğası ve eğitildikleri veri kümeleri hakkında. Betker, bir modelin tasarımı, mimarisi veya başka herhangi bir özelliğinin değil, eğitim verilerinin giderek daha sofistike, yetenekli yapay zeka sistemlerinin anahtarı olduğunu iddia etti.
Betker, “Aynı veri seti üzerinde yeterince uzun süre eğitildiğinde, hemen hemen her model aynı noktaya yakınsıyor,” diye yazdı.
Betker haklı mı? Eğitim verileri, ister bir soruyu yanıtlamak, ister insan eli çizmek ya da gerçekçi bir şehir manzarası oluşturmak olsun, bir modelin neler yapabileceğinin en büyük belirleyicisi midir?
Kesinlikle akla yatkın.
İstatistiksel makineler
Üretken YZ sistemleri temelde olasılıksal modellerdir – devasa bir istatistik yığını. Çok sayıda örneğe dayanarak hangi verinin nereye yerleştirilmesinin en “mantıklı” olduğunu tahmin ederler (örneğin, “Markete gidiyorum” cümlesinde “markete” kelimesinden önce gelen “gitmek” kelimesi). O halde, bir modelin üzerinde çalışabileceği ne kadar çok örnek varsa, bu örnekler üzerinde eğitilen modellerin performansının o kadar iyi olacağı sezgisel görünmektedir.
“Kar amacı gütmeyen bir yapay zeka araştırma kuruluşu olan Allen Institute for AI’da (AI2) kıdemli uygulamalı araştırma bilimcisi olan Kyle Lo, TechCrunch’a verdiği demeçte, “En azından istikrarlı bir eğitim kurulumunuz olduğunda, performans kazanımları verilerden geliyor gibi görünüyor” dedi.
Lo şu örneği verdi Meta’s Llama 3, metin üreten bir model mimari olarak çok benzer olmasına rağmen AI2’nin kendi OLMo modelinden daha iyi performans gösteren bu yılın başlarında piyasaya sürüldü. Llama 3 üzerinde eğitildi OLMo’dan önemli ölçüde daha fazla veriLo’ya göre bu, birçok popüler yapay zeka kıyaslamasındaki üstünlüğünü açıklıyor.
(Burada, bugün yapay zeka endüstrisinde yaygın olarak kullanılan kıyaslama ölçütlerine dikkat çekeceğim bir modelin performansının en iyi göstergesi olmayabilirama bunun dışında bizimki gibi niteliksel testlerElimizdeki birkaç önlemden biridir).
Bu, katlanarak daha büyük veri kümeleri üzerinde eğitim almanın katlanarak daha iyi modellere giden kesin bir yol olduğu anlamına gelmiyor. Lo, modellerin “çöp girsin, çöp çıksın” paradigmasıyla çalıştığını ve bu nedenle veri iyileştirme ve kalitesinin belki de salt miktardan çok daha önemli olduğunu belirtiyor.
“Dikkatle tasarlanmış verilere sahip küçük bir modelin büyük bir modelden daha iyi performans göstermesi mümkündür” diye ekledi. “Örneğin, büyük bir model olan Falcon 180B, LMSYS kıyaslamasında 63. sırada yer alırken, çok daha küçük bir model olan Llama 2 13B 56. sırada yer alıyor.”
OpenAI araştırmacısı Gabriel Goh, geçtiğimiz Ekim ayında TechCrunch’a verdiği bir röportajda, daha yüksek kaliteli ek açıklamaların, görüntü kalitesinin artırılmasına büyük katkı sağladığını söyledi. DALL-E 3OpenAI’nin metinden görüntüye modeli, selefine göre DALL-E 2. “İyileştirmelerin ana kaynağının bu olduğunu düşünüyorum” dedi. “Metin açıklamaları eskisinden çok daha iyi [with DALL-E 2] – karşılaştırılamaz bile.”
DALL-E 3 ve DALL-E 2 de dahil olmak üzere birçok yapay zeka modeli, modelin bu etiketleri verinin gözlemlenen diğer özellikleriyle ilişkilendirmeyi öğrenebilmesi için insan açıklamacıların verileri etiketlemesiyle eğitilir. Örneğin, her cins için ek açıklamalar içeren çok sayıda kedi resmi ile beslenen bir model, sonunda aşağıdaki gibi terimleri ilişkilendirmeyi “öğrenecektir” Bobtail ve shorthair ayırt edici görsel özellikleriyle.
Kötü davranış
Lo gibi uzmanlar, büyük ve yüksek kaliteli eğitim veri setlerine verilen önemin artmasının, yapay zeka gelişimini bu setleri elde edebilecek milyar dolarlık bütçelere sahip birkaç oyuncuda merkezileştireceğinden endişe ediyor. Büyük yenilikler senteti̇k veri̇ler veya temel mimari statükoyu bozabilir, ancak ikisi de yakın ufukta görünmüyor.
Lo, “Genel olarak, yapay zeka gelişimi için potansiyel olarak yararlı olan içeriği yöneten kuruluşlar, materyallerini kilitlemeye teşvik ediliyor” dedi. “Ve verilere erişim kapandıkça, temelde veri edinme konusunda erken hareket eden birkaç kişiyi kutsuyoruz ve merdiveni yukarı çekiyoruz, böylece başka kimse yetişmek için verilere erişemiyor.”
Gerçekten de, daha fazla eğitim verisi toplama yarışı, telif hakkıyla korunan içeriği gizlice toplamak gibi etik olmayan (ve hatta belki de yasadışı) davranışlara yol açmadıysa da, veri lisanslama için harcayacak derin cepleri olan teknoloji devlerini ödüllendirdi.
OpenAI’ınki gibi üretken yapay zeka modelleri çoğunlukla kamuya açık web sayfalarından (bazıları telif hakkıyla korunan) elde edilen görüntüler, metinler, sesler, videolar ve diğer veriler üzerinde eğitilir, problematik olarakyapay zeka tarafından üretilenler). Dünyanın OpenAI’ları adil kullanımın kendilerini yasal misillemeden koruduğunu iddia ediyor. Birçok hak sahibi buna katılmıyor – ancak en azından şimdilik bu uygulamayı engellemek için fazla bir şey yapamıyorlar.
Üretken yapay zeka sağlayıcılarının modellerini eğitmek için şüpheli yollarla devasa veri kümeleri elde ettiklerine dair pek çok örnek var. OpenAI bildirildiğine göre bir milyon saatten fazla YouTube videosunu YouTube’un izni olmadan – ya da içerik oluşturucuların izni olmadan – amiral gemisi modeline beslemek için kopyaladı GPT-4. Google kısa bir süre önce, halka açık Google Dokümanlarından, Google Haritalar’daki restoran incelemelerinden ve yapay zeka ürünleri için diğer çevrimiçi materyallerden yararlanabilmek için hizmet şartlarını kısmen genişletti. Meta’nın da bu konuda dava açma riskini göze aldığı söyleniyor. modellerini eğitmek IP korumalı içerik üzerinde.
Bu arada, büyük ve küçük ölçekli şirketler üçüncü dünya ülkelerindeki işçiler saat başına sadece birkaç dolar alıyor eğitim setleri için ek açıklamalar oluşturmak. Bu açıklamacılardan bazıları – tarafından istihdam mamut girişimleri Scale AI gibi – herhangi bir fayda veya gelecekteki işlerin garantisi olmaksızın kendilerini şiddet ve kan dökülmesinin grafik tasvirlerine maruz bırakan görevleri tamamlamak için tam anlamıyla günlerce çalışıyorlar.
Artan maliyet
Başka bir deyişle, daha dürüst veri anlaşmaları bile tam olarak açık ve eşitlikçi bir üretken yapay zeka ekosistemini teşvik etmiyor.
OpenAI, yapay zeka modellerini eğitmek için haber yayıncılarından, stok medya kütüphanelerinden ve daha fazlasından içerik lisanslamak için yüz milyonlarca dolar harcadı – çoğu akademik araştırma grubunun, kar amacı gütmeyen kuruluşların ve yeni kurulan şirketlerin çok ötesinde bir bütçe. Meta, e-kitap alıntılarının hakları için yayıncı Simon & Schuster’ı satın almayı düşünecek kadar ileri gitti (nihayetinde Simon & Schuster, 2023 yılında özel sermaye şirketi KKR’ye 1,62 milyar dolara satıldı).
Yapay zeka eğitim verilerine yönelik pazarın büyümek Şu anda yaklaşık 2,5 milyar dolar olan veri komisyoncuları ve platformlar, on yıl içinde 30 milyar dolara yakın bir rakama ulaşacak ve bazı durumlarda kullanıcı tabanlarının itirazlarına rağmen yüksek ücretler talep edecekler.
Stok medya kütüphanesi Shutterstock’ta mürekkepli yapay zeka tedarikçileriyle 25 milyon ila 50 milyon dolar arasında değişen anlaşmalar yaparken, Reddit iddialar Google ve OpenAI gibi kuruluşlara veri lisanslayarak yüz milyonlarca dolar kazanmışlardır. Yıllar boyunca organik olarak biriken bol miktarda veriye sahip az sayıda platform yapmadım Photobucket’ten Tumblr’a ve daha pek çok şirket üretken yapay zeka geliştiricileriyle anlaşmalar imzalamış görünüyor. S&A sitesi Stack Overflow.
En azından hangi yasal argümanlara inandığınıza bağlı olarak, satılacak veriler platformlara ait. Ancak çoğu durumda, kullanıcılar kârın bir kuruşunu bile görmüyor. Ve bu durum daha geniş yapay zeka araştırma topluluğuna zarar veriyor.
Lo, “Daha küçük oyuncular bu veri lisanslarını karşılayamayacak ve bu nedenle YZ modelleri geliştiremeyecek veya inceleyemeyecek,” dedi. “Bunun, YZ geliştirme uygulamalarının bağımsız bir şekilde incelenmemesine yol açabileceğinden endişe ediyorum.”
Bağımsız çabalar
Bu kasvet içinde bir güneş ışığı varsa, o da herkesin üretken bir yapay zeka modelini eğitmek için kullanabileceği devasa veri kümeleri oluşturmaya yönelik birkaç bağımsız, kar amacı gütmeyen çabadır.
2020’de gevşek örgülü bir Discord kolektifi olarak başlayan ve kâr amacı gütmeyen bir araştırma grubu olan EleutherAI, Toronto Üniversitesi, AI2 ve bağımsız araştırmacılarla birlikte çalışarak öncelikle kamu malı olan milyarlarca metin pasajından oluşan The Pile v2’yi oluşturuyor.
Nisan ayında yapay zeka girişimi Hugging Face, kar amacı gütmeyen Common Crawl tarafından tutulan ve milyarlarca web sayfasından oluşan Common Crawl’ın filtrelenmiş bir versiyonu olan FineWeb’i piyasaya sürdü ve Hugging Face’in birçok kıyaslamada model performansını artırdığını iddia etti.
LAION grubunun görüntü setleri gibi açık eğitim veri setlerini yayınlamaya yönelik birkaç çaba, telif hakkı, veri gizliliği ve diğer sorunlarla karşılaştı, eşit derecede ciddi etik ve yasal zorluklar. Ancak kendini bu işe adamış bazı veri küratörleri daha iyisini yapmaya söz verdi. Örneğin The Pile v2, öncülü olan The Pile veri setinde bulunan sorunlu telifli materyalleri kaldırıyor.
Asıl soru, bu açık çabalardan herhangi birinin Büyük Teknoloji’ye ayak uydurmayı umup umamayacağıdır. Veri toplama ve iyileştirme bir kaynak meselesi olarak kaldığı sürece, cevap muhtemelen hayırdır – en azından bir araştırma atılımı oyun alanını düzleştirene kadar.