Haberler

Naver, 'GPT-3 benzeri' bir Kore dili modeli eğitti

Seongnam, Güney Kore merkezli Naver adlı arama motorunu işleten Naver, bu hafta en büyük yapay zekadan birini eğittiğini duyurdu. HyperCLOVA olarak adlandırılan kendi türünde dil modelleri. Naver, sistemin OpenAI’nin

GPT-3’den 6.500 kat daha fazla Kore verisi öğrendiğini ve 204 milyar veri içerdiğini iddia ediyor. parametreler, geçmiş eğitim verilerinden öğrenilen makine öğrenimi modelinin parçaları. (GPT-3 175 milyar parametreye sahiptir.) Bir yılın daha iyi bir bölümünde, OpenAI’nin GPT-3’ü en büyükler arasında kaldı. Şimdiye kadar oluşturulmuş AI dil modelleri. Bir API aracılığıyla, insanlar bunu otomatik olarak e-posta ve makaleler yazmak , metni özetlemek, oluşturmak için kullandılar. Python’da şiir ve yemek tarifleri, web sitesi düzenleri oluşturun ve derin öğrenme için kod oluşturun. Ancak GPT-3’ün temel sınırlamaları vardır, bunların başında yalnızca İngilizce olarak mevcut olmasıdır.


Naver’e göre, HyperCLOVA 560 üzerinde eğitilmiştir. GPT-3’ün eğitildiği 499 milyar token ile karşılaştırıldığında, Kore dilinin %97’si olan milyar token Kore verisi. Doğal dilde metin parçalarını daha küçük birimlere ayırmanın bir yolu olan belirteçler, kelimeler, karakterler veya kelimelerin parçaları olabilir.

Çevrilmiş bir basın bülteninde, Naver HyperCLOVA kullanacağını söyledi “ Naver arama motorunun otomatik düzeltme özelliği de dahil olmak üzere hizmetlerinde farklılaştırılmış” deneyimler. “Naver, HyperCLOVA’yı desteklemeyi planlıyor küçük ve orta ölçekli işletmeler, yaratıcılar ve yeni başlayanlar” dedi. “AI, basit açıklamalar ve örnekler sunan birkaç adımlı öğrenme yöntemiyle çalıştırılabildiğinden, AI uzmanı olmayan herkes kolayca AI hizmetleri oluşturabilir.”


OpenAI’nin politika direktörü Jack Clark, HyperCLOVA’yı hem modelin ölçeği nedeniyle hem de üretici model yayılımı eğilimine uyması veya birden fazla aktörün “GPT” geliştirmesi nedeniyle “kayda değer” bir başarı olarak nitelendirdi. -3 tarzı” modeller. Nisan ayında, Çinli Huawei şirketindeki bir araştırma ekibi, PanGu-Alpha’yı (stilize edilmiş PanGu-α) sessizce detaylandırdı. , 1,1 terabaytlık Çince e-kitaplar, ansiklopediler, haberler, sosyal medya ve web sayfalarında eğitilmiş, 200 milyara kadar parametreye sahip 750 gigabaytlık bir model.

“Üretici modeller, üzerinde eğitildikleri verileri eninde sonunda yansıtır ve büyütürler – bu nedenle farklı uluslar, bu modellerde kendi kültürlerinin nasıl temsil edildiğine çok önem verirler. Bu nedenle, Naver duyurusu, GPT-3 gibi sınır modellerini eğiterek kendi AI kapasitelerini [and] ortaya koyan farklı ulusların genel eğiliminin bir parçasıdır,” diye haftalık Import AI bülteninde yazdı. “[We’ll] [We’ll] GPT-3 ile gerçekten karşılaştırılabilir olup olmadığını görmek için daha fazla teknik ayrıntı bekliyor.”


Şüphecilik Bazı uzmanlar buna inanıyor HyperCLOVA, GPT-3 ve PanGu-α ve benzer şekilde büyük modeller performansları açısından etkileyiciyken, denklemin araştırma tarafında topu ileriye taşımazlar. Daha doğrusu mevcut tekniklerin ölçeklenebilirliğini gösteren veya bir şirketin ürünleri için vitrin görevi gören prestij projeleridir.

Naver HyperCLOVA’nın matematik problemlerini doğru yanıtlama gibi doğal dildeki diğer engelleyicilerin üstesinden geldiğini iddia etmez. veya sorulara eğitim verilerini başka sözcüklerle ifade etmeden yanıt vermek. Daha da sorunlu olan, HyperCLOVA’nın GPT-3 gibi modellerde bulunan yanlılık ve toksisite türlerini içerme olasılığı da vardır. Diğerlerinin yanı sıra, önde gelen AI araştırmacısı Timnit Gebru bilgeliği sorguladı büyük dil modelleri oluşturmak, bunlardan kimin yararlandığını ve kimin dezavantajlı olduğunu incelemek. Özellikle yapay zeka ve makine öğrenimi modeli eğitiminin çevre üzerindeki etkileri rahatlama sağlandı.

OpenAI ve Stanford makalesinin ortak yazarları, büyük ölçekli çalışmaların olumsuz sonuçlarını ele almanın yollarını önermektedir. şirketlerin yapay zeka tarafından metin oluşturulduğunda kabul etmelerini gerektiren yasaları yürürlüğe koymak gibi dil modelleri – belki de Kaliforniya’nın bot yasası. Diğer öneriler şunlardır:

  • Bir dil modeli tarafından oluşturulan içerik için filtre görevi gören ayrı bir modelin eğitimi

  • İnsanların modeli kullanmasına izin vermeden önce modelleri çalıştırmak için bir dizi önyargı testi dağıtma
  • Bazı özel kullanım durumlarından kaçınmak

    Bu adımlardan herhangi birinin atılmamasının sonuçları uzun vadede felaket olabilir. son araştırmalarda, Middlebury Uluslararası Araştırmalar Enstitüsü Terörizm, Aşırıcılık ve Terörle Mücadele Merkezi, GPT-3’ün insanları aşırı sağcı aşırılıkçı ideolojilere ve davranışlara radikalleştirebilecek güvenilir bir şekilde “bilgilendirici” ve “etkili” metinler üretebileceğini iddia ediyor. Ve üretime yerleştirilen zehirli dil modelleri, azınlık dillerinin ve lehçelerinin özelliklerini anlamakta zorluk çekebilir. Bu, modelleri kullanan insanları örneğin modellerin kendileri için daha iyi çalışmasını sağlamak için “beyaz hizalı İngilizce”ye geçmeye zorlayabilir ve bu da azınlık konuşmacılarını başlangıçta modellerle ilgilenmekten caydırabilir.


    VentureBeat

  • VentureBeat’in misyonu, teknik karar vericilerin dönüştürücü teknoloji ve işlemler hakkında bilgi edinmeleri için dijital bir şehir meydanı olmaktır. Sitemiz, kuruluşlarınızı yönetirken size rehberlik edecek veri teknolojileri ve stratejiler hakkında temel bilgiler sağlar. Sizi topluluğumuzun bir üyesi olmaya davet ediyoruz:

  • ilginizi çeken konularda güncel bilgiler

  • haber bültenlerimiz kapılı düşünce lideri içeriği ve gibi ödüllü etkinliklerimize indirimli erişim 2021 Dönüşümü: Öğrenin Daha

    ağ iletişimi özellikler ve daha fazlası

  • Related Articles

    Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button