Haberler

Makine öğreniminde düşmanca saldırılar: Ne oldukları ve nasıl durdurulacağı

çok küçük bir yüzdesi, AI sistemlerini düşmanca çabalara karşı savunmaya yöneliktir. Halihazırda üretimde kullanılan bazı sistemler saldırılara açık olabilir. Örneğin, araştırmacılar yere birkaç küçük çıkartma koyarak kendi kendine giden bir arabanın içine girmesine neden olabileceklerini gösterdiler. trafiğin karşı şeridi. Diğer çalışmalar, bir görüntüde algılanamayan değişiklikler yapmanın bir tıbbi analiz sistemini iyi huylu bir köstebeği kötü huylu olarak sınıflandırması için kandırabileceğini ve bant parçalarının bir bilgisayar görüş sistemini yanlış bir şekilde bir dur işaretini bir hız sınırı işareti olarak sınıflandırmasına

yönlendirebilir.

Yapay zekanın artan şekilde benimsenmesinin, düşman saldırılarındaki artışla ilişkili olması muhtemeldir. Bu hiç bitmeyen bir silahlanma yarışı, ama neyse ki, saldırıların en kötüsünü azaltmak için bugün etkili yaklaşımlar var.

Karşıt saldırı türleri

AI modellerine yönelik saldırılar genellikle üç ana eksende sınıflandırılır: sınıflandırıcı üzerindeki etki, güvenlik ihlali, ve özgüllükleri – ve ayrıca “beyaz kutu” veya “kara kutu” olarak alt kategorilere ayrılabilir. Beyaz kutu saldırılarında saldırgan modelin parametrelerine erişebilirken, kara kutu saldırılarında saldırganın bu parametrelere erişimi yoktur.

Bir saldırı sınıflandırıcıyı etkileyebilir – yani, model – bir güvenlik ihlali meşru olarak sınıflandırılan kötü amaçlı verilerin sağlanmasını içerirken, tahminlerde bulunurken modeli bozarak. Hedefli bir saldırı, belirli bir izinsiz girişe veya kesintiye izin vermeye veya alternatif olarak genel kargaşa yaratmaya çalışır.

Kaçınma saldırıları, verilerin kaçmak için değiştirildiği en yaygın saldırı türüdür. tespiti veya meşru olarak sınıflandırılması. Kaçınma, bir modeli eğitmek için kullanılan veriler üzerinde etkiyi içermez, ancak spam göndericilerin ve bilgisayar korsanlarının spam e-postalarının ve kötü amaçlı yazılımların içeriğini gizleme yöntemiyle

karşılaştırılabilir. Kaçırmanın bir örneği, istenmeyen posta önleme modellerinin analizinden kaçınmak için istenmeyen posta içeriğinin ekli bir resmin içine yerleştirildiği resim tabanlı spam’dir. Diğer bir örnek, yapay zeka destekli biyometrik doğrulama sistemlerine yönelik sızdırma saldırılarıdır..

Başka bir saldırı türü olan zehirleme, verilerin “zararlı kontaminasyonudur”. Makine öğrenimi sistemleri, genellikle çalışır durumdayken toplanan veriler kullanılarak yeniden eğitilir ve bir saldırgan, daha sonra yeniden eğitim sürecini kesintiye uğratan kötü amaçlı örnekler enjekte ederek bu verileri zehirleyebilir. Bir düşman, eğitim aşamasında, aslında kötü niyetli olduğunda yanlış bir şekilde zararsız olarak etiketlenen verileri girebilir. Örneğin, OpenAI’nin GPT-3 gibi büyük dilli modelleri, belirli sözcüklerle beslendiğinde hassas, özel bilgileri açığa çıkarabilir ve ifadeler, araştırma gösterdi.

Bu arada, model çıkarma olarak da adlandırılan model çalma, bir düşmanın bir “kara kutu” makinesini araştırmasını içerir. Modeli yeniden yapılandırmak veya üzerinde eğitildiği verileri çıkarmak için öğrenme sistemi. Bu, eğitim verileri veya modelin kendisi hassas ve gizli olduğunda sorunlara neden olabilir. Örneğin, model çalma, rakibin daha sonra kendi finansal kazançları için kullanabileceği tescilli bir hisse senedi ticareti modelini çıkarmak için kullanılabilir.

Vahşi doğada saldırılar

Birçok düşmanlık örneği Saldırılar bugüne kadar belgelendi. Bir tanesi, Google’ın nesne algılama AI’sının kaplumbağanın fotoğraflandığı açıdan bağımsız olarak onu bir tüfek olarak sınıflandırmasına neden olan bir dokuya sahip bir oyuncak kaplumbağayı 3D olarak basmanın mümkün olduğunu gösterdi. Başka bir saldırıda, bir köpeğin makine tarafından değiştirilmiş bir görüntüsünün hem bilgisayarlara hem de insanlara kedi gibi göründüğü gösterildi. Gözlüklerde veya giysilerde “çelişkili desenler

” olarak adlandırılan, yüzleri aldatmak için tasarlanmıştır. tanıma sistemleri ve plaka okuyucuları. Ve araştırmacılar, iyi huylu seste akıllı asistanlara komutları gizlemek için düşmanca ses girişleri yarattılar.

Bir Google’dan ve Berkeley’deki California Üniversitesi’nden araştırmacılar, Nisan ayında yayınlanan kağıda

, en iyi adli sınıflandırıcıların bile gerçekleri ayırt etmek için eğitilmiş AI sistemleri olduğunu gösterdi. ve sentetik içerik – düşman saldırılarına karşı hassastır. Sahte medya dedektörleri üretmeye çalışan kuruluşlar için, özellikle de meteorik göz önüne alındığında, yeni olmasa da sıkıntılı bir gelişmedir. deepfake içeriğinde çevrimiçi artış.

Son zamanlardaki en rezil örneklerden biri, diğer kullanıcılarla etkileşimler yoluyla sohbete katılmayı öğrenmek için programlanmış bir Twitter sohbet robotu olan Microsoft’un Tay’idir. Microsoft’un amacı, Tay’ın “sıradan ve eğlenceli bir sohbete” girmesiyken, internet trolleri sistemin yetersiz filtreleri olduğunu fark etti ve Tay’a saygısız ve rahatsız edici tweetler beslemeye başladı. Bu kullanıcılar ne kadar çok etkileşime girerse, Tay’ın tweetleri o kadar saldırgan hale geldi ve Microsoft’u botu kapatmaya zorladı lansmanından sadece 16 saat sonra.

VentureBeat katılımcısı Ben Dickson olarak notlar

, son yıllarda düşmanca saldırılarla ilgili araştırmaların miktarında bir artış görüldü. 2014‘da, çekişmeli makine öğrenimi hakkında sıfır makale vardı ön baskı sunucusu Arxiv.org’a gönderilirken, 2020’de, karşıt örnekler ve saldırılarla ilgili yaklaşık 1.100 makale vardı. Düşman saldırıları ve savunma yöntemleri de NeurIPS, ICLR, DEF CON, Black Hat ve Usenix dahil olmak üzere önde gelen konferansların öne çıkanları haline geldi. Savunmalar

Düşman saldırılara ve bunlarla mücadele etme tekniklerine olan ilginin artmasıyla, startuplar Dayanıklı AI görünüşte “sertleşen” ürünlerle ön plana çıkıyor. “düşmanlara karşı algoritmalar. Bu yeni ticari çözümlerin ötesinde, ortaya çıkan araştırmalar, saldırgan saldırılara karşı savunmaya yatırım yapmak isteyen işletmeler için umut vaat ediyor.

Makine öğrenimi modellerini sağlamlık açısından test etmenin bir yolu, Bir modelin yanlış bir yanıt çıkarmasına neden olan girdi tetikleyicilerine yanıt verecek şekilde değiştirilmesini içeren truva atı saldırısı. Bu testleri daha tekrarlanabilir ve ölçeklenebilir hale getirmek için Johns Hopkins Üniversitesi’ndeki araştırmacılar adlı bir çerçeve geliştirdiler. TrojAI

, tetiklenen veri kümeleri ve truva atlarıyla ilişkili modeller oluşturan bir dizi araç. Araştırmacıların, oluşturulan “trojanlı” modeller üzerindeki çeşitli veri seti konfigürasyonlarının etkilerini anlamalarını sağlayacağını ve modelleri güçlendirmek için yeni truva atı tespit yöntemlerini kapsamlı bir şekilde test etmeye yardımcı olacağını söylüyorlar.

Johns Hopkins ekibi, makine öğreniminde düşmanca saldırılarla mücadele eden tek ekip olmaktan çok uzak. Şubat ayında, Google araştırmacıları bir makalesi yayınladı saldırıları algılayan veya saldırganları hedef görüntü sınıfına benzeyen görüntüler üretmeye zorlayan bir çerçeve tanımlamak. Baidu, Microsoft, IBM ve Salesforce araç kutuları sunar — Advbox, Karşılık , Karşıtlık Sağlamlığı Araç Kutusu ve Sağlamlık Spor Salonu – MxNet, Keras, Facebook’un PyTorch ve Caffe2, Google’ın TensorFlow ve Baidu’nun PaddlePaddle’ı gibi çerçevelerdeki modelleri kandırabilecek rakip örnekler oluşturmak için. Ve MIT’nin Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı kısa süre önce adlı bir araç yayınladı. Doğal dil modellerini güçlendirmek için muhalif metinler oluşturan TextFooler

.

Daha yakın zamanda, Microsoft, kar amacı gütmeyen Mitre Corporation ve 11 kuruluş IBM, Nvidia, Airbus ve Bosch dahil

bültenlerimiz

  • kapılı düşünce lideri içeriği ve gibi ödüllü etkinliklerimize indirimli erişim) 2021’de Dönüşüm : Daha fazla bilgi edin
  • ağ özellikleri ve daha fazlası

    Üye Ol

  • Related Articles

    Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button