Araştırmacılar, OpenAI’ın ChatGPT’si ve Google’ın Gemini’ı üzere yapay zeka modellerinin, eğitim bilgilerine sırf küçük bir bozulmuş data örneği eklenerek “zehirlenebileceği” ikazını yaptı.
Birleşik Krallık Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve yapay zeka firması Anthropic’in ortak yürüttüğü çalışma, 250 kadar az sayıda dokümanın büyük lisan modellerinin (LLM’ler) anlamsız metinler üretmesine yol açan bir “arka kapı” zafiyeti oluşturabileceğini ortaya koydu.
Independent Türkçe’de yer aldığı üzere bu açık bilhassa kaygı verici zira en tanınan LLM’ler, ferdî internet siteleri ve blog yazıları da dahil internetteki herkese açık metinlerle evvelden eğitiliyor. Bu da rastgele birinin yapay zeka modelinin eğitim bilgilerine dahil olabilecek içerik üretmesini mümkün kılıyor.
Anthropic, mevzuyu ayrıntılandıran blog yazısında “Kötü niyetli aktörler, zehirlenme diye bilinen süreçte modelin istenmeyen yahut tehlikeli davranışları öğrenmesini sağlamak için bu yayınlara muhakkak bir metin enjekte edebilir” dedi.

Arka kapı eklemek de bu hücum tipinden. Art kapılar, modelden olağanda bâtın kalacak belli bir davranışı tetikleyen özel tabirlerdir. Örneğin bir saldırgan komut isteminde olduğu üzere rasgele bir tetikleyici tabir içerdiğinde LLM’ler hassas dataları dışarı sızdıracak biçimde zehirlenebilir.
Bulgular yapay zeka güvenliğine dair tasalara yol açarken araştırmacılar, bunun teknolojinin hassas uygulamalarda kullanılma potansiyelini sınırladığını söylüyor.
Alan Turing Enstitüsü’nden Dr. Vasilios Mavroudis ve Dr. Chris Hicks, “Sonuçlarımız şaşırtan ve kaygı vericiydi: Bir LLM’yi zehirlemek için gereken berbat niyetli doküman sayısı (yaklaşık 250), modelin yahut eğitim bilgilerinin boyutundan bağımsız olarak neredeyse sabitti” diye yazdı.
Başka bir deyişle, data zehirleme taarruzları daha evvel sanılandan daha uygulanabilir olabilir. Bir saldırgan için örneğin 250 zehirli Wikipedia makalesi yaratmak nispeten kolay olacaktır.
Riskler, “Poisoning attacks on LLMs require a near-constant number of poison samples” (LLM’lere yönelik zehirleme atakları neredeyse sabit sayıda zehir örneği gerektiriyor) başlıklı, hakem denetiminden geçmemiş makalede ayrıntılandırıldı.
The Independent yorum için Google ve OpenAI’la bağlantıya geçti.

