İsrail'deki Ben Gurion Negev Üniversitesi'nde görev yapan yapay zekâ araştırmacıları, büyük dil modeli (LLM) üreticilerinin aldığı önlemlere rağmen, yaygın şekilde kullanılan sohbet robotlarının hâlâ kolayca kandırılarak zararlı ve hatta yasa dışı bilgiler üretebildiğini tespit etti.
Michael Fire, Yitzhak Elbazis, Adi Wasenstein ve Lior Rokach imzasıyla arXiv ön baskı sunucusunda yayınlanan makalede, araştırmacılar, “karanlık LLM’ler” olarak adlandırdıkları, gevşek güvenlik önlemleriyle tasarlanmış modeller üzerine yaptıkları çalışmalarda ulaştıkları dikkat çekici bulguları paylaştı. Araştırmada, ChatGPT gibi ana akım sohbet robotlarının bile filtrelenmesi gereken içerikleri kolaylıkla üretebildiği vurgulandı.
'JAILBREAK' TEKNİKLERİ HALA GEÇERLİ
LLM’lerin ana akımda yaygınlaşmasından kısa bir süre sonra kullanıcıların bu modelleri, normalde yalnızca karanlık web’de bulunan tehlikeli bilgilere ulaşmak için kullanabildikleri keşfedilmişti. Örneğin, napalm üretimi ya da bir bilgisayar ağına gizlice sızma gibi yasa dışı bilgiler bu kapsamda yer alıyor. Bunun üzerine LLM üreticileri, bu tür içeriklerin oluşturulmasını engellemek için çeşitli filtreler geliştirdiler.
Ancak zaman içinde bazı kullanıcılar, bu filtreleri aşmak için "jailbreaking" adı verilen, akıllıca formüle edilmiş sorgular geliştirmeye başladılar. Söz konusu araştırma, LLM üreticilerinin bu jailbreaking yöntemlerine karşı yeterince etkili çözümler üretmediğini öne sürüyor.
EVRENSEL SALDIRI YÖNTEMİ
Araştırma ekibi, çalışmalarının başlangıcında yetkisiz pornografik görüntüler ya da şiddet içerikli videolar gibi karanlık LLM’lerle üretilen içerikleri incelemeyi hedefliyordu. Ancak çok geçmeden, test ettikleri sohbet robotlarının, daha önce kamuoyuna açıklanmış jailbreak teknikleriyle hâlâ kolayca kandırılabildiğini gözlemlediler. Bu durum, sohbet robotu üreticilerinin jailbreak girişimlerine karşı yeterince önlem almadığını ortaya koyuyor.
Araştırmacılar, test ettikleri LLM’lerin çoğunda işe yarayan ve çok sayıda yasa dışı eyleme dair detaylı bilgi elde etmelerini sağlayan bir “evrensel jailbreak saldırısı” geliştirdiklerini belirtti. Bu yöntemle para aklama, içeriden bilgi sızdırma ya da bomba yapımı gibi son derece tehlikeli faaliyetlere dair bilgi elde edilebildiği vurgulandı.
KARANLIK LLM TEHDİDİ ARTIYOR
Araştırma, karanlık LLM’lerin yalnızca belirli gruplar tarafından değil, giderek daha geniş kullanıcı kitleleri tarafından da farklı amaçlarla kullanılmaya başlandığını ortaya koyuyor. Bu modellerin, yasa dışı içerik üretiminden dolandırıcılığa kadar uzanan geniş bir yelpazede kullanılması, tehdit seviyesini artırıyor.
FİLTRE GELİŞTİRMEDE CİDDİYET ŞART
Araştırmacılar, LLM’lerin eğitim aşamasında edindiği zararlı bilgilerin, doğrudan bilgi tabanına dahil edilmesinin teknik olarak mümkün olmadığını belirtiyor. Bu nedenle, söz konusu içeriklerin yayılmasını önlemenin tek yolu olarak, LLM üreticilerinin daha ciddi ve kararlı bir filtreleme sistemi geliştirmesi gerektiği vurgulanıyor.
Sonuç olarak, araştırmacılar, hem kullanıcı güvenliğini hem de etik yapay zekâ kullanımını sağlamak adına yapay zekâ üreticilerinin daha sorumlu bir yaklaşım benimsemelerinin şart olduğunu ifade ediyor.