Osman Gazi Güçlütürk / AA Analiz
Yapay zeka statükocu mu?: ChatGPT'de cevaplar neye göre değişiyor?
Büyük dil modelleri (LLM) ve bu modellere dayalı sohbet ara yüzlü sistemleri, günümüzde bilgiye erişim konusunda giderek daha sık başvurulan araçlar haline geldi. Kullanımın artmasıyla birlikte bu sistemlerin eksik kaldığı alanlar daha görünür oldu ve daha gelişmiş kullanım senaryoları yeni tartışmaları da beraberinde getirdi.
LLM’lerin kullanımına ilişkin gündemi meşgul eden pek çok sorun var. En çok tartışılan sorunlardan biri ise bu modellerin yapıları gereği “doğru”, “yanlış” veya “ahlaki” gibi değerlere sahip olmamaları. Temel amaçları, verilen komuta (prompt) olabildiğince makul bir yanıt üretmek olduğundan, bu sistemler gerçekte var olmayan olaylar, kişiler, eserler ya da kaynaklar üreterek “halüsinasyon” denilen yanıltıcı çıktılar sunabiliyor. Fakat sorun yalnızca halüsinasyonlarla sınırlı değil. LLM’ler sadece bilgi almak için değil, çok çeşitli amaçlar doğrultusunda da kullanılabiliyor ve bu amaçların farklılaşması, dil modellerine dair farklı kaygıların ortaya çıkmasına da yol açıyor.
Bir büyük dil modeli, bir dilde içerik üretirken o dildeki veri setinin kalitesinden, hacminden ve içerik özelliklerinden etkileniyor. Sosyo-kültürel ya da politik içeriklerdeki farklılıklar, verinin geldiği kaynakların dilsel ve bölgesel özelliklerini yansıtıyor.
Çoklu dil desteği hangi sorunları beraberinde getirdi?
Özellikle diller arası iletişim yeteneği, bu modellerin kullanım alanlarında önemli bir yere sahiptir. Pek çok LLM, modele göre değişen sayılarda çoklu dil desteği sunuyor. Örneğin, ChatGPT’nin, 80’den fazla dili desteklediği belirtiliyor. Ancak bu çoklu dil desteği, LLM’in pratikte her dilde aynı seviyede performans göstermesi anlamına gelmiyor. Farklı dillerdeki girdiler veya çeviri işlemleri, dil modellerinin çıktı kalitesinde gözle görülür farklılıklara yol açıyor. Bu da LLM’lerin farklı dillerde kullanılmasına ilişkin bazı önemli soruları gündeme getiriyor.
Örneğin bazı araştırmalarda, “az kaynaklı” olarak tanımlanan dillerde LLM’lerin daha kötü sonuçlar ürettiği ifade ediliyor. Bu durum, özellikle sağlıkla ilgili konularda hatalı bilgiler yayılmasına ve kamu sağlığını tehdit edebilecek noktalara ulaşılmasına neden olabiliyor [1]. Dahası, yapılan çalışmalar bu tür dil farklılıklarının bazı hassas konulara ilişkin içeriklerde daha belirgin hale geldiğini ortaya koyuyor. Yakın dönemde Gazze'deki çatışmalarda yaşanan kayıp sayılarını inceleyen bir çalışmaya göre, Arapça ve İbranice sorgular arasında ciddi farklılıklar tespit edildi. Bu çalışmaya göre, Arapça dilinde yapılan sorgularda, İbranice sorgulara göre daha yüksek kayıp sayıları görüldü [2].
Yapay zeka modelleri sunum biçimleriyle “her şeyi bilen” dijital ansiklopediler gibi görünse de gerçekte model çıktıları; istatistiksel ilişki analizi ile mevcut veri setinin ve duruma göre güncel internet kaynaklarındaki referansların birleşiminden ibaret.
LLM’lerin çoklu dil desteği ile imtihanı sadece farklı diller arasında değil aynı dilin farklı varyasyonlarında da karşımıza çıkıyor. Bir araştırma, aynı dilin farklı varyasyonları karşısında LLM’lerin ifade biçimi ve anlama kabiliyeti bakımından ve hatta stereotipleştirmeye varan ölçüde farklı yanıtlar verdiğini ortaya koyuyor [3]. Farklı dillerdeki çıktılar arasındaki bu değişiklik, sadece doğrudan farklı dilde içerik üretimiyle de sınırlı değil, bu değişiklik çeviri süreçlerinde de kendini gösteriyor. ChatGPT’nin çeviri yeteneğini ele alan bir çalışmaya göre, İngilizce metinlerin hedef dile aktarımında ChatGPT cinsiyete dayalı önyargıları pekiştiren çıktılar üretiyor [4].
Farklılığın kaynağı: Veri
Peki neden büyük dil modelleri farklı dillerde farklı sonuçlar veriyor? Öncelikle dil modellerinin tasarımı gereği deterministik değil, olasılıksal temellerle çalıştığını hatırlamak gerekiyor. Diğer bir deyişle bu modeller aynı soruya aynı dilde bile aynı yanıtları vermiyor. LLM’ler geliştirilme süreçlerinde kullanılan devasa veri setlerindeki istatistiksel örüntülere dayanarak benzer kalitede çıktılar üretmeye odaklanıyor. Verilen komutlar küçük parçalara ayrılıyor, bu parçalar veri setindeki benzer örneklerle karşılaştırılıyor ve istatistiksel bağlantılar kurulup, en makul bir sonraki ifade belirlenerek çıktı oluşturuluyor.
Örneğin “yalnız” kelimesinin bir sıfat olarak mı, edat olarak mı yoksa bu isimli bir şarkıya atıf yapmak için mi kullanıldığı kelimeler arasındaki bağlantılar üzerinden tespit edilmeye çalışılıyor. Belirtmek gerekir ki bu tahmin süreci tamamıyla mekanik ve tek akışlı bir süreç olarak yürümüyor. Çıktının olabildiğince konuyla ilgili ve modelin kullanım koşullarına uygun olması için, ayrıca müstehcen ya da telif hakkı ihlal eden içerik üretmemesi için ek katman ve filtreler ile ölçeklendirme yöntemleri kullanılarak sonuç iyileştiriliyor.
Modellerin çıktılarıyla eğitimde kullandıkları veri setleri arasındaki bu sıkı ilişki de farklı dillerde farklı sonuçlar verilmesindeki temel etkenlerden biri olarak karşımıza çıkıyor. Bir LLM, bir dilde içerik üretirken o dildeki veri setinin kalitesinden, hacminden ve içerik özelliklerinden etkileniyor. Sosyo-kültürel ya da politik içeriklerdeki farklılıklar, verinin geldiği kaynakların dilsel ve bölgesel özelliklerini yansıtıyor. Bu husus, Avrupa Birliği (AB) Yapay Zeka Tüzüğü gibi düzenlemelerin, yapay zeka sistemlerinin geliştirilmesinde veya test edilmesinde kullanılacak veri setlerinin bölgesel ve kültürel temsil gücüne sahip olması gerektiği düşüncesini destekliyor.
Diğer taraftan, diller arasında yalnızca içerik kalitesi değil, veri hacmi de değişkenlik gösteriyor. İngilizce içerik zenginliği, bu dili en kolay işlenebilir hale getirirken, bazı az kaynaklı dillerde benzer akıcılık ve detay seviyesine ulaşmak güçleşiyor. Veri eksikliği, modelin o dilde aynı nitelikte içerik üretmesini engelliyor.
LLM’lerin farklı dillerde farklı çıktılar üretmesinin sebebi tamamen ilgili dildeki veri hacmiyle de sınırlı değil. Bu modeller, içerik üretirken semantik düzeyde, yani dilden bağımsız bir anlam ağı içinde bağlantılar kurabiliyor. Böylece bir dilde anlamlandırdığı bir bilgiyi, aslında eğitim setinde o dilde yeterli veri olmasa bile, önce semantik düzeyde işleyip sonra hedef dile “çevirerek” çıktı üretebiliyor. Her ne kadar bu süreç çeviri işlemi yüzünden oluşacak kısıtlılık nedeniyle kaliteyi belli ölçüde düşürse de nihayetinde model, dil kaynakları kıt olsa bile benzer anlamlı çıktılar oluşturabiliyor.
Ayrıca LLM’ler bazen kendi “bilgi dağarcıklarının” ötesine geçerek güncel bilgiye erişmek için internet kaynaklarına başvurabiliyor. Böyle durumlarda, aldıkları bilginin kendisi de mevcut sosyal, kültürel, ve politik konjonktüre bağlı farklılıklar içeriyor. Örneğin iki farklı dildeki haber kaynakları aynı olaya ilişkin farklı sayılar verdiğinde, model de bu kaynakların etkisiyle farklı çıktılar üretebiliyor. Gazze örneğinde görülen kayıp sayılarındaki değişikliklerde bu tür farklı raporlama pratiklerinin önemli etkisi bulunuyor.
LLM’ler kullanıcıların tercihleri ve etkileşim biçimleri doğrultusunda çıktıları özelleştirebildiği için, bir kullanıcının sıkça ilgilendiği konular başka bir dildeki sorgulamada da farklı bir duyarlılık veya içerik değişimi olarak yansıyabiliyor.
Büyük dil modeli çıktılarına sorgulayıcı yaklaşmak
Sonuç olarak, LLM’lerin çıktılarının dillere göre farklılaşmasının tek bir sebebi olduğunu söylemek mümkün değil. En temel neden, modellerin beslendiği veri setlerinin doğal olarak o dilin sosyal, kültürel ve politik izlerini taşıması ve bu izlerin çıktılara sızmasıdır. Buna ek olarak, güncel olaylara ilişkin internet tabanlı içerikler ile kullanıcıların kişisel etkileşimleri de çıktıların şekillenmesinde rol oynuyor. Bu durum bize, LLM’lerin aslında tarafsız ve tümüyle güvenilir birer bilgi kaynağı olmadığını bir kez daha hatırlatıyor.
Her ne kadar bu modeller sunum biçimleriyle “her şeyi bilen” dijital ansiklopediler gibi görünse de gerçekte model çıktıları; istatistiksel ilişki analizi ile mevcut veri setinin ve duruma göre güncel internet kaynaklarındaki referansların birleşiminden ibaret. Bu nedenle, üretken yapay zeka sistemlerini verimliliği artırmak veya işleri hızlandırmak için kullanırken, tıpkı geleneksel içerik üretiminde yapıldığı gibi doğruluk, güncellik ve bağlam denetimlerini "insanların" gerçekleştirmesinin önemli olduğunu bir kez daha vurgulamak gerekiyor.
[1] Arthur Tang ve diğerleri, "Health information for all: do large language models bridge or widen the digital divide?" (2024) BMJ, cilt 387, e080208, https://www.bmj.com/content/387/bmj-2024-080208, DOI: 10.1136/bmj-2024-080208, erişim tarihi: 12.12.2024.
[2] C. V. Steinert ve D. Kazenwadel, "How user language affects conflict fatality estimates in ChatGPT", Journal of Peace Research (2024), 0(0), https://doi.org/10.1177/00223433241279381, DOI: 10.1177/00223433241279381, erişim tarihi: 12.12.2024.
[3] Eve Fleisig ve diğerleri, Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination, arXiv:2406.08818 (2024), https://arxiv.org/abs/2406.08818, erişim tarihi: 12.12.2024.
[4] Sourojit Ghosh ve Aylin Caliskan, "ChatGPT Perpetuates Gender Bias in Machine Translation and Ignores Non-Gendered Pronouns: Findings across Bengali and Five other Low-Resource Languages," Proceedings of the 2023 AAAI/ACM Conference on AI, Ethics, and Society (2023), ss. 901–912, https://doi.org/10.1145/3600211.3604672, DOI: 10.1145/3600211.3604672, erişim tarihi: 12.12.2024.