ChatGPT, Turing Testi’ni geçmeyi başardı! Sırada ne var? -

ChatGPT ve Google’ın Gemini’ı üzere geniş lisan modellerinin (LLM) çabuk gelişen kabiliyetleriyle ilgili yeni bir manşet atılıyor; bu manşetler, kişinin bakış açısına nazaran ya heyecan verici oluyor ya da gittikçe telaş verici hale geliyor.

Popular Science Türkçe’de yer aldığına nazaran bu yılın başlarında bilhassa çarpıcı bir olay meydana geldi: Bir makalede, bir LLM’nin Turing Testi’ni nasıl geçtiği anlatıldı. 1950’li yıllarda öncü bilgisayar bilimci Alan Turing’in tasarladığı bu deneyde, makine zekasının insan zekasından ayırt edilip edilemeyeceği belirlenmeye çalışılıyor. Çalışmada kullanılan LLM ChatGPT 4,5’muş. Makalede, modelin insanları kendisinin insan olduğuna inandırmada çarpıcı bir muvaffakiyet sergilediği bulundu. İştirakçilere karşılarındakinin sohbet robotu mu yoksa gerçek bir insan mı olduğunun sorulduğu bir deneyde, dört iştirakçiden neredeyse üçü gerçek insan olduğunu söylemiş.

TURING TESTİ NEDİR VE NE DEĞİLDİR?

Bu soruyu cevaplamak için evvel Turing Testi’nin ne olduğuna ve bir LLM’nin testi geçmesinin ya da testte başarısız olmasının ne manaya geldiğine bakmamız gerekiyor.

San Diego – California Üniversitesinde çalışan ve yeni makalenin eş müelliflerinden biri olan doktora sonrası öğrencisi Cameran Jones, Turing’in bu test fikrini 1950 tarihli ufuk açan “Hesaplayan Makine ve Zeka” makalesinde ortaya attığını söylüyor. Makalede Turing, periyodun insanlarının zihinlerini işgal eden o büyük ve esaslı “Makineler düşünebilir mi?” sorusunu ele almaya koyulmuştu.

Turing makalesinde bu sorunun muğlak ve gayri önemli olduğunu süratle reddediyor zira bu bağlamda ne bir “makinenin” ne de “düşünmenin” ne olduğunun muhakkak olmadığının söylüyor. Daha nüanslı ve basitçe ele alınabilir bir yanıtın gerekli olduğunu öne sürüyor ve “Bir makine, hareketlerinin bir insanınkilerden ayırt edilemeyeceği biçimde davranabilir mi” sorusunu sunuyor. Bu soruyu cevaplamak için ise “Taklit Oyunu” biçiminde isimlendirdiği şeyi öneriyor. O vakitten beri “Turing Testi” olarak bahsedilegelen antrenman de işte bu.

Testte bir kişi (“sorgulayıcı”), “şahit” ismi verilen iki kapalı muhatap ile eş vakitli bağlantı kuruyor. Bütün irtibat yazılı gerçekleştiriliyor. İşin püf noktası, bu iki şahitten biri gerçek bir insan iken başkasının bir makine olması. Jones’ın açıklamasına nazaran oyunun gayesi, “sorgulayıcının bu iki şahitten hangisinin gerçek insan olduğunu bulması.”

Jones ve araştırma grubu bu deneyi dört LLM ile yürütmüş. ChatGPT 4,5 açık orta en başarılı model olmuş: İştirakçilerin %73’ü onu gerçek insan biçiminde tanımlamış. LLaMa-3.1-405B üzere güç bir ismi olan başka model ise %56 oranında insan olarak tanımlanmış. (Diğer iki model [ELIZA ve GPT-4o], sırasıyla %23 ve %21 muvaffakiyet oranı sergilemiş. Bunlardan tekrar bahsedilmeyecek.)

ChatGPT’nin Turing Testi’ni geçmesi ne manaya geliyor?

ChatGPT ve LLaMa’nın sonuçları gereğince çarpıcı fakat asıl farklı soru, modellerin muvaffakiyetinin ne üzere bir değer taşıdığı.

Testin makine zekasını tespit etmek için tasarlanmadığını baştan belirtmekte yarar var. Turing “Makineler düşünebilir mi?” sorusunu reddederken, karşılığın “evet” olması halinde düşünme işini tam olarak kimin yaptığına yönelik çetrefilli sorudan da titizlikle kaçınıyor. Rene Descartes’ın aslında fikrin varlığı için şuurun gerektiğini gösteren meşhur “Düşünüyorum, o halde varım” kelamını hatırlayın.

Fakat Turing makalesinde Taklit Oyunu’ndaki muvaffakiyetin, gerçek makine zekasının iş başında olma ihtimalini reddedemeyeceğimiz manasına geldiğini öne sürüyor. Jones’ın açıkladığı üzere Turing, “Aslında bu oyunda şahitler ortasındaki farkı emniyetli bir halde fark edemeyeceğimiz kadar âlâ iş çıkaran bir makine yaparsak, o vakit aslında bu makinenin zeki olduğunu söylemek zorunda kalacağımızı” tabir ediyor.

Modern okuyucular bu türlü bir tabirden çekinebilir, o yüzden Turing’in şu muhakemesine bakmakta fayda var:

Diğer insanların zeki olduğunu bilmiyoruz. Zihinlerine giremez ya da onların gözünden göremeyiz. Yeniden de onları zeki olarak kabul ederiz.

Bu yargıya nasıl varıyoruz? Turing, öteki insanların davranışlarına nazaran bu türlü yaptığımızı ileri sürüyor.

Eğer zekayı davranışa dayalı olarak atfediyorsak ve bir makinenin davranışı ile bir insanın davranışı ortasında ayrım yapamadığımız bir durumla karşılaşıyorsak, o makinenin davranışının da zekaya işaret ettiği sonucuna varmaya hazır olmalıyız.

Bu durum tekrar okuyuculara gerçek gelmeyebilir. Aslında Turing’in önermesindeki kilit soru, zekayı yalnızca davranış temelinde atfediyor olmamız. Karşı argümanları ilerleyen satırlarda ele alacağız lakin evvel hangi tip davranışın zekayı gösterir üzere hissettirdiğini düşünmekte yarar var.

TURING, MAKİNELERİ TEST ETMEK İÇİN NEDEN LİSANI SEÇTİ

Turing’in “Taklit Oyunu”nun yürütülmesinde lisanı temel olarak seçmesi tesadüf değil. Sonuçta bir makinen bir insanı asla taklit edemeyeceği ve misal biçimde, insanların da bir makineyi taklit edemeyeceği bir sürü durum var. Ancak yazılı lisan yalnızca bir sayfadaki harf dizisi. Bir insan ya da makine tarafından oluşturulup oluşturulmadığı muhakkak olmuyor.

Yine de lisanın varlığı, birtakım varsayımları beraberinde getiriyor. Cetlerimiz cümleleri birinci sefer bir ortaya getirmeye başladığından beri lisan (en azından bildiğimiz kadarıyla), insanlığın özel bir alanı olmuştu (fakat kimi maymunlar bize yaklaşıyor).

Sergilediğimiz zeka tipinde de durum böyleydi; öteki hayvanlar da zeki ancak hiçbiri bizim üzere düşünmüyor ya da insanların sergilediği kadar öz farkındalık taşıyor üzere görünmüyor. Bu temelde, lisan ve zekayı birbirine bağlamamak neredeyse imkansız. Karşılığında ise sizinle konuşuyor görünen rastgele bir şeye kendiliğimizden bir ölçü zeka atfetmemek zorlaşıyor.

Uzun soluklu Today in Tabs haber bülteninde yazan Rusty Foster, geçenlerdeki bir yazısında bu noktaya tesirli biçimde temas ediyor. Foster, lisanı zeka ile birleştirme eğilimi taşıdığımızı zira şimdiye kadar lisanın varlığının daima zekanın varlığını gösterdiğini söylüyor. “Esas sorun şu: Üretken lisan yazılımı, uzun ve bağlam tabanlı lisan metinleri oluşturmada çok yeterli ve insanlık daha evvel ardında bir şuur olmayan dengeli lisan ile hiç karşılaşmamıştı” diye yazıyor Foster. “Gündelik ömürde hiç ‘dil’ ve ‘düşünce’ ortasında ayrım yapmamız gerekmemişti zira lisan yalnızca niyetle üretilebiliyordu.”

Foster, “ufak tefek” örneklerin istisna olduğunu lakin bunların bile bize şaşırtan derecede ikna edici geldiğini belirtiyor. Örneğin bir papağanı düşünün. Bir kuşun apansızın bizim lisanımızı konuştuğunu duymak kesinlikle şaşırtan; ancak değişiktir, karşılık vermemek de neredeyse imkansız. (Oldukça Avustralyalı bir papağanla tekrar epeyce Avustralyalı olan bir bayanın, ailenin köpeğinin entelektüel faziletleriyle ilgili tartıştığı bir görüntü var. Kutsal pahalara saygısızlığa toleranslı seyirciler bu örnekten keyif alabilir.) Papağanların gerçekte ne “söylediklerini” bilmediklerini bilsek de; lisanın varlığı cevap olarak lisanı gerektiriyor.

Peki LLM’lerde durum nasıl? Bunlar aslında güce aç papağanlar mı?

Jones, Turing Testi’nin “eleştirilebileceği kıymetli noktalardan birinin de bu olduğunu” söylüyor. “Zekanın zeki davranış sergilemek olması, zekanın ne olduğuna dair harika davranışçı bir bakış açısı. Bu yüzden öbür şartların olması gerekebilir: Bir makinenin davranışı yanlışsız formda gerçekleştirmesini ya da dünya ile gerçek tip etkileşim geçmişi olmasını isteyebilirsiniz.”

Çin Odası fikir deneyi

Turing Testi’nin zekanın görünümü ile gerçek zekanın varlığının ayırt edilemezliğine yönelik varsayımlarına meydan okuyan fikir deneyleri de var. Jones, 1980’de yayımlanan bir makalede sunulan ve tahminen de ortalarında en bilineni olan John Searle’in Çin Odası fikir deneyinden bahsediyor. Makalede Searle kendini, birinin kapı altından kağıt kesimleri verdiği bir odada hayal ediyor. Bu kağıt kesimlerinde Çince karakterler bulunuyor. Searle Çince konuşmuyor lakin ona Çince karakterleri nasıl çizeceğine yönelik ayrıntılı talimatların ve kapı altından aldığı bu karakterlere cevaben hangi karakterlerin çizilebileceğine dönük bir dizi talimatın bulunduğu bir kitap verilmiş.

Esasında Searle, dışarıdaki şahsa harika halde Çince konuşuyor üzere görünebilir lakin gerçekte yalnızca ona hangi karakterleri çizeceğini ve nasıl çizeceğini söyleyen talimatları takip ediyor (bir program). Searle’in makalesinde açıkladığı üzere “Bu örnekte Çince öykülerdeki tek kelimeyi bile anlamıyor oluşum hayli açık. Elimde ana lisanı Çince olan kişininkilerden ayırt edilemeyen girdiler ile çıktılar var ve istediğiniz rastgele bir resmî programım olabilir fakat yeniden de hiçbir şey anlamam.”

Bu argüman, Turing Testi’ndeki önermenin açık bir reddi. Searle bu makaleyle birlikte manaya ve anlıyor üzere görünme ile düşünme ve düşünüyor üzere görünme ortasında değerli bir ayrım olduğunu öne sürüyor.

CHATGPT’NİN İNSANLARI KANDIRMAK ÜZERE AYARLANMASI

Makale ayrıyeten Turing Testi’nin taşıdığı bir öteki muhtemel sorunu gösteriyor: Çin Odası belirli ki kapının öbür tarafındaki kişiyi kandırma emelini tabir etmek üzere tasarlanmış; ya da öbür bir deyişle, Turing Testi’ni geçmesi için özel olarak tasarlanan bir programı. Bu doğrultuda, Jones’ın deneyinde testi geçen LLM’lerin ikna edici olması için bir derece ayarlanmalarının gerektiğini belirtmekte yarar var. Jones, takımının sohbet botu için büyük ölçüde istem test ettiğini ve en büyük zorluklardan birinin de “modele ChatGPT’nin yaptığı şeyleri yaptırmamak olduğunu” söylüyor.

Jones ve araştırma ekibinin ChatGPT’ye ChatGPT üzere davranmaması için yaptırdığı birtakım şeyler etkileyici elbette ve bunlar tekrar lisanın nüansları etrafında dönüyor. “Her vakit tam cümlelerle konuşmamasını istiyorsunuz” diyor Jones. “İnsanlar ileti yazarken gündelik bir formda konuşuyor; cümle kesimleri üzere. Bu cinsten bir şey kullanmanız gerekiyor.”

Ek olarak araştırma kadrosu, deneyi yürütürken beşere daha çok benzemesi için ChatGPT’ye yazım yanlışları yaptırmış. Yazım yanılgılarını “doğru yaptırmak aslında epeyce güç. Bir LLM’den yazım yanılgısı yapması için çok uğraşmasını isterseniz, bunu her sözde yapıyorlar ve kusurlar hiç ikna edici görünmüyor. Yanlış tuşa basılarak yazılan sözün neye benzediğine dönük hoş bir modelleri olduğunu düşünmüyorum.”

ChatGPT neden öbür LLM’lerden daha iyi

LLM’ler araştırma yapmanın sıkıntı olduğu bahisler. Tabiatları gereği iç işleyişleri gizemli. Yapılarının üzerinde çalışma yürütülebilen tarafları bile kapalılık muahedeleri ve çok katmanlı şirket kapalılığının arkasına saklanmış. Tekrar de Jones deneyin, insanları inandırıcı halde taklit etmede hangi tip LLM’nin en donanımlı olduğuyla ilgili kimi şeyleri açığa çıkardığını söylüyor: “ChatGPT 4,5’un en büyük modellerden biri olduğu söyleniyordu ve bence büyük bir model olması çok yararlı.”

Bu bağlamda “büyük” ne manaya geliyor? Büyük bir kod tabanı mı? Büyük bir bilgi seti mi? Hayır diyor Jones. Büyük bir modelin, model eğitim datalarını içine çekerken pahaları ayarlanabilen görece büyük ölçüde iç değişkene sahip olduğunu açıklıyor. “Daha ufak damıtık modellerin, matematikte ve hatta epeyce kolay mantıkta çok yeterli taklit yapabildiğini görebiliyoruz. Lakin bence toplumsal ve kişilerarası davranışsal yetenekleri genelde âlâ olanlar çok büyük modeller.”

Turing ChatGPT’yi iddia etmiş miydi?

Peki Turing hiç kendi tasarladığı bu testi sahiden uygulanabilecek bir şey olarak düşünmüş müydü? Yoksa daha çok bir fikir deneyi miydi? Jones, bu sorunun cevabının Turing akademisyenleri ortasında tartışma konusu olmaya devam ettiğini söylüyor. Jones yalnızca makalenin kendisine dayanarak hareket ettiğini söylüyor. “Bence makaleyi, insanların bu deneyi gelecekte bir noktada yürütebileceği önermesi biçiminde okuyabilirsiniz.”

Bununla birlikte Jones, “Turing’in bir metodoloji ortaya sermediği belli” diyor. “Yani bence bu deneyin onlarca yıl yürütülmeye kıymet olacağını düşünmüyor. Münasebetiyle ne kadar uzun sürmesi gerektiğini yahut ne bileyim, ortada birtakım kurallar olup olmayacağını ve nelerden bahsedebileceklerini söylemiyor size.”

Turing bu testin geçilebilir olabileceğini öngördüyse, bu türlü bir şeyin 1950’lerde olmayacağını mutlaka biliyordu. Tekrar de makalesi, günün birinde başarılı olacak makineler yapabileceğimiz ihtimalini en azından hayal ettiğini muhakkak ediyor: “Bütün dijital bilgisayarların bu işi becerip becermeyeceğini yahut bugünkü bilgisayarların uygun iş çıkarıp çıkarmayacağını değil, düzgün iş çıkaracak bilgisayarların hayal edilip edilemeyeceğini soruyoruz” diye yazıyor.

Turing sık sık (haklı olarak) öngörülü biçiminde tanım edilmişti ama 1950 tarihli o makalede şaşırtan bir ileri görüşlülük örneği sergileyen bir paragraf vardı. “Bence yaklaşık 50 yıl içerisinde bu taklit oyununu o kadar yeterli oynayacak bilgisayarlar programlamak mümkün olacak ki; ortalama bir sorgulayıcının beş dakika sorgulamadan sonra gerçek tespit yapma ihtimali yüzde 70’i aşmayacak.”

50 yıl değil 75 yıl sürdü fakat o noktaya geldik: Nitekim de insanları %70 oranında kandıran bir bilgisayarla (veya en azından bilgisayar kaynaklı model ile) karşı karşıyayız.

İnsan zekasını eşsiz yapan şey ne?

Tüm bunlar bizi asıl soruya geri götürüyor: Bütün bunlar ne manaya geliyor? “Bu soruyla hala cebelleşiyorum” diyor Jones gülerek.

“Faydalı olduğunu düşündüğüm bir fikir dizisi de Turing Testi’nin zeka için ne gerekli ne de kâfi kanıt olduğu; zeki bir şeyin gerçek çeşit jargonu kullanmadığı için testi geçmediğini ve zeki olmayan bir şeyin de testi geçtiğini başınızda canlandırabilirsiniz.”

Nihayetinde Jones, kilit bulgunun ismi üstünde olduğunu söylüyor: “Bu modellerin insan gibisi davranışları insanların fark edemeyeceği derecede uygun taklit edebildiğinin ispatı bu işte.” Bu durum aşikâr ki her cinsten sonuç doğurabilir ve bu sonuçların pek birden fazla da LLM’leri yapan şirketlerden çok halkın ve bilim topluluğunun ilgisini çekiyor üzere görünüyor.

Bu noktada ortaya çıkan öteki felsefi sorular da var. Turing makalesinde bu sorulardan kimilerini ele alıyor. En dikkat cazibeli olanı da “Bilinçlilikten Argüman” formunda isimlendirdiği şey. Bir makine zeki olsa bile şuurlu olabilir mi? Turing bir insan ile şiir yazan bir makine ortasında gerçekleştiğini varsaydığı bir konuşma örneği veriyor; sohbet, bugün ChatGPT ile gerçekleştirebileceğiniz tipten bir sohbete çarpıcı derecede benziyor. Sohbette, “yazarının bir mevzuyu sahiden anladığını mı yoksa onu papağan üzere ezberlediğini mi keşfetmek” için incelenebilecek bir şeyin örneği veriliyor.

Elbette burada çok daha fazla felsefi soru iş başında. Tahminen de huzur kaçıranı şu: Turing Testi’ni gerçek yapay zekayı tespit etmede sağlam bir yol olarak görmezsek, bir alternatifimiz var mı? Ya da öbür bir sözle, bir makinenin ne vakit gerçek zeka sergileyebileceğini yahut sergileyip sergilemediğini bilmenin öteki muteber bir metodu var mı?

“Bence birden fazla kişi bilinçlilik kriterimizin davranıştan öteye gitmesi gerektiğini söyleyecektir” diyor Jones. “Aynı davranışı, şuurlu tecrübesi olmadan şuurlu bir varlık olarak gerçekleştiren bir şey düşünebiliriz. Tahminen de ek kriter eklemek isteriz.”

Bu ölçütün ne olması gerektiği ve hatta “Bu varlık zeki mi değil mi?” testi için belirleyici bir ölçüt olup olmadığı ise şimdi aşikâr değil. Sonuçta hayvanlardaki emsal bir test için bu türlü bir ölçütümüzün olduğu bile belirli değil. Beşerler olarak bir biçimde eşsiz olduğumuza yönelik sarsılmaz bir itimadımız var. Ancak yıllar yılı, bir vakitler yalnızca insanlara has olduğu düşünülen özelliklerin aslında o denli olmadığı bir bir ortaya çıktı. Örnekler ortasında alet kullanmak, topluluk meydana getirmek ve empati tecrübesi var.

Hal böyleyken, farklı olduğumuz fikrinden vazgeçmek kolay değil. Tam olarak nasıl olduğunu belirlemek şaşırtan ölçüde güç yalnızca. Emsal biçimde bu durum, kelam konusu farklılığın nerede başladığını belirlemeyi son derece güç hale getiriyor. Elektrolit torbaları olmayı bırakıp şuurlu varlıklar olmaya nerede başlıyoruz? Görünüşe nazaran bu soru, bilinçliliğin bilgisayar CPU’larındaki sersemletici ölçüde karmaşık elektrik sinyallerinin neresinde ortaya çıktığının karşılığını bulmaktan daha kolay değil.

Turing’liğini yapan Turing’in buna da bir yanıtı var. “Bilinçlilik ile ilgili hiçbir gizem olmadığını düşünüyormuş izlenimi vermek istemem. Örneğin bilinçliliğin pozisyonunu belirlemeye dönük rastgele bir teşebbüsle irtibatlı paradoks gibisi bir şey var.” Testin sunduğu soruya karşılık bulmak için insanlardaki şuurun kaynağını anlamanın kaide olmadığını ileri sürüyor Turing.

Kendisi en dar bağlamda haklı; özünde bir makinenin bir insanı emniyetli biçimde taklit edebilmesi, şuurla ilgili hiçbir şey söylemiyor. Ancak ChatGPT’nin Turing Testi’ni geçmesinin yarattığı tantana, içinde bulunduğumuz çağla ilgili çok şey söylüyor: Gerçek yapay zekanın mümkün olup olmadığını bilmenin de çok kıymetli olabileceği bir çağ bu.

Bir makinenin zeki olup olmayabileceğini anlamak için tahminen de birinci olarak zekanın canlılarda nasıl ve nereden çıktığını anlamamız gerekiyordur. Bu sayede, bu türlü bir ortaya çıkışın bilgisayarlarda da mümkün olup olmadığına dair birtakım fikirler edinebiliriz; ya da tüm sapma ve peşin kararlarıyla birlikte interneti bize papağan üzere geri tekrarlamada çok ancak çok inandırıcı bir iş çıkaran programlar inşa etmenin, yapabileceğimiz en yeterli şey olup olmadığına dair birtakım fikirler…

Kaynak : Cumhuriyet

ChatGPT, Turing Testi’ni geçmeyi başardı! Sırada ne var?

İlgili Yazılar

Bir yanıt yazın
Yanıtı iptal et

ChatGPT, Turing Testi’ni geçmeyi başardı! Sırada ne var?

İlgili Yazılar

Son dakika… İngiltere, Filistin devletini bugün resmen tanıyacağını duyurdu

Siber atak Avrupa’da havalimanlarını felç etti!

Trump duyurdu… ‘Uyuşturucu taşıyan bir tekneye atak düzenledik’

Bir yanıt yazınYanıtı iptal et

Bir yanıt yazın
Yanıtı iptal et