Yapay zeka, soğuk ve mantıksal akıl yürütmenin somut bir örneği olarak bilinse de araştırmacılar, bu sistemlerin insanlardan daha mantıksız olabileceğini öne sürmektedir.

Araştırma ve Sonuçlar

University College London’dan araştırmacılar, en iyi yedi yapay zeka aracını insan muhakemesini test etmek için tasarlanmış bir dizi klasik teste tabi tutmuştur. En iyi performans gösteren yapay zekaların bile mantıksız olduğu ve basit hatalara yatkın olduğu görülmüştür. Çoğu model, soruların yarısından çoğunda yanlış yanıt vermiştir.

Araştırmacılar, bu modellerin insanlarla aynı şekilde mantıksız olmadığını, hatta bazılarının mantık sorularını “etik gerekçelerle” yanıtlamayı reddettiğini ortaya çıkarmıştır. Araştırma yazarı Olivia Macmillan-Scott, “Çalışmamızın sonuçlarına ve yapay zeka araçları üzerine yapılan diğer araştırmalara dayanarak, bu modellerin henüz insanlar gibi ‘düşünmediğini’ rahatlıkla söyleyebiliriz” ifadesini kullanmıştır.

Test Edilen Yapay Zeka Modelleri

Araştırmacılar, OpenAI’nin ChatGPT’si, Meta’nın Llama’sı, Claude 2 ve Google Gemini’ın çeşitli versiyonları dahil olmak üzere yedi farklı yapay zeka modelini test etmiştir. Modeller, insanların muhakeme yeteneklerini test etmek için tasarlanan 12 klasik mantık sorusuna yanıt vermesi istenmiştir.

İnsanlar genellikle bu tür testlerde kötü performans gösterirken, yapay zekaların “insan benzeri” olsaydı, aynı tür önyargılar nedeniyle karar alacakları belirtilmiştir. Ancak araştırmacılar yapay zekanın tepkilerinin çoğunlukla ne rasyonel ne de insana benzer olduğunu ortaya çıkarmıştır.

Yapay Zekanın Tepkileri ve Performans

Bir soruda, Meta’nın Llama modelinin sürekli olarak sesli harfleri ünsüz harflerle karıştırması, mantığı doğru olsa bile yanlış cevap vermesine neden olmuştur. Bazı yapay zeka sohbet robotları ise tamamen masum sorulara etik gerekçelerle yanıt vermemeyi tercih etmiştir. Araştırmacılar bunun muhtemelen koruma özelliklerinin yanlış çalışmasından kaynaklandığını öne sürmektedir.

Ayrıca yapılan testlerde yapay zekaların farklı yönlendirmeler arasında tutarsız olması nedeniyle mantıksız olduğu sonucuna varılmıştır. Aynı model, aynı soruya farklı ve sıklıkla çelişkili yanıtlar sunabilmektedir. En iyi performansı gösteren yapay zeka modeli ise yüzde 69,2 oranında doğru ve insani mantıkla yanıt veren ChatGPT olmuştur.