DeepSeek daha az parayla nasıl yapay zekasını yaptı?
Geçen ay, DeepSeek adlı Çinli bir start-up'ın birçok uzmanın düşündüğünden çok daha az bilgisayar çipi kullanarak dünyanın en güçlü yapay zeka sistemlerinden birini inşa ettiğini açıklamasının ardından ABD finans piyasaları düşüşe geçti. New York Times muhabiri Cade Metz, şirketin yapay zekasını nasıl eğittiğini yazdı. Yapay zeka şirketleri genellikle sohbet robotlarını 16 bin ya da daha fazla özel çiple dolu süper bilgisayarlar kullanarak eğitiyorlar. Ancak DeepSeek sadece 2 bine ihtiyacı olduğunu söyledi.
DeepSeek mühendislerinin Noel'den hemen sonra yayınladıkları bir araştırma makalesinde aktardıkları gibi start-up, sistemini inşa etme maliyetini önemli ölçüde azaltmak için çeşitli teknolojik hileler kullandı. Mühendisleri, Meta'nın en son yapay zeka teknolojisini oluşturmak için harcadığının yaklaşık onda biri kadar, sadece 6 milyon dolarlık ham bilgi işlem gücüne ihtiyaç duydu. DeepSeek tam olarak ne yaptı? İşte bir rehber.
Yapay zeka teknolojileri nasıl inşa edilir?
Önde gelen yapay zeka teknolojileri, bilim insanlarının sinir ağları olarak adlandırdıkları, muazzam miktarda veriyi analiz ederek becerilerini öğrenen matematiksel sistemlere dayanıyor. En güçlü sistemler, internetteki İngilizce metinlerin yanı sıra çok sayıda görüntü, ses ve diğer multimedyayı analiz etmek için aylar harcıyor. Bu da muazzam miktarda bilgi işlem gücü gerektiriyor.
Yaklaşık 15 yıl önce yapay zeka araştırmacıları, grafik işleme birimleri (GPU) olarak adlandırılan özel bilgisayar çiplerinin bu tür veri analizi yapmanın etkili bir yolu olduğunu fark ettiler. Silikon Vadisi'ndeki çip üreticisi Nvidia gibi şirketler bu çipleri başlangıçta bilgisayar video oyunlarının grafiklerini oluşturmak için tasarlamıştı. Ancak GPU'lar aynı zamanda sinir ağlarına güç veren matematiği çalıştırma becerisine de sahipti.
Şirketler bilgisayar veri merkezlerine daha fazla GPU yerleştirdikçe, yapay zeka sistemleri daha fazla veriyi analiz edebiliyordu. Ancak en iyi GPU'lar yaklaşık 40 bin dolara mal oluyor ve büyük miktarda elektriğe ihtiyaç duyuyorlar. Verileri çipler arasında göndermek için, çiplerin kendilerini çalıştırmaktan daha fazla elektrik gücüne ihtiyaç olabiliyor.
DeepSeek maliyetleri nasıl azalttı?
Pek çok şey yaptı. En önemlisi, uzmanların karışımı adı verilen bir yöntemi benimsedi. Şirketler genellikle internetteki tüm verilerdeki tüm örüntüleri öğrenen tek bir sinir ağı oluşturuyordu. Bu pahalı bir yöntemdi çünkü GPU çipleri arasında muazzam miktarda verinin taşınmasını gerektiriyordu. Eğer bir çip şiir yazmayı öğrenirken bir diğeri bilgisayar programı yazmayı öğreniyorsa, şiir ve programlama arasında bir örtüşme olması ihtimaline karşı birbirleriyle konuşmaları gerekiyordu.
Uzmanların karışımı yöntemiyle araştırmacılar bu sorunu, sistemi birçok sinir ağına bölerek çözmeye çalıştılar: Biri şiir, biri bilgisayar programlama, biri biyoloji, biri fizik vb. için. Bu küçük uzman sistemlerden 100 tane olabilir. Her uzman kendi özel alanına yoğunlaşabilirdi.
Birçok şirket bu yöntemle mücadele etti ancak DeepSeek bunu iyi bir şekilde yapmayı başardı. İşin püf noktası, bu küçük uzman sistemleri bir genelci sistemle eşleştirmekti. Uzmanların hala birbirleriyle bilgi alışverişinde bulunmaları gerekiyordu ve genel sistem uzmanlar arasındaki etkileşimleri koordine etmeye yardımcı olabilirdi. Bu biraz da bir editörün uzman muhabirlerle dolu bir haber odasını denetlemesine benziyor.
Peki bu daha mı verimli?
Çok daha fazla. Ancak DeepSeek'in yaptığı tek şey bu değil. İlkokul matematik dersini hatırlayan herkesin anlayabileceği ondalık sayıları içeren basit bir numarada da ustalaştı. Matematik öğretmeninizin pi kavramını açıkladığını hatırlayın. Pi asla bitmeyen bir sayıdır: 3.14159265358979… Bir dairenin çevresini belirlemek gibi faydalı hesaplamalar yapmak için Pi’yi kullanabilirsiniz. Bu hesaplamaları yaparken, Pi’yi sadece birkaç ondalık sayıya kısaltırsınız: 3,14. Bu daha basit sayıyı kullanırsanız, bir dairenin çevresi hakkında oldukça iyi bir tahmin elde edersiniz.
DeepSeek yapay zeka teknolojisini eğitirken benzer bir şey yaptı ama çok daha büyük ölçekte. Bir sinir ağının metindeki örüntüleri tanımlamasını sağlayan matematik aslında sadece çarpma işlemidir. Ancak binlerce bilgisayar çipi üzerinde aylarca süren çarpma işleminden bahsediyoruz. Tipik olarak çipler 16 bit belleğe sığan sayıları çarpar. Ancak DeepSeek her bir sayıyı yalnızca 8 bitlik belleğe sığdırdı. Bu her hesaplamanın daha az doğru olduğu anlamına geliyordu. Ama bu önemli değildi. Hesaplamalar gerçekten güçlü bir sinir ağı üretmek için yeterince doğruydu.
Bu kadar mı?
Hayır, bir hileleri daha var. Her bir sayıyı 8 bitlik belleğe sıkıştırdıktan sonra DeepSeek bu sayıları çarparken farklı bir yol izledi. Her çarpma probleminin cevabını belirlerken cevabı 32 bitlik belleğe yaydı. Başka bir deyişle, çok daha fazla ondalık sayı tuttu. Bu da cevabı daha kesin hale getirdi.
Tabii her lise öğrencisi bunu yapamaz. DeepSeek mühendisleri makalelerinde GPU'lara ne yapmaları gerektiğini söyleyen çok karmaşık bilgisayar kodlarını yazmakta da çok iyi olduklarını gösterdiler. Bu çiplerden nasıl daha fazla verim elde edebileceklerini biliyorlardı. Çok az insan bu tür bir beceriye sahip. Ancak yapay zeka laboratuarları DeepSeek'in yaptıklarını yapabilecek yetenekli mühendislere sahip.
Neden daha önce yapılmadı?
Bazı yapay zeka laboratuvarları aynı hilelerin en azından bazılarını zaten kullanıyor olabilir. OpenAI gibi şirketler kapalı kapılar ardında ne yaptıklarını her zaman açıklamazlar. Ancak diğerleri DeepSeek'in çalışmasına açıkça şaşırdı. Start-up'ın yaptığı şeyi yapmak kolay değil. Böyle bir buluş için gereken deneyler, milyarlarca olmasa da milyonlarca dolarlık elektrik gücü gerektiriyor. Başka bir deyişle, muazzam miktarda risk gerektiriyor.
Seattle'daki Allen Yapay Zeka Enstitüsü'nde araştırmacı olan ve verimli yapay zeka sistemleri kurma konusunda uzmanlaşan ve daha önce Meta'da yapay zeka araştırmacısı olarak çalışan Tim Dettmers, “Yeni şeyler denemek için çok fazla para yatırmanız gerekiyor ve çoğu zaman başarısız oluyorlar. Bu yüzden çok fazla yenilik göremiyoruz: İnsanlar işe yaramayan bir şeyi denemek için milyonlar kaybetmekten korkuyorlar” dedi.
Pek çok uzman DeepSeek'in 6 milyon dolarının yalnızca sistemin son versiyonunu eğitirken harcadığı parayı kapsadığına dikkat çekti. DeepSeek mühendisleri makalelerinde, son eğitim çalışmasından önce araştırma ve deneyler için ek fonlar harcadıklarını söylediler. Ancak aynı durum tüm ileri teknoloji yapay zeka projeleri için geçerli. DeepSeek denedi ve karşılığını aldı. Şimdi, Çinli start-up yöntemlerini diğer yapay zeka araştırmacılarıyla paylaştığı için teknolojik hileleri yapay zeka oluşturma maliyetini önemli ölçüde azaltmaya hazırlanıyor.
"Yapay Zeka" Kategorisinden Daha Fazla İçerik
Yazarlar
Çok Okunanlar
-
forbes.com.tr
Dünyanın en zengin 10 insanı (Ocak 2025)
-
forbes.com.tr
Dünyanın en zengin 10 kişisi (Kasım 2024)
-
forbes.com.tr
En zengin Türklerin sıralaması nasıl değişti?
-
Erkan Kızılocak
Forbes Girişim 50 Listesi: Zirve finteklerin
-
Nilgün Balcı Çavdar
Türk Milyarderler