DeepSeek’in Başarısının Ardındaki DualPipe İnovasyonu

Posted by:
Zeynep Aydın
Sal, 04 Şub
0 Comment
Feature image

Çin’in DeepSeek yapay zeka sohbet botu, teknoloji endüstrisini şaşırttı ve OpenAI’in ChatGPT’sine karşı inanılır bir alternatif olarak ortaya çıktı. Son zamanlarda yayınlanan bir makale, DeepSeek V3’ün 2.048 Nvidia H800 GPU kümesinde eğitildiğini ve önceden eğitmenin 2.79 milyon GPU-saatine, 14.8 trilyon token üzerinde ince ayar yapmanın maliyetinin ise sadece 5.58 milyon dolar olduğunu açıkladı. Ancak DeepSeek geliştiricilerinin bu başarıyı nasıl elde ettiği, muhtemelen GPU’da sanal bir DPU kullanmalarına dayanıyor.

DualPipe adı verilen yeni bir yaklaşım, DeekSeek’in başarısının anahtarı gibi görünüyor. Bir uzman, buna bant genişliği verimliliğini en üst düzeye çıkaran bir GPU üzerinde sanal bir DPU olarak tanımlıyor. DeepSeek sadece Nvidia GPU’ları kullandıysa, insan AMD’nin Instinct’inin nasıl bir performans göstereceğini merak ediyor.

DeepSeek’in geliştiricilerinin bu başarıyı elde etme şekli büyük olasılıkla akıllıca bir hileye dayanıyor. İleri bir Uzmanların Karışımı (MoE) dil modeli olan DeepSeek’in performansı optimizasyonu için tasarlanmış bir model olduğu belirtildi. DeepSeek-V3’ün üçüncü versiyonu toplamda 671 milyar parametreye sahipken, her bir token tahmini için yalnızca 37 milyar etkinleştirildi. Bu seçici aktivasyon, yüksek performans ve doğruluk seviyelerini korurken hesaplama maliyetlerini büyük ölçüde azaltıyor.

DeepSeek’in geliştiricilerinin, verimli bir pipeline paralelizmi için DualPipe algoritmasını oluşturduğunu ve yayınladığı bilgilere göre, DualPipe’ın ileri ve geri hesaplamayı örtüştürdüğünü, gecikmeyi azalttığını ve GPU’lar arasında veri taşınmasını optimize ettiğini belirtti. DualPipe’ın veri transfer verimliliğini optimize etmedeki rolü, “GPU üzerinde tüm tüm iletişimi ele alan sanal bir DPU oluşturmaktan” bahseden bir yorumcu tarafından vurgulandı.

Tags:

0 0 votes
Article Rating
Subscribe
Bildir
guest

0 Comments
Eskiler
En Yeniler Beğenilenler
Inline Feedbacks
View all comments