Çin’in DeepSeek AI sohbet robotu, teknoloji endüstrisini şaşırttı ve maliyetin sadece bir kesriyle OpenAI’in ChatGPT’sine inandırıcı bir alternatif sunuyor. Son bir makale, DeepSeek V3’ün 2,048 Nvidia H800 GPU kümesi üzerinde eğitildiğini ortaya koydu – AMD Instinct hızlandırıcılarında çalıştığında ne kadar güçlü olabileceğini sadece hayal edebiliriz! Ön eğitim için 2.79 milyon GPU-saat, 14.8 trilyon belirteç üzerinde ince ayarlama ve maliyet gerektirdiği bildirilen hesaplar sadece 5.58 milyon dolara mal oldu.
DeepSeek’ın geliştiricilerinin bu başarıyı nasıl başardığı kesinlikle akıllı bir hileye dayanıyor. GPU’da sanal bir DPU
İlk olarak, soyut geçmiş. DeepSeek, görev başına sadece en ilgili kısımları seçici olarak etkinleştirerek performansı optimize etmeyi amaçlayan gelişmiş bir Uzman Karışımı (MoE) dil modelidir. Modelin üçüncü versiyonu, DeepSeek-V3, toplamda 671 milyar parametreye sahiptir ve her belirteç tahmini için sadece 37 milyar etkinleştirilmiştir. Bu seçimli etkinleştirme, yüksek performansı ve doğruluğu koruyarak hesaplama maliyetlerini büyük ölçüde azaltır. İşte bu yüzden denerseniz göreceksiniz.
DeepSeek ve eğitimiyle ilgili iddialara şüpheci olmak kolaydır, ancak makale, geliştiricilerin iş yapmak için çalışmak zorunda kaldıkları sakat donanımların en iyi şekilde nasıl değerlendirdiklerinin bazı sihirli olarak nitelendirilebilecek detaylarını ortaya koyuyor. Bu, verimli bir boru hattı paralelliği için DualPipe algoritmasının oluşturulmasını içerir. DeepSeek tarafından yayınlanan bilgilere göre, DualPipe, ileri ve geri hesaplamanın örtüşmesini, gecikmeyi azaltmayı ve GPU’lar arasında veri hareketini optimize etmeyi sağlar.
DualPipe’a bir yorum yapan The Next Platform’daki bir yorumcu, “özünde GPU üzerinde sanal bir DPU oluşturur ve iletişimi optimize ederek veri aktarım verimliliğini optimize eder” diye tanımlıyor. Better usages of it are here.
“Makine Öğrenimine Giriş” – 10 kişilik uzman ekibinin katılımıyla Derin Arama tüm dikkatleri üzerine topladı, önemli bir yolculuğa başladı.