Kore İleri Teknoloji Enstitüsü (KAIST) araştırmacıları, enerji verimliliğini artırmak için geliştirdikleri Slim-Llama adlı ASIC ile geleneksel büyük dil modellerinin (LLM’lerin) aşırı güç talepleri sorununa çözüm getiriyor. Slim-Llama, model ağırlıklarının hassasiyetini yalnızca 1 veya 2 bit seviyesine indiren ikili/üçlü nicelleştirme kullanıyor. Ayrıca, verimsiz hesaplamaları azaltarak ve veri akışı verimliliğini artırarak gereksiz işlemleri en aza indirmek için çıktı tekrar kullanımı düzeni ve indeks vektör sıralamasını içeren tasarım özellikleri de bulunuyor.
Ekip, Slim-Llama teknolojisinin önceki en iyi çözümlere göre %4,59 enerji verimliliği artışı sağladığını belirtiyor. Slim-Llama, 25 MHz’de 4,69mW’a kadar düşen ve 200MHz’de 82,07mW’a kadar ölçeklenebilen sistem güç tüketimine sahiptir. Ayrıca, 1,31 TOPS/W değerinde 4,92 TOPS’lik pik performans sunma kapasitesine sahiptir ve 200MHz’de 1,6 GB/sn dış bant genişliğini destekler.
Slim-Llama, Llama 1bit ve Llama 1.5bit gibi modelleri destekleyerek 3 milyar parametreye kadar olan modellerle uyumludur ve modern yapay zeka uygulamalarının gereksinimlerini karşılayan referans performans sunar. Slim-Llama’nın, Llama 1bit modeli için 489ms olan gecikme süresiyle, hem verimlilik hem de performansı gösterdiği ve bu kadar düşük güç tüketimiyle milyarlık parametreli modelleri çalıştıran ilk ASIC olduğu belirtiliyor. Gelecekte daha sürdürülebilir ve erişilebilir yapay zeka donanım çözümleri için bir yol açabilecek bu enerji verimliliği çözümü, büyüyen verimli LLM dağıtımına karşılık veriyor.
KAIST ekibi, Slim-Llama’yı 19 Şubat Çarşamba günü San Francisco’daki 2025 IEEE Uluslararası Katı Hal Devreler Konferansı’nda daha fazla açıklığa kavuşturacaklarını duyurdu.