Google DeepMind發布DolphinGemma模型
1046
Stability AI因其Stable Diffusion文本生成圖像模型而聞名。最近,該公司與全球半導體巨頭Arm 展開合作,致力於將生成音頻人工智能能力引入移動設備。這一合作使得Stable Audio Open模型能夠完全在Arm CPU 上運行,用戶可以在設備上快速生成音效、音頻樣本和製作元素,且無需互聯網連接。
Stability AI表示,隨著生成性人工智能在企業和專業創作者中的應用越來越廣泛,確保我們的模型和工作流程在各個創造領域都能便捷使用顯得尤為重要。這不僅能夠提升創作效率,也有助於將這些技術無縫整合進視覺媒體製作流程中。
面對不斷增長的需求,該公司旨在提高其模型在邊緣設備上的運行效率。在優化Stable Audio Open模型以適應移動設備的過程中,初始測試在一台Arm CPU 設備上生成音頻的時間達到了240秒。通過對模型的蒸餾處理,並利用Arm 的軟件棧,特別是通過XNNPack 的KleidiAI 中的int8矩陣乘法內核,該公司成功將生成一個11秒音頻片段的時間縮短至8秒,提升了30倍的響應速度。
需要注意的是,用戶需要一部兼容的移動設備才能體驗這一功能。考慮到如今大多數智能手機都配備Arm 架構的CPU,因此這一技術應對各類用戶而言都變得更加可及。未來,Stability AI還計劃將其在圖像、視頻和3D 領域的所有模型都帶到邊緣設備,旨在徹底改變移動設備上的視覺媒體創作方式。