StarVector是由ServiceNow Research 、 Mila – Quebec AI Institute和ETS Montreal聯合開發的開源多模態視覺語言模型。它專注於將圖像和文本轉換為可縮放矢量圖形(SVG)代碼。 StarVector能夠同時處理圖像和文本信息,在SVG 代碼空間中操作,直接生成標準且可編輯的SVG 文件。
該模型在包含超過200 萬個SVG 樣本的SVG-Stack 數據集上訓練,提供了StarVector -1B和StarVector -8B兩種規模,滿足不同需求。
1.圖像到SVG 的轉換(Image-to-SVG):能將圖像直接轉換為SVG 代碼,實現圖像的矢量化。
2.文本到SVG 的生成(Text-to-SVG):根據文本指令生成相應的SVG 圖形。
1.多模態架構
StarVector採用多模態架構,將視覺和語言模型無縫集成。視覺編碼器(如Vision Transformer 或CLIP 圖像編碼器)提取圖像特徵,然後通過適配器將這些特徵映射到語言模型的嵌入空間,生成視覺標記,最終生成SVG 代碼。
2.圖像編碼與視覺標記生成
圖像編碼器將圖像分割成小塊並轉換為隱藏特徵,再通過適配器投影到語言模型的嵌入空間,生成視覺標記,捕捉圖像的關鍵視覺特徵。
3.語言模型與SVG 代碼生成
基於StarCoder 的語言模型, StarVector在訓練過程中通過預測下一個SVG 代碼標記進行監督學習,推理階段則根據輸入圖像的視覺標記生成SVG 代碼。
4.大規模數據集訓練
在包含超過200 萬個SVG 樣本的SVG-Stack 數據集上進行訓練,支持圖像到SVG 和文本到SVG 的多種任務。引入SVG-Bench 基準測試,全面評估模型性能。
5.性能優勢
StarVector在圖像到SVG 和文本到SVG 的任務中表現優異,生成的SVG 文件更緊湊、語義更豐富,有效利用SVG 原語。
官網: StarVector官網
Github倉庫: StarVector Github
arXiv技術論文: StarVector 論文
1.圖標生成:根據文本描述或圖像輸入快速生成SVG 圖標,適用於網頁導航欄、按鈕等。
2.藝術創作:藝術家可以將創意草圖或文字描述轉化為矢量藝術作品,方便後續編輯。
3.動畫製作:生成的SVG 圖形可以作為動畫製作的基礎元素,進一步開發成動態效果。
4.編程教育:學生可以通過StarVector學習SVG 代碼的生成與編輯,提升編程和圖形設計能力。
5.技術圖表生成:根據文本描述生成技術圖表,如流程圖、結構圖等,用於工程文檔和技術說明。
6.數據可視化:將數據可視化為SVG 圖形,方便在網頁或報告中展示,同時保持圖形的可編輯性和可擴展性。