Meta 出品！ Pippo：輸入單張人物圖片生高分辨率多視角圖片

作者: LoRA 時間: 2025年02月17日 461

近日，Meta Reality Labs 的研究團隊聯合高效發布了一項名為“Pippo” 的創新性生成模型，能夠從一張隨意拍攝的照片中，生成一段高達1K 分辨率的密集周轉視頻。這一突破性技術，標誌著計算機視覺和圖像生成領域的又一重要進展。

Pippo 模型的核心在於其多視圖擴散轉換器的設計。與傳統的生成模型不同，Pippo 不需要任何額外的輸入，例如擬合的參數模型或拍攝該圖像的相機參數。用戶只需提供一張普通的照片，系統就能自動生成多視角的視頻效果，為用戶呈現出更加生動和立體的人物形象。

為了便於開發者使用，Pippo 此次發佈為代碼- only 版本，沒有預訓練權重。研究團隊提供了必要的模型、配置文件、推理代碼以及Ava-256數據集的樣本訓練代碼。開發者可以通過簡單的命令克隆和設置代碼庫，快速上手進行訓練和應用。

Pippo 項目的未來計劃包括整理和清理代碼，以及推出針對預訓練模型的推理腳本。這些改進將進一步提升用戶體驗，推動該技術在實際應用中的廣泛使用。

項目:https://github.com/facebookresearch/pippo