中文(繁體)
什麼是RL4VLM ?
RL4VLM是一個開源項目,它使用加固學習來微調大型視覺語言模型,從而使它們能夠做出決策。它建立在LLAVA模型上,並使用PPO算法進行培訓。該項目提供詳細的代碼庫,設置指南和許可信息。