CompassArena大模型評測平台升級推出全新Judge Copilot功能

作者: LoRA 時間: 2024年12月20日 1021

gallery+cover_副本.png

由上海人工智慧實驗室司南OpenCompass團隊與魔搭ModelScope共同推出的大模型評測平台CompassArena（大模型競技場）近日迎來了重磅升級，旨在為用戶提供更科學、全面的模型評估體驗。

自上線以來，CompassArena吸引了大量社群用戶參與，並透過用戶貢獻的數據不斷優化平台。這次的升級包含了以下幾大亮點：

全新Judge Copilot功能

Judge Copilot是此次升級的核心新功能。利用強大的評估模型Compass-Judger-1-32B-Instruct ，該功能為使用者提供了全方位的對比分析能力，幫助精準、高效地評估對話模型的表現。 Judge Copilot的優勢在於：

多維度評估：透過從不同角度全面評估模型表現，提供更客觀的評估。
即時對比分析：支援在多個模型之間進行即時對比，幫助使用者快速做出選擇。
智慧決策輔助：根據評測結果智慧推薦最佳模型，提升評測決策的科學性與效率。

優化榜單演算法

此次升級也對平台的榜單演算法進行了全面改進。基於原始的Bradley-Terry演算法，加入了控制變數的技術，以減少混淆因素的干擾，從而讓模型排名更加科學與精準。這項優化使得模型排名更具代表性，更符合實際應用需求。

新增20多個全新模型

CompassArena此次升級也新增了20多個全新模型，涵蓋了國內外商業模型與開源模型，並大幅豐富了平台的對戰體驗。新增的模型包括：

國內商業模式：如360gpt2-pro 、 deep-seek-v2.5-chat 、 doubao-pro-32k-240828等。
國外商業模式：如claude-3.5-sonnet-20241022 、 gemini-exp-1121等。
開源模型：平台同時引入了一系列開源模型，進一步提升了模型的多樣性和可比較性。

新增模型涉及的機構包括360 、 DeepSeek 、豆包等，為使用者提供了更多樣化的戰鬥選擇，滿足不同應用情境的需求。

用戶參與與回饋

CompassArena在此次升級中強化了Judge模型的使用者回饋機制。使用者可以點選「讚」和「踩」按鈕，對模型進行直接評價，幫助平台進一步優化模型的表現。同時，透過引入擬合控制變數的Bradley-Terry統計模型，平台能夠精準估算外部因素對模型評測結果的影響，並透過幾率比的形式展示其影響程度。