由上海人工智慧實驗室司南OpenCompass團隊與魔搭ModelScope共同推出的大模型評測平台CompassArena(大模型競技場)近日迎來了重磅升級,旨在為用戶提供更科學、全面的模型評估體驗。
自上線以來,CompassArena吸引了大量社群用戶參與,並透過用戶貢獻的數據不斷優化平台。這次的升級包含了以下幾大亮點:
Judge Copilot是此次升級的核心新功能。利用強大的評估模型Compass-Judger-1-32B-Instruct ,該功能為使用者提供了全方位的對比分析能力,幫助精準、高效地評估對話模型的表現。 Judge Copilot的優勢在於:
多維度評估:透過從不同角度全面評估模型表現,提供更客觀的評估。
即時對比分析:支援在多個模型之間進行即時對比,幫助使用者快速做出選擇。
智慧決策輔助:根據評測結果智慧推薦最佳模型,提升評測決策的科學性與效率。
此次升級也對平台的榜單演算法進行了全面改進。基於原始的Bradley-Terry演算法,加入了控制變數的技術,以減少混淆因素的干擾,從而讓模型排名更加科學與精準。這項優化使得模型排名更具代表性,更符合實際應用需求。
CompassArena此次升級也新增了20多個全新模型,涵蓋了國內外商業模型與開源模型,並大幅豐富了平台的對戰體驗。新增的模型包括:
國內商業模式:如360gpt2-pro 、 deep-seek-v2.5-chat 、 doubao-pro-32k-240828等。
國外商業模式:如claude-3.5-sonnet-20241022 、 gemini-exp-1121等。
開源模型:平台同時引入了一系列開源模型,進一步提升了模型的多樣性和可比較性。
新增模型涉及的機構包括360 、 DeepSeek 、豆包等,為使用者提供了更多樣化的戰鬥選擇,滿足不同應用情境的需求。
CompassArena在此次升級中強化了Judge模型的使用者回饋機制。使用者可以點選「讚」和「踩」按鈕,對模型進行直接評價,幫助平台進一步優化模型的表現。同時,透過引入擬合控制變數的Bradley-Terry統計模型,平台能夠精準估算外部因素對模型評測結果的影響,並透過幾率比的形式展示其影響程度。
想要體驗全新升級後的CompassArena,可以存取平台: CompassArena體驗地址
這項升級標誌著CompassArena在大模型評測領域的進一步突破,不僅提升了評測的精準度和科學性,也豐富了使用者的使用選擇,進一步推動了人工智慧技術的普及和應用。
AI課程適合對人工智能技術感興趣的人,包括但不限於學生、工程師、數據科學家、開發者以及AI技術的專業人士。
課程內容從基礎到高級不等,初學者可以選擇基礎課程,逐步深入到更複雜的算法和應用。
學習AI需要一定的數學基礎(如線性代數、概率論、微積分等),以及編程知識(Python是最常用的編程語言)。
將學習自然語言處理、計算機視覺、數據分析等領域的核心概念和技術,掌握使用AI工具和框架進行實際開發。
您可以從事數據科學家、機器學習工程師、AI研究員、或者在各行各業應用AI技術進行創新。