在專業環境中,圖形使用者介面(GUI)代理面臨三大關鍵挑戰。首先,專業應用程式的複雜性遠高於一般軟體,要求對複雜佈局有深入理解;其次,專業工具通常具備更高的分辨率,導致目標尺寸較小,從而降低了定位準確性;最後,工作流程往往依賴額外工具和文檔,增加了操作的複雜性。這些挑戰凸顯了開發更先進的基準和解決方案以提升GUI 代理在這些嚴苛場景中的效能的必要性。
目前的GUI 定位模型和基準無法滿足專業環境的要求。例如,ScreenSpot 等工具設計主要用於低解析度任務,缺乏能夠準確模擬現實場景的多樣性。而OS-Atlas 和UGround 等模型在計算效率上表現不佳,尤其在目標較小或介面圖示豐富的情況下,常常出現失效。此外,缺乏多語言支援也限制了這些模型在全球工作流程中的應用。這些不足之處進一步突顯了需要更全面和現實的基準,以推動這一領域的發展。
為了解決這些問題,新加坡國立大學、華東師範大學和香港浸信會大學的研究團隊推出了ScreenSpot-Pro,這是一個專為高解析度專業環境量身定制的新基準。該基準擁有來自23個產業的1,581個任務資料集,包括開發、創意工具、CAD、科學平台和辦公室套件。它採用高解析度的全螢幕視覺效果,並透過專家註釋確保準確性和現實性。 ScreenSpot-Pro 也提供了包含英文和中文在內的多語言指導,以擴展評估範圍。與以往不同的是,ScreenSpot-Pro 文件化了實際工作流程,確保高品質註釋的產生,從而為GUI 定位模型的全面評估和開發提供了有效工具。
該資料集捕捉了真實且富有挑戰性的場景,基於高解析度影像,其目標區域平均僅佔總螢幕的0.07%,顯示出GUI 元素的細微和小型化。數據由在相關應用中具有豐富經驗的專業用戶收集,使用專門工具確保註釋的準確性。此外,該資料集還支援多語言功能,便於測試雙語能力,並包含多個工作流程,以捕捉專業任務的細微差別。這些特點使其特別有利於評估和提升GUI 代理的準確性和靈活性。
利用ScreenSpot-Pro 對現有GUI 定位模型的分析顯示出其在處理高解析度專業環境中的能力嚴重不足。 OS-Atlas-7B 的準確率最高僅18.9%。然而,採用迭代方法的ReGround 透過多步驟方法的微調,提高了效能,達到了40.2% 的準確率。小型組件如圖示的辨識表現出顯著困難,而雙語任務進一步凸顯了模型的限制。這些發現強調了改進技術以增強在複雜GUI 環境中的上下文理解和適應能力的必要性。
ScreenSpot-Pro 為高解析度專業環境中GUI 代理的評估設定了一個變革性的基準。它解決了複雜工作流程中的具體挑戰,提供了多樣化和精確的數據集,以指導GUI 定位的創新。這項貢獻將為更聰明、高效的代理奠定基礎,從而支持專業任務的無縫執行,顯著提升各行業的生產力和創新力。
論文:https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf
數據|:https://huggingface.co/datasets/likaixin/ScreenSpot-Pro
AI課程適合對人工智能技術感興趣的人,包括但不限於學生、工程師、數據科學家、開發者以及AI技術的專業人士。
課程內容從基礎到高級不等,初學者可以選擇基礎課程,逐步深入到更複雜的算法和應用。
學習AI需要一定的數學基礎(如線性代數、概率論、微積分等),以及編程知識(Python是最常用的編程語言)。
將學習自然語言處理、計算機視覺、數據分析等領域的核心概念和技術,掌握使用AI工具和框架進行實際開發。
您可以從事數據科學家、機器學習工程師、AI研究員、或者在各行各業應用AI技術進行創新。