谷歌的Gemini AI 最近實現了一個令人矚目的技術突破,它能夠同時處理多個視覺流,這在人工智慧領域是一項前所未有的成就。這項功能的亮相並不是透過Google的主流平台,而是透過一個名為「AnyChat」 的實驗性應用得以展示。
Gemini AI 的這項新能力使其不僅能夠即時觀看視頻,還能同時分析靜態影像,這打破了以往人工智慧只能處理單一視覺輸入的限制。 Gradio 的機器學習負責人Ahsen Khaliq 在接受采訪時表示:“現在你可以在與AI 進行對話的同時,讓它處理你的實時視頻和任何想分享的圖像。”
AnyChat 的成功實現了這項多流處理能力,這得益於Gemini AI 先進的神經網路架構。雖然這種能力在Gemini 的API 中已經存在,但尚未在谷歌的官方應用中向普通用戶開放。許多AI 平台,包括ChatGPT,目前只能處理單一串流的輸入,當上傳影像時會停用即時視訊串流。
這項技術的潛在應用非常廣泛。學生可以即時展示數學問題,並向Gemini 展示教科書,獲得逐步指導。藝術家可以分享正在創作的作品和參考圖像,從而獲得關於構圖和技巧的即時回饋。
AnyChat 的技術突破並非偶然,開發團隊與Gemini 的技術架構緊密合作,成功地擴展了其能力。透過這些特別的權限,AnyChat 能夠同時追蹤和分析多種視覺輸入,而不影響對話的連貫性。開發者只需簡單的程式碼就可以複製這項能力,創建支援視訊串流和圖像上傳的自訂平台。
儘管AnyChat 目前仍處於實驗階段,但其成功展示了多流AI 視覺處理的現實潛力。無論是在醫療、工程或教育等領域,Gemini 的這項新能力都將帶來顛覆性的改變。
AnyChat計畫:AnyChathttps://huggingface.co/spaces/akhaliq/anychat
AI課程適合對人工智能技術感興趣的人,包括但不限於學生、工程師、數據科學家、開發者以及AI技術的專業人士。
課程內容從基礎到高級不等,初學者可以選擇基礎課程,逐步深入到更複雜的算法和應用。
學習AI需要一定的數學基礎(如線性代數、概率論、微積分等),以及編程知識(Python是最常用的編程語言)。
將學習自然語言處理、計算機視覺、數據分析等領域的核心概念和技術,掌握使用AI工具和框架進行實際開發。
您可以從事數據科學家、機器學習工程師、AI研究員、或者在各行各業應用AI技術進行創新。