中文(繁體)

目前位置: 首頁> AI 資訊

大模型新突破:從教學影片中提煉高品質多模態教科書

作者: LoRA 時間: 2025年01月21日 548

近日,浙江大學與阿里巴巴達摩院聯合發布了一項引人注目的研究,旨在透過教學影片創建高品質的多模態教科書。這項創新的研究成果不僅為大規模語言模式(VLMs)的訓練提供了新的思路,也可能改變教育資源的運用方式。

隨著人工智慧技術的快速發展,VLMs 的預訓練語料主要依賴圖文對資料與圖文交織語料。然而,目前的這些數據多來自網頁,文字與圖像的關聯性較弱,知識密度也相對較低,無法有效支援複雜的視覺推理。

image.png

為了應對這項挑戰,研究團隊決定從網路上海量的教學影片中提煉高品質的知識語料。他們收集了超過15.9萬個教學視頻,經過精細的過濾和處理,最終保留了75,000個高質量視頻,涵蓋數學、物理、化學等多個學科,總時長超過22,000小時。

研究者設計了一條複雜的「視訊到教科書」 處理管道。首先,使用自動語音辨識(ASR)技術將影片中的講解內容轉錄為文本,接著透過圖像分析和文字匹配,篩選出與知識點高度相關的片段。最終,這些處理過的關鍵影格、OCR 文本和轉錄文本被交錯組織,形成了一個內容豐富、結構嚴謹的多模態教科書。

image.png

這項研究的初步結果顯示,與以往的網頁中心資料集相比,新生成的教科書資料集在知識密度和圖像關聯性上顯著提升,為VLMs 的學習提供了更為堅實的基礎。此外,研究也引起了學術界的廣泛關注,相關資料集在Hugging Face 平台上迅速攀升至熱門榜單,短短兩週內下載量便超過7000次。

透過這項創新的嘗試,研究者們希望不僅能推動VLMs 的發展,更能在教育資源的整合與應用上開啟新的可能性。

論文網址:https://arxiv.org/pdf/2501.00958