大模型新突破：從教學影片中提煉高品質多模態教科書

作者: LoRA 時間: 2025年01月21日 548

近日，浙江大學與阿里巴巴達摩院聯合發布了一項引人注目的研究，旨在透過教學影片創建高品質的多模態教科書。這項創新的研究成果不僅為大規模語言模式（VLMs）的訓練提供了新的思路，也可能改變教育資源的運用方式。

隨著人工智慧技術的快速發展，VLMs 的預訓練語料主要依賴圖文對資料與圖文交織語料。然而，目前的這些數據多來自網頁，文字與圖像的關聯性較弱，知識密度也相對較低，無法有效支援複雜的視覺推理。

為了應對這項挑戰，研究團隊決定從網路上海量的教學影片中提煉高品質的知識語料。他們收集了超過15.9萬個教學視頻，經過精細的過濾和處理，最終保留了75，000個高質量視頻，涵蓋數學、物理、化學等多個學科，總時長超過22，000小時。

研究者設計了一條複雜的「視訊到教科書」處理管道。首先，使用自動語音辨識（ASR）技術將影片中的講解內容轉錄為文本，接著透過圖像分析和文字匹配，篩選出與知識點高度相關的片段。最終，這些處理過的關鍵影格、OCR 文本和轉錄文本被交錯組織，形成了一個內容豐富、結構嚴謹的多模態教科書。

這項研究的初步結果顯示，與以往的網頁中心資料集相比，新生成的教科書資料集在知識密度和圖像關聯性上顯著提升，為VLMs 的學習提供了更為堅實的基礎。此外，研究也引起了學術界的廣泛關注，相關資料集在Hugging Face 平台上迅速攀升至熱門榜單，短短兩週內下載量便超過7000次。

透過這項創新的嘗試，研究者們希望不僅能推動VLMs 的發展，更能在教育資源的整合與應用上開啟新的可能性。

論文網址：https://arxiv.org/pdf/2501.00958