Transformer Debugger (TDB)
變壓器調試器自動化小語言模型分析,並實現向前的行為探索干預。
Transformer Debugger結合了自動化可解釋性和稀疏自編碼器技術,支持在編寫代碼之前進行快速探索,並能夠在前向傳遞中進行干預,以觀察其如何影響特定行為。它通過識別對行為有貢獻的特定組件(神經元、注意力頭、自編碼器潛在表示),展示自動生成的解釋來說明這些組件為何強烈激活,並追踪組件間的連接以幫助發現電路。
需求人群:
"適用於研究人員和開發者,用於調查和理解語言模型的行為,以及進行模型調試和優化。"
使用場景示例:
使用TDB調查為什麼模型對某個提示輸出特定的詞彙
探索注意力頭為何關注特定詞彙
通過TDB理解模型中神經元的激活模式
產品特色:
自動化解釋小型語言模型的行為
干預前向傳遞以觀察模型行為的變化
識別並解釋模型中特定組件的激活原因
追踪組件間的連接以發現模型中的電路