InternViT-300M-448px-V2_5
增強了實習生,以改善複雜數據中的視覺特徵提取,非常適合研究人員和開發人員。
什麼是InternViT-300M-448px-V2_5 ?
InternViT-300M-448px-V2_5是一種高級視覺識別模型,它增強了特徵提取功能,尤其是在代表性不足的域(如多語言OCR和數學圖)中。它使用VIT增量學習和NTP損失來提高稀有數據的性能。該模型與預訓練的LLM集成在一起,並支持多模式數據,包括圖像和視頻,非常適合圖像分類和文本識別任務中的研究人員和開發人員。