基于時空信息輔助監(jiān)督的語言-視頻對比學(xué)習(xí)模型
計算機學(xué)報
頁數(shù): 17 2024-08-15
摘要: 同時使用語言和圖像兩種模態(tài)信息的神經(jīng)網(wǎng)絡(luò)模型在計算機視覺領(lǐng)域取得了很大進展.一些將其用于視頻識別任務(wù)的工作,存在未考慮視頻中豐富的時間-空間信息、用于描述類別的文本過于簡單等不足.對此,本文提出了基于時空輔助信息監(jiān)督的語言-視頻對比學(xué)習(xí)模型.對于視頻編碼,提出了基于類別詞元的時序加權(quán)位移模塊進行時序建模,使得時序信息在網(wǎng)絡(luò)從底層到高層的各個層次傳播;而且還提出了時空信息輔助監(jiān)督... (共17頁)