融合動態(tài)掩碼注意力與多教師多特征知識蒸餾的文本分類
中文信息學(xué)報
頁數(shù): 17 2024-03-15
摘要: 知識蒸餾技術(shù)可以將大規(guī)模模型中的知識壓縮到輕量化的模型中,在文本分類任務(wù)中實(shí)現(xiàn)更高效的推斷?,F(xiàn)有的知識蒸餾方法較少同時考慮多種教師與多個特征層之間的信息融合。此外,蒸餾過程采用全局填充,未能動態(tài)關(guān)注數(shù)據(jù)中的有效信息。為此,該文提出一種融合動態(tài)掩碼注意力機(jī)制與多教師多特征知識蒸餾的文本分類模型,不僅引入多種教師模型(RoBERTa、Electra)的知識源,還兼顧不同教師模型在多... (共17頁)