面向飛騰處理器平臺(tái)的快速卷積算法優(yōu)化
上海理工大學(xué)學(xué)報(bào)
頁數(shù): 10 2024-12-09
摘要: 為解決卷積神經(jīng)網(wǎng)絡(luò)難以在計(jì)算資源受限設(shè)備上部署的問題,面向國(guó)產(chǎn)FT-2000/4多核處理器提出一種高性能的快速卷積算法FastInfer。采用分塊策略優(yōu)化通用矩陣乘法,將處理器訪問頻率高的數(shù)據(jù)存入更靠近處理器的緩存中,從而提高計(jì)算過程中的訪存效率。配合分塊方案設(shè)計(jì)實(shí)現(xiàn)高性能的矩陣乘法微內(nèi)核,使用向量外積運(yùn)算更新數(shù)據(jù),提高計(jì)算訪存比,實(shí)現(xiàn)最大程度掩蓋訪存指令的延遲。最終實(shí)驗(yàn)結(jié)果表... (共10頁)