基于MLIR的FP8量化模擬與推理內(nèi)存優(yōu)化
計(jì)算機(jī)科學(xué)
頁(yè)數(shù): 9 2024-02-20
摘要: 隨著目標(biāo)檢測(cè)模型和語(yǔ)言大模型的迅速發(fā)展,網(wǎng)絡(luò)模型正變得越來(lái)越龐大。為了更好地在端側(cè)硬件上進(jìn)行模型部署,通常采用模型量化技術(shù)對(duì)模型進(jìn)行壓縮?,F(xiàn)有的模型量化策略主要基于FP16,BF16和INT8等類(lèi)型實(shí)現(xiàn)。其中,8bit數(shù)據(jù)類(lèi)型在降低推理內(nèi)存占用與部署開(kāi)銷(xiāo)方面最為顯著,但I(xiàn)NT8類(lèi)型依賴(lài)特定的校準(zhǔn)算法,未能很好地處理動(dòng)態(tài)范圍大、離群點(diǎn)多的模型。FP8類(lèi)型能夠更好地?cái)M合神經(jīng)網(wǎng)絡(luò)中的... (共9頁(yè))