研發(fā)類GPU集群任務數據集的構建及分析
計算機工程與科學
頁數: 10 2024-12-15
摘要: 近年來,隨著深度學習模型訓練需求增長,研究機構和企業(yè)通過搭建共享GPU集群來降低成本和提高效率。現有研究主要關注企業(yè)生產類GPU集群的任務調度和資源分配。針對研發(fā)類GPU集群鵬城云腦I,進行任務運行時關鍵指標的監(jiān)控和數據采集,構建含任務細粒度時序資源使用信息的深度學習訓練任務數據集——鵬城云腦I任務數據集。該數據集是首個面向研發(fā)類GPU集群公開數據集,揭示了研發(fā)類GPU集群中資... (共10頁)