浪潮信息面向百人規(guī)模中小企業(yè)推出輕量推理方案,基于元腦服務器NF5280G7,可運行DeepSeek和千問QwQ等新一代大推理模型。NF5280G7,采用2顆高性能通用CPU,內(nèi)置AI加速器,支持多通道內(nèi)存系統(tǒng),搭配1塊中低端主流消費級顯卡/GPU卡,充分平衡、調(diào)用CPU算力和智能算力,單機即可運行DeepSeek-R1 32B和QwQ-32B推理模型,16并發(fā)用戶時,單用戶性能超38 tokens/s,用是企業(yè)部署上線大模型平臺的高性價比算力選擇,將加速DeepSeek帶動下AI落地普及速度。
在企業(yè)部署大模型的過程中,參數(shù)規(guī)模與其應用場景息息相關(guān)。浪潮信息與IDC聯(lián)合發(fā)布的《2025年中國人工智能計算力發(fā)展評估報告》顯示,目前92%企業(yè)使用的生成式人工智能模型平均參數(shù)量小于50B。一般而言,671B等超大規(guī)模參數(shù)的模型性能更強,但對硬件資源要求高,部署成本昂貴;而32B級模型在理解能力和知識儲備上有顯著優(yōu)勢,能夠平衡性能和部署成本。以業(yè)界32B模型為例,DeepSeek-R1 32B在知識問答、智能寫作、內(nèi)容生成等方面表現(xiàn)優(yōu),QwQ-32B則在數(shù)學推理、編程任務和長文本處理等方面的性能優(yōu)。DeepSeek-R1 32B和QwQ-32B的訓練數(shù)據(jù)中包含海量的高質(zhì)量中文語料庫,會更加適合于國內(nèi)企業(yè)應用。因此,大多數(shù)企業(yè)應用場景中,如企業(yè)知識庫問答、文檔寫作、會議紀要整理等場景,32B參數(shù)級別的模型選擇,既能提供強大的能力支持,又能保持合理的硬件投入。
將AI推理過程拆開來看,LLM推理過程主要包含兩個階段:預填充和解碼;其中預填充階段是對輸入進行處理的階段,性能主要取決于CPU算力,解碼階段需要逐token計算,每次生成一個token都要內(nèi)存帶寬加載一次模型執(zhí)行推理,性能主要取決于內(nèi)存帶寬。
在算力方面,元腦服務器NF5280G7設計上采用2顆高性能處理器,內(nèi)置AI加速器功能,僅需搭配1張中低端主流消費級顯卡/GPU卡,即可實現(xiàn)單機超強的AI推理能力。NF5280G7輕量推理方案充分利用并平衡CPU算力和智能算力,進行軟硬協(xié)同優(yōu)化,支持DeepSeek-R1 32B和QwQ-32B等大模型的推理,為中小企業(yè)用戶提供了高性價比的部署平臺。
測試數(shù)據(jù)顯示,基于單臺NF5280G7搭配1塊市場主流消費級顯卡的方案,在使用DeepSeek-R1 32B進行帶思維鏈深度思考的短輸入長輸出的問答場景下,支持16個用戶并發(fā)數(shù)的情況下解碼性能超過38.1tokens/s;在使用QwQ-32B Q4進行模型推理時,支持16個并發(fā)用戶數(shù)的情況下解碼性能達到38.3tokens/s;可以提供流暢穩(wěn)定的用戶體驗。
當前,元腦服務器研發(fā)團隊正與業(yè)內(nèi)團隊密切合作,在計算架構(gòu)、算子調(diào)優(yōu)、并行策略、框架適配、調(diào)度管理等多個方面持續(xù)發(fā)力,旨在為用戶帶來高速、穩(wěn)定的DeepSeek等大模型部署方案,助力大模型快速落地應用。