浪潮信息面向百人規(guī)模中小企業(yè)推出輕量推理方案,基于元腦服務(wù)器NF5280G7,可運(yùn)行DeepSeek和千問QwQ等新一代大推理模型。NF5280G7,采用2顆高性能通用CPU,內(nèi)置AI加速器,支持多通道內(nèi)存系統(tǒng),搭配1塊中低端主流消費(fèi)級(jí)顯卡/GPU卡,充分平衡、調(diào)用CPU算力和智能算力,單機(jī)即可運(yùn)行DeepSeek-R1 32B和QwQ-32B推理模型,16并發(fā)用戶時(shí),單用戶性能超38 tokens/s,用是企業(yè)部署上線大模型平臺(tái)的高性價(jià)比算力選擇,將加速DeepSeek帶動(dòng)下AI落地普及速度。
在企業(yè)部署大模型的過程中,參數(shù)規(guī)模與其應(yīng)用場(chǎng)景息息相關(guān)。浪潮信息與IDC聯(lián)合發(fā)布的《2025年中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》顯示,目前92%企業(yè)使用的生成式人工智能模型平均參數(shù)量小于50B。一般而言,671B等超大規(guī)模參數(shù)的模型性能更強(qiáng),但對(duì)硬件資源要求高,部署成本昂貴;而32B級(jí)模型在理解能力和知識(shí)儲(chǔ)備上有顯著優(yōu)勢(shì),能夠平衡性能和部署成本。以業(yè)界32B模型為例,DeepSeek-R1 32B在知識(shí)問答、智能寫作、內(nèi)容生成等方面表現(xiàn)優(yōu),QwQ-32B則在數(shù)學(xué)推理、編程任務(wù)和長(zhǎng)文本處理等方面的性能優(yōu)。DeepSeek-R1 32B和QwQ-32B的訓(xùn)練數(shù)據(jù)中包含海量的高質(zhì)量中文語(yǔ)料庫(kù),會(huì)更加適合于國(guó)內(nèi)企業(yè)應(yīng)用。因此,大多數(shù)企業(yè)應(yīng)用場(chǎng)景中,如企業(yè)知識(shí)庫(kù)問答、文檔寫作、會(huì)議紀(jì)要整理等場(chǎng)景,32B參數(shù)級(jí)別的模型選擇,既能提供強(qiáng)大的能力支持,又能保持合理的硬件投入。
將AI推理過程拆開來看,LLM推理過程主要包含兩個(gè)階段:預(yù)填充和解碼;其中預(yù)填充階段是對(duì)輸入進(jìn)行處理的階段,性能主要取決于CPU算力,解碼階段需要逐token計(jì)算,每次生成一個(gè)token都要內(nèi)存帶寬加載一次模型執(zhí)行推理,性能主要取決于內(nèi)存帶寬。
在算力方面,元腦服務(wù)器NF5280G7設(shè)計(jì)上采用2顆高性能處理器,內(nèi)置AI加速器功能,僅需搭配1張中低端主流消費(fèi)級(jí)顯卡/GPU卡,即可實(shí)現(xiàn)單機(jī)超強(qiáng)的AI推理能力。NF5280G7輕量推理方案充分利用并平衡CPU算力和智能算力,進(jìn)行軟硬協(xié)同優(yōu)化,支持DeepSeek-R1 32B和QwQ-32B等大模型的推理,為中小企業(yè)用戶提供了高性價(jià)比的部署平臺(tái)。
測(cè)試數(shù)據(jù)顯示,基于單臺(tái)NF5280G7搭配1塊市場(chǎng)主流消費(fèi)級(jí)顯卡的方案,在使用DeepSeek-R1 32B進(jìn)行帶思維鏈深度思考的短輸入長(zhǎng)輸出的問答場(chǎng)景下,支持16個(gè)用戶并發(fā)數(shù)的情況下解碼性能超過38.1tokens/s;在使用QwQ-32B Q4進(jìn)行模型推理時(shí),支持16個(gè)并發(fā)用戶數(shù)的情況下解碼性能達(dá)到38.3tokens/s;可以提供流暢穩(wěn)定的用戶體驗(yàn)。
當(dāng)前,元腦服務(wù)器研發(fā)團(tuán)隊(duì)正與業(yè)內(nèi)團(tuán)隊(duì)密切合作,在計(jì)算架構(gòu)、算子調(diào)優(yōu)、并行策略、框架適配、調(diào)度管理等多個(gè)方面持續(xù)發(fā)力,旨在為用戶帶來高速、穩(wěn)定的DeepSeek等大模型部署方案,助力大模型快速落地應(yīng)用。