AV中文字幕在线|一级女性全黄久久生活片免费|精品国产一区二区三区免费胖女|成人精品一区二区三区四

長沙共和信息科技公司供應曙光服務器、浪潮服務器、惠普服務器及工作站!HP服務器代理商 | 中科曙光服務器
  • 長沙惠普服務器代理商
您所在的位置:首頁 > 新聞中心  > 最新資訊
元腦服務器推出輕量推理方案:NF5280G7全面支持DeepSeek和QwQ,加速AI落地
來源:www.cqnzz.cn 發(fā)布時間:2025/7/3 18:18:46

浪潮信息面向百人規(guī)模中小企業(yè)推出輕量推理方案,基于元腦服務器NF5280G7,可運行DeepSeek和千問QwQ等新一代大推理模型。NF5280G7,采用2顆高性能通用CPU,內(nèi)置AI加速器,支持多通道內(nèi)存系統(tǒng),搭配1塊中低端主流消費級顯卡/GPU卡,充分平衡、調(diào)用CPU算力和智能算力,單機即可運行DeepSeek-R1 32B和QwQ-32B推理模型,16并發(fā)用戶時,單用戶性能超38 tokens/s,用是企業(yè)部署上線大模型平臺的高性價比算力選擇,將加速DeepSeek帶動下AI落地普及速度。




在企業(yè)部署大模型的過程中,參數(shù)規(guī)模與其應用場景息息相關(guān)。浪潮信息與IDC聯(lián)合發(fā)布的《2025年中國人工智能計算力發(fā)展評估報告》顯示,目前92%企業(yè)使用的生成式人工智能模型平均參數(shù)量小于50B。一般而言,671B等超大規(guī)模參數(shù)的模型性能更強,但對硬件資源要求高,部署成本昂貴;而32B級模型在理解能力和知識儲備上有顯著優(yōu)勢,能夠平衡性能和部署成本。以業(yè)界32B模型為例,DeepSeek-R1 32B在知識問答、智能寫作、內(nèi)容生成等方面表現(xiàn)優(yōu),QwQ-32B則在數(shù)學推理、編程任務和長文本處理等方面的性能優(yōu)。DeepSeek-R1 32B和QwQ-32B的訓練數(shù)據(jù)中包含海量的高質(zhì)量中文語料庫,會更加適合于國內(nèi)企業(yè)應用。因此,大多數(shù)企業(yè)應用場景中,如企業(yè)知識庫問答、文檔寫作、會議紀要整理等場景,32B參數(shù)級別的模型選擇,既能提供強大的能力支持,又能保持合理的硬件投入。


將AI推理過程拆開來看,LLM推理過程主要包含兩個階段:預填充和解碼;其中預填充階段是對輸入進行處理的階段,性能主要取決于CPU算力,解碼階段需要逐token計算,每次生成一個token都要內(nèi)存帶寬加載一次模型執(zhí)行推理,性能主要取決于內(nèi)存帶寬。


在算力方面,元腦服務器NF5280G7設計上采用2顆高性能處理器,內(nèi)置AI加速器功能,僅需搭配1張中低端主流消費級顯卡/GPU卡,即可實現(xiàn)單機超強的AI推理能力。NF5280G7輕量推理方案充分利用并平衡CPU算力和智能算力,進行軟硬協(xié)同優(yōu)化,支持DeepSeek-R1 32B和QwQ-32B等大模型的推理,為中小企業(yè)用戶提供了高性價比的部署平臺。


測試數(shù)據(jù)顯示,基于單臺NF5280G7搭配1塊市場主流消費級顯卡的方案,在使用DeepSeek-R1 32B進行帶思維鏈深度思考的短輸入長輸出的問答場景下,支持16個用戶并發(fā)數(shù)的情況下解碼性能超過38.1tokens/s;在使用QwQ-32B Q4進行模型推理時,支持16個并發(fā)用戶數(shù)的情況下解碼性能達到38.3tokens/s;可以提供流暢穩(wěn)定的用戶體驗。


當前,元腦服務器研發(fā)團隊正與業(yè)內(nèi)團隊密切合作,在計算架構(gòu)、算子調(diào)優(yōu)、并行策略、框架適配、調(diào)度管理等多個方面持續(xù)發(fā)力,旨在為用戶帶來高速、穩(wěn)定的DeepSeek等大模型部署方案,助力大模型快速落地應用。



掃二維碼咨詢
產(chǎn)品導航

曙光服務器

浪潮服務器
惠普服務器
新華三服務器
寶德服務器
聯(lián)系我們

座機:
0731-89842037  89842038  89842039

電話:130-3678-6724   133-8731-9287
地址:長沙市雨花區(qū)勞動東路139號新世界廣場
郵箱:luolie130@163.com
關(guān)于我們

公司介紹
企業(yè)文化
資質(zhì)榮譽
企業(yè)郵局