AI存儲“黑科技”登場,助力企業(yè)實現(xiàn)90%成本銳減

作者 | 發(fā)布日期 2025 年 09 月 15 日 14:14 | 分類 企業(yè)

“跑一個70B大模型,先得準備800萬元買顯卡?”——這不是段子,是多數(shù)企業(yè)AI本地化立項書的第一行數(shù)字。

人工智能正以前所未有的深度與廣度重塑千行百業(yè),然而當企業(yè)投身于AI本地化部署時,兩大根本性瓶頸橫亙眼前:一是數(shù)據“供不上、存不下”的困局;二是在動輒數(shù)百GB的AI模型面前,GPU“寸土寸金”的顯存墻。當“顯存墻”越砌越高,產業(yè)界的梯子卻分出兩條截然不同的搭法。一條是“算力派”的直梯——把高端GPU像積木一樣繼續(xù)往上碼,用更多的H100、A800去換“寸土寸金”的顯存空間;另一條是“系統(tǒng)派”的折疊梯——在存算之間插入一層“彈性夾層”,把冷數(shù)據、溫數(shù)據、熱數(shù)據按溫度梯度逐層騰挪,用軟件定義和異構硬件去擠出額外的容量與帶寬。

國外已有微軟DeepSpeed、AMD Infinity Cache探路,國產陣營里,銓興科技把這套“夾層”思路拆成兩半:先用122 TB QLC eSSD等產品搭起“高性能eSSD矩陣”,把PB級模型權重穩(wěn)穩(wěn)落在閃存里;再用“添翼本地AI超顯存融合方案”把FPGA控制器引入PCIe通道,在微秒級完成數(shù)據搬運,僅把當前最活躍的激活張量留在GPU顯存——單機即可釋放20倍等效顯存空間,成本銳減90%,無需額外購置旗艦卡。

銓興科技全場景eSSD矩陣,鑄造AI的堅實數(shù)據底座

AI工作流的效率,本質上是數(shù)據流動的效率。從數(shù)據準備、模型訓練到推理應用,每個環(huán)節(jié)對存儲的要求都截然不同。單一的存儲方案無法實現(xiàn)最優(yōu)的成本效益。銓興科技的策略是提供一套層次清晰、精準匹配應用場景的eSSD產品矩陣,確保每一分投入都用在刀刃上。

01、QLC 122TB單盤,拓寬推理倉庫的容量邊界

當AI模型進入推理(Inference)與檢索增強生成(RAG)的應用階段時,存儲的核心矛盾便從“混合讀寫”轉向了“讀取密集型”負載。

銓興科技的高密度QLC eSSD系列,正是應對這一場景的“容量巨獸”和成本效益優(yōu)化器。它基于PCIe5.0接口,具備14,000MB/s的頂級順序讀取速度和超過300萬的隨機讀取IOPS,確保了AI應用在面對海量并發(fā)請求時,依然能提供低延遲的瞬時響應。

其最為顯著的優(yōu)勢,在于將單盤容量史無前例地推升至122.88TB。這意味著,客戶可以用遠少于傳統(tǒng)方案的硬盤數(shù)量、服務器乃至機柜空間,去構建PB級別的AI數(shù)據湖和模型知識庫。這不僅大幅簡化了數(shù)據中心的物理部署,更在電力消耗、冷卻和運維上帶來了顯著的成本節(jié)約,從根本上優(yōu)化了AI應用長期運行的總體擁有成本(TCO)。

02、從PCIe 5.0到SATA,給訓練盤留一條帶寬階梯

相較于AI推理階段的讀取密集型負載,更前端的模型訓練、大規(guī)模數(shù)據處理以及高性能計算(HPC)等企業(yè)級業(yè)務,則對存儲系統(tǒng)提出了更為復雜和嚴苛的“混合讀寫”考驗。這類場景不僅需要極致的讀取速度來避免GPU等核心算力單元的空轉,更需要強悍且穩(wěn)定的寫入能力來應對頻繁的數(shù)據更新與檢查點操作。

為應對這一挑戰(zhàn),銓興科技的TLC產品矩陣提供了層次清晰的解決方案。其旗艦級的PCIe 5.0 TLC eSSD系列,正是為上述對速度要求最為苛刻的場景而設計。它依托PCIe 5.0的超高帶寬,提供了高達14,000 MB/s的順序讀取速度與3300K的隨機IOPS,確保在數(shù)據抽取與加載環(huán)節(jié),能以最快速度“喂飽”算力核心。

同時,其強勁的寫入性能,能將AI訓練中保存檢查點所需的時間視窗壓縮到最短,從而顯著提升有效訓練時長。更重要的是,該系列產品具備高達3 DWPD的企業(yè)級寫入耐久度和創(chuàng)新的Dual Port(雙端口)設計,為動輒耗時數(shù)月、7×24小時不間斷運行的AI訓練任務,提供了企業(yè)級的可靠性與高可用性保障。

并非所有企業(yè)級應用都需要PCIe 5.0的極致吞吐能力,廣泛的平臺兼容性和部署靈活性同樣至關重要。為此,銓興科技TLC產品矩陣中還包含了高耐用性的2.5英寸SATA TLC eSSD系列。

該系列產品專注于在各類主流服務器平臺中提供穩(wěn)定可靠的存儲支持,其容量可擴展至15.36TB,并可根據客戶具體的應用負載,提供從0.5到3不等的DWPD耐久度等級。這種高度客制化的能力,使其能靈活適配從溫、冷數(shù)據存儲到要求更嚴苛的企業(yè)應用等多樣化的部署場景。

憑借這一兼顧性能與兼容性的產品布局,銓興科技的企業(yè)級存儲解決方案,已在AI服務器、數(shù)據中心、高性能計算、云存儲、數(shù)據庫等多個核心場景得到應用。其產品已通過了包括飛騰、龍芯、海光、兆芯以及中泰證券、北京郵電大學在內的多家國產化平臺和行業(yè)客戶的嚴格驗證,證明了其在多場景下的可靠性與兼容性。

從168張到16張卡,超顯存方案如何攤平賬單?

AI大模型的本地化部署,正面臨一個核心悖論:模型參數(shù)的指數(shù)級增長與GPU顯存的線性增長之間,形成了巨大的鴻溝。以一個671B參數(shù)的大模型為例,傳統(tǒng)硬件配置需要一個由168張頂級顯卡構成的龐大集群,成本高達4200萬元。這一由巨額成本砌成的“顯存墻”,正將無數(shù)渴望擁抱AI變革的高校、科研機構與中小企業(yè)拒之門外。

從產業(yè)趨勢來看,“顯存擴展技術”已成為降低AI硬件成本的重要方向,行業(yè)內已有通過軟件虛擬化、內存擴展等方式提升顯存利用率的嘗試,但普遍存在性能損耗或兼容性問題。銓興科技推出的全離線、軟硬一體“添翼AI”超顯存融合解決方案,以“超維顯存融合技術”為核心,試圖通過軟硬協(xié)同的分層存儲架構,在不改變現(xiàn)有GPU配置的前提下,實現(xiàn)等效顯存容量的倍數(shù)級擴展,讓大模型普惠化成為可能。

該方案的核心在于其自研硬件與核心算法的深度融合。其硬件基礎是一塊專為AI負載設計的“添翼AI擴容卡”,它在系統(tǒng)中扮演著GPU高速緩存擴展的角色;而賦予這塊硬件“智慧”的,則是作為智能調度中樞的“AI Link算法平臺”,它負責在GPU原生顯存與擴容卡之間進行微秒級的無感數(shù)據交換。

這種軟硬一體的架構重構,為AI項目的硬件成本帶來了數(shù)量級的優(yōu)化。其關鍵在于,“添翼AI擴容卡”將單卡的等效顯存容量有效擴展了20倍。這一突破使得算力部署不再依賴于天價的顯卡堆疊,原先需要168張頂級顯卡的龐大訓練任務,如今僅需一個由16張中階顯卡構成的緊湊型工作站即可勝任。

不僅如此,巨大的成本節(jié)約并未以犧牲性能為代價。得益于“AI Link算法平臺”的智能調度,模型推理的并發(fā)性能還能獲得高達50%的提升,實現(xiàn)了成本與效率的雙重突破。

為了讓這一強大的技術組合能被輕松駕馭,并轉化為真實的生產力,銓興科技進一步提供了“AI Studio”軟件平臺,作為連接強大底層能力與用戶的橋梁。該平臺提供了一個低代碼的圖形化界面,將復雜的模型訓練、部署、量化等流程大幅簡化,旨在極大降低用戶的操作門檻,讓更多領域的專家能夠便捷地利用AI技術。為了讓這一創(chuàng)新技術能快速轉化為生產力,銓興科技進一步推出了覆蓋全場景的“Super AI”訓推一體機系列,為不同用戶提供開箱即用的解決方案:

Super AI PC (訓推一體機):?針對初創(chuàng)團隊和小型開發(fā)組,提供從“訓練到推理”的完整閉環(huán),其內置的AI Cache能有效加速訓練效率,是小團隊AI開發(fā)的“全能工具箱”。

Super AI工作站 (訓推一體機):?專為專業(yè)級模型開發(fā)設計,通過多GPU與加速模塊的組合,有效解決“模型迭代慢、數(shù)據不安全”的核心痛點,是保障長周期開發(fā)效率的“生產力站”。

Super AI服務器 (訓推一體體):?面向企業(yè)級大模型落地,以多卡集群與AI加速能力,將“千億模型訓推”從耗時數(shù)月壓縮至可控周期,是保障超大型模型成功落地的“攻堅平臺”。

憑借領先的技術方案與顯著的成本優(yōu)勢,銓興科技的“添翼AI”解決方案已經率先在政務、法律、高校等垂直行業(yè)實現(xiàn)了成功落地。同時,公司正與聯(lián)想等系統(tǒng)集成商(SI)伙伴深度合作,以更成熟易用的產品形態(tài),滿足不同行業(yè)的多樣化需求,共同加速AI普惠化的進程。

結語

人工智能走向產業(yè)縱深,終究要回到基礎設施的厚度。銓興科技在“存力”與“智算”兩條技術棧并行布局,先用百TB級QLC把每GB存儲價格壓到新低,再用緩存加速卡把顯存壓力部分卸載到閃存,二者疊加,為單機運行百億級大模型提供了新的性價比路徑。隨著政務、高校等場景陸續(xù)落地,這一方案為行業(yè)提供了可觀測的參考路徑:在GPU價格仍處高位的當下,通過QLC與分層緩存換取等效顯存,有望讓AI普惠化再下沉一個臺階。

(集邦化合物半導體整理)

更多SiC和GaN的市場資訊,請關注微信公眾賬號:集邦化合物半導體。