123,123,123

“跑一個70B大模型，先得準備800萬元買顯卡？”——這不是段子，是多數(shù)企業(yè)AI本地化立項書的第一行數(shù)字。

人工智能正以前所未有的深度與廣度重塑千行百業(yè)，然而當企業(yè)投身于AI本地化部署時，兩大根本性瓶頸橫亙眼前：一是數(shù)據“供不上、存不下”的困局；二是在動輒數(shù)百GB的AI模型面前，GPU“寸土寸金”的顯存墻。當“顯存墻”越砌越高，產業(yè)界的梯子卻分出兩條截然不同的搭法。一條是“算力派”的直梯——把高端GPU像積木一樣繼續(xù)往上碼，用更多的H100、A800去換“寸土寸金”的顯存空間；另一條是“系統(tǒng)派”的折疊梯——在存算之間插入一層“彈性夾層”，把冷數(shù)據、溫數(shù)據、熱數(shù)據按溫度梯度逐層騰挪，用軟件定義和異構硬件去擠出額外的容量與帶寬。

國外已有微軟DeepSpeed、AMD Infinity Cache探路，國產陣營里，銓興科技把這套“夾層”思路拆成兩半：先用122 TB QLC eSSD等產品搭起“高性能eSSD矩陣”，把PB級模型權重穩(wěn)穩(wěn)落在閃存里；再用“添翼本地AI超顯存融合方案”把FPGA控制器引入PCIe通道，在微秒級完成數(shù)據搬運，僅把當前最活躍的激活張量留在GPU顯存——單機即可釋放20倍等效顯存空間，成本銳減90%，無需額外購置旗艦卡。

銓興科技全場景eSSD矩陣，鑄造AI的堅實數(shù)據底座

AI工作流的效率，本質上是數(shù)據流動的效率。從數(shù)據準備、模型訓練到推理應用，每個環(huán)節(jié)對存儲的要求都截然不同。單一的存儲方案無法實現(xiàn)最優(yōu)的成本效益。銓興科技的策略是提供一套層次清晰、精準匹配應用場景的eSSD產品矩陣，確保每一分投入都用在刀刃上。

01、QLC 122TB單盤，拓寬推理倉庫的容量邊界

當AI模型進入推理（Inference）與檢索增強生成（RAG）的應用階段時，存儲的核心矛盾便從“混合讀寫”轉向了“讀取密集型”負載。

銓興科技的高密度QLC eSSD系列，正是應對這一場景的“容量巨獸”和成本效益優(yōu)化器。它基于PCIe5.0接口，具備14,000MB/s的頂級順序讀取速度和超過300萬的隨機讀取IOPS，確保了AI應用在面對海量并發(fā)請求時，依然能提供低延遲的瞬時響應。

其最為顯著的優(yōu)勢，在于將單盤容量史無前例地推升至122.88TB。這意味著，客戶可以用遠少于傳統(tǒng)方案的硬盤數(shù)量、服務器乃至機柜空間，去構建PB級別的AI數(shù)據湖和模型知識庫。這不僅大幅簡化了數(shù)據中心的物理部署，更在電力消耗、冷卻和運維上帶來了顯著的成本節(jié)約，從根本上優(yōu)化了AI應用長期運行的總體擁有成本（TCO）。

02、從PCIe 5.0到SATA，給訓練盤留一條帶寬階梯

相較于AI推理階段的讀取密集型負載，更前端的模型訓練、大規(guī)模數(shù)據處理以及高性能計算（HPC）等企業(yè)級業(yè)務，則對存儲系統(tǒng)提出了更為復雜和嚴苛的“混合讀寫”考驗。這類場景不僅需要極致的讀取速度來避免GPU等核心算力單元的空轉，更需要強悍且穩(wěn)定的寫入能力來應對頻繁的數(shù)據更新與檢查點操作。

為應對這一挑戰(zhàn)，銓興科技的TLC產品矩陣提供了層次清晰的解決方案。其旗艦級的PCIe 5.0 TLC eSSD系列，正是為上述對速度要求最為苛刻的場景而設計。它依托PCIe 5.0的超高帶寬，提供了高達14,000 MB/s的順序讀取速度與3300K的隨機IOPS，確保在數(shù)據抽取與加載環(huán)節(jié)，能以最快速度“喂飽”算力核心。

同時，其強勁的寫入性能，能將AI訓練中保存檢查點所需的時間視窗壓縮到最短，從而顯著提升有效訓練時長。更重要的是，該系列產品具備高達3 DWPD的企業(yè)級寫入耐久度和創(chuàng)新的Dual Port（雙端口）設計，為動輒耗時數(shù)月、7×24小時不間斷運行的AI訓練任務，提供了企業(yè)級的可靠性與高可用性保障。

并非所有企業(yè)級應用都需要PCIe 5.0的極致吞吐能力，廣泛的平臺兼容性和部署靈活性同樣至關重要。為此，銓興科技TLC產品矩陣中還包含了高耐用性的2.5英寸SATA TLC eSSD系列。

該系列產品專注于在各類主流服務器平臺中提供穩(wěn)定可靠的存儲支持，其容量可擴展至15.36TB，并可根據客戶具體的應用負載，提供從0.5到3不等的DWPD耐久度等級。這種高度客制化的能力，使其能靈活適配從溫、冷數(shù)據存儲到要求更嚴苛的企業(yè)應用等多樣化的部署場景。

憑借這一兼顧性能與兼容性的產品布局，銓興科技的企業(yè)級存儲解決方案，已在AI服務器、數(shù)據中心、高性能計算、云存儲、數(shù)據庫等多個核心場景得到應用。其產品已通過了包括飛騰、龍芯、海光、兆芯以及中泰證券、北京郵電大學在內的多家國產化平臺和行業(yè)客戶的嚴格驗證，證明了其在多場景下的可靠性與兼容性。

從168張到16張卡，超顯存方案如何攤平賬單？

AI大模型的本地化部署，正面臨一個核心悖論：模型參數(shù)的指數(shù)級增長與GPU顯存的線性增長之間，形成了巨大的鴻溝。以一個671B參數(shù)的大模型為例，傳統(tǒng)硬件配置需要一個由168張頂級顯卡構成的龐大集群，成本高達4200萬元。這一由巨額成本砌成的“顯存墻”，正將無數(shù)渴望擁抱AI變革的高校、科研機構與中小企業(yè)拒之門外。

從產業(yè)趨勢來看，“顯存擴展技術”已成為降低AI硬件成本的重要方向，行業(yè)內已有通過軟件虛擬化、內存擴展等方式提升顯存利用率的嘗試，但普遍存在性能損耗或兼容性問題。銓興科技推出的全離線、軟硬一體“添翼AI”超顯存融合解決方案，以“超維顯存融合技術”為核心，試圖通過軟硬協(xié)同的分層存儲架構，在不改變現(xiàn)有GPU配置的前提下，實現(xiàn)等效顯存容量的倍數(shù)級擴展，讓大模型普惠化成為可能。

該方案的核心在于其自研硬件與核心算法的深度融合。其硬件基礎是一塊專為AI負載設計的“添翼AI擴容卡”，它在系統(tǒng)中扮演著GPU高速緩存擴展的角色；而賦予這塊硬件“智慧”的，則是作為智能調度中樞的“AI Link算法平臺”，它負責在GPU原生顯存與擴容卡之間進行微秒級的無感數(shù)據交換。

這種軟硬一體的架構重構，為AI項目的硬件成本帶來了數(shù)量級的優(yōu)化。其關鍵在于，“添翼AI擴容卡”將單卡的等效顯存容量有效擴展了20倍。這一突破使得算力部署不再依賴于天價的顯卡堆疊，原先需要168張頂級顯卡的龐大訓練任務，如今僅需一個由16張中階顯卡構成的緊湊型工作站即可勝任。

不僅如此，巨大的成本節(jié)約并未以犧牲性能為代價。得益于“AI Link算法平臺”的智能調度，模型推理的并發(fā)性能還能獲得高達50%的提升，實現(xiàn)了成本與效率的雙重突破。

為了讓這一強大的技術組合能被輕松駕馭，并轉化為真實的生產力，銓興科技進一步提供了“AI Studio”軟件平臺，作為連接強大底層能力與用戶的橋梁。該平臺提供了一個低代碼的圖形化界面，將復雜的模型訓練、部署、量化等流程大幅簡化，旨在極大降低用戶的操作門檻，讓更多領域的專家能夠便捷地利用AI技術。為了讓這一創(chuàng)新技術能快速轉化為生產力，銓興科技進一步推出了覆蓋全場景的“Super AI”訓推一體機系列，為不同用戶提供開箱即用的解決方案：

Super AI PC (訓推一體機):?針對初創(chuàng)團隊和小型開發(fā)組，提供從“訓練到推理”的完整閉環(huán)，其內置的AI Cache能有效加速訓練效率，是小團隊AI開發(fā)的“全能工具箱”。

Super AI工作站 (訓推一體機):?專為專業(yè)級模型開發(fā)設計，通過多GPU與加速模塊的組合，有效解決“模型迭代慢、數(shù)據不安全”的核心痛點，是保障長周期開發(fā)效率的“生產力站”。

Super AI服務器 (訓推一體體):?面向企業(yè)級大模型落地，以多卡集群與AI加速能力，將“千億模型訓推”從耗時數(shù)月壓縮至可控周期，是保障超大型模型成功落地的“攻堅平臺”。

憑借領先的技術方案與顯著的成本優(yōu)勢，銓興科技的“添翼AI”解決方案已經率先在政務、法律、高校等垂直行業(yè)實現(xiàn)了成功落地。同時，公司正與聯(lián)想等系統(tǒng)集成商（SI）伙伴深度合作，以更成熟易用的產品形態(tài)，滿足不同行業(yè)的多樣化需求，共同加速AI普惠化的進程。

結語

人工智能走向產業(yè)縱深，終究要回到基礎設施的厚度。銓興科技在“存力”與“智算”兩條技術棧并行布局，先用百TB級QLC把每GB存儲價格壓到新低，再用緩存加速卡把顯存壓力部分卸載到閃存，二者疊加，為單機運行百億級大模型提供了新的性價比路徑。隨著政務、高校等場景陸續(xù)落地，這一方案為行業(yè)提供了可觀測的參考路徑：在GPU價格仍處高位的當下，通過QLC與分層緩存換取等效顯存，有望讓AI普惠化再下沉一個臺階。

（集邦化合物半導體整理）

更多SiC和GaN的市場資訊，請關注微信公眾賬號：集邦化合物半導體。

銓興科技全場景eSSD矩陣，鑄造AI的堅實數(shù)據底座

01、QLC 122TB單盤，拓寬推理倉庫的容量邊界

02、從PCIe 5.0到SATA，給訓練盤留一條帶寬階梯

從168張到16張卡，超顯存方案如何攤平賬單？

結語

01、QLC 122TB單盤，拓寬推理倉庫的容量邊界

02、從PCIe 5.0到SATA，給訓練盤留一條帶寬階梯

從168張到16張卡，超顯存方案如何攤平賬單？