近日,“史上最快大模型”爆火。一家海外AI芯片初創(chuàng)公司Groq使用其自研LPU(語言處理單元)作為推理芯片,使大模型每秒生成速度接近每秒500 token(文本中的一個最小單位),碾壓GPT-3.5的每秒40 token。
這意味著大模型從處理請求到獲得響應所需的時間大幅縮短,有網友直呼“它回復的速度比我眨眼還快”;有人認為Groq的LPU可能成為英偉達GPU芯片的有力替代品;更有自媒體聲稱英偉達被Groq的LPU“碾壓”。
但隨后陸續(xù)有業(yè)界專家對于Groq LPU性價比和競爭力提出質疑,并否認其可能沖擊英偉達。有計算顯示Groq LPU的硬件成本約是英偉達H100 GPU的40倍,能耗成本約是其10倍。
專家質疑Groq LPU性價比和競爭力
清華大學集成電路學院副教授何虎接受記者采訪表示,LPU屬于推理芯片,和目前供不應求、主要用于大模型訓練的GPU芯片不能算同一個賽道。從推理芯片賽道來看,LPU目前可能達到了較高性能,但是運行成本并不低。高性能低成本的推理芯片可以降低推理成本、拓寬AI大模型應用范圍。其市場前景主要取決于推理需求的市場選擇,不太涉及科技競爭。
顧名思義,訓練芯片主要用于訓練大模型,推理芯片則主要用于AI應用中。業(yè)內認為,隨著各行各業(yè)迎來垂類大模型,AI大模型應用逐步落地,用于推理的算力將和訓練算力一樣受到關注。
然而,即便是用于推理,有專家根據LPU、GPU的內存容量和大模型運行吞吐量計算,無論在性價比和能效比上,LPU都無法和英偉達的GPU競爭。
臉書原AI科學家、阿里原技術副總裁賈揚清在海外社交媒體平臺發(fā)文分析,Groq LPU的內存容量非常小(230MB)。簡單計算得出,運行700億參數模型時,需要305張Groq卡,相當于使用8張英偉達H100。從目前的價格來看,這意味著在同等吞吐量下,Groq LPU的硬件成本約是H100的40倍,能耗成本約是其10倍。
記者采訪的某國內頭部AI芯片公司負責人也認同上述計算結果。他認為,與GPU使用HBM(高帶寬存儲器)不同,LPU使用了SRAM(靜態(tài)隨機存儲器)作為存儲,就意味著要堆很多卡才能跑一個大模型。
騰訊科技芯片專家姚金鑫更是直言:“英偉達在本次AI浪潮中的絕對領先地位,使得全球都翹首以盼挑戰(zhàn)者。每次吸引眼球的文章,總會在最初被人相信,除了這個原因之外,還是因為在做對比時的‘套路’,故意忽略其他因素,用單一維度來做比較?!?/p>
Groq多年致力于顛覆GPU和CPU等傳統(tǒng)架構
Groq官網介紹說,LPU代表語言處理單元,是一種新型的端到端處理單元系統(tǒng),可為具有順序組件的計算密集型應用程序(如大語言模型LLM)提供最快的推理。
Groq官網展示的簡化LPU架構
對于為什么LPU用于LLM和生成式AI時比GPU快得多,Groq官網解釋說,LPU旨在克服LLM的兩個瓶頸:計算密度和內存帶寬。對于LLM來說,LPU的計算能力要大于GPU和CPU,減少了計算每個單詞所需的時間后,可以更快生成文本序列。此外,通過消除外部內存瓶頸使LPU推理引擎能在LLM上提供比GPU高幾個數量級的性能。
Groq成立于2016年。早在2021年,外界就曾將Groq稱為“英偉達最強挑戰(zhàn)者”。2021年,Groq獲得了由知名投資機構老虎環(huán)球管理基金、D1 Capital領投的3億美元,總融資額達3.67億美元。
2023年8月,Groq就推出了Groq LPU,可以以每秒超過100 token的創(chuàng)紀錄速度運行700億參數的企業(yè)級語言模型。Groq估計,與其他系統(tǒng)相比,它具有10倍到100倍的速度優(yōu)勢。
Groq創(chuàng)始人兼首席執(zhí)行官喬納森·羅斯(Jonathan Ross)曾表示:“人工智能受到現有系統(tǒng)的限制,其中許多系統(tǒng)正在被新進入者追隨或逐步改進。無論你在這個問題上投入多少錢,GPU和CPU等傳統(tǒng)架構都難以滿足人工智能和機器學習不斷增長的需求……我們的使命更具顛覆性:Groq尋求通過將計算成本降至零來釋放人工智能的潛力。”