不用顯卡跑AI ？現在，大模型回到了“鑿石記事”時代_電玩幫

Tips：文末有在線體驗地址

上週，一家叫 Taalas 的加拿大公司從隱身模式裏鑽了出來，帶着一塊芯片和一句 slogan：

The Model is The Computer（模型就是計算機）

翻譯成人話就是，他們把 AI 模型的權重和架構直接硬編碼進了硅片裏。

注意噢，模型不是跑在芯片上，是模型變成了芯片本身。

模型的每一層、每一個權重都是芯片上的物理線路，電流走一遍就出結果，沒有內存處理，沒有軟件調度。

Taalas HC1 硬連線 Llama 3.1 8B 型號

這個思路乍一聽挺離譜的，有一種回到了幾萬年前原始人在石頭上刻字的既視感。

自前兩年 AI 潮以來，大家都在卷誰的 GPU 更猛、誰的顯存更大、誰的互聯帶寬更高，，，

但 Taalas 直接掀桌子大手一揮：

軟件棧？不需要。散熱液冷？更不需要（Taalas HC1 TDP 僅250w）。

他們把 Llama 3.1 8B 蝕刻進一塊 6nm、815 平方毫米的硅片裏，塞了 530 億個晶體管，在功耗僅 200 多瓦的前提下，推理速度幹到了每秒 17000 tokens！

什麼概念呢？

目前推理速度的天花板 Cerebras 大概是 2000 tokens/s，Groq(LPU，張量流處理器架構) 是 594，NVIDIA 的 B200 才 353。

對 Cerebras 沒概念？簡單點理解其實就是超大GPU👇

Taalas 的 HC1 是 Cerebras 的將近十倍，是 B200 的快五十倍，其官方給出的實測 demo 裏跑出過 16960 tokens/s，一整條回覆 0.138 秒就吐完了。

我去他們的 demo 站 chatjimmy 實際試了一下，體驗確實很魔幻。

回覆基本是瞬間出現的，不是一個字一個字蹦，是整段話啪地糊你臉上，跑出來的素服甚至比其官方聲稱得更快，快到你會懷疑它是不是提前緩存好的。👇

但聊了幾輪就發現問題了：這玩意兒挺弱智的。

問它稍微難點得問題，回答質量肉眼可見地拉跨，更別提邏輯推理了，基本沒這方面能力，偶爾還會胡言亂語。

不過這也正常，底層是個 8B 參數的模型，還被激進量化到了 3-bit，能保持基本對話流暢已經算超常發揮了。

速度極快，聰明程度明顯不夠，這就是 HC1 目前最真實的狀態。

“說100000次你好”然後我成功吧模型乾死了

所以 Taalas 做的事情本質上是一個極端的工程權衡：用模型靈活性換推理速度。

以及，這種玩法，這讓人很自然地想到一個老朋友：ASIC 礦機。

專門挖門羅幣的礦機

熟悉挖礦歷史的人對這條路線不會陌生。

比特幣早期大家用 CPU 挖，後來換 GPU，再後來出現了專用礦機，效率直接把 GPU 按在地上摩擦。

但代價是隻能幹一件事，以太坊換個算法它就成了電子垃圾，同理，模型只要一迭代，你之前生產的芯片某種程度上就成爲“過時的”了。

不過瑕不掩瑜，在很多人看來，就算有這個致命的軟肋，其令人咋舌的推理速度，也足以彌補其缺點。

當然，Taalas 自己也知道模型焊死就不能換這個軟肋，他們搞了個叫 Taalas Foundry 的自動化平臺，說是從拿到一個新模型到流片出芯片只要 60 天。

芯片還支持 LoRA 微調和可配置上下文窗口，算是在完全固化和靈活適配之間找了個折中。

對了，Taalas 這個團隊背景也值得說一嘴。

CEO Ljubisa Bajic 是 Tenstorrent 的聯合創始人，之前在 AMD 和 NVIDIA 做架構師。

另外兩個聯合創始人 Drago Ignjatovic 和 Lejla Bajic 也是 Tenstorrent 早期的人。

整個團隊人很少，一共才 24 個人，3000 萬研發費（還沒用完），做出一塊 530 億晶體管的推理芯片.....這個投入產出比確實有點嚇人。

但冷靜想想，挑戰也很現實，正如前面提到的，現在的 AI 模型的迭代速度是以月爲單位的——今天你把一個模型刻進芯片，下個月後更強的模型出來了，這塊芯片的競爭力就打折了。

60 天流片聽起來快，但加上驗證、量產、部署，實際週期可能要半年，半年在這個行業夠發生很多事了。

而且 17000 t/s 的速度雖然炸裂，但對於大部分應用場景來說，人類的閱讀速度纔是瓶頸。

你一秒吐一萬七千個 token 給我，我又不是機器，看不了那麼快，對吧？

真正能喫下這個速度的場景其實比較垂直：實時語音交互、虛擬人驅動、邊緣設備推理、高頻 API 批量調用這些對延遲極度敏感的領域。

好消息是他們的路線圖顯示，2026 年冬天會推 HC2 平臺，支持 20B 甚至更大的模型，多片拼接能跑到單用戶 12000 t/s 以上，每百萬 token 成本壓到 7.6 美分，只有 GPU 方案的一半。

如果真能把前沿大模型燒進去還保持這種速度優勢，那故事就完全不一樣了。

說到底，Taalas 提出的問題比它給出的答案更有價值：當開源模型質量夠用、推理需求大規模爆發的時候，我們還有必要用通用 GPU 這把瑞士軍刀去幹專用螺絲刀的活嗎？

NVIDIA 靠通用性喫下了整個 AI 市場，但通用性本身就意味着冗餘。

如果未來的推理負載真的集中在少數幾個主流模型上，那"把模型變成硬件"這個思路可能沒有聽起來那麼瘋。

當然，也可能 Taalas 最終只是 AI 硬件浪潮裏一個有趣的註腳。

但至少現在，它讓所有人重新想了一個問題：我們是不是一直在用大炮（GPU）打蚊子（跑模型）？

在線體驗地址：https://chatjimmy.ai/

更多遊戲資訊請關註：電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com

相關資訊更多

爲什麼我越跑步腿越粗？

2026-02-26 生活雜談
失去愛人的女孩，最終還是沒找回她的賽博農場

2026-02-26 生活雜談
幾塊錢的遊戲上百小時，幾百塊的遊戲幾個小時……

2026-02-26 生活雜談
微軟發佈 Windows 11 26H1（消費者版、商業版）

2026-02-26 生活雜談
如何自測有沒有做自媒體的天賦

2026-02-26 生活雜談
不用顯卡跑AI ？現在，大模型回到了“鑿石記事”時代

2026-02-26 生活雜談
年味變淡的真相——可能是你變了

2026-02-26 生活雜談
盤點現在年輕人都有哪些逆天異寵？

2026-02-26 生活雜談
不用氪金爽抽卡的單機二遊，沒賺夠648，但喫到了所有二遊節奏

2026-02-26 生活雜談
不止PSP。PS Vita TV（遊戲機頂盒）或將也重複江湖！

2026-02-26 生活雜談

熱點資訊

快買！中國手機將全漲價：下月新機最高漲3000 老款也提價

2026-02-26
《生化危機9：安魂曲》實體版在美國各大零售商售罄

2026-02-26
【2026年3月】PS+會員會免遊戲名單已公佈

2026-02-26
三星S26 Ultra 發佈：搭載“防窺屏”，定製驍龍8E5，9999起

2026-02-26
2026 春節檔票房收官，創八年新低

2026-02-26
6999起！三星S26/S26+發佈：定製驍龍8E5

2026-02-26
不用顯卡跑AI ？現在，大模型回到了“鑿石記事”時代

2026-02-26
原神動畫終於胎動，憋了三年半隻有一個新畫面？

2026-02-26

热门游戏