註釋*:“遊戲可用”指此類應用可在部分遊戲環境中發揮作用,且此文章也會介紹這種用途
本文章僅針對Windows系統和消費級顯卡(因爲這是大部分普通用戶的場景),適用於零基礎小白快速入門部署本地AI並投入一些開源項目的應用。
前言
近年來,隨着人工智能應用的飛速發展和高性能計算需求的不斷提升,顯卡市場的競爭和行情愈發激(e)烈(xin)。
今年,AMD發佈了全新的9000系顯卡,雖憑藉FSR4技術在圖形優化上有所突破,但卻因其爲9000系顯卡獨佔而引發了“背刺老用戶”的爭議,對此網友們普遍調侃7000系顯卡的“AI單元”是“電阻絲”,這些顯卡的用戶也自嘲爲“小丑”。
至於NVIDIA,則是繼續鞏固其在AI計算領域的霸主地位,然而衆所周知,老黃的顯存是金子做的,x060級甜品卡萬年8G顯存,而直到5080都還只有16G顯存。
與此同時,Intel雖然在顯卡市場尚屬新兵,但憑藉着A系列失敗的經驗,終於在B系列交出了一個還算合格的答卷,並且intel也是最捨得給顯存的一方。
在這樣的背景下,我們將基於這三家顯卡的參數規格特點,給大家分享利用Ollama本地跑AI大語言模型和將其應用於部分遊戲領域的方法,爲一些感興趣的用戶和玩家們提供一種AI應用的入門方法。
當然,你可以調用如Deepseek官方提供的API來進行應用,而且調用官方的AI,其智能性也明顯強於本地部署。但本地模型相比遠端API調用,具有低成本和響應快的特點,更適合一些日常休閒娛樂的應用。
術語講解和硬件要求
簡單的術語及其大致機制講解
注1:與個人開發和api調用有關的詳細內容可見於網上隨處可見的ollama文檔,這些文檔應該已經比較成熟,此處主要面向零基礎的小白。
注2:此處的講解,包括後續的內容,主要爲了讓零基礎小白也能輕易聽懂,因此某些描述可能在精通這些內容的您看來不夠準確,如果您希望進一步作最精確的解釋,可以發在回覆中供其它人瞭解。
既然要跑AI,那麼我們首先我們應該先知道一個模型的幾個最基本的術語含義:
Ollama上的deepseek-r1頁面
以Ollama官方網站上的deepseek-r1模型頁面爲例:
deepseek-r1是模型的名稱;
問號後面的7b、8b、14b等是模型的參數大小,通常來說,參數越大的模型,顯存佔用越高、速度越慢,但同時模型的智能性和表達能力也越強;
Context處的128k指模型最大支持的上下文長度,影響模型在一次推理中能夠處理的最大輸入文本長度,單位就是大夥熟悉的token,上下文長度越長,模型能夠記住的前文信息也越多,但對顯存的開銷也會隨此變大;
size指的是模型文件的大小,在Ollama上的這個值在一定程度上也可以用於衡量模型對顯存需要的大致參考,默認設置和常規用戶環境下使用時,模型對顯存的消耗大致相當於size加上1~3GB(取決於許多因素,此處爲方便大多數小白用戶參考,而作此解釋)。
還有一種在某些應用下比較重要的叫embedding模型的東西,此類模型可以理解爲專門用於將複雜的數據轉換爲AI大語言模型看得懂的形式的模型,這種模型本文章也不作過多贅述,因爲ollama上目前最常用的embedding只有一個nomic-embed-text,通常如果有項目需要用到embedding模型(如deepwiki),這些項目都預先寫好了在使用ollama跑時默認使用nomic-embed-text。
大致的硬件要求
注1:根據你使用的顯示器分辨率,在實際使用時,系統本身是會喫掉一部分顯存的,此處的硬件要求參考中,均主要基於2K分辨率進行考慮。
注2:內存足夠但顯存不足一樣可以跑這些模型,但代價就是模型會運行在CPU上,如果需要應用在實際項目上,這可能不是一個具有足夠效率和性能的方法。
注3:單純地插多張消費級顯卡並不能爲你帶來交火以運行一個更大模型的效果,但同時插一張24G和一張8G的卡會讓Ollama自動將較小的模型跑在8G卡上、較大的模型跑在24G卡上,以按需同時運行多個模型。
注4:此處主要考慮常見的消費級顯卡,不考慮專業卡和多卡交火場景。
AI推理時會佔用顯卡的性能,如果希望應用在遊戲中,推薦在遊戲時留出少量的性能盈餘和一定的顯存。在至少搭配一張當下顯存充足的甜品到主流級別的顯卡(推薦以3060 12G、4060ti 16G、9060xt 16G、7700xt 12G、B580 12G等起步)時,選擇一個好的模型,模型每次推理只會佔用極少量的時間,這些顯卡的性能就足以在一瞬間完成模型推理了,通常不會過多影響到你的遊玩體驗。
輕度使用場景中的應用(也就是,不打什麼遊戲也不幹什麼重活,或者說跑起這個AI的應用就是你的主要目的<如AI文檔翻譯、視頻同聲傳譯>的場景):
6G及更小顯存(2060 6G、1660 6G等):只能跑跑5b以內參數的模型(如qwen3:4b、deepseek-r1:1.5b、llama3.2:3b等),偏玩,基本沒有什麼實用意義,但你仍然可以自行嘗試一下效果。
8G~10G顯存(3060 8G、RX580 8G、6750gre 10G、A750、B570等):適合跑7~10b的模型(如deepseek-r1:8b、qwen3:8b、llama3.1:8b、gemma2:9b等),適合簡單任務,實測用於實時翻譯時效果偏機翻,勉強能用一用。
12~16G顯存(5070ti、9070、B580等):適合跑12~16b的模型(如deepseek-v2:16b、deepseek-r1:14b、gemma3:12b等),適合輕度任務,這個級別的模型已經具備基本的應用價值,實際應用中表現還行。
20G顯存(7900xt):能多跑一些例如gemma3:27b這種16G的卡剛好差一點而跑不了的模型。
24G~32G顯存(5090、4090、7900xtx等):適合跑約30b的模型(如gpt-oss:20b、deepseek-r1:32b、qwen3:32b等),這個級別的模型已經具備不錯的智能性,具有良好的應用價值。
注意:gpt-oss:20b雖然字面上是個20b的模型,但這個模型的顯存需求實際上接近甚至可能超越qwen3:30b。
中重度場景中的應用(也就是,我既要跑AI也要幹別的事,AI的應用是爲了讓我更舒服地做這些事,比如玩遊戲的同時讓AI進行實時翻譯,或者數據交互<如MC車萬女僕AI聊天>等):
不足10G的顯存:基本與此類應用無緣,因爲7b以下的模型基本沒有什麼實用價值,而隨便跑一個不是那麼古老的單機遊戲都很容易讓正在跑7b模型的8G顯存顯卡爆顯存,只能將7b的模型應用於一些小遊戲。但拿個小模型如上述一般應用在MC裏讓女僕跟你聊聊天可能還是可以的。
10G~12G顯存:可以跑7~8b的模型,勉強能用一用。
16G顯存:推薦跑8~10b的模型以留出顯存給遊戲,但也可以試着跑一下12~16b的模型(如顯存還夠,則建議使用deepseek-v2:16b)。
20G顯存:推薦跑12~16b的模型,推薦使用deepseek-v2:16b。
24G顯存:可以放心使用16b的模型,非常推薦使用deepseek-v2:16b,可以輕鬆跑起的同時留有充足的顯存。
32G顯存:16b模型完全無壓力,推薦使用deepseek-v2:16b或gpt-oss:20b,可以使用32b的模型。
注意:有些AI(如gpt-oss、deepseek-r1、qwen3)會輸出它的思考過程,這類AI可以但不建議用於實際項目。因爲:一方面,不是所有項目都提供了去除思考過程的功能;另一方面,這些思考過程會大大拖慢模型輸出結果的速度。關於這一點,推薦deepseek-v2:16b的原因就是其在這裏是一個兼顧速度、性能與實用能力的不二之選。
另外需要注意的是,除了顯存外,模型運行時還會佔用一部分內存,以deepseek-v2:16b爲例,其喫掉的內存在12G左右,模型的參數大小也會影響內存的使用量。
對於中文相關應用,deepseek、qwen等國產模型能提供更優秀的結果,如gemma3這般的模型表現就會差上不少。
網絡要求
非常建議搭配一個上網的藝術形式(否則你下載一個模型耗時非常久),需要啓用虛擬網卡模式或tun模式。
啓用tun模式後CPU佔用異常並且無法上網的情況見:Windows TUN模式無法上網 / CPU佔用100%問題
模型的部署方法
安裝Ollama
Ollama默認會安裝在C盤,如果需要改變安裝位置,你可以通過cmd運行下述命令:
OllamaSetup.exe /DIR=安裝位置
(以安裝到E盤爲例)
①適用於N卡GTX900系、A卡RX6000系及以上
直接從官網下載並安裝官方原版:ollama.com
安裝完畢後運行即可。
②適用於比RX6000系更老的一些AMD顯卡
使用社區大佬專門爲老A卡製作的項目:ollama-for-amd (GitHub)
建議直接下載其中的OllamaSetup.exe
③適用於intel顯卡
使用社區大佬專門爲intel顯卡製作的項目:ipex-llm (GitHub)
下載其中的ollama-ipex-llm-xxx-win.zip
運行Ollama
對於上述提到的①和②的方法,通常直接在完成安裝後運行程序並另外打開一個cmd命令行窗口即可。
下面主要針對③提供的intel顯卡使用方案作一個詳述。
intel顯卡方案中提供的是免安裝壓縮包,其操作步驟如下:
先將其內容解壓在一個文件夾(此處以E:\Program\Ollama爲例)中;
打開cmd,cd到此目錄下;
cmd上輸入ollama-serve.bat並回車,隨後會打開一個新的命令行窗口(不要關閉這個窗口);
此時應該已經成功運行Ollama,我們切回原來的cmd窗口就可以操作了。
===========================
檢查
在cmd上輸入ollama並回車,你應該能夠看到如下響應:
ollama在cmd上的響應
如果沒有出現這一響應(或是爲了方便以後操作),尤其是對intel顯卡,除去安裝操作上可能存在的疏漏外,你還可以嘗試將ollama安裝目錄加進系統環境變量中,然後重啓cmd(有時可能需要重啓電腦):
通常來說不會需要做這一步的
=========================
下載並運行模型
模型下載位置
模型會默認下載在C盤(C:\Users\%username%\.ollama\models),如果需要將模型放在其它盤,可以挑選以下三種操作方法之一(非官方版請嘗試方法二和三,intel顯卡似乎只能選用方法三?):
方法一,直接在Ollama設置中修改模型存儲位置:在右下角進程小框中右鍵Ollama打開Settings,然後修改Model location項:
ollama設置中修改模型存儲位置
方法二,修改系統變量:直接在系統變量中新建一個名爲OLLAMA_MODELS,值爲模型存儲路徑的變量,然後重啓cmd(有時可能需要重啓電腦)即可。
變量添加方法
方法三,移動文件夾並用mklink鏈接:直接將原models文件夾剪切到新的位置,並在cmd中鍵入命令
mklink /j "原位置" "新位置"
移動模型實際存儲位置的另一種方法
此方法還常在c盤空間不足時用於將一些文件轉移到別的盤同時不影響原文件的效果。
查找可用模型
直接訪問ollama官方查找可供下載的模型:ollama.com/search,這裏列出了你可以從ollama獲取並直接使用的模型。
ollama模型搜索頁面
爲方便測試是否可用,我們選用gemma3中最小的270m模型先進行測試。
gremma3模型頁面
下載模型
在cmd上執行“ollama pull 模型名稱”即可下載模型,對於我們測試使用的gremma3:270m則輸入如下命令:
ollama pull gremma3:270m
模型下載中
下載過程如果速度歸零,或者因其它原因無法完成下載,可以按下Ctrl+C取消,取消後模型並不會立刻被刪除,重新輸入這個命令會繼續剛剛未完成的下載。
運行模型
模型下載完畢後直接在cmd上執行“ollama run 模型名稱”即可運行模型(運行沒有下載的模型會自動開始下載並在下載完成後運行):
ollama run gemma3:270m
成功運行模型
出現到這個頁面,就代表模型已經成功運行了,接下來我們可以嘗試與之對話:
與模型對話
要退出與模型的對話,在此時輸入/bye即可:
退出對話
注意,退出對話並不會立即停止運行模型,如果要停止模型以解除其顯存佔用,需輸入“ollama stop 模型名稱”纔會立刻停止:
ollama stop gemma3:270m
停止模型運行
至此,最簡單的部署就結束了,下面將簡單列一下個人使用中的常用指令。
常用指令
ollama pull 模型名稱:下載一個模型
ollama run 模型名稱:下載並運行一個模型
ollama stop 模型名稱:停止運行一個模型
ollama rm 模型名稱:刪除一個模型並釋放其佔用的存儲空間
ollama list:列出當前已經下載好的可用模型
ollama ps:列出當前正在運行的模型,並顯示它們使用的硬件(非官方版此處顯示使用的硬件會不準,例如始終顯示運行在CPU上,但實際是運行在顯卡上的)、上下文長度等。
===========================
模型的應用方法
下面,我們將簡單介紹如何將ollama本地部署的模型應用在實際的項目中,礙於篇幅限制,此處將針對普通用戶着重講解應用所需的部分,不會特別全面;且對於個人開發中的調用,只會兩三筆帶過。
對於更全面的指令使用、變量修改和個人開發需要等請自行在網上搜索查閱資料。
Ollama預配置
對於目前最新的官方版Ollama,修改其settings項:
ollama設置頁面
推薦打開第一個****** Ollama to the network,方便在本地局域網進行調用。這個選項在比如說你顯卡比較好,朋友之間開了個服玩mc,你來跑車萬女僕mod的AI聊天輸出結果給你的朋友時會用的上。
無論是否是官方版Ollama,默認都會將服務部署在本地11434端口上,可以自己在瀏覽器中訪問127.0.0.1:11434檢查ollama服務是否正常運行:
訪問本地11434端口
輸出Ollama is running的結果則一切正常,可以繼續下面的項目應用。
實用項目中的應用方法(以LiveCaptions-Translator和LunaTranslator爲例)
注:以下提到的軟件項目如何使用此處就不做過多說明了,項目頁面上有詳細的說明,請自行查閱。本文章主要關注如何讓它們用上本地的ollama模型。
簡單API介紹
要調用ollama本地部署的AI,我們自然需要調用ollama的API,這些內容及其使用方法在網上有詳細的介紹(如Ollama菜鳥教程-API交互),我們普通用戶的使用只要知道默認情況下的以下幾點即可:
API接口地址(某些項目中又稱BASE_URL):127.0.0.1:11434
API Key:127.0.0.1:11434/api/generate
API與模型對話:127.0.0.1:11434/api/chat
API獲取可用模型:127.0.0.1:11434/api/tags
通常只需要利用前兩個地址,我們就足以將其運用在實際項目中了。
後兩者對某些開發者會比較有用(比如說用lua或python通過httprequest與模型對話),這些API的調用本質上就是向127.0.0.1:11434/api/chat發送了一個json格式的信息內容,然後AI輸出也是返回一個json格式的信息內容,通過API Key和/api/chat,就可以輕易在各大腳本編程語言代碼中調用AI大語言模型並獲取其回覆:
在PAYDAY2中通過API Key與模型對話
LiveCaptions-Translator
LiveCaptions-Translator是一個“實時音頻識別翻譯器”,它可以調用微軟自帶的音頻識別輸出爲字幕的功能,並將結果交給AI大語言模型進行翻譯和輸出,適合用在一些沒有翻譯和字幕的英語或日語等語言的視頻或遊戲上,以讓AI實時爲你翻譯。
這個項目自帶Ollama的兼容和支持,直接在此軟件的設置上進行如下設置即可:
LiveCaptions-Translator的設置方法
關於模型名稱(Model Name)部分,此處的deepseek-v2指向的就是deepseek-v2:latest,在ollama官網此模型的頁面上,deepseek-v2:latest其實就是deepseek-v2:16b,如果你計劃使用其它模型,請務必補上冒號和後面的部分,如此處應輸出deepseek-v2:16b。
Temperature表示模型偏向保守還是激進(創造性),更低的值模型會輸出更保守的結果,更高的值模型會提高它的創造性,太低的值容易產生太機械的結果,太高的值容易胡言亂語,一般使用中推薦的值在0.5~1之間。
關於剛剛講的這兩點,下面的其它使用中也是如此。
成功效果簡單示例
使用效果簡單示例
此處我使用的是7900xtx顯卡跑deepseek-v2:16b模型進行示例,可以看到每次模型輸出結果的時間都在100ms左右、150ms以內,這個延遲完全可以接受。
性能和顯存開銷如下:
性能開銷和功耗參考示例
此處我使用的是4k分辨率,上下文長度也是4k(4096tokens),系統和視頻本身需要佔用約3G顯存,因此deepseek-v2:16b模型跑這個項目顯存佔用大約在11G左右。
LunaTranslator
LunaTranslator是一個“視覺小說翻譯器”,其可用於當前頁面上的文本,或用於遊戲文本自動翻譯和內嵌,該項目支持調用本地AI大語言模型進行翻譯。(旮旯給木福音?)
LunaTranslator的大模型通用接口設置
我們在該軟件的翻譯設置中找到大模型通用接口設置,然後輸入ollama的接口地址和api key以及模型名稱即可。
內嵌和翻譯演示如下:
原遊戲
翻譯內嵌效果演示1
翻譯內嵌效果演示2
總之,此處重點還是展示一下API接口地址和API Key以及模型名稱的填法,因爲清楚了這些就足以在大多數項目中使用了(絕大多數項目只需要使用者的API接口地址和API Key就能跑起來)。至於各大軟件的使用方法,則通常在項目自身的說明文檔上就能找到答案,因此不過多贅述了。
========
結語
至此,快速部署本地Ollama模型並進行簡單運用的教程就結束了。
恰逢最近ollama剛更新了支持了一個能聯網的新模型gpt-oss(聯網使用需要20G以上的顯存;並且筆者實測該聯網功能還不是那麼好用,或者至少是對於國內互聯網內容不是那麼好用):
gpt-oss可以在ollama應用頁面聯網使用
所以順便最後再讓另外一個AI分享一些其它可以使用Ollama本地模型跑的項目吧(好想毫無關聯吧喂<筆者寫了六個多小時的文章已經不想思考怎麼結尾了屬於是>):
用GPT-5聯網找的一些支持調用Ollama的模型
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com