用koblodcpp本地大模型+酒館ai聊天的簡易方法

寫在前面：本文不涉及任何手機端的app或者需要付費的api，只涉及免費的本地的大模型，所以全程需要電腦，最好是N卡用戶且你的電腦配置最好顯存要大於8G。

此外，我不完全瞭解代碼或者大模型的更具體的事情，我只會使用它來進行角色扮演聊天，有些問題我可能做不到完全解答，還請見諒。

我分流了一個比較小但是效果不錯的gemma-2-9b模型到網盤裏。右鍵《Model》文件夾裏的gemma-2-9b-it-Q6_K_L.7z.001解壓縮即可。下文大部分描述會依據這個模型。

本地大模型的優勢是完全使用你的電腦運行，你可以使用不受限的模型，然後也不用付費可以一直聊。缺點就是受制於你的電腦配置可能設置不了太長的上下文，ai回覆的時間可能會隨着你聊天長度的變長而增加，而且由於本地大模型的大小限制，聰明程度上還是沒辦法和在線大模型相比的。

一、前置：

①、因爲會涉及大部分的英文網頁，建議準備一個網頁翻譯插件，我個人使用的是“沉浸式翻譯”這個插件。

https://immersivetranslate.com/zh-Hans/

②、去下面的網站安裝node.js.

https://nodejs.org/zh-cn

二、koboldcpp

koboldcpp是一個用來部署本地大模型的軟件，使用起來非常方便。不過koboldcpp只能加載格式爲GGML/GGUF的模型。（現在一般都只用gguf格式的了應該）

首先去如下網站下載：

https://github.com/LostRuins/koboldcpp/releases/tag/v1.82.4

拉到網頁的最下面，下載koboldcpp.exe，如果你的顯卡支持cuda12（好像是3070往上），可以下載koboldcpp_cu12.exe。

打開koboldcpp之後會一個界面，這時候點擊browse就可以選擇你想加載的模型。

選擇完模型之後這個界面調整各種參數

GPU Layers：這個意思是分配模型多少層用你的顯卡推理，填入-1就是自動選擇，或者你可以手動調整但是不要超過後面黃色括號裏的最大值然後留下一些給其他軟件，如圖我可以調整到40

然後如圖勾選以下選項。

Context Size：是上下文長度，拉得更大就會佔用更多的內存，影響生成文本的時間。然後gemma-2模型的上下文長度就是8192，再拉大可能會影響生成效果。

ContextShift：是一個能讓你聊天達到最大上下文長度的時候自動遺忘最初消息的功能。

其他的選項在剛開始接觸大模型的情況下保持默認就好。

然後點擊Launch，在等待一會之後便會彈出kobold的網頁界面

你可以在對話框發送一個“hi”如果有回覆了，那就是成功部署了。這時候就先把koboldcpp放着不管。

其實在這裏也能進行ai聊天，不過爲了更好的體驗。接下來就要連接到SillyTavern也就是酒館聊天了。

三、SillyTavern

SillyTavern也就是俗稱的酒館，是一個用來進行更好的角色扮演聊天的界面，支持接入在線大模型和本地大模型還有導入各種角色卡和編寫角色世界書功能

https://github.com/SillyTavern/SillyTavern/releases/tag/1.12.11

拉到網頁最下面，下載Source code(zip)，然後解壓縮，然後點擊文件夾裏的Start.bat啓動SillyTavern，過一會就會彈出SillyTavern的網頁，第一次進入的時候會讓你起id。

①、點擊上面第二個插頭模樣的圖標，如圖從上到下選擇對應的設置，然後api地址裏輸入http://localhost:5001/api/ 連接下面如圖所示綠色圖標亮起來並且顯示大模型名字的時候就說明連接成功。

②、上面第一個圖標，可以選擇各種預設和調整ai每次生成多少字符，你可以多次嘗試，尋找哪一個預設適合你，剛開始玩我建議回覆長度調整爲250-300。我比較常用的預設是這個，但是根據模型的不同最好也時不時調整一下溫度會比較好。

③、上面第三個圖標裏的上下文模板和系統提示詞可以暫時根據我這樣選，如果你用別的大模型，那上下文模板可能也要根據具體情況去切換。

④、上面倒數第三個圖標，點擊聊天翻譯，然後如圖來選擇，這樣如果你使用的是英文的角色卡，那ai的回覆會自動翻譯成中文。

⑤、上面倒數第二個笑臉圖標，可以編輯你的id和信息，有時候根據角色卡的信息來編輯你的身份以此獲取更佳的體驗。描述的時候最好用{{user}} 來代替“我。

例如：{{user}}是一位24歲的男學生。

⑥、上面最後一個圖標，就是角色卡的界面，你可以自己編寫角色卡或者通過本地角色卡圖片導入，也可以通過外部網站鏈接導入角色卡。鼠標懸停到那幾個圖標上面會告訴你圖標分別代表什麼。

這時候回到kobold的網頁，點擊Scenarios，可以看到幾個網站，然後請自行搜索關鍵詞，然後下載對應的角色圖片或者複製鏈接來在SillyTavern裏導入角色卡。

就不放鏈接了，自己搜索關鍵詞吧

⑦、角色卡里有一個默認角色Seraphina，可以選擇她來測試聊天。

聊天我個人一般用的格式是：1、直接打字表示一般描述。2、用（）來表示時間的變化如（第二天早上）3、用 * 來表示一個動作，比如 *我摸了摸她的頭。* 4、然後跟ai的直接對話用“”來表示，如圖，使用*的句子一般會是斜體，對話的句子顏色和其他的也不一樣。

不過由於翻譯的問題，可能會導致ai的回答有些句子顏色都一樣，這時候找到對話框右上角的三個點，點一下之後第一個圖標是翻譯消息，可以點擊一下來查看原文，這時候再配合網頁翻譯插件來查看也是一種方法。如果實在不滿意，你可以點擊右上角鉛筆圖標來手動修改ai生成的內容。

⑧、有時候ai生成的回答達到了你設定的回覆長度但是還沒說完話的情況下，可以點擊左下角的三槓圖標，點擊繼續，讓ai繼續生成回覆。如果你覺得ai回覆的這段話不好，就點擊重新生成，想重開聊天就點開始新聊天。

四、相關網站和我看過的其他大佬寫的其他教程

1、本地大模型相關：然後關於大模型推薦，我個人推薦看這個視頻，講解得很清楚：BV1Bb421E7j7

大模型下載網站：https://hf-mirror.com/ 我個人推薦用bartowski 所微調過的模型，都是gguf模型：https://hf-mirror.com/bartowski

選擇大模型的時候注意你的配置，下載的大模型文件大小最好不要超過你的內存上限。如圖是一個大模型的下載界面，gguf模型只需要下載其中一個gguf格式的模型，不需要全部下載。舉例，圖裏後綴爲Q5_KL格式的模型大小爲15.8g，我的電腦內存爲16g所以基本上帶不動。這裏我選擇的就是後綴爲IQ4_XS大小爲11.9g的模型，這樣我的電腦才能帶得動。基本上就是模型大小在你的內存上限減去2g左右就比較好。

我的電腦配置是4070筆記本 8g顯存+16g內存，從小到大我個人使用過的推薦的模型是①、gemma-2-9b-it ②、magnum-v4-12b ③、Mistral-Nemo-Instruct-2407 ④、magnum-v4-22b ⑤、gemma-2-27b-it。（最後這個27b的模型我使用的量化格式爲IQ3_M。）

我最近最經常使用的模型是magnum-v4-12bQ6_K_L，上下文長度設置爲12288，上下文模板爲Mistral V3-Tekken。（在達到最大上下文長度的時候，ai一次回覆的時間可能在2分半到3分多鐘的時間）

2、對於安裝方面更加仔細的介紹：BV122qkYwEz6 還有 BV1PbxYeWE59

3、關於世界書方面的介紹：BV172kgY6E1e 或者 https://sqivg8d05rm.feishu.cn/wiki/ZJ9Yw0X7JipJrlkAoT0cku54n去M掉b字