最簡單的 Stable Diffusion 安裝方式使用 Stability Matrix
這是一個整合的下載程式,內含SD的界面和模型庫的管理,還有各種進階的使用方式
下載安裝即可,還可以選用攜帶型方式安裝在資料夾內,之後可以帶著走
如果安裝中途卡住或失敗可以使用 power shell :pip cache purge 清理一下再重裝一次
所以可以去網路好的地方下載,裝在外接SSD攜帶使用
最簡單的 Stable Diffusion 安裝方式使用 Stability Matrix
這是一個整合的下載程式,內含SD的界面和模型庫的管理,還有各種進階的使用方式
下載安裝即可,還可以選用攜帶型方式安裝在資料夾內,之後可以帶著走
如果安裝中途卡住或失敗可以使用 power shell :pip cache purge 清理一下再重裝一次
所以可以去網路好的地方下載,裝在外接SSD攜帶使用
我個人在學習時跨速提升的筆記法
24.04聽說核心大改還支援10年
相關問題:
如果你的電腦只出現桌面其餘甚麼都沒有,那應該是預設了雙螢幕,你的螢幕出現第二螢幕,所以在空白處按右鍵選視窗內容設定改回鏡像設置即可,這問題會發生在N5095這種特殊的小主機,內建液晶螢幕排線接口被設為預設的關係
大模型
7B4.92G dolphin-2.9-llama3-8b-q4_K_M.gguf GPU加速全開,記憶體用盡16G,GPU80%,CPU75%,可用但速度緩慢
7B8.54G Llama3-8B-Chinese-Chat-q8-v2.gguf GPU加速全開無法載入,開16,記憶體用盡16G,RAM13.8G VRAM近日2G,GPU90%,CPU80%,可用但速度極為緩慢,GPU加速若是開至24,載入就會非常的久,問答時CPU記憶體全爆,等很久不見答案,風扇狂轉極度LAG然後幾分鐘後當機;GPU加速設為0,CPU90%GPU70%,RAM全滿 VRAM1G2G左右跳動,但是反而反應會比上面好很多,所以若是VRAM不足時,反而全部Off-Load稍微順暢
7B8.54G Llama3-TAIDE-LX-8B-Chat-Alpha1-Q8_0.gguf 跟上面幾乎是一樣,不過感覺比較稍稍順暢些
7B6.6G Llama3-TAIDE-LX-8B-Chat-Alpha1-Q6_K.gguf GPU加速設0,RAM占滿,VRAM用一點點,使用時僅CPU90%運作GPU似乎沒在運作,但速度可以接受,GPU加速設16,RAM到12G,VRAM全滿,CPU60%GPU90%運作,速度稍慢
13B5.66G Taiwan-LLaMa-13b-1.0.Q3_K_S.gguf GPU加速16,RAM占12G,VRAM全滿,使用時僅CPU80%運作GPU70%運作,但速度極為緩慢,GPU加速設16,RAM到12G,VRAM全滿,CPU60%GPU90%運作,速度稍慢,GPU加速off-load0,情況類似但回答雞同鴨講
7B4.69G Llama3-TAIDE-LX-8B-Chat-Alpha1-Q4_K_S.gguf GPU加速0,跑起來順暢,加速16反而變慢
從以上測試看起來,這台電腦的效能大約僅能夠跑得動7B資料量Q6版本模型已是極限,VRAM若是不足,則要調降GPU加速的比率,讓CPU和GPU兩邊使用率差不多的話,可以達到較好的效能。用Q4版本免GPU加速則是順暢許多。
但是如果用內顯,會因為內顯很弱拖慢整體效能,或是VRAM 很低的低階顯卡,還不如全部 off load 直接用CPU 和記憶體來跑還比較快。
使用Jan容器測試
llama3 8BQ4 版本或是Qwn 7BQ4,加速器有選項可選應該是有可能支援各獨顯,但這台內顯所以選項不給選,全使用CPU跑,過程尚堪順暢可用
使用GPT4ALL容器測試
8B4.3G llama 3 TAIDE Q4版本,可以選支援的獨顯或GPU選項有可能支援各獨顯,CPU還能選使用多少執行序,過程順暢可用,每秒約5字
========================================================================================
7B8.54G llama3 TAIDE 7BQ8 版本,GPU Off-load0,完全使用CPU運作,RAM吃滿15.2G,GPU沒動作VRAM沒加載,反應速度尚稱順暢可執行,看來若無獨顯只要CPU多核速度快也是多少可以玩大模型;GPU調加速到20,RAM吃滿15.6G,VRAM用滿5.8G,CPU60%GPU25%,速度比剛剛稍微快些調到204就會顯示超過VRAM。
13B5.66G taiwan LLM Q3_ks 版本, GPU Off-load0,完全使用CPU運作,RAM吃滿14.7G,GPU動一下就沒再動過VRAM沒加載,反應速度慢約每秒2-3字;GPU調加速到20,RAM吃滿13.2G,VRAM用滿5.6G,CPU60%GPU98%,速度比剛剛稍微快些,Q5 GPU off-load15 VRAM5.7G RAM15.4G CPU70% GPU80% 約每秒1字,極限大約是這樣,電腦數度Lag,還是在Q3就好
========================================================================================
Meta Llama 3 是 Meta Inc. 開發的一系列最先進的模型,提供8B和70B參數大小(預先訓練或指令調整)。Llama 3 指令調整模型針對對話/聊天案例進行了微調和最佳化,並且在常見基準測試中優於許多可用的開源聊天模型。迄今為止最強大的開放式LLM,十分推薦使用。
3 個特色:
Breeze-7B-Base 是 Breeze-7B 系列的基礎模型。如果您有大量的微調數據來調整它以適應您的特定用例,則適合使用此模型。
Breeze-7B-Instruct 衍生自基礎模型 Breeze-7B-Base,使得最終模型可直接用於常見任務。
Breeze-7B 的當前發行版本是 v1.0英文和繁體中文的性能顯著提升。
Breeze-7B-Base 通過額外增加 30,000 個繁體中文標記來擴展原始詞彙表。在擴展詞彙表的情況下,其他條件相同,Breeze-7B 在繁體中文到 Mistral-7B 和 Llama 7B 的推理速度方面是兩倍。Breeze-7B-Instruct 可直接用於常見任務,如問答、RAG、多輪對話和摘要。性能方面:
與台灣-LLM-7B/13B-chat、QWen(1.5)-7B-Chat 和 Yi-6B-Chat 等類似大小的開源同行相比,Breeze-7B-Instruct 在繁體中文和英文的基準測試中展現出令人印象深刻的性能。
ollama run yabi/breeze-7b-instruct-v1_0_q8_0 (8.0G 版本,GTX1060/6G 無法安裝)
我用在辦公室主機(8700K+16G+GTX1060/6G)使用lm-studio加載大模型來測試
主要是為了抓出來甚麼規格的電腦大約可以跑甚麼樣的模型,以利研究和推廣的參考
結論我寫在前面:
以下是使用來測試的模型
Taiwan-LLM v2
主要特徵
其他的版本測試
完全可進6G VRAM
openchat_3.5-16k.Q4_K_M.gguf 感覺比較聰明
openchat_3.5-16k.Q4_K_M.gguf 感覺比較聰明
chinese-llama-2-7b.Q4_K_M.gguf 4.21G
MaziyarPanahi/WizardLM-2-7B-GGUF/WizardLM-2-7B.Q3_K_S.gguf