🏠 ローカルLLMの導入 [02] モデルの選定
ローカルLLMの導入 シリーズ
👀目次
🍓ラズベリーパイ接続実験向けモデル
ローカルLLMを試すにあたって、まずは
「ラズベリーパイとつないで反応を見る用途」に向いたモデルを各生成AIに選んでもらいました。
今回のPC構成は 4070 SUPER 12GB / メモリ64GB / Ryzen 7 7800X3D。
この構成なら、最初の実験は 4B〜9B 前後のモデルから始めるのが現実的そうです。
ChatGPTの推奨モデル
4070 SUPER 12GB / 64GB RAM / 7800X3D なら、
「研究するためのローカルLLM母艦」として十分戦える構成です。
ただし、狙うべきレンジは 4B〜9B中心。そこを外して最初から大きいモデルに夢を見すぎない方が、研究は前に進みます。
| No. | モデル名 | 特徴 |
|---|---|---|
| 1 | Qwen3.5 4B | まず配線確認。速くて失敗しにくい。 |
| 2 | Qwen3.5 9B | 本命。人格づけ・長対話・設計相談の中心。 |
| 3 | Gemma 4 E4B | 別系統比較。性格や口調の差を見る。 |
| 4 | Qwen3.5 27B | 重い比較実験。日常運用に向くかどうかの境界確認。 |
Copilotの推奨モデル
4070 SUPER(12GB)+ 7800X3D + 64GB RAM は、軽量LLM〜中型LLMまで完全にカバーできる黄金バランス。
| No. | モデル名 | 特徴 |
|---|---|---|
| 1 | Qwen2.5 7B | 人格の安定・日本語強い。 |
| 2 | Qwen2.5 3B | 高速実験用(RasPiとの接続テストに最適) |
| 3 | Phi-3.5 Mini / Medium | 世界観の深み。 |
| 4 | Llama 3.1 8B | 将来の展開(長文・論理の補助モデル) |
Geminiの推奨モデル
VRAMが12GBあるので、「8B〜10Bクラスのモデル」をVRAMに完全に載せて高速動作させるのがベストな体験になります。
| No. | モデル名 | 特徴 |
|---|---|---|
| 1 | Llama-3.1-8B (GGUF版) | 世界標準の高性能モデル。日本語も得意。 |
| 2 | Gemma-2-9B-it | Google開発の軽量モデル。 |
第一候補と第二候補の説明もかなり実務寄りでした。
第一候補:Llama-3.1-8B-Instruct (GGUF版 / Q8_0 または Q6_K)
- 理由: VRAM 12GBなら、量子化ビット数を高くしても余裕で収まる
- サイズ: 約6GB〜8GB程度
第二候補:Gemma-2-9B-it (GGUF版 / Q6_K)
- 理由: 日本語のニュアンスが柔らかい
- サイズ: 約8GB程度
数値ベースで見た実際に動きそうなライン
Copilotには、実際の動作ラインも表にしてもらいました。
| モデル | 推奨量子化 | VRAM使用量 | 4070 SUPERでの動作 | RasPiからの応答速度 |
|---|---|---|---|---|
| Qwen2.5 3B | Q4_K_M | 3〜4GB | 余裕 | 超高速 |
| Qwen2.5 7B | Q4_K_M | 6〜7GB | 余裕 | 高速 |
| Phi-3.5 Mini | Q4_K_M | 3GB | 余裕 | 高速 |
| Phi-3 Medium | Q4_K_M | 6GB | 余裕 | 中速 |
| Llama 3.1 8B | Q4_K_M | 8〜9GB | ギリ余裕 | 中速 |
📚ZINE制作の文章構成支援向けモデル
次に、ZINE制作の文章構成支援に向いたモデルも聞いてみました。
ローカルLLMでやりたいことは、単純な雑談だけではありません。
草案づくり、章立て、要点整理、語尾の調整など、文章制作の補助にも使えるかを見ておきたかったためです。
ChatGPTの推奨モデル
結論だけ先に言うと、ZINEの文章構成なら「大きすぎる推論特化」より、素直に長文を整えられる中型Instruct系が当たりやすい。
| モデル名 | 特徴 |
|---|---|
| Qwen3 14B | 章構成、見出し整理、箇条書き化。 |
| Gemma 3 12B | 長文を読ませて再構成、トーン統一。 |
| LLM-jp 8B | 日本語の言い回し比較。 |
Copilotの推奨モデル
結論から言うと──「ZINE制作の“文章構成”に本当に効くローカルLLM」は、ちゃんと存在する。
| モデル名 | 特徴 |
|---|---|
| Qwen2.5 14B | 章立て、要点整理、構造化が得意。 |
| Llama 3.1 8B | 読みやすい文章にする。 |
| Gemma 9B | ZINEらしい“温度”をつける。 |
Geminiの推奨モデル
PCスペック(RTX 4070 SUPER / VRAM 12GB)を活かしてローカルで回すなら、構成案の壁打ちや推敲に強いモデルがいくつかあります。
| モデル名 | 特徴 |
|---|---|
| Llama-3-Swallow-8B-v0.1 (または Instruct版) | 日本語能力と構成力のバランス重視。 |
| Gemma-2-9B-IT | 日本語能力と構成力のバランス重視。 |
| Command R | 文脈理解(長文の整合性)重視。 |
| Mistral-Nemo-12B-Instruct-v1 | 速さと軽さのバランス。 |
🤔各生成AIの提案傾向を見比べる
こうして並べてみると、各生成AIの提案にはそれぞれ癖がありました。
- Copilot は、用途を細かく分けて現実的に提案する傾向
- ChatGPT は、全体のバランスを見ながら候補を出す傾向
- Gemini は、PCスペックに合う範囲へ絞って提案する傾向
ラズパイ接続実験向けの提案では、
- まず軽量モデルで接続確認をする
- 次に 7B〜9B で会話品質を見る
- その上で、必要なら重めのモデルを比較する
という流れが共通して見えました。
一方でZINE制作向けでは、
- 草案づくりに強いモデル
- 長文を整えるモデル
- 語尾やトーンを調整するモデル
と、制作工程ごとに向き不向きが分かれそうです。
🎯最初に試す候補を絞る
ここまで見て、最初に触るモデルは次のように考えるのがよさそうでした。
1. ラズパイ接続実験の最初の候補
- Qwen2.5 3B
- Qwen2.5 7B
- Llama 3.1 8B
このあたりは、軽さ・応答速度・日本語の安定感のバランスがよく、
「まず動かす」「接続する」「反応を見る」という目的に合っています。
2. ZINE制作支援の最初の候補
- Llama 3.1 8B / Llama-3-Swallow-8B系
- Gemma 9B / 12B系
- Qwen 14B系
こちらは、いきなり全部を本番投入するよりも、
- 草案、字コンテ、箇条書き
- 文章化、長文化
- 語尾、文体の調整
のように制作フェーズを分けて、モデルを切り替える使い方になりそうです。
背景制作やプログラム、動画制作にたとえると、だいたいこんな対応に近いかもしれません。
| ZINE | 背景制作 | プログラム | 動画 |
|---|---|---|---|
| 草案、字コンテ、箇条書き | 色決め | 前方設計 | 字コンテ |
| 文章化、長文化 | 塗り込み | 実装、後方設計 | Vコン制作 |
| 語尾、文体の調整 | 仕上げ | 清書&リファクタ | 本番コンポ |
✍️今回の整理
今回わかったのは、ローカルLLMのモデル選びは
「一番強いモデルを一つ選ぶ」よりも、
用途ごとに入り口のモデルを決める 方が進めやすそうということでした。
少なくとも最初の段階では、
- 接続実験用の軽量モデル
- 文章構成支援用の中型モデル
を分けて考えた方が、試行錯誤の方向も見えやすそうです。
次回は、実際に Ollama をインストールして、
まずは軽量モデルを動かしながらローカルLLM環境を立ち上げていきます。