← Log に戻る

🏠 ローカルLLMの導入 [02] モデルの選定

ぴーちゃん
LLM DevLog PochomLab

ローカルLLMの導入 シリーズ

👀目次


🍓ラズベリーパイ接続実験向けモデル

ローカルLLMを試すにあたって、まずは
「ラズベリーパイとつないで反応を見る用途」に向いたモデルを各生成AIに選んでもらいました。

今回のPC構成は 4070 SUPER 12GB / メモリ64GB / Ryzen 7 7800X3D。
この構成なら、最初の実験は 4B〜9B 前後のモデルから始めるのが現実的そうです。

ChatGPTの推奨モデル

4070 SUPER 12GB / 64GB RAM / 7800X3D なら、
「研究するためのローカルLLM母艦」として十分戦える構成です。
ただし、狙うべきレンジは 4B〜9B中心。そこを外して最初から大きいモデルに夢を見すぎない方が、研究は前に進みます。

No.モデル名特徴
1Qwen3.5 4Bまず配線確認。速くて失敗しにくい。
2Qwen3.5 9B本命。人格づけ・長対話・設計相談の中心。
3Gemma 4 E4B別系統比較。性格や口調の差を見る。
4Qwen3.5 27B重い比較実験。日常運用に向くかどうかの境界確認。

Copilotの推奨モデル

4070 SUPER(12GB)+ 7800X3D + 64GB RAM は、軽量LLM〜中型LLMまで完全にカバーできる黄金バランス。

No.モデル名特徴
1Qwen2.5 7B人格の安定・日本語強い。
2Qwen2.5 3B高速実験用(RasPiとの接続テストに最適)
3Phi-3.5 Mini / Medium世界観の深み。
4Llama 3.1 8B将来の展開(長文・論理の補助モデル)

Geminiの推奨モデル

VRAMが12GBあるので、「8B〜10Bクラスのモデル」をVRAMに完全に載せて高速動作させるのがベストな体験になります。

No.モデル名特徴
1Llama-3.1-8B (GGUF版)世界標準の高性能モデル。日本語も得意。
2Gemma-2-9B-itGoogle開発の軽量モデル。

第一候補と第二候補の説明もかなり実務寄りでした。

  • 第一候補:Llama-3.1-8B-Instruct (GGUF版 / Q8_0 または Q6_K)

    • 理由: VRAM 12GBなら、量子化ビット数を高くしても余裕で収まる
    • サイズ: 約6GB〜8GB程度
  • 第二候補:Gemma-2-9B-it (GGUF版 / Q6_K)

    • 理由: 日本語のニュアンスが柔らかい
    • サイズ: 約8GB程度

数値ベースで見た実際に動きそうなライン

Copilotには、実際の動作ラインも表にしてもらいました。

モデル推奨量子化VRAM使用量4070 SUPERでの動作RasPiからの応答速度
Qwen2.5 3BQ4_K_M3〜4GB余裕超高速
Qwen2.5 7BQ4_K_M6〜7GB余裕高速
Phi-3.5 MiniQ4_K_M3GB余裕高速
Phi-3 MediumQ4_K_M6GB余裕中速
Llama 3.1 8BQ4_K_M8〜9GBギリ余裕中速

📚ZINE制作の文章構成支援向けモデル

次に、ZINE制作の文章構成支援に向いたモデルも聞いてみました。

ローカルLLMでやりたいことは、単純な雑談だけではありません。
草案づくり、章立て、要点整理、語尾の調整など、文章制作の補助にも使えるかを見ておきたかったためです。

ChatGPTの推奨モデル

結論だけ先に言うと、ZINEの文章構成なら「大きすぎる推論特化」より、素直に長文を整えられる中型Instruct系が当たりやすい。

モデル名特徴
Qwen3 14B章構成、見出し整理、箇条書き化。
Gemma 3 12B長文を読ませて再構成、トーン統一。
LLM-jp 8B日本語の言い回し比較。

Copilotの推奨モデル

結論から言うと──「ZINE制作の“文章構成”に本当に効くローカルLLM」は、ちゃんと存在する。

モデル名特徴
Qwen2.5 14B章立て、要点整理、構造化が得意。
Llama 3.1 8B読みやすい文章にする。
Gemma 9BZINEらしい“温度”をつける。

Geminiの推奨モデル

PCスペック(RTX 4070 SUPER / VRAM 12GB)を活かしてローカルで回すなら、構成案の壁打ちや推敲に強いモデルがいくつかあります。

モデル名特徴
Llama-3-Swallow-8B-v0.1 (または Instruct版)日本語能力と構成力のバランス重視。
Gemma-2-9B-IT日本語能力と構成力のバランス重視。
Command R文脈理解(長文の整合性)重視。
Mistral-Nemo-12B-Instruct-v1速さと軽さのバランス。

🤔各生成AIの提案傾向を見比べる

こうして並べてみると、各生成AIの提案にはそれぞれ癖がありました。

  • Copilot は、用途を細かく分けて現実的に提案する傾向
  • ChatGPT は、全体のバランスを見ながら候補を出す傾向
  • Gemini は、PCスペックに合う範囲へ絞って提案する傾向

ラズパイ接続実験向けの提案では、

  • まず軽量モデルで接続確認をする
  • 次に 7B〜9B で会話品質を見る
  • その上で、必要なら重めのモデルを比較する

という流れが共通して見えました。

一方でZINE制作向けでは、

  • 草案づくりに強いモデル
  • 長文を整えるモデル
  • 語尾やトーンを調整するモデル

と、制作工程ごとに向き不向きが分かれそうです。


🎯最初に試す候補を絞る

ここまで見て、最初に触るモデルは次のように考えるのがよさそうでした。

1. ラズパイ接続実験の最初の候補

  • Qwen2.5 3B
  • Qwen2.5 7B
  • Llama 3.1 8B

このあたりは、軽さ・応答速度・日本語の安定感のバランスがよく、
「まず動かす」「接続する」「反応を見る」という目的に合っています。

2. ZINE制作支援の最初の候補

  • Llama 3.1 8B / Llama-3-Swallow-8B系
  • Gemma 9B / 12B系
  • Qwen 14B系

こちらは、いきなり全部を本番投入するよりも、

  • 草案、字コンテ、箇条書き
  • 文章化、長文化
  • 語尾、文体の調整

のように制作フェーズを分けて、モデルを切り替える使い方になりそうです。

背景制作やプログラム、動画制作にたとえると、だいたいこんな対応に近いかもしれません。

ZINE背景制作プログラム動画
草案、字コンテ、箇条書き色決め前方設計字コンテ
文章化、長文化塗り込み実装、後方設計Vコン制作
語尾、文体の調整仕上げ清書&リファクタ本番コンポ

✍️今回の整理

今回わかったのは、ローカルLLMのモデル選びは
「一番強いモデルを一つ選ぶ」よりも、
用途ごとに入り口のモデルを決める 方が進めやすそうということでした。

少なくとも最初の段階では、

  • 接続実験用の軽量モデル
  • 文章構成支援用の中型モデル

を分けて考えた方が、試行錯誤の方向も見えやすそうです。

次回は、実際に Ollama をインストールして、
まずは軽量モデルを動かしながらローカルLLM環境を立ち上げていきます。