🏠 ローカルLLMの導入 [01] 基礎知識の習得
ローカルLLMの導入 シリーズ
👀目次
🧪ローカルLLMの導入を試す
PochomLabマシンにローカルLLMを導入してみようと思った理由は、主に2つあります。
1. ローカルLLM環境の把握
まずは、PochomLabマシン上でローカルLLMがどのように動くのかを把握しておきたいと思いました。
将来的には、ラズベリーパイを入力や表示のための小型端末として使い、
実際の推論処理はPochomLabマシン側で行うような構成も試してみたいと考えています。
今回はその前段階として、まずメインPC側でローカルLLMの基本を確認していきます。
- どの程度のサイズのモデルが動くのか
- 速度はどのくらい出るのか
- Ollama や LM Studio がどういう役割を持つのか
- 今後ほかの機材と連携する土台にできるのか
2. ZINE制作の文章構成支援
もうひとつの目的は、ZINE制作の文章構成支援です。
2026年に入ってから、クラウド型AIサービスの出力にはばらつきを感じる場面が増えてきました。
- 文脈保持が弱い
- 構造化が不安定
- 負荷や調整で出力の質が揺れる
- 昨日できたことが今日できない
- スロップやハルシネーションの除去に手間がかかる
もちろん便利な場面も多いのですが、長い文章や構成作業になるほど、
「毎回同じ前提で積み上げる」ことが難しくなってきた感触があります。
そのため、文章の骨組みづくりを支える環境として、ローカルLLMを試してみることにしました。
✅メリット
- 通信障害や混雑の影響を受けにくい
- 手元の環境として扱える
- 用途に合わせてモデルを選びやすい
❌デメリット
- 性能はPCスペックに左右される
- モデル容量が大きく、保存先やメモリも必要
- 電気代や運用コストがかかる
🏃♂️用語を整理しながら進める
ローカルLLMを調べ始めると、モデル名や形式名が一気に並んできます。
まずは、よく出てくる用語をざっくり整理していきます。
🖥️ローカルAIプラットフォーム
自分のPC上でLLM(Large Language Models:大規模言語モデル)を実行・管理するための土台です。
Ollama(オラマ)
- ローカルLLMを手軽に起動しやすい実行基盤
- コマンドライン操作が中心
- ローカルAPIとして使いやすい
LM Studio
- GUIで扱いやすいデスクトップアプリ
- モデルの検索、ダウンロード、切り替えがしやすい
- ローカルサーバーとして使うこともできる
💾モデル
LLMは、大量のテキストを学習して、文章の理解や生成を行うモデルです。
Stable Diffusionで Anything XL や realisticVision を選ぶのと同じように、
ローカルLLMでも「どの学習済みモデルを使うか」は重要になってきそうです。
ローカルLLMを調べている中で、今回候補として名前が挙がったモデルを並べておきます。
| モデル名 | 企業・団体 | 所在地 |
|---|---|---|
| Llama | Meta | アメリカ |
| Qwen | Alibaba Cloud | 中国 |
| Gemma | Google DeepMind | イギリス |
| Phi | Microsoft | アメリカ |
| Mistral | Mistral AI | フランス |
| LLM-jp | 大規模言語モデル研究開発センター(LLMC) | 日本 |
| Command R | Cohere | カナダ |
🔍モデルの表記を読む
ローカルLLMでは、次のような表記をよく見かけます。
Llama-3.1-8B-InstructLlama-3.1-8B-Instruct-Q4_K_M.gguf
最初は長く見えますが、いくつかに分けて見ると理解しやすいです。
パラメータ数「B」
8B の B は Billion の略で、
おおまかには「モデルの規模」を表しています。
7B:比較的軽量で動かしやすい8B:個人PCでも扱いやすい定番帯14B:性能は上がりやすいが、必要メモリも増える70B:かなり重い
単純に「大きいほど正義」ではありませんが、
大きいモデルほど扱いが重くなりやすいのは確かです。
量子化「Q」
Q4 や Q8 は量子化(Quantization)の種類です。
これは、モデルを軽くして動かしやすくするための圧縮・軽量化の工夫です。
Q4:軽くて扱いやすいQ5:バランス型Q6/Q8:品質寄りだが重い
一般に、数字が大きいほど品質は保ちやすい一方で、
容量やメモリ使用量は増えやすくなります。
GGUF(GPT-Generated Unified Format)
GGUF は、ローカル実行向けでよく使われるモデル形式です。
特に llama.cpp 系の実行環境で広く使われています。
👉Q4_K_M とは何か
たとえば Q4_K_M という表記は、ざっくり言うと
- 4bit量子化ベース
- K系の量子化方式
- 軽さと品質のバランスを取りやすい設定
という理解で十分だと思います。
細かい内部仕様まで最初から追わなくても、
まずは「軽量化された実用寄りの形式」くらいで捉えておけば進めやすいです。
ローカルLLM界隈では、Q4_K_M は
サイズと品質のバランスが良い候補としてよく見かけます。
📝用語のレジュメ
RAG
RAG は、モデル単体の知識だけで答えるのではなく、
外部の文書やデータを検索してから回答に反映させる仕組みです。
たとえば、
- 手元のPDFを読ませる
- 自分のメモを参照させる
- ドキュメント検索と組み合わせる
といった使い方で役立ちます。
Tool
Tool は、LLMが外部機能を使うための仕組みです。
たとえば、
- 計算する
- 検索する
- ファイルを読む
- APIを呼ぶ
など、テキスト生成だけではない処理をさせるときに使います。
Transformer
Transformer は、現在のLLMの土台になっている仕組みです。
基礎理論として重要ですが、導入初期は
「今のLLMの中核になっている方式」くらいの理解で十分だと思います。
Classify
入力された文章を分類する処理です。
- 問い合わせの種類分け
- 感情分類
- タグ付け
- ラベル振り分け
などに使われます。
Embed
文章や単語を、意味の近さで扱いやすい数値データに変換することです。
RAGや検索の土台としてよく使われます。
✍️メモ
2026年に入ってから、生成AIサービスの出力の揺れを感じる場面が増えていました。
4月15日にChatGPT上で上位モデルへの案内が強く出ていたのを見て、
生成AI各社が明確に回収フェーズへ入ってきたのかもしれない、と感じています。
これからは、ただAIに答えを委ねる使い方よりも、
- 何をやらせるかを決める
- 出力を見て判断する
- 自分の用途に合わせて環境を整える
という使い方の比重が、ますます上がっていきそうです。
PochomLabとしては、もともとその方向でやってきたので、
今回のローカルLLM導入もその延長線上にあります。
安価な金額で生成AIを存分に試行錯誤できる時期は、少しずつ終わりに向かっているのかもしれません。
そうした変化への備えも兼ねて、PochomLabでもローカルLLMの導入を試していこうと思います。
まずはその第一歩として、基本的な用語や仕組みから整理していきます。