← Log に戻る

🏠 ローカルLLMの導入 [01] 基礎知識の習得

ぴーちゃん
LLM DevLog PochomLab

ローカルLLMの導入 シリーズ

👀目次


🧪ローカルLLMの導入を試す

PochomLabマシンにローカルLLMを導入してみようと思った理由は、主に2つあります。

1. ローカルLLM環境の把握

まずは、PochomLabマシン上でローカルLLMがどのように動くのかを把握しておきたいと思いました。

将来的には、ラズベリーパイを入力や表示のための小型端末として使い、
実際の推論処理はPochomLabマシン側で行うような構成も試してみたいと考えています。
今回はその前段階として、まずメインPC側でローカルLLMの基本を確認していきます。

  • どの程度のサイズのモデルが動くのか
  • 速度はどのくらい出るのか
  • Ollama や LM Studio がどういう役割を持つのか
  • 今後ほかの機材と連携する土台にできるのか

2. ZINE制作の文章構成支援

もうひとつの目的は、ZINE制作の文章構成支援です。

2026年に入ってから、クラウド型AIサービスの出力にはばらつきを感じる場面が増えてきました。

  • 文脈保持が弱い
  • 構造化が不安定
  • 負荷や調整で出力の質が揺れる
  • 昨日できたことが今日できない
  • スロップやハルシネーションの除去に手間がかかる

もちろん便利な場面も多いのですが、長い文章や構成作業になるほど、
「毎回同じ前提で積み上げる」ことが難しくなってきた感触があります。

そのため、文章の骨組みづくりを支える環境として、ローカルLLMを試してみることにしました。

✅メリット

  • 通信障害や混雑の影響を受けにくい
  • 手元の環境として扱える
  • 用途に合わせてモデルを選びやすい

❌デメリット

  • 性能はPCスペックに左右される
  • モデル容量が大きく、保存先やメモリも必要
  • 電気代や運用コストがかかる

🏃‍♂️用語を整理しながら進める

ローカルLLMを調べ始めると、モデル名や形式名が一気に並んできます。
まずは、よく出てくる用語をざっくり整理していきます。

🖥️ローカルAIプラットフォーム

自分のPC上でLLM(Large Language Models:大規模言語モデル)を実行・管理するための土台です。

Ollama(オラマ)

  • ローカルLLMを手軽に起動しやすい実行基盤
  • コマンドライン操作が中心
  • ローカルAPIとして使いやすい

LM Studio

  • GUIで扱いやすいデスクトップアプリ
  • モデルの検索、ダウンロード、切り替えがしやすい
  • ローカルサーバーとして使うこともできる

💾モデル

LLMは、大量のテキストを学習して、文章の理解や生成を行うモデルです。

Stable Diffusionで Anything XLrealisticVision を選ぶのと同じように、
ローカルLLMでも「どの学習済みモデルを使うか」は重要になってきそうです。

ローカルLLMを調べている中で、今回候補として名前が挙がったモデルを並べておきます。

モデル名企業・団体所在地
LlamaMetaアメリカ
QwenAlibaba Cloud中国
GemmaGoogle DeepMindイギリス
PhiMicrosoftアメリカ
MistralMistral AIフランス
LLM-jp大規模言語モデル研究開発センター(LLMC)日本
Command RCohereカナダ

🔍モデルの表記を読む

ローカルLLMでは、次のような表記をよく見かけます。

  • Llama-3.1-8B-Instruct
  • Llama-3.1-8B-Instruct-Q4_K_M.gguf

最初は長く見えますが、いくつかに分けて見ると理解しやすいです。

パラメータ数「B」

8BB は Billion の略で、
おおまかには「モデルの規模」を表しています。

  • 7B:比較的軽量で動かしやすい
  • 8B:個人PCでも扱いやすい定番帯
  • 14B:性能は上がりやすいが、必要メモリも増える
  • 70B:かなり重い

単純に「大きいほど正義」ではありませんが、
大きいモデルほど扱いが重くなりやすいのは確かです。

量子化「Q」

Q4Q8 は量子化(Quantization)の種類です。
これは、モデルを軽くして動かしやすくするための圧縮・軽量化の工夫です。

  • Q4:軽くて扱いやすい
  • Q5:バランス型
  • Q6 / Q8:品質寄りだが重い

一般に、数字が大きいほど品質は保ちやすい一方で、
容量やメモリ使用量は増えやすくなります。

GGUF(GPT-Generated Unified Format)

GGUF は、ローカル実行向けでよく使われるモデル形式です。
特に llama.cpp 系の実行環境で広く使われています。


👉Q4_K_M とは何か

たとえば Q4_K_M という表記は、ざっくり言うと

  • 4bit量子化ベース
  • K系の量子化方式
  • 軽さと品質のバランスを取りやすい設定

という理解で十分だと思います。

細かい内部仕様まで最初から追わなくても、
まずは「軽量化された実用寄りの形式」くらいで捉えておけば進めやすいです。

ローカルLLM界隈では、Q4_K_M
サイズと品質のバランスが良い候補としてよく見かけます。


📝用語のレジュメ

RAG

RAG は、モデル単体の知識だけで答えるのではなく、
外部の文書やデータを検索してから回答に反映させる仕組みです。

たとえば、

  • 手元のPDFを読ませる
  • 自分のメモを参照させる
  • ドキュメント検索と組み合わせる

といった使い方で役立ちます。

Tool

Tool は、LLMが外部機能を使うための仕組みです。

たとえば、

  • 計算する
  • 検索する
  • ファイルを読む
  • APIを呼ぶ

など、テキスト生成だけではない処理をさせるときに使います。

Transformer

Transformer は、現在のLLMの土台になっている仕組みです。
基礎理論として重要ですが、導入初期は
「今のLLMの中核になっている方式」くらいの理解で十分だと思います。

Classify

入力された文章を分類する処理です。

  • 問い合わせの種類分け
  • 感情分類
  • タグ付け
  • ラベル振り分け

などに使われます。

Embed

文章や単語を、意味の近さで扱いやすい数値データに変換することです。

RAGや検索の土台としてよく使われます。


✍️メモ

2026年に入ってから、生成AIサービスの出力の揺れを感じる場面が増えていました。
4月15日にChatGPT上で上位モデルへの案内が強く出ていたのを見て、
生成AI各社が明確に回収フェーズへ入ってきたのかもしれない、と感じています。

これからは、ただAIに答えを委ねる使い方よりも、

  • 何をやらせるかを決める
  • 出力を見て判断する
  • 自分の用途に合わせて環境を整える

という使い方の比重が、ますます上がっていきそうです。

PochomLabとしては、もともとその方向でやってきたので、
今回のローカルLLM導入もその延長線上にあります。

安価な金額で生成AIを存分に試行錯誤できる時期は、少しずつ終わりに向かっているのかもしれません。
そうした変化への備えも兼ねて、PochomLabでもローカルLLMの導入を試していこうと思います。

まずはその第一歩として、基本的な用語や仕組みから整理していきます。