🏠 ローカルLLMの導入 [01] 基礎知識の習得

ローカルLLMの導入シリーズ

👀目次

🧪ローカルLLMの導入を試す
🖥️ローカルAIプラットフォーム
💾モデル
🔍モデルの表記を読む
👉Q4_K_M とは何か
📝用語のレジュメ
✍️メモ

🧪ローカルLLMの導入を試す

PochomLabマシンにローカルLLMを導入してみようと思った理由は、主に2つあります。

1. ローカルLLM環境の把握

まずは、PochomLabマシン上でローカルLLMがどのように動くのかを把握しておきたいと思いました。

将来的には、ラズベリーパイを入力や表示のための小型端末として使い、
実際の推論処理はPochomLabマシン側で行うような構成も試してみたいと考えています。
今回はその前段階として、まずメインPC側でローカルLLMの基本を確認していきます。

どの程度のサイズのモデルが動くのか
速度はどのくらい出るのか
Ollama や LM Studio がどういう役割を持つのか
今後ほかの機材と連携する土台にできるのか

2. ZINE制作の文章構成支援

もうひとつの目的は、ZINE制作の文章構成支援です。

2026年に入ってから、クラウド型AIサービスの出力にはばらつきを感じる場面が増えてきました。

文脈保持が弱い
構造化が不安定
負荷や調整で出力の質が揺れる
昨日できたことが今日できない
スロップやハルシネーションの除去に手間がかかる

もちろん便利な場面も多いのですが、長い文章や構成作業になるほど、
「毎回同じ前提で積み上げる」ことが難しくなってきた感触があります。

そのため、文章の骨組みづくりを支える環境として、ローカルLLMを試してみることにしました。

✅メリット

通信障害や混雑の影響を受けにくい
手元の環境として扱える
用途に合わせてモデルを選びやすい

❌デメリット

性能はPCスペックに左右される
モデル容量が大きく、保存先やメモリも必要
電気代や運用コストがかかる

🏃‍♂️用語を整理しながら進める

ローカルLLMを調べ始めると、モデル名や形式名が一気に並んできます。
まずは、よく出てくる用語をざっくり整理していきます。

🖥️ローカルAIプラットフォーム

自分のPC上でLLM（Large Language Models：大規模言語モデル）を実行・管理するための土台です。

Ollama（オラマ）

ローカルLLMを手軽に起動しやすい実行基盤
コマンドライン操作が中心
ローカルAPIとして使いやすい

LM Studio

GUIで扱いやすいデスクトップアプリ
モデルの検索、ダウンロード、切り替えがしやすい
ローカルサーバーとして使うこともできる

💾モデル

LLMは、大量のテキストを学習して、文章の理解や生成を行うモデルです。

Stable Diffusionで Anything XL や realisticVision を選ぶのと同じように、
ローカルLLMでも「どの学習済みモデルを使うか」は重要になってきそうです。

ローカルLLMを調べている中で、今回候補として名前が挙がったモデルを並べておきます。

モデル名	企業・団体	所在地
Llama	Meta	アメリカ
Qwen	Alibaba Cloud	中国
Gemma	Google DeepMind	イギリス
Phi	Microsoft	アメリカ
Mistral	Mistral AI	フランス
LLM-jp	大規模言語モデル研究開発センター（LLMC）	日本
Command R	Cohere	カナダ

🔍モデルの表記を読む

ローカルLLMでは、次のような表記をよく見かけます。

Llama-3.1-8B-Instruct
Llama-3.1-8B-Instruct-Q4_K_M.gguf

最初は長く見えますが、いくつかに分けて見ると理解しやすいです。

パラメータ数「B」

8B の B は Billion の略で、
おおまかには「モデルの規模」を表しています。

7B：比較的軽量で動かしやすい
8B：個人PCでも扱いやすい定番帯
14B：性能は上がりやすいが、必要メモリも増える
70B：かなり重い

単純に「大きいほど正義」ではありませんが、
大きいモデルほど扱いが重くなりやすいのは確かです。

量子化「Q」

Q4 や Q8 は量子化（Quantization）の種類です。
これは、モデルを軽くして動かしやすくするための圧縮・軽量化の工夫です。

Q4：軽くて扱いやすい
Q5：バランス型
Q6 / Q8：品質寄りだが重い

一般に、数字が大きいほど品質は保ちやすい一方で、
容量やメモリ使用量は増えやすくなります。

GGUF（GPT-Generated Unified Format）

GGUF は、ローカル実行向けでよく使われるモデル形式です。
特に llama.cpp 系の実行環境で広く使われています。

👉Q4_K_M とは何か

たとえば Q4_K_M という表記は、ざっくり言うと

4bit量子化ベース
K系の量子化方式
軽さと品質のバランスを取りやすい設定

という理解で十分だと思います。

細かい内部仕様まで最初から追わなくても、
まずは「軽量化された実用寄りの形式」くらいで捉えておけば進めやすいです。

ローカルLLM界隈では、Q4_K_M は
サイズと品質のバランスが良い候補としてよく見かけます。

📝用語のレジュメ

RAG

RAG は、モデル単体の知識だけで答えるのではなく、
外部の文書やデータを検索してから回答に反映させる仕組みです。

たとえば、

手元のPDFを読ませる
自分のメモを参照させる
ドキュメント検索と組み合わせる

といった使い方で役立ちます。

Tool

Tool は、LLMが外部機能を使うための仕組みです。

たとえば、

計算する
検索する
ファイルを読む
APIを呼ぶ

など、テキスト生成だけではない処理をさせるときに使います。

Transformer

Transformer は、現在のLLMの土台になっている仕組みです。
基礎理論として重要ですが、導入初期は
「今のLLMの中核になっている方式」くらいの理解で十分だと思います。

Classify

入力された文章を分類する処理です。

問い合わせの種類分け
感情分類
タグ付け
ラベル振り分け

などに使われます。

Embed

文章や単語を、意味の近さで扱いやすい数値データに変換することです。

RAGや検索の土台としてよく使われます。

✍️メモ

2026年に入ってから、生成AIサービスの出力の揺れを感じる場面が増えていました。
4月15日にChatGPT上で上位モデルへの案内が強く出ていたのを見て、
生成AI各社が明確に回収フェーズへ入ってきたのかもしれない、と感じています。

これからは、ただAIに答えを委ねる使い方よりも、

何をやらせるかを決める
出力を見て判断する
自分の用途に合わせて環境を整える

という使い方の比重が、ますます上がっていきそうです。

PochomLabとしては、もともとその方向でやってきたので、
今回のローカルLLM導入もその延長線上にあります。

安価な金額で生成AIを存分に試行錯誤できる時期は、少しずつ終わりに向かっているのかもしれません。
そうした変化への備えも兼ねて、PochomLabでもローカルLLMの導入を試していこうと思います。

まずはその第一歩として、基本的な用語や仕組みから整理していきます。

ローカルLLMの導入 シリーズ

👀目次