皆様いかがお過ごしでしょうか。歌乃です。

作業用アシスタントとして Ollama にて Open Web UI を通して使用 (試用) した 日本語対応可能 LLM の所感です。

※個人的な主観と偏見が大いに含まれています。ご注意ください。


Gemma3:4b

  • Role: チャット、アシスタント
  • Tools: 未対応
  • Parameter: 4.3B
  • Context: 128K
  • Input: Text, Image
  • Size: 3.3GB
  • License: gemma
  • Base: Gemini
  • Quantized: Q4-K-M This model

Ollama 公式サポートのGemma3:4b モデル。 日本語対応可能。4b モデルですが、日本語の文章も破綻が少なく、簡体字が表示されるといったこともありません (英語になることはあります)。
質問応答、要約、推論といったタスクに優れた性能を発揮すると謳うだけあって、なかなか優秀です。
ちゃんと「考えて話している」ように見えるので、チャット model として問題なく使えます。
文面がやや硬いですが、素直な反応をするので、プロンプトさえちゃんとしていれば複雑なジョブでもこなせます。
ただし、長文の場合は同じ内容の文が繰り返されたり、主人公のセリフが突然、第三者視点になったりと構成力はいまいちです。
日本語に対する理解力が微妙で細かい指示には対応できないことがあります。


Gemma3:12b

  • Role: アシスタント
  • Tools: 未対応
  • Parameter: 12.2B
  • Context: 128K
  • Input: Text, Image
  • Size: 8.1GB
  • License: gemma
  • Base: Gemini
  • Quantized: Q4-K-M This model

Ollama 公式サポートのGemma3:12b モデル。 日本語対応可能。4Bモデルに比べて回答が若干細かい気がします。ただしファイルサイズが大きい分、反応は鈍い (私の環境では (´;ω;`) ) のでチャットのような即応性の高い用途は微妙です。
思考時間や出力時間が長くてもOKなアシスタント用途がいいように思います。
日本語に対する理解力は高めで細かい指示でもそれなりに対応してくれます。 文章の構成力は改善の余地があり、言い回しが不自然だったり、表現が単調だったりします。あと、読点おおすぎ( ゚Д゚)


Gemma3:27b

  • Role: アシスタント
  • Tools: 未対応
  • Parameter: 27.4B
  • Context: 128K
  • Input: Text, Image
  • Size: 17GB
  • License: gemma
  • Base: Gemini
  • Quantized: Q4-K-M This model

Ollama 公式サポートのGemma3:27b モデル。 日本語対応可能。文章の構成やフレーズの使い方は 12B よりもナチュラルでいい感じ(当然っちゃ当然ですが)です。12Bよりも人間ぽい感じがします。 サイズ相当であり重たいのでチャット用途は厳しいです。長考可能なアシスタント向きです。


deepseek-r1:8b

  • Role: チャット、アシスタント
  • Tools: 未対応
  • Parameter: 8.19B
  • Context: 128K
  • Input: Text
  • Size: 5.2GB
  • License: MIT
  • Base: Qwen3
  • Quantized: Q4-K-M This model

Ollama 公式サポートの deepseek-r1:8b モデル。
日本語対応可能。DeepSeek-R1 を蒸留したものを Qwen3:8b に合わせて微調整したモデル。
パフォーマンスが向上しているらしいです。応答速度はそこそこでチャットでの利用も十分こなます。 日本語の理解が微妙で指示に反応してくれない場合があり、破綻こそしていないものの、生成される文章の構成力が微妙で、とんちんかんな内容になることも多く一昔前の自動生成文章と言った感じです。


Qwen3:8b

  • Role: チャット
  • Tools: 未対応
  • Parameter: 8.19B
  • Context: 40K
  • Input: Text
  • Size: 5.2GB
  • License: apache-2.0
  • Base: Qwen3
  • Quantized: Q4-K-M This model

Ollama 公式サポートの Qwen3:8b モデル。 日本語対応可能。思考速度もはやく、反応もいいのでチャットでもストレスなく使用できます。日本語文章の破綻も少なく、長文もこなします。
構成も機械寄りではなく自然な文章が生成されますが、構成力は微妙です。 また、日本語の理解力がいまいちでプロンプトによる指示に従わないことがあります。


Qwen3:14b

  • Role: アシスタント
  • Tools: 未対応
  • Parameter: 14.8B
  • Context: 40K
  • Input: Text
  • Size: 9.3GB
  • License: apache-2.0
  • Base: Qwen3
  • Quantized: Q4-K-M This model

Ollama 公式サポートの Qwen3:14b モデル。 日本語対応可能。8Bとはうって変わって長考するタイプです。(まあ model サイズが自環境のVRAMの容量を超えているのでOFFLOADが頻繁に発生していることが考えられますが)
思考内容を見ると英語で考えているようなので指示も英語の方が反応がいいかもしれません。
文章の構成は良い感じです。破綻も特になく自然な文章が生成されます。
ただし、8bと同じく日本語での指示は理解が難しいのか、要件に従った生成を一発でおこなわせるのは難しいかもしれません。


granite3.3:8b

  • Role: チャット
  • Tools: ?
  • Parameter: 8.17B
  • Context: 128K
  • Input: Text
  • Size: 4.9GB
  • License: apache-2.0
  • Base: Granite
  • Quantized: Q4-K-M This model

Ollama 公式サポートの IBM granite3 モデル。
日本語対応可能。かなり長考するタイプなのでチャットには向かないかもしれない。文章はそれなりで、かなり堅い感じの文章を書いてくる。
どちらかと言えば論文やビジネス文書、学術文書のような感触。それっぽいことを書いてくるが正しいかどうかは疑問。
日本語の理解力が微妙で、複雑な構文だと破綻することが多い。創造性が乏しいようで資料をそのまま書きだす場面が多い。


japanese-stablelm-instruct-gamma-7b.Q5_K_M:latest

Misttal AI の Mistral-7B モデルに日本語の事前学習をおこなったモデル (のGGUFモデル)。
Base モデルよりは命令を聞くという話でしたが、ほぼ聞きません( ゚Д゚) 日本語性能は高くみえますが、実際には単なる文章の継ぎはぎを繰り返すことが多かったです。
「考えて話している」ようには全く見えません。ネット上の文章をランダムにコピペしているような印象を受けます。 こちらの質問に反応はしますが、まともな返答は返ってきません。ひたすらコピペ文章を出力しつづけます。 同系統にBaseタイプ japanese-stablelm-base-gamma-7b が存在します。


japanese-stablelm-base-gamma-7b-q8_0:latest

Misttal AI の Mistral-7B モデルに日本語の事前学習をおこなったモデル (のGGUFモデル)。
日本語性能は高いです。
が、語ります。めっちゃ語ります。こちらの話を無視して語り続けます。チャットモデルとしては面白いですが、アシスタント用には向きません。
同系統に指示に忠実なタイプ japanese-stablelm-instruct-gamma-7b が存在します。




本記事は持続性記事となります。今後もモデルをテストした場合に情報を追加修正する可能性があります。

Post If you feel like it, I would be happy if you could post it.