日本語対応 LLM model の個人的評価

Midnight Melody Blog 日本語対応 LLM model の個人的評価

日本語対応 LLM model の個人的評価

2025-07-06 04:53 model LLM

皆様いかがお過ごしでしょうか。歌乃です。

作業用アシスタントとして Ollama にて Open Web UI を通して使用 (試用) した日本語対応可能 LLM の所感です。

※個人的な主観と偏見が大いに含まれています。ご注意ください。

Gemma3:4b
Gemma3:12b
Gemma3:27b
nekomata-7b
datapilot-arrowpro-7b-robinhood
deepseek-r1:8b
Qwen3:8b
Qwen3:14b
granite3.3:8b
japanese-stablelm-instruct-gamma-7b.Q6_K:latest
japanese-stablelm-base-gamma-7b-q8_0:latest
abeja-ABEJA-Qwen2.5-7b-Japanese-v0.1-Q6_K
aibuncho-japanese-novel-gpt-j-6b-gguf
DataPilot_ArrowNeo-Neko-3B-instruct-v0.2-GGUF
japanese-gpt-neox-3.6b
sbintuitions-sarashina2.2-3b-instruct-v0.1

Gemma3:4b

Role: チャット、アシスタント
Tools: 未対応
Parameter: 4.3B
Context: 128K
Input: Text, Image
Size: 3.3GB
License: gemma
Base: Gemini
Quantized: Q4-K-M This model

Ollama 公式サポートのGemma3:4b モデル。日本語対応可能。4b モデルですが、日本語の文章も破綻が少なく、簡体字が表示されるといったこともありません (英語になることはあります)。
質問応答、要約、推論といったタスクに優れた性能を発揮すると謳うだけあって、なかなか優秀です。
ちゃんと「考えて話している」ように見えるので、チャット model として問題なく使えます。
文面がやや硬いですが、素直な反応をするので、プロンプトさえちゃんとしていれば複雑なジョブでもこなせます。
ただし、長文の場合は同じ内容の文が繰り返されたり、主人公のセリフが突然、第三者視点になったりと構成力はいまいちです。
日本語に対する理解力が微妙で細かい指示には対応できないことがあります。

Gemma3:12b

Role: アシスタント
Tools: 未対応
Parameter: 12.2B
Context: 128K
Input: Text, Image
Size: 8.1GB
License: gemma
Base: Gemini
Quantized: Q4-K-M This model

Ollama 公式サポートのGemma3:12b モデル。日本語対応可能。4Bモデルに比べて回答が若干細かい気がします。ただしファイルサイズが大きい分、反応は鈍い (私の環境では (´;ω;｀) ) のでチャットのような即応性の高い用途は微妙です。
思考時間や出力時間が長くてもOKなアシスタント用途がいいように思います。
日本語に対する理解力は高めで細かい指示でもそれなりに対応してくれます。文章の構成力は改善の余地があり、言い回しが不自然だったり、表現が単調だったりします。あと、読点おおすぎ( ﾟДﾟ)

Gemma3:27b

Role: アシスタント
Tools: 未対応
Parameter: 27.4B
Context: 128K
Input: Text, Image
Size: 17GB
License: gemma
Base: Gemini
Quantized: Q4-K-M This model

Ollama 公式サポートのGemma3:27b モデル。日本語対応可能。文章の構成やフレーズの使い方は 12B よりもナチュラルでいい感じ（当然っちゃ当然ですが）です。12Bよりも人間ぽい感じがします。サイズ相当であり重たいのでチャット用途は厳しいです。長考可能なアシスタント向きです。

nekomata-7b

Role: チャット
Tools: 未対応
Parameter: 7.72B
Context: 32K
Input: Text
Size: 4.9GB
License: Tongyi Qianwen LICENSE AGREEMENT
Base: Qwen7B
Model: Q4-K-M This model

日本語対応可。創造性は高いが、指示追従性が低いためチャット、アシスタントともに使いづらい（ollma未対応なのを無理やり使ってるせいもある）。

datapilot-arrowpro-7b-robinhood

Role: チャット、アシスタント
Tools: 未対応
Parameter: 7.24B
Context: 4K
Input: Text
Size: 7.7GB
License: MIT
Model: ollama pull hawkclaws/datapilot-arrowpro-7b-robinhood

ollama ライブラリからPull できる日本語対応モデル。
日本語モデルと言うだけあって日本語の使い方に関しては問題なし。簡体字などが出ることもなかったです。反応性も早いのでチャットモデルとして使用するには十分な性能だと思います。
指示追従性が低いので、アシスタントや、特定の文章を書かせるのは難しいかもしれません。

deepseek-r1:8b

Role: チャット、アシスタント
Tools: 未対応
Parameter: 8.19B
Context: 128K
Input: Text
Size: 5.2GB
License: MIT
Base: Qwen3
Quantized: Q4-K-M This model

Ollama 公式サポートの deepseek-r1:8b モデル。
日本語対応可能。DeepSeek-R1 を蒸留したものを Qwen3:8b に合わせて微調整したモデル。
パフォーマンスが向上しているらしいです。応答速度はそこそこでチャットでの利用も十分こなます。日本語の理解が微妙で指示に反応してくれない場合があり、破綻こそしていないものの、生成される文章の構成力が微妙で、とんちんかんな内容になることも多く一昔前の自動生成文章と言った感じです。

Qwen3:8b

Role: チャット
Tools: 未対応
Parameter: 8.19B
Context: 40K
Input: Text
Size: 5.2GB
License: apache-2.0
Base: Qwen3
Quantized: Q4-K-M This model

Ollama 公式サポートの Qwen3:8b モデル。日本語対応可能。思考速度もはやく、反応もいいのでチャットでもストレスなく使用できます。日本語文章の破綻も少なく、長文もこなします。
構成も機械寄りではなく自然な文章が生成されますが、構成力は微妙です。また、日本語の理解力がいまいちでプロンプトによる指示に従わないことがあります。

Qwen3:14b

Role: アシスタント
Tools: 未対応
Parameter: 14.8B
Context: 40K
Input: Text
Size: 9.3GB
License: apache-2.0
Base: Qwen3
Quantized: Q4-K-M This model

Ollama 公式サポートの Qwen3:14b モデル。日本語対応可能。8Bとはうって変わって長考するタイプです。（まあ model サイズが自環境のVRAMの容量を超えているのでOFFLOADが頻繁に発生していることが考えられますが）
思考内容を見ると英語で考えているようなので指示も英語の方が反応がいいかもしれません。
文章の構成は良い感じです。破綻も特になく自然な文章が生成されます。
ただし、8bと同じく日本語での指示は理解が難しいのか、要件に従った生成を一発でおこなわせるのは難しいかもしれません。

granite3.3:8b

Role: チャット
Tools: ？
Parameter: 8.17B
Context: 128K
Input: Text
Size: 4.9GB
License: apache-2.0
Base: Granite
Quantized: Q4-K-M This model

Ollama 公式サポートの IBM granite3 モデル。
日本語対応可能。かなり長考するタイプなのでチャットには向かないかもしれない。文章はそれなりで、かなり堅い感じの文章を書いてくる。
どちらかと言えば論文やビジネス文書、学術文書のような感触。それっぽいことを書いてくるが正しいかどうかは疑問。
日本語の理解力が微妙で、複雑な構文だと破綻することが多い。創造性が乏しいようで資料をそのまま書きだす場面が多い。

japanese-stablelm-instruct-gamma-7b.Q6_K:latest

Role: チャット
Tools: 未対応
Parameter: 7B
Context: 32K
Input: Text
Size: 5.13GB
License: apache-2.0
Base: Mistral-7B-v0.1
Finetunes: Japanese Stable LM Instruct Gamma 7B
Quantized: This model

Misttal AI の Mistral-7B モデルに日本語の事前学習をおこなったモデル (のGGUFモデル)。
Base モデルよりは命令を聞くという話でしたが、ほぼ聞きません( ﾟДﾟ) 日本語性能は高くみえますが、実際には単なる文章の継ぎはぎを繰り返すことが多かったです。
「考えて話している」ようには全く見えません。ネット上の文章をランダムにコピペしているような印象を受けます。こちらの質問に反応はしますが、まともな返答は返ってきません。ひたすらコピペ文章を出力しつづけます。同系統にBaseタイプ japanese-stablelm-base-gamma-7b が存在します。

2025/07/10追記：指示追従性は低いですが、ロールプレイやBlog用の記事を書かせるのには使えるかも？と言う感じです。

japanese-stablelm-base-gamma-7b-q8_0:latest

Role: チャット
Tools: 未対応
Parameter: 7B
Context: 32K
Input: Text
Size: 7.7GB
License: apache-2.0
Base: Mistral-7B-v0.1
Finetunes: Japanese Stable LM Base Gamma 7B
Quantized: This model

Misttal AI の Mistral-7B モデルに日本語の事前学習をおこなったモデル (のGGUFモデル)。
日本語性能は高いです。
が、語ります。めっちゃ語ります。こちらの話を無視して語り続けます。チャットモデルとしては面白いですが、アシスタント用には向きません。
同系統に指示に忠実なタイプ japanese-stablelm-instruct-gamma-7b が存在します。

2025/07/10追記：テンプレートやパラメータを変えて試してみましたが、やはり制御できませんでした(´・ω・`)

abeja-ABEJA-Qwen2.5-7b-Japanese-v0.1-Q6_K

Role: チャット
Tools: 未対応
Parameter: 7.62B
Context: 128K
Input: Text
Size: 6.25GB
License: apache-2.0
Base: Qwen2.5
Finetunes: abeja-ABEJA-Qwen2.5-7b-Japanese-v0.1
Quantized: This model

Qwen/Qwen2.5-7B-Instructをベースに日本語の学習をしたモデル。通常の継続事前学習ではなく、abeja/ABEJA-Qwen2.5-32b-Japanese-v0.1をベースに蒸留学習を実施したモデルとのこと。
システムプロンプトや Stop sequence 、パラメータをいじってみましたが、うまく制御できませんでした（延々とメッセージがループし続ける）。

aibuncho-japanese-novel-gpt-j-6b-gguf

Role: N/A
Tools: N/A
Parameter: 6.05B
Context: N/A
Input: Text
Size: 6.43GB
License: openrail
Base: gpt-j-6b
Model: Q8 This model

AI BunCho で使用されているモデル。GPT-J-6BをTPUで2週間日本語tokenizerを用いて日本語データで事前学習し、その後2週間小説データで転移学習したものらしいです。エラーにより検証できませんでした（unsupported model architecture）

DataPilot_ArrowNeo-Neko-3B-instruct-v0.2-GGUF

Role: N/A
Tools: N/A
Parameter: 3.36B
Context: 8K
Input: Text
Size: 3.57GB
License: MIT
Base: Llama
Finetune: ArrowNeo-Neko-3B-Japanese-v0.1
Model: ArrowNeo-Neko-3B-instruct-v0.2-Q8_0.gguf

sarashina-2.2-instruct-v0.1をベースにUnslothを用いて指示追従性能と日本語の表現能力の向上を目指して合成データでチューニングしたモデルらしいです。
エラーにより検証できませんでした。

japanese-gpt-neox-3.6b

Role: N/A
Tools: N/A
Parameter: N/A
Context: N/A
Input: Text
Size: 3.6GB
License: MIT
Base: Gpt-neoX
Finetunes: japanese-gpt-neox-3.6b
Quantized: This model

エラーにより検証できませんでした。

sbintuitions-sarashina2.2-3b-instruct-v0.1

Role: N/A
Tools: N/A
Parameter: 3.36B
Context: 8K
Input: Text
Size: 6.7GB
License: MIT
Base: Llama
Model: ollama pull MHKetbi/sbintuitions-sarashina2.2-3b-instruct-v0.1

ollama ライブラリからPull できる日本語対応モデル。
エラーにより検証できませんでした。

本記事は持続性記事となります。今後もモデルをテストした場合に情報を追加修正する可能性があります。

Post If you feel like it, I would be happy if you could post it.

Next document Prior document

日本語対応 LLM model の個人的評価

Table of Contents

Gemma3:4b

Gemma3:12b

Gemma3:27b

nekomata-7b

datapilot-arrowpro-7b-robinhood

deepseek-r1:8b

Qwen3:8b

Qwen3:14b

granite3.3:8b

japanese-stablelm-instruct-gamma-7b.Q6_K:latest

japanese-stablelm-base-gamma-7b-q8_0:latest

abeja-ABEJA-Qwen2.5-7b-Japanese-v0.1-Q6_K

aibuncho-japanese-novel-gpt-j-6b-gguf

DataPilot_ArrowNeo-Neko-3B-instruct-v0.2-GGUF

japanese-gpt-neox-3.6b

sbintuitions-sarashina2.2-3b-instruct-v0.1