管理人Utanoの戯言やIT関連情報やゲームリプレイや日々の出来事などをつれづれなるままに書きなぐる、そんな感じのブログです。

皆様いかがお過ごしでしょうか。歌乃です。

LLM (大規模言語モデル) は Deep learning(深層学習)によって事前にテキストを学習させ、それにより言語処理をおこなう仕組みのことで、世間一般では「AI (の一種)」と呼ばれ、テキスト、特に最近では自然言語の処理に特化した能力を有しています。

私がよく利用している「Stable Diffusion」は「生成AI」と呼ばれるモデル (画像生成モデル) で、LLM はその中でもテキスト (言語) の理解や生成に特化したモデルという事です。

さて、私が使う「Stable Diffusion」は画像生成時に prompt と呼ばれる「こういった画像を生成してね」という指示を与えるテキストが必要になります。

この「prompt」を LLM を使って生成すれば楽なんじゃね?という、ありがちな理由で今回の記事はできています。

(いつものごとく大半が戯言です)

続きを読む… 15 分 39 秒

皆さま、いかがお過ごしでしょうか。歌乃です。

久しぶりの壁紙シリーズです。

イメージは「遥かなる頂」。

という事で、今日の一枚です。

続きを読む… 1 分 56 秒

皆さまいかがお過ごしでしょうか。歌乃です。

ShuttleAI から 新しい学習モデル ShuttleAI 3.1 aesthetic が公開されています。

ShuttleAIの公式 Hugging Face では「画像品質、タイポグラフィ、複雑なプロンプトの理解、リソース効率の面でパフォーマンスが向上しています」と謳っています。

とりあえず使えるかどうか試してみました。

続きを読む… 3 分 35 秒

皆さまいかがお過ごしでしょうか、歌乃です。

新しい Model はないかしらん?とハギングフェイスを物色していてみつけた OmniGen v1

GitHub はここ。ライセンスは MIT 。

元プロジェクトは コーネル大 (Cornell University in NYC) のコンピュータ科学の研究。

続きを読む… 7 分 10 秒

皆さま、いかがお過ごしでしょうか。歌乃です。

SD3.5 は prompt を複雑にすると良さげな絵がでる。いわゆる「mega prompt」がいいのかもしれません。

あとは内容によって CFG と STEP 数を増加させるといい気がします。

という事で、今日の一枚です。

続きを読む… 1 分 54 秒