管理人Utanoの戯言やIT関連情報やゲームリプレイや日々の出来事などをつれづれなるままに書きなぐる、そんな感じのブログです。
皆様いかがお過ごしでしょうか。歌乃です。
LLM (大規模言語モデル) は Deep learning(深層学習)によって事前にテキストを学習させ、それにより言語処理をおこなう仕組みのことで、世間一般では「AI (の一種)」と呼ばれ、テキスト、特に最近では自然言語の処理に特化した能力を有しています。
私がよく利用している「Stable Diffusion」は「生成AI」と呼ばれるモデル (画像生成モデル) で、LLM はその中でもテキスト (言語) の理解や生成に特化したモデルという事です。
さて、私が使う「Stable Diffusion」は画像生成時に prompt と呼ばれる「こういった画像を生成してね」という指示を与えるテキストが必要になります。
この「prompt」を LLM を使って生成すれば楽なんじゃね?という、ありがちな理由で今回の記事はできています。
(いつものごとく大半が戯言です)
皆さま、いかがお過ごしでしょうか。歌乃です。
久しぶりの壁紙シリーズです。
イメージは「遥かなる頂」。
という事で、今日の一枚です。
皆さまいかがお過ごしでしょうか。歌乃です。
ShuttleAI から 新しい学習モデル ShuttleAI 3.1 aesthetic が公開されています。
ShuttleAIの公式 Hugging Face では「画像品質、タイポグラフィ、複雑なプロンプトの理解、リソース効率の面でパフォーマンスが向上しています」と謳っています。
とりあえず使えるかどうか試してみました。
皆さまいかがお過ごしでしょうか、歌乃です。
新しい Model はないかしらん?とハギングフェイスを物色していてみつけた OmniGen v1。
GitHub はここ。ライセンスは MIT 。
元プロジェクトは コーネル大 (Cornell University in NYC) のコンピュータ科学の研究。
皆さま、いかがお過ごしでしょうか。歌乃です。
SD3.5 は prompt を複雑にすると良さげな絵がでる。いわゆる「mega prompt」がいいのかもしれません。
あとは内容によって CFG と STEP 数を増加させるといい気がします。
という事で、今日の一枚です。