管理人Utanoの戯言やIT関連情報やゲームリプレイや日々の出来事などをつれづれなるままに書きなぐる、そんな感じのブログです。

皆さまいかがお過ごしでしょうか。歌乃です。

ShuttleAI から 新しい学習モデル ShuttleAI 3.1 aesthetic が公開されています。

ShuttleAIの公式 Hugging Face では「画像品質、タイポグラフィ、複雑なプロンプトの理解、リソース効率の面でパフォーマンスが向上しています」と謳っています。

とりあえず使えるかどうか試してみました。

続きを読む… 3 分 35 秒

皆さまいかがお過ごしでしょうか、歌乃です。

新しい Model はないかしらん?とハギングフェイスを物色していてみつけた OmniGen v1

GitHub はここ。ライセンスは MIT 。

元プロジェクトは コーネル大 (Cornell University in NYC) のコンピュータ科学の研究。

続きを読む… 7 分 10 秒

皆さま、いかがお過ごしでしょうか。歌乃です。

SD3.5 は prompt を複雑にすると良さげな絵がでる。いわゆる「mega prompt」がいいのかもしれません。

あとは内容によって CFG と STEP 数を増加させるといい気がします。

という事で、今日の一枚です。

続きを読む… 1 分 54 秒

皆さまいかがお過ごしでしょうか。歌乃です。

AI 楽しいですね。主に画像生成を使ってますが、翻訳やら部位認識やら画像のキャプションやらほかにもいろいろ試しています。

ツールとして ComfyUI を利用しているのですが気付くと以下のようなメッセージが出ておりました。

「Could not find the bitsandbytes CUDA binary at WindowsPath('D:/Data/AI/StabilityMatrix/Data/Packages/ComfyUI/venv/lib/site-packages/bitsandbytes/libbitsandbytes_cuda124.dll')」

続きを読む… 3 分 13 秒

皆さま、いかがお過ごしでしょうか。歌乃です。

SD3.5 で LoRA 生成できたのは良かったのですが、画像生成の方はなかなか難しいです。

prompt の再現性というか、忠実性がいまいちつかめません (´・ω・`)

という事で、今日の一枚です。

続きを読む… 2 分 18 秒