
ビーチへ行く間もないまま夏が終わろうとしていますが、まだまだ皆さんをあっと驚かせるような水しぶきをあげてみたいと思います!
このところ大忙しだったAnlatanのエンジニアチームは、これまでのサンプラーとノイズスケジュール(ノイズ設定)を徹底的に見直し、改善できる点がないかを調べてきました。
まず第一の課題はスピードです!
現在、V3の画像生成はいずれも少し速くなっているはずです。最も改善したのはディレクターツールとインペイントです。バイブストランスファーなしの生成もいくらか速くなったほか、全般的にスピードが向上しました。
デフォルトも速くなりました。新しいKarrasスケジュールの23ステップは、Euler Ancestralサンプリングとうまく機能します。ブラインドテストでは、従来の28ステップのスケジュールにも負けない結果でした。Opusティアの無料生成の上限ステップ数には変更ありませんのでご安心ください。
新しいKarrasスケジュールって?そうです、ではスケジュールの修正点についてお話ししますね。
私たちは、ステップの使い方を改善するために、Karras、Exponential、Polyexponentialのノイズスケジュールをアップデートしました。
nativeスケジュールと比較すると:
- ステップ数が増えると、ステップは最も必要とされるところに使われます。
- Karrasは身体の生成が得意です。
- ExponentialはKarrasに似ていますが、マルチステップサンプラーを支援するステップスペーシングを備えています。
- Polyexponentialは手指など細部の生成が得意です。
ぜひ新しいスケジュールをお試しいただき、どこまでステップ数を減らせるか試してみてください。
次に、マルチステップサンプラーの新しくなった点を見ていきましょう。
DPM++ 2Mでは虹色のアーティファクトが発生しなくなりました:
DPM++ 2M, 18ステップ native

この問題は、従来のKarrasスケジュールで特に顕著に見られていました。
DPM++ 2M, 12ステップ Karras

また、新しいサンプラー「DPM++ 2M SDE」が加わりました。
同系統のDPM++ 2Mと同じく、少ないステップ数でシャープな画像を生成するのが得意です。
主な違いは、Euler AncestralやDPM++ SDEと同様にエラー訂正能力が強化されている点です。
DPM++ 2M SDE, 10ステップ Karras
さらに、生成画像の多様性を向上させる新機能「バラエティーブースト」を導入しました。
バラエティーブーストで生成画像の多様性を向上


バラエティーブーストはプロンプトガイダンス(プロンプトを反映する正確度)と密接に関係しています。この値については、もうよくご存じかもしれませんね。値を高くすると関連性と一貫性が高まりますが、設定値が高すぎると画像に好ましくない影響が出てしまいます。実は、ガイダンスには見過ごされやすいもう一つの影響があります。画像のバリエーションを減らしてしまう点です。気づいたことがあったかもしれませんが、プロンプトによってはキャラクターの背景が毎回白地になってしまったり、ポーズが限定されたり、解釈の幅があるプロンプトを入れても服装が毎回同じようなものになったりする場合があります。
バラエティーブーストはガイダンスを生成プロセスの後半で有効にする¹、つまり全体的な構図と体型が決定された後で有効にすることで、悪影響なくガイダンスのメリットを引き出そうとするものです。この場合でも、顔と服装の細部を関連させることができ、手足の一貫性を保てるよう有効になります。
注:バラエティーブーストとは、ネガティブプロンプトが体型の決定後に適用されるようにすることです。
ぜひこれらの新しい設定をお試しいただき、できあがった作品を見せてくださいね。
残りの夏を思う存分楽しみましょう!
参考文献
¹バラエティーブーストは、Kynkäänniemiらによる論文『Applying Guidance in a Limited Interval Improves Sample and Distribution Quality in Diffusion Models』(https://arxiv.org/abs/2404.07724)で提示された概念を実装したものです。
お知らせ:
日本語UIの見た目と分かりやすさ向上のため、画像生成UI内の翻訳をアップデートしました。
「プロンプトを反映する正確度」を「プロンプトガイダンス」に、「プロンプトを反映する正確度の再調整」を「プロンプトガイダンスの再調整」に変更します。