本日、私たちの新しい画像生成モデル「NovelAI Diffusion V4」をご紹介します!
重要なお知らせ: 最新の画像生成モデル「NovelAI Diffusion V4 Full」をご利用いただくには、新しい決済システムへの切り替えが必要です。 ご安心ください。今すぐ請求されることはなく、お支払いスケジュールも変更されません。次回のお支払いは、元のサブスクリプション更新日に行われます。 お支払い情報を手動で更新されないユーザーの方も、後日自動的に新しい決済システムに切り替わります。ただし、今すぐお支払い情報を手動で更新していただいた方には、感謝の気持ちとしてボーナスAnlasをプレゼントします。 クレジットカードをご利用の場合は5000 Anlas、PayPalをご利用の場合は2000 Anlasが進呈されます。 [こちら]からお支払い情報を更新してください。
2024年末のV4 Curatedプレビューモデル公開以来、チームは完全版のNovelAI Diffusion V4モデルの準備に取り組んできました。
そして、ついに完成です!
NovelAI Diffusion V4は、これまでで最も高度な画像生成モデルです。より高品質な画像をより正確に生成できるよう改良し、ユーザーの皆さんが作品をより細かく調整できるようになりました。V4には、より包括的なデータセットが含まれているだけでなく、V4 Curatedと比較して学習データも1ヶ月分追加されています。
これを実現するため、私たちはV4モデルを一から構築し、いくつかの新機能を追加しました。
このモデルは、新機能を完全にサポートしながら、忠実性および細部の表現において大幅な改善を実現しています。約23万時間のH100コンピューティングリソースを使って学習させました。 V3よりも多くの計算能力を使用していますが、NovelAI Diffusion V4はより高性能でありながら、V3とほぼ同じ速度で動作します。
それでは、V4が大きな進歩となった新機能を見ていきましょう:
自然言語によるプロンプト
自然言語プロンプトは、特に期待している新機能です。自然言語を最優先機能としてサポートし、ユーザーが英語の言葉でシーンを描写できるようにしました。上級ユーザーの方々にとっても、自然言語のテキストとタグを組み合わせることで、これまでにない効果を生み出す新たな可能性が広がります。テキスト理解力が大幅に向上したため、プロンプトの文脈サイズを512トークンに拡張し、CLIPテキストエンコーダーをT5テキストエンコーダーに置き換えました。これにより、これにより、より長く詳しい説明文が使えるようになり、思い通りの画像が生成されやすくなりました。
マルチキャラクタープロンプト
また、マルチキャラクタープロンプト機能も追加し、NovelAI V4では、1つの画像に最大6人の異なるキャラクターを同時に配置できるようになりました。以前のV3などのモデルでは複数のキャラクターを同時に生成することが難しかったのですが、この新機能によって各キャラクターのプロンプトを個別に指定できます。キャラクター同士の特徴が混ざり合ってしまう問題も解消されました。
同じキャラクターを画像に保存し、ドラッグ&ドロップでキャラクタープロンプトをインポートし、同じ見た目のキャラクターを簡単に再現、シェアできます!
キャラクターのポジション指定
複数のキャラクターをプロンプトで指定する際、新しいキャラクターのポジション指定機能を使用すると、画像の構図をさらに細かく制御できます。以前のモデルでは通常、キャラクターはランダムに配置されていましたが、今回からは自分で各キャラクターを好きな位置に自由にポジション指定できるようになりました。これにより、思い通りの構図で画像を作れるようになります!
アクションタグ
複数キャラクターに関してはそれだけではありません。アクションタグによって、キャラクター間のやりとりを新たなレベルで制御できます。どのキャラクターがどのような行動をとり、誰に対して行うのかを指定できるため、場面におけるキャラクター関係を正確にコントロールできます。例えば、「誰が誰を抱きしめているか」「誰が誰に話しかけているか」などの関係性を明確に指定できます。
具体的な使い方としては、キャラクターのプロンプト欄にアクションタグを追加:
source#(行動する側): 行動を起こすキャラクターを指定
例: source#hug → キャラクターが抱きしめる行動をします
target#(行動される側): 行動を受けるキャラクターを指定
例: target#hug → キャラクターが抱きしめられます
mutual#(相互行動): お互いに同じ行動をするときに使用
例: mutual#hug → 指定したキャラクター同士がお互いを抱きしめます
フォーカスインペイント
画像の一部だけを高画質に修正できる新機能です。
【使い方】
1.ツールバーの新しい選択ボタンをクリック
2. 修正したい部分(キャラクターの顔など)を選択
3. 生成ボタンを押すだけ
この機能の素晴らしいところは、選んだ部分が自動的に拡大されて細部まで作り直されることです。例えば、キャラクターの顔の表情や目の描写をもっと細かく調整したいときに便利です。
また、この機能には次のような特徴もあります:
⚫︎ 選択部分は約100万ピクセルまで拡大されるので、細かな部分でも詳細に再生成できます。
⚫︎「周囲をどれだけ参考にするか」を調整できます(赤い枠で表示)
⚫︎ Opusプランをお使いの方は、大きな画像でもAnlasを消費せずに使えます。
キャラクターの顔や手などの細部を簡単に改善したいときに、ぜひお試しください。
画像品質と忠実度の向上
画像の鮮明さとプロンプトの忠実度が大幅に向上しました。
新しいモデル設計に加えて、SDXLのVAEからFlux VAEに切り替えたことで、画像の細部がより明確に表現されるようになりました。
また、U-Netの細部表現に関わる部分により多くの計算能力を与えることで、プロンプトの意図に忠実でありながらも、より詳細でシャープな画像が生成できるようになりました。
テキストレンダリング
V4のもう一つの重要な追加機能は、改良されたU-Net構造とT5テキストエンコーダーへの切り替えによるテキストレンダリングです。
吹き出し内のテキストや、その他の場所にテキストを配置した画像を生成できます。また、英語の自然言語を使用してスタイルや配置を指定することもできます。この機能はまだ完璧ではありませんが、すでに非常に便利であり、今後のリリースでさらに改良していく予定です。
品質タグとコンテンツ制限プリセットの更新
データセットの更新に伴い、V4 Fullモデルのデフォルトの品質タグとコンテンツ制限プリセットも更新しました。注目すべき点は、デフォルトの品質タグに含まれる新しい「no text」タグです。このタグは、プロンプトで指定したテキストには通常影響を与えず、ほとんどの望ましくないテキストを生成から除外します。
場合によっては、英語の擬音語(「BOOM」「CRASH」など)や漫画風のテキスト効果を画像に含めたい場合があるかもしれません。その場合は、品質タグオプションをオフにして、代わりにベースプロンプトの最後に「, best quality, very aesthetic, absurdres」を手動で追加してください。なお、現在のテキストレンダリング機能は英語テキストのみ対応しており、日本語テキストはサポートされていない点にご注意ください。
ケモノモデル内蔵
ファーリーやケモノアートスタイルのファンの方々は、プロンプトの先頭に「fur dataset」というタグを付けることで、以前のファーリーモデルと同じようにプロンプトを使用できるようになりました!
今後追加予定の機能
バイブストランスファー(Vibe Transfer)は近日中に追加される予定です。
これらの機能は、AI画像生成における大きな飛躍を示しています。NovelAIは、より良い品質、よりスマートな理解、比類のない制御を提供し、あなたの想像を形にすることがこれまで以上に簡単になりました。
今すぐログインして、NovelAI Diffusion V4のパワーを体験してください — 次の傑作は、あなたのプロンプト次第です!