Introducing NovelAI Diffusion Anime V2

Anlatan
6 min readOct 20, 2023

Better style, better coherency, better details, and better aesthetics.
Still controllable as ever.

We are very happy to finally introduce you to the first new image generation model we will be releasing. This one is mainly intended as an update to our current model and is still based on the same technology.

Updated Training Methods

Using the capabilities of our H100 compute cluster, we were able to revise our training methodologies. While this release is still based on Stable Diffusion and mainly intended as an update of our current model, you will find that its domain knowledge and overall ability to follow prompted tags has been greatly improved.

Higher Resolution

For this model, we have bumped up the training resolution from the old 512x768 to 1024x1024, which means that the basic portrait resolution that the model supports, without requiring the use of SMEA sampling, is now 832x1216. We are also bumping the maximum allowable resolution of free generations for our Opus subscribers to 1024x1024 pixels, so it includes the default resolutions of 832x1216 and 1216x832.

Undesired Content Strength

With the new model comes a new setting called Undesired Content Strength. This setting allows you to use some extra compute power to independently control the strength of the Undesired Content when generating an image. At 100%, the default value, it is disabled. Setting it to any other value enables it. This will slow down generations a bit and thus has an increased Anlas cost.

When setting the Undesired Content Strength to a value below 100%, it will adjust your Undesired Content prompt to be weaker. At a value of 0%, it is approximately equivalent to just setting the Undesired Content to be empty.

Values above 100% will make your Undesired Content prompt stronger than your regular prompt, pushing the generation away further from what you specified in it.

Updated Quality Tags

When training this model, we took the opportunity to revise our existing set of quality tags. The “masterpiece” tag is no more, and for good reason. It was commonly reported that using it introduced some side effects such as adding picture frames. Our new set of quality tags has been carefully selected to be, overall, more neutral. Here’s the list, from best to worst:

  • best quality
  • amazing quality
  • great quality
  • normal quality
  • bad quality
  • worst quality

Here is an example showing the different ends of the scale with the following prompt: “best quality, purple eyes, 1girl, short hair, smile, open mouth, ruffled blouse, red blouse, pleated skirt, blonde hair, green scarf, pointing at viewer, blunt bangs, blue skirt, foreshortening, fang” and a minimal UC of “lowres, worst quality” and vice versa:

“best quality” on the left, “worst quality” on the right

Introducing Aesthetics Tags

While our quality tags do allow steering the overall quality of generations, we found that the results were not always as aesthetically pleasing as they could have been. To change that, we decided to create our own dataset and methodology for rating how aesthetically pleasing images are and have included the results in our dataset’s tags. Again, here’s the list:

  • very aesthetic
  • aesthetic
  • displeasing
  • very displeasing

And once more, an example showing the difference between the two ends of the scale:

“very aesthetic” on the left, “very displeasing” on the right

We recommend using quality and aesthetics tags together for best results. The top two tags of each usually give nice results, so experiment and see what works best for you!

In addition to the regular quality tags and aesthetics tags, we are also introducing year tags. You can try it out easily by specifying, for example, “year 2022” or “year 2014” as a tag in your prompt. The resulting image’s art style will change to be more in line with the prevalent style of the given year.

Old and New

Comparisons between NAID 1.0 vs NAID 2.0
To get an impression of the difference between our old model and NAI Diffusion Anime V2, here are some comparison images. They were generated on the same seed with mostly the same prompts (note: quality tags were changed, depending on model):

What’s next?

Of course, this isn’t all we have in our Shoggy-powered GPU oven. Using everything we’ve learned while creating NovelAI Diffusion Anime V2, we are currently training V3 already, with very promising first results.

So keep your eyes peeled for further updates soon!

That’s it!

Go ahead and create!

Enjoy the power of our updated NovelAI Diffusion Anime V2 model!
Once you got a hang of the new things you can head over to our Discord (https://discord.gg/novelai) and partake in the upcoming Halloween Image Generation contest!

The Halloween Image Contest starts on October 20th until October 31st!

As always, please feel free to share your generations with us on social media by tagging them with #NovelAI or #NAIDiffusionV2

We’re beyond excited to see the new amazing pieces of art you will create!

日本語訳:
NovelAI Diffusion Anime V2のご紹介

より良いスタイル、より良い一貫性、より良いディテール、そしてより良い美学。

いつも通りにコントロール可能。

私たちがリリースする新しい画像生成モデルをようやくご紹介できることを大変嬉しく思います。このモデルは、主に我々の現行モデルのアップデートを意図したもので、依然として同じ技術に基づいています。

トレーニング方法の更新

当社のH100コンピュート・クラスタの能力を活用し、トレーニング方法を見直すことができました。このリリースは、依然としてStable Diffusionをベースにしており、主に現在のモデルのアップデートを意図していますが、そのドメイン知識とプロンプトのタグに従う全体的な能力が大幅に改善されていることがお分かりいただけると思います。

より高い解像度

このモデルでは、トレーニング解像度を従来の512x768から1024x1024に引き上げました。つまり、SMEAサンプリングを使用せずにモデルがサポートする基本的な縦解像度は、832x1216になりました。また、Opus会員向けの無料生成の最大許容解像度を1024x1024ピクセルに引き上げ、832x1216と1216x832のデフォルト解像度を含むようにしました。

除外したい要素の強さ

新しいモデルには、Undesired Content Strength(除外したい要素の強さ)という新しい設定があります。この設定により、画像を生成する際に、追加の計算能力を使用して、ネガティヴプロンプト(除外したい要素)の強さを個別に制御することができます。デフォルト値の100%では無効です。それ以外の値に設定すると有効になります。この場合、生成が少し遅くなるため、Anlasのコストが増加します。

Undesired Content Strengthを100%未満の値に設定すると、除外したい要素のプロンプトが弱く調整されます。値が0%の場合、Undesired Contentを空に設定するのとほぼ同じです。

100%以上の値を指定すると、除外したい要素はメインプロンプトよりも強くなり、指定した内容からさらに遠ざかります。

品質タグの更新

このモデルをトレーニングする際、私たちは既存の品質タグのセットを見直しました。masterpieceタグがなくなったのには理由があります。このタグを使用すると、額縁が追加されるなどの副作用が生じることがよく報告されていたからです。私たちの新しい品質タグのセットは、全体的に、より中立的であるように慎重に選択されています。bestからworstまでのリストはこちら:

  • best quality
  • amazing quality
  • great quality
  • normal quality
  • bad quality
  • worst quality

以下は“best quality, purple eyes, 1girl, short hair, smile, open mouth, ruffled blouse, red blouse, pleated skirt, blonde hair, green scarf, pointing at viewer, blunt bangs, blue skirt, foreshortening, fang”と最小限の除外したい要素の “lowres, worst quality”とそのそれぞれの真逆の両極端の違いを示す一例です:

左が “best quality”、右が “worst quality”

美学タグの紹介

私たちの品質タグは、生成の全体的な品質を管理することはできますが、その結果が必ずしも美的に優れているとは限らないことがわかりました。この状況を変えるために、私たちは独自のデータセットと、画像の美しさを評価するための方法を作成することにしました。そのリストがこちらです:

  • very aesthetic
  • aesthetic
  • displeasing
  • very displeasing

両極端の違いを示す一例がこちらです:

左が “very aesthetic”、右が “very displeasing”

最良の結果を得るためには、品質と美学のタグを一緒に使うことをお勧めします。それぞれのタグの上位2つは良い結果をもたらします!自分にとって一番効果的な組み合わせを探して見てみましょう!

通品質タグと美学タグに加えて、年タグも導入します。例えば、プロンプトのタグに「2022年」や「2014年」を指定することで、簡単に試すことができます。出来上がった画像のアートスタイルは、指定された年の流行スタイルに沿ったものに変わります。

新旧モデルの比較

NAID 1.0とNAID 2.0の比較

旧モデルとNAIDiffusion Anime V2の違いを感じていただくために、比較画像をご覧ください。これらはほとんど同じプロンプトで、同じシードで生成されたものです。(注:クオリティタグはモデルによって変更されています):

次回のアップデート内容

NovelAI Diffusion Anime V2の制作で学んだことをすべて使って、現在すでにV3のトレーニングを行っており、初期の結果は非常に有望です。

では、近日中の続報にご期待ください!

以上です!

さあ、作ってください!

更新されたNovelAI Diffusion Anime V2モデルのパワーをお楽しみください!新機能のコツをつかんだら、Discord (https://discord.gg/novelai)にアクセスして、ハロウィーンイラスト生成コンテストにご参加ください!

ハロウィーンイラスト生成コンテストへの参加を10月20日から10月31日まで受付中です。

参加方法は、いつものように、#NovelAI または #NAIDiffusionV2 のタグを付けて、あなたの生成した画像をSNSでシェアするだけ!

皆さんのクリエイティブで素晴らしい作品に出会えるのを楽しみにしています!

Sign up to discover human stories that deepen your understanding of the world.

Written by Anlatan

novelai.net Driven by AI, painlessly construct unique stories, thrilling tales, seductive romances, or just fool around. Anything goes!

Responses (1)

Write a response

Great news! I love your decision to up the maximum allowable resolution of free generations, it feels great to be an Opus subscriber.
The main website still needs an update for the description of the Opus perks, specifically the double asterisk…

--

Recommended from Medium

Lists

See more recommendations