无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

发布一下 0 0

今年8月,Stable Diffusion(以下简称“SD”)问世。

秉承“大开源”的精神和宗旨,SD开放了核心 AI 算法模型(Latent)、核心训练数据集(LAION)、 AI 生成图片的版权(CC0),改变了开源AI模型的本质。不仅在短短两个月时间内让其背后公司实体一跃成为市值高达十几亿美金的独角兽,更吸引了全球数百万乃至上千万人积极参与其生态的建设,在世界各地催生了成千上万的其他模型和创新。

目前 SD 生态由公司实体 StabilityAI 和 RunwayML 共同领衔推进。与此同时一些第三方社区力量也举足轻重,诸如 SD webui 项目、众多二次元改进项目、可用于训练 SD 新模型的 dreambooth 生态、可用于精准控制 SD 画面输出的交叉注意力技术方向等等。

这场如火如荼的“去中心化运动”,也引爆了海内外的创业与投资热潮,掀起了一场文本到图像模型领域的新革命。SD因此成为了最快达到10K Github star星数的项目之一,在不到两个月的时间里飙升至33K星,在Github上的一众项目中可堪封神。

但在11月底,SD再次向世界宣告:神话才刚刚开始——SD 2.0版本上线。


Stable Diffusion 2.0-功能革新

与1.0版本相比,Stable Diffusion 2.0提供了许多重大改进和功能,概括为“质量的极大进化”,包括:

1、可以生成默认分辨率为512x512像素和768x768像素的图像;

2、生成图像的分辨率提高了4倍;

3、扩展了1.0版本的图像到图像功能,为创意应用提供了全新的可能性;

4、可智能快速地切换图像的各个部分。

另外,官方特别提到,这次他们过滤掉了训练数据集里一些不可描述的内容。


图像生成质量提升

SD 2.0版本使用了一种全新的文本编码器OpenCLIP训练的鲁棒文生图模型,该模型由 LAION 在Stability AI 公司的支持下开发,与早期的 V1版本相比,它极大地提高了生成图像的质量——本版本中的文生图模型可以生成默认分辨率为512x512像素和768x768像素的图像

这些模型是在Stability AI下面的DeepFloyd团队创建的LAION-5B数据集的美学子集上所训练的。

LAION-5B是一个包含58.5亿个CLIP过滤图像文本对的数据集,比LAION-400M大14倍,曾是世界上最大的可公开访问的图像文本数据集。


无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

Stable Diffusion 2.0以768x768图像分辨率生成的图像示例,来源网络

训练完成后,就使用LAION的NSFW过滤器进一步过滤,删掉「成人内容」。

这对于很多网友来说,堪称是「史诗级削弱」了……


超分辨率Upscaler扩散模型

言归正传,Stable Diffusion 2.0还包括一个高阶Diffusion模型——Upscaler Diffusion模型,可以将图像分辨率提高4倍。

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

左图:128x128 低分辨率图像。右图:Upscaler 生成的 512x512 分辨率图像

有了Upscaler Diffusion的加持,Stable Diffusion 2.0与以前的文本到图像模型结合使用时,可以生成分辨率为2048×2048或更高的图像。


depth2img深度图像扩散模型

与此同时,团队采用了一种新的深度引导(depth-guided)稳定扩散模型——depth2img。它扩展了 V1版本中的图像到图像特性,为创造性应用提供了全新的可能性

通过使用现有模型,Depth2img能够推断输入图像的深度信息,然后使用文本和深度信息生成新图像。


无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

左边的输入图像可以生成右边几个新图像。新模型可用于保持图像结构的图像生成图像和形状条件图像合成(shape-conditional image synthesis)。


Depth-to-Image


Depth-to-Image可以提供各种新的创造性应用,提供与原始图像截然不同的转换,但仍然保持图像的连贯性和深度信息:


无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

Depth-to-Image保持连贯性



更新文本引导修复扩散模型

除此之外,SD官方的这次更新,还引入了一个新的文本引导(text-guided)修复模型,在SD 2.0文本到图像的基础上进行了微整,能够很容易快速实现替换一个图像的一部分。

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

更新后的修复模型在 Stable Diffusion 2.0 文本到图像模型上进行了微调


体验“差评”

在国外社交媒体上,不少网友却对SD的本次更新给出了「差评」,理由自然是「模型生成NSFW内容和图片的能力被削弱了」。(注:NSFW的全称是「Not Suitable For Work」,简单讲就是一些不适合上班时间浏览的内容~)

就像前文说的,这次模型的关键组件功能被改进,使得Stable Diffusion更难生成某些引起争议和批评的图像了,比如广受欢迎的裸体和色情内容、名人的逼真照片以及模仿特定艺术家作品的图像

有用户表示:「他们切除并『阉割』了模特。没有艺术,没有人体的自然美,没有画家和摄影师最好的作品中描绘的生死戏剧,这比丑陋本身还要糟糕。」

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?


但在国内,如果SD早点出过滤,某些友商或许就不用再担心因为涩图被举报了……


无界版图AI-SD2.0模型效果


在公布SD2.0版本的博客中,Stability AI团队的总结非常激动人心:“Stable Diffusion第一代发布以来,我们一直在努力优化模型,以运行在单一GPU上-希望让尽可能多的人可以使用。我们已经看到,当数以百万计的人使用这些模型,他们共同创造了一些真正惊人的东西。这就是开源的力量:挖掘数百万人才的巨大潜力,这些人可能没有资源训练一个最先进的模型,但他们有能力用一个模型做一些不可思议的事情。

这个新版本,连同其强大的新特性,如 depth2img 和更高分辨率等升级功能,将成为无数应用程序的基础,并能够激发新的创造潜力。”

带着沸腾的热血,基于SD 等模型基础上优化的无界版图AI,也在上周率先上线了SD 2.0版本的画面类型。经过本土化的改进,无界版图AI的SD 2.0画面类型,比官方模型分辨率更高,风格也更加精致。

新的时代,已经来临。


无界版图AI-SD 2.0模型:人像成图

某种意义上来说,人像绘制一直是检验AI程序或者说模型的一个标杆,人像的完美程度代表了程序可以达到的真实度有多高。

所以这一次,我们根据无界版图特聘讲师 穿行者老师的思路——以追求真实性的人像绘制,来感受无界版图AI-SD 2.0模型的颠覆。


无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型基础班(分辨率2048*2048,下同)

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型基础班(分辨率2048*2048,下同)

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型基础班(分辨率2048*2048,下同)

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型基础班(分辨率2048*2048,下同)



无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型SD2.0版

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型SD2.0版

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型SD2.0版

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型SD2.0版


图所用的描述词是一致的:portrait of a female, natural light, cinematic light, 4k, Photo realistic, volumetric lighting, global dynamic lighting, artgerm, High Detail, bokeh(detailed face and eyes:1.3),(perfect eyes:1.1),contacts, iris,fullbody,think dresses,skindentation,shampoo,conditioner,short skirts,trending on artstation.

呈像的效果也显而易见:使用基础通用模型生成的图像,虽然画面中的许多细节都已经非常逼真了,但最大的问题是表现非常不稳定,比如第三张的光影。而使用了SD 2.0的画面类型之后,图片真实度更强,皮肤的真实度相当逼真,光线堪比大片海报。

接下来我们将抛开上述描述词当中类似皮肤眼睛、瞳孔、头发等参数,完全重新开始介绍一下如何用最简单的关键词生成完美人像:


1、描述词: Close up studio portrait,film,detail,studio lighting


无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型SD2.0版


可以看出,每一张的细节都相当逼真,真实展现了皮肤、眼睛、毛发的细节,没有过度柔化的效果

值得一提的是,或许是因为描述词有些抽象,基础通用模型对于“portrait”的理解能力不足,成图有些诡异,也侧面印证了SD2.0版本强大的理解力。


2、描述词: Close up studio portrait of an old chinesegrandpa,film,detail,studio lighting


无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型基础版

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型基础版


无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型SD2.0版

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型SD2.0版



注意老年人下垂的眼袋、凹陷的面颊、萎缩的皮肤……尽管面构图依然不够稳定,但相比于使用基础版通用模型绘制出的效果,无论是五官比例还是真实度,都有明显变化。

同时,无界版图AI-SD 2.0也继承并优化了官方SD 2.0模型对负面提示语理解能力的强化,因此负面提示语成为了改善出图质量的一个必须参数。

所以我们增加简单的几个负面提示,如“disfigured,blurry,sadness”。构成新的描述词:Close up studio portrait of an old chinesegrandpa,film,detail,studio lighting,disfigured,blurry,sadness :


无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型SD2.0版

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

无界版图AI:通用模型SD2.0版



无界版图AI-SD 2.0模型:其他类型图片

除了在人像绘制方面颠覆性的改变,无界版图AI-SD 2.0模型在其他各方面也有显著的更新。接下来,我们将以其生成图与原有的各类模型作一些不完整对比:


1、拟人动物


无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

通用模型SD 2.0版

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

通用模型增强版


描述词:可爱的小白兔在中式古堡里装扮成女皇,穿华丽汉服,Jean-Baptiste Monge,柔和的电影灯光,8k,复杂的细节,肖像,皮克斯风格的角色,老式电影风格

SD 2.0版本中,兔子头部的比例以及耳朵都非常真实,但两者最明显的差异还是在于背景。SD 2.0版完全理解了“在中式古堡里装扮成女皇”,而通用模型增强版则将其理解成了“装扮成中式古堡里的皇帝”,忽略了“背景元素”的同时,也模糊了“性别”。


2、自然风景


无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

通用模型SD 2.0版

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

二次元模型增强版


描述词:green sky like angel wings ,sparkling lake stars , shiny , real high - definition , super wide-angle panorama , super high-definition ,8k lifelike , high pixel , crack , Marc Adamus landscape photography , high-definition , HD

两个版本都将“green sky like angel wings”的重点放在了星空。但SD 2.0版的成图,整体使用了描述词中“green”的色调;而二次元模型增强版的成图,就显得随意了许多。

另外,或许是因为描述词比较复杂,二次元模型增强版的成图中并没有体现出“lake”,并以“灯海”来代替了“sparkling lake stars”,而这些在通用模型SD 2.0版中都有所体现


3、人文建筑

最后我们来看一下无界版图AI通用模基础版、增强版、SD 2.0版本的不同效果。三者在风格上有明显的差异,也各有其强项:

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

通用模型SD 2.0版

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

通用模型增强版

无界AI | 差评?玩过无界版图AI 的“SD 2.0模型”,谁还会沉迷涩图?

通用模型基础版


描述词:冰雪覆盖的冰冷山脉中的冬季风暴城,荒凉,阴郁,错综复杂,高度详细,数字绘画,艺术站,概念艺术,平滑,清晰的焦点,插图,艺术由artgerm和greg rutkowski创作

通用模型基础版将“冬季风暴城”解读成了“被暴雪覆盖的房屋”,同时对于“荒凉,阴郁,错综复杂”等氛围的把握,也非常精准。

通用模型增强版则将重心放在了“冰雪覆盖山脉”以及“冬季风暴城”,甚至把“冬季风暴城”解读成了“被雪覆盖的城堡”,成品图带点梦幻的感觉。

而通用模型SD 2.0版将“冬季风暴城”解读成了“被暴雪覆盖的小镇”的成图相比前二者更加写实,对于描述词的把控同样非常细节。尤其是对“阴郁”的表达,不再是简单的“灰蒙蒙的天”,层次感与真实度有显著的变化。

……

更多无界版图AI-SD 2.0版本的更多玩法,快来无界AI体验吧!

版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除

本文地址:http://0561fc.cn/192398.html