当前位置:首页 行业动态 正文

AIGC或带领我们进入一个新世界

2023-01-13

到了2022年,人工智能画画已经变得非常简单了,只要你能打字。在一片高斯噪声中逐渐显露出绚丽的色彩和图案, AI是如何画图的?怎么可能画的这么好?人类设计师会被取代吗?

更让人费解的是, AI是否具备逻辑思考的能力?

事实上,我们现在还处于人工智能的早期阶段,人工智能对逻辑和某个垂直领域的理解还不够透彻,但它的逻辑思维能力一定会成为下一步研究的重点。

今天很荣幸跟大家分享一些有关 AIGC图片的梳理,在熊市漫长的熊市中,我们看到了很多令人惊叹的效果。

简单来说,就是三步。首先,将人类的文字转换成计算机能够理解的表达方式,然后将计算机能够理解的文字转换成计算机能够理解的视觉描述,然后,将计算机能够理解的视觉描述转化为人类能够理解的图像。

就拿DALLE2来说吧,它训练了3个模型。下面,我将一一讲述。

GLIDE模型

有了映射之后,接下来要做的就是从视觉描述中生成图像,即 GLIDE扩散模型。

这就像是教孩子们画画一样,给孩子们看一幅简单的画,然后慢慢的把画擦掉,然后在大人的引导下,从一张白纸开始画。

从计算机角度看,擦除过程就是不断给图片添加噪声的过程,这种噪声被称为高斯噪声,最终变成纯噪声图像。恢复过程是通过概率消除噪声的过程,在这个过程中,往往会加入一些叫做 Guidance的指导,以保证恢复过程朝着正确的方向进行。

GLIDE扩散模型最大的创新在于将文本信息融入到训练中。基于 CLIP模型,将文本信息嵌入到恢复过程中,由于需要学习恢复算法和识别算法,因此很难快速叠加。然而,在恢复过程中,知识并未完全融合,如何将知识完全融入图像生成?

抽象的 GLIDE模型,就像爸爸教小朋友骑车一样,目标是希望孩子在爸爸和没爸爸的帮助下都能骑出同样的曲线。这是一种中间状态,从扶到扶,再扶,再到放手,最终的目标就是在这种状态下不断地达到。

GLIDE扩散模型的目标也是一样,它的原理是:爸爸扶着孩子,帮助分类和识别目标,松开手就意味着没有分类器的指引,有时候会用空白的字符串替换掉一些文本信息。当有分类器生成的曲线与没有分类器引导生成的曲线一致时,文本的全部信息就会融入到生成过程中。

有了 GLIDE扩散模型以后,你可以设定不同的引导目标,从而产生不同的效果,如果你想要生成类似于图片效果的图片,可以输入图片,这样就能得到类似风格的图片。这就像是一个孩子的父亲告诉他,自行车的前轮其实只是一种装饰品,经过反复的强调,他才能学会骑车。

CLIP模式

第一个模型为 CLIP模型,它负责将文字与视觉图像进行连接。

过去的许多算法就像拿出一万张照片,让电脑找出不同类别的照片。它最大的缺点就是无法标注世间万物,只能对有限的集合进行分类,同时,人力标注也会成为学习的极限。

CLIP模式带来了什么新想法?就像是在现实生活中,教孩子们认识物体一样。不要一次拿出20张鸭子的图片告诉孩子这是鸭子,你要记住它的所有特征。CLIP模型算法实现的特点是:只要计算力足够,我们就可以学会世间万物。

CLIP模型的数据集来自哪里?它是从网络上收集到的文字和图片,收集了四亿张图片,然后通过文字编码器,把人类能看懂的文字和图片,转换成计算机可以理解的数据结构。

CLIP模型使用两种编码器,视觉编码器称为视觉转换器,文字编码器称为转换器。下面这张图片是由 Vision Transformer编码器产生的效果图,我们可以看到,背景部分的颜色被大大削弱,突出了网球和黑狗的轮廓。优秀的编码器可以做到这一点:从人的角度去寻找重点,降低数据的维度。

CLIP模型有什么作用?将来自互联网的4亿张图片和4亿条文本进行编码,然后把它们配对成一对,形成一个4亿4千万的矩阵。

什么是 CLIP模型的训练目标?通过各种复杂的计算,将原本匹配好的图片与文字产生正相关。将苹果图片与苹果文字相匹配,而非摩托车等。

CLIP模型实现了什么功能?给定任意文本,可返回最相关的图片;给定任意一张图片,可返回最相关的文字描述。实现大量图像和文字特征的映射。

PRIOR模型

当 CLIP模型把文本与视觉相连接时, GLIDE模型通过概率恢复随机模糊照片,并将文本信息融入其中,但由于缺少了两者之间的联系,因此如何将文本描述映射为视觉描述,是 PRIOR模型的核心部分。

CLIP模型虽然能够描述文本与视觉之间的相关性,但是缺少一个转换器,即如何生成新图像。就像你教孩子画帽子和兔子一样,现在让他画一只戴帽子的兔子。PRIOR模型是 CLIP模型之后的一种新效果,文本和图片编码器在 CLIP模型中添加了一个新的特征,使得文本和图片的信息在同一个维度上融合,方便操作。

三种模型之间的关系

CLIP模型理解了文字和图片之间的关系,而 PRIOR模型则是通过理解文字和文字之间的关系,从而在脑海中形成一幅画面,而 GLIDE扩散模型则是在脑海中绘制出一幅人类能够理解的画面。

让我们再来看看下面这篇论文的原理。在图中有一条虚线,在虚线上方是一个预习过程。左边的文本编码器,即前面提到的文字转换器转换器,可以将文本转换成计算机能够理解的表达。右边的图像编码器,即视觉转换器,将人类理解的视觉图像转换为计算机数据结构。

经过大量的训练后,他们之间产生了一种相互关联的联系,即文字与图片之间的关系产生了很强的理解。

在虚线之下,是一个生成过程,将文本放入 PRIOR模型中,生成计算机能够理解的视觉结构,然后利用 GLIDE模型生成人类能够理解的图像。虽然上、下两个小狗的图片看起来不同,但是它们本质上包含着相同的文本语义,因此任何一段文字都可以生成人类能够理解的图片。

发展历史

整个梦境都是从一篇名为《Attention is all you need》的论文开始的。它使算法学会了人类注意力的机制,即当我们看一张图片时,会看到重点,而忽略背景信息。

这篇论文发表之后, NLP的模型 Transformer发布之后,很快就火了, BERT模型和GPT-3模型也出现了。在视觉领域,有 DERT模型、 iGPT模型和前面提到的 Vision Transformer。

Transformer模型之所以重要,就是因为它是我们前面提到的三个模型的基础,只有学会了找到图片和文字的重点,才能建立 CLIP模型。

梦想成真还有另外一半,那就是图像生成。

2005年开始研究特定概率密度函数,简单来说,就是用最快的方法估算正态分布,然后在2008年开发了去噪自编码器,加入了高斯噪声,这是一种正态分布的噪声。到了2011年,人们开始尝试把这两种算法结合起来,而2015年则开始尝试用这种思路来还原照片。不过现在还原出来的照片质量还不够好。

时间回到2019年,宋飏博士在数据分布估计中引入了朗之万动力学方法,取得了很好的效果。2020年,谷歌发布了一篇名为 DDPM的论文,其核心内容是将朗之万动力学与扩散模型结合在一起,产生了非常高的图像生成质量。

2014年引起轰动的 GAN网络对抗生成网络已经能够生成较好的图像,但是训练难度较大,扩散模型降低了训练难度,同时生成的图像比 GAN图像更加多样化。

在实现梦想的2202年时, OpenAI和 google开始尝试将文本信息添加到扩散生成过程中,从而产生了今天的 GLIDE模型。OpenAI在思想上的突破,利用 Transformer对图片和文本进行大量的理解,生成 CLIP模型,再通过扩散模型将海量的图文信息融入到图像生成中,最终形成了高质量的 AIGC图片。

下一步,我们将讨论几个问题。

1、未来的商业模式是怎样的?会不会更加集中?围绕着这样的 ChatGPT模型,它将产生什么样的创业方向?

可能有两种模式,一种是像阿里云一样的 ToB模式,另一种是让开发者去做这种大型模型。不管是 DNA的突破,还是方法论上的突破,都有可能让企业垄断,产生巨大的影响。

ChatGPT与用户持续互动,不断地获得反馈数据,数据本身就是一种资产,一种生产要素。这种生产要素生产出来的产品,人类使用频率越高,这种生产要素就越重要。

2、是否存在规模效应和双边网络效应?

我觉得这背后既有网络效应,也有一定的规模效应。试想一下,第一个开发出来的中文模型,会吸引到有限的开发者,而开发者们,则会通过他们的产品,来吸引 C端的用户,而 C端的数据,也会不断地反馈给 C端的用户,让 C端的用户得到更好的效果,从而产生更大的垄断效应。

3、从投资的角度来看,我们应该选择什么样的团队?

我觉得传奇团队拥有创造 dna的能力,黄金团队拥有将应用层与 AI完美结合的能力,而白银团队则是打造 AI领域的基础架构团队。

4、从产品化和商业化的角度来看, AIGC目前的技术水平会有什么影响?

有两个维度。第一个维度是从海量数据中寻找我们所需要的内容;第二个维度则是从海量数据中提炼出新内容,反过来给我们以创造灵感。

从 AI本身的能力出发,一方面可以极大地提升现有产品的使用体验,比如将 AI引入笔记类软件,可以让用户在写作过程中获得更好的体验;另一方面,未来缺乏创造性和创造力的人才可能被人工智能所替代。

5、言归正传,我想确认一下我的理解是不是正确的:和 Transformer相比, ChatGPT并不是 AI领域的颠覆性创新,它只是简单地加入了人类的 Back,不断地调整参数,让它变得越来越聪明。

所有的模型进化,其实都是朝着两个方向进化的。第一项是 dna,第二项是方法。dna类似于现实世界的材料研发,方法类似于现实世界的材料使用。

Transformer是 DNA进化的产物,是一个更为核心的突破。ChatGPT是一种方法,但是它是否更简单?不,它经历了漫长的探索,同时需要满足许多先决条件,才能使方法论得以应用。不管是方法论上的突破,还是 DNA上的突破,都是有意义的。