“近期热门的 AI 作画技术是通过文本描述生成绘画,但有人批评其是“抄袭”或“缝合怪”。实际上,AI 生成图片的原理是通过潜在空间(latent space)的操作来实现的。潜在空间是一个多维向量空间,可以表示一个图片的所有可能性。通过输入文本描述,AI 会在潜在空间内找到与文本描述相对应的向量,并将其转化为图片。
在上一篇文章 ai绘画是什么意思?什么是ai绘画? 中,我们讲到最近火热的 AI 作画技术是是通过文本描述生成绘画,今天我们就讲一下这背后的ai绘画技术和ai画画原理。
“大象上飞”~ 当 AI 开始想象
早在 1980s,人工智能的先行者们就在尝试解决 AI 识别物体的问题,最终在 2015 年 AI 的识别能力超越了人类水平。

能识别图片中的物体后,很快 AI 成功地将这些标签组合成一句话,这就是图像字幕技术(image captioning):通过图像生成对应的一句话描述。

这个过程能不能反过来?换言之,能不能通过图片生成描述图片的一句话呢?

相比从图片生成字幕,这是相当大的挑战,研究者希望 AI 能生成人们前所未见的图片。2016 年,这一设想成为了现实,就是这些 32 * 32 像素的图片。

这为我们展示了一些未来的可能性,而现在,未来已来!

AI = 缝合怪?
提到 AI 作画,很多批评者会提到 “缝合怪” “抄袭”。我们可能会假设,当我们输入 “一只骑摩托车的大熊猫”

AI 会在数据库里检索 “摩托车”、“大熊猫” 的图片,然后把他们拼在一起

但实际上并非如此,要了解 AI 怎么生成图片,需要先理解 latent space——潜在空间。大家都有自己的身份证号码,前 6 位代表地区、中间 8 位代表生日、后 4 位代表个人其他信息。放到空间上如图所示,这个空间就是「人类潜在空间」。

这个空间上相近的人,可能就是生日、地区接近的人。人可以对应为这个空间的一个点,这个空间的一个点也对应一个人。如果在空间中我的附近找一个点,对应的人可能跟我非常相似,没准就是我失散多年的兄弟 hh
AI 就是通过学习找到了一个「图片潜在空间」,每张图片都可以对应到其中一个点,相近的两个点可能就是内容、风格相似的图片。

所以这个空间中有一个区域是 “大熊猫区”,一个区域是 “摩托车区”。提示语 “一只骑摩托车的大熊猫” 会帮助 AI 找到「图片潜在空间」中某个可能位于 “大熊猫区”、“摩托车区” 交汇处的点。AI 再把这个点通过某种方式「生成」一张图片,这种方式就是大名鼎鼎的 “Diffusion”。

至于 AI 是怎么通过 prompt(提示语)找到「图片潜在空间」中对应的点,再把这个点生成一张图片,敬请关注 ai绘画是怎么画的?ai绘画算法揭秘
图片引用:
- “大象在天上飞”~ 当 AI 开始想象
- https://github.com/floydhub/image-classification-template
- https://towardsdatascience.com/image-captioning-in-deep-learning-9cd23fb4d8d2
- https://arxiv.org/pdf/1511.02793.pdf
- https://www.youtube.com/watch?v=SVcsDDABEkM
- AI = 缝合怪?
【原创】
作者:倒立的BOB
更多精彩内容请访问 ~