当前位置:首页 行业动态 正文

AIGC们或成为互联网内容的基础设施

2023-03-16

数字内容正在迎来一个升级周期,其中强需求、视频化和创意拼接成为关键趋势,而AIGC正在成为这一趋势的重要助力。在线生活已经成为常态,因此用户可以更轻松地创作内容,例如短视频的出现将原本需要长时间制作周期和高投入的视频制作变成了源源不断的“工业品”和“快消品”。然而,核心创意仍然稀缺,需要新的模式来辅助创作者持续产生、迭代和验证创意。因此,需要更加低成本、高效能的新工具和方式。

AIGC正逐渐成为数字内容创意生成的重要助力,以人机协同的方式释放价值,成为未来互联网内容生产基础设施。AIGC正在逐步深入到文字、代码、音乐、图片、视频和3D多种媒介形态的生产中,可以担任新闻、论文、小说写手,音乐作曲和编曲者,多样化风格的画手,长短视频的剪辑者和后期处理工程师,3D建模师等多样化的助手角色,协助人类完成指定主题内容的创作、编辑和风格迁移工作。

就效果而言,AIGC在基于自然语言的文本、语音和图片生成领域已初步令人满意,特别是在知识类中短文、插图等高度风格化的图片创作方面,创作效果可以与有中级经验的创作者相匹敌。然而,在视频和3D等媒介复杂度较高的领域,AIGC仍处于探索阶段。尽管AIGC对极端案例的处理、细节把控和成品准确率等方面仍有许多进步空间,但它所蕴含的潜力令人期待。

就方式而言,AIGC的跨文字、图像、视频和3D的多模态加工正在成为一个热点。吴恩达(Andrew Ng)认为多模态是2021年AI的最重要趋势,AI 模型在发现文本与图像间关系中取得了显著进步,如OPEN AI的CLIP能匹配图像和文本,Dall·E生成与输入文本对应的图像;DeepMind的Perceiver IO可以对文本、图像、视频和点云进行分类。典型应用包括如文本转换语音TTS(Text To Speech)、文本生成图片(Text-to-Image),广义来看AI翻译、图片风格化也可以看作是两个不同“模态“间的映射。

AIGC的创造性解放表现为:“只要你能说话,就能进行创作”,不需要理解原理、学习代码或者使用Photoshop等专业工具。创作者可以使用自然语言向AI描述想法和元素(也称为“prompt”),然后AI会生成相应的结果。这是人机互动的又一次飞跃,从打孔纸带、编程语言、图形界面到自然语言交互。

自然语言是不同数字内容类型之间转换的根本信息和纽带。例如,“猫”这个词可以表示加菲猫的图片、音乐剧《猫》以及无数其他的内容。这些不同的内容类型可以称为“多模态”。

AIGC的最大进化之处在于AI对自然语言“理解”和“运用”的能力的提高。这一进化离不开2017年Google发布的Transformer,它开启了大型语言模型(Large Language Model,简称LLM)时代。随后的GPT、BERT等语言模型大幅提高了性能,不仅质量高、效率高,而且可以使用大数据预训练和小数据微调的方式,不再依赖于大量的人工调参。这些模型在手写、语音和图像识别、语言理解方面表现出色,生成的内容也越来越准确和自然。

然而,大型语言模型意味着极高的研究和使用门槛。例如,GPT-3具有1,750亿个参数,需要大量的计算资源和专业知识才能使用。在2022年,midjourney成为第一个用户友好型的AIGC应用,在Discord论坛上以聊天机器人的形式提供,带来了AI绘画热潮,一位设计师使用midjourney生成的图片甚至获得了线下比赛的奖项。

AIGC工具对专业人士的杠杆效应更为显著:如果对普通人的增益是从0到1,那么对专业人士就可能是从1到10。这使得专业人士能够将精力集中于处理更顶层、更有价值的事情,例如立意、风格、构图、元素组合和后期处理,或者通过制作多样的demo来寻找更好的方案。利用AI也正在成为新的职业能力,熟练掌握这一能力的人正在开发AI近乎无限的潜能,并在社交媒体上留下令人瞩目的作品。

从更长远的角度来看,创作和艺术的历史总是呈螺旋式上升的趋势,经历了一段时间某种风格数量激增、质量达到顶峰之后的突破、变革和跨越,同时也是某个时代精神和情感的凝聚。在AIGC的变革下,我们有理由相信创新将继续存在,并可能得到更快的发展。