
一文详解 AIGC:如何助推元宇宙发展?
AIGC听起来这么好,那跟Web3会有什么关系?大概有这几个方向值得关注。
由 AI 作画应用 Midjourney 生成的绘画作品《太空歌剧院》在今年 9 月美国科罗纳州博览会上获得艺术比赛一等奖,吸引了不少人的眼球。今年以来连续好几个 AIGC 领域的项目获得了不错的融资, 到底 AIGC 有什么特别之处?本文中,PANews 将对 AIGC 近来的发展作一个梳理介绍。
美国科罗纳州博览会获奖艺术作品《太空歌剧院》
什么是 AIGC?
互联网内容生产方式经历了 PGC——UGC——AIGC 的过程。PGC(Professionally Generated Content)是专业生产内容,如 Web1.0 和广电行业中专业人员生产的文字和视频,其特点是专业、内容质量有保证。UGC(User Generated Content)是用户生产内容,伴随 Web2.0 概念而产生,特点是用户可以自由上传内容,内容丰富。AIGC(AI Generated Content)是由 AI 生成的内容,其特点是自动化生产、高效。随着自然语言生成技术 NLG 和 AI 模型的成熟,AIGC 逐渐受到大家的关注,目前已经可以自动生成文字、图片、音频、视频,甚至 3D 模型和代码。AIGC 将极大的推动元宇宙的发展,元宇宙中大量的数字原生内容,需要由 AI 来帮助完成创作。
内容生产方式演变过程
AIGC 底层技术突破
底层技术的突破使 AIGC 商业落地成为可能,传统 AI 绘画技术采用生成对抗网络(GAN),但 GAN 生成的图片结果输出不稳定,分辨率低。直到 2021 年 OpenaAI 团队开源了其深度学习模型 CLIP,以及今年 7 月出现的去躁扩散模型 Diffusion,两者相互结合,让 AI 自动生成文字和图片的质量得到了质的提升。
Diffusion 是一种去噪扩散模型,工作原理是对图像逐步施加噪点,直至图像被破坏变成完全的噪点,然后再逆向学习从全噪点还原为原始图像的过程,而 AI 所看到的是全是噪点的画面如何一点点变清晰直到变成一幅画,通过这个逆向过程来学习如何作画。
CLIP 是 OpenAI 在 2021 年初发布的用于匹配文本和图像的神经网络模型,是近年来在多模态研究领域的杰出成果,它一方面对文字进行语言分析,另一方面对图形进行视觉分析,不断调整两个模型内部参数,达到文字和图像高度匹配的效果。
在 AI 生成文字方面,目前 AI 已经可以作诗、写邮件、写广告、剧本和小说。在今年,采用 AIGC 技术的虚拟人度晓晓写作高考作文,在不到 1 分钟的时间,完成了 40 多篇文章,获得专家打分 48 分的成绩,击败了 75% 的考生。目前 OpenAI 的 GPT-3 模型是 AI 生成文字中最成熟的模型,最近有一些项目把 GPT-3 模型商业化,包括自动写邮件的 OthersideAI,自动写广告文案的 Copy.ai 和 Jasper.ai,在用户数量上突飞猛进,并获得了大笔的融资,就在 11 月 16 日知识管理和内容协作平台 Notion 也发布了其文字自动生成产品 Notion AI,并开始 Alpha 版本测试,Notion AI 也是基于 GPT-3 模型开发。
在 AI 生成图片方面,今年 AI 作画水平突飞猛进,其背后的算法模型也在不断迭代,年初推出的 Disco Diffusion 只能生成粗糙的图片,4 月 OpenAI 发布的 DALL-E2 代已经可以生成完整的人像和图片,到 8 月 StabilityAI 发布的 Stable Diffusion 模型取得质的突破,已经可以生成可以媲美专业画师的作品,生成图片的效率也从年初的数小时到现在的几分钟甚至数十秒。
AI 生成图片技术演变
在 AI 生成音频方面,10 月 11 日,AI 播客 Podcast.ai 生成的一段关于乔布斯和美国知名主持人乔·罗根之间的 20 分钟访谈播客在科技圈广为流传,在播客中乔布斯谈到自己的大学时代、对计算机、工作状态和信仰的看法,整个播客听起来毫无违和感,基本做到以假乱真。
由 AI 生成的乔·罗根采访乔布斯播客
在 AI 生成视频方面,目前 AI 生成视频的算法模型还未成熟,也还没出现一家独大的局面。9 月底 Meta 公布了 AI 制作视频工具 Make-A-Video,Google 也紧接着发布了 Imagen Video 和 Phenaki。Make-A-Video 具有文字转视频、图片转视频、视频生成视频三种功能。仅仅通过文本描述,Phenaki 就可以生成一段情节连贯的视频。10 月 9 日 B 站上的 UP 主「秋之雪华」公布了全球首个 AI 绘图、AI 配音的动画《夏末弥梦》的 DEMO,其画面精美程度不输专业画师的作品。
AI 动画《夏末弥梦》DEMO
但 PANews 观看该 DEMO 后发现,动画中人物几乎是静态的,只是在场景切换时换了个另一张图,由此可以看出目前 AI 生成视频中动画的过度和连贯性技术还不是很成熟,因为 AI 生成视频需要多个 AI 模型来配合完成。
AI 生成视频技术模型
从技术上看,视频是把多张图片有逻辑和连贯的组合在一起。由文字生成视频,首先要生成多张图片,然后还要把这些图片有逻辑和连贯性的组合起来,因此难度比文字生成图片高了很多,如果一旦像文字生成图片那样能够高效率的生成高品质视频,将对内短视频、影视、游戏、广告等内容生产行业带来重大影响,不仅提升视频制作的效率和成本,还能帮助设计师产生更多的灵感和创意,让视频内容行业变得更加丰富和繁荣。
在 AI 生成 3D 方面,以往的「3D 建模」需要利用三维制作软件通过虚拟三维空间构建出具有三维数据的模型,技术要求比较高,需要懂美术、熟悉 3DMAX 和 Maya 等软件,还需要大量的时间去人工绘制。但 UC Berkeley 的几个博士后发表的论文神经辐射场技术(NeRF)可以把全景相机拍摄的视频自动渲染为 3D 场景,减少了人工 3D 建模的过程,NeRF 技术在 2020 年的 ECCV ( 欧洲计算机视觉国际会议 ) 提出, 并在 2021 年的 ACM(美国计算机协会)获了荣誉提名奖。著名 VR 科技博主 Robert Scoble 7 月在他的 Twitter 发布了这个视频,他用 NeRF 技术渲染 Insta360 全景相机所拍视频后得到的 3D 场景,效果令人惊叹,预计会有相关项目将 NeRF 技术进行商业落地尝试,对于这点非常值得期待。
AIGC 领域重要项目
今年加入 AI 作画赛道的公司越来越多,今年分别出现了 Mid Journey、DALL-E2、Stable Diffusion、Tiamat、百度文心等多家 AI 作画公司,以及 JasperAI、CopyAI 这样的 AI 文字项目。
从融资角度来看,目前 AIGC 有 3 个商业化的方向:
-
第一个方向是通过 AI 生成文字,比如自动写邮件和广告营销文案,这要归功于 OpenAI 的 GPT-3 AI 语言模型,目前大多数 AI 生成文字类项目都使用该模型。
-
第二个方向是利用 AI 作图,主要技术是结合多模态神经语言模型 CLIP 和图像去躁扩散模型 Diffusion,仅仅提供一些关键词描述就可以自动生成图片。
-
第三个方向是 AIGC 的底层技术模型开发,OPENAI 和 StableAI 是这个方向的龙头,也是融资金额最大的。
预计接下来 AIGC 的热门方向可能是用 AI 生成视频和动画,这就看 Meta、Google 的 AI 视频模型能不能解决视频的连贯性和逻辑性问题,或其他公司提出更好的解决方案。
AIGC 领域热门项目
OpenAI/GPT-3, OpenAI 是由马斯克和 Y-Combinator CEO Sam Altman 于 2015 年成立的一个非营利组织,但 2019 年马斯克离开了 OpenAI ,紧接着微软注资 10 亿美元将其变为营利性公司,并与微软的云计算平台 Azure 展开合作。最近微软正在对 OpenAI 进行新一轮的投资进行后期谈判,目前估值已经达 200 亿美金。GPT-3 是 OpenAI 于 2020 年 5 月推出的自然语言处理模型,支持用户仅输入一些关键词就能生成一封邮件、文章或新闻,甚至是小说,它是目前最成熟的自然语言生成技术 NLG 之一。今年 4 月 OpenAI 还推出了 DALL-E2 项目,允许用户通过文本生成图像,成为目前主流的三大 AI 作画应用之一。
StableAI /Stable Diffusion,10 月 17 日英国的 Stability AI 宣布以 10 亿美元的估值完成 1.01 亿美元融资,此次融资由 Coatue 和 Lightspeed 领投。消息称 Stability AI 正准备下一轮 10 亿美金的融资,本轮融资 Google 可能会参与,如果投资成功,相信 Google 将会和 StableAI 深度合作。Stability AI 成立于 2020 年,由去中心化组织 EleutherAI 支持开发,其理念是「AI by the people, for the people」。StableAI 主要研 AI 生成图片、音频、视频和 3D 的模型,其研发的开源 AI 作图模型 Stable Diffusion 在 2022 年 8 月一经推出就立刻吸引了大家的眼球,在 Stable Diffusion 的 Dream Studio 测试版网站中只要输入文字描述,它就能生成一副可以媲美专业画师的图片,Stable Diffusion 是开源产品,一些 AIGC 项目对其进行了二次开发,退出了包括图像、语言、音频、视频、3D、生物 AI 等模型。
由 stable diffusion 生成的图片
Midjourney:Midjourney 是一款可以和 Stable Diffusio 以及 DALL-E2 媲美的 AI 绘画工具。Midjourney 是部署在 Discord 上的应用,在 Discord 里输入文字,一分钟就可以生成对应的图片,目前其官方 Discord 已经拥有 140 万用户,其免费版本能生成的图片数量有限,超出数量需要付费订阅,如果想体验一下 Midjourney 作图可以查看这个教程。
由 Midjourney 生成的图片
OthersideAI:OthersideAI 主打利用 AI 自动回复邮件,底层技术采用 OpenAI 的 GPT-3 协议,OthersideAI 曾获得 Madrona Venture Group 领投的 260 万美金种子轮融资,Madrona Venture Group 曾参投过 Amazon 的早期种子轮融资。 OthersideAI 的操作非常简单,只要输入邮件内容的关键要点,它就可以为生成一封完整的邮件。
CopyAI:Copy.ai 是一个通过 AI 来写作广告和营销文案的创业公司,它可以帮助用户几秒钟内生成高质量的广告和营销文案,主打 ToB 商业场景,它的底层技术也是采用 OpenAI 的 GPT-3 协议。目前 Copy.ai 的用户包括像微软、Ebay 这样的大公司。Copy.ai 曾获得 Craft Ventures 领投的 290 万美金种子轮,A 轮融资 1100 万美金,由 Wing Venture Capital 领投,红杉资金及 Tiger Global 跟投。
JasperAI:Jasper.ai 成立于 2020 年,通过 AI 帮企业和个人写营销推广文案以及博客等各种文字内容(和 Copy.ai 类似),其底层技术也是 GPT-3。Jasper.ai 10 月以 15 亿美金估值完成了 1.25 亿美元的 A 轮融资,由 Insight Partners 领投,Coatue、BVP 以及 IVP 跟投。今年 1 月推出第一个版本后,很快受到欢迎,短时间内获得了数百万美元的收入。
Play.ht:Play.ht 是一个 AI 文本转换语音应用,在今年 9 月发布了第一个语音模型 Peregrine,包含数千种说话的声音,可以学习人类的语气、音调和笑声。再进生成采访乔布斯播客的 Podcast.ai 就是采用 Play.ht 语音模型,它通过大量采集网络上关于乔布斯的录音,然后进行训练,最终生成假乔布斯的声音,相似度非常高。
Notion AI:刚刚于本月 16 日公布的 Notion AI 是知名知识管理和内容协作平台 Notion 基于 OpenAI GPT-3 模型开发的 AI 文字生成工具。目前 Notion AI 的功能包括自动撰写文章、广告文案和播客;通过头脑风暴为用户提供创意建议;自动检查文字拼写和语法错误;自动翻译文章;目前 Notion AI 以白名单的形式开放 Alpha 版本测试。相信 Notion AI 的加入将会进一步推动 AI 生成文字走向普及。
AIGC 如何助推元宇宙发展
虽然元宇宙的终极形态还无法确定,但可以肯定的是元宇宙将极大扩展人类的存在空间,在我们迈向元宇宙的过程中,需要大量的数字内容来支撑,单靠人工来设计和开发根本无法满足需求,AIGC 正好可以解决这个问题。游戏将是元宇宙中最先落地的场景,元宇宙和游戏有一个共同点,都是为用户提供高度的真实感和沉浸式体验,我们可以拿 AIGC 在游戏中的应用来说明其将如何主推元宇宙发展。
AIGC 技术在游戏中的应用
开发游戏周期长和成本高,通常需要花费几年时间和上千万资金,好在 AIGC 可以极大提高游戏的开发效率,具体来说,游戏中的剧本、人物、头像、道具、场景、配音、动作、特效、主程序未来都可以通过 AIGC 生成。根据 AIGC 在文字和图像方向的推进速度,以上应用在五到十年之内应该可以实现。
红杉资本在最近的研究报告中也指出,到 2030 年文本、代码、图像、视频、3D、游戏都可以通过 AIGC 生成,并且达到专业开发人员和设计师的水平。
图片来源:红杉资本
除了游戏之外,虚拟人也是元宇宙的一个重要落地场景,AIGC 同样也会促进虚拟人赛道的发展。
虚拟人是围绕一个虚拟的人设,为其设计声音、形象、动作、性格以及活动场景,其本质和游戏相似度很高。虚拟人注重一个人在虚拟世界的表演和功能性,游戏注重多个人在虚拟世界中的交互体验。游戏是一出戏,虚拟人也是在演一出戏,戈夫曼拟剧理论中的「人生如戏」一语道破了现实世界、虚拟世界的本质。
AIGC 在 Web3 方向的应用
AIGC 听起来这么好,那跟 Web3 会有什么关系?最近听说 Web3 的基金都在看 AIGC 方向的项目,我想大概有这几个方向值得关注。
Gamefi 开发引擎:在传统游戏中应用最广的开发引擎是 Unity 和 Unreal,但在 Web3 中,游戏的开发范式也许会因 AIGC 带来许多变革,因此将需要一个采用 AIGC 技术的 GameFi 开发引擎。里面的人物、场景、动画均用 AIGC 设计,游戏中的主程序和区块链部分也可以通过 AIGC 代码生成功能完成,如果这些都能实现,设计 Gamefi 游戏或者元宇宙场景将变得非常高效,这一套开发引擎将会具有极高的价值。目前看到 RCT AI 是运用人工智能为游戏行业提供完整解决方式的一个项目,但其在多大程度上采用了 AIGC 技术,还不得而知,不过已经有一款 Gamefi 游戏 Mirror World 是基于 RCT AI 来开发的,有兴趣的朋友可以进一步了解。
开发 Gamefi 游戏:退而求其次,如果一套 AIGC 全集成的 Gamefi 开发引擎还太遥远,那采用各个厂商提供的 AIGC 工具来开发 Gamefi 游戏也会极大的提高效率,比如用 AIGC 来生成游戏剧本、设计人物、生成动画这些都几乎都会很快实现,特别在 AI 生成视频和 3D 场景技术一旦成熟之后 Gamefi 游戏开发效率将会突飞猛进。
算力和数据共享:训练 AIGC 模型需要海量的数据和强大的算力,这导致成本非常巨大,AIGC 行业龙头 Stability AI 为了训练其 Stable Diffusion 模型,在 AWS 中运行了包含 4000 多个 Nvidia A100 GPU 的集群,运营成本高达数千万美元 。如果能通过去中心化方式发行 Token 激励用户提供训练模型所需的数据,就可以很好的解决 AIGC 生成中的版权问题。另外也可以通过发行 Token 的方式,激励用户提供训练模型所需要的大量算力,分散算力成本,实现成本共担,利益共享。
结语
今年 7 月李彦宏在百度世界大会上判断,AIGC 将分为三个发展阶段:「助手阶段」——「协作阶段」——「原创阶段」。「未来十年,AIGC 将颠覆现有内容生产模式。可以实现以十分之一的成本,以百倍千倍的生产速度,去生成 AI 原创内容。」
在最近的研究报告中,红杉资本的两位合伙人也认为:「AIGC 目前已经拥有更好的模型,更多的数据,更好的算力,预计杀手级应用该要出现了。」
对于以上判断,我们倾向于认同,AIGC 的出现意味着创作者将从繁冗的基础性工作中解脱出来,把更多的精力放到创意表达上,这是未来内容创作行业,甚至是人类工作方式的整体趋势。
比推快讯
更多 >>- HTX DeepThink:美关税到期临近,加密交易量连降,宏观不确定性加剧
- 欧央行管委:任何进一步的降息幅度都将很有限
- Paxos 遵循 MiCA 框架面向欧盟用户推出稳定币 USDG
- 黑猫宇宙(Blackcats Universe)宣布已完成 300 万美元融资
- 新大陆:设立境外子公司并取得美国 MSB 牌照,覆盖数字货币交易等场景
- 美股上市公司 Thumzup Media 宣布完成 650 万美元注册直接发行
- 美股加密货币概念股盘前涨跌不一,Circle 涨 1.73%
- 加密交易平台 Swyftx 将收购数字资产经纪公司 Caleb & Brown,交易价格约 6580 万美元
- Maverick Protocol 代币(MAV)24 小时涨幅达 82.16%
- Bitget Launchpool 项目 FRAG 现已开放投入
- Aave 创始人:Aave Labs 正在扩充业务拓展团队
- 比特币波动率回落至 1.59%
- DAOStack 团队新项目 xStocks 与 Kraken、Bybit 等交易所达成合作
- 不丹国王会见 Binance CEO,不丹系全球第三大比特币国家级持有者
- 高盛提前调降美联储降息预期至9月,"大而美"法案投票成关键节点
- 澳大利亚 Monochrome 现货比特币 ETF 的 BTC 持仓升至 931 枚
- 美参议院投票从特朗普税改法案中删除 AI 监管禁令
- FATF 警示稳定币犯罪风险,行业称并非反加密立场
- 蜂助手:公司当前暂未制定申报虚拟资产交易相关牌照的具体计划
- 以太坊基金会近期每日转移 1000 枚 ETH 至多签钱包,已累计转移 1.3 万枚 ETH
- JustLend DAO 用户存款规模达 38.5 亿美元,借款总额达 1.777 亿美元
- USDD 2.0 第六阶段供应挖矿首周奖励发放
- Gate Alpha 昨日交易量排名前三的币种:BR、EGL1、MGO
- PancakeSwap 现已集成 Solana 网络
- Conflux 两位创始人均为领航医药生物科技的执行董事
- PancakeSwap 上线 Solana,账号名称、简介均相应修改
- Fragmetric 已开放空投申领
- WorldAssets RWA 协议 WAT 开放全球实体资产上线申请
- 国雄资本:拟投资 2 亿元布局 Web3 及加密资产领域
- Boundless 基金会正式成立,致力于将零知识技术推广到各个应用领域
- 马来西亚拟改革数字资产交易所监管,简化代币上市流程
- 伦敦上市公司 Anemoi 将比特币投资比例从 30%提高至约 40%
- 或受领航医药收购股权影响,CFX 短时涨超 8%
- Matrixport:比特币 7 月历年表现亮眼,今年或随历史趋势迎来新一轮上涨
- CFX 短时涨超 10%,市值升至 3.87 亿美元
- HabitTrade 推出 API 接口,支持使用 USDT 交易美股等传统资产
- 英国上市公司 Tao Alpha 更名为 Satsuma Technology,继续专注 Bittensor 开发和比特币主储备战略
- HFT 24 小时涨超 110%,市值升至 8300 万美元
- 西班牙咖啡连锁店 Vanadi Coffee 增持 10 枚比特币,目前共持有 64 枚
- xStocks 上线代币化股票以来交易量超 150 万美元,交易用户数达 1551
- Byreal 首期 Fragmetric Reset Launch 结束,超募 49587 枚 bbSOL
- 分析:美元将保持疲软,可能出现一些盘整
- 慢雾创始人:Resupply 协议链上喊话黑客,呼吁通过 Blockscan 沟通
- 领航医药生物科技计划收购 Conflux 全部股权以扩展区块链技术领域
- 日本游戏公司 CyberStep 进军加密资产投资,计划投入最高 10 亿日元
- The Blockchain Group 筹集约 1100 万欧元用于增持 BTC
- 某巨鲸 3 小时前将 2121 枚 ETH 充值进 OKX,预计获利 240 万美元
- The Smarter Web Company 增持 230.05 枚比特币
- Gate 用户数量正式突破 3000 万,总储备金率达到 123.09%
- Sixty Six Capital 再次增持 13.5 枚 BTC,总持仓达 145 枚 BTC
比推专栏
更多 >>观点
比推热门文章
- HTX DeepThink:美关税到期临近,加密交易量连降,宏观不确定性加剧
- 欧央行管委:任何进一步的降息幅度都将很有限
- Paxos 遵循 MiCA 框架面向欧盟用户推出稳定币 USDG
- 黑猫宇宙(Blackcats Universe)宣布已完成 300 万美元融资
- 新大陆:设立境外子公司并取得美国 MSB 牌照,覆盖数字货币交易等场景
- 美股上市公司 Thumzup Media 宣布完成 650 万美元注册直接发行
- 美股加密货币概念股盘前涨跌不一,Circle 涨 1.73%
- 加密交易平台 Swyftx 将收购数字资产经纪公司 Caleb & Brown,交易价格约 6580 万美元
- Maverick Protocol 代币(MAV)24 小时涨幅达 82.16%
- Bitget Launchpool 项目 FRAG 现已开放投入