Alter

Alter聊IT

公告

Alter,互联网观察者,长期致力于对智能硬件、O2O、手机等行业的观察研究。

文集

科技(502)

统计

今日访问:1650

总访问量:9071374

理性认识百度研究院“新品”:VidPress给出了视频生产新方向

2020年04月23日

评论数(0)

拥抱短视频,可能是最近自媒体圈中最为流行的关键词。

单是微信视频号的灰度测试,就让媒体圈重度地震,原本隐藏在文字背后的“中年大叔”们勇敢出镜,试图抓住新生的机会窗口。和媒体朋友们日常聊天的话题,也不自觉地拐向了短视频,有人购置了专业的影像设备,有人连忙招聘熟悉视频剪辑的助理……

于是当百度研究院推出AI合成短视频平台VidPress的消息传出后,媒体圈里再次炸开了锅,排着队通过百度创作大脑进行测试申请,争先将自己刚刚写就的深度文转化为有声有色的短视频。毕竟VidPress的“果子”不可谓不诱人,只要输入一个图文内容的链接,就能自动生成相应的视频内容,极大地节约了成本和心力。

一番尝鲜后,有人给了VidPress高分评价,也有人对效果的不满意而诟病。鉴于两种或赞或骂的态度,这里分享一下个人对VidPress的思考,到底是理想又一次败给了现实,还是一开始就期许过高?

01 智能化内容生产的原理

VidPress诠释的视频生产方式,足以用“智能”一词来形容。

用户输入图文内容的链接后,VidPress将在9分钟的时间内完成视频素材的聚合、解说词生成、语音合成、音视频对齐和渲染导出等一连串的“骚操作”,平均每天可以生产500到1000条视频,妥妥秒杀了整条街的“剪刀手”。

这样的内容生产方式夸张吗?不妨先来看看“黑魔法”背后的技术原理。

整个内容生产过程可以分为三个环节:

第一个环节是音频内容的生成,平台基于多种语言模型对图文内容的文字部分进行处理,然后自动生成一篇字数符合要求且适合视频呈现的解说词,再通过文字转音频服务(TTS)合成解说词语音;

同步进行的环节是视频内容的生成,平台会对图文内容进行语义理解,根据文章内容自动搜索相关素材,再通过计算机视觉技术对素材进行分析和理解,然后精选出合适的素材进行智能剪辑合成;

最后一个环节是音视频的对齐,这就涉及到百度的第二代时间轴对齐算法,选取文本中的兴趣点,再将视频片段与兴趣点的相关度进行打分,优质的视频片段将优先放入时间轴,最终进行渲染输出。

对于熟悉百度技术体系或产品体系的朋友来说,恐怕不会惊讶VidPress的存在逻辑。单是百度大脑已经对外开放的技能中,诸如自然语言理解、语音合成、计算机视觉相关的技能就占了不小的比重。聚焦到产品上,小度智能音箱的语音问答、动态播报、人脸识别等等,都不难在VidPress找到相似的技术。

只是短视频内容的生产从来都不是纯粹的技术工作,素材、创意、选题等都影响着最后的视频质量。VidPress的价值在于利用算法和模型降低了素材搜集、整理、匹配、剪辑的时间成本,与当下大多数落地应用的人工智能产品相似,尚未实现取代人工甚至完胜人工的智能化程度。

也就是说,现阶段的VidPress还只是辅助人工合成视频,降低了短视频剪辑的门槛和成本,本质上是为内容生产提供了新的思路。

02 视频合成中的制约因素

有些遗憾的是,不少媒体朋友看到新闻后对VidPress进行了测试,然后出现了一些负面的过度解读。

为什么会出现视频合成效果不尽如意的现象?还是要回到视频内容生成的环节。就技术层面来说,素材的智能识别、匹配、剪辑等过程已经没有太大的技术瓶颈,问题恰恰出在了内容素材的广度上。

毕竟现阶段的人工智能远未达到自主生产视频内容的程度,VidPress也需要对网上的内容进行搜索匹配,扮演了内容“搬运工”的角色。对应的一幕就是:在科技、娱乐、军事等内容素材丰富的领域,VidPress的表现不乏可圈可点之处,也不难看到一些精彩的视频案例;在一些新闻素材比较少的冷门领域,合成视频的效果也就打了折扣。

举两个通俗易懂的例子。

倘若你上传的是娱乐圈和某明星相关的内容,不难在网上搜罗出丰富的素材,毕竟可以找到海量的电影、电视剧、综艺等资源,VidPress可以在人脸识别算法、时间轴对齐算法的基础上,对素材内容进行精准识别、匹配、合成,内容丰富度和流畅度上恐怕不输于专业的视频剪辑团队。

如果图文内容属于情感、公益、社会相关的冷门内容,话题本身就比较宽泛,其中还有较大比重的敏感内容,可以使用的内容素材也就相对有限,导致平台可以聚合的内容素材数量偏低,即便技术和算法进一步优化,也难逃“巧妇难为无米之炊”的困境。

归根结底,内容素材的丰富度才是VidPress场景应用时的制约因素。

同时需要思考的恰恰是我们对内容生产的态度,VidPress的基本价值在于工具,提供了一种有别于传统人工的视频合成思路,降低了视频内容生产的难度值。可对于媒体人来说,仍然需要躬身打磨内容输出有价值的观点,继而利用VidPress实现价值的最大化,毕竟视频只是传播的载体,优质内容永远是话语权的关键。

或许对VidPress也是一种启示,经过了前期的试错后,还需要对产品的定位进行调整,比如在定制化与垂直品类上增加力度,在适用场景上进行选择,尽可能避开小众内容在素材上的限制,打造通用的解决方案。

03 未来可能的产品方向

站在百度的立场上,在短视频的风口期推出AI合成短视频平台,恐怕不是为了秀技术吸引眼球。

从图文到短视频再到直播,内容的传播方式越来越多元化,但在传播载体不断进化的时候,内容的生产方式似乎有些陈旧。从博客时代到公众号时代,从长视频时代到短视频时代,内容的表达越来越个性化,可内容生产一直是“笨拙”的人工。

内容传播载体的进化制造了一个又一个风口,当内容创作方式同步进化时,却可能改变一个时代,所能创造的想象空间同样不可小觑。截止到目前,VidPress还处于小批量免费试用的阶段,与百度内部人士进行沟通后发现,等待VidPress可能会有工具和平台两种产品方向。

从工具的方向来看,VidPress大概率会以SaaS服务的形态存在,可以在百度智能云上部署运营,也可以进行私有化部署。前一种可以服务大部分内容创作者,提供视频快速剪辑合成的线上工具,并且可以与内容版权方进行跨界合作,为创作者提供一站式的视频内容生产服务;后一种则是将能力赋予专业化的内容团队,以人工智能的技术优势帮助创作团队提升效率、降低成本。

从平台的方向上看,VidPress将在现有工具属性的基础上,与百家号、好看视频、百度联盟等内容生态打通,形成视频内容生产、分发、变现的完整产业链。只是生态化布局的前提是解决内容版权的局限,当前VidPress还仅是邀请测试,并不涉及商业用途,正式开放后就需要百度提供免费的版权视频库,与一些第三方视频版权库合作,并设计出一套按需付费的商业模式。

当然,上述的种种可能只是猜测,最终的产品演化方向还要靠百度的产品经理们给出回答。但这样的产品出现,对媒体的影响要远大于某个内容平台的崛起,我们不仅要思考下一波流量在哪里,还需要深入思索自身的核心竞争力在哪里,如何与人工智能进行分工协同,在未来的内容生态中准确找到自身的定位。

几乎可以笃定,传统纯消耗脑力和时间的内容生产终将被被颠覆,却也是VidPress的第二代或者第三代产品的使命,现阶段还有些“稚嫩”。

04 写在最后

相较于被下一个风口抛弃的焦虑,不妨多花点时间思考内容消费的内在逻辑:当一个热点出现时,需要多维度的观察的报道,需要让受众客观的了解事件的始末,也就需要多种不同的声音。输出有价值的信息,可以说是内容创作最基本的竞争力,剩下的无非是基于成本、效率和用户口味的权衡。

VidPress试图呈现的正是降低“发声”的门槛,推动互联网内容的多样性。只是现阶段还要先延迟一些期待,静待VidPress后续的能力输出。

文章为作者独立观点,不代表联商专栏立场。

联商专栏原创文章由作者授权发表,转载须经作者同意,并同时注明来源:联商专栏+Alter聊IT。