Alter

主页文章

Alter聊IT

563 文章 6 粉丝 0 关注

+关注私信

公告

Alter，互联网观察者，长期致力于对智能硬件、O2O、手机等行业的观察研究。

文集

科技(502)

统计

今日访问：693

总访问量：14756092

理性认识百度研究院“新品”：VidPress给出了视频生产新方向

2020年04月23日

评论数（0）

拥抱短视频，可能是最近自媒体圈中最为流行的关键词。

单是微信视频号的灰度测试，就让媒体圈重度地震，原本隐藏在文字背后的“中年大叔”们勇敢出镜，试图抓住新生的机会窗口。和媒体朋友们日常聊天的话题，也不自觉地拐向了短视频，有人购置了专业的影像设备，有人连忙招聘熟悉视频剪辑的助理……

于是当百度研究院推出AI合成短视频平台VidPress的消息传出后，媒体圈里再次炸开了锅，排着队通过百度创作大脑进行测试申请，争先将自己刚刚写就的深度文转化为有声有色的短视频。毕竟VidPress的“果子”不可谓不诱人，只要输入一个图文内容的链接，就能自动生成相应的视频内容，极大地节约了成本和心力。

一番尝鲜后，有人给了VidPress高分评价，也有人对效果的不满意而诟病。鉴于两种或赞或骂的态度，这里分享一下个人对VidPress的思考，到底是理想又一次败给了现实，还是一开始就期许过高？

01 智能化内容生产的原理

VidPress诠释的视频生产方式，足以用“智能”一词来形容。

用户输入图文内容的链接后，VidPress将在9分钟的时间内完成视频素材的聚合、解说词生成、语音合成、音视频对齐和渲染导出等一连串的“骚操作”，平均每天可以生产500到1000条视频，妥妥秒杀了整条街的“剪刀手”。

这样的内容生产方式夸张吗？不妨先来看看“黑魔法”背后的技术原理。

整个内容生产过程可以分为三个环节：

第一个环节是音频内容的生成，平台基于多种语言模型对图文内容的文字部分进行处理，然后自动生成一篇字数符合要求且适合视频呈现的解说词，再通过文字转音频服务(TTS)合成解说词语音；

同步进行的环节是视频内容的生成，平台会对图文内容进行语义理解，根据文章内容自动搜索相关素材，再通过计算机视觉技术对素材进行分析和理解，然后精选出合适的素材进行智能剪辑合成；

最后一个环节是音视频的对齐，这就涉及到百度的第二代时间轴对齐算法，选取文本中的兴趣点，再将视频片段与兴趣点的相关度进行打分，优质的视频片段将优先放入时间轴，最终进行渲染输出。

对于熟悉百度技术体系或产品体系的朋友来说，恐怕不会惊讶VidPress的存在逻辑。单是百度大脑已经对外开放的技能中，诸如自然语言理解、语音合成、计算机视觉相关的技能就占了不小的比重。聚焦到产品上，小度智能音箱的语音问答、动态播报、人脸识别等等，都不难在VidPress找到相似的技术。

只是短视频内容的生产从来都不是纯粹的技术工作，素材、创意、选题等都影响着最后的视频质量。VidPress的价值在于利用算法和模型降低了素材搜集、整理、匹配、剪辑的时间成本，与当下大多数落地应用的人工智能产品相似，尚未实现取代人工甚至完胜人工的智能化程度。

也就是说，现阶段的VidPress还只是辅助人工合成视频，降低了短视频剪辑的门槛和成本，本质上是为内容生产提供了新的思路。

02 视频合成中的制约因素

有些遗憾的是，不少媒体朋友看到新闻后对VidPress进行了测试，然后出现了一些负面的过度解读。

为什么会出现视频合成效果不尽如意的现象？还是要回到视频内容生成的环节。就技术层面来说，素材的智能识别、匹配、剪辑等过程已经没有太大的技术瓶颈，问题恰恰出在了内容素材的广度上。

毕竟现阶段的人工智能远未达到自主生产视频内容的程度，VidPress也需要对网上的内容进行搜索匹配，扮演了内容“搬运工”的角色。对应的一幕就是：在科技、娱乐、军事等内容素材丰富的领域，VidPress的表现不乏可圈可点之处，也不难看到一些精彩的视频案例；在一些新闻素材比较少的冷门领域，合成视频的效果也就打了折扣。

举两个通俗易懂的例子。

倘若你上传的是娱乐圈和某明星相关的内容，不难在网上搜罗出丰富的素材，毕竟可以找到海量的电影、电视剧、综艺等资源，VidPress可以在人脸识别算法、时间轴对齐算法的基础上，对素材内容进行精准识别、匹配、合成，内容丰富度和流畅度上恐怕不输于专业的视频剪辑团队。

如果图文内容属于情感、公益、社会相关的冷门内容，话题本身就比较宽泛，其中还有较大比重的敏感内容，可以使用的内容素材也就相对有限，导致平台可以聚合的内容素材数量偏低，即便技术和算法进一步优化，也难逃“巧妇难为无米之炊”的困境。

归根结底，内容素材的丰富度才是VidPress场景应用时的制约因素。

同时需要思考的恰恰是我们对内容生产的态度，VidPress的基本价值在于工具，提供了一种有别于传统人工的视频合成思路，降低了视频内容生产的难度值。可对于媒体人来说，仍然需要躬身打磨内容输出有价值的观点，继而利用VidPress实现价值的最大化，毕竟视频只是传播的载体，优质内容永远是话语权的关键。

或许对VidPress也是一种启示，经过了前期的试错后，还需要对产品的定位进行调整，比如在定制化与垂直品类上增加力度，在适用场景上进行选择，尽可能避开小众内容在素材上的限制，打造通用的解决方案。

03 未来可能的产品方向

站在百度的立场上，在短视频的风口期推出AI合成短视频平台，恐怕不是为了秀技术吸引眼球。

从图文到短视频再到直播，内容的传播方式越来越多元化，但在传播载体不断进化的时候，内容的生产方式似乎有些陈旧。从博客时代到公众号时代，从长视频时代到短视频时代，内容的表达越来越个性化，可内容生产一直是“笨拙”的人工。

内容传播载体的进化制造了一个又一个风口，当内容创作方式同步进化时，却可能改变一个时代，所能创造的想象空间同样不可小觑。截止到目前，VidPress还处于小批量免费试用的阶段，与百度内部人士进行沟通后发现，等待VidPress可能会有工具和平台两种产品方向。

从工具的方向来看，VidPress大概率会以SaaS服务的形态存在，可以在百度智能云上部署运营，也可以进行私有化部署。前一种可以服务大部分内容创作者，提供视频快速剪辑合成的线上工具，并且可以与内容版权方进行跨界合作，为创作者提供一站式的视频内容生产服务；后一种则是将能力赋予专业化的内容团队，以人工智能的技术优势帮助创作团队提升效率、降低成本。

从平台的方向上看，VidPress将在现有工具属性的基础上，与百家号、好看视频、百度联盟等内容生态打通，形成视频内容生产、分发、变现的完整产业链。只是生态化布局的前提是解决内容版权的局限，当前VidPress还仅是邀请测试，并不涉及商业用途，正式开放后就需要百度提供免费的版权视频库，与一些第三方视频版权库合作，并设计出一套按需付费的商业模式。

当然，上述的种种可能只是猜测，最终的产品演化方向还要靠百度的产品经理们给出回答。但这样的产品出现，对媒体的影响要远大于某个内容平台的崛起，我们不仅要思考下一波流量在哪里，还需要深入思索自身的核心竞争力在哪里，如何与人工智能进行分工协同，在未来的内容生态中准确找到自身的定位。

几乎可以笃定，传统纯消耗脑力和时间的内容生产终将被被颠覆，却也是VidPress的第二代或者第三代产品的使命，现阶段还有些“稚嫩”。

04 写在最后

相较于被下一个风口抛弃的焦虑，不妨多花点时间思考内容消费的内在逻辑：当一个热点出现时，需要多维度的观察的报道，需要让受众客观的了解事件的始末，也就需要多种不同的声音。输出有价值的信息，可以说是内容创作最基本的竞争力，剩下的无非是基于成本、效率和用户口味的权衡。

VidPress试图呈现的正是降低“发声”的门槛，推动互联网内容的多样性。只是现阶段还要先延迟一些期待，静待VidPress后续的能力输出。

文章为作者独立观点，不代表联商专栏立场。

联商专栏原创文章由作者授权发表，转载须经作者同意，并同时注明来源：联商专栏+Alter聊IT。

上一篇：“云购房”时代到来，引爆电子合同安全警报

下一篇：直播的2.0时代：从“大水漫灌”到“流量入渠”

赞(0) 分享