智能相对论

智能相对论

公告

深挖人工智能这口井,评出咸淡,讲出黑白,道出深浅。

文集

财经(330)

统计

今日访问:1023

总访问量:934154

超视频时代,软硬一体的视频云解决方案成为关键

2022年06月30日

评论数(0)

“2个半小时的时间,我紧张得满身大汗。”李辉钦谈起第一次直播带货的情景,自己都忍不住笑了。作为第一批到闽宁镇挂职的专业技术人员,疫情期间重拾几年没玩的抖音,开通“李镇长赞闽宁”,直播带货,推介闽宁镇、推销宁夏特产。再加上电视剧《山海情》热播,全国人民自此知道了由福建(闽)与宁夏(宁)对口扶贫建立的这座移民小镇,李镇长的粉丝迅速增加,宁夏的枸杞、蘑菇、滩羊肉,也从李镇长的直播间卖到了全国。

互联网的普及,信息高速公路的建立,让小小的手机正成为越来越多农民们的“新农具”,看得见的特产商品,在看不见的数据洪流的牵引下,走向全国、走向世界,“云经济”成为助力脱贫攻坚、乡村振兴与共同富裕的有力抓手。

作为推动中国高质量发展的新型基础设施,算力与带宽的升级,为越来越庞大的音频、视频流提供了一条畅通无阻的高速公路,流媒体等数字技术发展下的互联网+云技术,给产业、社会发展释放了巨大的潜能与活力,成为企业数字化转型新基建下的取胜之道。

1.解码新基建

30多年的互联网发展给中国带来了翻天覆地的变化,正成为推动中国经济发展的重要动力之一。数字经济持续快速增长,信息技术与实体经济加速融合,带来的发展新动能逐渐壮大,已成为中国经济增长新引擎。在这一过程中,从2013至2020年,我国移动互联网接入流量由13亿GB增长至1656亿GB,年均复合增长率高达99.86%。截止至2021年6月,中国移动互联网接入流量为1033亿GB,同比增长38.6%。

谷歌预测,未来互联网80%的内容呈现形式将是视频。视觉化的信息代替了繁琐、冗长、晦涩的文字、数据或符号,能更直观地反映信息的实质,更直接地促成信息传授双方的交流。

中国互联网信息中心发布的第48次《中国互联网络发展状况统计报告》显示,截至2021年6月,中国短视频用户规模为8.88亿,短视频应用人均单日使用时长已超120分钟。

QuestMobile数据显示,2020年中国互联网广告规模达到5439.3亿,在媒介形态抢占广告的能力上,视频信息流增速更快,已经成为主流广告形式,逐步取代图文信息流的份额,典型广告主在短视频媒介投放预算明显提高。根据中研普华的预测,短视频平台TikTok的广告收入可能在2022年增加两倍,达到110亿美元以上,超过其竞争对手Twitter与Snapchat两者之和。

从直播带货到短视频宣传,再到日益普及的远程教育和移动办公,视频或者是价值挖掘的财富密码,或者是传递价值的高速公路,优质且低成本的视频提供能力,成为企业的核心竞争力之一,也拉近了人与人之间的距离,人类社会由此进入全新的发展阶段。

这背后,是新型网络基础设施的鼎力支持。2018年,中央经济工作会议首次定义了“新型基础建设”,排在首位的就是信息基础设施,包括以5G、物联网、工业互联网、卫星互联网为代表的通信网络基础设施,以人工智能、云计算、区块链等为代表的新技术基础设施,以数据中心、智能计算中心为代表的算力基础设施。

2.构建音视频能力

在火山引擎联合IDC发布的《超视频时代视频云演进趋势》白皮书中指出,当今时代已经经历了长视频、短视频与直播应用阶段,进入超视频时代。在这一时代,互联网用户对视频有了更高的需求,对高清化、交互性、沉浸式的体验有了更多诉求。视频云也正在加速渗透到传统行业,在工业、教育、医疗等传统领域不断涌现出更多的落地场景,这就对音视频架构带来了功能上、性能上和安全层面上的不同挑战。其中,根据英特尔数据显示,现在大数据90%以上来自于非结构化数据,以视频和图片为主,视频数量与用户的快速增长对带宽和性能带来巨大压力,如何进行优化是很大的一个课题。

2022年2月,国家“东数西算”工程全面启动,启动建设国家算力枢纽节点,并规划了10个国家数据中心集群。在应用西部算力资源计算的东部数据中,视频数据占比不可小觑。这些数据来自众多异构监控平台,数量巨大且有着不同的标准。这就要求算力基础设施,必须能够支撑海量视频数据的存储、分析、索引、检索、转码、应用等,避免分区域分环节的视频存储与应用,并能将不同设备、不同平台、不同标准的视频资源集中起来,实现有效共享与整合利用。

同时,机器学习、计算机视觉、自然语言处理等AI应用也在兴起,这些都意味着频繁地对存储器进行访问与数据传输,这就突破了传统的冯诺依曼计算机体系架构,作为算力基础设施的数据中心和智能计算中心,需要有针对性的解决方案。

不断演进的数据中心需要一个全新的智能架构。在英特尔中国云&大数据高级首席工程师程从超看来,这种智能数据中心架构将拥有三类计算单元——用于通用计算的CPU、用于特定应用或特定工作负载加速的XPU以及用于基础设施加速的IPU——它们将通过可编程网络相互连接,从而有效利用数据中心资源。尤其是,面对多元化媒体应用中的性能密集型负载,超强的算力和对加解密和转解码过程实现加速的能力,可以大幅度提高图像处理、图像识别视频分析等人工智能应用的效率。

如果说X86 CPU铸就了英特尔辉煌的过去,IPU则成为英特尔打开未来世界的钥匙。IPU是一种可编程网络设备,旨在使云和通信服务提供商减少在中央处理器(CPU)方面的开销,释放宝贵的CPU内核资源。利用IPU,客户能够部署安全稳定且可编程的解决方案,从而更好地利用资源,平衡数据处理与存储的工作负载,从而大幅提高数据中心收益。GPU则大大提高了应用程序对二维三维图形和图象的处理能力。此外,在处理密集型数据和并行数据计算方面,GPU可以提供数十倍乃至于上百倍于CPU的性能,因此在大规模并行计算应用领域,诸如光影处理、金融分析、医疗成像、油气勘探、地理信息、基因分析和科学计算等等,开始发挥越来越大的作用。更重要的是随着AI的出现,GPU适合大规模并行的浮点运算、矩阵计算的特点得到充分发挥。

但不管是CPU还是GPU,仅凭单一的架构来实现更高的计算效率显然并不现实。采用CPU+GPU的异构计算模式(包括CPU+协处理器、加速处理器等),将成为一种趋势。

3.流量的密码

在2021年的CVPR上,由AI Benchmark举办的「移动AI挑战赛」引人关注,而在其中「实时移动端检测场景赛」上获得冠军的队伍,成绩相比第二名高出了八倍还多。

这场比赛要求使用移动端深度学习框架TensorFlow Lite CoreML运行实时移动端场景检测,要求AI算法对摄像头输入的图像实时预测出其场景类别,共有30个场景类别,训练集却只有9900张图片,对于人工智能来说,存在很大的过拟合风险。

来自字节跳动的ByteScene团队利用迁移学习方法拿出了一个容量仅为8.2Mb的小模型,实现了95%的Top 1识别准确率,平均延迟仅4.4毫秒。

现在,这种实时移动端场景检测技术在抖音和剪映等产品里已经落地应用。由于操作简单,使用体验智能化,这项技术提升了App上的用户体验。这也是火山引擎正在对外输出的技术能力。

火山引擎是字节跳动旗下的云服务平台,依托云计算、大数据、人工智能等技术能力,为客户提供技术产品与解决方案,包括基础架构、云原生、个性化推荐、音视频处理能力等等在抖音、今日头条、西瓜视频等应用上所实现的技术。

随着视频云服务进入超视频时代,互联网用户对视频有了更极致的需求,不再仅仅满足于清晰流畅的观看体验,而是对高清化、交互性、沉浸式的体验有了更多诉求。同时,视频云对传统行业的渗透在不断加速,在工业、教育、医疗等领域,涌现出更多元的落地场景,而这些场景也对音视频架构带来了在功能、性能和安全层面的不同挑战。

随着需要处理的数据体量不断攀升,音视频应用对计算和存储架构性能的要求也日益严苛。尤其在高吞吐量、大数据量请求的场景下,需要寻求一种可以经济高效地扩展容量同时又不影响系统性能的方案。

火山引擎在助力企业应用落地的过程中,在架构上探索出了一条创新路径——通过端云一体的整体架构,从边缘基础设施的支撑、计算+网络的数字基础服务到视频云的应用解决方案提供生产、存储、处理到分发的全栈能力。

正如火山引擎总经理谭待所说:“如果平台架构不好用,为用户体验而生的视频云服务根本无从实现。在边缘基础架构之上,视频云还需进行大量的编解码、AI分析等算法处理,如何承载超大规模实时处理需求,这对中心架构带来了诸多挑战。”

虽然通过扩充内存的方法,可以实现增强时延和吞吐的性能优势,但这种解决方案能够扩展的容量始终有限,而且DRAM内存高昂的价格以及更多机架位占用所带来的成本,还会大大推高TCO。为此,火山引擎利用英特尔?傲腾?持久内存和英特尔?至强?可扩展处理器对内容信息业务的存储架构进行了深层次优化,既能突破存储介质和架构的局限性,还能在保证性能的前提下实现投入产出上的增益。

英特尔?傲腾?持久内存不仅具备接近DRAM内存的性能,还具备SSD的数据持久性,可以很好地弥补DRAM内存和SSD之间的性能缺口;其相对于DRAM内存的大容量、低成本特性,还能助力企业在容量与成本之间取得更好的平衡。

火山引擎在使用英特尔?傲腾?持久内存的App Direct模式下,持久内存通过内存总线直接连接到处理器,应用程序可以绕过操作系统,无需驱动程序、系统调用、中断和上下文切换就能从用户空间直接访问持久内存上的数据,因此,系统几乎没有软件开销,时延约为100ns-300ns,不仅优于SSD,更是具有接近DRAM内存的性能,可以很好地满足高峰期间对数据访问速度的需求。

这种模式还具备数据持久性。不论遇到意外断电还是计划中的停机,持久内存中的数据都能得以持久保存,从而能提升存储可靠性、增加系统的业务弹性、缩短系统重启时间并提升推荐系统的故障恢复速度。

同时,为实现超高清需求,转码性能是关键。作为新一代的视频编解码标准,H.265/HEVC(HighEfficiencyVideoCoding,高效视频编码)在高压缩比下依然能确保高清晰的视频质量,受到各大视频直播平台的青睐,但因其算法和数据结构的复杂性,使其编解码的复杂度4倍于上一代H.264编解码器,因此对执行转码工作的处理器的性能要求,就显得格外突出。

英特尔?至强?可扩展处理器,为包括转码在内的视频直播流程提供性能支撑。同时,英特尔?至强?可扩展处理器内置的英特尔?高级矢量扩展512(英特尔?AVX-512)则进一步强化了它的表现。强大的转码性能保证了视频在H.264、wma、rmvb、avi等格式间快速转换,并通过灵活、简洁的播放器,帮助直播运营者通过移动应用、网页等各种展示方式迅速且全方位地覆盖观众。

4.迈向新纪元

对于应用而言,关键的就是体验。在超视频时代,更高清、更交互、更沉浸的视频技术需求日新月异,技术的优化可以让更多的互动玩法和商业场景成为可能。2021年10月份,美国社交平台脸书首席执行官马克·扎克伯格宣布,脸书公司更名为“元”,公司未来将以元宇宙相关业务优先。例如增强现实和虚拟现实等沉浸式体验,将元宇宙带入生活,帮助人们建立联系、发展业务,构建社交技术的下一次发展。

元宇宙的基本特征包括:沉浸式体验、虚拟化分身、开放式创造。要实现元宇宙,需要一系列IT新技术的综合运用,包括网络及运算技术(5G、6G、物联网、云计算、雾计算及边缘计算)、管理技术(能耗管理、资源管理、会话管理及时空一致性管理)、虚实对象连接、建模与管理技术(X联网、身份建模、社会计算、去中心化管理技术)、虚实空间交互与融合技术(拓展现实、电子游戏技术、脑机接口技术)等。

元宇宙、沉浸式体验,以及大规模的人工智能部署,也对未来图形处理产品提出了要求,需要实现高度的视觉保真、优化的人工智能和连续的计算。这就为云时代的数据中心带来强劲的新需求,需要新的架构,实现智能计算、海量数据处理、异构算力融合与加速、多负载应用支撑。

在程从超看来,对于虚拟现实/增强现实,需要底层基础设施能够支撑,前端设备能够播放,网络能够传输,后台的数据中心,能够对VR增强性的渲染批量、实时高效的处理。为此,英特尔已经建立了稳健的加速计算系统和显卡路线图,横跨从客户端到数据中心的所有产品,助力客户应对数字时代的不同需求。

对于未来的数据中心,英特尔认为会有四个特点:实现计算与存储的物理分离和逻辑融合,实现安全特性在芯片内部架构的整合,实现更灵活的硬件、软件、应用和服务,软件将以微服务形式呈现,实现无处不在的异构计算。

“无处不在的计算”,正是英特尔CEO帕特·基辛格所提出的“人类数字社会拥有的四种超级技术力量”之一,与无所不在的连接、从云到边缘的基础设施以及人工智能,帮助人类持续增长,不断创新,全面赋能“万物智能化”的变革。


文章为作者独立观点,不代表联商专栏立场。

联商专栏原创文章由作者授权发表,转载须经作者同意,并同时注明来源:联商专栏+智能相对论。