请选择 进入手机版 | 继续访问电脑版
点击联系客服
客服QQ:509006671 客服微信:mengfeiseo

广州老站长门户

 找回密码
 立即注册
查看: 58|回复: 50

5G和云原始时代的技术下半场 影像化是最大的最新确定性

[复制链接]

1

主题

1

帖子

-7

积分

限制会员

积分
-7
发表于 2021-4-8 23:13:11 | 显示全部楼层 |阅读模式
![头。png](https://UCC  . alicdn.com/pic/developer-ecology/c  01 c  2 de  2d  154 c  6 DBA  6 e  659 da8 e  63205 . png)

作者|维贤

来源| [阿里巴巴云基本公众号](https://MP  . weixin  . QQ.com/s/-T7 JDQA  2u  1 how  66 zgecikq)

* *指南:* *随着5G/芯片/区块链等新技术的发展、云计算的普及和云原始时代带来的便利,开发者和建筑师面临的挑战不再是0-1的建设问题,技术如何带来更多的商业价值成为值得讨论的话题。阿里巴巴集团研究员、阿里云智能视频云业务负责人林浩(花名飞贤)在QCon全球软件开发大会上发表主题演讲《5G  和云原生时代的技术下半场》,以5G典型场景音频视频为例,探讨相关技术和技术人员的下半场,并以演讲整理以下内容。

![1 . jpg](3359 UCC  . alicdn.com/pic/developer-ecology/fbda  45617 C4 f  4d  2 abcb  64 b  5 ebea  26 f  15 . jpg)

在很多情况下,例如阿里巴巴集团董事会主席逍遥子,目前世界上最大的确定性的变化是数字化,未来的大变化大部分是“数字化加速”的意思。在数字化趋势下,我们看到“视频化”具有更大的确定性。

# 5G云基础,会给企业带来什么变化?

5G和业务系统之间关联性最大的两个部分是延迟低,带宽大。

目前主流网络如4G,延迟约为10毫秒至100毫秒,其延迟范围仍然比较大。5G通常延迟下降到1 ~ 10毫秒,其目标是10毫秒。那么,当延迟越来越低,带宽越来越大时,我们在业务上能看到什么变化呢?

![2 . png](3359 UCC  . alicdn.com/pic/developer-ecology/8d  63855 BC  81 f  492 CB  18 b  76 b  422 a  93579 . png)

上图显示了带宽变大、延迟变低时发生的典型事例。比如现在特别热门的话题3354云游戏。游戏对赛车、比赛类等延迟的要求特别高。4G网络本身不能再降低延迟,但如果在5G场景中推迟到50毫秒以下,很多业务可能会成为现实。(威廉莎士比亚,北上广深)。

所以在5G的业务层面,我们关注哪些业务需要更大的带宽,哪些业务需要更低的延迟。

说到云元生,它确实是现在特别热门的话题。去年的双11中最大的变化是所有核心系统都上云,今年的双11是所有核心系统都开始云原生化。

但是我们也说,每个人的目的可能与云原生不同,没有人知道云原生。(双赢)。

对阿里来说,我们为什么要非常激进地推进云原生?我是负责阿里整个核心系统云的建筑师。我想到整个事业的进化过程。最重要的是,所有业务都以封闭的自主技术体系为基础,转移到开放的技术系统。这就是云原生最重要的变化。(约翰肯尼迪,北方执行部队)。

尹元生以后,构建整个社会工作系统的自身体系将逐渐开放和公共化。这对很多商业革新都有很大的帮助。因为以前有很多事情要自己做,但现在有很多事情可以以比较成熟的技术为基础。阿里似乎看到了云原生化后对我们整体业务革新的速度和业务重复速度有很大帮助的业务。(就是工作)。

#最常见的场景:视频

如上所述,5G带来低延迟和大带宽,而云则具有走向开放公共的自由体系。5G云出生后最典型的场景是什么?哪些场景对5G和云原生有特别大的诉求?

目前,录像是确定的。由于疫情,今年的视频似乎突然成为整个行业特别热门的业务革新和技术革新领域。但是实际上,视频技术已经发展了很多年,但今年似乎又要爆炸了。

很多人认为,以前大部分商业系统都没有视频,但现在大部分商业系统都开始或多或少地引入视频。(威廉莎士比亚,温斯顿,工作名言)()(短视频、直播及音频和视频通信目前是最热门的场景。

我们认为,在场景层面,视频是非常典型的5G云基本场景。原因是,做直播、短视频或影音通话等所有视频业务都是经验。

制作视频最重要的是体验。比如直播是否足够流畅,画面清晰度如何,短视频也是如此,音频视频通话更是——。例如,大家对视频会议最感兴趣的是,能不能很好地听到对方在说什么,而且画面不够柔和。

所以,一旦做好这项工作,首先要关心的主题就是体验,视频工作体验要做好。面临的第一个问题是视频能否很好地分发到接近每个用户的一个点。

老实说,大部分中小型创业企业甚至大规模公司都很难解决这个问题。一般来说,为了把整个经验做得很好,大部分工作都要依靠背后的巨大网络,这个网络通常只有云制造商才能提供。因为其他公司建立这个网络需要很多投资。

因此,* *经验表明,视频非常典型,应该更多地考虑使用云基础服务,而不是直接从头开始构建* *。

除了体验外,视频业务开始后面临的第二个大问题是成本。视频与很多业务不同,这种业务规模不上来的话,费用可能不会太高,可能是制造几台计算资源的机器、一些存储和一些数据库。当然,如果是大数据和AI,相对来说投资更大。

但是一制作视频,就会受到带宽的沉重打击。
大的挑战,因为带宽“上来就是钱”。除了带宽以外,视频稍微做大一点,还会面临存储成本,因为要存下来,而视频的文件显然比以前所有的东西都大。
有了存储以后,视频还会面临计算消耗的问题,因为可能要对视频做一些处理,比如做一些编解码或其他东西,导致计算资源整体会有比较大的消耗。**所以整体来看,视频除了解决体验问题以外,还会面临巨大的成本消耗的问题**。而为了解决成本问题,可能会产生各种问题。所以我们可以看到,对于很多团队来讲,基于视频的云原生服务是一个相对来讲比较好的选择。
讲下我自己的另外一个感受,我觉得**视频业务是需要在基础技术领域投入非常大的技术领域**。比如要让视频在分发的过程中、播放的过程中将带宽控制得更好,我们可能要去解决的问题是怎么让多数用户看到的视频画面质量不怎么改变的情况下,怎么把带宽成本降下去,控制码率。对很多公司来讲这是非常重要的,因为在大多数公司的业务中,少数视频占了最多的带宽费用,但又不能把少量视频的质量降下去。因为质量如果降下去,会影响用户体验。
![3.png](https://ucc.alicdn.com/pic/developer-ecology/8e6b20e7cab54f7f9cd1f6a80cc3b5be.png)
为了解决这个问题,我们可能需要投入大量的人员去做编解码优化。当然开源也是有的,开源的质量也不差,但如果想在开源基础上做得更好,这个投入就非常大了。
另外大家可能也听过,在看一段视频的时候,视频内容其实是直接决定了哪些地方是需要非常清晰、哪些地方相对来讲是不那么重要的,这可能就要结合 AI 做视频内容的理解,然后**做动态的编码优化**,基于你感兴趣的点去做优化,背后可能涉及各种各样的团队,编解码的团队、AI 的团队、算法的团队,所以为了一点点的提升,背后可能有非常大的投入。
# 让延时再低些
延时变得更低到底能来什么好处,简单给大家举几个例子。
第一个是在线教育。最早的时候在线教育是录播的,老师提前录完视频然后再放出来,其他人再点开看。但对很多客户来讲,比如对家长来说这是不太能接受的,因为跟老师不能有很好的互动。后来在线教育就更希望能让老师跟学生之间有更强的实时互动,而不是录播的毫无互动。
为了做到互动,最关键的是延时。传统直播技术通常大概延时在 5 秒左右。当然,像电视直播等延时会相对长一点,但那是因为其他的要求,技术层面大概都在 5 秒范围,这是受协议约束的结果。而在线教育是希望把延时降到几百毫秒,这样音视频互动才能更好地进行。
第二个是电商,这方面阿里有非常强的感受。阿里最早做开始手淘直播的时候,也是采用比较传统的技术,场景上面临的最大问题是:主播上来告诉大家,“我要开始卖一个东西了”,然后他要上链接,还要做消息互动。但这时候有可能会出现的是:主播说话与用户观众发消息的两个过程是有延时的,但消息的延时跟视频的延时又可能不一样,消息可能在 1 秒,视频可能在 5、6 秒。
这时候就会出现消息跟视频不在同一个画面的问题——主播可能都已经切到下一场,而买家还在跟他交流上一场的问题。
所以在手淘场景里,我们不断跟手淘团队一起尽可能把延时往下推进。比如在今年双 11 里,手淘大量采用了低延时直播,大概把直播的延时降到 1 秒左右,控制在 1 秒范围内之后,我们可以看到它对整个 GMV 的转化有很大的帮助,因为主播跟观众之间有了更强的互动关系。
在所有直播体系里我们都看到了对于延时的诉求,现在直播都希望走向强互动直播,而不希望是原来那种比较单向的行为,因为观众也希望有更强的互动。
最后一个是大家疫情期间感受最为强烈的场景,视频会议。现在视频会议的延时在技术上能够做到几百毫秒,所以现在大家普遍能开视频会议。虽然以前是电话会议多一些,但现在很显然视频会议的比率在上升。毕竟任何人的交流都更加希望能看到人,而不纯粹只是电话传递的声音。
举另外一个例子,很多公司的面试到决定性或者很关键的一轮时,都会把候选人邀请到本地,然后面对面地完成这轮面试。这是因为觉得在仅通过电话面试、看不到人的情况下,很多东西是难以判断的,需要见到本人。但是有了视频会议以后,一些面试就可以无需把人邀请到现场进行。
所以延时技术在视频领域的作用是非常明显的,从几秒到几百毫秒催进了非常多视频场景的创新。
但对视频来讲,这依然不够。比如视频会议,之前一个学术机构的研究报告显示,其实像视频会议这样存在几百毫秒延时的场景,对比人跟人的当面交流,还是存在很大区别。
大家开视频会议应该都有这样的感受:在视频会议的场景下,仍然会出现抢话情况,你说了一句话,可能还没有说完对面就已经抢话,这是一定会出现的,因为人跟人当面交流的延时并没有几百毫秒。
在视频场景里,我们是有非常强的动力去思考怎么把延时往下推得更低,让大家有更真实的体验,包括现在很多公司做很多东西都是为了让大家在远程会议上,可以有跟当面交流比较接近的体验。对我们来讲,延时如果能够越来越低,是一个非常好的事情,可以在这基础上做更多业务层面的创新。
# 音视频传输延迟引入分析
音视频整体技术可能跟系统层面技术有一些差别,我们来看一下延时。比如直播,音视频中比较典型的场景,你拿一个手机开始拍,这是采集的过程,把一个视频影像留下来,去采集,然后编码,多数可能是在端上去做。这个延时,现在大概在 60ms 左右的范围。
采集完之后会把这个流(比如直播、摄像流)直接推到远端,多数是云端或者自己服务器端。在云端之后,通常还会做一些处理,比如直播通常要做内容审核,内容需要过一遍审核处理,有些稍微复杂点的直播可能还要做其他事情,比如加 logo,做一些镜头的剪辑和镜头的切换。
如果有多个摄像头机位,还会涉及到直播的时候选用哪个机位的问题。另外是分发,怎么把服务器端推到很多的点。然后是把客户端流拉到本地,拉完以后开始解码和播放。
![4.png](https://ucc.alicdn.com/pic/developer-ecology/83c2e7bf70cd4fca9ae176a148290c28.png)
从整个时间耗时看,以前是 3-5 秒的延迟,主体时间多数耗在拉流那一端,这是协议决定的。RTMP 是比较标准的协议。现在业界比较流行的低延迟直播,是把直播延迟从 3 秒推到 1 秒,推到 1 秒以后,我们给它的名词都叫低延迟直播,相比以前更低延时一点。
大家看上图中的整体优化,更多是把协议层开始做替换,现在多数公司的低延时直播都会基于 RTC 协议,就是 Google 开源的 webRTC 协议去做。可以看到,当基于 RTC 推流、RTP 分发,前面协议层都在替换,差不多可以把拉流这端开始压到 1 秒以内。现在阿里手淘的直播,整体延时在 1~1.2 秒范围,1~1.2 秒在消息类互动场景已经足够了。主播跟观众如果是用消息互动,发一条消息或者打赏什么的,大家都不会有太长的延时感觉。可以看到,这种场景下,我们可以通过协议替换把整个延时往下拉低。
但也可以看到,其实还有很多延时是整个网络造成的。如果是网络造成的,现在其实是没有太多很好的解决方案,就非常地难。而标准的 RTC 可以做到 200-300ms 的时间,就是这样一个状况。
这三种延时,除了技术层面的差别以外,另外的层面是当采用这些技术以后,整体的成本是有很大变化的。当你延时要做得越来越低的时候,其实成本是会上升非常多的。像 RTC 相比传统直播延时,有可能成本大概是在 7 倍以上。像低延时直播,现在各家公司在不断努力尽可能让这两者成本开始接近。
![5.png](https://ucc.alicdn.com/pic/developer-ecology/5597a153fbd94ba5ba831b5cf0d5b744.png)
为了很好地控制延时,推流最重要的是协议的替换。因为协议替换以后,从 TCP 到 UDP 以后,很多东西需要自己来做了。
各视频厂商关注的最重要的指标是抗丢包,多数公司追求当丢包在 50%、60%、70% 的时候,在不同场景去满足诉求。比如视频会议如果只是为了开会,最大的诉求其实是在音频端——音频清晰度和流畅度,而画面如果有一点卡顿,我们勉强还能接受。当然,如果那个视频会议是讲 PPT,那就不能接受了,那优先级可能变成视频的清晰度。所以,不同场景需要有各种各样不同的策略。
比如大家如果去看直播场景和视频会议类型的场景,它面临最大的不同是什么呢?直播场景的话,比如我是主播,其实只要摄像头跟我、以及我跟服务器的链路整体没有太大问题,基本上观众之间互相是没什么影响,这个观众看的时候会卡,另外一个观众有可能是不卡的,因为观众之间没有什么影响。但如果是视频会议类型的场景就完全不一样了,比如现在有十个人在开会,这十个人里任何一个人,出现卡了或者视频、音频不大正常,就会影响整场会的效率。
在这样的场景里,为了要保证延时,同时又要保证流畅度的时候,抗丢包层面需要做非常多的事情,包括综合的策略。
我们去看很多音视频公司,它们很大的竞争力在于对端的适配能力。因为每个端的状况不大一样,比如有人用苹果,有人用安卓,尤其是安卓,安卓手机有无数种,每种手机的音频能力、视频能力有很大差别,还有大家所处的网络环境,比如现在连了 Wi-Fi,走动的时候可能 Wi-Fi 点会切换,还有可能从 Wi-Fi 切到 4G,这里面网络点怎么去处理也是非常关键的。
所以当整体延时越来越往下探的时候,它的技术门槛在不断地升高,我们怎么样做好卡顿的控制,是各家公司去做这类型业务上面临的最大的一个问题。
这里主要讲的关键技术,一是推流,二是分发,三是整个拉流层面为了控制延时做的一些事情。推流主要是协议层面和抗丢包,分发层面主要是背后整张网络的分发。
很多公司做视频业务,通常有几种方法,一是直接基于云厂商的 CDN 构建整张音视频网络,还有一种是基于边缘计算节点构建一张自己的音视频网络,但这都是有一个问题要解决的。不管用什么方案,都有这样一个问题解决:这么多的节点要怎么更好地调度?这涉及到非常复杂的调度问题,因为每个节点的带宽能力、计算资源能力可能不一样,怎么根据用户的情况去做整张网络的调度。
# 超高清是未来,但还有很多技术侧问题要解决
带宽层面,从目前来看,大家都在想 5G 带宽变大了以后,到底找谁把带宽用起来,总得有人把带宽用起来。就像 4G,其实是视频用起来的,短视频把 4G 视频带宽撑起来。现在互联网一大部分流量,主体都是视频构成的。5G 时代也是一样,我们为什么需要更大的带宽消耗,肯定要从业务侧看到很大的变化。
![6.png](https://ucc.alicdn.com/pic/developer-ecology/9735f0dd347d41708890b79ce9305e61.png)
图中可能是大家经常看到的一些清晰度,我们现在多数场景里能看到的 720p 视频、1080 4K 和 8K。8K 其实很少看到,因为 8K 对屏幕要求非常高,基本要很大的屏才能展现 8K 的效果。
阿里曾经在几年前冬奥会的时候做过一个 demo,叫 5G+8K 看冬奥会的滑雪现场,它的运动感非常强,所以是非常明显的。而现在特别火爆的 VR/AR 是需要更高的清晰度,现在很多 VR 还是 4K,所以导致我们会觉得颗粒感很强,但当 VR 结合 8K 的时候,就会觉得颗粒感的问题好了很多,画面比较接近真实。
只有更大的带宽,我们才可能把清晰度更往前推进。关于清晰度,以前有人说,你去问很多人,他都会觉得现在的东西已经够清晰了,不需要更清晰。但当你给了他一个更清晰的东西的时候,他会发现他需要更清晰的。最典型的是,苹果推视网膜屏,当视网膜屏推出以后,大家就有了更好的体验。
现在短视频厂商也在不断推进 4K。很多人以前都觉得短视频没必要那么清楚,因为手机屏幕太小了,还不至于能看出 4K 的差别。
但从业界发展看,我们觉得这个趋势还是比较明显的,**整体朝更清晰化发展**,它肯定是有诉求的。而为什么现在进展比较慢?有很多原因,第一个是当清晰度要往前推进的时候,不光是后面播放侧的问题,还有很大的问题是制作侧。当然,现在很多摄像机可能是 4K,但是拍了以后怎么把 4K 视频做剪辑、处理,其实是非常复杂的,更不要说带宽消耗。带宽除了能不能放出来以外,还有一个问题是每放一次背后全部是带宽消耗,这个带宽消耗全是成本。
我们觉得超清是一个很好的发展方向,但怎么解决在超清的发展过程中面临的很多问题,是技术侧都需要关注的。
![7.png](https://ucc.alicdn.com/pic/developer-ecology/6f188af4986444b0b25e1c836c4c6c88.png)
超高清技术里面涉及到很多东西,简单讲就是从视频输入开始,就是拍一段视频,然后到一段视频最后被用户看到的时候,到底我们要做些什么。
大家可能听到过一些词,比如上图里的“超分”。简单来说,就是手机拍出一段 2K 视频,怎么把它超分成 4K 的视频,让你看到一个类似 4K 的效果,这样做是为了制作端的成本问题,因为很多制作端都不具备制作超高清的能力。
另外,大家可能听过窄带高清等技术,其实是为了解决给你一段高清视频,但怎么来控制整个带宽成本的问题。如果做高清业务,成本是非常重要的。长视频就非常典型,多数长视频会提供非常多种清晰度的选择,多数公司会提供越来越清晰化和越来越好的体验,就像优酷自己,我们会提供帧享的东西去让大家能看到更好的不同的体验。
还有很多场景的问题,比如拍不同场景,航拍和运动类的视频对清晰度的要求是比较高的,尤其是运动类的视频就非常明显。阿里优酷做世界杯播放的时候,能明显地感受到,如果清晰度不够,很多时候可能连球在哪儿都不一定能看到,远景的时候是比较难的。在那段时间,大家在不断研究怎么能让这个画面变得更加清晰。
所以我觉得,对于很多公司来讲超高清技术是需要往前演进,需要解决从制作到分发、处理到播放整个链条的问题。带宽是基础,只有带宽越来越大的时候,这个东西才有可能变成现实。
因为我现在跟视频接触得比较多,从这 5G 和云原生这两个命题讲,我目前看到视频是结合最紧密的技术。
5G 带来的更多是低延时和大带宽。我们需要思考的是,当延时越来越低的时候,有可能带来什么新的业务创新,创新模式到底有什么改变。延时越来越低,在视频场景我们看到会带来越来越多业务上的变化,很多业务跟以前完全不一样了。
因为视频的成熟,在疫情期间很多事情开始转向,以前必须线下的可以转向线上业务。当整个社会技术在进步的时候,所有业务系统侧都要去思考,视频只是相对来讲可能更明显一点。另外是带宽,有什么业务对带宽的消耗越来越大。
举另外一个例子,计算资源的消耗。最早多数计算资源是用来做在线业务系统,比如交易系统等等,消耗了大量的机器。但是后来我们看到很典型的变化是大数据,大数据变成了更主力的计算资源的消耗,再后来是 AI。
其实场景都在不断变化,在所有业务场景里应该去思考延时越来越低会带来什么,然后带宽的变化会带来什么,最后是基于云更快速做业务创新的机会到底在哪里,因为云原生更重要的是,我怎么更好地、更快速地完成整个业务的迭代和创新以及尝试,可能对所有做系统结构、做系统架构技术的人来说,这是需要慢慢结合自己的业务去思考的一个话题。
如上文所讲,5G 和云原生时代的技术下半场,视频化是最新最大的确定性,从图文到视频,视频云促成了内容的视频化,从线下到线上,视频云变革了信息的交互方式。
回复

使用道具 举报

0

主题

640

帖子

-104

积分

限制会员

积分
-104
发表于 2021-4-8 23:17:51 | 显示全部楼层
我是来刷分的,嘿嘿
回复

使用道具 举报

0

主题

670

帖子

-71

积分

限制会员

积分
-71
发表于 2021-4-8 23:38:06 | 显示全部楼层
路过,学习下
回复

使用道具 举报

1

主题

586

帖子

-100

积分

限制会员

积分
-100
发表于 2021-4-8 23:59:28 | 显示全部楼层
路过,支持一下啦
回复

使用道具 举报

0

主题

622

帖子

-110

积分

限制会员

积分
-110
发表于 2021-4-9 06:01:43 | 显示全部楼层
支持一下
回复

使用道具 举报

0

主题

653

帖子

-126

积分

限制会员

积分
-126
发表于 2021-4-9 06:23:57 | 显示全部楼层
LZ说的很不错
回复

使用道具 举报

1

主题

662

帖子

-122

积分

限制会员

积分
-122
发表于 2021-4-9 06:49:10 | 显示全部楼层
谢谢楼主,共同发展
回复

使用道具 举报

0

主题

643

帖子

-26

积分

限制会员

积分
-26
发表于 2021-4-9 07:09:51 | 显示全部楼层
路过,支持一下啦
回复

使用道具 举报

0

主题

661

帖子

-101

积分

限制会员

积分
-101
发表于 2021-4-9 07:30:41 | 显示全部楼层
路过,支持一下啦
回复

使用道具 举报

1

主题

610

帖子

-148

积分

限制会员

积分
-148
发表于 2021-4-9 07:51:06 | 显示全部楼层
路过,支持一下啦
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|无图版|手机版|小黑屋|广州@IT精英团

GMT+8, 2021-4-17 10:06 , Processed in 0.248483 second(s), 25 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表