使用微信扫一扫分享到朋友圈
硅谷回国码农一枚,现负责声网RTM实时信令云服务后台及SDK技术架构设计。毕业于中国科学技术大学和Clemson University,曾就职于Verizon,负责视频广告业务API平台及服务端设计实现,在大型分布式系统后台、网络传输优化及API架构设计和实践领域有深厚的经验积累。加入声网,全面负责RTM实时信令产品的架构设计与实现。钟爱在国内按硅谷时间工作。
毕业于上海大学,博士学位, 图像算法工程师,主要从事机器学习、计算机视觉算法的研究及落地。
实时互联网,为实时互动而生。人们在互联网上完成的社交、娱乐、游戏、工作、学习、问诊、阅读、购物、打车、运动等等,都引入了实时互动多种场景。这些场景不仅极大提升了互动体验,有的甚至产生颠覆性地影响。实时互动场景的爆发,正在重构互联网的流程和体验,实时互联网是下一代互联网的主要潮流。RTC 实时音视频技术,作为实时互联网发展的基础硬核技术,也在快速迭代裂变。在音视频编解码、超高清音视频等多个领域,探索与人工智能AI技术的深度结合带来体验优化;在传输架构、QoE 质量领域,不断刷新海量并发高点,实现、更高清、更实时、更高质量的可能性;在开发实践领域,快速支持最新框架、新语言,几行代码简单实现 RTC;在生态技术领域不断延展,实现实时消息、应用加速、AI语音变声等更多可能性。
实时互动即服务:专业化,驱动行业进化
实时视频技术的现状与未来
将介绍和展示我们近期在RTC技术中实时视频传输、编码和基于人工智能算法的处理等技术方向取得的进展,并对RTC未来发展的一些趋势做简要分析。
The rise and future of real-time communications on the Web
基于AI的实时语音交互的前沿探索
高峰对话
Deep Learning based Super Resolution for mobile RTC
基于内容的视频推荐和实践
RTC x Audio x AI,现状和展望
互联网语音内容审核中的关键AI技术
相较于成熟的图片、视频审核,语音是行业公认的新难题。语音违规不仅风险更隐蔽、影响更恶劣,其对应的AI技术也存在更高的壁垒。难点一:高复杂度场景下的语音识别。语聊房、视频直播、短视频中的语音往往伴有极强背景音(如音乐、噪声等)、语速极快咬字不清、口音严重等情况, 使得其识别难度数倍于传统场景。难点二:极低误报率要求下的违规内容过滤。上述场景中,违规内容出现的概率往往在万分之一甚至十万分之一,这就要求算法模型在不漏太多的情况下尽可能的减少误报(从而减少人工审核的工作量)。本次演讲,依图将结合自身经验,介绍如何有针对性的进行技术实现和方案设计,克服以上难点。
基于神经网络的自适应传输
网络是动态变化的,如带宽波动和意想不到的延迟,伤害用户的体验质量(QoE),而且全球网络媒体服务都需要面对这个问题。在这次演讲中,我们提出了一个神经自适应传输(NAT)框架解决全球网络规模下互动媒体服务的网络问题。整个神经自适应传输(NAT)系统有三个主要组成部分:一个基于学习的云覆盖层路由(COR)方案,通过绕过网络拥塞并找到最低延时路径,提供最佳传输路径;一个基于协同视频处理(CVP)系统的残余神经网络在设备端来协调端上的计算能力,通过学习分辨率缩放来改进QoE;还有一个深度强化学习(DRL)的自适应实时流(ARS)策略,用来选择适当的视频比特率,以获得最大QoE。我们验证过COR可以提高用户满意度5%到43%,CVP可以减少相同质量下带宽消耗的30%以上,基于DRL的ARS可以保证流媒体流畅度,QoE也可改善50%以上。
AV1编码优化在实时视频通信中的探索
面向互联网的抗丢包音频编码器的开源与实践
VVC overview and progress
多功能视频编码(VVC)标准是自2018年4月开始由ITU-T和MPEG联合视频标准委员会JVET开发的新一代视频压缩标准。与目前压缩性能最好的HEVC标准相比,VVC的目标是使用一半的比特率实现相同的视频质量。 VVC的另一个重要设计目标是为各种视频应用的格式提供高压缩效率,包括传统的standard dynamic range(SDR)格式,high dynamic range(HDR)格式和全方向360度视频等格式。在最近的2019年7月的JVET标准会议上,VVC标准达到了被称之为committee draft(CD)的重要里程碑,标志着VVC标准中主要编码工具和功能已经基本选定,接下来的技术发展进入稳定阶段。在本次演讲中,我们将一起回顾一下VVC中的一些主要编码工具及VVC所支持的一些重要功能。我们还将VVC与其它视频编解码标准(如HEVC和AV1)做客观压缩性能的比较。最后我们会展望未来,看看在VVC定稿之前的最后的一年中JVET委员会还需要做的工作,并探讨一下业界预期VVC在行业和市场中会产生什么样的影响。
新一代AVS3视频编码标准
新一代AVS3视频编码标准自启动以来得到业界的广泛关注,已制定完成的AVS3基准档次相比于已有标准编码效率提升30%,将引领未来8K超高清、VR视频等产业应用的发展。本报告简要介绍新一代AVS3视频编码标准的最新进展情况,包括制定过程、关键技术、行业应用和未来展望等内容。
感知编码在实时通信上的实践
感知编码是指在编码的时候结合人眼特性,进一步减除人眼通常注意不到的地方以达到节省码率的目的,或者加强人眼观看的主观效果。感知编码可以包含前处理、后处理以及编码过程中的多个算法。这里会简要介绍一下相关话题以及我们在实时通信领域限制下的相关实践。
5G时代中音视频的机遇与挑战
在移动通信技术发展史上,从来没有像5G这样,让CT与IT技术如此紧密的结合在一起。5G的能力开放让更多的资源可以为开发者使用,系统解耦让更多的技术可以不断迭代更新,网络切片让更多的业务可以复用于同一张网络。
5G时代展示了一个全新的生态,由此对音视频的冲击不仅仅是高速率低时延,还有丰富的场景和业务。音视频编码技术在充分考虑了智能算法之后,开始考虑工业互联网场景,新场景新业务的爆发将是5G时代的重要特点。音视频应用也不再会局限于短视频,很多深度体验和强交互式业务将有可能获得新生。
高速实时传输的拥塞控制
微软小冰实时感官系统与未来发展趋势
微软小冰是微软(亚洲)互联网工程院研发的人工智能机器人。微软小冰实时感官系统是微软小冰的线下实时交互平台,她具有多种实时识别和动态捕捉的能力,并可以用户进行实时交互。本次演讲将会对实时感官系统全方位深度剖析,并以之为例介绍实时感官系统的构成与应用,引领听众探索其未来发展趋势。
智能图形技术的进展及应用
6DoF视频技术赋能下一代3D化体育/综艺观看体验
实时互联网技术在5G时代的挑战与机遇
高并发实时信令以及在教育场景的应用
在国内在线教育领域,CCtalk是功能完备,体验优秀的授课平台。不同于一般的秀场模式的直播间,在线教学中师生的双向互动是教学练测中很重要的环节。小型的互动直播教室可能很容易实现,在成长为10万人规模的直播教室的道路上会有哪些难点?大型直播教室内的人人参与的频繁文字发言为何被视作洪水猛兽?业务的堆叠与服务的效率之间怎么兼得?分布式链路上的消息顺序问题怎么解决?服务宕机时怎么快速转移和恢复数据?这些疑问本次演讲带您一窥究竟。
利用Kubernetes 部署视频流录制服务器
深入浅出的介绍一个视频流录制服务器的实现,以及视频录制和应用服务器集成常见的坑。本演讲会通过一些实例,分享在生产环 境利用Kubernetes StatefulSet 和Helm Charts来实现实时部署可扩展的视频录制服务器集群。
Creating a Global Multicloud RTC Framework with Docker
创建和运行一个现代化的、全球分布的RTC基础设施需要思考:如何以最有效的方式弹性的部署服务。许多云服务商已经表明,不再需要运行自己的数据中心;现在,Docker Swarm & Kubernetes等框架结合的API向我们表明,使用单一云服务商同样过时。本次演讲将具体讨论:在全球范围建立多云rtc基础设施的技术和业务考虑。
RTM后台水平扩展实现
滴滴20GB+/S日志系统的架构设计
滴滴每天服务几千万人次出行的过程中,产生了20GB+/S的日志数据,这些数据需要及时、完整的同步到大数据体系中,以满足业务实时、离线数据加工的需求。面对数以万计的服务节点,复杂的线上环境,严格的资源消耗,秒级的延时要求,建设一个稳定、及时、安全的日志采集系统是一个充满挑战的问题
爱奇艺超低延时直播服务RTCDN系统的实现及应用
在实时互动直播服务中,低延迟、低卡顿一直是最核心的诉求,在一定的画质下,延迟越低、卡顿率越低直播体验就越好,主播和观众间的沟通就会越顺畅;典型的,在秀场直播和游戏直播中,当前业界常规延迟在2-5秒甚至更高,这带来一定的沟通延迟,影响了互动体验。基于此,爱奇艺研发了一套完全基于WebRTC的超低延时CDN系统,RTCDN(Real Time CDN),它即具备WebRTC的实时性,又具备CDN的高并发特性,同时兼顾卡顿率,来改善互动直播的体验。我将介绍爱奇艺RTCDN系统的工程实现和在直播中的应用情况。
新浪微博极速版四层接入网关的重构历程
这是一个直接处理四层数据的接入网关,同时为客户端提供TCP、HTTP等链路接入通道,本演讲将逐一介绍该网关从诞生、业务分离、增加插件机制等重构过程和设计理念等。
实时消息在同城货运场景中的设计与应用
Common WebRTC mistakes and how to avoid them
Flutter浪潮下的音视频研发探索
分享主要针对闲鱼APP在当下流行的跨平台框架Flutter的大规模实践,介绍其在音视频领域碰到的一些困难以及解决方案。并带来了闲鱼基于Flutter的音视频开源框架TPM以及基于该框架完成的Flutter音视频开源插件如播放器、相册等等。
H5 实时音视频直播的技术探索
实时通讯在美团客服的跨端应用实践
MPEG-DASH 在 bilibili 的实践、优化与思考
伴随着音视频和网络技术的快速发展,音视频内容逐渐成为互联网内容的主流,而这些内容的用户体验也显得愈发重要。B 站一直致力于用户音视频播放体验的改善及优化,于去年正式引入并全量上线 MPEG-DASH 作为新的流媒体解决方案。上线之后经过多次版本迭代优化,最终实现 5分位秒开,卡顿率得到大幅优化,切换体验大幅提升,获得用户一致好评。
而我们 B 站使用的 MPEG-DASH 是一种自适应比特率串流技术,使高质量流媒体可以通过传统的 HTTP 网络服务器以互联网传递。MPEG-DASH 播放器可以无缝适应不断变化的用户网络或者缓冲区大小并提供高质量的播放体验,减少卡顿率。同时,基于 B 站现有的音视频技术,我们也在一直思考如何为用户带来更独特的内容,更炫酷的方式,以及更优质的体验等。
基于深度学习实时直播内容风控
随着互联网高速发展,直播场景日益丰富,违规音频视频图片已经泛滥成灾;同时国家内容监管日益趋严,监管政策集中出台,行政处罚愈发严格,实时内容风控日益重要,传统的人工方式也已经无法满足实时风控的需求,时代呼唤新的解决方案。数美基于深度学习技术,提出全栈式AI实时直播内容风控的解决方案,包括LSTM、RNN、CNN、GAN等深度学习模型,有效识别直播视频涉政、暴恐、涉黄等违规内容,保证内容合规,净化了网络环境。
深度学习CV算法在WebRTC领域的应用
基于信令流的应用状态同步实践
基于 node-canvas 与 FFmpeg 的数据可视化视频合成
大多数数据可视化是将数据生成为图片。但将数据实时生成为可视化的视频也存在很大需求。如何将数据从 Web 前端输入,最后生成一个可视化的视频,并支持在前端预览?如何解决其中的性能挑战?完成数据的可视化之后,合成为视频会遇到什么坑?我们在本演讲中,将分享数据可视化从canvas做成video的开发思路和这个过程中的一些坑和痛点。
WebRTC 从 1 对 1 到服务端的技术实践
Janus 服务端实践
WebRTC 网络抗丢包策略
WebRTC 降噪与回声消除
实时互动即服务:专业化,驱动行业进化
实时视频技术的现状与未来
The rise and future of real-time communications on the Web
基于AI的实时语音交互的前沿探索
高峰对话
Deep Learning based Super Resolution for mobile RTC
毕业于上海大学,博士学位, 图像算法工程师,主要从事机器学习、计算机视觉算法的研究及落地。
基于内容的视频推荐和实践
RTC x Audio x AI,现状和展望
互联网语音内容审核中的关键AI技术
基于神经网络的自适应传输
AV1编码优化在实时视频通信中的探索
面向互联网的抗丢包音频编码器的开源与实践
VVC overview and progress
新一代AVS3视频编码标准
感知编码在实时通信上的实践
5G时代中音视频的机遇与挑战
高速实时传输的拥塞控制
微软小冰实时感官系统与未来发展趋势
智能图形技术的进展及应用
6DoF视频技术赋能下一代3D化体育/综艺观看体验
实时互联网技术在5G时代的挑战与机遇
高并发实时信令以及在教育场景的应用
利用Kubernetes 部署视频流录制服务器
Creating a Global Multicloud RTC Framework with Docker
RTM后台水平扩展实现
硅谷回国码农一枚,现负责声网RTM实时信令云服务后台及SDK技术架构设计。毕业于中国科学技术大学和Clemson University,曾就职于Verizon,负责视频广告业务API平台及服务端设计实现,在大型分布式系统后台、网络传输优化及API架构设计和实践领域有深厚的经验积累。加入声网,全面负责RTM实时信令产品的架构设计与实现。钟爱在国内按硅谷时间工作。
滴滴20GB+/S日志系统的架构设计
爱奇艺超低延时直播服务RTCDN系统的实现及应用
新浪微博极速版四层接入网关的重构历程
实时消息在同城货运场景中的设计与应用
Common WebRTC mistakes and how to avoid them
Flutter浪潮下的音视频研发探索
H5 实时音视频直播的技术探索
实时通讯在美团客服的跨端应用实践
MPEG-DASH 在 bilibili 的实践、优化与思考
基于深度学习实时直播内容风控
深度学习CV算法在WebRTC领域的应用
基于信令流的应用状态同步实践
基于 node-canvas 与 FFmpeg 的数据可视化视频合成
WebRTC 从 1 对 1 到服务端的技术实践
Janus 服务端实践
WebRTC 网络抗丢包策略
WebRTC 降噪与回声消除