使用微信扫一扫分享到朋友圈
使用微信扫一扫进入小程序分享活动
纵览音视频新技术与应用新趋势。
主办方致辞
联席主席致辞:Visionular Co-Founder & Chief Scientist
From VP9 to AV1 and beyond
Google embarked on the WebM Project in 2010 to develop open source, royalty-free video codecs designed specifically for media on the Web. The second generation codec released by the WebM project, VP9, is currently served by YouTube, and enjoys billions of views per day. Realizing the need for even greater compression efficiency and to cope with the ever-increasing demand for video on the web, Google joined a consortium of major tech companies called the Alliance for Open Media in 2016, and started an ambitious project to develop a next generation royalty-free codec AV1. AV1 was finalized in June 2018, and achieves about an one-third reduction in bandwidth over current generation codecs VP9 and HEVC at a practical hardware and software complexity. This makes AV1 the most advanced video codec available today that is also royalty-free. In this talk, I will provide a technical overview of the most innovative coding tools in AV1, followed by coding results on standard test sets compared against VP9 and HEVC.
新一代视频编码标准
本次分享主要介绍最新一代VVC和AVS3视频编码标准进展,包括关键技术特色及未来应用展望。
AI技术开启视频娱乐新时代
“给我一个支点,我可以撬起地球。”AI就是视频行业中那个支点,人工智能赋予了视频更多新玩法,AI技术的运用使爱奇艺更懂内容,体现在生产,内容,分发,变现等方面,为广大用户带来新体验。在本次分享中,和大家一起讨论,AI在视频娱乐中的新技术应用及未来发展。
用户导向的音视频体验优化
工程师、科学家们往往喜欢从技术角度出发来思考问题,设计产品,比如无人机、VR眼镜、3D电视等,有可能会产生颠覆性的创新,也有可能曲高和寡。快手是一个面向用户的内容平台,倾向于采用用户导向的方法。本次我们将分享快手是如何以用户体验为导向,结合工程、算法、大数据方面的实践,构建面向未来的音视频技术体系的。
业务落地离不开端。端是云计算能力的出口,又是用户流量的入口。端的体验决定了用户的留存,对业务的成败起着关键作用。端上能做什么?怎样才能做好端?让我们一起走进端上世界。
The company that invented streaming media continues to innovate new video technologies
Reza Rassool will report on their latest advances in CODEC, streaming technology, and consumer experience as well as the ground-breaker achievements in video computer vision.
高效移动端视频处理架构关键技术
随着短视频成为人们竞相追逐的新风口,移动端视频处理需求与日俱增。如何高效地在移动设备上处理视频成为至关重要的问题。本次分享以美摄SDK的视频处理框架为依据,介绍在移动端高效处理视频的架构设计要点,涉及视频处理任务的调度,GPU的使用以及同步,硬件编解码器的利用,代理级别渲染等技术点。可供有移动端处理视频需求的相关人员进行参考。
微博客户端播放器的演进之路
微博客户端短视频业务的发展迅速,最近几年的播放量翻了几十倍。为了承载如此大的播放量,客户端视频播放器为了更好的支持视频业务的发展,围绕着快速上线、快速启播、成本节约、稳定性等问题进行了持续的优化。未来我们希望播放器具有用户环境的感知能力,根据用户的环境提供更好的播放体验。
基于WebRTC的互动直播实践
互动直播已经成为直播的主要形式,本次分享将介绍INKE自研连麦整体设计思路;介绍如何基于WebRTC搭建互动直播SDK、介绍对回声消除问题的处理、对实时传输的优化;介绍为保障互动直播QOS而开发的优选、埋点、问题分析等系统;介绍对互动直播相关前言技术的探索等。上述互动直播系统,已经上线运营并达到了很好的效果,供实时音视频相关同行参考。
从社交到视频会议,从金融到医疗,云端通信能力正在与传统的电话/IM、呼叫中心、企业通信融合,打通各个端与渠道的数据,实现实时互联与掌控。
以我所能,为你而加——腾讯云新一代融合通信平台全接触
腾讯云实时音视频解决方案的技术实现
本次分享将围绕腾讯云实时音视频(TRTC) 和小程序音视频解决方案,介绍一些内部的技术细节和方案原理。
企业通信中的音视频技术应用与前瞻
本次分享将以容联视频会议实践为案例详细解析音视频技术在企业通信领域的发展与主要应用,并展望了即将到来的5G时代中音视频、尤其是视频将迎来的更广阔的应用空间。
图像画质是衡量视频服务,特别是视频编码优化和解码后处理的主要依据。人的眼睛是图像画质好坏的最终裁判,设计出能正确反映视觉主观感受的客观图像质量测度是工业届落地应用的关键所在。此外,视频画质评定技术需要与时俱进,不断应对新的服务需求和挑战。本专题将聚焦视频画质的评价技术的最新进展,包括反映视觉感知特性的图像失真测度,无参考图像质量测度,支持跨分辨率、多屏应用的画质测度,以及在超高清、HDR、VR等新型场景中的研究状况。
视频画质提升-在腾讯视频中的应用
视频质量评价——从裁判到教练
视频质量评价(VQA)是视频服务系统中的重要技术要素,贯穿成像、编辑、处理、编/转/解码、渲染、显示等整个视频技术链条。理想的VQA模型接受一个输入视频/图像,能够定量地计算出一个质量分数,真实地反映出观看者的体验。本报告给听众带来如下三方面的内容:1、介绍VQA的技术图谱和工业标准;2、VQA在视频服务流程中的管理技术,包括VQA建模、工具部署、业务应用;3、VQ驱动的视觉感知编码技术、视频增强处理技术。
无参考图像视频质量评价
无参考图像质量评价中面临的一个重要挑战来自图像内容的多样性。当前的无参考质量评价方法在跨内容图像对的相对质量预测中与人类主观视觉感知不一致。考虑到预训练好的图像分类模型中包含有区分度的图像内容信息,为了解决上述问题,我们提出了一种基于语义特征聚合的无参考图像质量评价方法。具体地,首先我们将图像划分为多个重合的图像块,以包含图像的全部信息以及避免引入额外的几何失真;其次,使用一个自适应程序选择最合适的深度特征来表征图像的内容失真信息;然后,使用统计方法对所有图像块对应的局部特征进行聚合得到代表整个图像的全局特征;最后,一个线性模型将图像全局特征映射到图像质量分数。所提出的新方法与13种代表性的方法在7个常见的数据集中进行了广泛的比较。实验结果验证了我们的方法的优越性能和良好泛化能力。与此同时,这也表明了深度语义特征在无参考质量评价中起到了重要作用。
视频编码器对比与选择
视频编码器是各类视频服务的核心组件,很大程度上决定了视频编码的效率甚至整个视频服务的质量。当今业界各类视频编解码标准、视频编码器层出,如何选择编码器成为了一个非常重要的话题。然而在实践中,视频编码器的对比中有大量的误区,经常导致不准确甚至错误的结论。本次分享会以Hulu的业界实践为基础,分享对视频编码器进行客观准确对比中的经验。
回声消除、减少卡顿、360度声场,耳朵对音频的要求越来越高,本专题将讨论提升音频体验的技术革新与应用创新。
AI硬件中的声学问题剖析
人工智能产业领域的技术着眼点会更关注神经网络和深度学习算法以及数据,但是随着技术的落地,不可避免的要涉及到硬件产品的基础体验问题。而由于使用场景、使用方式的差异,以及人际通讯和人机对话的技术要求差异,使得人工智能硬件和传统具有音频功能的硬件又有所不同。本次分享拟从声学硬件系统的角度来剖析声学信号处理算法、声学硬件指标及相关技术对于语音交互体验的影响。
音频编码技术特点
针对超高清、3D等新一代试听系统,对多层级、高质量的音频编解码技术需求。国标委颁布了音频编码新国标,简称AVS2音频。本报告将从编码框架、核心技术、性能指标等方面,详细分析新国标的特点和应用前景,并展望下一代智能音频编码技术特点。
娱乐遇见科学
消费者通过各种不同设备,在各种不同环境中,为了各种不同的目的而享受到的多媒体娱乐内容越来越多样化。这就要求有能够大幅度适应各种回放场景、各种使用案例和各种内容类型的信号处理和内容交付技术作为支持。在本次演讲中,我们将分享杜比如何使用多学科的科学手段开发新一代娱乐技术,我们将阐述如何构建一个生态系统,使其既能够助力内容创作人士,又能为所有最终用户提供沉浸式的一致体验。
手机K歌的人声伴奏对齐优化实践
人类大脑对声音的响应速度和敏感程度非常高。K歌时对人声音轨和伴奏音轨的时间对齐有很强的要求。本次分享将主要介绍手机K歌在混音时间对齐方面存在的问题,常规的工程解决方案以及值得探索的方向。
架构设计永远没有最好的,只有最适合当前业务发展的,并且架构设计是需要后期的具体实现来作为最终实践的。而本专题是基于音视频领域畅谈服务端与客户端的架构设计以及实践,以及在不同阶段架构是如何不断进行演变以及进化的。无论你是一个开发工程师还是一个资深架构师,亦或是产品经理或者相关行业的从业者,都可以在本专题中学习到不同场景下音视频领域架构设计的心路历程,也可以帮助自己以后遇到同类问题的时候,心中有一个适合的架构蓝图。
微博视频平台架构演进
微博作为国内最大的社交媒体平台,一直致力于向用户提供高质量的内容。从13年微博逐渐加大对于视频内容的投入开始,微博视频后端系统经历了多次迭代,由最初的每日千级简单视频处理,到如今面对百万级视频上传、数十个垂直业务方的复杂平台,本次分享将会和大家讨论微博视频后端架构的发展历程以及过程中我们经历的那些“坑”。
利用WebRTC给应用赋能——从一个工程师的角度
这次分享从工程师的角度来讲述如何利用WebRTC打造出具备实时互动能力的应用,包括了从信令的交互到媒体的传输需要完成的工作。这次分享旨在让大家了解从拿到开源代码到给应用赋予可靠的音视频通讯能力的实践过程。
基于HLS格式的互动直播技术实现超越RTMP的低延时
主播和观众之间的实时交流是互联网互动直播有别于传统电视的新功能。为实现双方对话的顺畅,端到端(即主播端发出画面到播放端显示画面)的延时目标一般应小于5秒。同时,在不牺牲服务质量(例如卡顿率、画面清晰度)的前提下,越低的延时能带来越好的互动性用户体验。 为保证上述小于5秒的低延时,Twitch在2011年成立之初曾采用RTMP格式来推流。然而随着同时在线观众达到一定规模,有状态的推流技术逐渐暴露出它高CPU占用率、低可扩展性的缺点,从而成为平台继续发展的最大技术瓶颈。在这种情况下,Twitch于2013年开始从RTMP切换到HLS。HLS的无状态拉流和ABR特性使得网站在用户规模和体验两方面都取得大幅度提升,但另一方面也把端到端的延时扩大到10秒。 为达成可扩展性、服务质量、互动性的三赢,Twitch团队研发了仍然基于HLS格式的低延时直播技术。新技术利用了HTTP 1.1的Chunked Transfer Encoding机制,并在直播分发路径从转码到播放的每一个环节都做了架构和软件的升级。Twitch的低延时功能自2018年5月初正式向所有主播开放以来,实现了3.7秒的中位数延时。对于很多网络状况良好的用户,延时甚至能小于2秒。Twitch的用户社区对这种超越RTMP的低延时表现给予了巨大的正面反馈,与此同时,根据我们的实际数据,低延时并不对容量、卡顿率等其他方面带来负面影响。
用WebRTC打造支持复杂交互的实时互动云课堂
低延迟、高并发、高可用、互动白板,教育场景下对多媒体技术提出了更高要求。本专题将讨论教育场景下的多媒体技术的探索与应用实践。
互动白板在在线教育上的应用
教育的本质是内容,在线教育也属于此范畴。而在线教育不同于线下教育, 需要经过电子白板展现给用户,白板该怎么做,做成什么样是一个很有意思的话题, 本次分享会通过多年实践的经验和技术,来介绍小学,初中,高中在线教育中互动白板的做法, 如白板功能,白板渲染,内容合成和传输等实用经验。
51Talk音视频技术的思考及非典型挑战
本次演讲主要介绍51Talk在音视频及其相关技术上的实践、挑战和对策,包括音视频编码器的选择,客户端及服务器的设计和优化,抗丢包、延迟的一些技术以及其他一些51Talk的独特挑战。
基于Licode的WebRTC全球分布式架构
随着在线教育行业兴起,许多人把目光投向了国外市场,但是如何搭建一个全球化的音视频网络就成了一个大问题。本次分享主要介绍了如何利用Licode 开源服务器搭建全球分布式架构;介绍了在教育场景下为何选择以Licode为基础来架构全球和百家云在该架构优化和修改;介绍了如何利用Licode 实现WebRTC 服务器的级联;介绍如何了利用该架构解决常见的教育场景的问题。
音乐场景下的实时音频解决方案
本次演讲内容主要分为以下几点:1. 一般 VoIP 框架的组成,各个模块的功能介绍,以及常见的坑有哪些; 2. 在高清音乐场景下面,普通 VoIP 框架面临的痛点;3. 云信高清音乐场景方案的大致介绍。
音视频的用户体验质量(QoE),从媒体采集到播放,从后端处理到网络传输,取决于众多因素。如何有效地预警并解决潜在的问题,提供用户持续满意的观看和交互的体验?本专题聚焦影响音视频用户体验的重要因素,邀请相关领域的专家对此进行探讨。
微信亿级视频通话的QoS优化之路
作为移动终端上的实时通讯应用,微信视频通话面临的最大的挑战在于网络的波动性和不确定性,丢包和延时的突变可能会带来通话质量的下降,影响通话体验。本次演讲将围绕QoS优化这个话题,简要地介绍我们在网络适配、质量调节、抗丢包策略方面的几个尝试以及相应的效果,通过持续的基础优化,支撑起亿级的高清视频通话体验。
视频直播体验优化
本次分享将着重介绍全平台差异化直播能力的统一与完善设计方案,以及从视频画质、流畅度、音视频同步、弱网条件下开播以及连麦质量等几方面核心技术指标提升策略。
如何打造音视频服务的用户极致体验
音视频服务追求的不仅是单纯QoS,而是用户最终的极致体验。本次分享将针对点播,直播,实时通讯几个不同的运用场景,结合讲师在Facebook和阿里巴巴的实际工作经验,着重讨论视频编码策略,同时结合音频编码,网络传输,服务器架构,用户界面设计,全链路监控等方面的实际经验,探讨如何从端到端整体提升用户的音视频极致体验。
大数据驱动下的短视频体验优化
快手作为国民短视频社区,日上传内容数量过千万,累计内容存量已超五十亿,日播放量过百亿。在海量的用户规模下,只有通过大数据处理和分析,才能准确有效的发现用户体验痛点。快手在短视频大数据处理和分析领域积累了丰富的经验。本次演讲主要介绍快手短视频实时多维数据处理&分析架构,短视频QoS&QoE指标的定义,并以具体案例展示如何通过实时多维数据监测,adhoc数据分析,AB测试等手段,指导用户体验优化。
利用自动化测试和产品数据化监控保障媒体质量
在基于云的解决方案开发中,快速迭代以及持续集成和持续部署是产品成功和客户满意度的关键之一。这里的挑战是如何在保持良好质量的同时实现这一速度。这对媒体来说尤其具有挑战性,因为媒体质量通常需要大量时间人力来测试,质量的评判标准也要考虑人的音视觉体验。在网讯Webex,我们开发了各种技术来保护开发/部署周期不同阶段的媒体质量。在本次演讲中,我们将讨论我们在自动测试环境中开发的工具。我们还将介绍我们在产品数据化监控中设计的各种媒体指标,帮助我们持续监控生产质量,评估新技术和快速解决问题。
基于QoE的实时视频编码优化
之往我们优化Codec,只是优化Codec本身,其实只是一个局部最优解,而且在实时通信领域,用户的QoE才是最终目标,这和很多因素相关,只有你的Codec优化适应了当前的网络状况,设备平台,应用场景,用户才能得到最佳的体验,我们所要找的其实是全局最优解。
基于用户体验的视频QoE 优化
如何站在用户的角度,对视频业务的体验质量进行评价,是众多视频运营者面临的普遍问题。本次分享主要介绍我们在视频业务体验QoE建模、分析方面的工作和进展,包括:关键因素分析、评价模型构建以及模型建立后在实际项目中的应用。
就像空气和水一样,AI终将渗透在各个技术领域。本专题将甄选图像理解,NLP,网络发包策略,Codec智能编码等技术与AI技术的结合。
魔镜:使用无监督式学习来辨识Twitch用户社区中繁复多样的网络状况
作为一个国际性的互动直播平台,Twitch服务的观众分布在世界的很多国家,从而具有千差万别的网络状况。这种差异性给我们试图提高服务质量亦或是发布任何前、后端的新功能都带来巨大的挑战。所以说如能建立起一个用户社区典型网络状况的知识库,那将对我们优化观看体验以及缩短软件部署周期都具有非同一般的意义。 根据平台收集到的海量播放质量指标,我们提出一个无监督学习的方法先对播放行为进行分组,因为每一个细分的播放行为集群都代表一类网络状况。下一步是用仿真和配对的方法来模拟出符合每种播放行为的网络模型。最后我们试图利用仿真出的结果来开发针对移动网络用户的ABR播放算法优化,同时加速它的灰度发布。
基于英特尔架构的实时视频流分析系统的设计与优化
随着实时媒体流分发技术的发展,在医疗,监控,社交和教育等领域,对多媒体数据进行基于深度学习的实时视频流分析的应用场景日益丰富。端到端的实时视频流分析涵盖视频流接入,视频编解码,视频帧前后处理以及深度学习网络推导等一系列流程,流程的复杂性以及深度学习网络调优的需求极大提高了实时视频流分析应用的门槛。为解决这一问题,面向WebRTC的英特尔协同通信开发套件设计了一个端到端的全流程实时视频流分析系统,它具有分布式可扩展的特性,同时实现了基于英特尔平台全加速,并提供了用户对深度学习网络的自由定制,帮助开发者使用极简的代码快速实现符合自身需求的高效实时视频流分析应用。本议题会对该系统的设计原理和优化方法以及所涉及的组件进行详细介绍,同时也会简要介绍其应用开发方法。
百度媒体云智能编码技术实践
短视频、小视频行业蓬勃发展,各个平台之间的竞争更加激烈,提升视频质量、降低带宽成本,成为每个平台提升竞争力的重要手段。在本次分享中,将对百度云智能编码技术进行深入介绍。结合该技术在百度APP视频FEED、好看视频、全民小视频中的应用实践,进一步介绍AI技术在云转码中的应用探索。
Boosting Multimeda UX in the AI Era
In this talk, we will introduce our recent work, from computational visual perception to image coding, processing, and understanding.
智能高清赋能金山视频云
“枯藤老树昏鸦,空调wifi西瓜。”感谢新媒体时代,让我们在炎炎夏日只要有了空调和wifi就有了全世界。随着高清视频的普及,金山云致力于为视频厂商提供一站式的视频、图像处理服务,通过智能高清技术针对不同场景智能化、定制化的提升用户体验、降低带宽。本次分享主要介绍金山云智能高清这一黑科技到底是什么,以及智能高清引领视频云行业所产生的技术变革。
互联网时代的智能视频技术探索及实践
互联网时代,视频流越来越庞大,场景也越来越复杂,传统的人工处理手段不仅成本高昂且已无法满足需求。本次主要分享华为云AI团队在视频内容审核、视频内容标签等场景的探索及实践。
AI在视频增强中的技术以及应用
随着全民直播时代的到来,主播对视频质量和创意需求增多,由此产生了视频增强技术的巨大需求。基于360在视频领域的开发经验和技术积累,本次分享为大家介绍人工智能在视频增强中的技术以及相关应用。在算法层面,主要向大家介绍在移动平台中,应用人工智能技术解决人脸,手势,肢体识别等问题,以及相应的技术挑战;其次在应用层面和落地场景中,应用face 贴图,手势特效,人脸美颜,背景抠图等对视频进行渲染和增强,让我们的视频更加生动和有趣。
编码效率和编码复杂度之间是难以调和的矛盾。新的Codec在不断优化算法来降低编码复杂度,成熟的Codec也在通过Pre-Title等技术来降低比特率。本专题将讨论新的编码策略、算法以及相关应用实践。
TBD
KSC265全链路解决方案及应用
2018年,短视频行业日益火爆,移动直播行业走向成熟,众多视频公司在美国或香港敲钟上市。如何进一步提高用户播放体验和降低运营成本,成为视频从业公司急需解决的两个核心问题。通过提供全链路、全终端支持H.265编解码的解决方案,帮助用户成本节省50%,内容覆盖超过30%,金山云和业界同仁一起不断推动视频行业迭代更新和发展壮大。
面向QoE的感知视频编码
近年来,随着智能终端的发展以及在线视频等新型业务的普及,无线网络中所传输的图像视频数据量呈爆炸式增长的趋势,网络带宽供求矛盾日益尖锐。视频编码理论是突破无线网络带宽瓶颈的重要途径之一。传统编码理论一直沿着数字信号处理的思路演进,难以突破“边际效应”。事实上,当前终端计算能力飞速发展,为解决带宽供求矛盾提供了契机。因此,另一种新的研究思路是从人类视觉感知模型出发,利用机器学习的计算工具,在视频大数据驱动下构建人类视觉感知模型,面向人类用户体验(QoE),研究基于视觉感知模型的视频编码关键技术,以智能媒体协同计算换取无线视频通信带宽。本报告将介绍徐迈课题组在面向QoE的感知视频编码方面的工作,主要包括:(1)基于关注点大数据的视频显著性感知模型;(2)基于感知模型的视频压缩方法;(3)基于深度学习的HEVC视频编码优化;(4)数据驱动下的全景视频质量评价与编码优化。
Accelerated Growth of the Visual Cloud Through Open Sourcing SVT-HEVC and SVT-AV1
The world is today witnessing a revolutionary transformation in the areas of media delivery, processing and consumption. Not only the internet traffic is already dominated by the exchange of visual information but also the visual cloud has become of the center of such traffic. Towards a fast-growing visual cloud, with underlying mostly-Xeon-populated homogeneous data centers, Intel Corporation is now leading the way with an Open Source SW-centric strategy. Intel is already open sourcing its SVT-HEVC encoder in Q3’2018, and it also plans to open source the SVT-AV1 encoder in Q2’2019. Such will increase adoption and decrease the cost of HEVC and AV1 by our visual cloud customers, helping them to accelerate the growth of their visual cloud applications. We will discuss briefly Intel’s current visual cloud SW strategy as well as provide detailed deions of the being-open-sourced SVT-HEVC encoder and the soon-to-be-open-sourced SVT-AV1 encoder. We will also present results that will illustrate the performance-quality tradeoffs of each of the SVT-HEVC and SVT-AV1 encoders. Finally, we will invite our visual cloud customers to participate in the development and growth of the new SVT-HEVC and SVT-AV1 Open Source communities.
Point Cloud Compression, Processing and Understanding
Point cloud data has been emerging and popular for various applications including virtual reality (VR), augmented reality (AR), plus many other computer vision problems. Comparing to conventional image/video data, several fundamental challenges need to be addressed, e.g., its large data rate, irregular sampling structure, varying geometric as well as associated attributes. In this talk, we first review recent progress in point cloud compression and an ongoing MPEG standardization attempt. A framework to conduct fast point cloud resampling is then presented based graph signal processing, which could be utilized to scale down the complexity of many point cloud processing tasks. Last, deep neural networks (DNNs) are generalized for native supporting on point clouds as a new type of signal. For one example, a folding-based autoencoder (AE) architecture FoldingNet is introduced with great potentials for point cloud classification tasks. In short, fundamental techniques are highlighted how point clouds could be successful with more efficient compression, processing and understanding.
HEVC标准在客户端上的快速实现方法的研究
从13年HEVC正式成为国际标准以来,业界人士都在为HEVC的普及做着不懈的努力。H265为提升压缩的效率,计算复杂度相对于H264而言增加了不少。因此在一些计算资源受限的设备上(如手机端)实现HEVC的实时编解码能力面临着很大的挑战。本次演进的主旨是向大家分享下手淘在客户端侧实现HEVC实时编解码能力的探索之路。
以质量三维论持续推进腾讯视频播放体验提升
作为承载日播放量几十亿的流媒体移动端平台,腾讯视频持续通过技术体系建设及细节的匠心打磨为每天亿万用户提供优质服务。充当高品质内容资源和高质量用户体验之间的连接器,我们以移动端播放框架的系统梳理为先导,打通前后台的整体升级与提升,逐步建立了「三维论」思想来持续推动我们的工作。此次分享就给大家带来我们在这方面的方法论沉淀与总结,全景式展示腾讯视频的播放体验优化工作。
通过完整的技术服务方案,为企业解决业务中的难点和痛点。
低延时实时视频通信
实时音视频技术的应用场景已经随处可见,如游戏语音、直播连麦等,而对于开发者而言,实现从信息采集、编码到网络传输的高品质实时视频应用依旧存在相当大的挑战。本次分享将从编码算法,实时传输等方面介绍三体云在实时音视频技术领域的难点问题与技术探索。
Why the Live Streaming industry is seeing a rebirth of hardware acceleration and why FPGAs are leading this trend
Live video traffic is growing faster than any other video traffic type and China’s video operators are witnessing this first hand. The volume of traffic shows no signs of slowing down and this is putting pressure on existing infrastructure and associated financial models that providers have relied on since live streaming’s inception. The industry is desperate for a new approach that will enable lower bandwidth requirements, reduced infrastructure costs while simultaneously maintaining the agility that software has provided. Field Programmable Gate Arrays or FPGAs can address these needs and have most recently gained popularity in leading Live Streaming applications. Hardware acceleration for live streaming is very attractive but companies has existing implementations and software that they cannot disrupt or change easily. During this talk Xilinx will highlight will outline how FPGAs can be used in existing applications and future requirements like Video + Machine Learning. We Xilinx has integrated with FFmpeg and engineers can utilize FPGAs in their existing networks without having to make significant changes to their software infrastructure. We will also demonstrate how Machine Learning can be integrated In to FFmpeg enabling acceleration all through command line interface.
基于 WebRTC 架构的直播课堂实践
互联网流媒体的演变经历了3个不同的时代,如今在低延时流媒体充斥互联网的时代,在线教育如火如荼的发展。七牛云在线教育行业总监为你诠释基于WebRTC的直播3.0时代,为所有人带来低延时技术的革新与突破。实际案例分析结合大数据AI,横向打磨教育产品。讲解底层WebRTC的优势,打造共赢共创的行业优势。
极致压缩在腾讯海量视频业务中的技术探索及实践
腾讯作为中国最大的视频服务平台,80%的流量都来自视频,为用户提供越来越高清化内容的同时,带宽的消耗也越来越大。视频压缩处理是视频业务的核心基础,直接影响了用户的观看体验和带宽消耗,本次分享主要围绕我们团队在服务端视频压缩处理上的技术探索进行展开,包括:自主研发的极致压缩内核T265、基于场景的动态内容编码等方面的研发心得、性能水平和实践经验,通过持续的基础优化,支持腾讯海量高清视频业务的发展。
教育行业的WebRTC场景创新
本次分享内容主要分为以下几点:1、WebRTC技术对教育行业带来的场景创新;2、WebRTC技术在教育行业的应用现状;3、如何应用WebRTC技术改变行业;4、对WebRTC技术的未来畅想。
基于混合CDN的低延时直播P2P技术实践
虎牙直播作为中国领先的弹幕式互动直播平台,在业内率先推出了蓝光直播模式。在为用户提供更高画质直播体验的同时,带宽成本压力也越来越大。结合现有的CDN技术,我们团队研发了一套适用于多终端的P2P技术,对原有的在线直播系统进行改造。新系统能够覆盖从标清到蓝光20M的所有码率档位,同时支持H.264/H.265等多种Codec。不仅可以传输音视频数据,也可以传输非音视频实时数据。在保持超低传输时延的同时,大幅降低了带宽成本,具有较强技术创新性。
基于FFmpeg的运动视频分析
随着互联网进入视频时代,用户规模更大、内容质量更高、内容形式丰富、终端更加多样,而网络环境复杂多样,在直播、点播、互动直播、实时音视频等各个场景中,对多媒体传输各个维度也提出了不同维度的要求,如何构建更好的CDN架构体系与调度系统、如何更好的将P2P等技术应用到直播与互动等各个场景,如何使用Quic等技术对传统的使用场景进行体验的改善,如何将网络抗纠错能力与音视频编解码技术有很好的结合,如何将强化学习应用到流控技术中都为多媒体传输技术提出了更多的挑战与方向。 本专题将邀请业界知名多媒体传输架构师,结合一线实践案例与大家分享当下最为优秀的实战经验,共同探讨未来之路。
基于爱奇艺HCDN视频分发网络的开放缓存
为通过Internet向海量用户传输高清晰度、高码率的视频节目,爱奇艺融合CDN和P2P技术,开发出一套广泛适应多终端并融合P2P和CDN的混合分发网络——HCDN (即Hybrid P2P & CDN);综合利用常规商业CDN、PC、OTT盒子、家庭NAS、路由器、以及机房闲置X86服务器等设备的多源化带宽,满足着数亿爱奇艺视频用户观看和下载视频需求;其中加入到爱奇艺开放缓存合作(IOCP)的各类伙伴通过大量的家庭NAS、路由器和闲置X86设备无缝融入爱奇艺HCDN网络开放缓存生态,在宽带中国的时代大背景下,实践了大规模的共享计算带宽和可观的经济效益。
视频服务体验提升
本次演讲将以“视频服务体验提升”为主题,从视频服务、源站存储、CDN网络分发、客户端等角度来分享我们在视频服务体验方面的一些工作;结合大会主题,重点偏向于视频技术、网络技术。
通过跨层和组件的全局优化提高视频会议中的实时质量
视频会议中最常见的挑战是不断变化的网络条件。低延迟要求使得在没有缓存的情况下在非常短的时间内做出反应更加困难。多方会议用例中的另一个重要因素是接收设备的硬件/软件功能和网络连接容量的多样性。对于一个好的会议解决方案,设计不仅应该考虑一个组件,而应该考虑在这种具有挑战性的条件下实现良好视频质量和稳健性的整体流水线。在本次演讲中,我们将介绍我们多年来开发的一些技术,以优化会议中的视频质量。它们涵盖了编解码器算法设计和语法指示,具有被动和主动保护的传输以及客户端/服务器跨层和组件的端到端设计 。
Using chunked-encoded chunked-transferred CMAF to bring low latency live to large scale audiences
In the jungle of solutions for low latency live there are many current options ranging from WebRTC to proprietary UDP protocols to standard segmented media with ever-shortening segments. This session highlights one of these - chunked-encoded chunked-transferred CMAF - as an optimal and practical confluence of both reach and performance. On the technical side we'll investigate the underlying technology, the latency regimes possible, compatibility with legacy players, cachability on delivery networks and player behavior.
跨国应用场景和即构实时网络的调度系统架构设计
随着技术和模式的成熟,中国互联网出海正有趋势变成常态。 有两种出海的模式比较有代表性: 其一、在线教育,把海外优质的外教资源通过实时音视频课堂的方式来服务国内的学生; 其二、视频社交/直播,把在中国经过验证的技术和玩法copy到东南亚、中东和北美等地。 这两种模式带来跨国的应用场景,跨国网络的复杂性、不稳定和高丢包率对即构实时网络的实时性和流畅性提出更高的挑战。 在跨国实时网络中,调度系统的作用十分关键,它不但负责第一公里,节点间传输和最后一公里的调度,还负责就近接入、负载均衡、智能选路和动态路由等重要任务。 在调度系统的全局控盘之下,跨国实时网络保障了连通率、稳定性、实时性和流畅性,为跨国在线教育、海外视频社交/直播等业务的快速落地提供了无形而强大的云计算平台。 本次演讲将会从两种模式的应用场景切入,探讨实时网络调度系统的部署、架构设计、挑战和应对策略。
视频编码质量评价及如何寻找质量甜点的方法初探
本次演讲主要内容分为以下几个方面:1.研究实时视频时间维度质量,并提供了评测时间质量的算法;2.研究实时视频空间维度质量,提出了特定编码器的分辨率、码率和质量之间的规律;3.寻找视频质量甜点,通过数学建模计算特定资源条件下的最佳质量配置(甜点)。
下一代低延时的直播CDN
直播行业快速发展,出现了斗鱼、虎牙等游戏直播,也出现了映客、陌陌等移动直播,对于直播场景,交互需求越来越强,基于RTMP的直播延时在5秒左右,基于WebRTC直播可以做到1秒以内。本讲座主要介绍了下一代低延时直播CDN的关键技术和架构,如何通过技术优化来满足千万级别用户并发访问的架构,让听众能够了解下一代直播系统架构和CDN与RTC产品的交互方式。
医疗、金融、物流、制造业等正在通过多媒体技术并为业务创新带来驱动力。
High scale events – Akamai and 22Tbps streams for the World Cup 2018
The Football World Cup in summer 2018 was the largest sporting event streamed on the internet. This session examines the event through the experience of Akamai, a gobal CDN who supported 55 broadcasters worldwide and delivered record traffic for the event. We shall look the architecture of the service, the technologies used as well as interesting facts and figures on traffic and viewership over the course of the tournament.
三体云视频抗抖动演进之路
从引起视频抖动的根源入手,为开发者们普及视频抗抖动的相关内容以及三体云视频抗抖动解决方案。
AI Powered FPGA-based Video Transcoding for Real Time Applications
Real time streaming and video-based services require high quality and high speed video transcoding capability. Recently, AI powered applications are booming both in academia and industry to further enhance user experience. Integrating the software-based AI applications within the hardware-based framework of video encoders is a nontrivial task and developing an optimized and efficient solution makes it more challenging. Aupera offers a solution to address this need by building an integrated FPGA-based hardware and development video stack for AI-powered real-time applications.
在多媒体行业中,技术只是关键因素之一。专利风险、上下游生态链、技术遗产等都要考虑,如何根据公司业务需求和团队技术水平的采取最佳的技术方案?
Evaluating your Codec Options
Many content distributors use H.264 as their primary, if not exclusive, codec, but the bandwidth savings promised by newer codecs are alluring. Those considering adding a codec must consider at least five options: HEVC, VP9, and AV1, along with RealMedia HD and V-Nova PERSEUS. In this session, codec specialist Jan Ozer evaluates the quality of these codecs, as well as other characteristics like encoding cost, playback support, and ease of implementation.
圆桌:成本与QoE
圆桌:新技术,新产品,新机会
AI、高码率和高复杂度视频处理,给新的ASIC、FPGA等硬件带来了新的挑战。本专题将讨论如何针对多媒体处理做IC设计,以及针对已有硬件的多媒体应用优化。
Trends and Challenges with Multimedia Chip Design for Blu-ray, Digital-TV and Smart-phone SoC
The advance in VLSI technology allows the integration of all the multimedia functionality on a single chip. In the past few years, Mediatek had delivered a high quality single-chip multimedia solutions, and the related products range from Blu-ray player, digital TV to smart-phone. There are many challenges for designing high performance camera, video, graphic and display processing. In this talk, we will present some breakthroughs and therefore achieve better power, bandwidth and cost efficiency. Moreover, we will make some conclusions and draw chip architecture trends for future VLSI design.
FFmpeg 硬件加速的现状与将来
FFmpeg作为最为流行的多媒体基础库之一,最近这两年来,FFmpeg社区在硬件加速方面做出了大量的努力,使得FFmpeg正逐步演化成一个支持跨平台,跨OS,跨硬件厂商的通用硬件加速方案,本报告将综述FFmpeg在主流硬件平台/OS上的硬件加速方案的当前进展,详细讲解FFmpeg基于Intel全开源的硬件加速方案上的种种努力,以及展望FFmpeg在硬件加速的一些其它的可能性。
解密GPU:视频转码与分析加速
本分享作为一份GPU视频处理技术调研报告,探讨了GPU对视频编解码、图像处理和视频分析的支持,提供了详实的性能评测数据,为技术选型用户采纳与部署GPU提供技术依据与路线,并为有GPU编程经验的用户提供前沿、全面的进阶信息。
海量多媒体应用内容安全等方面也提出了更高的要求,同时对于视频的版权的保护也迫在眉睫。
视频媒资保护主要手段解析与实现
本次演讲主要介绍防盗链基本策略及实现原理,HLS / DASH 的加密解密原理及实现,视频媒资泄露路径追寻方法等相关技术,使得前来交流的同仁能够全面的了解从浅入深的媒资保护手段。
视频加密和DRM的实施实践
掀开视频加密和DRM的神秘面纱。介绍视频加密的原理,以及在视频处理全链路中各环节的保护机制。介绍DRM实施中遇到问题和解决方案:如何在谷歌的Widevine、苹果的FairPlay、微软的PlayReady等DRM方案中进行选择。如何兼容各种类型终端的播放。如何优化云端服务的计算和存储等。 目标受众:期望保护有版权、有价值视频内容的研发和产品人员。
爱奇艺版权保护技术与维权实践
本演讲分「发布之前」、「分发播放」、「盗版追踪」、「维权处理」四个环节介绍爱奇艺的各相关技术系统以及具体应用情况,分享相关思考以及可能的挑战。包括爱奇艺DRM、爱奇艺视频指纹、视频水印、网盘联动以及若干实际案例分享,本演讲也会包括一些爱奇艺相关数据的分享,借以分析版权保护技术及其应用对爱奇艺商业模式的影响。
多媒体数字版权保护生态
面向4K/HDR、终端智能化等的持续推进,多媒体数字版权保护越来越成为产业链各方关心的话题。数字版权保护需要依靠技术、管理、法律有机协同才能实现多媒体产业生态的健康发展。ChinaDRM多年来致力于中国数字版权保护生态体系建设,希望通过分享ChinaDRM在多媒体数字版权保护技术体系、标准体系、安全认证体系、版权维权体系方面的工作进展,共同探讨构建开放、合作、共赢的多媒体版权保护生态。
主办方致辞
联席主席致辞:Visionular Co-Founder & Chief Scientist
From VP9 to AV1 and beyond
新一代视频编码标准
AI技术开启视频娱乐新时代
用户导向的音视频体验优化
The company that invented streaming media continues to innovate new video technologies
高效移动端视频处理架构关键技术
微博客户端播放器的演进之路
基于WebRTC的互动直播实践
以我所能,为你而加——腾讯云新一代融合通信平台全接触
腾讯云实时音视频解决方案的技术实现
企业通信中的音视频技术应用与前瞻
视频画质提升-在腾讯视频中的应用
视频质量评价——从裁判到教练
无参考图像视频质量评价
视频编码器对比与选择
AI硬件中的声学问题剖析
音频编码技术特点
娱乐遇见科学
手机K歌的人声伴奏对齐优化实践
微博视频平台架构演进
利用WebRTC给应用赋能——从一个工程师的角度
基于HLS格式的互动直播技术实现超越RTMP的低延时
用WebRTC打造支持复杂交互的实时互动云课堂
互动白板在在线教育上的应用
51Talk音视频技术的思考及非典型挑战
基于Licode的WebRTC全球分布式架构
音乐场景下的实时音频解决方案
微信亿级视频通话的QoS优化之路
视频直播体验优化
如何打造音视频服务的用户极致体验
大数据驱动下的短视频体验优化
利用自动化测试和产品数据化监控保障媒体质量
基于QoE的实时视频编码优化
基于用户体验的视频QoE 优化
魔镜:使用无监督式学习来辨识Twitch用户社区中繁复多样的网络状况
基于英特尔架构的实时视频流分析系统的设计与优化
百度媒体云智能编码技术实践
Boosting Multimeda UX in the AI Era
智能高清赋能金山视频云
互联网时代的智能视频技术探索及实践
AI在视频增强中的技术以及应用
TBD
KSC265全链路解决方案及应用
面向QoE的感知视频编码
Accelerated Growth of the Visual Cloud Through Open Sourcing SVT-HEVC and SVT-AV1
Point Cloud Compression, Processing and Understanding
HEVC标准在客户端上的快速实现方法的研究
以质量三维论持续推进腾讯视频播放体验提升
低延时实时视频通信
Why the Live Streaming industry is seeing a rebirth of hardware acceleration and why FPGAs are leading this trend
基于 WebRTC 架构的直播课堂实践
极致压缩在腾讯海量视频业务中的技术探索及实践
教育行业的WebRTC场景创新
基于混合CDN的低延时直播P2P技术实践
基于FFmpeg的运动视频分析
基于爱奇艺HCDN视频分发网络的开放缓存
视频服务体验提升
通过跨层和组件的全局优化提高视频会议中的实时质量
Using chunked-encoded chunked-transferred CMAF to bring low latency live to large scale audiences
跨国应用场景和即构实时网络的调度系统架构设计
视频编码质量评价及如何寻找质量甜点的方法初探
下一代低延时的直播CDN
High scale events – Akamai and 22Tbps streams for the World Cup 2018
三体云视频抗抖动演进之路
AI Powered FPGA-based Video Transcoding for Real Time Applications
Evaluating your Codec Options
圆桌:成本与QoE
圆桌:新技术,新产品,新机会
Trends and Challenges with Multimedia Chip Design for Blu-ray, Digital-TV and Smart-phone SoC
FFmpeg 硬件加速的现状与将来
解密GPU:视频转码与分析加速
视频媒资保护主要手段解析与实现
视频加密和DRM的实施实践
爱奇艺版权保护技术与维权实践
多媒体数字版权保护生态