使用微信扫一扫分享到朋友圈
使用微信扫一扫进入小程序分享活动
LiveVideoStackCon
大会聚焦在音频、视频、图像等技术的最新探索与应用实践,覆盖教育、娱乐、医疗、安防、旅游、电商、社交、游戏、智能设备等行业领域,来宾将面向3年以上工作经验的音视频工程师、多媒体工程师、图像算法工程师、运维与物联网工程师等分享技术创新与最佳实践。
沉浸 · 新视界
经过近十年的快速发展,多媒体生态正在向精致优化发展,更注重细节、成本,内卷和出海成为压力输出口。一方面,在现有市场及业务竞争仍旧相当激烈的环境下,企业开始更多关注于如何降低成本、追求更高的利润,以及面向用户提供更优质的服务与体验;另一方面,对于不断涌现的更多新的技术、场景,逐步探索并利用其创造更多的业务、产品与商业价值是各企业持续关注的目标。
音视频技术在整体大环境的影响下,近年来呈现出迅猛的发展趋势。一方面,视频技术能力的普及,面向现有业务及场景视频化发展的道路存在相当激烈的竞争,从底层技术革新到针对实际场景的业务逻辑优化。另一方面,随着更多新概念、新技术的涌现,未来从生产到消费音视频在哪些新的业务、产品及场景下能够创造更多新的价值是我们迫切需要思考的问题。
随着移动互联网和智能终端的普及,视频业务出现了全球化井喷式的发展,视频内容也逐渐多样化。5G时代的到来,进一步促进用户对于视频消费场景更高的体验要求,包括更清晰、更流畅、更沉浸。如何平衡用户体验与成本,并在视频技术上不断探索创新,是我们近几年的重点研发方向。此次分享主要结合火山引擎多媒体技术在字节系应用中的实践与探索,分享在用户需求不断升级变迁的大背景下,如何站在用户视角衡量并推动技术演进。
在技术、需求与产业链的共同驱动下,人们也从继UGC、PGC后,迈向了AIGC这个新兴的内容生产时代。但AIGC并不是一门单一的技术,它的本质是利用AI赋能技术而形成的一种高自由度且低门槛的内容生产能力,而这种能力将服务于各类场景中的创作者与生产者。
1、面向新摩尔定律时代,AI技术对音视频内容的影响;
2、AI对音视频生产力的革新,需求构建怎样的基础设施与算力平台?
3、AI智能化应用与构建实践。
大语言模型LLM和其他AIGC的技术发展,会给音视频行业带来哪些变化呢?我将会盘点一些很不错的硅谷流行的AIGC应用,然后进行技术+商业的一些思考,分析音视频结合AIGC在未来的创新创业机会所在。
数字人作为AI能力集大成者,涉及计算机视觉、计算机图形学、语音处理、自然语言处理等技术,正在金融、政务、传媒、电商等领域应用越来越广。本报告主要介绍华为云在数字人领域当前的主要进展,包括2D数字人驱动、3D数字人建模、绑定、驱动、情感数字人生成等,同时介绍数字人领域的一些挑战。
本次分享将分为三个部分,第一个部分介绍华为云云原生数字人生产管线介绍及业务规划;第二部分介绍华为云2D数字人技术进展介绍,如何解决口型驱动、肢体编排、移动场景驱动等问题;第三部分介绍华为云3D数字人建模、绑定、驱动等技术的进展。
音视频技术作为企业数字化转型中的关键技术与能力之一,诸如实时通信、社交互动、高清视频等技术为众多传统行业在生产、管理、服务提供与维护等各方面提供了很大助力,完成对生产效率以及服务质量等多方面的升级。
数字作为企业的核心竞争资产,已经成为社会经济成长的新动能;人工智能作为引擎,继工业革命后正推动着又一次伟大革命。各产业纷纷开启数字化、智能化和无人化进程。在技术变革大潮中,是否存在一定的通用模式?可否让产业间相互借用,避免浪费,避免重复投入?以智慧海事(三部曲)作为案例,通过模拟器、智能辅助、无人船对数字化、智能化、无人化进行相关模式的尝试;通过相关产业的横向复制进一步探索和实践;通过通用、共性内容的梳理,建立开放、开源的平台和体系,共同推进数智化进程。
随着自动驾驶技术的发展,矿山自动驾驶技术已经逐渐成熟。在智慧矿山的建设中,音视频技术是非常关键的一环。它的应用主要包括以下几个方面:
1、远程驾驶
通过音视频技术,可以实现对矿区车辆的超低延时操控。在智慧矿山的实际运用过程中,虽然自动驾驶已经可以解决百分之99的问题,可是最后百分之一的问题还需要通过远程驾驶来解决,从而实现整个矿区作业面的无人化,进一步提高生产效率、降低生产成本、提高生产安全。
2、实时监控
通过安装摄像头和麦克风等设备,可以实现对整个矿区的实时监控。在矿山生产过程中,往往会出现一些突发事件,这时候及时发现问题就显得至关重要。通过音视频技术,可以及时发现这些问题并进行处理,从而确保矿山生产的正常运作。
3、辅助定位
定位可以说是自动驾驶车辆最为重要的一个环节,在有障碍物遮挡或者信号不理想的情况下,车辆的定位往往飘忽不定,此时通过第三方视角的摄像头来对车辆进行特征识别,辅助定位,就显得尤为重要了。
随着云计算与网络基础设施发展,给云端渲染提供了更好的发展机会。华为云长期在云端图形渲染方向进行探索与研究,主要有3个方向:1、自研图形渲染引擎,帮助企业在特定场景下获得实时与离线高质量渲染。通过自研引擎多视角共享,提升并发效率。2、面向工业领域渲染,解决可视化效率与构建实时真实感渲染。3、通过AI加速渲染,提升动漫渲染效率,帮助现有3D渲染程序上云。
伴随超高清视频时代的开启,热点赛事、晚会直播等特殊场景的巨大流量对业务的带宽储备、节点资源、流量调度和安全保障能力提出了新的挑战。 火山引擎边缘云基于抖音世界杯、央视春晚直播、京东618等百亿级流量实践,构建了完整支撑超大规模流量业务架构及全链路技术服务保障体系,实力护航超流量业务平稳落地。 本专场将系统化解读火山引擎边缘云在应对“超大流量”、“极致体验”、“全路径高可用”等挑战中,沉淀的大规模流量调度体系、云网一体化能力、云原生技术底座及多云资源管理实践。
分享基于字节跳动数百Tbps级别CDN规模实践打造的多云CDN管理平台。在世界杯等大规模流量突发的情况下,作为抖音集团业务核心流量承载的基础设施,在运维效率、质量可观测、调度容灾、成本可观测与优化等多方面都遇到了诸多挑战。本次演讲将介绍火山引擎在多云应用架构下的CDN运维管理解决方案,如何对不同CDN服务商实现资源的统一纳管、流量调度与智能运维等服务,解决多云CDN场景下的效率、容灾、质量、成本等难题。
分享抖音集团大规模业务流量场景的特点和挑战,通过流量的标准化治理、端内调度能力、云端内外网调度解耦、全局流量规划等关键技术,构建云边端协同的流量调度控制体系,为春晚、世界杯等关键活动提供有效保障。
分享火山引擎边缘云网络产品与技术;围绕边缘云海量分布式节点及上百T网络规模,结合边缘云快速发展期间遇到的各种问题/挑战,介绍火山引擎边缘全球云网基础设施,融合开放的云网技术/产品体系,及基于边缘网络原生的全域联网加速解决方案。
分享火山引擎基于云原生构建的边缘计算云基础设施服务及技术架构。火山引擎边缘计算覆盖全国500+边缘节点,全网储备100T以上带宽,承载视频直播、游戏娱乐、智慧交通、影视特效等多场景客户业务。本次演讲将介绍边缘计算场景下的云基础设施挑战,基于云原生的技术架构解法和优势,大流量场景业务落地经验及未来演进趋势。
新数智时代,云和AI在走向深度融合,以云计算为基石、以AI为引擎的云智深度融合俨然成为行业共识。以“云智”为支撑,视频云在拓宽音视频应用的边界,各行业亦对视频云技术提出了更多元、更极致的要求。 这其中,作为底座的传输网络、作为内核的智能编码、驱动创新的智能媒体服务,加速应用的音视频终端,方为视频云赛道演进的重心之心,助力加速音视频的数字化转型和全智能升级。 阿里云视频云的此次专场,将从面向未来的流媒体传输网络、智能化编码架构、媒体服务重组与进化、媒体开发终端套件四大维度,深度呈现阿里云视频云的全面进化和全智能演进,以云之普惠、AI之智慧,加速音视频数智化创新落地,打造“云智新生”的新景象。
随着产业数字化的进程加速,各行各业也需要音视频相关能力进行数字化转型,但面临着音视频能力复杂,接入门槛高等难题,如何加速行业音视频数字化进程,拓宽音视频应用的边界,成为音视频行业要解决的问题。阿里云视频云推出MediaBox一体化终端套件,提出解决这个问题的方案。
本次分享将基于音视频行业场景化的趋势,从音视频终端SDK、低代码开发、生态合作等多层次深度展现MediaBox全景,分享阿里云视频云在行业音视频数字化方面的实践和思考。
随着音视频在各行业不同业务的应用场景越来越多,采集汇聚、媒体处理、生产制作、媒资管理、分发消费等媒体服务技术面临如何灵活支持多业务的问题。同时视频作为信息传播的媒介,其量级也与日俱增,这就面临如何高时效高质量对视频进行规模化创作、处理加工、分发消费的技术挑战。
本次分享将展现媒体服务的创新架构设计,通过将媒体原子能力进行打散与重组,和对媒体引擎与服务进行统一“顶设”改造,实现媒体能力的灵活编排,并融合AI及AIGC能力满足业务的高时效和高质量,从而演进到全智能时代。
在音视频行业,始终面临更高清、更实时的编码需求,与此同时,更多应用场景(办公、工业、安防…)迸发的视频形态,对视频编码的“多维度适应能力”提出更大的挑战,如:编码优化的目标不再仅仅考虑传统的主客观质量、复杂度、时延等维度,还有诸如与AI处理能力的友好性、多平台下性能的适配性等,这些都推动编解码架构“从传统走向更智能更兼容”的方向演进。
本次分享将从编码与增强方向的业界趋势出发, 围绕多目标编码能力、多标准自研编码器、多维度视频增强处理等角度,展开阿里云视频云智能编解码架构的原子能力及研究实践。
从直播到连麦,从音视频通讯到云渲染,音视频应用对网络传输的要求越来越高。阿里云视频云基于全球“云+边”的异构节点,构建全球覆盖的、超低延时的、全分布式下沉的流媒体传输网络,同时,通过统一架构,以一张网同时支持直播、低延迟直播、实时音视频通讯、数据通讯、云渲染、远程控制等全场景音视频传输需求,满足“多元融合”的高阶网络传输。
本演讲将介绍MediaUni多元融合流媒体传输网络的设计理念,并探讨如何解决媒体传输中针对延时、质量、成本、多业务支撑等众多关键性问题,以及流媒体传输网络发展的未来之境。
随着全真互联时代的加速发展,音视频技术正在向多元化的行业应用持续进化。以AIGC为代表的AI能力、Apple Vision为代表的MR/XR、MV-HEVC 3D视频格式以及8K 120FPS实时编码等技术正迅速崛起,随着这些技术的飞速发展,物理世界与虚拟世界的壁垒不断被打破,世界快速进入一个虚实共生的时代。对此,企业将如何更好的满足各场景终端用户对沉浸式、超高清、低延迟等需求,为用户打造极致的音视频体验呢? 本次腾讯云音视频专场将重点分享视频实时编码处理、AI画质修复、音视频质检、实时云渲染/VR等技术融合所带来的音视频新突破与实际案例应用,带领大家共同探索音视频技术的无限可能,见证技术发展所带来的改变与机遇。
随着弹幕互动直播、多人互动直播等相较传统直播更创新,更具互动性的新型直播方式的兴起,也带来一些亟需解决难点,如:弹幕直播对主播设备有很高要求、实时互动无法突破连麦、直播礼物特效受限于用户终端设备性能、直播间无法所见即所得录制等。本次分享将介绍腾讯云实时云渲染基础能力与直播结合,尝试探索提供当前新型直播一站式解决方案以及相关实践。
海量视频数据的质量监控是多媒体厂商不得不面临的棘手问题之一,贯穿整个视频的生命周期,从拍摄、采集、编码、封装,到传输、解封装、解码、渲染播放都有可能引入质量问题。
腾讯云媒体质检提供全链路自动化媒体质量监控平台,支持离线文件、直播流广泛的媒体格式诊断和设备兼容性分析,针对画面内容覆盖黑白边、抖动、花屏、响度异常等20多种异常检测,兼顾无参考画质打分,为QoS和QoE相关指标保驾护航。本次分享将介绍腾讯云媒体质检的差异化能力,以及在相关细分垂直场景的技术优化实践。
随着视频直播不断向着超高清、低延时、高码率的方向发展, Apple Vision的出现又进一步拓展了对3D, 8K, 120FPS的视频编码需求,视频的编码优化也变得越来越具有挑战性。 在本次分享中, 我们将重点介绍腾讯云在V265/TXAV1直播场景下的优化进展, 包括腾讯云对8K、10bit、多视点、快直播等各类实时编码业务的能力支持,以及在这些应用中所实施的技术细节。
随着观看设备分辨率的提升以及国家对超高清视频规划的发展,4k/8k超高清成为视频行业的热点。然而,超高清片源稀少,视频编码高算力需求以及高码率对传输带宽的压力,这些都让超高清推广困难。本次分享将介绍如何优化转码系统架构、编码内核、8K场景下CPU/内存的瓶颈、分发调度优化策略, 以实现使用低成本的硬件设备完成超高清产业升级。
客户端作为直接面向用户大众的接口,随着需求与技术的不断进步,如何借助新的技术实现更完美的体验与更大的价值是需要我们去探索和发现的。本专题将围绕浏览器、移动端技术,探讨在客户端用户体验与性能优化方面新技术的发展给音视频业务及产品开发带来了哪些新的可能,以及可落地的新技术与其在规模化实践中的经验。
越来越多的用户喜欢分享视频,普通的用户需要一个简单易用的视频编辑工具来剪辑视频内容。目前的视频剪辑软件对硬件要求很高,需要配置很高的电脑。但是很多初学者的电脑配置一般,要么无法使用,要么使用起来非常卡顿。咔嚓的低依赖和高性能可以在低配置的电脑上非常流畅地编辑视频。咔嚓通过1. 自研UI框架,减少内存使用,增加操作的流畅度。2. 尽量减少使用开源模块,自研开发提升性能。3. 优化内核线程间的任务调度,充分利用资源,提升相应速度。4.充分利用硬件的能力,减少CPU和GPU之间的数据传递。5. 结合AIGC,自动产生草稿,提升编辑效率。这样咔嚓能够在十几年前的电脑上,非常流畅地编辑视频。
本次分享将分为四个部分。第一部分介绍沉浸式XR通信与交互的现状,包括终端侧XR和云化XR的特点及问题分析。第二部分介绍在轻量化WebAR上的探索与研究进展,解决计算资源有限的移动Web上提供XR通信与交互服务的难题。第三部分针对沉浸式全息通信与XR交互服务面临的海量数据融合、实时传输与交互的难题,介绍了当前的相关进展。第四部分介绍对沉浸式云化XR的新需求与挑战的一些思考。
从2019年初在线实时K歌玩法开始兴起,提出了许多不同于直播、会议、语聊房、离线K歌场景的新要求,像是音质、耳返、延迟、实时对齐等等。撕歌作为一个创业团队,如何在有限的资源下把握住K歌体验的关键,同时想办法降低成本,是一个比较大的挑战。
本次分享将分四个部分,第一部分介绍撕歌在线K歌的技术方案选型,主要考虑 了哪些因素,实践中有哪些优势;第二部分介绍撕歌在迭代过程中都尝试过哪些技术方向来优化体验;第三部分介绍几种合唱方案,以及在撕歌中的应用尝试;第四部分扯点闲篇,聊聊技术优化如何变成数据指标,方便向上管理,同时也聊聊业界常见的卡房卡麦现象,以及可以如何处理。
音视频的大时代已经到来,从过去文字、图片信息通信,到现如今人们生活中所常见的短视频、实时互动直播,再到元宇宙所带来的的对在线互动、社交娱乐的更多全新想象,其背后所代表的的是音视频技术在当前行业市场,以及未来更多产业下的商业探索。
随着实时音视频技术的线上互动交流、协作、游戏娱乐等场景的快速发展,对音视频服务整体包括稳定性、交互能力、延时、体验质量等方面都提出了更高的要求。这在系统架构设计及演进的过程中,需要技术者对音视频编解码、传输、能力实现、服务保障等全方面的优化考量。
当一部新剧上映时,如果该剧的演员能够以直播的形式陪着用户一起看剧,将是一种多方共赢的体验形式。对用户来说,在追剧的同时可以追星;对明星来说,对于自己和参演的剧集能起到宣传的效果;对于视频媒体平台来说,则能丰富产品体验,也提升了用户粘性。
爱奇艺本身已具备成熟的传统视频直播基础架构,足以支撑千万级并发的直播场景。但在明星陪看场景下,需要引入外部的实时音视频互动技术。如何将第三方的实时音视频互动服务与爱奇艺自身的基础架构有机结合,发挥各自的优势,以最低的成本达到预期的效果,将是本次分享的主要内容。本次分享将介绍明星陪看直播的整体技术架构,以及在剧集版权管理、复用已有基础设施、高可用性保障等方面的考虑。此外,也会介绍前端在美颜集成、多路音频播放等方面遇到的一些挑战,以及相应的解决方法。
随着B站直播业务的快速发展,各种大型直播活动对于转码服务的稳定性、灵活性都提出了越来越高的要求:大型赛事直播中需要解决第三方的源流产生波动、断流等问题时转码断流导致的体验降低、带宽上涨;大型晚会直播中需要随时进行点直播内容切换、广告插入。B站云导播台系统较好地解决了上述这些问题,自2021年起已经用于B站所有直播大型活动中。
本次分享将分为三个部分,第一部分介绍B站直播业务对于大型直播活动是如何进行保障的;第二部分介绍直播保障中的核心服务云导播台的架构和实现方式;第三部分介绍在直播业务不断拓展的过程中,云导播台跟随业务不断成长迭代出的特化能力。
随着直播业务的快速发展,金山云的直播架构也从一开始的简单架构到逐渐复杂的架构演进。在这个过程中充满了对稳定性、性能、质量等方面的挑战。特别是伴随着边缘云和边缘计算的同步发展,将为直播和和其基础设施提供更多的选择空间,这些都对直播和边缘计算业务提出了挑战。
本次分享将分为三个部分,第一部分介绍金山云直播架构演进,直播架构如何从0到1再到10完成几个阶段性的跨越;第二部分介绍在直播过程引入的传输技术的讨论;第三部分介绍直播和边缘计算的结合,如何强化直播的基础设施能力以及算力弹性能力,为直播提供更好的成本与性能体验。
流媒体行业在内卷,企业不仅要考虑如何在竞争中脱颖而出,还需要考虑降本增效的问题。行业内已经存在了许多提升用户体验和优化设计的功能,包括:多视角,VR/AR和AI等,但无论如何,从好的方法到实际用户服务之间存在一定程度的困难。
从用户需求的角度来看,流媒体内容必须有高度的吸引力和个性化定制,否则他们不愿意花时间观看或者购买会员。本次演讲分三个部分,第一个部分说明”创多窗“的概念,然后解释通过创新的Multiview多视角方案可以提高流媒体的个性化能力。第二部分说明“解压平”的概念,是指备用切片FOV的传输方案,可以给用户最沉浸的直播体验,因而提高用户的参与度。最后一部分要针对业务层面:内容平台怎么可以使用上述的下一代流媒体方式改善KPI和提高收入。
为应对互联网日益增长的加速需求、复杂的网络环境以及多种多样的视频业务,技术者们不断探索着如何达到准确与极低延时并存的网络传输能力。并在应用层流控、传输层协议设计及跨层优化等方面也在积极探索,为用户带来更好的网络体验。
随着流媒体技术、虚拟化技术和云技术的发展,也伴随着疫情等客观因素,远程制作的应用越来越广泛,虚拟化及云端制作也逐渐开始起步,一种全新的转播模式也在被世界各大重要赛事所接受,所认可。远程制作和虚拟化云端制作到底能给客户带来什么,是制作质量的提升,类似于HDR,4K,8K,三维声给我们带来的全新的视听体验,还是制作成本的大幅减少,这是值得讨论的。
本次分享分三个部分,第一部分介绍SMT的几个重要的远程制作案例,第二部分介绍虚拟化及云端制作的一个初步尝试安利,最后是对未来融合制作模式的一些思考。
随着公共互联网愈加复杂,best effort的基本原型已无法满足越来越多的有QoS保障需求的实时内容交付服务。而专线、卫星等传统解决方案存在部署成本高、周期长等问题,无法快速响应各类需求。
为提供低成本、高可靠的传输服务,下一代IP网络传输解决方案的领导者Caton推出了Caton Media Xstream平台。该平台通过基于AI的智能路由算法以及高可靠、高质量的传输策略,在低成本的公共互联网上实现了广播级的传输标准,SLA超过6个9。
Caton Media Xstream是基于全球分布式云架构Caton Cloud,支持混合网络部署、高效扩容,不仅实现了流量的高效连接和转发,同时支持了快速部署,实时流量监控等功能。Caton Media Xstream建立了自己的大数据平台。基于大数据技术,平台通过网络实时数据的挖掘和学习,不断迭代优化智能路由算法,提高传输性能。
当前国内医疗资源分布不均,医疗协作是解决医疗资源分布不均、提升有限资源效率和价值的重要途径,随着“分级诊疗”的推行,远程手术示教、视频会议、跨域医学培训等协作方式,可弥补城乡间的医疗资源差距,这对超高清实时音视频通信技术产生了强烈需求。网易云信面向医疗行业提供了 4K/8K 超高清实时音视频通信的能力,并与多家业内知名的医疗软硬件生态伙伴深度合作,形成了场景化的解决方案,已在多家公立三甲医院的远程医疗、远程手术示教场景成功落地。
本次分享主要分三个部分,第一部分介绍行业需求及网易云信针对医疗行业提供的解决方案及应用;第二部分介绍云信的4K/8K RTC超高清音视频通信技术的实践,包括技术实现及优化;第三部分介绍4K/8K RTC在远程医疗总应用情况。
自适应流媒体视频传输是一项重要的网络应用,通过动态选择码率档位提高用户观看体验。传统的启发式码率自适应算法由于固定参数与传统建模的限制,逐渐被数据驱动的智能码率自适应算法取代。该算法通过构建模型辅助传统算法、决策或生成智能策略,显著改善了体验。然而,网络时变性、异质性与用户需求多样性等问题促使智能算法需依托闭环系统持续优化性能。
本报告围绕高效训练模型、降低执行开销、快速适应环境和满足多样需求等四个方面,对自适应视频流智能传输的核心部分——服务端训练与客户端执行进行了优化,改善了各种场景下的用户体验,提升了智能算法可行性。第一部分介绍了基于终身模仿学习的智能码率自适应优化算法,提升了服务端的模型训练效率。第二部分介绍了结合启发式算法机制的低开销智能码率自适应融合方案,提高了性能并降低了整体开销。第三部分介绍了基于元强化学习的智能码率快速自适应方法,通过快速优化策略提升了用户体验。第四部分介绍了基于自我对弈理论的需求驱动智能自适应视频传输算法,满足了多样化的用户需求。
从跟跑到领跑,中国超高清视频编解码技术已走过20个年头。从开始制定不同的视频编解码标准,如H.264/265、AV1、VVC,再到基于AI的视频编码技术,在看似简单的对视频数据大幅压缩编码、传输、解码还原清晰度的过程中,每一次小小的提升,都是一次大大的进步。面临越来越复杂的算法,新视频标准对算力的需求指数级增长,对GPU、ASIC等硬件的依赖度也与日俱增。
主要介绍 AMD Alveo™ MA35D 视频加速卡的基本架构和功能,以及基于 MA35D 转码卡在各个领域的视频解决方案中的应用。
低复杂度增强视频编码(LCEVC)是MPEG组织最新定义的一种视频编码格式。
LCEVC 可以和任何现有视频编码技术共存,提供更低码率以及减少编码复杂度。根据具体视频编码格式, LCEVC可以在保证同等视频质量的前提下减少20% – 50% 视频码率。
对于一种新的视频编码格式的广泛商用,通常需要新的芯片设计,实现和集成到主流终端设备。LCEVC当然可以硬件实现,已经有一些公司开始提供LCEVC芯片设计方案。
拥有更强大处理能力的电脑和智能手机已经可以软件实现LCEVC解码,即便在分辨率和帧率方面有所限制(当然对于小屏幕的智能手机这种限制可能并不是大问题),然而耗电量是一个需要解决的问题。为了在大屏幕上支持LCEVC,无论是电视内置还是通过机顶盒,芯片级硬件解码都是必须的。
V-Nova已经实现了几种创新的LCEVC硬解码,通过利用终端平台提供的硬件模块和处理资源实现了安全有效的驱动层解码,这种方案能帮助终端设备制造商在现有设备上实现LCEVC解码,以便给流媒体服务运营商部署这种能大幅度减少传输成本的新MPEG标准。
本文会介绍LCEVC技术梗概以及两种V-Nova实现的基于现有SoC的LCEVC硬件解码方案。
感知无损压缩PLC(Perceptual Lossless Compression)标准是AVS工作组在视觉无损质量等级视频图像压缩领域的第一次尝试,针对8K超高清视频信号高速传输制定的“超低延时、硬件友好、主观无损”轻量级图像压缩标准。2023年5月标准技术方案定稿,发布FCD 1.0文本。本次演讲将介绍PLC标准技术与应用。
随着生活方式及习惯的变化,人们对于媒体内容与体验有着更高的需求与期待,如何提供更高质量的视频质量和沉浸式的音视频体验成为了新一代多媒体发展的挑战,人工智能、计算机视觉、云计算等技术的发展和突破这些挑战提供了更多的机会与可能。
随着人工智能技术的发展,企业客服的模式也在发生变革。传统的客服模式往往是人工坐席接听电话或在线客服回复消息,但这种模式效率低下,容易出现人为失误,不符合现代企业对高效、精准的客服服务的需求。
本次分享将分为三个部分,第一部分介绍传统客服模式存在的痛点,以及小Go智能外呼机器人是怎么解决这些问题的,第二部分介绍相较于传统客服场景,小Go的优势与亮点,第三部分介绍技术特色。通过以上三个部分的分享,将为大家全面介绍小Go智能外呼机器人在传统客服场景中的创新应用和技术优势。
ChatGPT爆发之后,全球范围内掀起了大模型热潮。包括微软、谷歌、百度、阿里在内的一众科技巨头加速大炼“大模型”。数据是大模型构建三要素之一,是决定模型智能的关键因素。目前国内模型训炼数据依然存在很多挑战,如语料库稀缺、数据质量低和数据合规等。
本次分享将主要分为四个部分,首先介绍目前大模型的发展现状以及目前训练数据的痛点,之后介绍国内中文数据与ChatGPT所用的数据进行对比,第三部分将会通过实验介绍对话式数据在大模型训练中的表现能力,最后介绍如何打造数据为中心的MLOps,助力大模型构建以及落地。
随着小红书视频业务和短视频播放的规模化增长,如何有效地提升用户体验质量同时降低视频带宽成本成为一个重要的技术优化目标。端侧超分是一种有效的画质提升及带宽节省技术,然而端侧计算资源及性能约束限制了高级超分算法的落地。此外,如何规模化地评价超分后视频质量从而最大程度保障和量化用户体验质量也成为一个待解决的问题。
为应对上述挑战,小红书音视频架构算法团队开发了基于人眼感知质量的端云结合超分框架,通过云端视频处理有效补偿并提升端侧超分效果,利用基于AI的无参考视频质量评估指标实现与人眼视觉一致的质量评价,为云端画质分析和处理以及大规模量化用户体验质量提供了关键支撑。整体方案实现端侧超分效果可量化、集成高覆盖、带宽高节省。
智慧家庭作为一种新的生活方式,受到越来越多的关注,其核心在于人们渴望从繁琐的家居操作中解脱,把更多精力投入到生活中的精彩和感动中。
对话陪伴,家庭安防,家庭教育,家庭健康,家庭娱乐等模块是智慧家庭的重要组成部分,其中涉及到自然语言处理,计算机视觉,语音处理等多模态复杂AI理解和生成技术,为解决人们对智能要求的不断提升,需要利用大规模预训练大模型所涌现出的通用智能,并针对性的做场景化微调适配;具体的,我们利用千亿参数的大模型,并结合家庭场景进行指令微调和对应算法优化,赋能了亿级的智慧家庭用户,其中智能对话,智能安防,家庭教育等覆盖率达到了千万级以上;
本次分享分为4个部分,第一部分主要是介绍家庭场景的核心业务,同步引入算法应用的关键问题,第二部分主要是回顾行业大模型的发展现状和主要算法架构,第三部分是我们在家庭场景下大模型的关键技术研发,第四部分主要是大模型的应用实践
随着多媒体和通信网络技术的不断更新,以及新型音视频应用场景的不断涌现,音频处理技术向着更加智能化和沉浸化的趋势发展。人们对音频的听觉体验要求也逐步提高,各类场景下的声音体验更加清晰,并呈现声临其境的沉浸感。
随着音乐制作设备成本的不断降低,音乐产业正在经历一场前所未有的变革。为了在这个新的音乐时代中保持青春活力,我们决心打造一种新型音乐创作引擎,利用最先进的AI技术来赋能音乐的创作和体验过程。我们的愿景是将音乐从一种静态的媒介转变为一种具有实时交互性和可感知性的元素,让用户在创作过程中享受更加丰富的音乐创作体验。然而,复杂的技术壁垒和研发门槛使我们面临着诸多挑战。
本次分享将以音乐流媒体平台在音乐AIGC方面的探索为主题,深入探讨天音TY-AIGC内容生产引擎的架构设计思路。在第一部分,我们将从国际主流的音乐生产解决方案及其技术难点入手,详细介绍如何将云音乐生态与AIGC相结合,设计高可用音乐生产解决方案。在第二部分,我们将深入挖掘AIGC的关键技术线和技术点,包括架构设计、算法优化、音频处理和数据管理等方面的技术细节。最后,在第三部分,我们将分享TY-AIGC技术落地的具体产品和业务成果,为音乐产业的AI数字化升级贡献技术成果。
随着音乐制作设备成本的不断降低,音乐产业正在经历一场前所未有的变革。为了在这个新的音乐时代中保持青春活力,我们决心打造一种新型音乐创作引擎,利用最先进的AI技术来赋能音乐的创作和体验过程。我们的愿景是将音乐从一种静态的媒介转变为一种具有实时交互性和可感知性的元素,让用户在创作过程中享受更加丰富的音乐创作体验。然而,复杂的技术壁垒和研发门槛使我们面临着诸多挑战。
本次分享将以音乐流媒体平台在音乐AIGC方面的探索为主题,深入探讨天音TY-AIGC内容生产引擎的架构设计思路。在第一部分,我们将从国际主流的音乐生产解决方案及其技术难点入手,详细介绍如何将云音乐生态与AIGC相结合,设计高可用音乐生产解决方案。在第二部分,我们将深入挖掘AIGC的关键技术线和技术点,包括架构设计、算法优化、音频处理和数据管理等方面的技术细节。最后,在第三部分,我们将分享TY-AIGC技术落地的具体产品和业务成果,为音乐产业的AI数字化升级贡献技术成果。
现有的语音合成系统大都使用频谱作为中间变量,基于文本输入通过回归模型预测频谱系数,继而基于频谱系数,使用声码器还原语音信号。近年来,面向语音信号的自监督学习取得了巨大成功,语音自监督模型提取的离散表征也开始尝试用于语音合成,将语音合成中的回归任务,转换为分类任务,并取得了很好的合成效果。
在本次分享中,我们将介绍基于离散表征的语音合成的一些最新工作进展。首先我将介绍一个基于语音自监督模型为中间表征的语音合成模型:VQ-TTS,通过将频谱系数替换为离散特征作为中间变量,其在语音的合成质量上取得了相比基于频谱系数作为中间变量的语音合成系统更好的性能。同时我们将分享两个最新的基于离散表征的语音合成模型,这两个模型都支持基于几秒目标说话人的语音数据,进行高效说话人克隆的能力。一是基于微软Vall-E的扩展工作,相比Vall-E模型只需要1/10的参数量,取得了和Vall-E模型相当的模型性能;另一方面,通过VQ-diffusion模型来直接预测VQ特征,提出了uniCATS模型,在合成速度和性能上都达到了SOTA水平。
针对近年来元宇宙、AIGC、大模型等关键技术发展,分享科大讯飞在AIGC技术方上,围绕音频、视觉、认知三大领域的技术布局和探索研究,以及在相关行业的创新应用案例。期待与业界共同探讨,利用人工智能的力量建设美好数字世界。
作为新一轮互联网大变局的核心,元宇宙可能重塑产业生态,形成与现实世界相对应的虚拟世界,是未来社会变革的重要力量。这也引发了众多互联网公司争相入局,虽然目前仍处于发展的早期阶段,但政府也开始对此高度重视并出台了相应文件,相信通过技术的不断发展,元宇宙的真正实现只是时间问题。
区块链融合边缘计算和GPU算力已经成为元宇宙基础设施的核心需求,其关键是打破云、网络的边界,在基础架构、底层设施和资源调度等方面趋于一体化。基于这种全新形态,将模糊虚拟现实的边界,实现数字世界和现实世界的融合。
人类对美好体验的追求是永无止境的。在多媒体应用领域,特别是在AR/VR场景下,如何让人们获得更加沉浸的体验?仅仅在视觉和听觉两个方向努力是不够的,还需要触觉、嗅觉、味觉… 本次分享侧重于触觉的介绍,而行业内对触感的应用价值和触感品质的认知是不够的,相关标准的缺失也阻碍了技术的快速普及。
本次分享分三个部分:第一部分介绍触觉的生物学原理、应用价值以及触感设计和表达方法;第二部分介绍触感的软硬件生态现状,以及相关的应用开发技术,力求全平台覆盖;第三部分介绍触感相关国际标准的最新动向和进展。通过以上三个部分的内容,期望大家对触感开始有基本的认知,认可其价值,并且能够快速上手,共同促进应用端的繁荣。
元宇宙时代,大规模实时3D交互的需求越发重要,然而传统的3D实时交互引擎/游戏引擎在这一方面面临着巨大的挑战。如何实时地处理大规模的数据、交互与渲染是游戏引擎进入元宇宙的第一个课题。
本次分享将会介绍Unity针对元宇宙的需求提出的云原生分布式运行时解决方案。首先介绍Unity为解决大规模渲染而提出的云原生分布式渲染解决方案,以及为解决大规模数据计算而提出的云原生分布式计算解决方案;其次将介绍Unity分布式运行时在实际产品和开发中产品中的实际应用与效果展示;最后将介绍Unity云原生分布式运行时的产品路线和未来规划。