使用微信扫一扫分享到朋友圈
使用微信扫一扫进入小程序分享活动
RTE大会(原“RTC大会”)创立于2015年,是亚太首个、迄今为止规模最大的实时互联网技术盛会,覆盖200+行业场景、累计影响200w+开发者。2020 年,实时互联网大会名称从「RTC 大会」升级为「RTE 大会」,大会主题也从技术探讨逐步升级为以技术为内核、聚焦更广泛场景的行业峰会。
今年是RTE实时互联网大会十周年,推出辐射实时互联网全生态的论坛及周边活动共计20余场,覆盖大模型、AIGC、出海等时下最热门的话题讨论。参与大会,你还有机会获得由声网主编,机械工业出版社出版的《读懂实时互动》图书、《2024泛娱乐出海攻坚地图》以及RTE全场景AI图谱。
赵斌,声网创始人兼CEO。2014年创立声网,开创了全球实时互动云服务。2020年6月26日,声网母公司 Agora, Inc.成功登陆纳斯达克,股票代码 为“API”。声网服务的企业遍布社交、教育、IoT、金融、医疗等20余行业,200多种场景。在此之前,赵斌也曾参与两家美国纳斯达克上市公司的创立。1997年,作为创始工程师之一参与WebEx (网讯) 创业。2007年,作为CTO参与YY (欢聚时代)创业。
钟声,声网首席科学家、CTO。北京大学数学系学士和博士。曾任海信芯片总经理兼CTO、博通资深主任科学家、华亚微电子技术副总裁。拥有 100 余项技术发明专利。曾是 MPEG/JVT 与 INCITS 主要成员,并发表了 30 余篇论文,主要从事图像处理、视频编解码、计算机视觉、深度学习、芯片架构设计等方向的研发。
北京邮电大学硕士毕业,于2020年6月加入声网。2012年至2019年,他曾在蓝汛ChinaCache任创新产品事业部总经理、研发副总裁、代理CEO等多个高级管理职位。此前,他曾于2006年至2012年任职于爱立信中国,参与 Ericsson当年全球最大MMSI项目ISP。
曾国洋,面壁智能联合创始人&CTO。2015 年 NOI 金牌进入清华大学计算机系,曾获得清华大学挑战杯一等奖、首都大学生挑战杯一等奖、智能体大赛一等奖等。于 2017 年加入清华大学自然语言处理实验室,从事自然语言处理研究工作,在 2020 年以团队骨干成员身份加入「悟道·文源」中文预训练大模型团队,参与 CPM 系列模型的训练和研发工作,并在此期间编写了大模型高效训练和推理工具 BMTrain、BMInf 等,同时荣获多项发明专利。自 2021 年起担任智源研究院语言大模型加速技术创新中心副主任,并于 2022 年作为联合创始人创立面壁智能并担任 CTO,致力于推动大模型技术的落地应用。2024年入选年度“北京市科技新星计划”。
inSpaze是一款专为Apple Vision Pro量身定制的社交产品,旨在打破空间和语言的障碍,带来沉浸式的互动娱乐体验。它是挚文集团推出的基于Apple Vision Pro原生开发的沉浸式空间社交产品,于2024年2月与Apple Vision Pro同步上线。苹果CEO蒂姆·库克在访问挚文集团时,对inSpaze给予了高度评价,认为其在Apple Vision Pro空间算力之下的沉浸式社交体验令人印象深刻。
先后任职于搜狐视频、芒果TV,长期从事在线视频平台技术研发与应用,现任职于芒果融创科技有限公司(5G高新视频多场景应用国家广播电视总局重点实验室)主要从事超高清内容生产技术与空间互动内容生产技术研究。
张栋,复旦大学硕士生,导师为周雅倩副教授和邱锡鹏教授,研究领域为端到端语音对话与语音大模型,作为第一作者在 ICLR/ACL/EMNLP 等会议发表多篇文章,代表性科研成果为 SpeechGPT 系列工作。
Rokid 创始人兼CEO
负责区域业务线以及业务产品方向,具有丰富的国内头部客户场景落地案例,以及模型应用实操经验。经历大模型国内应用从0到1的路径。多年云计算行业经验,负责区域线的业务。
吴毅敏,Unity中国平台合作业务总监,曾任职于AWS, IBM, EMC等公司,超过15年IT咨询顾问、架构师、项目经理及销售的融合角色工作经验,在实时3D引擎、云计算、数字孪生及元宇宙等领域有着丰富的经验和深刻的见解,目前在Unity中国负责平台合作业务,致力于拓展Unity实时3D平台在中国的合作伙伴生态。
关注出海3年半、4年记者经验 关心社交&泛娱乐、粮食、宠物和时尚
Hugging Face 是一个专门针对机器学习的开源平台和社区。开发者可以在 Hugging Face Hub 上开源自己的机器学习模型、数据集或者创建机器学习应用等,Hugging Face 还提供了一系列的开源库。王铁震在 Hugging Face 负责中文开发者社区开源生态,他也是前谷歌 TensorFlow 研发工程师。
特许金融分析师,澳洲注册会计师,拥有纽约大学研究生院经济学硕士学位、北京大学光华管理学院管理学学士学位。 前Composite Capital董事,也曾就职于鑫田基金、高盛。
吕翔,阿里巴巴通义实验室语音算法专家。本硕毕业于上海交通大学电气工程专业,长期从事语音相关的研发工作。曾负责喜马拉雅云原生流式微服务架构的算法研发与落地,获阿里巴巴达摩院 M2MeT1.0 赛道二第三名,M2MeT2.0 双赛道第一名,ICMC-ASR 赛道二第三名,并有相关学术成果发表于 ICASSP、ASRU 等国际学术会议。现负责通义实验室语音生成大模型 CosyVoice 的开源工作,以及阿里云/百炼平台的 CosyVoice 相关落地。
阿里云通义实验室高级解决方案架构师,10年以上的人工智能行业从业经历,对人工智能以及生成式大模型在企业的应用规划和落地有丰富的经验。
上海任意门科技有限公司(Soul App)技术副总裁,2013硕士毕业于北京航空航天大学计算机学院。2017年加入Soul App,主要负责Soul生态业务和技术研发等相关工作。
现任获得场景视频运营副总裁,拥有十三年教育与互联网行业的从业经验,曾任职于北大青鸟集团、阿里巴巴集团、慧聪国际等多家上市企业,涉足的行业包括教育培训、电子商务、金融、医疗、数字出版、互联网、云计算等多个热门领域。
深耕产品开发近二十年,曾领导多家知名科技公司产品线,专注3C、手机数码、IoT及元宇宙领域,现任莲偶科技联合创始人兼产品总裁,以独创的空间算法和莲偶AI技术,引领MR元宇宙与AI产品创新,致力于开创未来数字生活新形态。
一位充满激情、热爱创新的马来西亚华籍企业家。创立过一家硬件公司,并参与发明了MP3,电子书,智能音箱等新产品。2017年与合伙人一起创立了一家专注于AI视觉模块的科技公司,希望星巡的产品能够帮助到整个社会和各个家庭。
杨建刚,超智能科创始人&CEO 毕业于于西安交大&北京大学,研究方向是AI应用落地与商业化,前美术宝AI方向负责人
赵国强,环球网校高级产品总监,产品研发负责人,10年在线教育行业经验
WPS会议产研负责人/技术专家,有多年音频算法研发和系统架构设计开发经验,目前负责金山办公云和协作WPS会议业务的整体产研和交付工作。
十年互联网产品经验,聚焦云计算PaaS方向,拥有丰富的社交、教育、电商等垂直行业的应用方案实施落地经验
12年机器人辅助手术导航系统设计经验、6年AR、XR智慧眼镜、智慧空间整合经验。目前任职佐臻技术总监,致力于AR眼镜设计生产、建置XR垂直应用与智慧空间整合的开发平台,提供场域应用解决方案。
戴伟,博士毕业于香港科技大学,主要研究视频编解码的加速和优化。目前是声网视频编解码器负责人,2016年加入声网,主导开发并落地了声网SDK中的264和av1的编解码器。
李忻玮,声网大语言模型实验室高级研究员,RTE 开发者社区布道师
声网直播产品负责人
声网泛娱乐行业产品经理,12年移动互联网产品和开发经验;曾任职爱奇艺、淘宝直播,对音视频行业有丰富的经验和洞察。
李嵩,声网音频算法工程师。德国汉诺威大学博士,主要从事空间音频,心理声学和耳机主动降噪的算法研究。参与过 HRTF 快速测量、虚拟声外化感提升、基于 VR 的空间音频、耳机主动降噪等项目。共发表了20余篇学术论文,拥有6项专利。2021 年加入声网,主要负责空间音频算法研究,包括双耳声实时渲染、增强立体感和沉浸感等。
声网 RTM 产品经理
曾创办码尚叮咚网络科技有限公司,为职教客户提供SCRM服务 多年在线教育从业经验,历任长投学堂技术中台负责人,海风教育学生端负责人。
声网AI云平台产品经理
声网Video AI产品经理 沈偲暐
多模态大模型的快速发展,推动了人与 AI 交互方式的变革。从文字到语音,也让 AGI 真正走进实时互动,促进实时互动的技术进化和场景爆发。在 RTE2024 主论坛上,我们将聚焦大模型与实时互动,探讨AI+RTE的技术实践与未来展望 ,汇聚顶尖行业大咖,共赴一场前沿技术、创新场景、精彩观点深度碰撞的科技盛宴。
实时互动十年:从WebRTC到生成式AI时代的RTE
AI时代的云原生软硬件基础设施进化
实时 AI 基础设施探讨
圆桌:AI的6000 亿美元难题:从基础设施到商业化落地
AI产业当下在全球发展的如火如荼,LLM大语言模型作为AIGC的核心模块,其发展尤为引人关注。随着技术的进步,大语言模型的能力也不断进化,一方面,训练数据量与算力的提升,AI 的生成内容更精准、更智能;另一方面,大模型的交互方式,也从文本升级为音频、视频的多模态,可以支持人与AI的语音对话等,实时语音交互也将成为对话式多模态大模型的必经之路。本场AI论坛将深度探讨AIGC+RTE如何推动AI行业的变革。
生成式 AI 驱动实时互动的技术变革与体验革新
通义大模型落地实践
智谱在大模型应用落地的探索
AI 时代,如何创造社交互动新体验
AI时代WPS会议协作的探索和实践
技术赋能:AI如何重新定义即时通讯
通用大模型落地场景
“不出海就出局”已成为泛娱乐行业的共识。在一众泛娱乐赛道中,社交出海成为亮点式的存在。据相关数据,2024年,全球社交媒体活跃用户数量已突破50亿大关,相当于世界人口的62.3%,巨大的市场需求为社交出海产业带来了广阔的前景。在这场席卷全球的在线社交浪潮中,中国社交出海应用正掀起新的波澜。
出海掘金,假如是我,我行吗?
2024年AI及社交应用增长启示录
支付+营销双引擎,助力出海企业营收增长新突破
AI解锁社交出海新玩法
社交出海的数据合规挑战与应对
VOC在品牌出海的应用与实践
过去一年里,大模型技术在持续进化,作为RTE云服务行业的引领者,声网也在不断精进技术,丰富RTE产品版图,探索AI与RTE相结合的无限可能。本次声网产品专场,不仅会带来RTE行业最前沿的产品及解决方案发布,也将分享声网对AI+RTE 技术实践及未来发展的更多思考。
声网产品体系及创新
实时智能助手赋能行业万象
Video AI在实时场景中的探索与应用
AI驱动的会议纪要革命
Voice AI 产品组合与语聊场景新应用
声网实时数据构建RTE体验质量全透明
AI重塑会议协作
RTC私有化平台2.0
场景化API构建实时互动开发者新体验
RTM2.0 构建实时互动新体验
在第四届 RTE 创新大赛决赛现场,你将听到实时互动赛道头部投资人最犀利的点评,感受数百位创业者的热情和专业,也能够收获很多前所未有的创新场景和点子的启发。
开场致辞
超音速计划S24年度路演(含规则说明)
SUPERSONIC+RTE DEV COMMUNITY国际项目路演
超音速/SUPERSONIC校友返场路演
行业先锋圆桌
万物AI时: RTE生态与创业公司如何相互重塑
In Moments of AI: How the RTE Landscape and Startups Interact and Reform
结果公布与颁奖
AI 无疑是今年最热话题之一,AI 与泛娱乐的天然耦合性让行业再次沸腾,涌现出诸如 AI+社交、AI+游戏、AI+短剧等一大批融合AI的应用,不仅快速收割了大批用户,也收获了资本认可。AI 驱动下的新一轮社交应用潮已悄然兴起,谁将成为下一个领航者?
泛娱乐2024:行业趋势解读,新动向展望
Unity 2024 游戏行业报告解读:趋势、数据和建议
inSpaze重塑社交边界,空间计算催生行业新机遇(拟)
空间内容生产技术探索与实践
圆桌讨论:社交娱乐驶入AI快车道?
近年来,AI 技术迅猛发展,应用场景不断拓展,更在教育领域展现出巨大潜力,尤其是以语言大模型为代表的新一代人工智能,凭借其高生成性、高自主性、高交互性,给传统的教育方式和教学方法带来冲击,从文本到音频、视频,伴随人与 AI 的交互方式的不断升级,将为在线教育场景带来哪些改变?
AI 如何改变在线教育的未来
大模型在职业教育领域的应用
AIGC 赋能教育教学新范式
AI数字空间,构建未来教与学新体验
当 AI 成为了老师
人工智能时代,教育与AI的融合
视频内容爆炸增长,AI 生成视频技术日新月异,海量数据对存储和传输提出巨大挑战。AV1、H.266、端到端图像编码等新一代编解码技术如何应对挑战?随着更多 AI 视觉理解和实时互动场景的涌现,弱网传输和端侧算法又该如何优化?让我们共同探讨视频产业智能化发展。
智能编码和多模态大模型
虚拟数字人的发展趋势及展望
新一代视频编解码的技术发展与行业应用
AI 端到端编解码的发展与落地
视频大模型的探索与应用
圆桌讨论:视频生成的「ChatGPT时刻」何时到来?
RTE 技术在新一轮语音 AI 的发展中扮演着重要角色,RTE 技术使语音 AI 能流畅响应用户的语音输入和更自然地模拟人类交流。从音频技术的最新进展到语音 AI 的场景落地,本论坛将探讨 RTE 技术如何推动语音系统向更高层次的实时互动发展。
CosyVoice 语音生成大模型的原理以及开源落地
低延迟流式语音识别系统
语音生成大模型研究进展与趋势
语音合成大模型与高质量数据
通向端到端拟人化语音对话智能体: SpeechGPT 系列
圆桌讨论:Voice AI,下一代人机交互界面?
这一轮多模态实时互动 AI 技术的革新中,RTC 技术提供了低延迟、高可靠性的通信能力,使人和 AI 能实时互动交流。在实时 AI 时代,厂商应如何构建面向实时互动场景的大模型?开发者如何寻找实时 AI 的落地场景?本论坛将揭示这一领域的技术发展趋势和应用前景。
生成式语音效果与用户粘性的相关因素分析
基于大语言模型的全双工对话模式的探索
新一代生成式语音大模型 Abab-speech-01 的场景落地和应用
商汤科技多模态模型解决方案与创新应用
基于面壁小钢炮训练的对话模型实践
圆桌讨论:实时多模态 AI 的 N 种新可能
随着AIGC在各行业的大爆发,AI、大模型正加速融入音箱、头显、智能家居、汽车、机器人等各类智能终端,重新定义一切智能硬件,开启新的硬件创新周期,本次论坛将围绕 AI+智能硬件,深度探讨多形态的创新场景应用和体验。
AI+IoT 智能硬件的全新升级体验
云端一体,为硬件产品注入智慧基因
AI 助力硬件新消费升级
打通碎片化,为IoT的繁荣构建基础设施(拟)
空间手势交互和AI同声传译在直播平台的应用
智慧眼镜、智慧空间应用平台与场域应用
智能硬件在 AI 能力加持下迎来了新时期。语音 AI 的互动接近人类,小型可穿戴硬件可长时间陪伴并反馈,AI 能够实时地看见、理解和学习周遭环境,我们距离无处不在的计算和人机互动的未来越来越近。今天的论坛将深入探讨这些技术的进展和 RTE 在其中的重要角色。
有限硬件资源下嵌入式系统的 AI 实时音频算法
空间视频直播探索
空间计算在混合现实技术中的重要性
脑机接口与俱身智能计算体系
多维沉浸:探索 XR 中的 Web 内容新体验
圆桌讨论:下一代计算平台的模样
所有大模型都在探寻规格和性能的最佳平衡。手机助理、虚拟陪练等 AI native app 的落地过程中,移动应用的基础设施、架构设计也面临新挑战。如何构建高可用、超低延迟的云边端协同架构?又该如何开发兼容多模型和多能力模块的开源框架?本专场也将探讨实时互动和最新架构、基础设施的关系和实践。
Multimodal RAG with LlamaIndex
基于 TEN Framework 的云边端 AI 基础设施与 AI Agent 应用
生成式人工智能赋能云上开发全流程
十亿级月活分钟数声网媒体中心架构演进之路
在端侧部署多模态大模型处理音视频数据
圆桌讨论:开源 AI Infra 项目的策略与成长(拟)
实时互动十年:从WebRTC到生成式AI时代的RTE
赵斌,声网创始人兼CEO。2014年创立声网,开创了全球实时互动云服务。2020年6月26日,声网母公司 Agora, Inc.成功登陆纳斯达克,股票代码 为“API”。声网服务的企业遍布社交、教育、IoT、金融、医疗等20余行业,200多种场景。在此之前,赵斌也曾参与两家美国纳斯达克上市公司的创立。1997年,作为创始工程师之一参与WebEx (网讯) 创业。2007年,作为CTO参与YY (欢聚时代)创业。
AI时代的云原生软硬件基础设施进化
实时 AI 基础设施探讨
钟声,声网首席科学家、CTO。北京大学数学系学士和博士。曾任海信芯片总经理兼CTO、博通资深主任科学家、华亚微电子技术副总裁。拥有 100 余项技术发明专利。曾是 MPEG/JVT 与 INCITS 主要成员,并发表了 30 余篇论文,主要从事图像处理、视频编解码、计算机视觉、深度学习、芯片架构设计等方向的研发。
圆桌:AI的6000 亿美元难题:从基础设施到商业化落地
曾国洋,面壁智能联合创始人&CTO。2015 年 NOI 金牌进入清华大学计算机系,曾获得清华大学挑战杯一等奖、首都大学生挑战杯一等奖、智能体大赛一等奖等。于 2017 年加入清华大学自然语言处理实验室,从事自然语言处理研究工作,在 2020 年以团队骨干成员身份加入「悟道·文源」中文预训练大模型团队,参与 CPM 系列模型的训练和研发工作,并在此期间编写了大模型高效训练和推理工具 BMTrain、BMInf 等,同时荣获多项发明专利。自 2021 年起担任智源研究院语言大模型加速技术创新中心副主任,并于 2022 年作为联合创始人创立面壁智能并担任 CTO,致力于推动大模型技术的落地应用。2024年入选年度“北京市科技新星计划”。
Hugging Face 是一个专门针对机器学习的开源平台和社区。开发者可以在 Hugging Face Hub 上开源自己的机器学习模型、数据集或者创建机器学习应用等,Hugging Face 还提供了一系列的开源库。王铁震在 Hugging Face 负责中文开发者社区开源生态,他也是前谷歌 TensorFlow 研发工程师。
生成式 AI 驱动实时互动的技术变革与体验革新
通义大模型落地实践
阿里云通义实验室高级解决方案架构师,10年以上的人工智能行业从业经历,对人工智能以及生成式大模型在企业的应用规划和落地有丰富的经验。
智谱在大模型应用落地的探索
AI 时代,如何创造社交互动新体验
AI时代WPS会议协作的探索和实践
WPS会议产研负责人/技术专家,有多年音频算法研发和系统架构设计开发经验,目前负责金山办公云和协作WPS会议业务的整体产研和交付工作。
技术赋能:AI如何重新定义即时通讯
十年互联网产品经验,聚焦云计算PaaS方向,拥有丰富的社交、教育、电商等垂直行业的应用方案实施落地经验
通用大模型落地场景
负责区域业务线以及业务产品方向,具有丰富的国内头部客户场景落地案例,以及模型应用实操经验。经历大模型国内应用从0到1的路径。多年云计算行业经验,负责区域线的业务。
出海掘金,假如是我,我行吗?
声网直播产品负责人
2024年AI及社交应用增长启示录
支付+营销双引擎,助力出海企业营收增长新突破
AI解锁社交出海新玩法
特许金融分析师,澳洲注册会计师,拥有纽约大学研究生院经济学硕士学位、北京大学光华管理学院管理学学士学位。 前Composite Capital董事,也曾就职于鑫田基金、高盛。
社交出海的数据合规挑战与应对
VOC在品牌出海的应用与实践
声网产品体系及创新
北京邮电大学硕士毕业,于2020年6月加入声网。2012年至2019年,他曾在蓝汛ChinaCache任创新产品事业部总经理、研发副总裁、代理CEO等多个高级管理职位。此前,他曾于2006年至2012年任职于爱立信中国,参与 Ericsson当年全球最大MMSI项目ISP。
实时智能助手赋能行业万象
Video AI在实时场景中的探索与应用
声网Video AI产品经理 沈偲暐
AI驱动的会议纪要革命
声网AI云平台产品经理
Voice AI 产品组合与语聊场景新应用
声网实时数据构建RTE体验质量全透明
声网AI云平台产品经理
AI重塑会议协作
曾创办码尚叮咚网络科技有限公司,为职教客户提供SCRM服务 多年在线教育从业经验,历任长投学堂技术中台负责人,海风教育学生端负责人。
RTC私有化平台2.0
场景化API构建实时互动开发者新体验
RTM2.0 构建实时互动新体验
声网 RTM 产品经理
开场致辞
赵斌,声网创始人兼CEO。2014年创立声网,开创了全球实时互动云服务。2020年6月26日,声网母公司 Agora, Inc.成功登陆纳斯达克,股票代码 为“API”。声网服务的企业遍布社交、教育、IoT、金融、医疗等20余行业,200多种场景。在此之前,赵斌也曾参与两家美国纳斯达克上市公司的创立。1997年,作为创始工程师之一参与WebEx (网讯) 创业。2007年,作为CTO参与YY (欢聚时代)创业。
超音速计划S24年度路演(含规则说明)
SUPERSONIC+RTE DEV COMMUNITY国际项目路演
超音速/SUPERSONIC校友返场路演
Rokid 创始人兼CEO
行业先锋圆桌
万物AI时: RTE生态与创业公司如何相互重塑
In Moments of AI: How the RTE Landscape and Startups Interact and Reform
结果公布与颁奖
泛娱乐2024:行业趋势解读,新动向展望
声网泛娱乐行业产品经理,12年移动互联网产品和开发经验;曾任职爱奇艺、淘宝直播,对音视频行业有丰富的经验和洞察。
Unity 2024 游戏行业报告解读:趋势、数据和建议
吴毅敏,Unity中国平台合作业务总监,曾任职于AWS, IBM, EMC等公司,超过15年IT咨询顾问、架构师、项目经理及销售的融合角色工作经验,在实时3D引擎、云计算、数字孪生及元宇宙等领域有着丰富的经验和深刻的见解,目前在Unity中国负责平台合作业务,致力于拓展Unity实时3D平台在中国的合作伙伴生态。
inSpaze重塑社交边界,空间计算催生行业新机遇(拟)
inSpaze是一款专为Apple Vision Pro量身定制的社交产品,旨在打破空间和语言的障碍,带来沉浸式的互动娱乐体验。它是挚文集团推出的基于Apple Vision Pro原生开发的沉浸式空间社交产品,于2024年2月与Apple Vision Pro同步上线。苹果CEO蒂姆·库克在访问挚文集团时,对inSpaze给予了高度评价,认为其在Apple Vision Pro空间算力之下的沉浸式社交体验令人印象深刻。
空间内容生产技术探索与实践
先后任职于搜狐视频、芒果TV,长期从事在线视频平台技术研发与应用,现任职于芒果融创科技有限公司(5G高新视频多场景应用国家广播电视总局重点实验室)主要从事超高清内容生产技术与空间互动内容生产技术研究。
圆桌讨论:社交娱乐驶入AI快车道?
inSpaze是一款专为Apple Vision Pro量身定制的社交产品,旨在打破空间和语言的障碍,带来沉浸式的互动娱乐体验。它是挚文集团推出的基于Apple Vision Pro原生开发的沉浸式空间社交产品,于2024年2月与Apple Vision Pro同步上线。苹果CEO蒂姆·库克在访问挚文集团时,对inSpaze给予了高度评价,认为其在Apple Vision Pro空间算力之下的沉浸式社交体验令人印象深刻。
先后任职于搜狐视频、芒果TV,长期从事在线视频平台技术研发与应用,现任职于芒果融创科技有限公司(5G高新视频多场景应用国家广播电视总局重点实验室)主要从事超高清内容生产技术与空间互动内容生产技术研究。
声网泛娱乐行业产品经理,12年移动互联网产品和开发经验;曾任职爱奇艺、淘宝直播,对音视频行业有丰富的经验和洞察。
吴毅敏,Unity中国平台合作业务总监,曾任职于AWS, IBM, EMC等公司,超过15年IT咨询顾问、架构师、项目经理及销售的融合角色工作经验,在实时3D引擎、云计算、数字孪生及元宇宙等领域有着丰富的经验和深刻的见解,目前在Unity中国负责平台合作业务,致力于拓展Unity实时3D平台在中国的合作伙伴生态。
AI 如何改变在线教育的未来
大模型在职业教育领域的应用
赵国强,环球网校高级产品总监,产品研发负责人,10年在线教育行业经验
AIGC 赋能教育教学新范式
杨建刚,超智能科创始人&CEO 毕业于于西安交大&北京大学,研究方向是AI应用落地与商业化,前美术宝AI方向负责人
AI数字空间,构建未来教与学新体验
当 AI 成为了老师
人工智能时代,教育与AI的融合
现任获得场景视频运营副总裁,拥有十三年教育与互联网行业的从业经验,曾任职于北大青鸟集团、阿里巴巴集团、慧聪国际等多家上市企业,涉足的行业包括教育培训、电子商务、金融、医疗、数字出版、互联网、云计算等多个热门领域。
智能编码和多模态大模型
虚拟数字人的发展趋势及展望
新一代视频编解码的技术发展与行业应用
AI 端到端编解码的发展与落地
视频大模型的探索与应用
圆桌讨论:视频生成的「ChatGPT时刻」何时到来?
CosyVoice 语音生成大模型的原理以及开源落地
吕翔,阿里巴巴通义实验室语音算法专家。本硕毕业于上海交通大学电气工程专业,长期从事语音相关的研发工作。曾负责喜马拉雅云原生流式微服务架构的算法研发与落地,获阿里巴巴达摩院 M2MeT1.0 赛道二第三名,M2MeT2.0 双赛道第一名,ICMC-ASR 赛道二第三名,并有相关学术成果发表于 ICASSP、ASRU 等国际学术会议。现负责通义实验室语音生成大模型 CosyVoice 的开源工作,以及阿里云/百炼平台的 CosyVoice 相关落地。
低延迟流式语音识别系统
李嵩,声网音频算法工程师。德国汉诺威大学博士,主要从事空间音频,心理声学和耳机主动降噪的算法研究。参与过 HRTF 快速测量、虚拟声外化感提升、基于 VR 的空间音频、耳机主动降噪等项目。共发表了20余篇学术论文,拥有6项专利。2021 年加入声网,主要负责空间音频算法研究,包括双耳声实时渲染、增强立体感和沉浸感等。
语音生成大模型研究进展与趋势
语音合成大模型与高质量数据
通向端到端拟人化语音对话智能体: SpeechGPT 系列
张栋,复旦大学硕士生,导师为周雅倩副教授和邱锡鹏教授,研究领域为端到端语音对话与语音大模型,作为第一作者在 ICLR/ACL/EMNLP 等会议发表多篇文章,代表性科研成果为 SpeechGPT 系列工作。
圆桌讨论:Voice AI,下一代人机交互界面?
张栋,复旦大学硕士生,导师为周雅倩副教授和邱锡鹏教授,研究领域为端到端语音对话与语音大模型,作为第一作者在 ICLR/ACL/EMNLP 等会议发表多篇文章,代表性科研成果为 SpeechGPT 系列工作。
生成式语音效果与用户粘性的相关因素分析
基于大语言模型的全双工对话模式的探索
新一代生成式语音大模型 Abab-speech-01 的场景落地和应用
商汤科技多模态模型解决方案与创新应用
基于面壁小钢炮训练的对话模型实践
圆桌讨论:实时多模态 AI 的 N 种新可能
AI+IoT 智能硬件的全新升级体验
云端一体,为硬件产品注入智慧基因
AI 助力硬件新消费升级
一位充满激情、热爱创新的马来西亚华籍企业家。创立过一家硬件公司,并参与发明了MP3,电子书,智能音箱等新产品。2017年与合伙人一起创立了一家专注于AI视觉模块的科技公司,希望星巡的产品能够帮助到整个社会和各个家庭。
打通碎片化,为IoT的繁荣构建基础设施(拟)
空间手势交互和AI同声传译在直播平台的应用
智慧眼镜、智慧空间应用平台与场域应用
12年机器人辅助手术导航系统设计经验、6年AR、XR智慧眼镜、智慧空间整合经验。目前任职佐臻技术总监,致力于AR眼镜设计生产、建置XR垂直应用与智慧空间整合的开发平台,提供场域应用解决方案。
有限硬件资源下嵌入式系统的 AI 实时音频算法
空间视频直播探索
空间计算在混合现实技术中的重要性
脑机接口与俱身智能计算体系
多维沉浸:探索 XR 中的 Web 内容新体验
圆桌讨论:下一代计算平台的模样
Multimodal RAG with LlamaIndex
基于 TEN Framework 的云边端 AI 基础设施与 AI Agent 应用
生成式人工智能赋能云上开发全流程
十亿级月活分钟数声网媒体中心架构演进之路
在端侧部署多模态大模型处理音视频数据
圆桌讨论:开源 AI Infra 项目的策略与成长(拟)