使用微信扫一扫分享到朋友圈
使用微信扫一扫进入小程序分享活动
2 天沉浸式学习交流 | 15+前沿分论坛 | 60+真实应用案例
DA 数智大会由专注于服务数据智能开发者的垂直社区 DataFun 主办,并由上海市数据科学重点实验室指导,每年在北京、上海、深圳等城市举办。会议面向经验丰富的大数据与人工智能从业者、研究人员和企业高管,旨在探讨数据与人工智能在生成式 AI 时代中的深度融合及其商业价值。这一大会由 DataFunCon 升级而来,希望为参会者提供更佳的体验。
在生成式 AI 时代,大模型技术正引领数据与人工智能领域的变革,推动企业业务价值的全面涌现。人工智能与数据的深度融合,正是企业数智化水平的真实写照。2024 年,DA 数智大会将以“大模型让数据涌现业务价值”为主题,致力于共同探讨大数据和大模型领域的最新实践洞见与深层经验,推动新质生产力的加速发展,助力企业迈向智能化、数字化的新高度。
复旦大学教授、博导,上海市数据科学重点实验室主任。长期从事大数据、 知识图谱研究。发表 CCF-A 、B 类等论文 200 余篇。出版学术专著与教材三部。 完成五十多项政府及人工智能头部企业研发项目。荣获包括华为、阿里、美团等机构授予的科研奖项二十多项。担任 Applied Intelligence 等多个国际期刊副主编或编委。
平安集团科技数据管理副总工程师、数据管理团队负责人。毕业于北京邮电大学计算机软件与理论专业。曾任 Teradata 大中华区产品及解决方案总经理、就职于 IBM GBS、SAS 等数据领导者,拥有 19 年的数据合规、数据治理、数据中台与数据智能相关的实施、咨询服务的经验。开创“合规高效的数据管理及运营体系”,一方面致力于企业数据中台产品和应用的规划建设;另一方面研究落实国家和监管法律法规对企业数据资产管理、数据制度建设、数据合规安全使用等方面的要求。深耕领域涉及银行、保险、通信运营商、交通、医疗、汽车、高科技制造、零售等。
黄世飞,现任腾讯云副总裁,腾讯云大数据产品负责人。
黄世飞先后在网易、腾讯任职,负责 QQ 秀、增值业务和云计算等产品的技术和管理工作,有丰富的互联网研发和产品经验。
2015 年起,黄世飞负责腾讯游戏云业务,带领团队拿下市场占有率第一。目前致力于腾讯云大数据业务。
许欣然,月之暗面工程副总裁。负责大模型训练、推理和基础架构部门。
个人介绍:林伟,主攻大规模分布式训练加速、编译优化、大数据计算、分布式系统等技术工程建设和性能优化。具有17年的系统架构设计及研发经验,并在国际一流ODSI、NSDI、SIGMOD会议上多次发表论文。原微软大数据平台组的核心成员,曾在微软亚洲研究院和微软美国工作10年。
曾任阿里巴巴研究员,创建了阿里云 Flink 和 Hologres 团队和产品;曾任 Facebook 调度系统,时间轴和 Messenger 的技术主管;曾任微软 SQL Server 引擎架构师;美国西北大学理论物理硕士学位,中国科学技术大学理论物理学士学位。他提出了云原生分布式 Data Warebase 这一概念。
个人介绍:
云器科技联合创始人兼 CTO,曾任阿里巴巴 P10 研究员,主导了阿里云飞天大数据平台二代研发及落地,曾于微软云计算和企业事业部工作近十年,浙江省科技进步一等奖获得者。
演讲介绍:
数智平台重回“战国时代”:新一代 Data+AI 架构设计与演进
数据平台已经发展 50 年,2022 年随 LLM/AGI 的革命性突破,它迎来了第三次革命。半非结构化数据的处理能力被解锁,数据处理能力和规模再一次触碰 10X 的潜力,也给数智 Infra 带来全新挑战。作为平台从业者,有两个关键问题值得关注。一个是随 AI 能力增强,数据表达方式越来越多样化(结构化、标量化、向量化、点边化、模型化等等),导致数智平台重回“战国时代”。这些方式的价值和差异是怎样,基础设施又如何最优支持他们,是当前摆在数智平台从业者的关键问题。另一个问题,在 LLM 早期剧烈变化迭代的大背景下,“数”与“智”的融合之道是怎样的?已有数据平台与 AI 平台的关系如何,AI Infra 是否独立建设,哪些应当融合共享,哪些需要灵活拆分?演讲者试从基础架构的视角,与参会者探讨新一代 Data+AI 平台架构的演进与验证。
演讲提纲:
1. 数据平台的第三次革命,以及背后的驱动力
2. 数智平台重回“战国时代”,多种数据表达方式的价值与差异
3. “数平台”vs“智平台”,拆分与融合
4. 新一代 Data+AI 平台架构的设计原则、演进思路与验证
听众收益:
1. 了解不同计算模式的价值与最佳实践
2. 面向未来的几个发展趋势和未解疑问
3. AI Native 数智平台的设计原则与思路
曾任网易严选数据中心负责人,在大数据基础设施、数据中台和数据业务方面积累了丰富的经验,特别是在通过数据驱动消费品牌增长方面进行了深入探索,愿与大家分享实际案例和经验。
2012 年加入 PayPal 风险管理平台部门至今,在 PayPal 主要负责实施和构建大数据计算平台、AI 计算平台用以支撑 PayPal 全球风险管理业务。2019 年开始带领团队构建 PayPal 实时图计算数据库用以加强风控数据维度,目前支撑 PayPal 的一站式图规模达到千万级别图查询吞吐量。最近的研究主要集中在如何拓展 AI 计算平台支持更多的 PayPal 业务,如基于 Venmo 朋友关系的产品推荐;如何构建攻击系统主动识别系统和产品的缺陷,并构建自动化风控解决方案等。
白鲸开源 CEO,Apache 基金会成员,Apache 孵化器导师,ClickHouse 华人社区创始人,Apache Dolphin Scheduler PMC,Apache SeaTunnel 导师。
毕业于北京大学,现任中国通信学会开源技术委员会委员、中国软件行业协会智能应用服务分会副主任委员、全球中小企业创业联合会副会长、TGO 鲲鹏会北京分会会长、ApacheCon Asia DataOps 论坛主席、波兰 DataOps 峰会、北美 Big Data Day 演讲嘉宾、虎啸十年杰出数字技术人物、中国开源社区最佳 33 人、中国 2021 年开源杰出人物。
曾任易观 CTO、联想研究院大数据总监、万达电商数据部总经理,先后在中金、IBM、Teradata 任大数据方重要职位。同时,他对大数据前沿研究做出卓越贡献。郭先生参与多个技术社区工作,如 Presto、Alluxio、Hbase 等,是国内开源社区领军人物。
悉尼科技大学访问学者,认知智能全国重点实验室研究员,中国计算机学会高级会员,中国计算机学会大数据专委会执行委员,中国标准化协会理事,中国标准化协会脑机接口与类脑智能专委会副主任,脑机接口全国联盟系统与行业应用组副主席,中国互联网协会青年专家,《Journal of natural language processing》创刊编委,入选 2023 年度“脑科学与类脑智能科创新青年 30 人”,荣获 KSEM、CIKM 最佳论文 / 最佳论文候选奖等荣誉。在讯飞主要负责人工智能与认知神经科学技术在教育、医疗等领域的应用研究。先后主持并参与多个科技部 2030 项目、国家重点研发计划项目、省市科研基金项目等数 10 项,并在国际顶级学术会议与知名期刊发表论文 40 余篇、申请专利 40 余件。
中国中文信息学会理事,中科院软件所博士。目前担任新浪微博新技术研发负责人,此前在阿里巴巴担任资深技术专家,负责新技术团队。技术书籍《这就是搜索引擎:核心技术详解》、《大数据日知录:架构与算法》作者。
腾讯音乐娱乐集团数据智能高级总监,数据科学专家。负责集团酷狗音乐业务线数据中台及研效团队管理工作。
二十年企业信息化,数字化咨询和实施经验研发出身,从事企业管理咨询和数字化咨询实施工作,对数字营销,流程再造,企业架构设计,有丰富的实践经验,成功主导多个大型企业的数字化转型从顶层规划到实践落地,落地过多个大型综合性集团型企业整体数字化转型。畅销书《精益数据方法论》作者,创始人;价值驱动的精益数据治理体系创始人;全球数据要素 50 人论坛专家;2023 中国数智化转型升级先锋人物;CCF 中国计算机学会数字化 SIG 主席;信通院大数据标准委员会专家;前国际头部咨询公司亚太区副总裁;前阿里巴巴 P9,阿里云中国区咨询总经理;数据中台第一篇十万 + 文章作者;全球 DataIQ100 人数字化赋能者;中国数字化委员会最有价值专家 TVP;数字产业创新研究中心核心专家;中关村大数据产业联盟数字化转型专委会主任;创业邦卓越生态聚合赋能官;华章出版社数据智能专家顾问;公众号《凯哥讲故事》作者,多篇数字化十万 + 文章作者。
负责字节跳动用户体验中台、抖音生态策略、可信大模型、质量大模型等多方向的智能化系统建设,技术上主要涉及算法(NLP、多模态、LLM)、数据、工程等领域,个人发明专利 60 项。
何昌华博士是“国家级高层次人才计划”入选者,获得清华大学学士,香港大学硕士及斯坦福大学博士学位,是数据智能领域全球顶尖架构师,主导了国内外多个大厂数据智能系统 0 到 1 的建设和应用。何博士曾在硅谷学习工作多年,并在知名公司谷歌、爱彼迎等担任核心技术负责人岗位。2008 年至 2015 年,何博士在谷歌担任高级主任软件工程师,作为搜索引擎架构核心负责人,与团队共同开发了谷歌新一代咖啡因搜索引擎,并获得公司最高技术奖项。何博士于 2017 年回国后加入蚂蚁集团,担任计算存储首席架构师。期间曾荣获“世界互联网领先科技成果”奖、“吴文俊人工智能科技进步一等奖”等国际、国内重要奖项,拥有 50 余篇行业顶尖论文和专利。
2022 年,秉持着对人工智能行业的热情和多年的技术创新理想,何昌华创立了北京数巅科技有限公司,希望将人工智能的力量转化为企业数智化发展的生产力。
翟周伟,现任职京东零售 AIGC 技术总监,前华为智能协作领域 AI 助手首席专家,前昆仑万维天工大模型高级总监,在 AI 助手,NLP 和搜索领域有十多年研发实践经验,在 AI/NLP 领域申请超过 15 项发明专利并出版两部著作,曾任华为 - 北大联合语音语义实验室研究观察员,在华为,百度期间主导构建了业界一流的 AI 算法系统并落地 AI 助手以及搜索场景,在大模型方向上主导过业界知名大模型的核心技术研发,目前专注于大模型技术以及在 AI 助手搜推等领域的应用探索和实践。
陈崇沛,任职于 vivo AI 研究院,AI 工程架构专家。曾经任职于 IDEA 研究院、阿里巴巴。在 vivo 期间带领 AI 计算平台团队从无到有搭建了 vivo AI 计算平台,这是一个超大算力平台,拥有大模型大规模并行训练和高性能推理能力。在 IDEA 研究院期间,带领认知计算中心系统工程和产品团队,参与了子牙系列模型的训练和开源工作,是国内最早的开源大模型。在 AI 和互联网领域深耕十余年,拥有全方位的架构能力,包括 AI 架构、云原生与中间件基础架构、大型互联网架构;目前专注于 AI 系统工程方向的工作。
中国平安人寿保险股份有限公司架构与数据管理团队总经理,大数据标准技术推进委员会首批数据中台专家、香蜜湖金融科技创新特征与趋势报告(2021)编写组成员;毕业于四川大学,2001 年加入平安,拥有 20 余年保险信息化系统建设和数据管理经验,参与并部分主导公司数字化转型战略,主导寿险数据技术迭代升级,从传统数仓向数据集市、大数据平台、数据中台持续演进,带领团队历获金保奖”卓越保险科技数据中台奖(2023)、“金信通“金融科技创新应用案例特色奖(2022)、香蜜湖金融科技创新奖优秀项目奖(2019)、深圳市金融创新奖一等奖(2016)、二等奖(2023)等。
负责平安产险数据管理,包括基础数据治理、保险要素图谱知识体系构建、数据策略应用相关能力建设。相关成果,于23年荣获金融科技发展奖一等奖(主要负责人之一)。
启思码科技联合创始人。毕业于北京大学,曾任腾讯高级研究员,主导了腾讯智能图平台的研发应用、以及图数据库 & 图计算 OTeam 协同,《腾讯大数据构建之道》编委会成员。最近部分研究集中在 RAG、GraphRAG 的应用与落地。
电子科技大学硕士毕业,曾服务于中通服,TeraData 等知名公司。现就职于平安科技数据管理部门,任技术平台组负责人(高级经理),曾负责引领集团数据中台的规划、建设,现负责集团数据技术管理运营工作以及集团数据管理相关平台的建设。
段雪涛,华为高级技术专家,专注于华为昇腾解决方案架构设计。加入华为前,曾任百度主任架构师,负责百度推荐系统架构。在推荐系统、搜索引擎、训练和推理架构等领域有十余年的探索和实践。
个人介绍:
负责数势科技智能算法的开发,包括 LLM agent,RAG,内容推荐,文本生成,知识图谱挖掘等算法技术。英国纽卡斯尔大学博士,在智能算法领域学术与工作经验丰富。在学术研究方面,拥有 10 项智能算法相关专利并发表 4 篇国际期刊,曾主导由欧洲玛丽居里计划资助的国际项目,在研究期间,共发表了 3 篇期刊文章、1 篇会议文章和 1 篇 chapter;在工作方面,曾任职京东零售数据中台,负责人工智能技术在营销领域的相关落地,多次获得优秀员工及集团战略项目奖,曾获 Hicool 全球创业大赛二等奖。
演讲介绍:
基于指标+标签的经营分析 Agent 创新实践
数据分析在企业运营中的作用愈发显著。通过有效的数据分析,企业可以洞察市场趋势、优化运营流程、提高决策质量,从而在竞争激烈的市场中占据优势。在本次技术演讲中,我们将专注于大模型(LLM)如何叠加业务语义层促进企业数字化经营水平的提升。探讨 LLM 智能分析 Agent 的自然语言数据交互能力及其如何降低数据使用门槛,提升数据在决策和业务流程中的影响力,并助力数据民主化与价值化。
同时我们也会重点说明基于指标 + 标签的经营分析 Agent 与 ChatBI 的区别,并展示其在复杂数据分析业务下的具体表现优势,展示其如何使数据分析更精确和灵活,降低幻觉问题。此外,我们会分享实际应用案例,探讨企业如何以智能分析 AI Agent 解决数据分析准确性、数据源全面性、分析逻辑黑盒不可信以及数据计算查询效率及性能等问题。
演讲提纲:
1. 行业通用企业数据分析 Agent 的实现方案和不足
2. 基于指标 + 标签的经营分析 Agent VS ChatBI
3. 指标和标签能力在搭建企业数据分析 Agent 时的技术创新点
4. 数据产品设计中遇到的挑战和经验总结
5. 具体落地应用案例和场景必要性
6. 产品演进的趋势及基于大模型技术的数据产品设计创新的思路
听众收益:
1. 为什么在大模型技术赋能数据分析场景时需要引入“业务语义层”(Semantics),以 -- NL2Semantics2Metrics+Label API 替代 NL2SQL
2. 了解基于指标 + 标签的经营分析 Agent 与 ChatBI 的区别
3. 了解如何基于指标 + 标签的分析 Agent 能力搭建企业分析平台
4. 了解具体行业用户在落地搭建分析 Agent 中的难点和解决思路
落地挑战和方案重点:
提升 Agent 的自主决策能力。尽管目前的 Agent 可以有效地构建数据资产并转化为分析结果,它们还未能达到自主规划和执行数据驱动决策的阶段。这表明在从分析到决策的自动化过程中仍存在缺口
个人介绍:
吴湖龙,货拉拉数据科学团队数据挖掘方向负责人,负责大模型在邀约、客服等多个场景中应用落地的评测相关工作。深耕物 流货运行业多年,曾就职顺丰科技,主要负责供应链解决方案算法及预测方案开发。
演讲介绍:
领域⼤模型应⽤通⽤评测框架及实践
⼤语⾔模型经过前期爆发式增⻓,已经从基础模型的百花⻬放逐步转变到落地应⽤的阶段,各⾏各业都试图通过⼤模型的加持来实现降本增效。然⽽,⼤模型的应⽤落地遇到具体场景时会⾯临⼀系列的问题,⽐如真实的效果如何准确评估、优化⽅向有哪些等等。本次分享以⼤模型应⽤为落脚点,从能⼒界定、数据整合、评测科学、统计科学等⻆度全⾯解析领域⼤模型评测的⽅案,保障评测过程科学、评测结果可信,最终准确评估⼤模型在实际应⽤场景中的效果。此外,结合实际案例,进⼀步验证⽅案的有效性。
演讲提纲:
1. 背景介绍
• 领域⼤模型应⽤背景
• 评测⽬标:评测要达成什么⽬的
• 评测⽅案及问题:现有的评测⽅案存在什么问题
2. 领域⼤模型应⽤评测框架
• 模型能⼒界定:需要评测什么内容、⽤什么指标来度量
• 评测数据整合:如何构造评测数据,使得模型的能⼒得到真实的反馈
• 评测流程科学设计:过程中要注意哪些点来保证评测的科学性,单盲、多盲测试等
• 结果分析科学统计:如何通过统计结果来校验同⼀评测⼈员/Agent的评测是否⼀致
3. 领域⼤模型应⽤评测实践
• 货运⼤模型应⽤背景:邀约、客服,有什么问题和难点
• 货运⼤模型评测实践:如何来科学、准确的评估⼤模型应⽤的效果
◦ 评测什么内容
◦ 如何获取数据
◦ ⽤哪些指标
◦ 设计什么流程
4. 总结与展望
• 总结:当前应⽤的情况
• 展望:后续会怎么迭代
听众收益:
1. 了解具备可复⽤性的⼤模型落地评测⽅案的构建过程
2. 熟悉⼤模型应⽤评测过程中的问题点和解决⽅案
落地挑战和⽅案重点
1. 如何设计合理的指标和流程,保障真实反馈应⽤落地的效果
2. 结果的科学性和可信度如何通过流程约束和数据校验加以保障
从事大数据相关的工作 10 年,长期从事保险领域的 BI 报表、风控模型开发,目前正在研发基于大模型的 ChatBI 项目,预期实现基于对话模式的实时随机报表、预警预测等功能。主持的风控模型项目曾获得“燕梳奖”、“金信通”奖等荣誉。
四川大学计算机系硕士研究生,从事数据治理工作16年,负责平安人寿企业级的数据治理体系规划与建设。
• RisingWave Labs -> VP of Engineering (DB Kernel & Storage)
• Wechat Infra -> Staff Engineer (Large-scale Online Storage)
• LinkedIn Infra -> Senior Engineer (Kafka & Next-gen Streaming Platform)
• CMU DB Labs -> Research Assistant (Peloton DBMS)
演讲题目:RisingWave x 特征工程: 解锁实时特征新范式
AI 的普及催生了越来越多的能受益于机器学习模型的场景的出现,而模型的有效性和时效性往往取决于特征工程的有效性和特征的实时性。RisingWave 作为新一代的云原生流处理平台,可以帮助不同的用例降低构建特征工程的门槛,轻松完成实时特征的摄取、构建、拼接、Serving。本次分享将介绍 RisingWave 的架构和设计理念,以及基于 RisingWave 构建特征工程的优势。
听众收益:
1. 了解实时特征工程的难点与挑战
2. 如何借助 RisingWave 轻松构建特征工程
3. 云原生架构下如何高效实现长周期大状态的特征计算
现任汇丰科创风投及合作研究中心的 AI 算法科学家。加入汇丰之前,主要从事高能粒子物理研究,具有多年大数据分析和算法开发经验。曾主持国家自然科学青年基金、中国博士后科学基金和广东省自然科学基金等多个科研项目,并在相关领域发表了 30 多篇论文。 加入汇丰后,专注于区块链和生成式人工智能等前沿技术在金融领域的应用研究。带领团队在金融风险分析、软件代码质量,以及软件开发生命周期的效率提升方面进行了深入研究,并发表了相关学术论文。
刘卫文,华为诺亚推荐搜索实验室主任研究员,2020年博士毕业于香港中文大学。主要负责大语言模型在推荐系统中的应用及AI Agent能力构建。在信息检索顶会(KDD,SIGIR,WWW,ICDE等)发表论文五十余篇,担任PC/SPC,担任GenRec@WWW24,GenRec@CIKM23,DLP@RecSys23研讨会主席。
沈春旭,清华大学硕士,研究领域为多模态信息检索、推荐系统。2018 年加入腾讯,高级算法研究员,从事用户增长算法研发,近年聚焦推荐领域大模型预训练和多域数据联合建模工作,研究成果主要发表在 ACL、EMNLP、AAAI、IJCAI 等领域顶会。
演讲题目:大语言模型在推荐场景中落地的经验与思考
本报告主要关于大语言模型 (LLM) 在推荐领域落地过程中的思考。涉及以下四方面:
1. 特征增强角度,LLM 为推荐模型注入开放性世界知识,解决跨域推荐和冷启动问题;
2. 模型架构角度,参考 LLM 训练 PPL,构建推荐领域适配的预训练、持续训练、业务精调范式,实现多域 - 多行为数据深度感知;
3. 信息融合角度,讨论推荐领域协同信号注入 LLM 的新范式,协同语义信息更精准建模用户偏好;
4. 知识推理角度,基于用户转化数据与 LLM 知识推理能力,加强对用户需求的深层次理解,改善用户的体验。
听众收益:
1. LLM 在推荐领域的潜在落地方案
2. 推荐大模型 PPL 构建经验与训练技巧
3. 推荐协同信息与通用语义信息融合技巧
拥有近 12 年大数据经验,在数据治理、数据分析和应用、数据平台建设方面拥有丰富经验。现任蚂蚁安全大数据部数据治理一号位,近期在探索一种新型研发模式,智能的规划重组当前的数仓链路,达到资源、成本、时效最优状态。
王琦智,PingCAP TiDB Ecosystem Software Architect / Senior Developer Advocate,有着 7 年研发与架构经验。曾就职于腾讯音乐、锦江等公司。目前在 PingCAP 负责 TiDB 生态系统架构及开发者 Advocate。实现 TiDB 与 AWS、GORM、 MySQL Connector、Hibernate、DBeaver 及 vscode-sqltools 等平台集成,开发了 tidb.ai。
在快手数据平台部负责 Spark 和 Blaze 向量化引擎的研发和维护,曾任职于百度、滴滴、蚂蚁集团等一线互联网公司,对大数据技术体系有较丰富的经验。
演讲题目:Blaze:快手自研Spark向量化引擎从生产实践到社区开源
Spark 是当前业界大数据离线计算最主要的系统,向量化是前沿的性能优化技术,快手通过自研的 Blaze 引擎,将向量化技术与 Spark 结合,大规模落地到生产环境,取得了 ~30% 的线上资源收益,目前项目已经在社区开源。本次演讲将介绍向量化技术原理和业界应用、Blaze 引擎的研发、上线历程,以及 Blaze 引擎的社区开源计划和未来规划。
听众收益:
1. 了解向量化技术基本原理和当前在行业内的应用。
2. 了解快手的 Blaze 项目使用向量化技术对 Spark 引擎进行优化的原理,整个项目从研发到线上大规模应用的历程和落地效果
3. 了解 Blaze 开源计划,是否可以将 Blaze 引擎运用在自己的生产环境,有机会参与社区共建
杨思,丰e足食高级数据科学经理,曾任职家乐福,在选品、用户、营销、价格和供应链领域拥有丰富的数据科学项目操作经验和业绩产出,成功应用因果推断技术于传统行业转型、推动业务增长。
演讲题目:因果推断在无人零售行业的应用
当前因果推断在互联网领域已经累积了大量的最佳实践和应用案例,线下业务和传统行业在运营过程中也面临着许多策略选择需要借助因果推论来决策,且应用场景具有特殊性,但业界相关可参考的资料较少。本次演讲分享丰e足食在数智化建设过程中,如何借助因果推理和 AB 测试提升决策的准确性,应用覆盖点位开发、选品、补货、运力调配、精准营销等各个运营环节。
听众收益:
1. 因果推断相关技术与真实线下业务场景结合的落地实践
2. 无人零售行业因果推理应用特有的挑战和解决方案
麦嘉铭,Alluxio资深软件工程师,曾就职于阿里云、BIGO和腾讯音乐,多年Presto/Trino和ClickHouse的开发和运维经验,包括内核研发、线上问题诊断、数百节点集群稳定性保障等。在计算机视觉领域相关的顶级国际期刊和会议发表多篇论文,出版著作《机器学习算法框架实战》。目前在Alluxio负责AI训练和大数据查询等场景的存储加速性能优化。
演讲介绍
Alluxio: 构建大模型时代的高速数据访问平台
Alluxio 是一个创新的高性能数据访问平台,它连接了各种机器学习引擎与存储系统,实现了跨区域和跨云的数据虚拟化。它简化了大规模数据应用的访问和管理,提供了按需数据访问,优化了数据架构,确保在正确的时间访问正确的数据。
Alluxio支持AI训练任务的高性能数据集管理,包括数据湖操作和消除数据冗余,减少了对专用硬件的依赖。它允许灵活的数据部署,充分利用计算资源,无论数据位于何处。同时,Alluxio可以提高GPU使用率,降低整体数据架构的成本。该报告将分析提高数据访问性能的主要瓶颈,并介绍Alluxio的原理、技术及核心价值。
黄勇锋,香港中文大学博士,Kasma.ai 研究员,主要研究方向为知识图谱,图神经网络与大模型,在 ACL AAAI EMNLP TPAMI 等顶级会议期刊上发表论文多篇。
演讲题目:多模态 RAG 及 GraphRAG 前沿探索及应用
在大模型时代,尽管 RAG 已在文本领域如企业知识库管理中广泛应用,但在多模态和图结构数据场景下仍具研究潜力。
本次分享将概述多模态 RAG 的最新进展及其在复杂场景中的应用,并介绍 Kasma 在 GraphRAG 中的实践,主要包括 2 部分:
1) 基于形式化验证与知识时效性建模的大规模可信即时知识图谱构建
2) 基于因果学习 (Cascual Learning) 和分布外泛化 (Out of Distribution Generalization) 等技术的鲁棒与泛化性强的图检索增强与推理构建。
我们旨在通过这两部分内容——多模态 RAG 进展与 Kasma 在 GraphRAG 中的应用——展示在非纯文本数据环境中实现高效检索与生成的方法,推动技术向智能化和实用性方向发展。
演讲提纲:
1. 什么是 RAG,RAG 的研究应用意义
2. 多模态 RAG 与 GraphRAG 的基础概念介绍
3. 多模态 RAG 的前沿探索及进展
4. Kasma 在 GraphRAG 中的前沿探索与应用
听众受益:
1. 了解最新趋势:观众将了解到多模态RAG在模型架构和预训练技术方面的最新进展,以及如何应对统一多模态、长上下文和多轮交互等复杂场景的挑战,从而掌握该领域的前沿动态和技术趋势
2. 技术实践启发:通过 Kasma 在 GraphRAG 中的具体探索应用,观众可以学习到如何有效地管理和构建大规模的异质知识图谱,并利用图分析技术增强图检索与推理的能力,为实际应用场景提供解决方案和技术支持
落地方案和挑战重点:
1. 大规模知识图谱的构建挑战,包括系统效率与成本考量,知识库验证与更新机制的设计挑战
2. 图分析技术对于 GraphRAG 的升级的挑战在于需要考虑现实场景下做到灵活与通用性兼顾。
2014 毕业于武汉大学;2014-2020 就职于百度账号团队和百度智能云团队, 资深研发工程师;2020-2021 就职于蚂蚁集团大安全团队, 从事风控引擎研发相关工作;2021- 至今 就职于 PayPal, 从事图计算平台相关的研发工作。
演讲题目: AI+Graph 持续降本增效的架构演进
随着 PayPal 日益发展的业务规模和业务复杂度之下,为了应对不断变化的交易安全威胁,PayPal 的风控体系也在不断的积极引入前沿的 AI 技术。而图计算作为重要的风控服务数据底座, 也面临着越来越严峻的技术挑战。本次演讲主要探讨 PayPal 图计算平台如何进行持续的架构的优化以应对 AI 时代对高吞吐 / 低延迟 / 高可用的需求,并同时持续降低平台运营成本。
演讲提纲:
1. 架构层面的持续演进和降本 (性能优化),在支持更多的 AI 决策模型对特征计算的需求的同时成本不断的降低
2. OLTP 场景原生对 GNN 的支持和优化,比如支持更多层的 GNN 模型等
3. LLM+Graph,检索增强,知识图谱的构建和应用
听众收益:
1. 作为负责 OLTP 相关的平台的听众可以探讨,借鉴团队的一些架构上的经验和心得
2. 作为负责风控 / 图计算相关的听众可以探讨,借鉴一些领域方面的经验和心得
认证国际数据管理协会 DAMA 数据治理专家 CDGP。2022 年荣获深圳市产业发展与创新人才奖、平安集团 AI 大数据十佳优秀个人称号。深耕数据领域 17 年,拥有丰富的金融和通信行业数据平台、数据应用的建设和运营、数据资产变现、数据治理、数字化转型落地经验。发表多项学术研究,其中牵头信托行业的数字化课题研究及深圳特区金融学会的数据治理课题研究。
演讲题目:数据信托:一种数据要素流通的新型解决方案
数据要素在经济社会发展中的重要性日益凸显,但与此同时在多源数据合规汇聚、数据可信流通、数据权益分配、数据资本化等方面存在不少问题和挑战。为此,我们提出一种创新的数据要素流通解决方案:数据信托。
数据信托是委托人将其数据权益委托给受托人,按照委托人的意愿和法律规定创设出信托关系,形成一种“信托式”的数据资产运营管理方案。数据信托将在数据资产运营管理方面也将发挥独特价值。 数据信托以法律、协议和技术为基础,引入信托的信任机制、归集特点、受托职能、第三方独立管理、收益分配等特点,为数据共享提供信任基础,为数据信托提供新模式,为金融产品创新提供新思路。 在企业数据信托场景,数据信托通过数据要素流通实现商业闭环,数据流和资金流同频共振,促进数据价值乘数级释放;在个人数据信托场景,数据信托推进构建以人民为中心的数据要素市场。 数据信托,兼具技术创新与模式创新的创新方案。
我们在某经纪公司和充电桩企业落地实践,项目取得很好的经济效益和社会效益。
听众收益:
1. 为数据要素流通、数据资产化和资本化提供新的思路和启迪
2. 在数据要素流通中的安全合规、个人信息保护方面,除技术手段外,从模式上创新,促进数据合规流通和安全保护
王师杰在科技领域拥有丰富的国际管理经验。在加入 Bright Data 之前,他曾担任 Applause 的国际业务发展主管,负责从零开始建立中国市场。在任职期间,他建立了关键合作伙伴关系,推动了中国互联网行业中多个重要客户的快速增长。在此之前,王师杰曾担任 Testin 的国际业务发展经理,随后晋升为美国市场总经理。在此期间,他建立了 Testin 云测的第一个国际设备测试实验室,并领导与 Meta(Facebook)、亚马逊、苹果、Netflix 和 Alphabet(谷歌母公司)等公司的产品开发与测试合作,专注于适应中国市场需求。王师杰拥有森林湖学院金融与国际关系学士学位。凭借其丰富的专业经验以及对全球科技产品和市场本地化的深入理解,王师杰在快速变化的科技行业中拥有独特的视角和见解。
演讲题目:为机器提供源源不断的数据
2014 年中南大学硕士毕业加入华为,先后从事网络云引擎开发、开源软件治理和昇腾基础软硬件算法及应用开发等工作,曾任重庆人工智能创新中心 CTO,发展区域国产人工智能生态与人才,现为华为昇腾生态技术专家与布道师。
演讲题目:昇腾在大规模 AI 集群调度的实践分享
演讲会讲解 AI 大模型集群组成,包括计算节点、存储系统、系统组网、管理调度系统,以及展开介绍调度框架基础流程,重点介绍昇腾集群调度使能组件 MindX DL 的特性,集群服务器的部署调度流程,并进行实操演示模型训练调度等实验。
演讲提纲:
1. AI 大模型集群组成
2. 昇腾集群调度框架特性
3. 昇腾集群调度 MindX DL 的入门实操
听众收益:
1. 熟悉昇腾 AI 算力集群
2. 了解集群调度方案
3. 昇腾集群调度框架实践演示
数据库系统和人工智能系统专家,InfiniFlow 联合创始人,负责公司研发工作。在创立 Infiniflow 之前,曾任 Zilliz 研发负责人,带领团队创立 Milvus 向量数据库;矩阵起源研发 VP,负责 MatrixOne 数据库内核的设计和研发工作。
演讲题目:所见即所得——多模态 RAG 的实现
2024年可以算得上是多模态大模型取得井喷的一年,随之而来的,就是多模态 RAG,是否也会开始落地并产生价值?来自于企业内部的文档问答,已经解锁出大量使用需求和场景。在这些文档中,有相当一部分包含各类复杂的图表内容。这些图和表就是各种多模态数据。如何对这些数据进行有效问答,是下一代 RAG——面向多模态数据场景,关注的重点。
听众收益:
1. 多模态 RAG 最新进展
2. 面对多模态场景,RAG 有哪些技术路线,分别的优劣
牛献会,飞轮科技中国业务总裁,具有超过 10 年的大数据架构设计、研发及业务管理经验。武汉大学毕业后即在百度从事大数据领域相关工作,曾担任百度智能云大数据部负责人,主导了百度智能云大数据技术和产品体系的构建和业务运营。目前担任飞轮科技中国业务总裁,全面负责数据生态研发、客户成功体系和中国业务团队。
赵喜生,腾讯机器学习平台高级工程师,多年机器学习工程和大数据领域经验,主导过多个数据和机器学习相关产品的研发和设计工作,包括机器学习平台、推荐系统、用户画像、DMP 平台等。
毕业于南加州大学,多年深耕于计算机视觉方向,负责飞桨目标检测套件 PaddleDetection 研发,从 0 到 1 打造了飞桨目标检测端到端的开发套件,开发的检测模型 PP-YOLOE,RT-DETR 效果达到 SOTA 水平。2023 年起负责飞桨多模态大模型套件 PaddleMIX,一系列多模态大模型开发体验及训推性能达到业界领先。
演讲题目:多模态前沿技术和产业落地应用
本次分享将深入解析多模态大模型的最新架构和应用场景,并对多模态大模型开发套件 PaddleMIX 进行深度剖析。
演讲提纲:
1. 多模态大模型前沿能力与核心架构
2. 多模态大模型落地应用难点与解决方案
3. 多模态大模型开发套件 PaddleMIX 解析
演讲题目:LLM+Agent助力下的数据分析智能化转型研究与实践
OPPO 研究院高级机器学习算法工程师,负责机器学习平台系统相关工作。曾主导多个机器学习、隐私计算平台、大模型推理平台的设计,开发及落地工作。参与发表机器学习专著一部,发表机器学习论文、专利数篇。
演讲题目:端上大语言模型推理优化
演讲题目:大模型时代的知识工程:企业级知识库的建设及应用
本次演讲将深入探讨在大模型技术驱动下,如何构建企业级的统一知识沉淀与应用平台。数据层面实现自动化知识抽取、语义理解与结构化知识构建,全面加速企业知识体系的完善与演进;应用层面借助智能 Agent 技术,将知识服务精准嵌入具体业务场景,赋能自动化决策、任务执行和流程优化,显著提升企业的智能化经营水平。
听众收益:
1. 了解如何通过大模型技术自动化构建企业知识库,并提升知识管理效率,从而推动企业知识体系的数字化转型
2. 掌握智能 Agent 技术在具体业务场景中的应用,通过智能化决策与流程优化,实现业务自动化和智能化的提升
演讲题目:腾讯云 ES:一站式 RAG 方案,开启智能搜索新时代
在大型语言模型(LLM)引领的革命浪潮中,搜索与大模型的紧密结合已成为推动知识进步的关键要素。作为开源搜索引擎排名第一的 Elasticsearch(ES),结合沉淀多年的文本搜索能力和强大的向量检索能力实现混合搜索,使搜索变得更准、更全、更智能。在现阶段大模型应用落地中,RAG 已经成为了必不可少的“最后一公里”,一个优秀的 RAG 系统必须能有效应对低延时、线上大规模运行时的稳定性、数据新鲜度以及成本控制等挑战。腾讯云 ES 多年来持续对开源 ES 的性能、成本、稳定性以及分布式架构进行深度增强优化,并在海量规模的云业务中接受考验。腾讯云基于 ES 实现了一站式 RAG 解决方案,具备了 RAG 技术规模化落地能力。
本次分享将深入探讨腾讯云 ES 在搜索领域的最新探索,详细解析腾讯云 ES 的一站式 RAG 方案,并介绍围绕该方案架构落地所进行的一系列内核性能和稳定性增强优化措施。此外还将分享微信读书“AI 问书”基于腾讯云 ES 和混元大模型的超大规模 RAG 技术实践。
演讲提纲:
1. 腾讯云 ES 在搜索领域的探索
2. 大模型时代与 RAG
3. 腾讯云 ES 一站式 RAG 方案
4. 大规模 RAG 案例实践
毕业于华中科技大学,工作以来在股份制商业银行、央企、头部券商等多家大型企业开展数据治理工作,具备在数据标准的建设和应用、数据质量提升、数据安全治理、数据资产评估等领域从零建设的实践经验,目前在国信证券负责企业数据治理各方面的工作推进。
演讲题目:围绕数据资产图谱的数据架构治理与评价
新浪数科技术专家,拥有近 20 年 IT 行业经验。专注于生成式人工智能(AIGC)应用落地,大语言模型在智慧电销、智能客服和催收训练等场景的实践。涵盖模型选型、样本工程、训练和评估全流程。同时负责中国人民银行征信报告特征引擎研发,并成功主导风险模型平台的架构规划、搭建及流量分发策略实施。
演讲题目:大模型电销落地实践:打造 AI 驱动的下一代智慧销售
这是一场关于如何用 AI 重塑销售流程、提高转化效能的真实案例分享。内容涵盖了应用价值、技术路径、项目经验,从构思到落地的全面视角,如何解决各种实际的问题,以及面临的主要挑战和方案。
面对人力限制与智慧销售的挑战,我们利用“对抗式”和样本进化等技术合成高质量样本,不仅效率提升数十倍,更增强了样本多样性和质量数倍,且显著提高了 9B 模型的整体性能。
通过引入了优雅打断机制的小模型,确保对话自然流畅更拟人,采用的 0.5B 小模型,响应在 50ms,且打断判别准确度达到 90% 以上,显著提高了用户体验;
通过 DPO 偏好优化,客服回复的简洁度提高 50% 以上,语句更加生动活泼,且更加有吸引力;
通过个性化话术,应用差异化、有吸引力的开场白来提高销售水平;
此外,借助专项评估手段,结合 A/B 框架,我们持续迭代模型,模型重复性问题减少 80%,幻觉问题减少 92%,实现了业务增长和技术进步的双赢局面。
最后进一步总结了四个主要的挑战和方案。
演讲提纲:
1. 项目背景与目标
2. 核心技术与方案
- 样本技术:对抗进化
- 优雅打断机制:提升对话自然度
- 个性化与优化:提升销售效果
- 持续优化与质量保证
3.落地实践
- 系统落地与业务 impact
- 挑战与解决方案
4. 未来展望
听众收益:
1. 大模型在电销领域的实际应用价值
2. 大模型应用的技术路径
3. AI 项目的落地经验
落地挑战和方案重点:
1. 拟人化:智能电销拟人化面临的主要挑战包括语音自然度,逼真模拟人类对话节奏
2. 可控性:例如输出不一致性、边缘案例处理、安全边界
3. 不可预知应答的风险:商业风险、法律风险、道德风险
4. 模型可解释性和控制性
演讲题目:ABetterChoice 实验平台出海数据架构探索实践
演讲提纲:
1. 关于ABetterChoice A/B实验平台介绍
2. 介绍什么是A/B实验,以及做A/B实验好处
3. 介绍在海外复杂环境下,探索符合海外安全合规的A/B实验数据架构,助力业务出海
现任平安壹钱包大数据部门副总经理,带领团队致力于构建高效的数据分析体系,通过创新技术推动业务增长与客户体验优化,主导了多个关键项目,包括企业级数据平台的搭建与升级、智能数据分析工具的研发等,显著提升了公司内部决策效率。专注于深度学习、自然语言处理等领域的大规模机器学习模型开发。并积极推动研究成果向实际场景转化,特别是在数据管理、风险控制等方面取得了突破。
李哲,现任腾讯云高级产品经理,毕业于香港大学,多年大数据平台产品建设经验,参与多个大数据套件底座产品和工具链产品的规划与商业化工作。目前作为腾讯云流计算平台产品方向负责人,致力于新型流式湖仓和增量计算技术发展,推动企业在数据处理分析上的创新。
演讲题目:腾讯云流式湖仓统一存储实践
随着大数据技术的发展,大数据流批链路会存在不可避免的问题和挑战,传统上,用户会选用 Lambda 架构来搭建数据分析的链路。但是它也存在一些问题:灵活性低、Update 场景支持不足、开发和维护成本高昂、数据一致性问题、可扩展性瓶颈此外,由于 Lambda 离线和实时都走独立的链路,其数据存储和计算引擎都是隔离的,相同的数据需要进行重复存储,实时与离线的计算逻辑也需要单独开发,因此其维护、管理和业务变更的成本都很高。因此,我们需要一套新的架构,能够对实时和离线的分析链路进行统一,并且尽可能降低实时分析的成本。
针对以上问题,我们推出了流式湖仓 Streaming Iceberg ,这是腾讯自研的基于 Iceberg 生态的流式湖仓解决方案。本次分享将深入探讨腾讯云流计算 oceanus 在流式湖仓方向的探索,详细解析流式湖仓 Streaming Iceberg 的优势,并结合实际案例展示流式湖仓的效果和能力。
演讲提纲:
1. 流式湖仓及其带来的架构升级
2. 腾讯云流式湖仓解决方案
3. 腾讯云流式湖仓实践
听众收益:
1. 了解流式湖仓的原理与该领域的发展
2. 了解腾讯云流式湖仓实践与优化
范志东,蚂蚁图计算开源负责人、图计算布道师。负责 TuGraph 的开源技术演进、社区运营和商业化等工作。TuGraph Maintainer、DB-GPT GraphRAG 作者、《自己动手构造编译系统》作者。先后就职于腾讯、阿里云、蚂蚁,从事大数据平台、云数据库、图计算相关的产品设计和技术建设。在分布式计算、数据安全管理、数据中台架构、开源布道等领域有丰富的开发和实践经历。
个人介绍:阿里云DataWorks产品负责人,打造全链路数据开发治理平台支撑阿里巴巴集团与阿里云上众多客户的数字化转型。
演讲题目:阿里云DataWorks:新一代“Data+AI”数据开发与数据治理平台的产品演进
演讲标题:沐瞳游戏出海:数据集成探索实践
苏冠,顺丰科技智能供应链算法总工程师,15 年供应链管理咨询与系统设计、实施经验。曾任职 D&B 管理咨询、阿里供应链中台负责智慧供应链解决方案与产品。为零售、快消、物流、电商行业头部企业提供需求预测、补货调拨、网络规划、运输优化、供应链优化以及系统设计与实施服务
张立理,百度前端架构师,百度技术组织委员会 Web 方向负责人。2023 年起参与百度智能开发工 具Comate 的 IDE 端架构、模型提升等方面工作,对续写、生成、问答等软件开发环节的大模型应用有丰富经验。
演讲题目:大模型技术重塑智能研发新范式
演讲题目:蚂蚁开源向量库 VSAG 实践
平安金服数据管理部数据室副总监
黄裕城, 2022年加入腾讯,主要从事海外游戏场景NLP&Speech算法的研究与落地,主要研究方向包括:多模态理解,大语言模型和AI智能体等,在ACL、TNNLS等国际顶会顶刊发表论文十余篇,并多次在国内外AI算法大赛中获奖。
演讲标题:海外游戏场景的大模型落地实践
演讲大纲:
海外游戏场景下的大模型落地实践
1. 基于大模型的 NPC 角色扮演
1.1 角色扮演的数据构造流程是什么?
1.2 角色扮演大模型如何进行训练?
1.3 角色扮演的评测体系如何构建?
2. 基于大模型的本地化翻译
2.1 游戏场景下机器翻译的挑战有哪些?
2.2 机器翻译如何有效利用大模型能力?
2.3 游戏场景下机器翻译如何持续优化
听众收益:
1.了解海外游戏中大语言模型落地的典型场景与挑战
2.了解大语言模型落地有效的数据构建与训练流程
个人介绍:毕业于代尔夫特理工大学,专注于图计算与知识图谱在Akulaku各种智能应用的落地。
黄哲,复旦大学硕士。2015年加入PayPal风险管理平台部门至今,在 PayPal 主要负责实施和构建大数据计算平台和图数据计算平台。2020年开始带领团队构建交互式图数据库平台,支持PayPal的风控和合规业务。目前支撑 PayPal 的一站式图数据库解决方案规模达到千万级别图查询吞吐量。
有近 10 年云存储及分布式数据库架构设计、研发与团队管理经验,主导了 SelectDB 存算分离功能的设计与实现。
议题名称:现代化实时数据仓库 SelectDB 产品全面解读
简介:SelectDB 是基于 Apache Doris 构建的现代化数据仓库,支持大规模实时数据上的极速查询分析。此次演讲将为您从以下方面对 SelectDB 产品进行全面解读,帮助您快速了解 SelectDB 的技术优势与应用场景:
数据仓库当前所面临的挑战与发展趋势
SelectDB 产品简介
SelectDB 的设计探索与创新
SelectDB 应用场景与用户案例
听众收益:
前沿洞察:了解数据仓库领域的最新趋势和技术创新,为企业的数据分析选型提供视角
性能优化:了解 SelectDB 如何通过技术创新提升性能,在多场景下达到业界领先的性能水平
案例学习:了解头部企业用户案例,获取多场景下 SelectDB 应用实践经验
14+ 年云计算经验,历经产品研发、解决方案、销售管理。前阿里云资深总监,带领团队完成年销售额数百亿 RMB;中国云计算早期开拓者,前百度云创始团队成员。不仅拥有丰富且敏锐的商业洞察力和丰富的行业解决方案经验,还拥有深刻的云计算技术理解力和发展趋势判断力。
演讲题目:GMI Cloud:基于高稳定性 GPU 集群的 AI 出海应用高效业务开发探索
Datastrato联合创始人
致力于京东基础大模型的高效推理技术研发和训练侧协同优化技术,主导并参与了京东自研推理部署一体化框架的研发,相关技术已在京东内部多种业务场景中应用。
陈晓芳,vivo 安全团队数据合规经理。2021 年加入 vivo 从事数据合规工作,涉猎领域包括 APP 隐私治理、数据分类分级、数据跨境合规和个人信息保护等方向,拥有国内外多部数据保护相关法律法规和规范的解读和落地实践经验。
叶笔长 瓴羊智能科技有限公司 AI Agent资深产品专家
演讲标题:数据消费场景AI Agent实践
个人介绍:字节跳动 MarsCode 开发⼯程师
演讲标题:从研发视⻆聊聊字节跳动的 AI IDE
演讲简介:现代软件开发过程⼏乎⽆法脱离 IDE 进⾏。在云服务能⼒逐渐完善、⼤模型能⼒逐渐可以在产品中可 ⽤的今天,我们⼀起重新坐下来思考⼀个适应现代开发流程、真正好⽤的 IDE 会是什么样⼦的,所以 我们有了⾖包 MarsCode IDE。本次分享从研发的视⻆出发,回顾⾖包 MarsCode IDE 是如何与云服 务、⼤模型能⼒结合来解决开发者们的痛点,并且在此之上提供更好的⽤⼾体验的。此外,针对⾖包 MarsCode IDE 中对于 AI 辅助编程的实践,⼀起聊聊我们做过的努⼒以及获得的效果。
演讲大纲:
1.⾃我介绍
2. 背景介绍⸺我们需要怎样⼀款 IDE?
3. ⾖包 MarsCode IDE 介绍
4. 云 + IDE 能⼒结合
5. AI 辅助编程的实践与探索
a. 在当下,AI 可以给 IDE 带来什么
b. 代码⽣成、代码补全、代码⾃动修复、辅助决策等能⼒实践
c. 针对代码补全场景,介绍我们尝试构建的测评指标
6. 总结与展望
AI Agent 落地 | 数据安全 | 大模型驱动的搜推广新范式 |
|
|
|
金融场景 GenAI 创新应用 | 大模型助力研发提效 | 新一代数据产品开发 |
|
|
|
大模型训练推理 | 大小模型协同进化 | 多模态 RAG |
|
|
|
数智化出海业务 | 数据治理 | 智能分析与决策 |
|
|
|
AI Native 数据架构落地 | AI Native 数据底座 | AI-Ready 的数据工程 |
|
|
|
会议室:宴会厅
开场致辞
数智平台重回“战国时代”:新一代 Data+AI 架构设计与演进
合规引领,价值驱动——解锁集团数据要素流通实战
大模型在供应链领域的应用
圆桌:数智融合,探寻新质生产力
会议室:宴会厅 2
海外游戏场景的大模型落地实践
昇腾在大规模 AI 集群调度的实践分享
Alluxio: 构建大模型时代的高速数据访问平台
大语言模型推理与训练协同演进:探索高效推理技术的新篇章
会议室:宴会厅 3
A/B 实验助力小游戏快速调优&快速变现
因果推断在无人零售行业的应用
基于指标+标签的经营分析 Agent 创新实践
平安人寿大模型智能化报表——ChatBI
会议室:沙龙 1
QQ音乐流批一体实时样本工程实践
为机器提供源源不断的数据
RisingWave x 特征工程: 解锁实时特征新范式
会议室:沙龙2
平安人寿数据管理实践与展望
阿里云DataWorks:新一代“Data+AI”数据开发与数据治理平台的产品演进
破解高成本治理的创新之道——链路智能压缩
会议室:宴会厅 1
基于 Ray 的分布式 AI Agent 框架
领域⼤模型应⽤通⽤评测框架及实践
大模型时代的知识工程:企业级知识库的建设及应用
数据消费场景AI Agent实践
会议室:宴会厅3
Blaze:快手自研 Spark 向量化引擎从生产实践到社区开源
腾讯云流式湖仓统一存储实践
蚂蚁开源向量库 VSAG 实践
GraphRAG on DB-GPT: 蚂蚁图数据库驱动的开源 GraphRAG 架构演进
Gravitino 助力 TBDS 架构升级:打造全新一代数据湖仓产品
即将上线,敬请期待
会议室:宴会厅1
多模态前沿技术和产业落地应用
端上大语言模型推理优化
SensePPL 高性能大语言模型推理系统
会议室:宴会厅2
下一代 RAG:tidb.ai 使用知识图谱增强 RAG 能力
现代化实时数据仓库 SelectDB 产品全面解读
LLM+Agent 助力下的数据分析智能化转型研究与实践
会议室:沙龙1
大模型在数据管理和应用领域的实践
数据要素安全流通 AI-SafeTech
跨国经营中的企业数据合规之道
会议室:沙龙2
ABetterChoice 实验平台出海数据架构探索实践
企业出海数据合规与风险防范
沐瞳游戏出海:数据集成探索实践
会议室:沙龙2
大模型电销落地实践:打造 AI 驱动的下一代智慧销售
数据信托:一种数据要素流通的新型解决方案
围绕数据资产图谱的数据架构治理与评价
金融风控领域的大模型落地实践
会议室:宴会厅2
所见即所得——多模态 RAG 的实现
基于 RAG 和 Agent 技术的混元大模型业务落地实践
腾讯云 ES:一站式 RAG 方案,开启智能搜索新时代
多模态 RAG 及 GraphRAG 前沿探索及应用
会议室:沙龙1
大模型技术重塑智能研发新范式
金融服务领域的数据工具建设和治理思路
GMI Cloud:基于高稳定性 GPU 集群的 AI 出海应用高效业务开发探索
从研发视角聊聊字节跳动的 AI IDE
会议室:宴会厅1
大语言模型时代推荐系统的发展路径及未来趋势
互联网广告场景下的大模型应用挑战与实践
大语言模型在推荐场景中落地的经验与思考
开场致辞
数智平台重回“战国时代”:新一代 Data+AI 架构设计与演进
个人介绍:
云器科技联合创始人兼 CTO,曾任阿里巴巴 P10 研究员,主导了阿里云飞天大数据平台二代研发及落地,曾于微软云计算和企业事业部工作近十年,浙江省科技进步一等奖获得者。
演讲介绍:
数智平台重回“战国时代”:新一代 Data+AI 架构设计与演进
数据平台已经发展 50 年,2022 年随 LLM/AGI 的革命性突破,它迎来了第三次革命。半非结构化数据的处理能力被解锁,数据处理能力和规模再一次触碰 10X 的潜力,也给数智 Infra 带来全新挑战。作为平台从业者,有两个关键问题值得关注。一个是随 AI 能力增强,数据表达方式越来越多样化(结构化、标量化、向量化、点边化、模型化等等),导致数智平台重回“战国时代”。这些方式的价值和差异是怎样,基础设施又如何最优支持他们,是当前摆在数智平台从业者的关键问题。另一个问题,在 LLM 早期剧烈变化迭代的大背景下,“数”与“智”的融合之道是怎样的?已有数据平台与 AI 平台的关系如何,AI Infra 是否独立建设,哪些应当融合共享,哪些需要灵活拆分?演讲者试从基础架构的视角,与参会者探讨新一代 Data+AI 平台架构的演进与验证。
演讲提纲:
1. 数据平台的第三次革命,以及背后的驱动力
2. 数智平台重回“战国时代”,多种数据表达方式的价值与差异
3. “数平台”vs“智平台”,拆分与融合
4. 新一代 Data+AI 平台架构的设计原则、演进思路与验证
听众收益:
1. 了解不同计算模式的价值与最佳实践
2. 面向未来的几个发展趋势和未解疑问
3. AI Native 数智平台的设计原则与思路
合规引领,价值驱动——解锁集团数据要素流通实战
平安集团科技数据管理副总工程师、数据管理团队负责人。毕业于北京邮电大学计算机软件与理论专业。曾任 Teradata 大中华区产品及解决方案总经理、就职于 IBM GBS、SAS 等数据领导者,拥有 19 年的数据合规、数据治理、数据中台与数据智能相关的实施、咨询服务的经验。开创“合规高效的数据管理及运营体系”,一方面致力于企业数据中台产品和应用的规划建设;另一方面研究落实国家和监管法律法规对企业数据资产管理、数据制度建设、数据合规安全使用等方面的要求。深耕领域涉及银行、保险、通信运营商、交通、医疗、汽车、高科技制造、零售等。
大模型在供应链领域的应用
苏冠,顺丰科技智能供应链算法总工程师,15 年供应链管理咨询与系统设计、实施经验。曾任职 D&B 管理咨询、阿里供应链中台负责智慧供应链解决方案与产品。为零售、快消、物流、电商行业头部企业提供需求预测、补货调拨、网络规划、运输优化、供应链优化以及系统设计与实施服务
圆桌:数智融合,探寻新质生产力
海外游戏场景的大模型落地实践
黄裕城, 2022年加入腾讯,主要从事海外游戏场景NLP&Speech算法的研究与落地,主要研究方向包括:多模态理解,大语言模型和AI智能体等,在ACL、TNNLS等国际顶会顶刊发表论文十余篇,并多次在国内外AI算法大赛中获奖。
演讲标题:海外游戏场景的大模型落地实践
演讲大纲:
海外游戏场景下的大模型落地实践
1. 基于大模型的 NPC 角色扮演
1.1 角色扮演的数据构造流程是什么?
1.2 角色扮演大模型如何进行训练?
1.3 角色扮演的评测体系如何构建?
2. 基于大模型的本地化翻译
2.1 游戏场景下机器翻译的挑战有哪些?
2.2 机器翻译如何有效利用大模型能力?
2.3 游戏场景下机器翻译如何持续优化
听众收益:
1.了解海外游戏中大语言模型落地的典型场景与挑战
2.了解大语言模型落地有效的数据构建与训练流程
昇腾在大规模 AI 集群调度的实践分享
2014 年中南大学硕士毕业加入华为,先后从事网络云引擎开发、开源软件治理和昇腾基础软硬件算法及应用开发等工作,曾任重庆人工智能创新中心 CTO,发展区域国产人工智能生态与人才,现为华为昇腾生态技术专家与布道师。
演讲题目:昇腾在大规模 AI 集群调度的实践分享
演讲会讲解 AI 大模型集群组成,包括计算节点、存储系统、系统组网、管理调度系统,以及展开介绍调度框架基础流程,重点介绍昇腾集群调度使能组件 MindX DL 的特性,集群服务器的部署调度流程,并进行实操演示模型训练调度等实验。
演讲提纲:
1. AI 大模型集群组成
2. 昇腾集群调度框架特性
3. 昇腾集群调度 MindX DL 的入门实操
听众收益:
1. 熟悉昇腾 AI 算力集群
2. 了解集群调度方案
3. 昇腾集群调度框架实践演示
Alluxio: 构建大模型时代的高速数据访问平台
麦嘉铭,Alluxio资深软件工程师,曾就职于阿里云、BIGO和腾讯音乐,多年Presto/Trino和ClickHouse的开发和运维经验,包括内核研发、线上问题诊断、数百节点集群稳定性保障等。在计算机视觉领域相关的顶级国际期刊和会议发表多篇论文,出版著作《机器学习算法框架实战》。目前在Alluxio负责AI训练和大数据查询等场景的存储加速性能优化。
演讲介绍
Alluxio: 构建大模型时代的高速数据访问平台
Alluxio 是一个创新的高性能数据访问平台,它连接了各种机器学习引擎与存储系统,实现了跨区域和跨云的数据虚拟化。它简化了大规模数据应用的访问和管理,提供了按需数据访问,优化了数据架构,确保在正确的时间访问正确的数据。
Alluxio支持AI训练任务的高性能数据集管理,包括数据湖操作和消除数据冗余,减少了对专用硬件的依赖。它允许灵活的数据部署,充分利用计算资源,无论数据位于何处。同时,Alluxio可以提高GPU使用率,降低整体数据架构的成本。该报告将分析提高数据访问性能的主要瓶颈,并介绍Alluxio的原理、技术及核心价值。
大语言模型推理与训练协同演进:探索高效推理技术的新篇章
致力于京东基础大模型的高效推理技术研发和训练侧协同优化技术,主导并参与了京东自研推理部署一体化框架的研发,相关技术已在京东内部多种业务场景中应用。
A/B 实验助力小游戏快速调优&快速变现
因果推断在无人零售行业的应用
杨思,丰e足食高级数据科学经理,曾任职家乐福,在选品、用户、营销、价格和供应链领域拥有丰富的数据科学项目操作经验和业绩产出,成功应用因果推断技术于传统行业转型、推动业务增长。
演讲题目:因果推断在无人零售行业的应用
当前因果推断在互联网领域已经累积了大量的最佳实践和应用案例,线下业务和传统行业在运营过程中也面临着许多策略选择需要借助因果推论来决策,且应用场景具有特殊性,但业界相关可参考的资料较少。本次演讲分享丰e足食在数智化建设过程中,如何借助因果推理和 AB 测试提升决策的准确性,应用覆盖点位开发、选品、补货、运力调配、精准营销等各个运营环节。
听众收益:
1. 因果推断相关技术与真实线下业务场景结合的落地实践
2. 无人零售行业因果推理应用特有的挑战和解决方案
基于指标+标签的经营分析 Agent 创新实践
个人介绍:
负责数势科技智能算法的开发,包括 LLM agent,RAG,内容推荐,文本生成,知识图谱挖掘等算法技术。英国纽卡斯尔大学博士,在智能算法领域学术与工作经验丰富。在学术研究方面,拥有 10 项智能算法相关专利并发表 4 篇国际期刊,曾主导由欧洲玛丽居里计划资助的国际项目,在研究期间,共发表了 3 篇期刊文章、1 篇会议文章和 1 篇 chapter;在工作方面,曾任职京东零售数据中台,负责人工智能技术在营销领域的相关落地,多次获得优秀员工及集团战略项目奖,曾获 Hicool 全球创业大赛二等奖。
演讲介绍:
基于指标+标签的经营分析 Agent 创新实践
数据分析在企业运营中的作用愈发显著。通过有效的数据分析,企业可以洞察市场趋势、优化运营流程、提高决策质量,从而在竞争激烈的市场中占据优势。在本次技术演讲中,我们将专注于大模型(LLM)如何叠加业务语义层促进企业数字化经营水平的提升。探讨 LLM 智能分析 Agent 的自然语言数据交互能力及其如何降低数据使用门槛,提升数据在决策和业务流程中的影响力,并助力数据民主化与价值化。
同时我们也会重点说明基于指标 + 标签的经营分析 Agent 与 ChatBI 的区别,并展示其在复杂数据分析业务下的具体表现优势,展示其如何使数据分析更精确和灵活,降低幻觉问题。此外,我们会分享实际应用案例,探讨企业如何以智能分析 AI Agent 解决数据分析准确性、数据源全面性、分析逻辑黑盒不可信以及数据计算查询效率及性能等问题。
演讲提纲:
1. 行业通用企业数据分析 Agent 的实现方案和不足
2. 基于指标 + 标签的经营分析 Agent VS ChatBI
3. 指标和标签能力在搭建企业数据分析 Agent 时的技术创新点
4. 数据产品设计中遇到的挑战和经验总结
5. 具体落地应用案例和场景必要性
6. 产品演进的趋势及基于大模型技术的数据产品设计创新的思路
听众收益:
1. 为什么在大模型技术赋能数据分析场景时需要引入“业务语义层”(Semantics),以 -- NL2Semantics2Metrics+Label API 替代 NL2SQL
2. 了解基于指标 + 标签的经营分析 Agent 与 ChatBI 的区别
3. 了解如何基于指标 + 标签的分析 Agent 能力搭建企业分析平台
4. 了解具体行业用户在落地搭建分析 Agent 中的难点和解决思路
落地挑战和方案重点:
提升 Agent 的自主决策能力。尽管目前的 Agent 可以有效地构建数据资产并转化为分析结果,它们还未能达到自主规划和执行数据驱动决策的阶段。这表明在从分析到决策的自动化过程中仍存在缺口
平安人寿大模型智能化报表——ChatBI
从事大数据相关的工作 10 年,长期从事保险领域的 BI 报表、风控模型开发,目前正在研发基于大模型的 ChatBI 项目,预期实现基于对话模式的实时随机报表、预警预测等功能。主持的风控模型项目曾获得“燕梳奖”、“金信通”奖等荣誉。
QQ音乐流批一体实时样本工程实践
QQ 音乐数据架构师,毕业于 UNSW, 之前曾在快手从事 NLP 自然语言处理算法工程相关工作. 目前负责 QQ 音乐的特征工程,样本工程等底层数据建设与迭代,专注于大规模场景下的实时数据工程架构设计。
演讲介绍:
QQ音乐流批一体实时样本工程实践
QQ 音乐通过 Flink 和 Iceberg 实现了同时支持流式训练和批式训练的样本工程, 在 QQ 音乐的跨场景推荐中取得了显著的效果。本次分享将介绍基于 Flink 和 Iceberg 的流批一体实时样本工程的实现以及在推荐场景中的应用。
演讲提纲:
1. 工程架构:从消息队列到 Iceberg 的入湖链路如何拆分的 Flink 子任务更合理
2. 任务设计:样本拼接的 Flink 任务如何设计拼接逻辑,如何设置特征缓存,如何计算 Label
3. 效果对齐:实时样本如何尽可能对齐离线天级别聚合样本, 如何避免样本的 Label 分裂
4. 成本和性能:超大状态样本拼接 Flink 任务如何降低 timer 的数量,如何提升任务稳定性,如何节省资源成本,如何保障 10TB+ 状态的任务正常恢复
5. 应用场景:Iceberg 样本如何同时应用在流 / 批训练
6. 一些 tips:分享实时样本中我们能拿到推进效果收益的改造
为机器提供源源不断的数据
王师杰在科技领域拥有丰富的国际管理经验。在加入 Bright Data 之前,他曾担任 Applause 的国际业务发展主管,负责从零开始建立中国市场。在任职期间,他建立了关键合作伙伴关系,推动了中国互联网行业中多个重要客户的快速增长。在此之前,王师杰曾担任 Testin 的国际业务发展经理,随后晋升为美国市场总经理。在此期间,他建立了 Testin 云测的第一个国际设备测试实验室,并领导与 Meta(Facebook)、亚马逊、苹果、Netflix 和 Alphabet(谷歌母公司)等公司的产品开发与测试合作,专注于适应中国市场需求。王师杰拥有森林湖学院金融与国际关系学士学位。凭借其丰富的专业经验以及对全球科技产品和市场本地化的深入理解,王师杰在快速变化的科技行业中拥有独特的视角和见解。
演讲题目:为机器提供源源不断的数据
RisingWave x 特征工程: 解锁实时特征新范式
• RisingWave Labs -> VP of Engineering (DB Kernel & Storage)
• Wechat Infra -> Staff Engineer (Large-scale Online Storage)
• LinkedIn Infra -> Senior Engineer (Kafka & Next-gen Streaming Platform)
• CMU DB Labs -> Research Assistant (Peloton DBMS)
演讲题目:RisingWave x 特征工程: 解锁实时特征新范式
AI 的普及催生了越来越多的能受益于机器学习模型的场景的出现,而模型的有效性和时效性往往取决于特征工程的有效性和特征的实时性。RisingWave 作为新一代的云原生流处理平台,可以帮助不同的用例降低构建特征工程的门槛,轻松完成实时特征的摄取、构建、拼接、Serving。本次分享将介绍 RisingWave 的架构和设计理念,以及基于 RisingWave 构建特征工程的优势。
听众收益:
1. 了解实时特征工程的难点与挑战
2. 如何借助 RisingWave 轻松构建特征工程
3. 云原生架构下如何高效实现长周期大状态的特征计算
平安人寿数据管理实践与展望
四川大学计算机系硕士研究生,从事数据治理工作16年,负责平安人寿企业级的数据治理体系规划与建设。
阿里云DataWorks:新一代“Data+AI”数据开发与数据治理平台的产品演进
个人介绍:阿里云DataWorks产品负责人,打造全链路数据开发治理平台支撑阿里巴巴集团与阿里云上众多客户的数字化转型。
演讲题目:阿里云DataWorks:新一代“Data+AI”数据开发与数据治理平台的产品演进
破解高成本治理的创新之道——链路智能压缩
拥有近 12 年大数据经验,在数据治理、数据分析和应用、数据平台建设方面拥有丰富经验。现任蚂蚁安全大数据部数据治理一号位,近期在探索一种新型研发模式,智能的规划重组当前的数仓链路,达到资源、成本、时效最优状态。
基于 Ray 的分布式 AI Agent 框架
领域⼤模型应⽤通⽤评测框架及实践
个人介绍:
吴湖龙,货拉拉数据科学团队数据挖掘方向负责人,负责大模型在邀约、客服等多个场景中应用落地的评测相关工作。深耕物 流货运行业多年,曾就职顺丰科技,主要负责供应链解决方案算法及预测方案开发。
演讲介绍:
领域⼤模型应⽤通⽤评测框架及实践
⼤语⾔模型经过前期爆发式增⻓,已经从基础模型的百花⻬放逐步转变到落地应⽤的阶段,各⾏各业都试图通过⼤模型的加持来实现降本增效。然⽽,⼤模型的应⽤落地遇到具体场景时会⾯临⼀系列的问题,⽐如真实的效果如何准确评估、优化⽅向有哪些等等。本次分享以⼤模型应⽤为落脚点,从能⼒界定、数据整合、评测科学、统计科学等⻆度全⾯解析领域⼤模型评测的⽅案,保障评测过程科学、评测结果可信,最终准确评估⼤模型在实际应⽤场景中的效果。此外,结合实际案例,进⼀步验证⽅案的有效性。
演讲提纲:
1. 背景介绍
• 领域⼤模型应⽤背景
• 评测⽬标:评测要达成什么⽬的
• 评测⽅案及问题:现有的评测⽅案存在什么问题
2. 领域⼤模型应⽤评测框架
• 模型能⼒界定:需要评测什么内容、⽤什么指标来度量
• 评测数据整合:如何构造评测数据,使得模型的能⼒得到真实的反馈
• 评测流程科学设计:过程中要注意哪些点来保证评测的科学性,单盲、多盲测试等
• 结果分析科学统计:如何通过统计结果来校验同⼀评测⼈员/Agent的评测是否⼀致
3. 领域⼤模型应⽤评测实践
• 货运⼤模型应⽤背景:邀约、客服,有什么问题和难点
• 货运⼤模型评测实践:如何来科学、准确的评估⼤模型应⽤的效果
◦ 评测什么内容
◦ 如何获取数据
◦ ⽤哪些指标
◦ 设计什么流程
4. 总结与展望
• 总结:当前应⽤的情况
• 展望:后续会怎么迭代
听众收益:
1. 了解具备可复⽤性的⼤模型落地评测⽅案的构建过程
2. 熟悉⼤模型应⽤评测过程中的问题点和解决⽅案
落地挑战和⽅案重点
1. 如何设计合理的指标和流程,保障真实反馈应⽤落地的效果
2. 结果的科学性和可信度如何通过流程约束和数据校验加以保障
大模型时代的知识工程:企业级知识库的建设及应用
演讲题目:大模型时代的知识工程:企业级知识库的建设及应用
本次演讲将深入探讨在大模型技术驱动下,如何构建企业级的统一知识沉淀与应用平台。数据层面实现自动化知识抽取、语义理解与结构化知识构建,全面加速企业知识体系的完善与演进;应用层面借助智能 Agent 技术,将知识服务精准嵌入具体业务场景,赋能自动化决策、任务执行和流程优化,显著提升企业的智能化经营水平。
听众收益:
1. 了解如何通过大模型技术自动化构建企业知识库,并提升知识管理效率,从而推动企业知识体系的数字化转型
2. 掌握智能 Agent 技术在具体业务场景中的应用,通过智能化决策与流程优化,实现业务自动化和智能化的提升
数据消费场景AI Agent实践
叶笔长 瓴羊智能科技有限公司 AI Agent资深产品专家
演讲标题:数据消费场景AI Agent实践
Blaze:快手自研 Spark 向量化引擎从生产实践到社区开源
在快手数据平台部负责 Spark 和 Blaze 向量化引擎的研发和维护,曾任职于百度、滴滴、蚂蚁集团等一线互联网公司,对大数据技术体系有较丰富的经验。
演讲题目:Blaze:快手自研Spark向量化引擎从生产实践到社区开源
Spark 是当前业界大数据离线计算最主要的系统,向量化是前沿的性能优化技术,快手通过自研的 Blaze 引擎,将向量化技术与 Spark 结合,大规模落地到生产环境,取得了 ~30% 的线上资源收益,目前项目已经在社区开源。本次演讲将介绍向量化技术原理和业界应用、Blaze 引擎的研发、上线历程,以及 Blaze 引擎的社区开源计划和未来规划。
听众收益:
1. 了解向量化技术基本原理和当前在行业内的应用。
2. 了解快手的 Blaze 项目使用向量化技术对 Spark 引擎进行优化的原理,整个项目从研发到线上大规模应用的历程和落地效果
3. 了解 Blaze 开源计划,是否可以将 Blaze 引擎运用在自己的生产环境,有机会参与社区共建
腾讯云流式湖仓统一存储实践
李哲,现任腾讯云高级产品经理,毕业于香港大学,多年大数据平台产品建设经验,参与多个大数据套件底座产品和工具链产品的规划与商业化工作。目前作为腾讯云流计算平台产品方向负责人,致力于新型流式湖仓和增量计算技术发展,推动企业在数据处理分析上的创新。
演讲题目:腾讯云流式湖仓统一存储实践
随着大数据技术的发展,大数据流批链路会存在不可避免的问题和挑战,传统上,用户会选用 Lambda 架构来搭建数据分析的链路。但是它也存在一些问题:灵活性低、Update 场景支持不足、开发和维护成本高昂、数据一致性问题、可扩展性瓶颈此外,由于 Lambda 离线和实时都走独立的链路,其数据存储和计算引擎都是隔离的,相同的数据需要进行重复存储,实时与离线的计算逻辑也需要单独开发,因此其维护、管理和业务变更的成本都很高。因此,我们需要一套新的架构,能够对实时和离线的分析链路进行统一,并且尽可能降低实时分析的成本。
针对以上问题,我们推出了流式湖仓 Streaming Iceberg ,这是腾讯自研的基于 Iceberg 生态的流式湖仓解决方案。本次分享将深入探讨腾讯云流计算 oceanus 在流式湖仓方向的探索,详细解析流式湖仓 Streaming Iceberg 的优势,并结合实际案例展示流式湖仓的效果和能力。
演讲提纲:
1. 流式湖仓及其带来的架构升级
2. 腾讯云流式湖仓解决方案
3. 腾讯云流式湖仓实践
听众收益:
1. 了解流式湖仓的原理与该领域的发展
2. 了解腾讯云流式湖仓实践与优化
蚂蚁开源向量库 VSAG 实践
演讲题目:蚂蚁开源向量库 VSAG 实践
GraphRAG on DB-GPT: 蚂蚁图数据库驱动的开源 GraphRAG 架构演进
范志东,蚂蚁图计算开源负责人、图计算布道师。负责 TuGraph 的开源技术演进、社区运营和商业化等工作。TuGraph Maintainer、DB-GPT GraphRAG 作者、《自己动手构造编译系统》作者。先后就职于腾讯、阿里云、蚂蚁,从事大数据平台、云数据库、图计算相关的产品设计和技术建设。在分布式计算、数据安全管理、数据中台架构、开源布道等领域有丰富的开发和实践经历。
Gravitino 助力 TBDS 架构升级:打造全新一代数据湖仓产品
Datastrato联合创始人
即将上线,敬请期待
多模态前沿技术和产业落地应用
毕业于南加州大学,多年深耕于计算机视觉方向,负责飞桨目标检测套件 PaddleDetection 研发,从 0 到 1 打造了飞桨目标检测端到端的开发套件,开发的检测模型 PP-YOLOE,RT-DETR 效果达到 SOTA 水平。2023 年起负责飞桨多模态大模型套件 PaddleMIX,一系列多模态大模型开发体验及训推性能达到业界领先。
演讲题目:多模态前沿技术和产业落地应用
本次分享将深入解析多模态大模型的最新架构和应用场景,并对多模态大模型开发套件 PaddleMIX 进行深度剖析。
演讲提纲:
1. 多模态大模型前沿能力与核心架构
2. 多模态大模型落地应用难点与解决方案
3. 多模态大模型开发套件 PaddleMIX 解析
端上大语言模型推理优化
OPPO 研究院高级机器学习算法工程师,负责机器学习平台系统相关工作。曾主导多个机器学习、隐私计算平台、大模型推理平台的设计,开发及落地工作。参与发表机器学习专著一部,发表机器学习论文、专利数篇。
演讲题目:端上大语言模型推理优化
SensePPL 高性能大语言模型推理系统
下一代 RAG:tidb.ai 使用知识图谱增强 RAG 能力
王琦智,PingCAP TiDB Ecosystem Software Architect / Senior Developer Advocate,有着 7 年研发与架构经验。曾就职于腾讯音乐、锦江等公司。目前在 PingCAP 负责 TiDB 生态系统架构及开发者 Advocate。实现 TiDB 与 AWS、GORM、 MySQL Connector、Hibernate、DBeaver 及 vscode-sqltools 等平台集成,开发了 tidb.ai。
现代化实时数据仓库 SelectDB 产品全面解读
有近 10 年云存储及分布式数据库架构设计、研发与团队管理经验,主导了 SelectDB 存算分离功能的设计与实现。
议题名称:现代化实时数据仓库 SelectDB 产品全面解读
简介:SelectDB 是基于 Apache Doris 构建的现代化数据仓库,支持大规模实时数据上的极速查询分析。此次演讲将为您从以下方面对 SelectDB 产品进行全面解读,帮助您快速了解 SelectDB 的技术优势与应用场景:
数据仓库当前所面临的挑战与发展趋势
SelectDB 产品简介
SelectDB 的设计探索与创新
SelectDB 应用场景与用户案例
听众收益:
前沿洞察:了解数据仓库领域的最新趋势和技术创新,为企业的数据分析选型提供视角
性能优化:了解 SelectDB 如何通过技术创新提升性能,在多场景下达到业界领先的性能水平
案例学习:了解头部企业用户案例,获取多场景下 SelectDB 应用实践经验
LLM+Agent 助力下的数据分析智能化转型研究与实践
演讲题目:LLM+Agent助力下的数据分析智能化转型研究与实践
大模型在数据管理和应用领域的实践
现任平安壹钱包大数据部门副总经理,带领团队致力于构建高效的数据分析体系,通过创新技术推动业务增长与客户体验优化,主导了多个关键项目,包括企业级数据平台的搭建与升级、智能数据分析工具的研发等,显著提升了公司内部决策效率。专注于深度学习、自然语言处理等领域的大规模机器学习模型开发。并积极推动研究成果向实际场景转化,特别是在数据管理、风险控制等方面取得了突破。
数据要素安全流通 AI-SafeTech
跨国经营中的企业数据合规之道
陈晓芳,vivo 安全团队数据合规经理。2021 年加入 vivo 从事数据合规工作,涉猎领域包括 APP 隐私治理、数据分类分级、数据跨境合规和个人信息保护等方向,拥有国内外多部数据保护相关法律法规和规范的解读和落地实践经验。
ABetterChoice 实验平台出海数据架构探索实践
演讲题目:ABetterChoice 实验平台出海数据架构探索实践
演讲提纲:
1. 关于ABetterChoice A/B实验平台介绍
2. 介绍什么是A/B实验,以及做A/B实验好处
3. 介绍在海外复杂环境下,探索符合海外安全合规的A/B实验数据架构,助力业务出海
企业出海数据合规与风险防范
沐瞳游戏出海:数据集成探索实践
演讲标题:沐瞳游戏出海:数据集成探索实践
大模型电销落地实践:打造 AI 驱动的下一代智慧销售
新浪数科技术专家,拥有近 20 年 IT 行业经验。专注于生成式人工智能(AIGC)应用落地,大语言模型在智慧电销、智能客服和催收训练等场景的实践。涵盖模型选型、样本工程、训练和评估全流程。同时负责中国人民银行征信报告特征引擎研发,并成功主导风险模型平台的架构规划、搭建及流量分发策略实施。
演讲题目:大模型电销落地实践:打造 AI 驱动的下一代智慧销售
这是一场关于如何用 AI 重塑销售流程、提高转化效能的真实案例分享。内容涵盖了应用价值、技术路径、项目经验,从构思到落地的全面视角,如何解决各种实际的问题,以及面临的主要挑战和方案。
面对人力限制与智慧销售的挑战,我们利用“对抗式”和样本进化等技术合成高质量样本,不仅效率提升数十倍,更增强了样本多样性和质量数倍,且显著提高了 9B 模型的整体性能。
通过引入了优雅打断机制的小模型,确保对话自然流畅更拟人,采用的 0.5B 小模型,响应在 50ms,且打断判别准确度达到 90% 以上,显著提高了用户体验;
通过 DPO 偏好优化,客服回复的简洁度提高 50% 以上,语句更加生动活泼,且更加有吸引力;
通过个性化话术,应用差异化、有吸引力的开场白来提高销售水平;
此外,借助专项评估手段,结合 A/B 框架,我们持续迭代模型,模型重复性问题减少 80%,幻觉问题减少 92%,实现了业务增长和技术进步的双赢局面。
最后进一步总结了四个主要的挑战和方案。
演讲提纲:
1. 项目背景与目标
2. 核心技术与方案
- 样本技术:对抗进化
- 优雅打断机制:提升对话自然度
- 个性化与优化:提升销售效果
- 持续优化与质量保证
3.落地实践
- 系统落地与业务 impact
- 挑战与解决方案
4. 未来展望
听众收益:
1. 大模型在电销领域的实际应用价值
2. 大模型应用的技术路径
3. AI 项目的落地经验
落地挑战和方案重点:
1. 拟人化:智能电销拟人化面临的主要挑战包括语音自然度,逼真模拟人类对话节奏
2. 可控性:例如输出不一致性、边缘案例处理、安全边界
3. 不可预知应答的风险:商业风险、法律风险、道德风险
4. 模型可解释性和控制性
数据信托:一种数据要素流通的新型解决方案
认证国际数据管理协会 DAMA 数据治理专家 CDGP。2022 年荣获深圳市产业发展与创新人才奖、平安集团 AI 大数据十佳优秀个人称号。深耕数据领域 17 年,拥有丰富的金融和通信行业数据平台、数据应用的建设和运营、数据资产变现、数据治理、数字化转型落地经验。发表多项学术研究,其中牵头信托行业的数字化课题研究及深圳特区金融学会的数据治理课题研究。
演讲题目:数据信托:一种数据要素流通的新型解决方案
数据要素在经济社会发展中的重要性日益凸显,但与此同时在多源数据合规汇聚、数据可信流通、数据权益分配、数据资本化等方面存在不少问题和挑战。为此,我们提出一种创新的数据要素流通解决方案:数据信托。
数据信托是委托人将其数据权益委托给受托人,按照委托人的意愿和法律规定创设出信托关系,形成一种“信托式”的数据资产运营管理方案。数据信托将在数据资产运营管理方面也将发挥独特价值。 数据信托以法律、协议和技术为基础,引入信托的信任机制、归集特点、受托职能、第三方独立管理、收益分配等特点,为数据共享提供信任基础,为数据信托提供新模式,为金融产品创新提供新思路。 在企业数据信托场景,数据信托通过数据要素流通实现商业闭环,数据流和资金流同频共振,促进数据价值乘数级释放;在个人数据信托场景,数据信托推进构建以人民为中心的数据要素市场。 数据信托,兼具技术创新与模式创新的创新方案。
我们在某经纪公司和充电桩企业落地实践,项目取得很好的经济效益和社会效益。
听众收益:
1. 为数据要素流通、数据资产化和资本化提供新的思路和启迪
2. 在数据要素流通中的安全合规、个人信息保护方面,除技术手段外,从模式上创新,促进数据合规流通和安全保护
围绕数据资产图谱的数据架构治理与评价
毕业于华中科技大学,工作以来在股份制商业银行、央企、头部券商等多家大型企业开展数据治理工作,具备在数据标准的建设和应用、数据质量提升、数据安全治理、数据资产评估等领域从零建设的实践经验,目前在国信证券负责企业数据治理各方面的工作推进。
演讲题目:围绕数据资产图谱的数据架构治理与评价
金融风控领域的大模型落地实践
个人介绍:毕业于代尔夫特理工大学,专注于图计算与知识图谱在Akulaku各种智能应用的落地。
所见即所得——多模态 RAG 的实现
数据库系统和人工智能系统专家,InfiniFlow 联合创始人,负责公司研发工作。在创立 Infiniflow 之前,曾任 Zilliz 研发负责人,带领团队创立 Milvus 向量数据库;矩阵起源研发 VP,负责 MatrixOne 数据库内核的设计和研发工作。
演讲题目:所见即所得——多模态 RAG 的实现
2024年可以算得上是多模态大模型取得井喷的一年,随之而来的,就是多模态 RAG,是否也会开始落地并产生价值?来自于企业内部的文档问答,已经解锁出大量使用需求和场景。在这些文档中,有相当一部分包含各类复杂的图表内容。这些图和表就是各种多模态数据。如何对这些数据进行有效问答,是下一代 RAG——面向多模态数据场景,关注的重点。
听众收益:
1. 多模态 RAG 最新进展
2. 面对多模态场景,RAG 有哪些技术路线,分别的优劣
基于 RAG 和 Agent 技术的混元大模型业务落地实践
赵喜生,腾讯机器学习平台高级工程师,多年机器学习工程和大数据领域经验,主导过多个数据和机器学习相关产品的研发和设计工作,包括机器学习平台、推荐系统、用户画像、DMP 平台等。
腾讯云 ES:一站式 RAG 方案,开启智能搜索新时代
演讲题目:腾讯云 ES:一站式 RAG 方案,开启智能搜索新时代
在大型语言模型(LLM)引领的革命浪潮中,搜索与大模型的紧密结合已成为推动知识进步的关键要素。作为开源搜索引擎排名第一的 Elasticsearch(ES),结合沉淀多年的文本搜索能力和强大的向量检索能力实现混合搜索,使搜索变得更准、更全、更智能。在现阶段大模型应用落地中,RAG 已经成为了必不可少的“最后一公里”,一个优秀的 RAG 系统必须能有效应对低延时、线上大规模运行时的稳定性、数据新鲜度以及成本控制等挑战。腾讯云 ES 多年来持续对开源 ES 的性能、成本、稳定性以及分布式架构进行深度增强优化,并在海量规模的云业务中接受考验。腾讯云基于 ES 实现了一站式 RAG 解决方案,具备了 RAG 技术规模化落地能力。
本次分享将深入探讨腾讯云 ES 在搜索领域的最新探索,详细解析腾讯云 ES 的一站式 RAG 方案,并介绍围绕该方案架构落地所进行的一系列内核性能和稳定性增强优化措施。此外还将分享微信读书“AI 问书”基于腾讯云 ES 和混元大模型的超大规模 RAG 技术实践。
演讲提纲:
1. 腾讯云 ES 在搜索领域的探索
2. 大模型时代与 RAG
3. 腾讯云 ES 一站式 RAG 方案
4. 大规模 RAG 案例实践
多模态 RAG 及 GraphRAG 前沿探索及应用
黄勇锋,香港中文大学博士,Kasma.ai 研究员,主要研究方向为知识图谱,图神经网络与大模型,在 ACL AAAI EMNLP TPAMI 等顶级会议期刊上发表论文多篇。
演讲题目:多模态 RAG 及 GraphRAG 前沿探索及应用
在大模型时代,尽管 RAG 已在文本领域如企业知识库管理中广泛应用,但在多模态和图结构数据场景下仍具研究潜力。
本次分享将概述多模态 RAG 的最新进展及其在复杂场景中的应用,并介绍 Kasma 在 GraphRAG 中的实践,主要包括 2 部分:
1) 基于形式化验证与知识时效性建模的大规模可信即时知识图谱构建
2) 基于因果学习 (Cascual Learning) 和分布外泛化 (Out of Distribution Generalization) 等技术的鲁棒与泛化性强的图检索增强与推理构建。
我们旨在通过这两部分内容——多模态 RAG 进展与 Kasma 在 GraphRAG 中的应用——展示在非纯文本数据环境中实现高效检索与生成的方法,推动技术向智能化和实用性方向发展。
演讲提纲:
1. 什么是 RAG,RAG 的研究应用意义
2. 多模态 RAG 与 GraphRAG 的基础概念介绍
3. 多模态 RAG 的前沿探索及进展
4. Kasma 在 GraphRAG 中的前沿探索与应用
听众受益:
1. 了解最新趋势:观众将了解到多模态RAG在模型架构和预训练技术方面的最新进展,以及如何应对统一多模态、长上下文和多轮交互等复杂场景的挑战,从而掌握该领域的前沿动态和技术趋势
2. 技术实践启发:通过 Kasma 在 GraphRAG 中的具体探索应用,观众可以学习到如何有效地管理和构建大规模的异质知识图谱,并利用图分析技术增强图检索与推理的能力,为实际应用场景提供解决方案和技术支持
落地方案和挑战重点:
1. 大规模知识图谱的构建挑战,包括系统效率与成本考量,知识库验证与更新机制的设计挑战
2. 图分析技术对于 GraphRAG 的升级的挑战在于需要考虑现实场景下做到灵活与通用性兼顾。
大模型技术重塑智能研发新范式
张立理,百度前端架构师,百度技术组织委员会 Web 方向负责人。2023 年起参与百度智能开发工 具Comate 的 IDE 端架构、模型提升等方面工作,对续写、生成、问答等软件开发环节的大模型应用有丰富经验。
演讲题目:大模型技术重塑智能研发新范式
金融服务领域的数据工具建设和治理思路
平安金服数据管理部数据室副总监
GMI Cloud:基于高稳定性 GPU 集群的 AI 出海应用高效业务开发探索
14+ 年云计算经验,历经产品研发、解决方案、销售管理。前阿里云资深总监,带领团队完成年销售额数百亿 RMB;中国云计算早期开拓者,前百度云创始团队成员。不仅拥有丰富且敏锐的商业洞察力和丰富的行业解决方案经验,还拥有深刻的云计算技术理解力和发展趋势判断力。
演讲题目:GMI Cloud:基于高稳定性 GPU 集群的 AI 出海应用高效业务开发探索
从研发视角聊聊字节跳动的 AI IDE
个人介绍:字节跳动 MarsCode 开发⼯程师
演讲标题:从研发视⻆聊聊字节跳动的 AI IDE
演讲简介:现代软件开发过程⼏乎⽆法脱离 IDE 进⾏。在云服务能⼒逐渐完善、⼤模型能⼒逐渐可以在产品中可 ⽤的今天,我们⼀起重新坐下来思考⼀个适应现代开发流程、真正好⽤的 IDE 会是什么样⼦的,所以 我们有了⾖包 MarsCode IDE。本次分享从研发的视⻆出发,回顾⾖包 MarsCode IDE 是如何与云服 务、⼤模型能⼒结合来解决开发者们的痛点,并且在此之上提供更好的⽤⼾体验的。此外,针对⾖包 MarsCode IDE 中对于 AI 辅助编程的实践,⼀起聊聊我们做过的努⼒以及获得的效果。
演讲大纲:
1.⾃我介绍
2. 背景介绍⸺我们需要怎样⼀款 IDE?
3. ⾖包 MarsCode IDE 介绍
4. 云 + IDE 能⼒结合
5. AI 辅助编程的实践与探索
a. 在当下,AI 可以给 IDE 带来什么
b. 代码⽣成、代码补全、代码⾃动修复、辅助决策等能⼒实践
c. 针对代码补全场景,介绍我们尝试构建的测评指标
6. 总结与展望
大语言模型时代推荐系统的发展路径及未来趋势
刘卫文,华为诺亚推荐搜索实验室主任研究员,2020年博士毕业于香港中文大学。主要负责大语言模型在推荐系统中的应用及AI Agent能力构建。在信息检索顶会(KDD,SIGIR,WWW,ICDE等)发表论文五十余篇,担任PC/SPC,担任GenRec@WWW24,GenRec@CIKM23,DLP@RecSys23研讨会主席。
互联网广告场景下的大模型应用挑战与实践
大语言模型在推荐场景中落地的经验与思考
沈春旭,清华大学硕士,研究领域为多模态信息检索、推荐系统。2018 年加入腾讯,高级算法研究员,从事用户增长算法研发,近年聚焦推荐领域大模型预训练和多域数据联合建模工作,研究成果主要发表在 ACL、EMNLP、AAAI、IJCAI 等领域顶会。
演讲题目:大语言模型在推荐场景中落地的经验与思考
本报告主要关于大语言模型 (LLM) 在推荐领域落地过程中的思考。涉及以下四方面:
1. 特征增强角度,LLM 为推荐模型注入开放性世界知识,解决跨域推荐和冷启动问题;
2. 模型架构角度,参考 LLM 训练 PPL,构建推荐领域适配的预训练、持续训练、业务精调范式,实现多域 - 多行为数据深度感知;
3. 信息融合角度,讨论推荐领域协同信号注入 LLM 的新范式,协同语义信息更精准建模用户偏好;
4. 知识推理角度,基于用户转化数据与 LLM 知识推理能力,加强对用户需求的深层次理解,改善用户的体验。
听众收益:
1. LLM 在推荐领域的潜在落地方案
2. 推荐大模型 PPL 构建经验与训练技巧
3. 推荐协同信息与通用语义信息融合技巧