使用微信扫一扫分享到朋友圈
使用微信扫一扫进入小程序分享活动
2023“百模大战”热潮渐落,2024年大模型迎来落地应用的突破。凭借预测能力及决策辅助作用,大模型注入了企业经营的每个环节。从产品研发创新,到运营和营销,到用户服务,深刻改造企业内核。
提及这两年互联网行业的焦点,“大模型”无疑是TOP话题,曾经火热的大数据架构看似淡出了公众视线。但是,大数据领域并未放慢脚步,反而也在快速发展,从繁多的开源组件堆砌而成的传统大数据平台,转向融合与简化为核心特质。业内共识在于,新一代数据架构将聚焦在高度集成化与简化设计上,这一转型将催生更高性能的智能基础设施。
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
DataFunCon2024北京站线下大会,将聚焦于大数据和大模型的融合发展,探讨如何利用这两大引擎推动智能时代的进步。
与行业专家,探讨数据智能落地的现在与未来。
复旦大学教授、博导,上海市数据科学重点实验室主任。长期从事大数据、 知识图谱研究。发表 CCF-A 、B 类等论文 200 余篇。出版学术专著与教材三部。 完成五十多项政府及人工智能头部企业研发项目。荣获包括华为、阿里、美团等机构授予的科研奖项二十多项。担任 Applied Intelligence 等多个国际期刊副主编或编委。
个人介绍:在大数据、人工智能领域拥有超过20年研发经验。目前负责阿里云大数据和机器学习平台,支撑达摩院、淘宝、菜鸟等大数据存储、计算、分析和机器学习的需求,同时服务于数以万计的云上客户。
曾担任NewsBreak工程总负责人,负责AI系统、推荐、广告等业务,并成功推动NewsBreak技术及商业化转型。
曾担任微软搜索与人工智能事业部工程副总裁和全球杰出工程师,带领团队研发搜索、对象存储、大数据计算、深度学习平台和框架,支撑微软Bing、Office365、Azure、大语言模型研究等业务。创建和领导了大规模深度学习团队DeepSpeed,并发布了当时最大的语言模型170亿参数的Turing-NLG。
纽约大学计算机硕士学位、中国科学技术大学计算机和经济管理双学位。
个人介绍:vivo AI算法负责人,主导vivo蓝心大模型及AI算法团队的研发与管理工作。
个人介绍:阿里巴巴企业智能算法负责人,资深算法专家,浙江省人工智能协会智能制造分会百人专家,山东人工智能协会专家成员,中国“双法”学会数学建模分会理事,现负责面向大型企业的数字化智能文档、企业级办公助手以及法务等领域大模型相关工作,曾负责阿里巴巴飞猪算法(搜索、推荐、广告、供应链等)团队和淘宝首页人群个性化推荐,带领团队在业务相关技术走向国内外先进水平,在WWW、SIGIR、SIGKDD、ICDE、WSDM、CIKM、AAAI等国际顶级会议和VLDB、TITS、TOIS、ITOJ、TACL等国际顶级期刊发表论文40多篇等。
个人介绍:从事大数据技术领域相关工作,目前主要负责伊利集团大数据技术体系建设、业务赋能、以及大数据技术团队管理工作。
个人介绍:毕业于北京航空航天大学,任职于西门子(中国)有限公司,负责西门子集团 IT 的大数据,人工智能,低代码
个人介绍:马上消费金融AI研究院副院长,作为主要研究人员参与 OpenCV等开源项目的研发工作,长期致力于多模态大模型和计算机视觉系统的理论研究和实用化落地,在 CVPR、TPAMI 等顶级会议和期刊上发表100多篇文章,谷歌学术引用15000多次,曾获北京市优秀博士学位论文奖、北京市科技新星项目、国家级青年人才项目,2023年入选斯坦福“全球前2%顶尖科学家”和科睿唯安“全球高被引科学家”榜单。
个人介绍:腾讯海外游戏数据工程专家工程师,曾作为腾讯游戏第一代数仓首席架构师主导第一代游戏数仓建设工作,在离线数仓,实时数仓,数据资产治理等多个大数据领域有丰富的实战经验。 目前担任腾讯海外游戏大数据技术中台SRE负责人,负责海外大数据技术中台全球的基础设施规划,数据质量治理,数据应用效率管理,成本管理,数据合规与数据安全等SRE工作。
个人介绍:中科大博士,15年机器学习、大数据、云计算相关领域经验,曾在微软MSRA、阿里云从事大规模分布式系统研发,现任腾讯TEG机器学习平台部总监,腾讯-太极机器学习平台研发负责人,研发的腾讯Angel系列AI框架,支持了腾讯海量数据、万卡规模GPU集群的模型训练、推理部署,服务了腾讯混元大模型、广告/内容推荐、金融风控等业务场景。
个人介绍:Datablau数语科技 创始人&CEO
信通院数据资产专家委员会成员,数据资产管理实践白皮书主要撰写人之一.
国资委数据要素专家组成员,中国电子商会数据要素发展工作委员会理事
DAMA CDMP,IEEE member, TheOpenGroup member,DAMA中国数据架构、数据模型专委会牵头人。
复旦大学、北京航空航天大学、人民大学 客座讲师
清华大学经管学院EMBA,北京大学硕士,北京理工大学本科
《数据架构之道》作者,《数据血缘》译者
个人介绍:之前在百度,阿里等做To B产品运营及服务
个人介绍:毕业于浙江大学计算机系,获硕士学位,具备10多年核心系统设计和研发经验。
曾任阿里巴巴资深技术专家,参与和负责过搜索引擎、资源调度、实时监控等系统的设计和研发。主导 Apche Flink SQL 的发展,支撑阿里巴巴集团海量实时计算场景,以及云产品化工作。具备丰富的开源经验,是 Apache Flink 和 Apache Druid 的 PMC 成员,以及Apache 软件基金会成员。
现任小质科技技术VP,负责产品的设计和研发工作。
中国中文信息学会理事,中科院软件所博士。目前担任新浪微博新技术研发负责人,此前在阿里巴巴担任资深技术专家,负责新技术团队。技术书籍《这就是搜索引擎:核心技术详解》、《大数据日知录:架构与算法》作者。
个人介绍:我是酷狗安全架构师,在2018至2019年间专注于风控业务,负责架构设计和规则引擎的构建。在随后的两年,我深入数据安全领域,搭建了SDL管理体系和编码安全组件库,同时开发了数据加解密系统。2021至2022年间,我致力于个人信息合规工作,完善安全管理体系,并设计了APP合规检测工具。目前,我正专注于业务与账号安全,建设流量监测和安全运营中心,致力于提升安全数据的可视化,以不断强化我们的风控问题发现和响应机制。
个人介绍:京东 -> 金山软件 -> 迅雷网络 -> 理想汽车
从事AI研究和应用13年,开发和推广了京东个性化推荐第一版,金山软件智能运维系统,迅雷网络推荐系统,目前在理想汽车致力于多模态生成式大模型的应用和推广。主导“理想5C超充场站”智能部分开发应用,以及KG+LLM企业级产品的研发落地。
个人介绍:负责奇富科技大模型建设和金融全场景应用落地,负责坐席copilot应用的设计、实施和追踪。
负责奇富科技风控、营销、获客等相关算法和数据挖掘业务。
构建奇富科技大数据体系,知识图谱、图计算等技术框架,带领团队进行算法创新,实现金融信贷领域的深度落地。
多年从事信贷风控领域算法研究和实施,曾经负责全场景风控模型的建设、数据生态建设、金融场景NLP技术挖掘等。
演讲题目:坐席copilot,懂人所懂,想人所想
演讲介绍和提纲:
在销售和客服业务中,每一次客户目标的达成都不是一蹴而就的,常态化的会出现多次的反复沟通,同时针对客户的身份和习惯等情况,坐席在沟通前也需要进行了解。如何让坐席在最短的时间内获取以上信息,让坐席的工作效率更高,团队管理成本更低,同时带来业绩上的提升。那么在上述业务场景中需要一个copilot来帮助坐席去进行回顾、总结和归纳。
1、copilot的核心是让坐席更聚焦、更高效,同时加深对本身业务的理解和客户的理解。
2、以金融场景为例,结合对业务以及合规的理解,让copilot更专业、更干练是设计重点。
3、如果利用开源大模型的基础能力,结合设计的目标和信贷特有的数据和知识体系,对copilot大模型进行评估和效果优化。
4、开源大模型日新月异,特性各不相同,如何对大模型进行分层级(3层)建设和评估(重建评估集合,分层联动评估),又通过什么样的框架(小模型驱动大模型,基座驱动任务大模型优化)快速强化基座大模型的垂类知识,进而让copilot大模型更加的专业与干练。
5、在copilot的更新与迭代过程中,通过哪些类型(访谈、业绩分析、核心要素发掘等)的分析与调研,找准当前copilot的不足和迭代方向。
6、 copilot在实际业务中,带来的增长有多少(GMV的增长比例),效果的指标矩阵(拆分业务表现的不同维度,如客单价、使用率、坐席效率等)表现如何。
听众收益:
1、坐席copilot的设计思路和设计过程,以及核心目标。
2、坐席copilot在大模型层面的分层方式以及迭代路径。
3、坐席copilot分析和价值体现的方法、过程和结果。
个人介绍:硕士毕业于南京信息工程大学,一直从事数据领域相关工作。
2018年加入滴滴。目前负责滴滴大数据治理的相关工作。通过持续地推动技术&产品能力建设,对滴滴大数据的数据引擎(hadoop、es、flink、olap等)&数据产品,进行全域治理。
近期的工作重心为成本治理、安全治理两个方向。
个人介绍:华为2012 NMT Lab,技术研究及创新负责人,技术专家。曾任百度运维平台及智能运维技术经理。主要研究方向:机器翻译,多语言数据智能,NLP for ICT,AIOps等。
个人介绍:
硕士研究生学历
10年+大数据领域经验
星环信息科技初创成员
现在是小红书数据引擎负责人,负责大数据存储、实时/离线计算引擎、湖仓架构等数据产品和平台的研发工作。
个人介绍:本科与硕士均毕业于上海交通大学,在数据领域有18年以上的经验积累,最近8年专注于数据产品方向。目前致力于打造业界最易用、最科学、最高效的实验平台,所负责的DataTester A/B测试平台已服务字节跳动内部500多条业务线,以及数百家火山引擎的企业级客户
个人介绍:现任京东 AI 方向产品总监。AI 领域畅销书作者,从事 AI 产品设计工作 10 余年,国内早期 AI 方向创业者,曾从 0 参与了阿里 AI 平台建设,服务过数十家海内外 500 强企业。目前主要工作是京东零售AI中台建设以及AIGC能力在零售场景的应用探索
个人介绍:专注搜索和大模型 RAG 应用平台建设,阿里巴巴搜推广工程体系 AI . OS 早期开拓者,曾负责阿里巴巴 iSearch 、HA3 前后几代搜索引擎的架构设计和开发工作,以及阿里巴巴集团搜索中台业务,现负责阿里云搜索产品线,以及搜索引擎 Havenask(HA3) 开源项目。创建了 OpenSearch LLM 智能问答 ( RAG )、阿里云 Elasticsearch 、智能推荐 AlRec 和图计算等云产品。
个人介绍:现任百度商业广告平台部主任研发架构师,硕士毕业于清华大学计算机系,百度 CMC 成员,百度MEG商业TC 产品方向主席,主要负责新一代AI Native营销平台-轻舸的研发工作。先后主导过百度 Java 代码规范制定,多个公司级技术平台和开源 NewSQL 数据库产品 BaikalDB 的研发设计,落地了百度最大规模的Java微服务基础设施,拥有40+相关领域专利。目前致力于基于文心4.0的Multi Agent架构打造更加智能的营销平台,建设放开说、简单用、都搞定的轻舸营销智能体。
个人介绍
PAI人工智能平台场景化应用负责人,负责云原生训练推理平台工程以及基于平台之上的智能推荐,用户增长,图像视频生成,大语言模型的算法工程技术。旨在通过提供标准化的AI产品方案,更好地服务开发者和企业用户使用云上产品,支持好大规模的AI训练和服务,解决客户业务问题。目前开源EasyRec(推荐),EasyPhoto(AI写真),EasyAnimate(类Sora),PAI-RAG等项目。
演讲题目
从大数据到大模型:搜索推荐技术的前沿探索
演讲介绍和提纲
主题:基于普遍使用的实时推荐搜索技术方案之上,结合大模型,业界在开展的实际探索和落地的创新技术
详细内容:
1. 主流云上推荐搜索技术方案介绍
2. 推荐和RAG相关技术,算法和工程上面临的挑战和机会
3. 算法工程上的创新技术
4. 相关案例分享
听众收益
了解当前搜索推荐场景的基本实现,以及结合大模型的一些创新点
滴普科技高级研究员,《ClickHouse性能之巅》作者。数据智能领域资深架构师,曾主导OPPO智能缺陷识别、威视智能瞳孔检测、百丽丽影等多个数据智能项目技术架构的设计工作,有丰富的大模型落地经验。目前着眼于大模型在不同领域上的工程化落地。
个人介绍:
云器科技联合创始人兼 CTO,曾任阿里巴巴 P10 研究员,主导了阿里云飞天大数据平台二代研发及落地,曾于微软云计算和企业事业部工作近十年,浙江省科技进步一等奖获得者。
演讲介绍:
数智平台重回“战国时代”:新一代 Data+AI 架构设计与演进
数据平台已经发展 50 年,2022 年随 LLM/AGI 的革命性突破,它迎来了第三次革命。半非结构化数据的处理能力被解锁,数据处理能力和规模再一次触碰 10X 的潜力,也给数智 Infra 带来全新挑战。作为平台从业者,有两个关键问题值得关注。一个是随 AI 能力增强,数据表达方式越来越多样化(结构化、标量化、向量化、点边化、模型化等等),导致数智平台重回“战国时代”。这些方式的价值和差异是怎样,基础设施又如何最优支持他们,是当前摆在数智平台从业者的关键问题。另一个问题,在 LLM 早期剧烈变化迭代的大背景下,“数”与“智”的融合之道是怎样的?已有数据平台与 AI 平台的关系如何,AI Infra 是否独立建设,哪些应当融合共享,哪些需要灵活拆分?演讲者试从基础架构的视角,与参会者探讨新一代 Data+AI 平台架构的演进与验证。
演讲提纲:
1. 数据平台的第三次革命,以及背后的驱动力
2. 数智平台重回“战国时代”,多种数据表达方式的价值与差异
3. “数平台”vs“智平台”,拆分与融合
4. 新一代 Data+AI 平台架构的设计原则、演进思路与验证
听众收益:
1. 了解不同计算模式的价值与最佳实践
2. 面向未来的几个发展趋势和未解疑问
3. AI Native 数智平台的设计原则与思路
微软十年,曾任微软必应新闻搜索搜索引擎团队负责人,曾负责MS多个事业部的不同产品相关工作。 阿里八年,曾任阿里集团搜推广事业群数据平台+效能/质量团队负责人,阿里集团研发效能事业部负责人,阿里云无影事业部负责人, 曾负责 DataWorks 1.0、2.0、 3.0, PAI 1.0、2.0, 达摩盘 3.0 等核心产品。
演讲题目
阿里云智能大数据演进
演讲介绍和提纲
1. 阿里云大数据+AI产品线介绍
2. 大数据和AI趋势分析
3. 阿里云智能大数据产品解决方案
4. 未来展望
听众收益:
1、了解大数据与AI技术发展趋势
2、全面了解各类技术领域的阿里云解决方案
3、大数据与AI结合与演讲方向
曾任阿里巴巴研究员,创建了阿里云 Flink 和 Hologres 团队和产品;曾任 Facebook 调度系统,时间轴和 Messenger 的技术主管;曾任微软 SQL Server 引擎架构师;美国西北大学理论物理硕士学位,中国科学技术大学理论物理学士学位。他提出了云原生分布式 Data Warebase 这一概念。
个人介绍:
目前负责云器科技Lakehouse平台产品的产品工作。10年以上数据平台产品建设及商业化推广经验,曾负责某头部云厂商核心数据平台的产品规划、迭代及商业化推广工作。
演讲题目
Data到Data+AI,数据平台的演进
演讲介绍和提纲
在过去的两年,数据架构领域发生了很多拐点级变化,例如大模型技术突破、向量检索成为热点、半/非结构化类暗数据(Dark Data)开始被关注等。同时,数据平台,特别是数据库和数据分析平台已经成为企业的标配,支持企业方方面面的业务。“下一代数据平台发展趋势?”、“AI平台和数据平台是否应该一体”等问题成为数据平台从业者的普遍疑问。本议题从数据平台的演进出发,探讨面向AI的下一代数据平台趋势、架构选型。并介绍一个结合Data与AI的典型案例。
听众收益
1、数据平台的演进;
2、AI数据平台的挑战与突破;
3、Data+AI架构推荐和案例分享
个人介绍:
清华大学智能产业研究院助理教授,曾任联想集团研究院技术战略与创新孵化平台高级研究员,负责智能系统交互技术研发、类人智能体、认知及情感计算相关研究。曾作为项目负责人、课题任务负责人承担了包括北京市、科技部、工信部等多项科研项目,发表人机交互领域顶级会议或期刊论文40余篇、获得20余项国内外发明专利。
演讲题目:
具身认知增强的大语言模型Agent
演讲提纲:
大语言模型为AI Agent带来了人类世界common sense,然而大语言模型自身的训练数据嘈杂且缺乏具身性。为了增强大语言模型AI Agent的具身性,我们探索了多种方式,将具身任务数据与语言模态数据进行对齐。使大语言模型AI Agent可以更好地完成如驾驶、社交等具身任务,揭示了AI Agent实现通用人工智能的潜力。
听众收益:
1、大语言模型除了处理文本任务,如何完成具身任务?
2、大语言模型完成具身任务的好处是什么?
3、大语言模型完成具身任务面临什么样的挑战?
4、构建具身认知增强的大语言模型Agent有哪些思路方法?
个人介绍:西北工业大学计算机硕士,腾讯游戏AI工程师,腾讯智能交互产品“游戏知几”技术负责人。研究与实践领域主要聚焦于NLP、模型推理加速、系统架构与性能优化等。代表产品:游戏知几知识问答、“和平第五人”AI语音助手、天天象棋(无障碍版)、知音语音大模型、“绝智阿暖”智能NPC、基于LLM的人机协同智能客服解决方案等。
演讲主题
智能NPC:AI为游戏NPC注入灵魂
演讲介绍
1、 大模型为游戏NPC发展带来的机遇
2、 “绝智阿暖”NPC智能化尝试的一小步
3、 智能NPC的核心挑战与解决方案
4、 我们在NPC智能化的未来打算。
听众收益
1、 如何让LLM生成的内容与游戏世界观、游戏IP人设保持一致?
2、 大模型的安全合规方案有哪些?
3、 多模态交互下如何解决大模型的实时性问题?
演讲题目
大模型在研发数据中台的应用实践
演讲介绍
本次演讲主要包含两个部分,研发中台数仓的构建以及探索如何结合大模型的技术,提升中台业务方解决线上问题的效率。通过构建离线及实时数仓,我们为业务方提供了决策判断依据,使业务方能够基于关键指标进行有效的决策。进一步地,通过将大模型技术与业务流程相结合,能够针对线上问题提供直接的解决和修复方案,从而优化整个问题解决流程。
听众收益
1. 研发数据中台的架构和数仓建设思路介绍
2. 数仓的离线、实时数据建设思路以及流量突增应急方案
3. 如何将大模型赋能研发数据中台的业务
个人介绍:2021年6月本科毕业于南方科技大学统计与数据科学系;2023年1月硕士毕业于新加坡国立大学统计与数据科学系;2023年1月至今于滴滴数据科学中台担任数据分析师,主要负责随机分流实验各环节的优化。
演讲题目:随机实验AA问题的系统解决
演讲内容:
AB实验虽然作为决策的黄金准则,但当AA问题存在时,其结果的有效性也饱受质疑,而解决AA问题的方式多种多样,重随机和回归调整相结合作为其中最有效的一环,可以有效缓解AA问题,防范于未然,增强实验结果的可信度。
提纲:
1. 重随机的学界与工业界调研
2. 重随机的原理展示与数据模拟
3. 重随机的实际应用与注意事项
听众收益:
1. 了解协变量平衡的进展
2. 熟悉重随机的底层原理
3. 掌握实际中如何使用重随机缓解AA问题
个人介绍:上海财经大学统计学本科&硕士,2018年毕业,曾也就业于字节跳动在线教育&TikTok、蔚来汽车自动驾驶运营,现于eBay中国分析中心担任数据分析师工作,负责跨境交易品类分析与卖家管理业务。
演讲题目:基于Uplift Model的优惠券分发优化
演讲内容:智能营销正渗透到各行各业,期望通过营销手段来促进用户的行为。其面临的核心问题是:如何衡量营销干预带来的"增量效果",即如果没有营销干预用户的表现是怎样?避免在那些"本来就会转化"的用户身上浪费营销预算。
本项目将以电商商家补贴活动为例,介绍基于Uplift Model如何构建营销增益模型,锁定营销敏感人群,驱动投放策略制定。
听众收益:
1. 通过实例分析了解uplift model因果推断方法论
2. 因果推断方法如何寻找模型最优解
3. 如何讲因果推断思维广泛应用于商业世界提高企业效率
个人介绍:先后就职于IBM、Oracle、美团、智慧芽。前期从事云原生相关工作,例如负责大众点评主站核心服务,构建高可用和高并发的服务。目前在智慧芽负责大数据工作,包括数据技术和平台架构、采集、治理、数字化运营等。
演讲题目:
智慧芽数据治理与大模型的协同实践
演讲内容:
1.数据治理和大模型协同的背景
2.大模型赋能数据治理和数据技术
3.数据治理如何赋能大模型落地
4.协同案例分享
听众收益:
1.了解如何通过结合数据治理与大模型,实现数据驱动的创新和业务增长
2.了解大模型如何赋能数据治理和数据技术,例如如何确保数据的高质量获取、清洗和应用
3.数据治理如何帮助大模型高质量的成功落地
4.希望通过介绍数据治理和大模型的协同效应,提供解决数据创新和增长的一些思路
个人介绍:知乎智能算法部负责人,负责知乎知海图大模型、推荐、搜索、广告、增长等方向的算法和架构。12年搜广推算法经验,曾创业2年,在美团等多家互联网公司负责或组建多个核心业务算法团队,建立支撑亿级用户、日交易额数亿、日算法补贴额数千万的多个超大规模复杂算法系统,热衷技术,实践经验总结有数篇NIPS、KDD、Recsys等顶会论文,多次获得机器人大赛冠军。
演讲题目:
AI 大模型技术在知乎搜索等场景的应用
听众收益:探讨大模型相关技术,并就大模型应用用户产品中的机遇和挑战展开讨论
个人介绍:北京邮电大学计算机硕士,曾就职于微软、高德、微博及第四范式,专注于大数据与人工智能方向的研究,后在小米主导用户画像,目前专注于推动大模型技术在大数据领域中的创新与实践。
演讲题目:数据问答新纪元:大模型如何塑造数据产品的明天
演讲内容:
随着企业数字化转型的加速,数据资产已成为企业最宝贵的财富之一。如何降低数据获取的门槛,提高数据消费的效率,让更多的人使用数据,充分发挥数据的价值,已成为企业和个人面临的一大挑战。在这一背景下,人工智能技术的突破为我们提供了新的解决方案,尤其是大语言模型(Large Language Model, LLM)如ChatGPT和GPT4的出现,它们以其强大的语言处理和生成能力,正在全面重塑数据产品的开发和使用范式,引领我们进入一个全新的数据交互时代。本次演讲将带您走进数据问答的前沿领域,深入探索如何高效地与数据进行对话,利用大语言模型技术塑造数据产品的明天,进而打造一套面向大数据的LUI人机交互新模式,以期实现更智能、更自然的数据交互体验。
提纲
1. 数据使用的挑战
2. 大语言模型的崛起
3. 数据问答技术的演进
4. LLM在数据问答中的应用
5. 塑造数据产品的未来
听众收益:
1. 技术前沿洞察:深入理解人工智能如何作为驱动力,引领数据问答技术的革新与发展
2. 实践技能提升:掌握在数据问答领域对大模型进行微调的技巧,以优化模型性能
3. 连续交互优化:学习如何高效运用大模型,实现数据问答中的流畅连续交互,提升用户体验
4. 创新模式探索:洞悉面向大数据领域的LUI人机交互新模式,为未来交互设计提供灵感
个人介绍:
360人工智能研究院知识图谱及文档跨模态方向算法负责人,曾就职于中国科学院软件研究所。主要研究方向为文档理解、知识增强。近年来参与360文档大模型、360智脑大模型及360百科图谱、商业化广告图谱、右侧推荐等落地项目研发,累计申请发明专利十余项、论文数篇,开源项目70余个,在OGB-Wikikg2、CCKS多模态实体对齐等多个评测任务中获得多项冠亚军,创立“老刘说NLP”技术社区,具有广泛影响力。
RAG落地中的知识库建设、现实坑点及应用探索
演讲介绍和提纲:
RAG检索增强大模型问答,已经成为大模型进行领域落地的重要范式,其在取得广泛应用的同时,也面临着诸多挑战。而作为检索的对象,如何对复杂多样的领域文档进行精细化处理十分必要,本报告将重点介绍我团队在文档理解及知识库方面的一些探索实践,包括KG-RAG,知识图谱与大模型相结合,并对当前团队在文档应用场景上做的一些探索性工作进行汇报。
听众收益:
1、RAG过程中的文档处理范式及存在问题?
2、KG-RAG在落地过程中有哪些实现范式?
3、RAG在文档场景中有哪些可落地的结合点?
4、RAG的前沿可跟踪方向
个人介绍
北大光华商业分析硕士,在微信实验平台负责社交网络实验、异质性分析、实验长短期效应的算法设计与开发,从0到1搭建腾讯分布式因果推断工具。
演讲题目
Fast-Causal-Inference——腾讯开源分布式因果推断工具
演讲介绍和提纲
因果推断在业务决策中发挥着越来越重要的作用,业务依赖于AB实验来判断新策略好坏,或者观测性推断等工具去辅助业务决策。然而,现在业界的分析数据量动辄达到千万量级,本地的因果推断工具包无法支持,只能抽样计算,这会损失统计效力。因此我们开发了Fast-Causal-Inference,一个分布式因果推断的python package,现已对外开源,支持业内大部分常用的因果推断工具,例如带方差削减的T检验,DID,IV,matching,DML等等。本次分享主要包括以下几个部分:首先介绍了因果推断在业务中的常见应用场景;其次介绍我们的工具包的设计框架和实现架构,如何高效的将这些算法分布式实现;最后通过几个例子简要介绍如何使用我们的工具包。
听众收益
1. 常用的因果推断算法的应用场景
2. 常用因果推断算法的计算原理
3. 因果推断如何分布式实现,如何结合分布式计算的特点做优化
4. 如何使用该分布式工具包做因果推断
个人介绍
硕士毕业于中南大学,现就职于小米计算平台,负责数据湖仓平台和组件的建设维护工作。
演讲题目
基于 Apache Paimon 的实时湖仓架构实践
演讲介绍和提纲
1. Apache Paimon 是什么?我们为什么要引入 Paimon
2. 基于 Paimon 构建近实时的数据湖仓
3. 项目总结与未来展望
听众收益
了解 Paimon 原理、优势
了解 Paimon 在实时湖仓场景的应用实践
了解 Paimon 实时链路中的调优手段
个人介绍
应用统计硕士,2017年校招加入百度,从事过凤巢机制、用户体验,体验项目获得2021年百度最高奖,目前负责百度推荐广告召回&&创意方向。
演讲题目
推荐广告多兴趣&生成式序列化召回
演讲介绍和提纲
面向推荐场景下网民行为序列、多域兴趣的广告召回:
1.多兴趣表征:用户兴趣在推荐场景下呈现多峰分布状态,传统的单一表征会导致用户兴趣平均化,多域兴趣建模是业内趋势;
2.长周期稀疏激活:利用用户全生命周期数据,引入大规模动态激活的召回建模技术,挖掘长序列中蕴含的信息;
3. 生成式序列化召回:推荐场景下,用户历史行为包含了丰富的信息,序列化与生成式结合,从序列整体建模,释放生成式对行为序列的学习能力。
听众收益
1.结合行业化的多域图模型学习
2.如何在召回双塔中search用户lifelong行为
3.生成式与序列化推荐的融合
4.大模型塑造数据产品研发新范式
个人介绍:
小米软件研发工程师,目前主要负责小米内部数据湖和元数据研发工作。
演讲题目:
小米基于 Data / AI 一体化的湖仓多云实践
简介:
本次主要分享以下内容:
1. 湖仓多云架构的探索实践;
2. 基于 Iceberg 实现湖仓表格数据多云存储的落地实践;
3. 基于 Gravitino 实现 Data / AI 非表格数据统一管理的落地实践;
4. 未来规划;
提纲:
1. 湖仓多云架构探索实践:
- 介绍小米数据湖平台架构;
- 介绍小米统一湖仓元数据的实践;
- 介绍小米存 / 算多云实践;
- 介绍小米湖仓体系发展路径;
2. 湖仓表格数据多云实践:
- 介绍表格数据上云背景;
- 介绍云存储选型和评价方法;
- 介绍上云方案;
3. Data / AI 非表格数据多云一体化实践:
- 小米 Data / AI 非表格数据管理的痛点;
- Gravitino 统一管理非表格数据 Fileset 的原理;
- 利用 Gravitino 实现非表格数据统一管理的实践;
4. 未来规划
- 主要介绍未来小米将会继续在数据湖场景开展的工作;
听众受益:
- 了解小米湖仓多云架构;
- 了解基于 Iceberg 实现湖仓数据上云实现存储降本的方案;
- 了解 Data / AI 场景下统一管理非表格数据的方案;
个人介绍:
学历: 墨尔本大学-人工智能硕士
工作经历:
1. 腾讯-数据挖掘工程师,主要负责游戏数据挖掘运营;
2. 宝马-高级数据科学家,主要使用AI算法赋能企业数字化转型;
3. 货拉拉-算法专家,主要负责营销(LLM应用平台、补贴、触达、广告、邀约)算法工作;
演讲题目
大模型赋能货拉拉全场景营销效率实践
演讲介绍和提纲
1. 货拉拉营销全领域LLM实践(全场景)
2. 物流营销场景LLM落地难点思考
3. 货拉拉如何在营销全领域落地应用LLM
4. 多营销场景下如何降低大模型使用成本
5. 未来思考与展望
听众收益
1. 了解货拉拉如何使用LLM助力营销领域全场景提效;
2. 介绍LLM落地的难点以及技术方案;
3. 介绍如何在多场景下介绍大模型使用成本;
4. 对LLM在物流领域落地的思考与展望;
个人介绍:南京大学计算机系-本科 中科院计算所-博士 VMware - 软件工程师:vSAN-vsphere native hyper-converged distributed storage system Google - 软件工程师:storage infrastructure: D/Colossus/Spanner 蚂蚁金服- 资深技术专:UCS-实时分布式结构化行列混存存储系统 Meta-软件工程师:data infrastructure: Velox and Prestissimo
演讲题目:Velox Memory Management
演讲介绍和提纲:
Velox memory system is designed for safely running highly variable query workloads within a fixed memory resource. It provides the query execution with all the required memory allocation functions and optimizes both physical memory allocation and query memory allocation patterns. It provides fair-memory sharing among queries by memory arbitration and disk spilling techniques. It provides the total memory capacity enforcement by managing the physical memory on its own.
听众收益:
Velox memory management architecture Velox query memory arbitration mechanism Velox query disk spilling technique
个人介绍:现任腾讯游戏数据技术负责人、资深专家,负责通过资产体系、技术平台、AI、湖仓等技术降低游戏业务使用数据门槛,以数据驱动业务增长。曾在三一集团担任智能制造研究院院长、负责灯塔工厂建设,在阿里云负责企业数字化转型,在中航工业担任副总师等职位。
演讲题目:
腾讯游戏在AI+湖仓一体的实践
演讲介绍和提纲:
1)腾讯游戏在数据工程面临的挑战
2)新一代Al+湖仓的资产体系模型架构
3)Al+湖仓落地应用 • 资产智能化图谱与精准推荐 • 人机协同的多 Agent架构 • 工具融入流程的持续运营
听众收益:
AI写SQL真的靠谱吗?
AI+湖仓实践经验分享
个人介绍:杨皇本科毕业于南京大学大气科学专业,于2015年获得美国康奈尔大学大气科学博士学位,后于约翰霍普金斯大学和加州大学洛杉矶分校从事气候动力及大尺度污染物传输研究。2021年加入字节跳动,在实验平台主持观察性因果推断,干涉效应等复杂场景实验设计分析及相关平台产品化搭建。
演讲题目:字节跳动实验平台的边界拓展
演讲介绍和提纲:
字节跳动拥有强大的实验平台,每天都有数以千计的实验来产出对于特定策略的效应评估。这些评估结果牵动着公司内部大大小小的商业决策,不断形塑着各类产品的更迭演化(如抖音、TikTok等)。伴随着业务拓展的复杂化和多元化,实验平台也面临着越来越多的技术挑战,诸如干涉效应、高维度调参以及有效随机实验难以开展。经典的假设检验框架已经很难适应这些新的挑战,这促发字节跳动实验平台拓展传统边界,志在打造一款动态化、自动化以及观察数据友好化的多功能一体化效应评估产品。在这里,我们将带来近期的一些研究进展和产品实践分享。
听众收益:
1. 基于并行化的Leiden算法,字节跳动实验平台能够快速处理亿级用户的复杂社交网络,完成聚类分流,显著减轻社交溢出对于实验评估的干扰。
2. 基于马尔科夫决策过程,字节跳动实验平台在传统随机实验框架下结合强化学习实现了对于双边市场干涉效应的统计修正。
3. 基于迁移学习,字节跳动实验平台有效降低了自动调参冷启动“有损”的风险,并提高了调参效率。
4. 基于经典计量经济因果推断框架与因果发现,字节跳动实验平台推出了一套端到端的支持观察数据因果推断方法的平台工具,并强化了稳健性诊断和风险评估对于结论质量的保障。
个人介绍:2016年硕士毕业于电子科技大学信息与软件工程,《推荐系统技术原理与实践》作者,拥有超过8年的模型优化经验,硕士期间发表5篇论文,其中3篇被EI收录。在大模型方向拥有丰富的技术背景,参与过千亿大模型训练和优化。目前主要负责大模型后训练,COT优化以及通用技能优化。
演讲题目:提升大模型数学推理能力
演讲介绍和提纲:
介绍提升大模型数学推理能力的相关实践。
1、Instruct Tuning方法:主要基于思维链,包括COT、Zero-shot-CoT、Self-consistency、LtM、POT等方法。
2、 Self Evolution:介绍如何通过Self-rewarding、Self-Critique等方法,提升数学问题所需的准确性和逻辑一致性。
听众收益
1、介绍如何将COT转换为POT模式,大模型计算能力提升20%以上
2、在Self Evolution阶段,通过RFT、DPO等方法,在不牺牲其它任务效果的情况下,显著提升了数学问题的一致性。
个人介绍:南京理工大学硕士。曾在滴滴负责司机生命周期和补贴、因果推断算法;现在货拉拉,负责用户补贴、司机线索智能评分、邀约员智能质检和培训。
演讲主题:货拉拉LLM赋能邀约客服质检、培训提效的实践
演讲介绍:
1. 货拉拉邀约、客服在质检和培训场景的背景介绍;
2. 如何大小模型结合使用节省使用成本;
3. 如何打造自由对话的语音&数字人智能陪练机器人;
4. MOE训练全场景陪练模型设计,更真实业务场景实时陪练;
5. 智能质检、培训未来发展趋势的思考与展望
听众收益
1. 如何构建“学-练-考-评”全周期闭环;
2. 质检如何大小模型结合使用节省机器成本;
3. 如何打造语音&多模态数字人智能陪练。
个人介绍:毕业于北京航空航天大学,任职于西门子(中国)有限公司,负责西门子集团大数据、人工智能、低代码。
演讲题目:
西门子利用LLM打造通用公司智能助理的实践
演讲介绍和提纲:
1. 西门子中国介绍
2. 集团人工助手小禹的发展历程
3. AI 基座
4. 大数据是 AI 的内核
5. 大禹-西门子数据与 AI 生态系统
听众收益:
跨国集团的大数据生态系统是怎么在运行?生成式 AI 有用吗?高效与快捷是否不可兼得。请看现代大禹如何治理新时代的洪水!
个人介绍:
2010.9-2013.3 北京邮电大学 硕士研究生
2013.4-2020.6 北京三星研究院,负责30+语种的联机手写识别,三星语音助手Bixby开发
2020.7-至今 小米公司 小爱同学 负责语音助手中的NLP相关算法开发
演讲题目:大模型在小爱同学应用实践
演讲介绍和提纲:
1.小爱同学介绍
2.大模型赋能小爱同学
2.1 意图分发
2.2 垂域语义理解
2.3 垂直领域问答RAG
听众收益
1.如何利用大模型提升意图分发/语义理解的效果
2.如何兼顾大模型效果和推理速度
3.如何利用大模型打造垂直领域问答
个人介绍:
学历:西安理工大学数学系本硕
工作经历:
1. 闪送-算法工程师,主要负责订单匹配撮合&闪送员数字化运营
2. 贝壳-高级算法工程师,主要负责经纪人生命周期管理
3. 货拉拉-资深算法工程师,主要负责智能营销相关算法,包括LLM应用平台、智能消息触达、广告推荐、金融小贷等
演讲题目:
货拉拉利用大模型打造多场景个人、办公助理实践
演讲介绍和提纲:
1. 货拉拉个人、办公助理10+场景落地实践
2. 如何高效的打造多场景助理,技术方案设计(大模型应用平台赋能)
3. 货拉拉零代码广告助理场景Demo效果展示(multiple tools)
4. 如何提升智能助理Agent的tools调用效率及RAG优化方案
5. 如何综合使用多个大模型,对复杂的多模态数据进行处理(复杂表格、多模态图片、流程图、文档等)
6. 未来思考与展望
听众收益:
1. 了解货拉拉如何用大模型打造个人、办公智能助理
2. 了解货拉拉多场景智能助手高效落地的技术方案
3. 了解智能助手效果提升agent&RAG优化方案
4. 智能助手在物流行业落地的思考和展望
个人介绍:本科毕业于南开大学,硕士毕业于美国佐治亚理工学院。研究方向包括AI智能运维,大模型质量评估以及大模型提示策略,在相关领域以第一作者、通讯作者身份发表7篇顶级国际会议/期刊论文。
演讲题目:打造LLMOps时代Prompt数据驱动引擎
演讲提纲:
随着AI技术和大语言模型的迅速发展,软件运维领域也受到了革命性的冲击。从早期的KPI特征驱动,依赖专家规则的运维平台,到仅仅基于日志数据的自动异常检测模型。依托大模型技术,AIOps的下一代应用LLMOps将从原子化、智慧化、自适应等多个角度取得提升,而这必须依托强大的Prompt数据引擎去驱动。
提纲: 1.背景:从AIOps到LLMOps面临prompt挑战 2.打造LLMOps prompt application引擎 3.LLMOps持续成长原动力: Prompt learning数据飞轮 4.未来畅想
听众收益
1. 大模型时代对于运维工程师的prompt提出了哪些要求?
2. 如何持续迭代模型,不断优化prompt数据能力?
3. 传统软件运维有哪些痛点,大语言模型相关技术将如何带来新的变革?
个人介绍:主要研究方向为智能运维。在ATC, WWW, VLDB, KDD, SIGMETRICS等国际会议和JSAC, TC, TSC等国际期刊发表高水平论文50余篇。主持国家自然科学基金项目2项,横向项目14项(与华为、字节跳动、腾讯等合作)。获中国电子学会科技进步一等奖(排名第3)、ISSRE 2023/2018最佳学术论文奖、清华大学优秀博士学位论文、华为“最佳技术合作教授”、南开大学“良师益友”、麒麟软件“校企合作突出贡献”奖、天津市科技进步一等奖等荣誉。担任CCF A/B类国际会议程序委员会委员12次。中国计算机学会高级会员,YOCSEF天津AC副主席,互联网专委常委,软件工程专委、服务计算专委执行委员。
演讲题目:运维大模型的应用和展望
演讲提纲:
ChatGPT展现出了以大模型为基底解决各个领域难题的可能。本报告将重点讨论智能运维大模型,探讨运维大模型的必要性及挑战,运维大语言模型的挑战、解决思路及应用,以及运维大模型的整体架构及应用落地路径。
听众收益:
1. 如何让运维大模型融合已有结构化数据?
2. 如何让运维大模型结合现有工具?
3. 如何降低运维大模型的私有部署开销?
个人介绍:西门子中国IT数据分析团队资深解决方案经理、产品经理。
演讲题目:大型企业内部数字化挑战和解决方案
演讲介绍和提纲:
背景介绍:个人&团队
问题和挑战:行业挑战和现状,西门子中国挑战和现状
业务目标:成熟高效低成本的产品和解决方案,利用技术为业务赋能
解决方案介绍:
三三制方法论和它的应用,产品化,企业内部数字化平台,数字化资源目录,人工智能辅助,应用快速移动化的实践
听众收益:
了解大型企业内部数字化面临的问题和最佳实践
三三制在大型企业内部数字化和产品化的应用案例
个人介绍:京东数据产品架构师,曾主导京东零售内部一体化数据分析平台及指标体系的建设,目前是ABI数据产品及大模型数据应用产品的负责人,在指标体系设计、数据产品建设及数字化运营方面有着丰富的实践经验。
演讲题目:基于大语言模型的数据应用探索
演讲介绍和提纲:
介绍:探讨大语言模型带给数据产品的机会和变化,并通过我们自身的实践案例,ChatBI——专属于你的AI数据分析师,来说明产品落地中的挑战和解决方案。希望通过此次分享,能跟大家交流一些有价值的启示和实际应用的指导。
大纲:
1. 大语言模型与数据产品创新
2. 实践案例:大语言模型数据应用-ChatBI
3. 落地挑战与解决方案
4. 大模型数据产品的团队协作
1. 未来展望:行业实践与产品规划
听众收益:
1. 大语言模型在数据领域的优势及能力,了解大语言模型如何在数据领域中进行应用
2. 了解一种大语言模型在数据产品应用的实际案例,实践案例ChatBI的分享。
3. 大语言模型数据产品落地的困难与挑战,了解产品落地中的困难挑战与解决方案。
个人介绍:Apache Celeborn Committer,主要负责B站 Remote Shuffle Service 服务
演讲题目:Apache Celeborn 在B站的最佳实践
演讲介绍和提纲:
1. Apache Celeborn 架构原理
2. Apache Celeborn 实践概览
3. Apache Celeborn 实践姿势
4. Apache Celeborn 规划展望
听众收益:
1. 熟悉 Apache Celeborn 混部环境实践使用姿势
2. 了解 Apache Celeborn 混部集群降本增效收益
3. 掌握 Apache Celeborn 社区功能特性规划展望
个人介绍:小红书技术专家,目前主要负责多云大数据存储层建设、业务落地工作。
演讲题目:加速云端机器学习,Alluxio在小红书的实践
演讲介绍和提纲:
介绍小红书在机器学习场景下的数据读取加速以及在多云场景下的数据跨云读取优化。
机器学习训练热点样本读取加速
索引/模型跨云读取优化
听众收益:
数据加速产品如何选型?
如何通过智能缓存管理,提升机器学习训练样本读取速度。
如何有效减少跨云数据拷贝。
个人介绍:就职于企查查科技股份有限公司。主要负责企查查的数据架构、大数据平台。
演讲题目:企查查的数据降本增效之路
演讲介绍和提纲:
1、企查查的数据架构
2、混合”云“架构的形成
3、 多云下的统一架构
听众收益
1. 资源提效30%以上
2. 多版本架构
3. 统一元数据
个人介绍:超过 8 年算法应用领域工作,涵盖推荐系统和强化学习。目前作为 PingCAP AI Lab 负责人,负责 LLM 应用在 PingCAP 落地,构建 Auto-Diagnosis 系统,推动自动驾驶数据库云的发展。持续关注 AI 领域的应用创新,推动其落地和融入生产,致力于推动企业 AI 应用的变革。
演讲题目:数据库文档问答的应用和演化
演讲介绍和提纲:
1. LLM 应用的类型
2. 数据库文档的难题
3. LLM+RAG 在文档内容回答的尝试
4. 未来展望
听众收益:
1. 如何合理选择正确的 LLM 应用类型开发应用
2. 了解 RAG 在文档问答中的应用方法
3. 了解文档问答应用如何进行调优
个人介绍:阿里通义实验室高级算法专家,负责通义多模态大模型mPLUG系列工作,包括基础多模态模型mPLUG/mPLUG-2,多模态对话大模型mPLUG-Owl/Owl2,多模态文档大模型mPLUG-DocOwl,多模态智能体Mobile-Agent等,其中 mPLUG 工作在 VQA 榜单首超人类的成绩。在国际顶级期刊和会议ICML/CVPR/ICCV/ACL/EMNLP/MM/TOIS/IJCAI/AAAI等发表论文30多篇,并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mPLUG,X-PLUG,AliceMind,DELTA。
演讲题目:多模态手机Copilot: Mobile-Agent
演讲介绍和提纲:
近年来,多模态大语言模型(MLLM)逐渐成为热门研究领域。随着AI手机的迅速发展,手机自动化操作成为了AI时代各大手机厂商的重要应用。然而,受限于有限的数据和特定的屏幕感知方式,现有的MLLM在手机UI感知、理解和操作上的表现不足以实现自动化操作。为了解决上述问题,我们基于多模态agent的架构,逐步探索并开发自动化移动设备操作助手,以应对移动设备UI自动化操作中的各种挑战,实现一句话指令就能让手机自动完成特定任务。
1. 多模态智能体介绍
2. Mobile-Agent-v1
3. Mobile-Agent-v2
听众收益:
1. 了解多模态智能体
2. 理解多模态智能体在手机应用
自我介绍:
标签:数据老兵、内容创作人、跨界成长者
经历:
1、10年互联网金融大厂数据分析、产品工作经验,未来继续深耕数据领域;
2、出版2本销售破万册的数据领域专著,拥有3个数据采集分析专利,运营未来数据官社群和网站;
3、政(大学生村官)、企(数据从业者)、研(在职研究生)、学(校外导师)四段独特跨界成长经历;
演讲题目:大模型在智能电销的应用
演讲介绍和提纲:
智能话术生成
用户情绪识别
智能质检
听众收益:了解大模型在智能电销的应用
个人介绍:百度资深工程师。2013年硕士毕业加入百度,曾先后担任商业反作弊、搜索广告定向技术负责人,现任商家智能体业务技术负责人,重点负责商家智能体建模、框架、仿真等技术方向。拥有多篇大模型相关的技术专利,在www2024以第一作者发表论文1篇。
演讲题目:
百度商业智能体技术创新与实践
演讲介绍和提纲:
AI Native时代百度广告营销业务正经历代际变革,整个广告投放系统也在基于大模型进行重塑。在下一代百度广告投放系统中,一个重大变革在于商家智能体将取代传统营销页成为最重要的广告营销载体。在本次演讲中,将重点介绍商家智能体的业务场景、智能体应用在广告投放业务中面临的难点问题、以及解决这些问题的关键技术举措
整个演讲提纲如下:
1. 商家智能体业务背景:包括什么是商家智能体、商家智能体营销相比传统营销的优势、商家智能体的业务目标等
2. 商家智能体建模思路:包括智能体和广告营销有机结合面临的主要问题、解决这些问题的技术思路和关键举措
3. 商家智能体技术方案:从商家智能体专精模型建模、多专家协同的智能体框架、智能体仿真三个方面介绍商家智能体的技术实现和相关成果
听众收益:
1. 智能体技术如何深度应用在广告营销业务上?
2. 商家智能体建模面临哪些业务难点和技术挑战?
3. 什么是智能体仿真?智能体仿真的业务价值
个人介绍:负责奇富科技大模型建设和金融全场景应用落地,负责坐席copilot应用的设计、实施和追踪。
负责奇富科技风控、营销、获客等相关算法和数据挖掘业务。
构建奇富科技大数据体系,知识图谱、图计算等技术框架,带领团队进行算法创新,实现金融信贷领域的深度落地。
多年从事信贷风控领域算法研究和实施,曾经负责全场景风控模型的建设、数据生态建设、金融场景NLP技术挖掘等。
演讲题目:坐席copilot,懂人所懂,想人所想
演讲介绍和提纲:
在销售和客服业务中,每一次客户目标的达成都不是一蹴而就的,常态化的会出现多次的反复沟通,同时针对客户的身份和习惯等情况,坐席在沟通前也需要进行了解。如何让坐席在最短的时间内获取以上信息,让坐席的工作效率更高,团队管理成本更低,同时带来业绩上的提升。那么在上述业务场景中需要一个copilot来帮助坐席去进行回顾、总结和归纳。
1、copilot的核心是让坐席更聚焦、更高效,同时加深对本身业务的理解和客户的理解。
2、以金融场景为例,结合对业务以及合规的理解,让copilot更专业、更干练是设计重点。
3、如果利用开源大模型的基础能力,结合设计的目标和信贷特有的数据和知识体系,对copilot大模型进行评估和效果优化。
4、开源大模型日新月异,特性各不相同,如何对大模型进行分层级(3层)建设和评估(重建评估集合,分层联动评估),又通过什么样的框架(小模型驱动大模型,基座驱动任务大模型优化)快速强化基座大模型的垂类知识,进而让copilot大模型更加的专业与干练。
5、在copilot的更新与迭代过程中,通过哪些类型(访谈、业绩分析、核心要素发掘等)的分析与调研,找准当前copilot的不足和迭代方向。
6、 copilot在实际业务中,带来的增长有多少(GMV的增长比例),效果的指标矩阵(拆分业务表现的不同维度,如客单价、使用率、坐席效率等)表现如何。
听众收益:
1、坐席copilot的设计思路和设计过程,以及核心目标。
2、坐席copilot在大模型层面的分层方式以及迭代路径。
3、坐席copilot分析和价值体现的方法、过程和结果。
个人介绍:Denodo大中华区技术总监,郭杰先生拥有近20年的丰富工作经验,曾在Salesforce和IBM等全球科技企业任职,担任技术及管理工作。他专注于帮助客户更高效地分析和释放数据的价值,曾参与金融、政府、能源、制造、零售等行业的众多企业级商业分析系统的设计与实现。对企业数据管理平台的建设及应用拥有丰富的经验和独到见解。
演讲题目:企业数据编织演变:从物理到逻辑,创造新质生产力
演讲介绍和提纲:
·成功与挑战: 数据管理如何从物理数据管理发展到逻辑数据管理;
·逻辑数据编织好处: 使用更少资源、更低成本、更快数据获取时间、更大释放AI价值;
·企业角色与使用场景:人人都能挖掘与释放数据价值
·成功客户故事分享
听众收益:
·逻辑数据编织技术实现路径
·Denodo数据虚拟化
·逻辑数据编织业务场景与客户实践
个人介绍:毕业于北航,先后任职于搜狗、百度,于2018年加入快手并推动Flink在快手的深度改造和生产可用。
演讲题目:快手Flink on 8s的迁移与稳定性保障
介绍和提纲:
1、背景介绍,分为技术趋势和内部需求两个方面。
2、架构设计与实现,从用户层面、平台层面、引擎层面分别有哪些考量,以及如何解决迁移中的核心痛点。
3、稳定性保障,涵盖流程规范、作业管理、运维保障等方面,另外也会介绍下我们的海外AZ逃生。
4、未来规划,构建动态自适应、存算分离、混合部署的实时计算平台。
听众收益:
1、了解Flink on k8s在业界落地的生产实践状况。
2、了解实时计算的稳定性保障体系。
3、了解实时计算最新的业界动态。
个人介绍:现在滴滴负责OLAP引擎相关的开发工作, 有7年大数据领域开发经验,StarRocks/Flink Contributer, 对OLAP/实时计算领域有深入了解。
演讲题目:基于StarRocks的实时指标在滴滴的应用
演讲介绍和提纲:
一. 过去基于Druid的指标的缺点
二. 使用聚合模型计算时序数据指标
1. 建表与查询的最佳实践
2. 基于HLL的模糊去重指标
3. 基于全局字典+BITMAP的精确去重指标
4. 使用QueryCache进行查询加速
5. 使用同步/异步视图进行查询加速
三. 未来计划
1. 自定义SQL定时调度
2. 查询结果缓存
3. HLL可变精度
4. 定时小分区合并
听众收益:
1. 了解使用StarRocks计算实时指标的最佳实践
2. 去重指标的准确性与性能取舍的思考
3. 了解如何加速指标类查询
演讲题目:美团到店场景数据资产标准化建设
演讲介绍和提纲:
到店业务是美团历史最悠久的业务线,随着业务体量不断增长,对数据的需求日益精细,所带来数据应用产品众多,如何持续保障指标、模型、应用管理规范的统一以及如何收敛底层基础建设、提供方便易用的数据使用体验,这对数仓建设带来不小的考验。本次分享,主要从到店场景数据标准化建设方法、建设历程以及对未来规划三方面来重点介绍。
听众收益:
1.数据治理的范围是什么?
2.如何将数据标准规范有效的落地?
3. 如何借助大模型降低数据治理的人力投入?
个人介绍
10余年数据库和大数据的研发及技术管理经验。曾获得Nvidia官方认证的CUDA培训讲师,负责过装备制造、高校和科研机构的GPU并行加速项目。
0
演讲题目
滴普企业大模型在智能制造行业的落地实践
演讲介绍和提纲
1、介绍大模型语料加工过程,包括数据解析,数据按照三级大纲切片,数据标注,数据合成等,为模型训练/微调做数据准备工作。
2、介绍RAG 优化提升召回准确率,包括问题改写,混合检索,embedding优化,复杂表格解析,知识图谱检索等。
3、 介绍制造行业大模型训练/微调方法,通过企业私有化大模型提升知识问答准确率。
听众收益
1、了解企业大模型落地过程中的语料加工和模型训练/微调过程
2、了解企业大模型落地制造行业的实践经验。
个人介绍:硕士就读于北京大学,曾任衣二三CTO。积极参与开源社区,现在主要负责喜得国际的工程技术管理,架构选型,重大技术决策。黑五稳定性保障的总负责人,3年黑五0宕机。主导云服务器迁云,顺利提出并完成不停机迁移。对高流量高并发有丰富经验。
演讲标题:跨境电商喜得国际的多云数据平台建设
演讲介绍和提纲:
作为头部跨境电商喜得国际,伴随着出海区域的增多选择进行多平台的运营,业务数据平台涉及到多朵云的同时希望可以保持云中立,这就需要选择具有多云能力的数据产品,且有能力实现不同云之间的数据同步和容灾等。喜得国际技术选型从最初的PostgreSQL到分布式Data Warebase,期间经历市面所有主流技术方案的调研与测评。最终选择采用分布式Data Warebase,该方案带来以下收益:
l云中立:底层建立在云上,采用了云的存储和基于容器的调度技术,并且无缝支持多个主流云厂商
l性能:查询性能大幅提升,一套系统即可满足TP和AP的诉求
l效率:研发更聚焦于业务无需考虑扩容等技术细节
l体验:摒弃复杂,带来极简的产品体验
听众收益:
1.了解跨境业务数据平台搭建流程
2.跨境电商业务技术选型思路
3.多云平台数据系统搭建
4.数据系统如何更好地支撑业务发展?
5.业务高速增长时数据平台应如何进化
6.了解跨境电商业务与AI 可以碰撞出什么样的火花
个人介绍:2015年佛罗里达大学信息系统硕士毕业。曾就职于LinkedIn,字节跳动,美团,现任美团数据科学平台工程师,负责BI平台智能分析方向探索与落地。
演讲题目:指标中台和AIGC在美团BI场景的探索和实践
演讲介绍和提纲:
1. 美团BI平台的背景和演进
2. 指标中台的建设和基于指标仓库的BI应用
3. 基于AIGC和指标中台的智能分析能力建设
4. 后续建设思路
听众收益:
了解互联网公司在BI场景落地AIGC应用面临的不同业务场景及技术挑战,提供AIGC在BI场景选型思路和实践经验参考。
个人介绍:刘豹先生是数势科技标品研发技术负责人,深耕大数据研发领域10余年,有丰富的大数据类产品研发及平台建设经验;先后供职过百度、腾讯等公司基础架构及数据平台部门,具备丰富的带领团队落地大数据平台类项目的经验。
演讲题目:数势指标平台建设实践
演讲介绍和提纲:
从“语义层”出发,说明指标平台和BI之间的对比,各自的依据的数据建模范式;
从数据工程方面,语义层如何落地、承担的位置以及职责;
结合“数据编织”,介绍指标平台的技术核心,加速功能的设计、不同的加速策略和局限。
听众收益:
了解语义层;
了解数据建模范式;
了解指标平台的设计和加速策略。
个人介绍:负责火山引擎OLAP引擎研发工作,有多年TP/AP数据库及分布式系统内核研发经验,目前主要聚集于ByteHouse云原生数据库相关开发工作。
演讲题目:ByteHouse:基于OLAP的高性能向量检索设计及应用
演讲介绍和提纲:
向量检索被广泛使用于以图搜图、内容推荐以及大模型推理等场景。随着业务升级与 AI 技术的广泛使用,用户期望处理的向量数据规模越来越大,对向量数据库产品的稳定性、易用性与性能需求也越来越高。为此火山引擎ByteHouse团队基于社区 ClickHouse 进行技术演进,提出了全新的向量检索功能设计思路,满足业务对向量检索稳定性与性能方面的需求,目前ByteHouse向量检索性能实现与专用向量数据库持平,且已经在相关场景落地。
本次分享以火山引擎 ByteHouse 的向量检索功能设计与实现为主题,主要包括以下内容:
1. 向量检索概念以及在 LLM 场景的应用
2. 如何基于ByteHouse OLAP引擎实现向量检索
3. ByteHouse向量检索-性能优化解读
4. ByteHouse向量检索-资源优化解读
5. 与专用向量数据库的性能比较
6. ByteHouse向量检应用场景解读
听众收益:
1. 向量检索的使用场景
2. 向量检索与 OLAP 结合的优势
3. 如何在 OLAP 系统中实现高效向量搜索
4. 基于OLAP的向量检索应用场景
个人介绍:2015年硕士毕业之后,一直从事大数据分析引擎相关的工作,有丰富的分布式计算系统在海量数据场景下的优化经验。目前主要负责湖仓一体分析引擎相关工作。
演讲题目:基于doris湖仓一体分析系统在快手的实践
演讲介绍和提纲:
1.分析引擎转向湖仓一体的初衷
2.缓存在湖仓一体中的实践
3. 自动物化在湖仓一体中的实践
听众收益:
1.为了满足性能和业务需求,湖仓一体分析架构是如何设计的?
2.缓存在湖仓一体解决了哪些问题?
3.自动物化是如何减少数据开发工作量?
姜国强,SelectDB 产品副总裁、云产品负责人,曾担任百度 Doris 团队存储引擎研发负责人、腾讯 ES/OLAP 产品研发负责人,具有十年分析型数据库研发经验。
演讲题目
数据仓库新篇章:云原生实时数仓SelectDB
演讲介绍和提纲
1. SelectDB 简介:SelectDB的基础介绍与应用场景
2. 数据分析的核心痛点与发展趋势:当前数据分析的关键痛点,未来数据仓库的发展趋势。
3. SelectDB的思考与创新:SelectDB在实时性、云原生、湖仓一体方面的创新与突破。
4. SelectDB未来发展规划。
听众收益
1. 数仓最前沿的发展趋势以及SelectDB的探索实践;
2. SelectDB如何在多场景下达到业界领先的性能水平;
3. 云原生机遇之下,SelectDB如何进行数仓的持续创新;
4. 湖仓融合趋势过程中,SelectDB在湖仓一体方面的思考与实践;
腾讯高级工程师,主要负责腾讯实时湖仓的架构设计和内核优化等工作,推动湖仓一体化在公司大范围内落地并取得显著的性能提升和降本收益。
演讲题目
腾讯大数据实时湖仓智能优化实践
演讲介绍和提纲
本次分享主要介绍基于天穹大数据体系下的湖仓建设和优化实践, 深入分享湖仓落地技术方案和智能优化实践,显著改善业务体验,提升查询性能,助力业务降本增效
a.天穹实时湖仓架构
b.内核优化&智能提速
c.落地实践&未来规划
听众收益
a. 传统数仓架构升级,实时湖仓快速落地
b. 基于Iceberg/Huid/Delta/Paimon 等湖仓格式选型的参考
c. 在大规模落地场景如何有效解决小文件问题, 实时性问题, 成本问题等
李劲松,花名之信,PMC Chair of Apache Paimon,PMC Member of Apache Flink,阿里云开源大数据表存储负责人。
演讲题目
Apache Paimon 实时湖仓存储底座
演讲介绍和提纲
主要介绍 Apache Paimon 作为一个湖格式,在湖上构建实时链路,面向 OLAP 提供实时查询,Paimon 经过了8个版本的迭代后,面向流、批、OLAP均有一定成熟度,作为一个统一的共享存储面向主流大数据服务。此分享主要包括:
1. 实时湖仓,解锁企业通用的实时需求
2. 使用 Flink 构建流式入湖与实时链路
3. 使用 Spark 构建批式 ETL 链路
4. 使用 OLAP 引擎极速查询
听众收益
了解最新湖仓一体的场景与玩法,了解统一数据湖格式的基本理念
负责阿里云AI搜索产品OpenSearch、阿里云ElasticSearch AI研发,以及开源搜索引擎Havenask研发。覆盖AI搜索、向量检索、大数据检索、对话式搜索等多个场景。曾带领团队研发多款搜索、推荐和智能问答类产品研发。目前主要聚焦在大模型AI应用研发,关注大模型AI应用对业务和客户的价值。
演讲题目
阿里云AI搜索RAG应用实践
演讲介绍和提纲
本文主要介绍 RAG 产生背景、发展历程、技术方案,并以阿里云AI搜索产品为例,介绍RAG真实场景的实践经验,探讨搜索产品如何以 RAG 为切入点,构建RAG服务,以及如何构建面向开发者的 RAG 技术平台。主要内容包括:
•RAG产生背景
•RAG技术方案
•RAG应用实践
•RAG总结展望
听众收益
了解RAG技术方案、难点,以及阿里云AI搜索RAG最佳实践和应用场景
腾讯数据技术架构师,多年负责搜、推、广场景数据相关的数据仓库、数据平台及算法系统架构设计与工程实现的数据工作经验;加入腾讯后,主要负责腾讯天穹大数据平台的平台自治、数据治理、智能化相关的系统架构设计、工程实现以及业务落地的工作。
演讲题目
天穹数仓自治能力在大模型时代的新实践
演讲介绍和提纲
本次分享主要介绍针对天穹大数据体系中的业务现状,结合大模型,深入探讨针对数仓、集群、作业等大数据生态中的业务对象如何在治理、异常发现、故障归因等问题上提供更为自动化、系统化、智能化的能力体系,从而进一步降本提效。
听众收益
结合腾讯天穹当前的业务现状,讲述大模型在平台自治领域的一些落地项目,让听众了解大数据平台自治领域与大模型相结合的探索实践相关思路经验和进展,以及相关的技术、业务的痛点与难点。
个人介绍
腾讯数据平台部高级工程师,腾讯大数据Native Engine项目负责人,Spark项目负责人,Apache/Uniffle PPMC,Meta/Velox项目top贡献者。
演讲题目
Velox Memory Management
演讲介绍和提纲
The Velox memory system is designed to safely run highly variable query workloads within a fixed memory resource. It provides the query execution with all the required memory allocation functions and optimizes physical and query memory allocation patterns. It offers fair memory sharing among queries by memory arbitration and disk spilling techniques. It provides the total memory capacity enforcement by managing the physical memory independently.
听众收益
Velox memory management architecture Velox query memory arbitration mechanism Velox query disk spilling technique.
个人介绍
刘文强在18年博士毕业之后加入腾讯,曾负责游戏领域知识图谱构建和应用。现任腾讯海外游戏大语言模型方向负责人,主要负责多语言自然语言处理的算法研发以及大语言模型在腾讯海外游戏的应用设计和开发工作。
演讲题目
AI Agent 及其在游戏领域的应用探讨
演讲介绍和提纲
1.从历史到现在:大语言模型的发展脉络及其对我们应用开发的深刻启示
2.掀开神秘面纱:剖析 Agent 的技术架构及其在游戏领域的主要应用场景
3.创新与实践:分享我们在 Agent 上的探索与创新尝试
4. 从现在到未来:经验教训和未来计划
听众收益
1. 了解目前Agent的发展脉络
2. 获取在游戏领域的结合点
3. AI Agent 在应用方面面临的挑战
个人介绍
10年经验资深研发工程师,2014年北京邮电大学硕士毕业,加入IBM参与高性能计算产品研发。2017年加入百度,负责智能运维方向,在异常检测、报警管理、变更拦截、根因定位等领域积累了丰富实战经验。
演讲题目
变更异常分析
演讲介绍和提纲
演讲简介:
智能运维领域,变更质量是绕不开的重大话题。变更是线上故障的最大来源,灰度变更过程中如何及时发现异常进而拦截。根因定位场景下,如何根据故障特征锁定异常变更及时止损。这项工作挑战很大,希望借此机会与业界同仁一起交流学习。
内容提纲:
1:变更是故障的Top1来源
2:变更视角:变更拦截体系的构建
2.1 双路检查机制:阶段性回溯检查、SLA实时检查
2.2 客户黄金指标检查
3:故障视角:异常变更的推荐
3.1 同模块的异常变更推荐
3.2 跨模块的异常变更推荐
听众收益
1 如何构建变更拦截体系,先于客户感知问题
2 如何根据故障特征推荐出异常变更,及时止损
个人介绍
毕业于中国科学院,目前是商业广告平台智能体团队技术负责人,工作方向是智能体技术在商业营销场景中的实践落地。拥有数十项发明专利,对高并发、高性能、高可用分布式系统的建设和治理也有较多实践和较深入的理解。
演讲介绍和提纲
1.轻舸营销智能体诞生的契机
2.轻舸广告多智能体架构基于四力模型的建设
理解力,即智能体能听懂客户的广告营销诉求的表达,正确路由到合乎客户认知的逻辑分支
洞察力,即智能体主动/被动方式洞察出客户在投放中的问题和机会点,并给出分析过程与解决方案,帮助客户在广告投放中取得更好的效果
执行力,即客户给出的要求,能够切实有效地干好,干到位,让客户满意,且能够量化并持续跟踪后续进展和客户满意程度
引导力,即智能体的沟通控场能力,能够激发客户更多的有效表达,给检索引擎层传入更多信息,进而提升广告投放效果
听众收益
了解 AI Agent 在商业营销落地中的技术方案与收益
开拓思路,如何将传统业务与 AI 结合,孵化智能体
AI Agent 领域目前存在的挑战,以及对未来的展望
个人介绍
阿里巴巴算法专家,目前就职于1688技术部,专注于运用AI技术改善买家找挑商品和客服咨询的体验。长期负责平台智能客服的算法建设并兼任产品,同时负责AI+导购创新场景算法设计,以及垂直大模型技术研究。加入阿里前,曾就职杭州一家明星NLP创业公司,深度实践智能客服的0-1,并在算法研究上发表相关论文。
演讲题目
智能体驱动的场景化导购
演讲介绍和提纲
介绍:
当前电商平台的导购链路较为单一,难以满足不同购物人群的差异化需求,导致用户体验缺乏特色。受制于过去的智能技术瓶颈和高昂的运营定制成本,解决这一问题挑战极大。如今,借助大模型强大的信息处理能力以及电商平台丰厚的数据沉淀,实现场景化导购定制的边际成本趋向固定。我们正积极探索这一领域,力图打造丰富多样的场景式购物体验,为AI时代的新导购形态开辟更多可能性。
简要提纲:
1. 场景化导购的价值和问题定义
2. 场景化导购智能体的定义、架构、挑战和实践
3. 应用展示
4. 未来的导购场
听众收益(讲师必填)
1. 深入了解B类电商导购的现状和问题
2. 智能体驱动的导购新面貌和有效实践
3. AI驱动的未来导购范式的思考和解读
个人介绍:本科毕业于上海交通大学电子系,随后取得香港中文大学信息工程博士学位,毕业后加入新加坡高级数字科学中心(美国伊利诺伊大学在新加坡的研究所)从事科研工作,在计算机网络和分布式系统领域相关的顶级国际会议发表多篇论文。加入Alluxio前,傅正佳曾在新加坡科技公司Bigo Technology担任机器学习研发总监。
演讲题目:Alluxio AI|新一代AI/ML训练中台的数据I/O解决方案
演讲介绍:在以数据驱动的AI时代,高效访问存储中的大量数据对于模型训练和服务至关重要。然而,I/O 挑战往往会阻碍性能并限制 GPU 的利用率。本次分享,我们将介绍基于 Alluxio 构建的高性能数据访问层,如何克服 I/O 挑战并显著提高 GPU 利用率。通过丰富的用户案例和实验数据,您将了解在Alluxio中缓存数据集和模型的方法,将有多大幅度的性能提升。
演讲提纲:
1. 介绍常见的 I/O 挑战及其对 GPU 利用率和整体性能的影响
2. 如何将高性能数据访问层无缝集成到 ML 工作流中,以减少 I/O 开销
3. 提高AI工作负载性能的缓存策略
4. 增强数据访问和加速AI工作负载的未来方向
5. 行业应用案例分享
听众收益:通过此次分享,与会者将深入了解到由数据驱动的AI工作负载所带来的 I/O 挑战,并了解如何将 Alluxio 作为一种有效解决方案加以利用。我们将重点分享来自Meta、Uber、Shopee、知乎等用户的实践经验、探讨我们的方法对 GPU 利用率和整体性能的影响。
个人介绍
阿里云Dataworks产品专家,长期进行数据治理领域相关产品建设,聚焦阿里集团及云客户大数据治理方案的平台化能力和最佳实践。
演讲题目
业务价值驱动的数据资产治理
演讲介绍和提纲
数据虽然已经成为企业的核心资产之一,但是如何有效地管理和利用数据,使其转化为实际的业务价值,是每个企业都需要面对的问题。
本次演讲将从实战的角度出发,深入剖析数据资产治理的重要性,从稳定性、准确性、安全性等方向揭示数据资产治理对企业业务的贡献,实现业务目标,提高运营效率,降低风险,从而为企业创造更大的商业价值。
听众收益
1、了解数据价值与业务价值的关联模式
2、了解基于业务重心,进行数据治理场景选择
3、阿里云高效进行数据治理落地和实践的模式
个人介绍
PAI人工智能平台场景化应用负责人,负责云原生训练推理平台工程以及基于平台之上的智能推荐,用户增长,图像视频生成,大语言模型的算法工程技术。旨在通过提供标准化的AI产品方案,更好地服务开发者和企业用户使用云上产品,支持好大规模的AI训练和服务,解决客户业务问题。目前开源EasyRec(推荐),EasyPhoto(AI写真),EasyAnimate(类Sora),PAI-RAG等项目。
演讲题目
从大数据到大模型:搜索推荐技术的前沿探索
演讲介绍和提纲
主题:基于普遍使用的实时推荐搜索技术方案之上,结合大模型,业界在开展的实际探索和落地的创新技术
详细内容:
1. 主流云上推荐搜索技术方案介绍
2. 推荐和RAG相关技术,算法和工程上面临的挑战和机会
3. 算法工程上的创新技术
4. 相关案例分享
听众收益
了解当前搜索推荐场景的基本实现,以及结合大模型的一些创新点
个人介绍
中科院硕士,百度十年,从事搜索推荐研发五年。现任百度研究院资深工程师,主要研究领域是AI for Science,致力于利用人工智能推动科学研究与发现。在大模型技术蓬勃发展的背景下,开发了星致助手、爱企查Copilot、AutoBI、智能报告等一系列大模型应用,有力地支撑了公司内外各项业务的发展。
演讲题目
文心大模型赋能商业智能助手的探索与实践
演讲介绍和提纲
1.商业信息查询介绍
2.文心大模型构建商业智能助手的几种模式
3.文心大模型赋能商业智能助手进阶
4.商业智能助手的未来与展望
听众收益
1.深入了解商业信息查询的现状和挑战
2.掌握大模型技术在商业智能助手中的应用
3.学会利用大模型进行知识图谱检索技术
个人介绍:伦敦大学学院(UCL)统计系博士,抖音推荐算法部门数据科学团队负责人
演讲标题:推荐场景下的复杂AB实验设计
议题介绍和提纲:在推荐策略的迭代中,经常遇到SUTVA假设不满足的复杂实验场景,最典型的两类场景是存在网络效应的社交类实验和同时影响到消费者和创作者的双边实验,在这两类场景中,实验组和对照组之间往往存在相互干扰 (Interference),进而影响实验的度量和观测。 在本次演讲中,我将介绍如何通过实验设计的方式尽可能消除实验对象间的相互干扰,进而得到无偏的策略效应估计。本次分享主要包括: - 社群分流在抖音社交实验中的应用 - 供需双边实验在抖音流量扶持场景的应用
听众收益:
1. 在推荐策略评估场景,有哪些常见的Interference问题?
2. 如何通过社群分流消除「网络效应」对实验评估的影响?
3. 如何通过实验设计解决流量扶持场景的资源挤占问题?
个人介绍
刘殊畅博士,毕业于罗格斯大学,博士期间师从张永锋教授,毕业后就职于快手负责推荐算法研发,主要研究方向为推荐系统、强化学习和联邦学习,发表 CCF-A/B 类论文20余篇。
演讲题目
基于生成式流网络的用户留存建模
演讲介绍和提纲
推荐系统中用户回访的频率与 DAU 直接相关,因此是一个关键的评估指标,但如何对其进行优化仍然是一个具有挑战性的问题。主要原因包括但不限于:1)用户离开系统后其行为不确定性强且不可观测;2)时间上极其稀疏的信号;3)采样具有延迟。尽管如此,我们认为推荐系统的整体表现仍然会对用户的回访偏好造成影响,因此提出可以通过将推荐过程建模成生成概率流网络(GFlowNet),将用户回访逐步回传分配给推荐过程的每一步,以克服上述诸多挑战并达到对用户留存直接优化的目的。我们在多个离线数据集和快手的多个线上模块验证了该方法的有效性,相关论文已被 KDD 2024 收录。
听众收益
1. 用户留存建模新方式的探索;
2. GFlowNet 在推荐系统中的落地;
个人介绍
杨栋,百度文库大模型技术负责人。他毕业于香港城市大学博士,现在主要研究方向是大模型,AIGC,自然语言处理,预训练模型和应用。近期,他主要负责运用大模型技术,落地文库AIGC项目,例如:智能生成PPT,AI编辑,作家平台,行业报告等。
演讲题目
大模型应用落地:AI内容创作
演讲介绍和提纲
该报告详细介绍运用大模型技术,落地于PPT生成,AI编辑,作家平台,行业报告等场景。同时,介绍垂类SFT数据的构建以及训练,还有利用用户反馈,进行强化学习训练,快速迭代模型效果。
听众收益
如何将大模型落地到百度文库和其他垂类
个人介绍
本硕毕业于哈尔滨工业大学,目前主要负责小红书生成式搜索场景和多模态表征的技术研发和业务落地工作,对大模型、多模态内容理解、搜索推荐等领域有着丰富的实战经验。
演讲题目
用户体验升级:大模型在小红书搜索和推荐中的应用
演讲介绍和提纲
01、快速了解小红书:小红书的成长过程
2、LLM 在小红书搜索中的应用:深入探讨 LLM 如何重塑搜索体验,以及背后的技术路线
3、LLM 在推荐系统中的作用:分析 LLM 如何增强对内容和用户偏好的理解,以及实现个性化推荐的技术路径
4、互动 Q&A
听众收益
1、详细了解小红书的发展历程
2、了解 LLM 如何与小红书推荐搜索场景结合,以及技术实现路径
3、理解如何通过技术创新提升用户体验
个人介绍
MBA,二十年IT从老兵,十年外企,十年互联网技术管理经验
演讲题目
安全运维智能升级:拥抱AI,迎接变革
演讲介绍和提纲
SECOPS行业痛点
AISECOPS架构设计
AISECOPS流水线
AISECOPS模型训练
AISECOPS模型评估
AISECOPS成本评估
AISECOPS+
听众收益
1.如何在传统安全运维领域寻找AI切入场景。
2.AISECOPS实践经验分享。
个人介绍
曾就职于贝壳,腾讯,百度等多家互联网公司,研发出身,后转为数据产品,具备多年大数据产品及研发经验,对数据中台或大型组织横向的数据内容型产品及数据治理方向有丰富的经验,并多次取得过组织认可,目前就职于一家大型互联网公司,负责某电商方向业务侧内容的数据产品建设。
温岩
演讲题目:
指标体系在快手电商的应用探索
演讲介绍和提纲
介绍:
直播电商是一个过程复杂,演进迅速的业务形态,在业务过程中,需要有丰富有洞察的数据内容对业务进行精准的刻画,并进一步指导业务策略变化,因此指标体系的建设深度和广度,以及应用呈现方式需要有更高效、严谨的表达;
提纲:
1.点对点挖掘业务-数据产研用逻辑
直播电商的业务形态特点
业务场景所面对的数据痛点
基于痛点的思考逻辑
理想的数据建设-应用飞轮形态
2.数据应用体系的构建
数据应用体系建设的方法论基础
业务架构的理解
数据应用架构的设计逻辑
3.快手电商的指标应用场景实践
经营分析场景的实践
活动运营场景的实践
商达运营场景的实践
听众收益:
1.了解直播电商的业务形态,理解此类业务的数据痛点及解决思路
2.了解企业业务架构转化为数据应用架构的转化逻辑
3.了解直播电商数据应用场景的案例
个人介绍
理想汽车算法研发工程师,主要研究方向是NLP、AIGC、大模型训练与部署。致力于大模型的落地场景与业务开发工作。
演讲题目
基于大模型实现结构化标签提取
演讲介绍和提纲
演讲介绍:
在人工智能浪潮来临之际,指标体系的构建也成为了新的探索领域。针对自然语言的标签提取,相比以往的人工标注或传统算法标注,大模型得益于大算力和大数据的支持,显著提升了算法基座的能力极限。本次演讲分享了理想汽车在品牌运营中的实践,如何顺利地将大模型应用于指标构建,通过大模型实现文本自动标注、数据自动生成、模型自主迭代,构建高度自动化的系统,为依托于指标体系的数据分析应用奠定了新的智能基座。
提纲:
1.1 业务需求
1.2. 预期目标
1.3 行业痛点
1.4 传统算法方案
2.1 传统算法VS生成式大模型
2.2 大模型应用发展路径
3.1 系统架构
3.2 关键技术项
3.3 效果对比
听众收益
1.如何利用大模型实现灵活的标签提取?
2.提升大模型效果和稳定性的方法有哪些?
3.大模型开发如何变得更加自动化?
个人介绍
资深开发者,2010年开始从事大数据相关研发和架构工作,并从那时候开始一直伴随Elasticsearch的成长,使用Elasticsearch构建过大规模文档和财经资讯搜索平台。除了熟悉Elastic相关的技术栈外,也对大数据生态的各种技术栈有着广泛的涉猎。现在负责Elastic解决方案架构、技术咨询、社区布道等工作。
演讲介绍
Elasticsearch是企业搜索领域全球应用最广泛的搜索引擎,拥有46亿次的下载量,这意味着Elasticsearch事实上承载了全球各行各业海量且丰富的私有数据,随着大语言模型的兴起和展现出的惊人能力,企业非常迫切地想使用大语言模型来分析和利用他们的私有数据,而RAG是当下企业落地LLM应用最成熟和最快速的方式。Elastic也必须响应企业的迫切需求,推出了全新的8版本Elasticsearch来帮助企业在原有的技术栈上面,更快更好地落地RAG应用。
本次分享以下内容:
1.在Elasticsearch技术栈上实现RAG的架构和组件
2.Elasticsearch 8提升RAG效果的相关技术
3.Elasticsearch 8原生向量引擎的最新进展和优化
4.Elasticsearch 8如何最大程度优化语义相关性
5.Elasticsearch 8 自身的AI能力和外部AI服务的对接
6.Elasticsearch融入阿里云RAG生态的最佳实践
听众收益:
1.获得Elasticsearch 8 最新搜索和AI能力的相关知识
2.在Elasticsearch技术栈上实现RAG的最佳实践
3.Elasticsearch未来展望
赵鑫,中国人民大学高瓴人工智能学院教授。2014年7月于北京大学获得博士学位,随后进入中国人民大学工作至今。研究领域为信息检索与自然语言处理,共计发表论文200余篇,谷歌学术引用1.9万余次,曾主导研发了玉兰大语言模型,组织编写了大语言模型综述论文《A Survey of Large Language Models》(预印版文章)以及《大语言模型》中文书。曾荣获2020年吴文俊人工智能优秀青年奖、ECIR 2021时间检验奖,CCF-IEEE CS青年科学家奖。
演讲题目:大模型技术的研发与思考
演讲介绍:最近,以 ChatGPT 为代表的大语言模型受到了社会的广泛关注。本次报告将围绕大语言模型研发过程中的关键技术展开介绍,分析现有技术特点以及局限之处,并且给出报告人对于这些方面的相关思考与实践经验。
张松昕 南方科技大学研究学者
个人介绍
南方科技大学统计与数据科学系研究学者,兼任UCloud顾问资深算法专家,曾任粤港澳大湾区数字经济研究院访问学者,主导大模型高效分布式训练框架的开发,设计了SUS-Chat-34B的微调流程,登顶Open LLM Leaderboard、Opencompass同参数量级模型榜首。
演讲题目:Modeling World on Internet Scale Data
演讲摘要:在多模态时代到来的今天,训练数据量已经从 TB 级走向了 PB 甚至 EB 级。如何高效地处理、归纳、治理这些数据,并将其中最为高质量的部分送入训练 GPU 集群,已经成为了 AI Infrastructure 的挑战。传统的 AI Infrastructure 主要面向 GPU 间高效通信和并行算法以及硬件效率的优化,但在需要整个互联网级别的数据进行训练的今天,面向数据基础设施的建设成为了 AI 系统中不可忽视的一部分。我们从流的角度出发,针对大规模 GPU 计算负载,提出了一套统一的基于云原生的数据治理方案,并将其应用在 LLM、多模态大模型以及类 Sora 的视频生成模型上。本议题将以视频生成场景为例,阐述当前 AI 领域数据治理面临的挑战和我们的解决方案。
听众受益:AI 数据治理方案,视频生成相关案例
刘辉 58同城AILab 大模型算法工程师
个人介绍:
刘辉,58同城AI Lab大模型算法工程师,关注大语言模型和AI智能体方向,目前主要负责58同城垂类大语言模型灵犀大模型的训练工作。
演讲题目:大语言模型PEFT参数高效微调实践和应用
演讲简介:58同城构建了生活服务领域垂类大语言模型灵犀大模型ChatLing,在构建和应用大模型过程中,我们在参数高效微调PEFT)技术上进行了探索实践。本次议题首先概述几种常用PEFT方法的原理、使用技巧和实验效果,然后介绍大模型训练SFT有监督微调阶段的数据清洗、筛选和构造方法,最后分享微调加速方面的实践和效果。
李晨亮 阿里巴巴 通义实验室 算法专家
李晨亮,现为阿里巴巴通义实验室算法专家。2016年本科毕业于西安电子科技大学,2019年硕士毕业于北京邮电大学。主要研究方向为自然语言处理,包括预训练语言模型、文本生成、多模态等。曾经在相关领域顶级会议如ACL、EMNLP、AAAI,ICML,CVPR等发表20多篇生成,多模态,大模型,Agent等相关领域论文,包括中文首个超大规模生成模型PLUG,多模态mPLUG系列,中文GPT等系列生成模型。参与多个国际评测和比赛,在纯文本生成、多模态生成等相关评测榜单上多次达到第一,并在多模态VQA榜单上首次超越人类水平。魔搭社区NLP领域负责人,累计推动开源400+模型,40+数据集,负责ModelScopeGPT(魔搭GPT)项目,打造大小模型协同的agent系统和基于开源大模型的ModelScope-Agent框架。作为核心成员参与通义星尘角色扮演的产品打造。
演讲题目
开源框架ModelScope-Agent加速多智能体应用构建
演讲介绍和提纲
1. 多智能体框架和魔搭社区
2. Modelscope-Agent框架
3. Modelscope-Agent Apps
听众收益
1: 什么是多智能体框架?
2: Modelscope-Agent框架的特点和优势?
3: 如何使用Modelscope-Agent框架搭建多智能体应用?
演讲嘉宾:汤祯捷 阿里云MaxCompute高级产品专家
个人介绍:
曾担任阿里云计算平台-产品解决方案负责人。曾从0到1完整搭建大数据产品商业化团队。拥有十多年大数据相关研发产品相关解决方案经验,曾在EMC研发中心,联想研究院等企业参与与主导数据产品研发与企业级数据应用商业化落地。
演讲主题:数智驱动AI时代业务创新
演讲介绍和提纲:
1、阿里云大数据整体能力介绍
2、大数据AI一体化架构规划
3、大数据+大模型双核驱动
4、客户应用案例
听众收益:
了解阿里云大数据AI结合技术架构与实践
演讲主题:数据智能在营销发行中的应用
个人介绍:联通数字科技有限公司 模型开发专家。负责数字政府、文旅交通等行业的模型应用构建。专注于探索大数据、人工智能等方向的新技术,并在行业应用落地,主要研究成果已在多篇期刊和会议发表。
演讲主题:RAG技术应用实践
演讲介绍和提纲:
RAG(Retrieval-Augmented Generation)技术,是一种结合检索和生成功能的自然语言处理技术。它通过从大型外部知识库中检索与输入问题相关的信息,来辅助生成式模型回答问题。RAG技术广泛应用于问答、对话系统、文本摘要等多种自然语言处理任务中。它的优势在于能够提高内容的准确性和相关性,有效地缓解幻觉问题,提高知识更新的速度,并增强内容生成的可追溯性。本次演讲将分享RAG技术的优势、我们如何基于联通自有数据进行知识增强应用的构建,以及在应用RAG技术过程中遇到的挑战和解决方案。
听众收益:
1.什么是RAG技术?
2.RAG技术的优势是什么?
3.RAG技术过程中遇到的挑战和解决方案。
主题:面向大规模向量数据的云原生存储解决方案:Milvus 向量数据库的经验
个人介绍:
徐冬是Zilliz 首席工程师,毕业于哈尔滨工业大学。在加入 Zilliz 之前,曾就职于腾讯、阿里巴巴等公司,负责研发和运维大规模分布式大数据系统,在 SQL 优化和分布式数据库领域有多年的经验。
简介:Milvus 是全球领先的向量数据库,提供超大规模、灵活扩展的向量存取,以及高性能、深度定制的向量索引能力。本次分享会介绍 Milvus 的架构和应用场景,关注云原生存储方案这一话题,介绍 Milvus 的设计思考和优化经验
阿里云智能大数据演进
分布式 Data Warebase - 让数据涌现智能
大模型技术的研发与思考
圆桌对话:从涌现到价值涌现,再看大模型发展趋势
Data到Data+AI,数据平台的演进
Velox Memory Management
Alluxio AI|新一代AI/ML训练中台的数据I/O解决方案
茶歇
腾讯游戏在AI+湖仓一体的实践
Apache Celeborn 在B站的最佳实践
基于Uplift Model的优惠券分发优化
字节跳动实验平台的边界拓展
Fast-Causal-Inference——腾讯开源分布式因果推断工具
茶歇
推荐场景下的复杂AB实验设计
随机实验AA问题的系统解决
提升大模型数学推理能力
滴普企业大模型在智能制造行业的落地实践
Modeling World on Internet Scale Data
茶歇
智慧芽数据治理与大模型的协同实践
大语言模型PEFT参数高效微调实践和应用
智能NPC:AI为游戏NPC注入灵魂
坐席copilot,懂人所懂,想人所想
货拉拉LLM赋能邀约客服质检、培训提效的实践
茶歇
大模型应用落地:AI内容创作
用户体验升级:大模型在小红书搜索和推荐中的应用
西门子利用LLM打造通用公司智能助理的实践
货拉拉利用大模型打造多场景个人、办公助理实践
大模型在小爱同学应用实践
茶歇
开源框架ModelScope-Agent加速多智能体应用构建
文心大模型赋能商业智能助手的探索与实践
数智驱动AI时代业务创新
数据智能在营销发行中的应用
RAG技术应用实践
茶歇
面向大规模向量数据的云原生存储解决方案:Milvus 向量数据库的经验
天穹数仓自治能力在大模型时代的新实践
企业数据编织演变:从物理到逻辑,创造新质生产力
业务价值驱动的数据资产治理
美团到店场景数据资产标准化建设
百度商业智能体技术创新与实践
大模型赋能货拉拉全场景营销效率实践
大模型在智能电销的应用
打造LLMOps时代Prompt数据驱动引擎
运维大模型的应用和展望
变更异常分析
安全运维智能升级:拥抱AI,迎接变革
AI 大模型技术在知乎搜索等场景的应用
从大数据到大模型:搜索推荐技术的前沿探索
推荐广告多兴趣&生成式序列化召回
基于生成式流网络的用户留存建模
大模型在研发数据中台的应用实践
数据问答新纪元:大模型如何塑造数据产品的明天
基于大语言模型的数据应用探索
大型企业内部数字化挑战和解决方案
小米基于 Data / AI 一体化的湖仓多云实践
跨境电商喜得国际的多云数据平台建设
加速云端机器学习,Alluxio在小红书的实践
茶歇
企查查的数据降本增效之路
快手Flink on K8s的迁移与稳定性保障
指标体系在快手电商的应用探索
LLM时代下的指标平台建设实践
指标中台和AIGC在美团BI场景的探索和实践
茶歇
基于StarRocks的实时指标在滴滴的应用
基于大模型实现结构化标签提取
RAG落地中的知识库建设、现实坑点及应用探索
阿里云AI搜索RAG应用实践
Elasticsearch 8让企业更快更好地落地RAG应用
茶歇
数据库文档问答的应用和演化
ByteHouse:基于OLAP的高性能向量检索设计及应用
多模态手机Copilot: Mobile-Agent
智能体驱动的场景化导购
具身认知增强的大语言模型Agent
茶歇
AI Agent 及其在游戏领域的应用探讨
从0到1,广告营销多智能体架构落地全攻略
基于 Apache Paimon 的实时湖仓架构实践
数据仓库新篇章:云原生实时数仓SelectDB
Apache Paimon 实时湖仓存储底座
茶歇
腾讯大数据实时湖仓智能优化实践
基于Apache Doris湖仓一体分析系统在快手的实践
阿里云智能大数据演进
微软十年,曾任微软必应新闻搜索搜索引擎团队负责人,曾负责MS多个事业部的不同产品相关工作。 阿里八年,曾任阿里集团搜推广事业群数据平台+效能/质量团队负责人,阿里集团研发效能事业部负责人,阿里云无影事业部负责人, 曾负责 DataWorks 1.0、2.0、 3.0, PAI 1.0、2.0, 达摩盘 3.0 等核心产品。
演讲题目
阿里云智能大数据演进
演讲介绍和提纲
1. 阿里云大数据+AI产品线介绍
2. 大数据和AI趋势分析
3. 阿里云智能大数据产品解决方案
4. 未来展望
听众收益:
1、了解大数据与AI技术发展趋势
2、全面了解各类技术领域的阿里云解决方案
3、大数据与AI结合与演讲方向
分布式 Data Warebase - 让数据涌现智能
曾任阿里巴巴研究员,创建了阿里云 Flink 和 Hologres 团队和产品;曾任 Facebook 调度系统,时间轴和 Messenger 的技术主管;曾任微软 SQL Server 引擎架构师;美国西北大学理论物理硕士学位,中国科学技术大学理论物理学士学位。他提出了云原生分布式 Data Warebase 这一概念。
大模型技术的研发与思考
赵鑫,中国人民大学高瓴人工智能学院教授。2014年7月于北京大学获得博士学位,随后进入中国人民大学工作至今。研究领域为信息检索与自然语言处理,共计发表论文200余篇,谷歌学术引用1.9万余次,曾主导研发了玉兰大语言模型,组织编写了大语言模型综述论文《A Survey of Large Language Models》(预印版文章)以及《大语言模型》中文书。曾荣获2020年吴文俊人工智能优秀青年奖、ECIR 2021时间检验奖,CCF-IEEE CS青年科学家奖。
演讲题目:大模型技术的研发与思考
演讲介绍:最近,以 ChatGPT 为代表的大语言模型受到了社会的广泛关注。本次报告将围绕大语言模型研发过程中的关键技术展开介绍,分析现有技术特点以及局限之处,并且给出报告人对于这些方面的相关思考与实践经验。
圆桌对话:从涌现到价值涌现,再看大模型发展趋势
Data到Data+AI,数据平台的演进
个人介绍:
目前负责云器科技Lakehouse平台产品的产品工作。10年以上数据平台产品建设及商业化推广经验,曾负责某头部云厂商核心数据平台的产品规划、迭代及商业化推广工作。
演讲题目
Data到Data+AI,数据平台的演进
演讲介绍和提纲
在过去的两年,数据架构领域发生了很多拐点级变化,例如大模型技术突破、向量检索成为热点、半/非结构化类暗数据(Dark Data)开始被关注等。同时,数据平台,特别是数据库和数据分析平台已经成为企业的标配,支持企业方方面面的业务。“下一代数据平台发展趋势?”、“AI平台和数据平台是否应该一体”等问题成为数据平台从业者的普遍疑问。本议题从数据平台的演进出发,探讨面向AI的下一代数据平台趋势、架构选型。并介绍一个结合Data与AI的典型案例。
听众收益
1、数据平台的演进;
2、AI数据平台的挑战与突破;
3、Data+AI架构推荐和案例分享
Velox Memory Management
个人介绍
腾讯数据平台部高级工程师,腾讯大数据Native Engine项目负责人,Spark项目负责人,Apache/Uniffle PPMC,Meta/Velox项目top贡献者。
演讲题目
Velox Memory Management
演讲介绍和提纲
The Velox memory system is designed to safely run highly variable query workloads within a fixed memory resource. It provides the query execution with all the required memory allocation functions and optimizes physical and query memory allocation patterns. It offers fair memory sharing among queries by memory arbitration and disk spilling techniques. It provides the total memory capacity enforcement by managing the physical memory independently.
听众收益
Velox memory management architecture Velox query memory arbitration mechanism Velox query disk spilling technique.
Alluxio AI|新一代AI/ML训练中台的数据I/O解决方案
个人介绍:本科毕业于上海交通大学电子系,随后取得香港中文大学信息工程博士学位,毕业后加入新加坡高级数字科学中心(美国伊利诺伊大学在新加坡的研究所)从事科研工作,在计算机网络和分布式系统领域相关的顶级国际会议发表多篇论文。加入Alluxio前,傅正佳曾在新加坡科技公司Bigo Technology担任机器学习研发总监。
演讲题目:Alluxio AI|新一代AI/ML训练中台的数据I/O解决方案
演讲介绍:在以数据驱动的AI时代,高效访问存储中的大量数据对于模型训练和服务至关重要。然而,I/O 挑战往往会阻碍性能并限制 GPU 的利用率。本次分享,我们将介绍基于 Alluxio 构建的高性能数据访问层,如何克服 I/O 挑战并显著提高 GPU 利用率。通过丰富的用户案例和实验数据,您将了解在Alluxio中缓存数据集和模型的方法,将有多大幅度的性能提升。
演讲提纲:
1. 介绍常见的 I/O 挑战及其对 GPU 利用率和整体性能的影响
2. 如何将高性能数据访问层无缝集成到 ML 工作流中,以减少 I/O 开销
3. 提高AI工作负载性能的缓存策略
4. 增强数据访问和加速AI工作负载的未来方向
5. 行业应用案例分享
听众收益:通过此次分享,与会者将深入了解到由数据驱动的AI工作负载所带来的 I/O 挑战,并了解如何将 Alluxio 作为一种有效解决方案加以利用。我们将重点分享来自Meta、Uber、Shopee、知乎等用户的实践经验、探讨我们的方法对 GPU 利用率和整体性能的影响。
茶歇
腾讯游戏在AI+湖仓一体的实践
个人介绍:现任腾讯游戏数据技术负责人、资深专家,负责通过资产体系、技术平台、AI、湖仓等技术降低游戏业务使用数据门槛,以数据驱动业务增长。曾在三一集团担任智能制造研究院院长、负责灯塔工厂建设,在阿里云负责企业数字化转型,在中航工业担任副总师等职位。
演讲题目:
腾讯游戏在AI+湖仓一体的实践
演讲介绍和提纲:
1)腾讯游戏在数据工程面临的挑战
2)新一代Al+湖仓的资产体系模型架构
3)Al+湖仓落地应用 • 资产智能化图谱与精准推荐 • 人机协同的多 Agent架构 • 工具融入流程的持续运营
听众收益:
AI写SQL真的靠谱吗?
AI+湖仓实践经验分享
Apache Celeborn 在B站的最佳实践
个人介绍:Apache Celeborn Committer,主要负责B站 Remote Shuffle Service 服务
演讲题目:Apache Celeborn 在B站的最佳实践
演讲介绍和提纲:
1. Apache Celeborn 架构原理
2. Apache Celeborn 实践概览
3. Apache Celeborn 实践姿势
4. Apache Celeborn 规划展望
听众收益:
1. 熟悉 Apache Celeborn 混部环境实践使用姿势
2. 了解 Apache Celeborn 混部集群降本增效收益
3. 掌握 Apache Celeborn 社区功能特性规划展望
基于Uplift Model的优惠券分发优化
个人介绍:上海财经大学统计学本科&硕士,2018年毕业,曾也就业于字节跳动在线教育&TikTok、蔚来汽车自动驾驶运营,现于eBay中国分析中心担任数据分析师工作,负责跨境交易品类分析与卖家管理业务。
演讲题目:基于Uplift Model的优惠券分发优化
演讲内容:智能营销正渗透到各行各业,期望通过营销手段来促进用户的行为。其面临的核心问题是:如何衡量营销干预带来的"增量效果",即如果没有营销干预用户的表现是怎样?避免在那些"本来就会转化"的用户身上浪费营销预算。
本项目将以电商商家补贴活动为例,介绍基于Uplift Model如何构建营销增益模型,锁定营销敏感人群,驱动投放策略制定。
听众收益:
1. 通过实例分析了解uplift model因果推断方法论
2. 因果推断方法如何寻找模型最优解
3. 如何讲因果推断思维广泛应用于商业世界提高企业效率
字节跳动实验平台的边界拓展
个人介绍:杨皇本科毕业于南京大学大气科学专业,于2015年获得美国康奈尔大学大气科学博士学位,后于约翰霍普金斯大学和加州大学洛杉矶分校从事气候动力及大尺度污染物传输研究。2021年加入字节跳动,在实验平台主持观察性因果推断,干涉效应等复杂场景实验设计分析及相关平台产品化搭建。
演讲题目:字节跳动实验平台的边界拓展
演讲介绍和提纲:
字节跳动拥有强大的实验平台,每天都有数以千计的实验来产出对于特定策略的效应评估。这些评估结果牵动着公司内部大大小小的商业决策,不断形塑着各类产品的更迭演化(如抖音、TikTok等)。伴随着业务拓展的复杂化和多元化,实验平台也面临着越来越多的技术挑战,诸如干涉效应、高维度调参以及有效随机实验难以开展。经典的假设检验框架已经很难适应这些新的挑战,这促发字节跳动实验平台拓展传统边界,志在打造一款动态化、自动化以及观察数据友好化的多功能一体化效应评估产品。在这里,我们将带来近期的一些研究进展和产品实践分享。
听众收益:
1. 基于并行化的Leiden算法,字节跳动实验平台能够快速处理亿级用户的复杂社交网络,完成聚类分流,显著减轻社交溢出对于实验评估的干扰。
2. 基于马尔科夫决策过程,字节跳动实验平台在传统随机实验框架下结合强化学习实现了对于双边市场干涉效应的统计修正。
3. 基于迁移学习,字节跳动实验平台有效降低了自动调参冷启动“有损”的风险,并提高了调参效率。
4. 基于经典计量经济因果推断框架与因果发现,字节跳动实验平台推出了一套端到端的支持观察数据因果推断方法的平台工具,并强化了稳健性诊断和风险评估对于结论质量的保障。
Fast-Causal-Inference——腾讯开源分布式因果推断工具
个人介绍
北大光华商业分析硕士,在微信实验平台负责社交网络实验、异质性分析、实验长短期效应的算法设计与开发,从0到1搭建腾讯分布式因果推断工具。
演讲题目
Fast-Causal-Inference——腾讯开源分布式因果推断工具
演讲介绍和提纲
因果推断在业务决策中发挥着越来越重要的作用,业务依赖于AB实验来判断新策略好坏,或者观测性推断等工具去辅助业务决策。然而,现在业界的分析数据量动辄达到千万量级,本地的因果推断工具包无法支持,只能抽样计算,这会损失统计效力。因此我们开发了Fast-Causal-Inference,一个分布式因果推断的python package,现已对外开源,支持业内大部分常用的因果推断工具,例如带方差削减的T检验,DID,IV,matching,DML等等。本次分享主要包括以下几个部分:首先介绍了因果推断在业务中的常见应用场景;其次介绍我们的工具包的设计框架和实现架构,如何高效的将这些算法分布式实现;最后通过几个例子简要介绍如何使用我们的工具包。
听众收益
1. 常用的因果推断算法的应用场景
2. 常用因果推断算法的计算原理
3. 因果推断如何分布式实现,如何结合分布式计算的特点做优化
4. 如何使用该分布式工具包做因果推断
茶歇
推荐场景下的复杂AB实验设计
个人介绍:伦敦大学学院(UCL)统计系博士,抖音推荐算法部门数据科学团队负责人
演讲标题:推荐场景下的复杂AB实验设计
议题介绍和提纲:在推荐策略的迭代中,经常遇到SUTVA假设不满足的复杂实验场景,最典型的两类场景是存在网络效应的社交类实验和同时影响到消费者和创作者的双边实验,在这两类场景中,实验组和对照组之间往往存在相互干扰 (Interference),进而影响实验的度量和观测。 在本次演讲中,我将介绍如何通过实验设计的方式尽可能消除实验对象间的相互干扰,进而得到无偏的策略效应估计。本次分享主要包括: - 社群分流在抖音社交实验中的应用 - 供需双边实验在抖音流量扶持场景的应用
听众收益:
1. 在推荐策略评估场景,有哪些常见的Interference问题?
2. 如何通过社群分流消除「网络效应」对实验评估的影响?
3. 如何通过实验设计解决流量扶持场景的资源挤占问题?
随机实验AA问题的系统解决
个人介绍:2021年6月本科毕业于南方科技大学统计与数据科学系;2023年1月硕士毕业于新加坡国立大学统计与数据科学系;2023年1月至今于滴滴数据科学中台担任数据分析师,主要负责随机分流实验各环节的优化。
演讲题目:随机实验AA问题的系统解决
演讲内容:
AB实验虽然作为决策的黄金准则,但当AA问题存在时,其结果的有效性也饱受质疑,而解决AA问题的方式多种多样,重随机和回归调整相结合作为其中最有效的一环,可以有效缓解AA问题,防范于未然,增强实验结果的可信度。
提纲:
1. 重随机的学界与工业界调研
2. 重随机的原理展示与数据模拟
3. 重随机的实际应用与注意事项
听众收益:
1. 了解协变量平衡的进展
2. 熟悉重随机的底层原理
3. 掌握实际中如何使用重随机缓解AA问题
提升大模型数学推理能力
个人介绍:2016年硕士毕业于电子科技大学信息与软件工程,《推荐系统技术原理与实践》作者,拥有超过8年的模型优化经验,硕士期间发表5篇论文,其中3篇被EI收录。在大模型方向拥有丰富的技术背景,参与过千亿大模型训练和优化。目前主要负责大模型后训练,COT优化以及通用技能优化。
演讲题目:提升大模型数学推理能力
演讲介绍和提纲:
介绍提升大模型数学推理能力的相关实践。
1、Instruct Tuning方法:主要基于思维链,包括COT、Zero-shot-CoT、Self-consistency、LtM、POT等方法。
2、 Self Evolution:介绍如何通过Self-rewarding、Self-Critique等方法,提升数学问题所需的准确性和逻辑一致性。
听众收益
1、介绍如何将COT转换为POT模式,大模型计算能力提升20%以上
2、在Self Evolution阶段,通过RFT、DPO等方法,在不牺牲其它任务效果的情况下,显著提升了数学问题的一致性。
滴普企业大模型在智能制造行业的落地实践
个人介绍
10余年数据库和大数据的研发及技术管理经验。曾获得Nvidia官方认证的CUDA培训讲师,负责过装备制造、高校和科研机构的GPU并行加速项目。
0
演讲题目
滴普企业大模型在智能制造行业的落地实践
演讲介绍和提纲
1、介绍大模型语料加工过程,包括数据解析,数据按照三级大纲切片,数据标注,数据合成等,为模型训练/微调做数据准备工作。
2、介绍RAG 优化提升召回准确率,包括问题改写,混合检索,embedding优化,复杂表格解析,知识图谱检索等。
3、 介绍制造行业大模型训练/微调方法,通过企业私有化大模型提升知识问答准确率。
听众收益
1、了解企业大模型落地过程中的语料加工和模型训练/微调过程
2、了解企业大模型落地制造行业的实践经验。
Modeling World on Internet Scale Data
张松昕 南方科技大学研究学者
个人介绍
南方科技大学统计与数据科学系研究学者,兼任UCloud顾问资深算法专家,曾任粤港澳大湾区数字经济研究院访问学者,主导大模型高效分布式训练框架的开发,设计了SUS-Chat-34B的微调流程,登顶Open LLM Leaderboard、Opencompass同参数量级模型榜首。
演讲题目:Modeling World on Internet Scale Data
演讲摘要:在多模态时代到来的今天,训练数据量已经从 TB 级走向了 PB 甚至 EB 级。如何高效地处理、归纳、治理这些数据,并将其中最为高质量的部分送入训练 GPU 集群,已经成为了 AI Infrastructure 的挑战。传统的 AI Infrastructure 主要面向 GPU 间高效通信和并行算法以及硬件效率的优化,但在需要整个互联网级别的数据进行训练的今天,面向数据基础设施的建设成为了 AI 系统中不可忽视的一部分。我们从流的角度出发,针对大规模 GPU 计算负载,提出了一套统一的基于云原生的数据治理方案,并将其应用在 LLM、多模态大模型以及类 Sora 的视频生成模型上。本议题将以视频生成场景为例,阐述当前 AI 领域数据治理面临的挑战和我们的解决方案。
听众受益:AI 数据治理方案,视频生成相关案例
茶歇
智慧芽数据治理与大模型的协同实践
个人介绍:先后就职于IBM、Oracle、美团、智慧芽。前期从事云原生相关工作,例如负责大众点评主站核心服务,构建高可用和高并发的服务。目前在智慧芽负责大数据工作,包括数据技术和平台架构、采集、治理、数字化运营等。
演讲题目:
智慧芽数据治理与大模型的协同实践
演讲内容:
1.数据治理和大模型协同的背景
2.大模型赋能数据治理和数据技术
3.数据治理如何赋能大模型落地
4.协同案例分享
听众收益:
1.了解如何通过结合数据治理与大模型,实现数据驱动的创新和业务增长
2.了解大模型如何赋能数据治理和数据技术,例如如何确保数据的高质量获取、清洗和应用
3.数据治理如何帮助大模型高质量的成功落地
4.希望通过介绍数据治理和大模型的协同效应,提供解决数据创新和增长的一些思路
大语言模型PEFT参数高效微调实践和应用
刘辉 58同城AILab 大模型算法工程师
个人介绍:
刘辉,58同城AI Lab大模型算法工程师,关注大语言模型和AI智能体方向,目前主要负责58同城垂类大语言模型灵犀大模型的训练工作。
演讲题目:大语言模型PEFT参数高效微调实践和应用
演讲简介:58同城构建了生活服务领域垂类大语言模型灵犀大模型ChatLing,在构建和应用大模型过程中,我们在参数高效微调PEFT)技术上进行了探索实践。本次议题首先概述几种常用PEFT方法的原理、使用技巧和实验效果,然后介绍大模型训练SFT有监督微调阶段的数据清洗、筛选和构造方法,最后分享微调加速方面的实践和效果。
智能NPC:AI为游戏NPC注入灵魂
个人介绍:西北工业大学计算机硕士,腾讯游戏AI工程师,腾讯智能交互产品“游戏知几”技术负责人。研究与实践领域主要聚焦于NLP、模型推理加速、系统架构与性能优化等。代表产品:游戏知几知识问答、“和平第五人”AI语音助手、天天象棋(无障碍版)、知音语音大模型、“绝智阿暖”智能NPC、基于LLM的人机协同智能客服解决方案等。
演讲主题
智能NPC:AI为游戏NPC注入灵魂
演讲介绍
1、 大模型为游戏NPC发展带来的机遇
2、 “绝智阿暖”NPC智能化尝试的一小步
3、 智能NPC的核心挑战与解决方案
4、 我们在NPC智能化的未来打算。
听众收益
1、 如何让LLM生成的内容与游戏世界观、游戏IP人设保持一致?
2、 大模型的安全合规方案有哪些?
3、 多模态交互下如何解决大模型的实时性问题?
坐席copilot,懂人所懂,想人所想
个人介绍:负责奇富科技大模型建设和金融全场景应用落地,负责坐席copilot应用的设计、实施和追踪。
负责奇富科技风控、营销、获客等相关算法和数据挖掘业务。
构建奇富科技大数据体系,知识图谱、图计算等技术框架,带领团队进行算法创新,实现金融信贷领域的深度落地。
多年从事信贷风控领域算法研究和实施,曾经负责全场景风控模型的建设、数据生态建设、金融场景NLP技术挖掘等。
演讲题目:坐席copilot,懂人所懂,想人所想
演讲介绍和提纲:
在销售和客服业务中,每一次客户目标的达成都不是一蹴而就的,常态化的会出现多次的反复沟通,同时针对客户的身份和习惯等情况,坐席在沟通前也需要进行了解。如何让坐席在最短的时间内获取以上信息,让坐席的工作效率更高,团队管理成本更低,同时带来业绩上的提升。那么在上述业务场景中需要一个copilot来帮助坐席去进行回顾、总结和归纳。
1、copilot的核心是让坐席更聚焦、更高效,同时加深对本身业务的理解和客户的理解。
2、以金融场景为例,结合对业务以及合规的理解,让copilot更专业、更干练是设计重点。
3、如果利用开源大模型的基础能力,结合设计的目标和信贷特有的数据和知识体系,对copilot大模型进行评估和效果优化。
4、开源大模型日新月异,特性各不相同,如何对大模型进行分层级(3层)建设和评估(重建评估集合,分层联动评估),又通过什么样的框架(小模型驱动大模型,基座驱动任务大模型优化)快速强化基座大模型的垂类知识,进而让copilot大模型更加的专业与干练。
5、在copilot的更新与迭代过程中,通过哪些类型(访谈、业绩分析、核心要素发掘等)的分析与调研,找准当前copilot的不足和迭代方向。
6、 copilot在实际业务中,带来的增长有多少(GMV的增长比例),效果的指标矩阵(拆分业务表现的不同维度,如客单价、使用率、坐席效率等)表现如何。
听众收益:
1、坐席copilot的设计思路和设计过程,以及核心目标。
2、坐席copilot在大模型层面的分层方式以及迭代路径。
3、坐席copilot分析和价值体现的方法、过程和结果。
货拉拉LLM赋能邀约客服质检、培训提效的实践
个人介绍:南京理工大学硕士。曾在滴滴负责司机生命周期和补贴、因果推断算法;现在货拉拉,负责用户补贴、司机线索智能评分、邀约员智能质检和培训。
演讲主题:货拉拉LLM赋能邀约客服质检、培训提效的实践
演讲介绍:
1. 货拉拉邀约、客服在质检和培训场景的背景介绍;
2. 如何大小模型结合使用节省使用成本;
3. 如何打造自由对话的语音&数字人智能陪练机器人;
4. MOE训练全场景陪练模型设计,更真实业务场景实时陪练;
5. 智能质检、培训未来发展趋势的思考与展望
听众收益
1. 如何构建“学-练-考-评”全周期闭环;
2. 质检如何大小模型结合使用节省机器成本;
3. 如何打造语音&多模态数字人智能陪练。
茶歇
大模型应用落地:AI内容创作
个人介绍
杨栋,百度文库大模型技术负责人。他毕业于香港城市大学博士,现在主要研究方向是大模型,AIGC,自然语言处理,预训练模型和应用。近期,他主要负责运用大模型技术,落地文库AIGC项目,例如:智能生成PPT,AI编辑,作家平台,行业报告等。
演讲题目
大模型应用落地:AI内容创作
演讲介绍和提纲
该报告详细介绍运用大模型技术,落地于PPT生成,AI编辑,作家平台,行业报告等场景。同时,介绍垂类SFT数据的构建以及训练,还有利用用户反馈,进行强化学习训练,快速迭代模型效果。
听众收益
如何将大模型落地到百度文库和其他垂类
用户体验升级:大模型在小红书搜索和推荐中的应用
个人介绍
本硕毕业于哈尔滨工业大学,目前主要负责小红书生成式搜索场景和多模态表征的技术研发和业务落地工作,对大模型、多模态内容理解、搜索推荐等领域有着丰富的实战经验。
演讲题目
用户体验升级:大模型在小红书搜索和推荐中的应用
演讲介绍和提纲
01、快速了解小红书:小红书的成长过程
2、LLM 在小红书搜索中的应用:深入探讨 LLM 如何重塑搜索体验,以及背后的技术路线
3、LLM 在推荐系统中的作用:分析 LLM 如何增强对内容和用户偏好的理解,以及实现个性化推荐的技术路径
4、互动 Q&A
听众收益
1、详细了解小红书的发展历程
2、了解 LLM 如何与小红书推荐搜索场景结合,以及技术实现路径
3、理解如何通过技术创新提升用户体验
西门子利用LLM打造通用公司智能助理的实践
个人介绍:毕业于北京航空航天大学,任职于西门子(中国)有限公司,负责西门子集团大数据、人工智能、低代码。
演讲题目:
西门子利用LLM打造通用公司智能助理的实践
演讲介绍和提纲:
1. 西门子中国介绍
2. 集团人工助手小禹的发展历程
3. AI 基座
4. 大数据是 AI 的内核
5. 大禹-西门子数据与 AI 生态系统
听众收益:
跨国集团的大数据生态系统是怎么在运行?生成式 AI 有用吗?高效与快捷是否不可兼得。请看现代大禹如何治理新时代的洪水!
货拉拉利用大模型打造多场景个人、办公助理实践
个人介绍:
学历:西安理工大学数学系本硕
工作经历:
1. 闪送-算法工程师,主要负责订单匹配撮合&闪送员数字化运营
2. 贝壳-高级算法工程师,主要负责经纪人生命周期管理
3. 货拉拉-资深算法工程师,主要负责智能营销相关算法,包括LLM应用平台、智能消息触达、广告推荐、金融小贷等
演讲题目:
货拉拉利用大模型打造多场景个人、办公助理实践
演讲介绍和提纲:
1. 货拉拉个人、办公助理10+场景落地实践
2. 如何高效的打造多场景助理,技术方案设计(大模型应用平台赋能)
3. 货拉拉零代码广告助理场景Demo效果展示(multiple tools)
4. 如何提升智能助理Agent的tools调用效率及RAG优化方案
5. 如何综合使用多个大模型,对复杂的多模态数据进行处理(复杂表格、多模态图片、流程图、文档等)
6. 未来思考与展望
听众收益:
1. 了解货拉拉如何用大模型打造个人、办公智能助理
2. 了解货拉拉多场景智能助手高效落地的技术方案
3. 了解智能助手效果提升agent&RAG优化方案
4. 智能助手在物流行业落地的思考和展望
大模型在小爱同学应用实践
个人介绍:
2010.9-2013.3 北京邮电大学 硕士研究生
2013.4-2020.6 北京三星研究院,负责30+语种的联机手写识别,三星语音助手Bixby开发
2020.7-至今 小米公司 小爱同学 负责语音助手中的NLP相关算法开发
演讲题目:大模型在小爱同学应用实践
演讲介绍和提纲:
1.小爱同学介绍
2.大模型赋能小爱同学
2.1 意图分发
2.2 垂域语义理解
2.3 垂直领域问答RAG
听众收益
1.如何利用大模型提升意图分发/语义理解的效果
2.如何兼顾大模型效果和推理速度
3.如何利用大模型打造垂直领域问答
茶歇
开源框架ModelScope-Agent加速多智能体应用构建
李晨亮 阿里巴巴 通义实验室 算法专家
李晨亮,现为阿里巴巴通义实验室算法专家。2016年本科毕业于西安电子科技大学,2019年硕士毕业于北京邮电大学。主要研究方向为自然语言处理,包括预训练语言模型、文本生成、多模态等。曾经在相关领域顶级会议如ACL、EMNLP、AAAI,ICML,CVPR等发表20多篇生成,多模态,大模型,Agent等相关领域论文,包括中文首个超大规模生成模型PLUG,多模态mPLUG系列,中文GPT等系列生成模型。参与多个国际评测和比赛,在纯文本生成、多模态生成等相关评测榜单上多次达到第一,并在多模态VQA榜单上首次超越人类水平。魔搭社区NLP领域负责人,累计推动开源400+模型,40+数据集,负责ModelScopeGPT(魔搭GPT)项目,打造大小模型协同的agent系统和基于开源大模型的ModelScope-Agent框架。作为核心成员参与通义星尘角色扮演的产品打造。
演讲题目
开源框架ModelScope-Agent加速多智能体应用构建
演讲介绍和提纲
1. 多智能体框架和魔搭社区
2. Modelscope-Agent框架
3. Modelscope-Agent Apps
听众收益
1: 什么是多智能体框架?
2: Modelscope-Agent框架的特点和优势?
3: 如何使用Modelscope-Agent框架搭建多智能体应用?
文心大模型赋能商业智能助手的探索与实践
个人介绍
中科院硕士,百度十年,从事搜索推荐研发五年。现任百度研究院资深工程师,主要研究领域是AI for Science,致力于利用人工智能推动科学研究与发现。在大模型技术蓬勃发展的背景下,开发了星致助手、爱企查Copilot、AutoBI、智能报告等一系列大模型应用,有力地支撑了公司内外各项业务的发展。
演讲题目
文心大模型赋能商业智能助手的探索与实践
演讲介绍和提纲
1.商业信息查询介绍
2.文心大模型构建商业智能助手的几种模式
3.文心大模型赋能商业智能助手进阶
4.商业智能助手的未来与展望
听众收益
1.深入了解商业信息查询的现状和挑战
2.掌握大模型技术在商业智能助手中的应用
3.学会利用大模型进行知识图谱检索技术
数智驱动AI时代业务创新
演讲嘉宾:汤祯捷 阿里云MaxCompute高级产品专家
个人介绍:
曾担任阿里云计算平台-产品解决方案负责人。曾从0到1完整搭建大数据产品商业化团队。拥有十多年大数据相关研发产品相关解决方案经验,曾在EMC研发中心,联想研究院等企业参与与主导数据产品研发与企业级数据应用商业化落地。
演讲主题:数智驱动AI时代业务创新
演讲介绍和提纲:
1、阿里云大数据整体能力介绍
2、大数据AI一体化架构规划
3、大数据+大模型双核驱动
4、客户应用案例
听众收益:
了解阿里云大数据AI结合技术架构与实践
数据智能在营销发行中的应用
演讲主题:数据智能在营销发行中的应用
RAG技术应用实践
个人介绍:联通数字科技有限公司 模型开发专家。负责数字政府、文旅交通等行业的模型应用构建。专注于探索大数据、人工智能等方向的新技术,并在行业应用落地,主要研究成果已在多篇期刊和会议发表。
演讲主题:RAG技术应用实践
演讲介绍和提纲:
RAG(Retrieval-Augmented Generation)技术,是一种结合检索和生成功能的自然语言处理技术。它通过从大型外部知识库中检索与输入问题相关的信息,来辅助生成式模型回答问题。RAG技术广泛应用于问答、对话系统、文本摘要等多种自然语言处理任务中。它的优势在于能够提高内容的准确性和相关性,有效地缓解幻觉问题,提高知识更新的速度,并增强内容生成的可追溯性。本次演讲将分享RAG技术的优势、我们如何基于联通自有数据进行知识增强应用的构建,以及在应用RAG技术过程中遇到的挑战和解决方案。
听众收益:
1.什么是RAG技术?
2.RAG技术的优势是什么?
3.RAG技术过程中遇到的挑战和解决方案。
茶歇
面向大规模向量数据的云原生存储解决方案:Milvus 向量数据库的经验
主题:面向大规模向量数据的云原生存储解决方案:Milvus 向量数据库的经验
个人介绍:
徐冬是Zilliz 首席工程师,毕业于哈尔滨工业大学。在加入 Zilliz 之前,曾就职于腾讯、阿里巴巴等公司,负责研发和运维大规模分布式大数据系统,在 SQL 优化和分布式数据库领域有多年的经验。
简介:Milvus 是全球领先的向量数据库,提供超大规模、灵活扩展的向量存取,以及高性能、深度定制的向量索引能力。本次分享会介绍 Milvus 的架构和应用场景,关注云原生存储方案这一话题,介绍 Milvus 的设计思考和优化经验
天穹数仓自治能力在大模型时代的新实践
腾讯数据技术架构师,多年负责搜、推、广场景数据相关的数据仓库、数据平台及算法系统架构设计与工程实现的数据工作经验;加入腾讯后,主要负责腾讯天穹大数据平台的平台自治、数据治理、智能化相关的系统架构设计、工程实现以及业务落地的工作。
演讲题目
天穹数仓自治能力在大模型时代的新实践
演讲介绍和提纲
本次分享主要介绍针对天穹大数据体系中的业务现状,结合大模型,深入探讨针对数仓、集群、作业等大数据生态中的业务对象如何在治理、异常发现、故障归因等问题上提供更为自动化、系统化、智能化的能力体系,从而进一步降本提效。
听众收益
结合腾讯天穹当前的业务现状,讲述大模型在平台自治领域的一些落地项目,让听众了解大数据平台自治领域与大模型相结合的探索实践相关思路经验和进展,以及相关的技术、业务的痛点与难点。
企业数据编织演变:从物理到逻辑,创造新质生产力
个人介绍:Denodo大中华区技术总监,郭杰先生拥有近20年的丰富工作经验,曾在Salesforce和IBM等全球科技企业任职,担任技术及管理工作。他专注于帮助客户更高效地分析和释放数据的价值,曾参与金融、政府、能源、制造、零售等行业的众多企业级商业分析系统的设计与实现。对企业数据管理平台的建设及应用拥有丰富的经验和独到见解。
演讲题目:企业数据编织演变:从物理到逻辑,创造新质生产力
演讲介绍和提纲:
·成功与挑战: 数据管理如何从物理数据管理发展到逻辑数据管理;
·逻辑数据编织好处: 使用更少资源、更低成本、更快数据获取时间、更大释放AI价值;
·企业角色与使用场景:人人都能挖掘与释放数据价值
·成功客户故事分享
听众收益:
·逻辑数据编织技术实现路径
·Denodo数据虚拟化
·逻辑数据编织业务场景与客户实践
业务价值驱动的数据资产治理
个人介绍
阿里云Dataworks产品专家,长期进行数据治理领域相关产品建设,聚焦阿里集团及云客户大数据治理方案的平台化能力和最佳实践。
演讲题目
业务价值驱动的数据资产治理
演讲介绍和提纲
数据虽然已经成为企业的核心资产之一,但是如何有效地管理和利用数据,使其转化为实际的业务价值,是每个企业都需要面对的问题。
本次演讲将从实战的角度出发,深入剖析数据资产治理的重要性,从稳定性、准确性、安全性等方向揭示数据资产治理对企业业务的贡献,实现业务目标,提高运营效率,降低风险,从而为企业创造更大的商业价值。
听众收益
1、了解数据价值与业务价值的关联模式
2、了解基于业务重心,进行数据治理场景选择
3、阿里云高效进行数据治理落地和实践的模式
美团到店场景数据资产标准化建设
演讲题目:美团到店场景数据资产标准化建设
演讲介绍和提纲:
到店业务是美团历史最悠久的业务线,随着业务体量不断增长,对数据的需求日益精细,所带来数据应用产品众多,如何持续保障指标、模型、应用管理规范的统一以及如何收敛底层基础建设、提供方便易用的数据使用体验,这对数仓建设带来不小的考验。本次分享,主要从到店场景数据标准化建设方法、建设历程以及对未来规划三方面来重点介绍。
听众收益:
1.数据治理的范围是什么?
2.如何将数据标准规范有效的落地?
3. 如何借助大模型降低数据治理的人力投入?
百度商业智能体技术创新与实践
个人介绍:百度资深工程师。2013年硕士毕业加入百度,曾先后担任商业反作弊、搜索广告定向技术负责人,现任商家智能体业务技术负责人,重点负责商家智能体建模、框架、仿真等技术方向。拥有多篇大模型相关的技术专利,在www2024以第一作者发表论文1篇。
演讲题目:
百度商业智能体技术创新与实践
演讲介绍和提纲:
AI Native时代百度广告营销业务正经历代际变革,整个广告投放系统也在基于大模型进行重塑。在下一代百度广告投放系统中,一个重大变革在于商家智能体将取代传统营销页成为最重要的广告营销载体。在本次演讲中,将重点介绍商家智能体的业务场景、智能体应用在广告投放业务中面临的难点问题、以及解决这些问题的关键技术举措
整个演讲提纲如下:
1. 商家智能体业务背景:包括什么是商家智能体、商家智能体营销相比传统营销的优势、商家智能体的业务目标等
2. 商家智能体建模思路:包括智能体和广告营销有机结合面临的主要问题、解决这些问题的技术思路和关键举措
3. 商家智能体技术方案:从商家智能体专精模型建模、多专家协同的智能体框架、智能体仿真三个方面介绍商家智能体的技术实现和相关成果
听众收益:
1. 智能体技术如何深度应用在广告营销业务上?
2. 商家智能体建模面临哪些业务难点和技术挑战?
3. 什么是智能体仿真?智能体仿真的业务价值
大模型赋能货拉拉全场景营销效率实践
个人介绍:
学历: 墨尔本大学-人工智能硕士
工作经历:
1. 腾讯-数据挖掘工程师,主要负责游戏数据挖掘运营;
2. 宝马-高级数据科学家,主要使用AI算法赋能企业数字化转型;
3. 货拉拉-算法专家,主要负责营销(LLM应用平台、补贴、触达、广告、邀约)算法工作;
演讲题目
大模型赋能货拉拉全场景营销效率实践
演讲介绍和提纲
1. 货拉拉营销全领域LLM实践(全场景)
2. 物流营销场景LLM落地难点思考
3. 货拉拉如何在营销全领域落地应用LLM
4. 多营销场景下如何降低大模型使用成本
5. 未来思考与展望
听众收益
1. 了解货拉拉如何使用LLM助力营销领域全场景提效;
2. 介绍LLM落地的难点以及技术方案;
3. 介绍如何在多场景下介绍大模型使用成本;
4. 对LLM在物流领域落地的思考与展望;
大模型在智能电销的应用
自我介绍:
标签:数据老兵、内容创作人、跨界成长者
经历:
1、10年互联网金融大厂数据分析、产品工作经验,未来继续深耕数据领域;
2、出版2本销售破万册的数据领域专著,拥有3个数据采集分析专利,运营未来数据官社群和网站;
3、政(大学生村官)、企(数据从业者)、研(在职研究生)、学(校外导师)四段独特跨界成长经历;
演讲题目:大模型在智能电销的应用
演讲介绍和提纲:
智能话术生成
用户情绪识别
智能质检
听众收益:了解大模型在智能电销的应用
打造LLMOps时代Prompt数据驱动引擎
个人介绍:本科毕业于南开大学,硕士毕业于美国佐治亚理工学院。研究方向包括AI智能运维,大模型质量评估以及大模型提示策略,在相关领域以第一作者、通讯作者身份发表7篇顶级国际会议/期刊论文。
演讲题目:打造LLMOps时代Prompt数据驱动引擎
演讲提纲:
随着AI技术和大语言模型的迅速发展,软件运维领域也受到了革命性的冲击。从早期的KPI特征驱动,依赖专家规则的运维平台,到仅仅基于日志数据的自动异常检测模型。依托大模型技术,AIOps的下一代应用LLMOps将从原子化、智慧化、自适应等多个角度取得提升,而这必须依托强大的Prompt数据引擎去驱动。
提纲: 1.背景:从AIOps到LLMOps面临prompt挑战 2.打造LLMOps prompt application引擎 3.LLMOps持续成长原动力: Prompt learning数据飞轮 4.未来畅想
听众收益
1. 大模型时代对于运维工程师的prompt提出了哪些要求?
2. 如何持续迭代模型,不断优化prompt数据能力?
3. 传统软件运维有哪些痛点,大语言模型相关技术将如何带来新的变革?
运维大模型的应用和展望
个人介绍:主要研究方向为智能运维。在ATC, WWW, VLDB, KDD, SIGMETRICS等国际会议和JSAC, TC, TSC等国际期刊发表高水平论文50余篇。主持国家自然科学基金项目2项,横向项目14项(与华为、字节跳动、腾讯等合作)。获中国电子学会科技进步一等奖(排名第3)、ISSRE 2023/2018最佳学术论文奖、清华大学优秀博士学位论文、华为“最佳技术合作教授”、南开大学“良师益友”、麒麟软件“校企合作突出贡献”奖、天津市科技进步一等奖等荣誉。担任CCF A/B类国际会议程序委员会委员12次。中国计算机学会高级会员,YOCSEF天津AC副主席,互联网专委常委,软件工程专委、服务计算专委执行委员。
演讲题目:运维大模型的应用和展望
演讲提纲:
ChatGPT展现出了以大模型为基底解决各个领域难题的可能。本报告将重点讨论智能运维大模型,探讨运维大模型的必要性及挑战,运维大语言模型的挑战、解决思路及应用,以及运维大模型的整体架构及应用落地路径。
听众收益:
1. 如何让运维大模型融合已有结构化数据?
2. 如何让运维大模型结合现有工具?
3. 如何降低运维大模型的私有部署开销?
变更异常分析
个人介绍
10年经验资深研发工程师,2014年北京邮电大学硕士毕业,加入IBM参与高性能计算产品研发。2017年加入百度,负责智能运维方向,在异常检测、报警管理、变更拦截、根因定位等领域积累了丰富实战经验。
演讲题目
变更异常分析
演讲介绍和提纲
演讲简介:
智能运维领域,变更质量是绕不开的重大话题。变更是线上故障的最大来源,灰度变更过程中如何及时发现异常进而拦截。根因定位场景下,如何根据故障特征锁定异常变更及时止损。这项工作挑战很大,希望借此机会与业界同仁一起交流学习。
内容提纲:
1:变更是故障的Top1来源
2:变更视角:变更拦截体系的构建
2.1 双路检查机制:阶段性回溯检查、SLA实时检查
2.2 客户黄金指标检查
3:故障视角:异常变更的推荐
3.1 同模块的异常变更推荐
3.2 跨模块的异常变更推荐
听众收益
1 如何构建变更拦截体系,先于客户感知问题
2 如何根据故障特征推荐出异常变更,及时止损
安全运维智能升级:拥抱AI,迎接变革
个人介绍
MBA,二十年IT从老兵,十年外企,十年互联网技术管理经验
演讲题目
安全运维智能升级:拥抱AI,迎接变革
演讲介绍和提纲
SECOPS行业痛点
AISECOPS架构设计
AISECOPS流水线
AISECOPS模型训练
AISECOPS模型评估
AISECOPS成本评估
AISECOPS+
听众收益
1.如何在传统安全运维领域寻找AI切入场景。
2.AISECOPS实践经验分享。
AI 大模型技术在知乎搜索等场景的应用
个人介绍:知乎智能算法部负责人,负责知乎知海图大模型、推荐、搜索、广告、增长等方向的算法和架构。12年搜广推算法经验,曾创业2年,在美团等多家互联网公司负责或组建多个核心业务算法团队,建立支撑亿级用户、日交易额数亿、日算法补贴额数千万的多个超大规模复杂算法系统,热衷技术,实践经验总结有数篇NIPS、KDD、Recsys等顶会论文,多次获得机器人大赛冠军。
演讲题目:
AI 大模型技术在知乎搜索等场景的应用
听众收益:探讨大模型相关技术,并就大模型应用用户产品中的机遇和挑战展开讨论
从大数据到大模型:搜索推荐技术的前沿探索
个人介绍
PAI人工智能平台场景化应用负责人,负责云原生训练推理平台工程以及基于平台之上的智能推荐,用户增长,图像视频生成,大语言模型的算法工程技术。旨在通过提供标准化的AI产品方案,更好地服务开发者和企业用户使用云上产品,支持好大规模的AI训练和服务,解决客户业务问题。目前开源EasyRec(推荐),EasyPhoto(AI写真),EasyAnimate(类Sora),PAI-RAG等项目。
演讲题目
从大数据到大模型:搜索推荐技术的前沿探索
演讲介绍和提纲
主题:基于普遍使用的实时推荐搜索技术方案之上,结合大模型,业界在开展的实际探索和落地的创新技术
详细内容:
1. 主流云上推荐搜索技术方案介绍
2. 推荐和RAG相关技术,算法和工程上面临的挑战和机会
3. 算法工程上的创新技术
4. 相关案例分享
听众收益
了解当前搜索推荐场景的基本实现,以及结合大模型的一些创新点
推荐广告多兴趣&生成式序列化召回
个人介绍
应用统计硕士,2017年校招加入百度,从事过凤巢机制、用户体验,体验项目获得2021年百度最高奖,目前负责百度推荐广告召回&&创意方向。
演讲题目
推荐广告多兴趣&生成式序列化召回
演讲介绍和提纲
面向推荐场景下网民行为序列、多域兴趣的广告召回:
1.多兴趣表征:用户兴趣在推荐场景下呈现多峰分布状态,传统的单一表征会导致用户兴趣平均化,多域兴趣建模是业内趋势;
2.长周期稀疏激活:利用用户全生命周期数据,引入大规模动态激活的召回建模技术,挖掘长序列中蕴含的信息;
3. 生成式序列化召回:推荐场景下,用户历史行为包含了丰富的信息,序列化与生成式结合,从序列整体建模,释放生成式对行为序列的学习能力。
听众收益
1.结合行业化的多域图模型学习
2.如何在召回双塔中search用户lifelong行为
3.生成式与序列化推荐的融合
4.大模型塑造数据产品研发新范式
基于生成式流网络的用户留存建模
个人介绍
刘殊畅博士,毕业于罗格斯大学,博士期间师从张永锋教授,毕业后就职于快手负责推荐算法研发,主要研究方向为推荐系统、强化学习和联邦学习,发表 CCF-A/B 类论文20余篇。
演讲题目
基于生成式流网络的用户留存建模
演讲介绍和提纲
推荐系统中用户回访的频率与 DAU 直接相关,因此是一个关键的评估指标,但如何对其进行优化仍然是一个具有挑战性的问题。主要原因包括但不限于:1)用户离开系统后其行为不确定性强且不可观测;2)时间上极其稀疏的信号;3)采样具有延迟。尽管如此,我们认为推荐系统的整体表现仍然会对用户的回访偏好造成影响,因此提出可以通过将推荐过程建模成生成概率流网络(GFlowNet),将用户回访逐步回传分配给推荐过程的每一步,以克服上述诸多挑战并达到对用户留存直接优化的目的。我们在多个离线数据集和快手的多个线上模块验证了该方法的有效性,相关论文已被 KDD 2024 收录。
听众收益
1. 用户留存建模新方式的探索;
2. GFlowNet 在推荐系统中的落地;
大模型在研发数据中台的应用实践
演讲题目
大模型在研发数据中台的应用实践
演讲介绍
本次演讲主要包含两个部分,研发中台数仓的构建以及探索如何结合大模型的技术,提升中台业务方解决线上问题的效率。通过构建离线及实时数仓,我们为业务方提供了决策判断依据,使业务方能够基于关键指标进行有效的决策。进一步地,通过将大模型技术与业务流程相结合,能够针对线上问题提供直接的解决和修复方案,从而优化整个问题解决流程。
听众收益
1. 研发数据中台的架构和数仓建设思路介绍
2. 数仓的离线、实时数据建设思路以及流量突增应急方案
3. 如何将大模型赋能研发数据中台的业务
数据问答新纪元:大模型如何塑造数据产品的明天
个人介绍:北京邮电大学计算机硕士,曾就职于微软、高德、微博及第四范式,专注于大数据与人工智能方向的研究,后在小米主导用户画像,目前专注于推动大模型技术在大数据领域中的创新与实践。
演讲题目:数据问答新纪元:大模型如何塑造数据产品的明天
演讲内容:
随着企业数字化转型的加速,数据资产已成为企业最宝贵的财富之一。如何降低数据获取的门槛,提高数据消费的效率,让更多的人使用数据,充分发挥数据的价值,已成为企业和个人面临的一大挑战。在这一背景下,人工智能技术的突破为我们提供了新的解决方案,尤其是大语言模型(Large Language Model, LLM)如ChatGPT和GPT4的出现,它们以其强大的语言处理和生成能力,正在全面重塑数据产品的开发和使用范式,引领我们进入一个全新的数据交互时代。本次演讲将带您走进数据问答的前沿领域,深入探索如何高效地与数据进行对话,利用大语言模型技术塑造数据产品的明天,进而打造一套面向大数据的LUI人机交互新模式,以期实现更智能、更自然的数据交互体验。
提纲
1. 数据使用的挑战
2. 大语言模型的崛起
3. 数据问答技术的演进
4. LLM在数据问答中的应用
5. 塑造数据产品的未来
听众收益:
1. 技术前沿洞察:深入理解人工智能如何作为驱动力,引领数据问答技术的革新与发展
2. 实践技能提升:掌握在数据问答领域对大模型进行微调的技巧,以优化模型性能
3. 连续交互优化:学习如何高效运用大模型,实现数据问答中的流畅连续交互,提升用户体验
4. 创新模式探索:洞悉面向大数据领域的LUI人机交互新模式,为未来交互设计提供灵感
基于大语言模型的数据应用探索
个人介绍:京东数据产品架构师,曾主导京东零售内部一体化数据分析平台及指标体系的建设,目前是ABI数据产品及大模型数据应用产品的负责人,在指标体系设计、数据产品建设及数字化运营方面有着丰富的实践经验。
演讲题目:基于大语言模型的数据应用探索
演讲介绍和提纲:
介绍:探讨大语言模型带给数据产品的机会和变化,并通过我们自身的实践案例,ChatBI——专属于你的AI数据分析师,来说明产品落地中的挑战和解决方案。希望通过此次分享,能跟大家交流一些有价值的启示和实际应用的指导。
大纲:
1. 大语言模型与数据产品创新
2. 实践案例:大语言模型数据应用-ChatBI
3. 落地挑战与解决方案
4. 大模型数据产品的团队协作
1. 未来展望:行业实践与产品规划
听众收益:
1. 大语言模型在数据领域的优势及能力,了解大语言模型如何在数据领域中进行应用
2. 了解一种大语言模型在数据产品应用的实际案例,实践案例ChatBI的分享。
3. 大语言模型数据产品落地的困难与挑战,了解产品落地中的困难挑战与解决方案。
大型企业内部数字化挑战和解决方案
个人介绍:西门子中国IT数据分析团队资深解决方案经理、产品经理。
演讲题目:大型企业内部数字化挑战和解决方案
演讲介绍和提纲:
背景介绍:个人&团队
问题和挑战:行业挑战和现状,西门子中国挑战和现状
业务目标:成熟高效低成本的产品和解决方案,利用技术为业务赋能
解决方案介绍:
三三制方法论和它的应用,产品化,企业内部数字化平台,数字化资源目录,人工智能辅助,应用快速移动化的实践
听众收益:
了解大型企业内部数字化面临的问题和最佳实践
三三制在大型企业内部数字化和产品化的应用案例
小米基于 Data / AI 一体化的湖仓多云实践
个人介绍:
小米软件研发工程师,目前主要负责小米内部数据湖和元数据研发工作。
演讲题目:
小米基于 Data / AI 一体化的湖仓多云实践
简介:
本次主要分享以下内容:
1. 湖仓多云架构的探索实践;
2. 基于 Iceberg 实现湖仓表格数据多云存储的落地实践;
3. 基于 Gravitino 实现 Data / AI 非表格数据统一管理的落地实践;
4. 未来规划;
提纲:
1. 湖仓多云架构探索实践:
- 介绍小米数据湖平台架构;
- 介绍小米统一湖仓元数据的实践;
- 介绍小米存 / 算多云实践;
- 介绍小米湖仓体系发展路径;
2. 湖仓表格数据多云实践:
- 介绍表格数据上云背景;
- 介绍云存储选型和评价方法;
- 介绍上云方案;
3. Data / AI 非表格数据多云一体化实践:
- 小米 Data / AI 非表格数据管理的痛点;
- Gravitino 统一管理非表格数据 Fileset 的原理;
- 利用 Gravitino 实现非表格数据统一管理的实践;
4. 未来规划
- 主要介绍未来小米将会继续在数据湖场景开展的工作;
听众受益:
- 了解小米湖仓多云架构;
- 了解基于 Iceberg 实现湖仓数据上云实现存储降本的方案;
- 了解 Data / AI 场景下统一管理非表格数据的方案;
跨境电商喜得国际的多云数据平台建设
个人介绍:硕士就读于北京大学,曾任衣二三CTO。积极参与开源社区,现在主要负责喜得国际的工程技术管理,架构选型,重大技术决策。黑五稳定性保障的总负责人,3年黑五0宕机。主导云服务器迁云,顺利提出并完成不停机迁移。对高流量高并发有丰富经验。
演讲标题:跨境电商喜得国际的多云数据平台建设
演讲介绍和提纲:
作为头部跨境电商喜得国际,伴随着出海区域的增多选择进行多平台的运营,业务数据平台涉及到多朵云的同时希望可以保持云中立,这就需要选择具有多云能力的数据产品,且有能力实现不同云之间的数据同步和容灾等。喜得国际技术选型从最初的PostgreSQL到分布式Data Warebase,期间经历市面所有主流技术方案的调研与测评。最终选择采用分布式Data Warebase,该方案带来以下收益:
l云中立:底层建立在云上,采用了云的存储和基于容器的调度技术,并且无缝支持多个主流云厂商
l性能:查询性能大幅提升,一套系统即可满足TP和AP的诉求
l效率:研发更聚焦于业务无需考虑扩容等技术细节
l体验:摒弃复杂,带来极简的产品体验
听众收益:
1.了解跨境业务数据平台搭建流程
2.跨境电商业务技术选型思路
3.多云平台数据系统搭建
4.数据系统如何更好地支撑业务发展?
5.业务高速增长时数据平台应如何进化
6.了解跨境电商业务与AI 可以碰撞出什么样的火花
加速云端机器学习,Alluxio在小红书的实践
个人介绍:小红书技术专家,目前主要负责多云大数据存储层建设、业务落地工作。
演讲题目:加速云端机器学习,Alluxio在小红书的实践
演讲介绍和提纲:
介绍小红书在机器学习场景下的数据读取加速以及在多云场景下的数据跨云读取优化。
机器学习训练热点样本读取加速
索引/模型跨云读取优化
听众收益:
数据加速产品如何选型?
如何通过智能缓存管理,提升机器学习训练样本读取速度。
如何有效减少跨云数据拷贝。
茶歇
企查查的数据降本增效之路
个人介绍:就职于企查查科技股份有限公司。主要负责企查查的数据架构、大数据平台。
演讲题目:企查查的数据降本增效之路
演讲介绍和提纲:
1、企查查的数据架构
2、混合”云“架构的形成
3、 多云下的统一架构
听众收益
1. 资源提效30%以上
2. 多版本架构
3. 统一元数据
快手Flink on K8s的迁移与稳定性保障
个人介绍:毕业于北航,先后任职于搜狗、百度,于2018年加入快手并推动Flink在快手的深度改造和生产可用。
演讲题目:快手Flink on 8s的迁移与稳定性保障
介绍和提纲:
1、背景介绍,分为技术趋势和内部需求两个方面。
2、架构设计与实现,从用户层面、平台层面、引擎层面分别有哪些考量,以及如何解决迁移中的核心痛点。
3、稳定性保障,涵盖流程规范、作业管理、运维保障等方面,另外也会介绍下我们的海外AZ逃生。
4、未来规划,构建动态自适应、存算分离、混合部署的实时计算平台。
听众收益:
1、了解Flink on k8s在业界落地的生产实践状况。
2、了解实时计算的稳定性保障体系。
3、了解实时计算最新的业界动态。
指标体系在快手电商的应用探索
个人介绍
曾就职于贝壳,腾讯,百度等多家互联网公司,研发出身,后转为数据产品,具备多年大数据产品及研发经验,对数据中台或大型组织横向的数据内容型产品及数据治理方向有丰富的经验,并多次取得过组织认可,目前就职于一家大型互联网公司,负责某电商方向业务侧内容的数据产品建设。
温岩
演讲题目:
指标体系在快手电商的应用探索
演讲介绍和提纲
介绍:
直播电商是一个过程复杂,演进迅速的业务形态,在业务过程中,需要有丰富有洞察的数据内容对业务进行精准的刻画,并进一步指导业务策略变化,因此指标体系的建设深度和广度,以及应用呈现方式需要有更高效、严谨的表达;
提纲:
1.点对点挖掘业务-数据产研用逻辑
直播电商的业务形态特点
业务场景所面对的数据痛点
基于痛点的思考逻辑
理想的数据建设-应用飞轮形态
2.数据应用体系的构建
数据应用体系建设的方法论基础
业务架构的理解
数据应用架构的设计逻辑
3.快手电商的指标应用场景实践
经营分析场景的实践
活动运营场景的实践
商达运营场景的实践
听众收益:
1.了解直播电商的业务形态,理解此类业务的数据痛点及解决思路
2.了解企业业务架构转化为数据应用架构的转化逻辑
3.了解直播电商数据应用场景的案例
LLM时代下的指标平台建设实践
个人介绍:刘豹先生是数势科技标品研发技术负责人,深耕大数据研发领域10余年,有丰富的大数据类产品研发及平台建设经验;先后供职过百度、腾讯等公司基础架构及数据平台部门,具备丰富的带领团队落地大数据平台类项目的经验。
演讲题目:数势指标平台建设实践
演讲介绍和提纲:
从“语义层”出发,说明指标平台和BI之间的对比,各自的依据的数据建模范式;
从数据工程方面,语义层如何落地、承担的位置以及职责;
结合“数据编织”,介绍指标平台的技术核心,加速功能的设计、不同的加速策略和局限。
听众收益:
了解语义层;
了解数据建模范式;
了解指标平台的设计和加速策略。
指标中台和AIGC在美团BI场景的探索和实践
个人介绍:2015年佛罗里达大学信息系统硕士毕业。曾就职于LinkedIn,字节跳动,美团,现任美团数据科学平台工程师,负责BI平台智能分析方向探索与落地。
演讲题目:指标中台和AIGC在美团BI场景的探索和实践
演讲介绍和提纲:
1. 美团BI平台的背景和演进
2. 指标中台的建设和基于指标仓库的BI应用
3. 基于AIGC和指标中台的智能分析能力建设
4. 后续建设思路
听众收益:
了解互联网公司在BI场景落地AIGC应用面临的不同业务场景及技术挑战,提供AIGC在BI场景选型思路和实践经验参考。
茶歇
基于StarRocks的实时指标在滴滴的应用
个人介绍:现在滴滴负责OLAP引擎相关的开发工作, 有7年大数据领域开发经验,StarRocks/Flink Contributer, 对OLAP/实时计算领域有深入了解。
演讲题目:基于StarRocks的实时指标在滴滴的应用
演讲介绍和提纲:
一. 过去基于Druid的指标的缺点
二. 使用聚合模型计算时序数据指标
1. 建表与查询的最佳实践
2. 基于HLL的模糊去重指标
3. 基于全局字典+BITMAP的精确去重指标
4. 使用QueryCache进行查询加速
5. 使用同步/异步视图进行查询加速
三. 未来计划
1. 自定义SQL定时调度
2. 查询结果缓存
3. HLL可变精度
4. 定时小分区合并
听众收益:
1. 了解使用StarRocks计算实时指标的最佳实践
2. 去重指标的准确性与性能取舍的思考
3. 了解如何加速指标类查询
基于大模型实现结构化标签提取
个人介绍
理想汽车算法研发工程师,主要研究方向是NLP、AIGC、大模型训练与部署。致力于大模型的落地场景与业务开发工作。
演讲题目
基于大模型实现结构化标签提取
演讲介绍和提纲
演讲介绍:
在人工智能浪潮来临之际,指标体系的构建也成为了新的探索领域。针对自然语言的标签提取,相比以往的人工标注或传统算法标注,大模型得益于大算力和大数据的支持,显著提升了算法基座的能力极限。本次演讲分享了理想汽车在品牌运营中的实践,如何顺利地将大模型应用于指标构建,通过大模型实现文本自动标注、数据自动生成、模型自主迭代,构建高度自动化的系统,为依托于指标体系的数据分析应用奠定了新的智能基座。
提纲:
1.1 业务需求
1.2. 预期目标
1.3 行业痛点
1.4 传统算法方案
2.1 传统算法VS生成式大模型
2.2 大模型应用发展路径
3.1 系统架构
3.2 关键技术项
3.3 效果对比
听众收益
1.如何利用大模型实现灵活的标签提取?
2.提升大模型效果和稳定性的方法有哪些?
3.大模型开发如何变得更加自动化?
RAG落地中的知识库建设、现实坑点及应用探索
个人介绍:
360人工智能研究院知识图谱及文档跨模态方向算法负责人,曾就职于中国科学院软件研究所。主要研究方向为文档理解、知识增强。近年来参与360文档大模型、360智脑大模型及360百科图谱、商业化广告图谱、右侧推荐等落地项目研发,累计申请发明专利十余项、论文数篇,开源项目70余个,在OGB-Wikikg2、CCKS多模态实体对齐等多个评测任务中获得多项冠亚军,创立“老刘说NLP”技术社区,具有广泛影响力。
RAG落地中的知识库建设、现实坑点及应用探索
演讲介绍和提纲:
RAG检索增强大模型问答,已经成为大模型进行领域落地的重要范式,其在取得广泛应用的同时,也面临着诸多挑战。而作为检索的对象,如何对复杂多样的领域文档进行精细化处理十分必要,本报告将重点介绍我团队在文档理解及知识库方面的一些探索实践,包括KG-RAG,知识图谱与大模型相结合,并对当前团队在文档应用场景上做的一些探索性工作进行汇报。
听众收益:
1、RAG过程中的文档处理范式及存在问题?
2、KG-RAG在落地过程中有哪些实现范式?
3、RAG在文档场景中有哪些可落地的结合点?
4、RAG的前沿可跟踪方向
阿里云AI搜索RAG应用实践
负责阿里云AI搜索产品OpenSearch、阿里云ElasticSearch AI研发,以及开源搜索引擎Havenask研发。覆盖AI搜索、向量检索、大数据检索、对话式搜索等多个场景。曾带领团队研发多款搜索、推荐和智能问答类产品研发。目前主要聚焦在大模型AI应用研发,关注大模型AI应用对业务和客户的价值。
演讲题目
阿里云AI搜索RAG应用实践
演讲介绍和提纲
本文主要介绍 RAG 产生背景、发展历程、技术方案,并以阿里云AI搜索产品为例,介绍RAG真实场景的实践经验,探讨搜索产品如何以 RAG 为切入点,构建RAG服务,以及如何构建面向开发者的 RAG 技术平台。主要内容包括:
•RAG产生背景
•RAG技术方案
•RAG应用实践
•RAG总结展望
听众收益
了解RAG技术方案、难点,以及阿里云AI搜索RAG最佳实践和应用场景
Elasticsearch 8让企业更快更好地落地RAG应用
个人介绍
资深开发者,2010年开始从事大数据相关研发和架构工作,并从那时候开始一直伴随Elasticsearch的成长,使用Elasticsearch构建过大规模文档和财经资讯搜索平台。除了熟悉Elastic相关的技术栈外,也对大数据生态的各种技术栈有着广泛的涉猎。现在负责Elastic解决方案架构、技术咨询、社区布道等工作。
演讲介绍
Elasticsearch是企业搜索领域全球应用最广泛的搜索引擎,拥有46亿次的下载量,这意味着Elasticsearch事实上承载了全球各行各业海量且丰富的私有数据,随着大语言模型的兴起和展现出的惊人能力,企业非常迫切地想使用大语言模型来分析和利用他们的私有数据,而RAG是当下企业落地LLM应用最成熟和最快速的方式。Elastic也必须响应企业的迫切需求,推出了全新的8版本Elasticsearch来帮助企业在原有的技术栈上面,更快更好地落地RAG应用。
本次分享以下内容:
1.在Elasticsearch技术栈上实现RAG的架构和组件
2.Elasticsearch 8提升RAG效果的相关技术
3.Elasticsearch 8原生向量引擎的最新进展和优化
4.Elasticsearch 8如何最大程度优化语义相关性
5.Elasticsearch 8 自身的AI能力和外部AI服务的对接
6.Elasticsearch融入阿里云RAG生态的最佳实践
听众收益:
1.获得Elasticsearch 8 最新搜索和AI能力的相关知识
2.在Elasticsearch技术栈上实现RAG的最佳实践
3.Elasticsearch未来展望
茶歇
数据库文档问答的应用和演化
个人介绍:超过 8 年算法应用领域工作,涵盖推荐系统和强化学习。目前作为 PingCAP AI Lab 负责人,负责 LLM 应用在 PingCAP 落地,构建 Auto-Diagnosis 系统,推动自动驾驶数据库云的发展。持续关注 AI 领域的应用创新,推动其落地和融入生产,致力于推动企业 AI 应用的变革。
演讲题目:数据库文档问答的应用和演化
演讲介绍和提纲:
1. LLM 应用的类型
2. 数据库文档的难题
3. LLM+RAG 在文档内容回答的尝试
4. 未来展望
听众收益:
1. 如何合理选择正确的 LLM 应用类型开发应用
2. 了解 RAG 在文档问答中的应用方法
3. 了解文档问答应用如何进行调优
ByteHouse:基于OLAP的高性能向量检索设计及应用
个人介绍:负责火山引擎OLAP引擎研发工作,有多年TP/AP数据库及分布式系统内核研发经验,目前主要聚集于ByteHouse云原生数据库相关开发工作。
演讲题目:ByteHouse:基于OLAP的高性能向量检索设计及应用
演讲介绍和提纲:
向量检索被广泛使用于以图搜图、内容推荐以及大模型推理等场景。随着业务升级与 AI 技术的广泛使用,用户期望处理的向量数据规模越来越大,对向量数据库产品的稳定性、易用性与性能需求也越来越高。为此火山引擎ByteHouse团队基于社区 ClickHouse 进行技术演进,提出了全新的向量检索功能设计思路,满足业务对向量检索稳定性与性能方面的需求,目前ByteHouse向量检索性能实现与专用向量数据库持平,且已经在相关场景落地。
本次分享以火山引擎 ByteHouse 的向量检索功能设计与实现为主题,主要包括以下内容:
1. 向量检索概念以及在 LLM 场景的应用
2. 如何基于ByteHouse OLAP引擎实现向量检索
3. ByteHouse向量检索-性能优化解读
4. ByteHouse向量检索-资源优化解读
5. 与专用向量数据库的性能比较
6. ByteHouse向量检应用场景解读
听众收益:
1. 向量检索的使用场景
2. 向量检索与 OLAP 结合的优势
3. 如何在 OLAP 系统中实现高效向量搜索
4. 基于OLAP的向量检索应用场景
多模态手机Copilot: Mobile-Agent
个人介绍:阿里通义实验室高级算法专家,负责通义多模态大模型mPLUG系列工作,包括基础多模态模型mPLUG/mPLUG-2,多模态对话大模型mPLUG-Owl/Owl2,多模态文档大模型mPLUG-DocOwl,多模态智能体Mobile-Agent等,其中 mPLUG 工作在 VQA 榜单首超人类的成绩。在国际顶级期刊和会议ICML/CVPR/ICCV/ACL/EMNLP/MM/TOIS/IJCAI/AAAI等发表论文30多篇,并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mPLUG,X-PLUG,AliceMind,DELTA。
演讲题目:多模态手机Copilot: Mobile-Agent
演讲介绍和提纲:
近年来,多模态大语言模型(MLLM)逐渐成为热门研究领域。随着AI手机的迅速发展,手机自动化操作成为了AI时代各大手机厂商的重要应用。然而,受限于有限的数据和特定的屏幕感知方式,现有的MLLM在手机UI感知、理解和操作上的表现不足以实现自动化操作。为了解决上述问题,我们基于多模态agent的架构,逐步探索并开发自动化移动设备操作助手,以应对移动设备UI自动化操作中的各种挑战,实现一句话指令就能让手机自动完成特定任务。
1. 多模态智能体介绍
2. Mobile-Agent-v1
3. Mobile-Agent-v2
听众收益:
1. 了解多模态智能体
2. 理解多模态智能体在手机应用
智能体驱动的场景化导购
个人介绍
阿里巴巴算法专家,目前就职于1688技术部,专注于运用AI技术改善买家找挑商品和客服咨询的体验。长期负责平台智能客服的算法建设并兼任产品,同时负责AI+导购创新场景算法设计,以及垂直大模型技术研究。加入阿里前,曾就职杭州一家明星NLP创业公司,深度实践智能客服的0-1,并在算法研究上发表相关论文。
演讲题目
智能体驱动的场景化导购
演讲介绍和提纲
介绍:
当前电商平台的导购链路较为单一,难以满足不同购物人群的差异化需求,导致用户体验缺乏特色。受制于过去的智能技术瓶颈和高昂的运营定制成本,解决这一问题挑战极大。如今,借助大模型强大的信息处理能力以及电商平台丰厚的数据沉淀,实现场景化导购定制的边际成本趋向固定。我们正积极探索这一领域,力图打造丰富多样的场景式购物体验,为AI时代的新导购形态开辟更多可能性。
简要提纲:
1. 场景化导购的价值和问题定义
2. 场景化导购智能体的定义、架构、挑战和实践
3. 应用展示
4. 未来的导购场
听众收益(讲师必填)
1. 深入了解B类电商导购的现状和问题
2. 智能体驱动的导购新面貌和有效实践
3. AI驱动的未来导购范式的思考和解读
具身认知增强的大语言模型Agent
个人介绍:
清华大学智能产业研究院助理教授,曾任联想集团研究院技术战略与创新孵化平台高级研究员,负责智能系统交互技术研发、类人智能体、认知及情感计算相关研究。曾作为项目负责人、课题任务负责人承担了包括北京市、科技部、工信部等多项科研项目,发表人机交互领域顶级会议或期刊论文40余篇、获得20余项国内外发明专利。
演讲题目:
具身认知增强的大语言模型Agent
演讲提纲:
大语言模型为AI Agent带来了人类世界common sense,然而大语言模型自身的训练数据嘈杂且缺乏具身性。为了增强大语言模型AI Agent的具身性,我们探索了多种方式,将具身任务数据与语言模态数据进行对齐。使大语言模型AI Agent可以更好地完成如驾驶、社交等具身任务,揭示了AI Agent实现通用人工智能的潜力。
听众收益:
1、大语言模型除了处理文本任务,如何完成具身任务?
2、大语言模型完成具身任务的好处是什么?
3、大语言模型完成具身任务面临什么样的挑战?
4、构建具身认知增强的大语言模型Agent有哪些思路方法?
茶歇
AI Agent 及其在游戏领域的应用探讨
个人介绍
刘文强在18年博士毕业之后加入腾讯,曾负责游戏领域知识图谱构建和应用。现任腾讯海外游戏大语言模型方向负责人,主要负责多语言自然语言处理的算法研发以及大语言模型在腾讯海外游戏的应用设计和开发工作。
演讲题目
AI Agent 及其在游戏领域的应用探讨
演讲介绍和提纲
1.从历史到现在:大语言模型的发展脉络及其对我们应用开发的深刻启示
2.掀开神秘面纱:剖析 Agent 的技术架构及其在游戏领域的主要应用场景
3.创新与实践:分享我们在 Agent 上的探索与创新尝试
4. 从现在到未来:经验教训和未来计划
听众收益
1. 了解目前Agent的发展脉络
2. 获取在游戏领域的结合点
3. AI Agent 在应用方面面临的挑战
从0到1,广告营销多智能体架构落地全攻略
个人介绍
毕业于中国科学院,目前是商业广告平台智能体团队技术负责人,工作方向是智能体技术在商业营销场景中的实践落地。拥有数十项发明专利,对高并发、高性能、高可用分布式系统的建设和治理也有较多实践和较深入的理解。
演讲介绍和提纲
1.轻舸营销智能体诞生的契机
2.轻舸广告多智能体架构基于四力模型的建设
理解力,即智能体能听懂客户的广告营销诉求的表达,正确路由到合乎客户认知的逻辑分支
洞察力,即智能体主动/被动方式洞察出客户在投放中的问题和机会点,并给出分析过程与解决方案,帮助客户在广告投放中取得更好的效果
执行力,即客户给出的要求,能够切实有效地干好,干到位,让客户满意,且能够量化并持续跟踪后续进展和客户满意程度
引导力,即智能体的沟通控场能力,能够激发客户更多的有效表达,给检索引擎层传入更多信息,进而提升广告投放效果
听众收益
了解 AI Agent 在商业营销落地中的技术方案与收益
开拓思路,如何将传统业务与 AI 结合,孵化智能体
AI Agent 领域目前存在的挑战,以及对未来的展望
基于 Apache Paimon 的实时湖仓架构实践
个人介绍
硕士毕业于中南大学,现就职于小米计算平台,负责数据湖仓平台和组件的建设维护工作。
演讲题目
基于 Apache Paimon 的实时湖仓架构实践
演讲介绍和提纲
1. Apache Paimon 是什么?我们为什么要引入 Paimon
2. 基于 Paimon 构建近实时的数据湖仓
3. 项目总结与未来展望
听众收益
了解 Paimon 原理、优势
了解 Paimon 在实时湖仓场景的应用实践
了解 Paimon 实时链路中的调优手段
数据仓库新篇章:云原生实时数仓SelectDB
姜国强,SelectDB 产品副总裁、云产品负责人,曾担任百度 Doris 团队存储引擎研发负责人、腾讯 ES/OLAP 产品研发负责人,具有十年分析型数据库研发经验。
演讲题目
数据仓库新篇章:云原生实时数仓SelectDB
演讲介绍和提纲
1. SelectDB 简介:SelectDB的基础介绍与应用场景
2. 数据分析的核心痛点与发展趋势:当前数据分析的关键痛点,未来数据仓库的发展趋势。
3. SelectDB的思考与创新:SelectDB在实时性、云原生、湖仓一体方面的创新与突破。
4. SelectDB未来发展规划。
听众收益
1. 数仓最前沿的发展趋势以及SelectDB的探索实践;
2. SelectDB如何在多场景下达到业界领先的性能水平;
3. 云原生机遇之下,SelectDB如何进行数仓的持续创新;
4. 湖仓融合趋势过程中,SelectDB在湖仓一体方面的思考与实践;
Apache Paimon 实时湖仓存储底座
李劲松,花名之信,PMC Chair of Apache Paimon,PMC Member of Apache Flink,阿里云开源大数据表存储负责人。
演讲题目
Apache Paimon 实时湖仓存储底座
演讲介绍和提纲
主要介绍 Apache Paimon 作为一个湖格式,在湖上构建实时链路,面向 OLAP 提供实时查询,Paimon 经过了8个版本的迭代后,面向流、批、OLAP均有一定成熟度,作为一个统一的共享存储面向主流大数据服务。此分享主要包括:
1. 实时湖仓,解锁企业通用的实时需求
2. 使用 Flink 构建流式入湖与实时链路
3. 使用 Spark 构建批式 ETL 链路
4. 使用 OLAP 引擎极速查询
听众收益
了解最新湖仓一体的场景与玩法,了解统一数据湖格式的基本理念
茶歇
腾讯大数据实时湖仓智能优化实践
腾讯高级工程师,主要负责腾讯实时湖仓的架构设计和内核优化等工作,推动湖仓一体化在公司大范围内落地并取得显著的性能提升和降本收益。
演讲题目
腾讯大数据实时湖仓智能优化实践
演讲介绍和提纲
本次分享主要介绍基于天穹大数据体系下的湖仓建设和优化实践, 深入分享湖仓落地技术方案和智能优化实践,显著改善业务体验,提升查询性能,助力业务降本增效
a.天穹实时湖仓架构
b.内核优化&智能提速
c.落地实践&未来规划
听众收益
a. 传统数仓架构升级,实时湖仓快速落地
b. 基于Iceberg/Huid/Delta/Paimon 等湖仓格式选型的参考
c. 在大规模落地场景如何有效解决小文件问题, 实时性问题, 成本问题等
基于Apache Doris湖仓一体分析系统在快手的实践
个人介绍:2015年硕士毕业之后,一直从事大数据分析引擎相关的工作,有丰富的分布式计算系统在海量数据场景下的优化经验。目前主要负责湖仓一体分析引擎相关工作。
演讲题目:基于doris湖仓一体分析系统在快手的实践
演讲介绍和提纲:
1.分析引擎转向湖仓一体的初衷
2.缓存在湖仓一体中的实践
3. 自动物化在湖仓一体中的实践
听众收益:
1.为了满足性能和业务需求,湖仓一体分析架构是如何设计的?
2.缓存在湖仓一体解决了哪些问题?
3.自动物化是如何减少数据开发工作量?
北京丽亭华苑酒店 北京市海淀区知春路25号