微信分享
DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变

使用微信扫一扫分享到朋友圈

活动分享
DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变

使用微信扫一扫进入小程序分享活动

会议介绍

会议介绍的副本.jpg

会议亮点

会议亮点.jpg


变.jpg


不变.jpg


峰会主席
  • 复旦大学教授,上海市数据科学重点实验室主任肖仰华
    肖仰华
    复旦大学教授,上海市数据科学重点实验室主任

    复旦大学教授、博导,上海市数据科学重点实验室主任。长期从事大数据、 知识图谱研究。发表 CCF-A 、B 类等论文 200 余篇。出版学术专著与教材三部。 完成五十多项政府及人工智能头部企业研发项目。荣获包括华为、阿里、美团等机构授予的科研奖项二十多项。担任 Applied Intelligence 等多个国际期刊副主编或编委。

  • 腾讯 PCG 技术副总经理李奘
    李奘
    腾讯 PCG 技术副总经理
    李奘,腾讯PCG技术副总经理。宾西法利亚州立大学博士,长期致力于机器学习、大数据、数据科学和增长技术体系与方法论的研究和应用。曾在硅谷Cisco,Linkedin等公司任职,回国后在滴滴任杰出算法工程师负责增长、数据挖掘、NLP、知识图谱和智能客服等方向。当前在腾讯负责PCG的推荐中台、画像中台和数据治理平台等多个项目,并负责PCG的AI委员会的规划发展。
  • 阿里云计算平台事业部首席架构师,阿里云人工智能平台 PAI & 数据开发与治理平台 DataWorks 负责人林伟
    林伟
    阿里云计算平台事业部首席架构师,阿里云人工智能平台 PAI & 数据开发与治理平台 DataWorks 负责人

    个人介绍:林伟,主攻大规模分布式训练加速、编译优化、大数据计算、分布式系统等技术工程建设和性能优化。具有17年的系统架构设计及研发经验,并在国际一流ODSI、NSDI、SIGMOD会议上多次发表论文。原微软大数据平台组的核心成员,曾在微软亚洲研究院和微软美国工作10年。


  • 选题策划委员会
  • 大数据总监蔡适择
    蔡适择
    顺丰科技 大数据总监
    负责顺丰大数据平台底盘建设及产品化工作,完成顺丰大数据平台从0至1的整个建设过程,之前负责京东实时计算平台从0至1的整体建设。在大数据平台、物联网、边缘计算领域有丰富的实践经验,深耕大数据平台存算分离、实时数仓、融合计算等技术,致力于大幅降低数据开发及应用门槛,让大数据技术成为一项人人可用、可快速应用的技术。
  • 大模型技术专家常建龙
    常建龙
    华为云 大模型技术专家
    华为高级研究员,百度奖学金(全球每年仅十人),中科院优秀博士论文奖,中科院院长奖获得者。于2015年毕业于电子科技大学数学科学学院,2020年博士毕业于中国科学院自动化所模式识别国家重点实验室,主要研究通用AI算法和商业落地,二十多项研究成果发表于IEEE T-PAMI、IEEE T-IP、ACM Computing Surveys、NeurIPS、CVPR、ICCV、AAAI等国际顶级AI期刊会议,并成功应用于华为云为千行百业赋能。
  • 阿里巴巴 企业智能算法负责人陈祖龙
    陈祖龙
    阿里巴巴 企业智能算法负责人

    个人介绍:阿里巴巴企业智能算法负责人,资深算法专家,浙江省人工智能协会智能制造分会百人专家,山东人工智能协会专家成员,中国“双法”学会数学建模分会理事,现负责面向大型企业的数字化智能文档、企业级办公助手以及法务等领域大模型相关工作,曾负责阿里巴巴飞猪算法(搜索、推荐、广告、供应链等)团队和淘宝首页人群个性化推荐,带领团队在业务相关技术走向国内外先进水平,在WWW、SIGIR、SIGKDD、ICDE、WSDM、CIKM、AAAI等国际顶级会议和VLDB、TITS、TOIS、ITOJ、TACL等国际顶级期刊发表论文40多篇等。

  • 开发专委会核心成员范涛
    范涛
    FATE开源社区 开发专委会核心成员
    他是FATE开源社区开发专委会核心成员,微众银行人工智能资深研究员,曾就职于百度,腾讯。一直从事人工智能,机器学习,联邦学习,大数据等领域的研发和应用落地。申请联邦学习相关技术专利100多项和发表多篇有影响力的学术论文。
  • IEG Global Senior Principal Data Engineer雷小平
    雷小平
    腾讯 IEG Global Senior Principal Data Engineer
    IEGG 首席数据工程架构师,有超过10年的大数据架构和应用相关的经验,曾负责过QQ数据基础和应用平台从0到1的构建,腾讯公有云大数据产品技术架构的演进,目前负责 IEGG 数据团队技术架构优化相关工作。
  • 人工智能实验室主任李金龙
    李金龙
    招商银行 人工智能实验室主任
    带领团队从事人工智能技术的研发以及在智能金融领域的应用。主持的科技项目荣获中国银保监会一等奖、中国人民银行科技发展二等奖两次、参与编写CF40《中国智能金融发展报告》各期编写、参与人工智能领域学术论文十余篇、国家专利数十项。
  • 资深技术专家李 钰
    李 钰
    阿里巴巴 资深技术专家
    阿里巴巴资深技术专家,Apache Flink & HBase PMC Member,Apache软件基金会Member,阿里云EMR研发团队负责人。
  • 机器学习平台部总监陶阳宇
    陶阳宇
    腾讯 机器学习平台部总监

    个人介绍:中科大博士,15年机器学习、大数据、云计算相关领域经验,曾在微软MSRA、阿里云从事大规模分布式系统研发,现任腾讯TEG机器学习平台部总监,腾讯-太极机器学习平台研发负责人,研发的腾讯Angel系列AI框架,支持了腾讯海量数据、万卡规模GPU集群的模型训练、推理部署,服务了腾讯混元大模型、广告/内容推荐、金融风控等业务场景。

  • 大数据基础架构负责人、大数据架构师王海华
    王海华
    货拉拉 大数据基础架构负责人、大数据架构师
    王海华,货拉拉大数据架构师/基础架构负责人,现在负责公司大数据部门整体稳定性、安全、成本和基础架构团队。曾在滴滴/饿了么/拼多多经历和负责过几千到几万台的超大规模数据平台架构。7年以上大数据架构经验,主要研究方向是大数据安全、大数据平台产品和系统架构、计算机体系结构和分布式系统等,在以上领域具备大规模的落地实践经验。腾讯云TVP,曾经多次在QCon/SACC/DTCC等著名技术会议上进行技术分享。
  • 副总裁王文广
    王文广
    达观数据 副总裁
    王文广,达观数据副总裁,高级工程师,自然语言处理和知识图谱著名专家,《知识图谱:认知智能理论与实战》作者,人工智能标准编制专家,专注于知识图谱、通用人工智能AGI、大模型、AI大工程、NLP、认知智能、强化学习、深度学习等人工智能方向。现在是上海市人工智能标准化技术委员会委员,上海科委评审专家,中文信息学会(CIPS)语言与知识计算专委会委员,中国计算机学会(CCF)高级会员,中国人工智能学会(CAAI)深度学习专委会委员。曾获得多个国际国家级、省部级、地市级奖项,拥有数十项人工智能领域的国家发明专利和会议、期刊学术论文。在达观数据致力于将大模型、自然语言处理、知识图谱、计算机视觉和大数据技术产品化,服务金融、智能制造、供应链、半导体、汽车工业、航空航天、新能源、双碳等领域。
  • 数据基建负责人吴泽君
    吴泽君
    TME腾讯音乐 数据基建负责人
    大数据平台建设领域拥有10年工作经验,现负责腾讯音乐集团智能计算分析、数据治理和机器学习平台建设。擅长设计开发OLAP、实时计算、大数据治理、降本增效、机器学习推理加速等方案架构设计和开发。
  • 小布智能中心高级技术总监杨振宇
    杨振宇
    OPPO 小布智能中心高级技术总监
    杨振宇,OPPO小布智能中心认知计算技术负责人,深圳市高层次人才计划入选者,于中国科学技术大学获得计算机学士和博士学位。近年来主要从事自然语言处理、对话式AI相关算法研究与落地应用工作。2015年之前任教于国防科学技术大学,学术论文代表作单篇他引超过800次,入选ESI Top 0.1%热点论文。所从事科研工作曾获高等院校(科学技术)科技进步二等奖1次、湖南省科技进步二等奖2次。2015年后加入工业界,专注于对话式AI关键算法技术研发与落地,2018年加入OPPO主导NLP与对话算法工作,帮助公司级战略产品小布助手实现从零到月活过亿的突破。
  • 算法负责人殷泽龙
    殷泽龙
    (前)迷你创想 算法负责人
    毕业于哈尔滨工业大学。曾就职于迷你创想、腾讯,参与过多个增长和计算广告相关项目。
  • 搜索推荐 Senior Tech Lead喻宏勇
    喻宏勇
    腾讯 搜索推荐 Senior Tech Lead
    腾讯14级专家,搜索推荐STL。有多年的研发和管理经验,主要在推荐、搜索、数据挖掘等领域研发以提升产品体验。曾任百度主任架构师。
  • 金融大数据负责人于溦
    于溦
    广州致景科技 金融大数据负责人
    哈尔滨工业大学硕士,平安国际智慧城市AI专家,负责构建平安法律知识图谱,法律问答机器人;平安银行科技开发中心智慧风控风险模型负责人,主要负责小微企业风控建模、物联网数据治理及金融知识图谱建设;广州致景科技 金融大数据负责人,主要负责纺织行业大数据、产业平台小微企业金融赋能及风险防控。
  • 研发总监赵田
    赵田
    腾讯科技 研发总监
    工作 12 年,目前就职腾讯 PCG 大数据平台部。曾经就职于 IBM,有丰富的 AI 领域效能工具产品的开发经验(推荐调试工具、特征分析工具、模型分析工具、AIOps 智能洞察等),近几年重点在负责 A/B 实验中台的研发,赋能组织和产品高效的进行数据驱动决策。
  • AI技术研发团队分组经理郑德荣
    郑德荣
    平安人寿 AI技术研发团队分组经理
    2012年硕士毕业于哈工大计算机专业,先后在百度和微众银行从事机器翻译、搜索推荐、对话机器人等算法研发工作;现任平安人寿AI技术研发团队分组经理,主要负责续期数字化、AI外呼、推荐等AI研发相关的工作。
  • 出品人
  • 腾讯游戏 首席数据科学家陈峭霖
    陈峭霖
    腾讯游戏 首席数据科学家
    北京大学学士,UCLA生物统计系博士,2013年底毕业后在诺华制药任首席统计师,从事临床试验统计分析和医药大数据研究;2017年加入SparkBeyond任资深数据科学家, 为世界五百强企业提供可落地的大数据解决方案。2018年加入腾讯游戏数据挖掘团队,目前致力于游戏出海领域的机器学习、推荐系统、用户画像、知识图谱等的研究和应用,同时打造业界领先的游戏领域通用数据挖掘平台。
  • 微信 专家工程师,微信数仓技术负责人董旭
    董旭
    微信 专家工程师,微信数仓技术负责人
    个人介绍:微信数仓技术负责人,大数据技术专家,专注于大数据平台建设和 OLAP 数仓技术工作,曾发表多篇专利和论文;近年主导建设了微信亚秒级实时数仓。
  • 奇富科技 首席算法科学家费浩峻
    费浩峻
    奇富科技 首席算法科学家
    费浩峻,奇富科技首席算法科学家,数据智能部、大模型部总经理。全面负责 360数科 数智化工作的研究和落地。深耕智能增长技术十余年、金融科技的创新者,曾任百度金融/度小满主任架构师,腾讯专家研究员。长期投身于广告、检索和增长等应用研究领域,专注于大数据、人工智能研究方向,对技术如何驱动业务发展有着丰富的经验和独到的理解,拥有大数据、NLP、计算广告、信息处理等 专利二十余项。本科毕业于华中师范大学,硕士毕业于北京大学。2021年加入360数科,从数据安全、数据生态、大模型计算着手, 推动360数科的人工智能技术体系不断完善升级。围绕金融科技场景,带领人工智能团队打造了新一代的智能增长平和智能征信中台,带领团队推出业内首个金融垂类大模型,以大模型为基础在对话机器人、客服管理、用户经营等方向进行了全面的升级。
  • 专家研究员黄帆
    黄帆
    腾讯 专家研究员
    博士毕业于北京邮电大学,目前就职于腾讯公司,担任算法专家研究员,从事短视频推荐算法相关工作。拥有十余年算法从业经验,曾先后就职于华为和阿里巴巴。至今累计发表学术论文20余篇,申请发明专利40余项。
  • 主任架构师焦学武
    焦学武
    百度 主任架构师
    焦学武,毕业于中科院计算所。现任百度主任架构师,百度商业体系机器学习平台负责人。先后负责百度凤巢检索架构、模型训练平台等工作。带领团队完成了具备业界开创性的DNN模型框架PaddleBox、图模型框架PGLBox、特征框架FeaBox、自动寻优平台AutoML等工作。曾多次获得最佳百度人、百度总TC技术创新奖、商业体系最佳项目奖、业务进攻奖等荣誉,在KDD、BigData等人工智能顶级会议上发表多篇论文。
  • 大数据负责人景生军
    景生军
    YY直播 大数据负责人
    多年大数据从业经验,对数据基础架构服务、数据资产化、数据应用具有深刻的洞见。
  • 阿里云人工智能平台PAI引擎负责人李永
    李永
    阿里云人工智能平台PAI引擎负责人

    个人介绍:阿里巴巴机器学习平台资深技术专家,长期参与超大规模模型训练、异构资源调度、MLOPS 等领域的研发。

  • 内容技术负责人刘旭
    刘旭
    淘天集团 内容技术负责人
    刘旭,内容技术负责人,负责大淘宝内容平台,以及多个内容导向型业务,例如淘宝信息流、淘宝逛逛等,核心能力包括音视频频编解码器、RTC、渲染、多模态内容理解、AIGC、创作者工具和媒体资产管理等。曾为达摩院机器人实验室总监,负责专注于配送服务机器人研发、产品规划、业务拓展等工作。曾为中国研发中心助理总经理,领导了多个产品和工程团队的产品规划、管理、系统设计验证和系统架构等工作。
  • 阿里云 大数据产品负责人刘一鸣
    刘一鸣
    阿里云 大数据产品负责人

    个人介绍:刘一鸣,目前负责阿里云ODPS等自研大数据产品,主攻云原生一体化数仓引擎能力的演进和商业化,在数据仓库、大数据计算、开源大数据行业有15年以上工作经验。原Kyligence 副总裁,Apache Kylin PMC。


    演讲题目:阿里云大数据AI一体化最佳实践


    演讲简介:Data+AI时代,大数据平台该如何建设?我们认为需要具备计算效率、开发效率、处理效率为一体的高效能力,才能保障企业AI时代下的业务创新。阿里云提供了从数据集成、清洗、建模、计算到服务的大数据+AI整套产品解决方案。 同时,阿里云自研大数据平台 MaxCompute 推出分布式计算框架 MaxFrame,100% 兼容 Pandas 等数据处理接口,打通数据管理、大规模数据分析、处理到 ML 开发全流程,打破大数据及 AI 开发使用边界,大幅提升开发效率,助力企业快速构建AI时代的基础设施。

  • 主任架构师万里进
    万里进
    百度 主任架构师
    万里进,毕业于中山大学,现任百度主任架构师。深耕互联网广告系统10多年,经历百度凤巢系统从统计模型发展到AIGC大模型的全过程,负责广告系统的分布式KV存储、机器学习预估、广告检索引擎以及广告系统云原生改造等多个核心子系统的技术研发,目前在主导凤巢AIGC生成式大模型在线推理加速的核心技术探索和重点应用落地。
  • 大数据基础架构负责人、大数据架构师王海华
    王海华
    货拉拉 大数据基础架构负责人、大数据架构师
    王海华,货拉拉大数据架构师/基础架构负责人,现在负责公司大数据部门整体稳定性、安全、成本和基础架构团队。曾在滴滴/饿了么/拼多多经历和负责过几千到几万台的超大规模数据平台架构。7年以上大数据架构经验,主要研究方向是大数据安全、大数据平台产品和系统架构、计算机体系结构和分布式系统等,在以上领域具备大规模的落地实践经验。腾讯云TVP,曾经多次在QCon/SACC/DTCC等著名技术会议上进行技术分享。
  • 大数据部 实时数据负责人、ASF Member王鑫
    王鑫
    蚂蚁集团 大数据部 实时数据负责人、ASF Member
    ASF Member, Apache Storm & Incubator PMC Member, Apache RocketMQ & IoTDB & StreamPipes Committer,蚂蚁集团大数据部实时数据负责人。
  • 数据科学专家,微信实验平台负责人王勇
    王勇
    微信 数据科学专家,微信实验平台负责人
    微信实验平台负责人,数据科学专家,同时负责工程和算法团队,发表多篇实验领域顶会文章。
  • 滴普科技 CTO吴小前
    吴小前
    滴普科技 CTO
    吴小前,滴普科技CTO,资深技术专家,负责前沿技术研究和公司产研体系架构设计。曾就职于华为、Amazon,拥有大型平台类软件产品架构体系研发经验。作为核心成员,吴小前主导实现Kappa Plus架构的实时分布式数据分析架构,规划并设计了流批一体、湖仓一体的云原生数据智能平台,首次引入领先的MDS架构,打造中国版的低成本、高性能、易使用的实时湖仓平台。目前致力于研发搭建基础算力平台,打造Deepexi企业大模型及模型工具链应用。吴小前曾荣获“2021年度海纳奖——分布式数据库十大先锋人物”。
  • 快手 资深数据架构师孙伟
    孙伟
    快手 资深数据架构师
    快手商业创新数据负责人&数据治理负责人,曾就职于百度、阿里巴巴,擅长数据体系、数据产品、数据化运营、数据管理等大数据解决方案的架构及建设。
  • 中国信息通信研究院 云计算与大数据研究所 高级业务主管尹正
    尹正
    中国信息通信研究院 云计算与大数据研究所 高级业务主管
    数据资产管理研究员,中国信息通信研究院云计算与大数据研究所高级业务主管,大数据技术标准推进委员会—人工智能大数据工作组组长,主要从事前沿数据管理领域研究与布道工作(DataOps、Data Fabric、人工智能数据等)。曾主导多项相关领域的国际、行业、团体标准立项,白皮书、研究报告编制,牵头多家行业头部企业的相关领域咨询与测评工作。
  • 数据平台部 高级技术总监张靖
    张靖
    bilibili 数据平台部 高级技术总监
    bilibili数据平台部部门负责人。先后在猎豹,阿里游戏,哔哩哔哩工作,目前在哔哩哔哩负责大数据平台建设以及主站数据建设,长期关注微服务,高可用架构,大数据业务技术方向。
  • OPPO 数据架构负责人周强
    周强
    OPPO 数据架构负责人
    个人介绍:周强,曾任职于土豆网、支付宝、阿里云等公司,长期从事算法平台、数据平台的研发工作,在大数据平台建设方面有丰富实践经验。目前任职 OPPO 数据架构负责人,负责智能湖仓、Agent 智能体应用建设和技术演进。
  • 活动嘉宾
  • 复旦大学教授,上海市数据科学重点实验室主任肖仰华
    肖仰华
    复旦大学教授,上海市数据科学重点实验室主任

    复旦大学教授、博导,上海市数据科学重点实验室主任。长期从事大数据、 知识图谱研究。发表 CCF-A 、B 类等论文 200 余篇。出版学术专著与教材三部。 完成五十多项政府及人工智能头部企业研发项目。荣获包括华为、阿里、美团等机构授予的科研奖项二十多项。担任 Applied Intelligence 等多个国际期刊副主编或编委。

  • 度小满技术委员会执行主席、数据智能应用部总经理杨青
    杨青
    度小满技术委员会执行主席、数据智能应用部总经理

    个人介绍:杨青,度小满技术委员会执行主席、数据智能应用部总经理,硕士毕业于清华大学计算机系,曾就职于百度、阿里,从事 NLP、搜索、推荐、大数据架构等相关方向的研发工作。2018 年初加入度小满金融开始组建数据智能部,从0到1建设度小满金融的智能引擎的核心算法,深耕计算机视觉、自然语言处理、图模型、机器学习、因果推断等技术能力,多篇文章被EMNLP、ACL、CIKM等国际顶会收录,“智能化征信解读中台”工程荣获吴文俊人工智能科技进步奖。相关技术广泛应用于度小满营销、经营、风控、反欺诈全流程业务场景,为上千万客户提供着稳定、安全的金融服务。目前专注于AIGC在金融场景中的落地,基于度小满模型即服务“MaaS”的模式积极探索文生图、数字人与生成式大模型的应用转化。已于年初带领团队发布国内首个千亿中文金融大模型“轩辕”。

    演讲题目:金融大模型技术创新与应用探索

    演讲提纲:

    1. 大模型简介

    2. 开源轩辕大模型详解

    3. 金融大模型应用探索

    4. 总结与展望

    听众收益:详细了解国内开源金融大模型的研发过程,了解大模型在金融行业中如何应用,对自研大模型以及使用大模型都有帮助。

  • 阿里云计算平台事业部首席架构师,阿里云人工智能平台 PAI & 数据开发与治理平台 DataWorks 负责人林伟
    林伟
    阿里云计算平台事业部首席架构师,阿里云人工智能平台 PAI & 数据开发与治理平台 DataWorks 负责人

    个人介绍:林伟,主攻大规模分布式训练加速、编译优化、大数据计算、分布式系统等技术工程建设和性能优化。具有17年的系统架构设计及研发经验,并在国际一流ODSI、NSDI、SIGMOD会议上多次发表论文。原微软大数据平台组的核心成员,曾在微软亚洲研究院和微软美国工作10年。


  • OPPO 互联网 应用研发平台总经理赖洪科
    赖洪科
    OPPO 互联网 应用研发平台总经理

    个人介绍:OPPO互联网应用研发平台及推搜算法部总经理,有超过14年的互联网广告研发经验,主导OPPO广告播放系统、搜索引擎等多项研发建设,也同时负责厂商应用体系数据搭建等工作。目前负责OPPO软件商店、游戏中心等研发工作,同时负责推搜部门整体技术探索及应用。

    演讲题目:OPPO 应用分发在推荐领域提效上的实践与思考

    演讲提纲:本次分享将为大家带来 OPPO 作为厂商在应用分发业务及推荐、大数据、算法领域上的一些差异化技术能力和思考,包含:

    1. OPPO 应用分发业务场景介绍

    2. OPPO 应用分发数据体系概况及架构

    3. OPPO 在推荐领域提效的相关技术能力及实践应用

    4. 未来在推荐领域及大数据领域的规划与方向

    听众收益:

    1. 了解 OPPO 在应用分发业务上的具体场景及厂商应用分发的差异化特点

    2. 了解 OPPO 应用分发在推荐算法领域的技术能力、全场景数据价值及应用案例

    3. 了解 OPPO 未来在端云协同、大模型等相关领域的方向

  • Ubsoft China,Development DirectorAlexis Rolland
    Alexis Rolland
    Ubsoft China,Development Director

    个人介绍:Alexis Rolland, 自2012年加入育碧,曾先后在大数据、数据分析和机器学习等领域担任多个关键职务。目前,作为La Forge中国团队开发总监,他领导着团队在技术创新领域迈出坚实的步伐。出于对新兴科学技术的执着追求,Alexis一直致力于架起学术前沿和视频游戏产业之间的桥梁,尤其在积极推动育碧生成式AI助力内容创作的革新中,发挥着关键的作用。

    演讲题目:Pioneering 2D image generation for AAA games(助力3A大作:领跑2D图像生成技术)

    演讲提纲: 本次演讲将介绍育碧(Ubisoft)在为3A游戏创建专有图像生成式模型方面的方法。 演讲内容将包括以下部分:

    • 为什么需要创建微调图像生成式模型

    • 育碧的方法和方法论

    • 介绍Caption Studio实用工具

    • 展示图像生成式模型

    听众收益:您将了解到育碧在微调图像生成式模型方面的实现方法和道德原则,及相关的指导方针和最佳实践。

  • 阅文集团 技术副总经理陈炜于
    陈炜于
    阅文集团 技术副总经理
  • 字节跳动 LAS 查询引擎负责人杨嘉义
    杨嘉义
    字节跳动 LAS 查询引擎负责人

    个人介绍:曾在百度智能云、大数据等部门从事数据分析和服务、数据科学等工作,拥有十多年的开发和架构经验。当前负责字节跳动火山引擎 LAS 底层的湖仓一体加速引擎 Bolt 和 Presto 方向。

    演讲题目:湖仓一体加速引擎 Bolt 及在字节跳动火山引擎 LAS 的应用

    演讲提纲:Spark、Presto 等引擎原 Java 执行的性能优化进入瓶颈期,而基于向量化和编译优化的 native 引擎,可获两倍性能加速比,降低资源成本。Bolt 已经在字节跳动内部 SparkSQL、Presto 大规模上线,加速效果显著,其特色有:面向多场景统一加速、端到端向量化执行。本次分享将介绍 Bolt 的意义、架构和在火山引擎 LAS 产品的应用实践。

    1. Bolt 的背景和意义

    2. Bolt 的架构设计

    3. Bolt 的核心特色

    4. Bolt 在火山引擎湖仓一体产品 LAS 的实践

    听众收益:

    1. 了解基于向量化和编译优化的 Bolt 加速引擎,如何获得 2x 加速比和 40% 资源节约。

    2. 了解火山引擎湖仓一体产品 LAS 的架构、特色及应用场景。

    3. 了解 Bolt 在湖仓一体产品 LAS 的应用现状及主要收益。

  • 阿里云 高级软件开发工程师王日宇
    王日宇
    阿里云 高级软件开发工程师

    个人介绍:计算机科学与技术硕士,专注于大数据系统和 OLAP 数据库的技术研发工作,现在主要负责开源 StarRocks 项目内核开发。

    演讲题目:基于 StarRocks 和 Paimon 打造湖仓分析新范式

    演讲提纲:

    1. 数据湖技术发展的演进介绍

    2. 使用 StarRocks + Paimon 湖仓分析方案主要场景介绍

    3. 使用 StarRocks 构建 Paimon 物化视图和数据湖分析的关键技术原理介绍

    4. 使用 StarRocks + Paimon 湖仓分析能力的未来技术规划

    听众收益:

    1. 了解数据湖技术发展的演进

    2. 了解如何使用 StarRocks + Paimon 构建湖仓分析方案

    3. 了解 StarRocks + Paimon 湖仓分析的核心技术原理

  • YY直播 数据产品负责人邓琴丰
    邓琴丰
    YY直播 数据产品负责人

    个人介绍:目前负责YY直播数据产品的总体规划,带领团队落地包括数据开发管理、数据治理、数据分析、数据服务、用户画像及运营分析等数据平台及应用产品;有10年+的大数据分析及产品经历。

    演讲题目:YY直播业务指标治理实践

    演讲提纲:烟囱式的需求开发沉积大量数据模型及数据报表;而业务指标管理存在技术口径和业务口径混用,同名不义及同义不同名等问题;通过业务指标的体系化梳理及构建,引入指标生命周期管理机制,清理融合存量数据模型及报表;最终面对业务用户,构建以指标目录为入口的自助购物式的数据获取及分析体验,提纲如下:

    1. 存在的问题及原因分析

    2. 业务指标体系化构建

    3. 业务指标管理驱动数据治理

    4. 自助购物式的指标分析

    听众收益:

    1. 如何梳理并构建业务指标体系?

    2. 如何利用指标管理驱动数据治理?

    3. 指标管理产品构建及运营的实战经验

  • 奇富科技 高级算法总监杨剑
    杨剑
    奇富科技 高级算法总监

    个人介绍:负责奇富科技风控、营销、获客等相关算法和数据挖掘业务。构建奇富科技大数据体系,大语言模型、图计算等技术框架。在意图识别、行为序列、图计算等算法上,带领团队进行算法创新,实现金融信贷领域的深度落地。多年从事信贷风控领域算法研究和实施,曾经负责全场景风控模型的建设、数据生态建设等。

    演讲题目:业务理解和逻辑推理是金融行业大模型运转的动力

    演讲提纲:金融行业几乎是众多行业中,最早进行数字化的行业,科技一直伴随着金融行业的发展,而大模型的运用将带来金融的科技属性的又一次飞升。金融行业的大模型和其他行业最大的区别,在于金融行业的业务复杂程度、行业经营规范的要求以及安全隐私保护上。并且金融场景中有很多业务判断要求十分严谨,容错率很低,对于当前大模型的能力是一个挑战。金融业务在实际经营过程中,不仅需要有总结归纳和表达输出的能力,更要具备逻辑推理的能力,而支持逻辑推理落实,并做出差异化的方法,是通过结合私有化的领域知识图谱构建的思维链、思维树或思维图。同时面对各类复杂金融业务场景,也不是单纯算力、数据和参数规模的比拼,而是要针对具体场景,利用对业务的理解,有区别化、精确化的挑选参与模型预训练、指令精调、进行RLHF所需的数据。产出的大模型所扮演的角色,也应该是单一或者有限几个领域的专家。具体内容包括:

    1. 科技是金融行业发展的动力,大模型是助推金融科技能力提升的又一个助推器

    2. 金融行业大模型的特殊性及其难点与挑战

    3. 利用科技属性以及科技优势提升金融行业大模型效果

    4. 面对挑战,金融行业大模型可以解决哪些问题

    听众收益:

    1. 理解金融行业大模型与其他行业的差异性

    2. 理解金融行业大模型在落地过程中存在哪些难点

    3. 理解如何发挥科技优势,提升金融行业大模型效果

    4. 理解金融行业大模型在金融业务开展中扮演哪些角色

  • 阿里巴巴 企业智能算法负责人陈祖龙
    陈祖龙
    阿里巴巴 企业智能算法负责人

    个人介绍:阿里巴巴企业智能算法负责人,资深算法专家,浙江省人工智能协会智能制造分会百人专家,山东人工智能协会专家成员,中国“双法”学会数学建模分会理事,现负责面向大型企业的数字化智能文档、企业级办公助手以及法务等领域大模型相关工作,曾负责阿里巴巴飞猪算法(搜索、推荐、广告、供应链等)团队和淘宝首页人群个性化推荐,带领团队在业务相关技术走向国内外先进水平,在WWW、SIGIR、SIGKDD、ICDE、WSDM、CIKM、AAAI等国际顶级会议和VLDB、TITS、TOIS、ITOJ、TACL等国际顶级期刊发表论文40多篇等。

  • 百度 资深研发工程师胡伟
    胡伟
    百度 资深研发工程师

    个人介绍:胡伟,百度资深研发工程师,百度大商业图模型方向负责人。

    演讲题目:超⼤⾏为异构图的表征学习及应⽤

    演讲提纲:

    1. 背景和现状(面临的挑战)

    2. 解决方案和技术创新

    3. 收益和落地

    听众收益:

    1. 如何优化图存储

    2. 如何加速图模型训练

    3. 如何优化多机通信的性能

  • 腾讯 IEG Global Manager刘文强
    刘文强
    腾讯 IEG Global Manager

    个人介绍:刘文强在18年博士毕业之后加入腾讯,曾负责游戏领域知识图谱构建和应用。现任腾讯IEG Global算法中心NLP组长,主要负责多语言自然语言处理的算法研发以及在腾讯海外游戏的应用设计和开发工作。

    演讲题目:Game+Agent 我们的初步尝试

    演讲提纲:随着最新大语言模型,例如GPT系列,PaLM2的兴起,大语言模型强大的能力为AI Agent 的突破带来了契机。大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为Agent的核心大脑,就可以实现以往难以实现的将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。本次分享主要分为下面三个部分:

    1. Agent 的整体介绍

    2. Agent 的技术架构拆解

    3. 我们在 Agent 上一些尝试

    4. 总结

    听众收益:

    1. 了解目前 Agent 的一些主流进展

    2. 了解目前 Agent 的技术细节

    3. 具体如何实践

  • 网易伏羲 资深人工智能工程师关凯
    关凯
    网易伏羲 资深人工智能工程师

    个人介绍:硕士,毕业于浙江大学计算机系。于18年3月加入网易伏羲,自21年中起负责强化学习落地方向。其专注于优化Game AI Bot的表现及策略,提升玩家游戏体验。目前成果已在多款网易雷火的游戏落地应用,如:永劫无间、逆水寒(端游、手游)、全明星街球派对,倩女幽魂(端游、手游)等。

    演讲题目:Game AI Bot 在PVP场景中的应用与实践

    演讲提纲:

    1. PVP类游戏Game AI Bot的应用场景及案例引入

    2. 如何生产满足需求Game AI Bot

    3. 如何应用Game AI Bot 及其结果

    4. 工作展望

    听众收益:

    1. 了解PVP类游戏对Game AI Bot的需求及其痛点

    2. 了解现阶段的Game AI Bot的生产流程

    3. 了解Game AI Bot如何联合游戏匹配系统进行应用

  • 货拉拉 大数据专家何洋
    何洋
    货拉拉 大数据专家

    个人介绍:何洋,本科毕业于中南大学,先后就职于唯品会、饿了么、拼多多,负责过万级规模大数据集群,目前就职于货拉拉,主要从事大数据安全、计算资源调度、大数据平台和 GPT 应用相关工作。

    演讲题目:货拉拉大数据下一代基础架构实践与思考

    演讲提纲:

    1. 背景与挑战

    2. 基础架构实践

    3. 总结与思考

    4. 未来展望

    听众收益:

    1. 面对资源波峰低谷,如何在成本和资源效率间平衡

    2. 除了 x86 服务器,我们还有别的选择么

    3. 面向云原生浪潮,大数据架构如何演进

  • 知乎 数据平台负责人贾承昆
    贾承昆
    知乎 数据平台负责人

    个人介绍:贾承昆。曾就职于阿里云、猿辅导、知乎等公司。有多年数据架构方向的工作经验。负责知乎大数据的基础架构和数据平台相关的工作。

    演讲题目:知乎大数据跨机房实践

    演讲提纲:介绍知乎大数据跨机房方案,如何在多个机房之间迁移数据,调度计算作业并保障稳定性。

    听众收益:

    1. 如何设计并实现 Hadoop 跨机房方案

    2. 如何在多集群之间进行快速的数据迁移

    3. 如何在多集群架构下保障稳定性

  • 百度 资深研发工程师金志鹏
    金志鹏
    百度 资深研发工程师

    个人介绍:硕士毕业于中科院自动化研究所,2016年加入百度商业广告团队,先后从事凤巢点击率模型优化、商业多模内容理解等工作,目前在商业技术中台团队担任内容中台资深算法工程师,负责多模态理解与生成方向,相关工作多次发表于 SIGIR,CIKM,BigData 等国际会议。

    演讲题目:多模内容理解在百度商业广告中的探索实践

    演讲提纲:

    1. 商业图文预训练大模型

    2. 多模内容表征如何赋能商业系统,包括排序系统、召回系统

    3. 多模内容理解与生成大一统

    听众收益:

    1. 如何训练一个百亿的图文大模型?

    2. 多模态内容如何赋能商业系统?

    3. 排序模型的 ID 记忆性问题如何解决?

  • 合肥综合性国家科学中心 人工智能研究院 副研究员苏喻
    苏喻
    合肥综合性国家科学中心 人工智能研究院 副研究员

    个人介绍:苏喻,工学博士,硕士生导师,合肥综合性国家科学中心人工智能研究院副研究员,合肥师范学院计算机学院副教授,专业负责人,中国计算机学会大数据专家委员会通讯委员,安徽省计算机学会青少年信息学教育专委会秘书长,研究方向为自然语言理解,数据挖掘与推荐系统。2011年7月-2022年2月就职于科大讯飞研究院,历任科大讯飞AI教育研究院副院长,AI研究院认知群教育条线负责人,学习机业务线业务总监,重点负责教育领域个性化学习业务,其研发的多项成果已经成功的应用到讯飞智学网、讯飞学习机等相关产品中,于2018年获得讯飞首届华夏创新奖,获2020年吴文俊人工智能科学技术奖科技进步一等奖。同时,先后参与多项安徽省、部级等层面的重大项目科研工作,如国家自然科学基金重点项目“基于多模态数据的学习者认知诊断理论与关键技术研究”、科技部重大专项“面向分类用户个性化需求的科技大数据精准服务技术”等。其间获得多项发明专利,并在AAAI、KDD、IJCAI等国际知名学术会议与期刊发表文章近50余篇。

    演讲题目:教育领域大模型的技术和应用

    演讲提纲:随着技术的不断演进,大语言模型,如GPT-4,及其相关技术已经深深影响了许多行业。尤其在教育领域,这些模型已经促进了许多前沿的应用与实践的出现。通过将大语言模型融入智慧教育,我们希望其能够解决传统方法所面临的问题。本次演讲将重点探讨如何利用大语言模型来应对智能教育所遭遇的技术问题,并分享我们团队的最新研究进展。此外,演讲的最后还将介绍我们在教育场景下结合上述技术所取得的应用成果。

    1.简述大语言模型在通用教育下有哪些应用场景

    2.阐述目前智慧教育在技术上所面临的问题 (有标签数据少、闭环周期长、需要融入领域知识)

    3.介绍团队在教育领域大模型相关的技术

    4.1基于大语言模型的知识构建

    (1)人机合的知识图谱构建技术:通过与大语言模型的结合,实现人机协作的方式,可以更高效、准确地构建领域内的知识图谱;

    (2)大模型的小知识学习技术:允许大模型专门针对某一领域或主题进行微学习,从而生成更加准确的领域相关内容;

    4.2基于大语言模型的仿真强化试题推荐技术

    (1)基于大语言模型的学生学习行为仿真技术:通过大模型分析学生的学习行为,模拟其学习路径和趋势,从而预测学生在进行某个学习和做题后的知识水平情况;

    (2)基于大语言模型的强化试题推荐技术:结合强化学习和大语言模型仿真,系统可以根据学生的学习历程和反馈,动态推荐适合其学习水平和需求的试题,帮助学生更加高效地学习和巩固知识;

    5.教育领域大模型相关的应用

    (1)数字人AI录播课

    (2) AI智慧编译器

    听众收益:听众将从本次演讲中获得对大语言模型在教音领域的深入了解,探索其如何解决智慧教育的技术挑战,以及实际应用中的具体案例,为教育者和技术从业者提供有价值的启示和激发创新思维的灵感。

  • 360 人工智能研究院算法专家、知识图谱方向负责人、360智脑项目组核心成员刘焕勇
    刘焕勇
    360 人工智能研究院算法专家、知识图谱方向负责人、360智脑项目组核心成员

    个人介绍:360人工智能研究院算法专家、知识图谱方向负责人、360智脑项目组核心成员,“老刘说NLP”公众号作者,曾就职于中国科学院软件研究所。主要研究方向为大模型数据挖掘与自动化评估、领域知识/事件图谱的构建与落地应用,主持或参与研制全行业事理图谱、百科图谱、知识图谱平台、事件情报分析、右侧推荐、大模型研发等落地项目,申请发明专利十余项、论文数篇。近年来在OGB-Wikikg2、CCKS多模态实体对齐、可解释类案匹配等评测中获得多项冠亚军。致力于自然语言处理技术开源共享,在github开源项目60+,收获star数超2W+。

    演讲题目:大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索

    演讲提纲:幻觉问题是制约大模型在某容错性较低场景的拦路虎。而幻觉问题本身来源于多个方面,包括数据、训练方式以及解码策略等。本报告将围绕大模型幻觉的起因、如何评估、在真实落地场景下如何结合外部知识图谱进行缓解等几个方面进行介绍。

    听众收益:

    1. 什么是大模型幻觉,幻觉是好是坏?

    2. 为什么会出现幻觉,又如何评价幻觉?

    3. 幻觉在落地场景中如何用知识图谱加以缓解?外挂 or 受控生成 or 其他?

  • 重庆医科大学附属第一医院 内分泌科 副研究员,主治医师胡金波
    胡金波
    重庆医科大学附属第一医院 内分泌科 副研究员,主治医师

    个人介绍:胡金波,医学博士,主治医师、副研究员、博士生导师,获得重庆市杰出青年基金、重庆市高校巴渝学者。擅长内分泌性高血压、糖尿病、甲亢等内分泌疾病的诊治,主要研究领域为肾上腺疾病。曾留学美国哈佛大学。担任美国内分泌协会(ENDO)会员、重庆医师协会内分泌代谢科医师分会委员。主持国家级课题2项、省部级课题4项,获得省部级科研奖励2项。执笔撰写《中国肾上腺意外瘤多学科管理专家共识》,参编第2版人民卫生出版社《“5+3”医学整合课程教材》。在《Ann Intern Med》、《J Am Coll Cardiol》、《Metabolism》等杂志发表论文35篇(中科院1区论文12篇)。

    演讲题目:因果推断与医学研究

    演讲提纲:随机实验和因果分析在医药领域有悠久的历史,并得到广泛的认可。本次分享将结合一个高血压诊疗的应用案例,从以下两方面介绍:

    1)医药临床实验里的实验设计

    2)医药学界对因果推断和实验设计的要求、解读和共识

    听众收益:

    1、如何从诊疗场景出发挑选合适的设计和推断方法

    2、了解因果推断和实验设计在垂直领域的应用

    3、医药学作为比互联网更早、更严谨使用随机实验和因果推断的垂直领域,给互联网公司带来的思考和启发

  • 货拉拉 增长数据科学负责人王世伟
    王世伟
    货拉拉 增长数据科学负责人

    个人介绍:2014年天津大学硕士毕业后加入腾讯,7年腾讯手游风控经验,先后主导过QQ飞车(休闲类)、英雄联盟(moba类)和和平精英(fps类)等20款+手游的安全对抗工作;2021年加入货拉拉,负责增长数据科学的日常管理,主要负责货运AB实验,GPT大模型、画像标签等技术能力建设的工作。

    演讲题目:货运双边市场实验的挑战和实践

    演讲提纲:

    1. 初识货运双边市场

    2. 货运场景实验问题

    3. 货运实验技术方案

    4. 货运场景实验案例

    听众收益:

    1. 同城货运如何交易的

    2. 如何缓解运力竞争带来的实验干扰

    3. 降本增效下如何衡量补贴策略效果

  • 知乎 实验平台技术负责人杨昆
    杨昆
    知乎 实验平台技术负责人

    个人介绍:知乎实验平台技术负责人,多年微服务,云平台和大数据相关经验,亲历负责了知乎多代实验平台的产品迭代过程。

    演讲题目:知乎实验平台工程实践

    演讲提纲:介绍知乎实验平台的架构体系演进,如何从 0 到 1 搭建实验平台,从不科学到科学置信的发展过程。

    1. 知乎实验平台的发展历程

    2. 踩过的坑和经验沉淀

    3. 科学实验平台的架构设计

    4. 未来展望

    听众收益:

    1. 实验平台分流模型的架构和设计

    2. 实验分析链路的构建

    3. 在实验的过程中哪些坑可以避免少走一些弯路

  • 腾讯 微信实验平台 数据科学家韩士超
    韩士超
    腾讯 微信实验平台 数据科学家

    个人介绍:本硕毕业于加州大学伯克利分校统计系和计算机系,现在腾讯微信实验平台负责实验设计和因果推断研究,专注于双边市场的问题和其他各类方法的应用与落地。

    演讲题目:如何保证实验外部有效性(External Validity)

    演讲提纲:随着AB实验日益增加的重要性,我们越来越关注策略在小流量实验期间观测到的因果统计量能否在推全后保持一致。本次演讲将会从如下方面介绍微信实验平台在外部一致性问题上的探索和应用:

    1. 问题背景-可能会造成实验期间观测到的效果和推全后不一致的原因

    2. 实验设计侧的解决方法

    3. 实验分析侧的解决方法

    听众收益:

    1. 了解导致实验期间观测到的效果和推全后不一致的方法框架

    2. 了解双边市场实验设计和有溢出和抢夺效应时的实验设计及分析方法

    3 . 了解其他消除内外部不一致的方法及应用场景

  • 香港科技大学 助理教授詹若涵
    詹若涵
    香港科技大学 助理教授

    个人介绍:詹若涵是香港科技大学工业工程与决策分析系助理教授。她的研究开发了使用因果推理、统计和机器学习等工具来创新数据驱动决策的方法,尤其对平台运营和经济学问题感兴趣。此前,她获得了北京大学数学学士学位、斯坦福大学统计学硕士学位和计算与应用数学博士学位。

    演讲题目:A/B测试中的实时监测策略与加速方法

    演讲提纲:

    1. 在A/B实验中进行实时监控时,为什么传统的固定样本量测试方法不能有效控制第一类错误(Type-I error)?

    2. 我们推出了一种新的置信区间构建方法,适合于有重复观测的用户。此方法可以有效地在实时监控中控制第一类错误(Type-I error)。

    3. 如何确保实时监控实验的效能(power)?

    4. 如何基于实时观测来加速实验进程?

    听众收益:

    1. 如何在实时监测A/B实验中有效控制第一类错误?

    2. 如何提高A/B实验的统计效能?

    3. 如何利用实时监测来加速A/B实验进程?

  • OPPO 研究院 高级算法工程师陈宸
    陈宸
    OPPO 研究院 高级算法工程师

    个人介绍:陈宸,本科毕业于上海交通大学,博士毕业于香港科技大学。主要研究方向包括视频编解码、图像处理、持续学习/鲁邦学习等机器学习基础问题、计算机视觉在细粒度识别上的应用、多模态预训练在AIGC方向的应用等。曾任腾讯高级研究员,负责腾讯全媒体内容安全识别体系的搭建。现任OPPO研究院高级算法工程师,负责多模态预训练在跨模态检索、理解和生成的端云场景应用研究。在大模型预训练、端侧轻量化以及下游应用都有长期业务实践经验。

    演讲题目:多模态预训练模型在OPPO端云场景的落地实践

    演讲提纲:主要围绕图文多模态预训练模型在检索、理解、生成等各个方向的云端两侧的技术优化和落地场景介绍。如何在低资源的情况下用最少的算力优化多模态大模型已经成功落地到移动终端。

    1. 图文检索云端两侧优化思路

    2. 文图生成大模型继续预训练优化思路

    3. 文图生成下游垂域优化思路(个性化生成、垂域微调、文字渲染等)

    4. 文图生成大模型端侧轻量化落地介绍

    听众收益:

    1. 了解大模型在低资源下持续优化的算法实践经验;

    2. 了解大模型在移动终端的轻量化落地优化链路;

    3. 了解图文预训练模型在理解和生成方向的业务落地场景和实践经验。

  • vivo 人工智能部门算法总监付凡
    付凡
    vivo 人工智能部门算法总监

    个人介绍:毕业于中国地质大学(武汉)信息技术相关专业,超10年算法经验。2017年加入vivo,从事NLP算法相关工作,期间参与Jovi语音助手、电话秘书、手语翻译官等算法研发,从0到1搭建千万日活产品。目前在vivo从事大模型算法开发及产品落地相关工作。

    演讲题目:大模型从训练到产品落地分享

    演讲提纲:

    1. 大模型演进 & 技术架构;

    2. vivo 在大模型训练分享;

    3. vivo 在大模型产品落地技术;

    4. vivo 大模型成果展示;

    听众收益:

    1. 预训练数据如果构建及预处理方案?

    2. SFT 如何提高模型效果?

    3. 大模型如何适配到产品应用?

  • bilibili 数据产品经理熊瑾
    熊瑾
    bilibili 数据产品经理

    个人介绍:曾负责网易数帆的数据开发平台、阿里数据中台的用增/私域/集团标签等数据项目。目前在bilibili负责数据产品。

    演讲题目:电商与内容型业务用增数据的基建异同

    演讲提纲:在不同的业务类型、组织形态、发展阶段等要素下,用增数据如何建设好。

    听众收益:用增数据建设在诸多不同要素下的数据实践差异:

    1. 业务类型:电商业务v.s.内容社区业务

    2. 组织形态:自上而下型v.s.自下而上型

    3. 发展阶段:成熟期v.s.生长期

  • 腾讯 PCG 数据上报系统负责人韩钰
    韩钰
    腾讯 PCG 数据上报系统负责人

    个人介绍:硕士毕业于中国科学院计算机网络信息中心,曾先后就职于百度、滴滴、腾讯等公司,目前在腾讯数据中台负责数据上报系统,深耕数据上报质量和效率,实现PCG的全业务覆盖。

    演讲题目:数据采集治理

    演讲提纲:

    1、引子

    1)数据采集的深广准决定了指标应用的能力上限,指标治理需要从采集源头开始

    2)数据采集其实就做一件事:将真实的客观世界数字化并记录下来

    3)做好数据采集的终极目标是 质量 和 效率

    2、质量

    1)数据质量问题60%~80%发生在采集阶段,在指标应用阶段才发现质量问题会让人气馁,排查也很低效

    2)新一代数据质量审查工具,让人们对数据质量的认知从 合规检查 提升到 合理分析

    3)质量审查能让人一眼看穿数据质量,让指标使用方可以放心大胆的使用采集数据

    4)智能判定则可让机器自动发现问题,基于灰度主流对比、主流日期环比等一系列相关性对比思路

    5)行为诊断可用来帮助诊断一些数据采集的疑难杂症,通过可视化单个用户的全部行为轨迹

    6)补充其他质量工具,总结实践经验

    3、效率

    1)效率瓶颈很多时候并不在开发上,而在对需求的梳理、沟通、反复修改、录入、验收,以及后续长久的维护上

    2)定义终端数据采集模型,在 事件 的基础上增加 页面 和 元素,标准化采集口径,约定大于灵活

    3)实现 在线文档 与 需求面板 的同步,既利用了在线文档的便捷,又能在需求面板中完成Diff对比、测试验收等操作

    4)利用采集SDK帮助提升开发效率,用一套API 引导开发者按采集模型来埋点,可选的用自动和半自动采集来减轻开发负担,搭配一套高效的测试诊断工具

    5)建立退出机制,基于ROI(血缘热度/成本)的生命周期管理

    4、展望

    1)质量 和 效率 我们在路上

    听众收益:

    1、了解新一代数据质量审查工具,让人快速看清数据质量,让机器自动发现问题

    2、了解如何才能把数据采集的效率做好

  • Alluxio 研发负责人傅正佳
    傅正佳
    Alluxio 研发负责人

    个人介绍:本科毕业于上海交通大学电子系,随后取得香港中文大学信息工程博士学位,毕业后加入新加坡高级数字科学中心(美国伊利诺伊大学在新加坡的研究所)从事科研工作,在计算机网络和分布式系统领域相关的顶级国际会议发表多篇论文。加入Alluxio前,傅正佳曾在新加坡科技公司Bigo Technology担任机器学习研发总监。

    演讲题目:简化并加速AI/ML模型训练&推理的数据访问

    演讲提纲:人工智能(AI)的应用正在迅速增长,49% 的首席信息官表示他们已经使用或计划使用人工智能。最近,生成式人工智能的蓬勃发展进一步加速了这一应用,使人工智能成为企业创造收入、提高客户满意度和组织生产力的当务之急。成功的人工智能项目需要访问数据,为应用程序快速提供数据的能力至关重要。随着人工智能用例越来越复杂,我们需要了解数据访问模式以及如何使用正确的解决方案来解决这些问题。此次分享将介绍现代AI/ML平台中的数据访问模式,将探讨机器学习管道每个阶段的数据访问特点,以及为大规模AI优化数据访问的策略。具体包括:

    1. AI/ML工作流在访问数据时的挑战

    2. 针对分析和AI的高性能数据访问层介绍

    3. 使用Alluxio进行模型训练的主要场景和价值

    4. 主要用户案例分享

    听众收益:了解全新的AI/ML训练解决方案,通过构建高校的数据平台架构快速生成分析结果。

  • 永辉超市 大数据架构师马吉辉
    马吉辉
    永辉超市 大数据架构师

    个人介绍:马吉辉,永辉超市大数据架构师,数据中台OLAP架构负责人,永辉CLICKHOUSE布道者,毕业于南京大学计算机系,2019年加入永辉云创数据智能产品研发部,从0到1构建永辉线上大数据计算体系,离线、准实时、实时数仓架构,2020年主导并参与了永辉数智化转型之路,构建永辉数据中台,数据中心"蓄水池",高效赋能业务增长。多年大数据从业经验,对数据基础架构服务、数据资产化、数据应用具有深刻的洞见。目前专注于数据治理,自助取数分析-人人都是数据分析师的体系建设落地。基于永辉"极光"平台实现业务输出。

    演讲题目:零售行业永辉超市云原生数据中台的探索与实践

    演讲提纲:

    1. 永辉数据中台的经路历程

    2. 以数据赋能零售业务的探索与实践

    3. 数据治理思维驱动数据中台稳定高效

    4. 未来展望

    听众收益:

    1. 了解零售业数据中台私有云建设的探索与实践

    2. 了解数据治理在数据中台中的思维体现

    3. 了解数据如何赋能复杂的零售业务变化

    4. 对零售业技术的未来的探索与实践

  • 虎牙直播 推荐算法工程师张启华
    张启华
    虎牙直播 推荐算法工程师

    个人介绍:目前就职于虎牙,之前先后在百度和腾讯工作,一直从事推荐算法领域,尤其对重排/混排算法有较深的理解与创新。在业界首次提出把强化学习应用于多目标融合领域的方案,随后在腾讯多个产品有效果显著的落地应用,后续也有多家公司跟进应用,该成果整理成论文发表在数据挖掘领域国际顶级学术会议KDD2022上,引起较大反响,在这一领域开创了一个全新范式,大幅提升了效果天花板。

    演讲题目:强化学习在推荐系统中的实践探索与业界进展

    演讲提纲:

    1. 推荐系统与强化学习

    a. 强化学习概述,及其应用领域

    b. 推荐系统的传统方法及当前挑战

    c. 强化学习与推荐系统的结合点:交互性与长期满意度

    (讲述结合的动机,推荐系统通过不断增加预测任务并拓展目标周期,以提升对用户的长期满意度,而强化学习的交互性及长期价值建模有助于推荐系统实现该目标)

    2. 探索强化学习在推荐系统中的应用

    a. 推荐问题的强化学习建模

    b. 面临的核心挑战

    i. 推荐系统的动态性与复杂性

    ii. 延迟奖励与复杂的环境反馈

    c. 常见的强化学习实践方案,优势及局限性

    d. 离线强化学习的实践探索

    i.OfflineRL的训练框架

    ii.不同范式的OfflineRL模型算法

    iii.离线评估方法

    (以踩坑过程为线索,介绍建模方法,在探索过程中遇到的一些问题,分布偏移、外推误差,模型训练困难,线上效果不稳定等等。介绍一种成功案例的OfflineRL的流程框架)

    3. 业界的新进展与进展

    a. 近期研究成果,论文分享或成功案例

    b. 新的算法与技术概述

    c. 未来展望,一些可以尝试的方向畅想

    听众收益:在此次演讲中,我们将尝试探索强化学习与推荐系统的结合点,并分享一些实践中的踩坑经验。听众可能会对这两者的结合有更多的了解,认识到实践中可能的挑战和考虑点。通过一些业界的研究进展,我们希望提供一些思考的方向,但这只是一个起点。期待与大家共同探讨,相互学习,一同前行。

  • 快手 大数据架构师冯赞锋
    冯赞锋
    快手 大数据架构师

    个人介绍:先后就职于百度、创新工厂-豌豆荚、快手三家公司,主要擅长大数据中台构建、数据治理,在搜索、爬虫、后端服务开发等方向也有一定积累,目前在快手主要负责数据治理架构设计和开发工作。

    演讲题目:快手数据成本白盒化治理实践

    演讲提纲:

    1.1 背景介绍

    · 数据治理介绍:快手数据治理整体介绍

    · 本次分享核心:通过引擎与数仓白盒化拆解,提升治理深度,实现降本增效

    1.2 收益评估方法

    · 压缩率

    · 存储数据量

    · 资源消耗(CPU核*天)

    · 作业运行时长

    · 作业失败率

    1.3 引擎白盒化

    · HBO

    · JVM升级

    · 压缩算法替换

    · 计算过程拆解

    1.4 数仓白盒化

    · 基于 Similar SubExpression 的公共模型构建和优化

    · 数仓自动化治理实践

    1.5 个人思考

    · 严谨:事前收益测算 -> 事中灰逐步度验证,解决异常CASE -> 事后整体效果评估

    · 深入:对引擎、工具、数仓均有深入理解

    · 行动:躬身入局,模糊各个团队的边界

    1.6 未来规划

    · 压缩效率持续提升

    · 实时计算Flink白盒化

    · 数仓架构优化

    听众收益:

    1、深入到大数据存储计算引擎和数据仓库,对其进行白盒化拆解,在治理思路、治理经验等方面有不少可借鉴之处

    2、讲述快手实践,如何成功降低千万级存储和计算成本

  • 阿里巴巴 瓴羊 数字营销产品经理董沅
    董沅
    阿里巴巴 瓴羊 数字营销产品经理

    个人介绍:主攻大数据AI方向,深耕行业应用产品多年,现负责阿里巴巴线下营销产品设计研发。

    演讲题目:线下营销的数智化应用分享

    演讲提纲:

    1、线下营销盲点分析

    2、利用数智能力实现线下营销人群的精准定位、精准触达、效果评估、资产二次运营的实践方法论分享

    3、案例分享

    听众收益:

    1、如何实现线下精准营销?

    2、如何评估户外品牌广告的效果?

    3、如何沉淀户外营销的资产?

  • 顺丰科技 大数据高级研发工程师曾昭正
    曾昭正
    顺丰科技 大数据高级研发工程师

    个人介绍:10年以上大数据底盘研发经验,2017年加入顺丰科技,负责dataPaaS相关工作,主要涉及大数据混合云弹性扩缩容、云原生实时数湖等业界创新型技术在顺丰的探索和落地。

    演讲题目:混合云原生大数据底盘

    演讲提纲:

    1、背景与趋势

    2、顺丰混合云原生数据架构升级

    3、顺丰大数据架构应用案例

    听众收益:

    1. 多云融合的大数据基础设施如何做到低成本

    2. Hadoop 与云原生架构如何做融合

    3. 跨机房离线任务如何保障计算效率

  • 蚂蚁集团 高级数据技术专家林天权
    林天权
    蚂蚁集团 高级数据技术专家

    个人介绍:林天权(花名:画龙),现任蚂蚁集团高级数据技术专家,有10多年大数据研发、架构升级和数据治理经验,14年开始加入蚂蚁,深度参与蚂蚁大数据的发展和升级演进,曾作为实时数据负责人主导蚂蚁双十一媒体实时大屏、蚂蚁全域实时采集链路和蚂蚁实时数据研发平台研发,以及PB级adhoc查询加速服务和大安全一键数据服务化平台研发与升级,现任蚂蚁安全大数据技术团队数据架构及治理负责人,推进技术创新,打造EB级AutoFinOps核心能力,升级蚂蚁新一代数据架构,用数据创造价值。

    演讲题目:蚂蚁新一代数字智能化治理平台 AutoFinOps 实践与探索

    演讲提纲:科技驱动一直是蚂蚁的核心发展理念,也是蚂蚁安身立命之本。蚂蚁过去的发展,源于能够始终抓住技术变革机遇,用技术创造价值。蚂蚁集团在面对EB级数据规模、错综复杂的业务以及数字时代新型安全风险挑战,数据治理除了传统的运动式治理、元数据驱动治理、一站式治理平台、自上而下的治理规范制度约束等解决方案外,也在不断尝试技术创新和架构升级等手段破局和提效,提供更加高效、便捷、丝滑的自动化、智能化解决方案,本次分享带你深入了解蚂蚁如何通过治理数字智能化快速实现“无感降本”,特别是智能归因、AutoFinOps、错峰计算等技术应用和实践,期待你的聆听,也期待与你一起交流。具体内容包括:

    1. 数据治理的困难与挑战

    2. 数据治理的顶层设计和架构

    3. 数据治理自动化和智能化的最佳实践

    4. 思考总结与未来展望

    听众收益:

    1. 了解蚂蚁数据治理的设计思路

    2. 深度解读蚂蚁“无感降本”技术如何高效实现

    3. 探讨数据治理领域未来趋势

  • Shopee 内容电商算法负责人肖玄基
    肖玄基
    Shopee 内容电商算法负责人

    个人介绍:毕业于中科院软件所,目前在Shopee负责电商直播为主的内容电商算法,曾在腾讯,阿里,百分点工作过。主要研发方向包括推荐,内容生态,用户增长,营销等。

    演讲题目:面向2026年的推荐算法前瞻

    演讲提纲:

    • 常规的推荐系统范式已经逐渐走入瓶颈,原因是在当前固定化的问题描述下模型和系统几乎已经发展 到极限。当前的主要范式是模型是召回+排序+重排,系统上是样本挖掘+特征工程+线上打分预估能力建设。一线大厂在上述领域已经把空间几乎挖掘殆尽。

    • 同时可以看到,我们的用户仍然对当前推荐系统满意度并没有达到理想态。推荐系统是一个非常面向 于用户满意的平台系统,而用户满意是一个永远有不同理解的问题,正如“一千个用户眼里有一千种好 的推荐系统理解”。同时,我们的推荐系统效果和平台的最终价值之间仍然存在差距。

    • 构建更好的推荐系统需要我们对重新定义“什么是好的推荐系统”。

    • 这并不是学术界的“强行挖坑”或者“继续填坑”,而是不同层面上都在呼唤新的定义。

    • 事实上,新的推荐系统已经零散的在学术界和工业界展现星星之火。

    听众收益:

    1)了解未来3年的推荐系统前沿问题,把握大局方向。

    2)参与我们的推荐算法的github开源项目: OneRec。

  • 国信证券 数据治理负责人左银康
    左银康
    国信证券 数据治理负责人

    个人介绍:本科毕业于华中科技大学,先后在大型股份制商业银行、四大央企和国信证券从事数据治理工作。在商业银行总行开展数据治理,推动全行的数据标准制定、客户数据质量检核、元数据的管理和平台工具建设,在四大央企之一开展集团主数据建设,进行集团组织、员工、物料主数据的规划、实施和推广,目前在国信证券开展数据治理工作,负责公司数据治理组织、制度、流程、工具的规划、设计和实施落地。

    演讲题目:基于需求驱动的数据治理场景化实践

    演讲提纲:在大数据时代,数据治理已经成为了企业数字化转型的必经之路。然而传统的数据治理和数据资产管理工作往往偏向中后台,如何将数据资产管理与业务、开发结合,将数据治理由管控走向服务,更好地体现数据资产的成果和价值,是目前行业数据治理共同面临的痛点和挑战。为此,本次分享从需求管理的思路出发,面向监管报送、资产管理、经营分析等实际的业务场景以及模型开发、测试和生产环境一致性保障等开发场景,剖析痛点和需求,设计方案,实现数据治理的场景化落地。

    听众收益:

    1. 数据治理缺乏业务配合,如何驱动业务和开发的积极性?

    2. 数据治理流于形式,如何嵌入日常的研发节点?

    3. 数据治理涉及领域众多,如何融合打通?

  • 平安产险 数据智能 大数据工程师许璐
    许璐
    平安产险 数据智能 大数据工程师

    个人介绍:15年加入平安,目前负责平安产险大数据基础平台研发管理优化等工作。

    演讲题目:数字化转型下的大数据平台治理

  • NVIDIA DevTech 研发经理周国峰
    周国峰
    NVIDIA DevTech 研发经理

    个人介绍:2014 年毕业于中国科学院。毕业后加入 NVIDIA 至今,任 DevTech 团队研发经理。主要负责中国区大客户技术项目合作和技术研发。

    演讲题目:TensorRT LLM 介绍

    演讲提纲:TensorRT LLM 是 NVIDIA 加速 LLM 推理的开源解决方案。TensorRT LLM 提供了 python 接口,灵活的模块化组件,丰富的预定义主流模型,极大地方便了开发者在 NVIDIA平台上部署基于 LLM 的服务;同时,NVIDIA 投入了大量工程师对 TensorRT LLM 做了极致优化,包括主流的量化算法 (smoothQuant, GPTQ, and AWQ), in-flight batching, Tensor 和 pipeline 并行等推理加速优化方法。TensorRT LLM 除了具备业界领先的推理性能,同时也在不断提高它的易用性。

    1 什么是 TensorRT LLM?

    2 TensorRT LLM 主要特点

    3 如何使用 TensorRT LLM

    4 TensorRT LLM 性能

    5 TensorRT LLM 展望

    听众收益:

    1 理解 TensorRT LLM 产品定位

    2 熟悉 TensorRT LLM 主要功能和使用方法

    3 了解 TensorRT LLM 主要优化手段

  • BentoML 高级软件工程师明希
    明希
    BentoML 高级软件工程师

    个人介绍:BentoML 全栈工程师,Python 玩家,开源爱好者。负责 BentoML 项目的开发。著名 Python 包管理器 PDM 作者。

    演讲题目:使用 OpenLLM 构建和部署大模型应用

    演讲提纲:

    一、大模型应用部署的挑战

    二、使用OpenLLM 快速启动一个大模型的应用

    a. 通过 OpenLLM 调用大语言模型

    b. 通过OpenLLM启动一个HTTP server

    c. 使用命令行进行模型推理

    d. 使用Python Client与应用交互

    e. OpenLLM 与 langchain的集成

    f. 模型推理性能的优化

    三、使用 BentoML 工具构建并部署大模型应用

    a. BentoML 简介

    b. 构建一个bento

    c. 将Bento部署到bentocloud

    听众收益:

    1. 如何使用常见的LLM快速启动一个应用

    2. LLM应用性能优化的方法

    3. BentoML 框架的安装与使用方法

  • 淘天集团 高级算法专家俞一鹏
    俞一鹏
    淘天集团 高级算法专家

    个人介绍:俞一鹏,浙江大学计算机专业博士毕业,博士期间在新加坡国立大学进行联合培养。曾在IBM中国研究院担任研究科学家,在腾讯担任高级研究员。工作期间主要研究方向为自然语言处理和多模态,涉及内容创作、内容理解和内容推荐,也负责过“游戏内的自然语言交互”的AI项目。在IJCAI、ACM MM和Ubicomp等国际A类顶会上发表过多篇一作论文,有十几项已授权的中国和美国专利。

    演讲题目:生成式AI在淘宝内容的研究与应用

    演讲提纲:演讲主要介绍AIGC技术在淘宝内容化业务中的算法研发和业务应用。具体包括:

    1.UGC互动创新玩法

    2.视频剪辑&生成技术

    3.多模态大语言模型的落地挑战

    听众收益:

    1.AIGC技术在UGC互动的创新玩法尝试

    2.视频剪辑&生成技术如何赋能商家和用户

    3.多模态大语言模型的快速迭代和效果评估

  • 京东 大数据产品总监焦文健
    焦文健
    京东 大数据产品总监

    个人介绍:京东大数据产品总监,中国人民大学MBA,十年以上大数据从业经验,具有数据中台化、数据业务化、数据智能化的落地实践经验。

    演讲题目:京东物流一站式敏捷BI产品规划与落地实践

    演讲提纲:

    - 京东物流业务数据应用现状及挑战。

    - 一站式敏捷BI产品的规划与迭代升级路径。

    - 业务应用实践案例。

    听众收益:

    - 理解敏捷BI产品规划和设计要点

    - 学习如何提升BI类数据产品的性能和用户体验

    - 学习BI产品助力业务自助式实现数据分析的实践路径

  • 阿里巴巴 通义实验室 高级算法专家严明
    严明
    阿里巴巴 通义实验室 高级算法专家

    个人介绍:严明,中科院自动化所博士,阿里巴巴通义实验室NLP高级算法专家。主要研究方向为对话问答、预训练语言模型与多模态内容理解,目前为团队多模态大模型基础技术负责人。曾在SQuAD/GLUE/MSMARCO/VQA等10多个国际赛事中取得第一,并4次取得超越人类基准的结果,发表ICML/ACL/EMNLP/ICLR/CVPR/AAAI等40多篇国际顶级会议论文,目前负责通义星尘个性化大模型基础技术与X-PLUG开源体系构建。

    演讲题目:通义星尘个性化大模型相关技术与应用

    演讲提纲:

    1. 大模型技术发展背景

    2. 通义星尘个性化大模型技术体系:个性化、多模态、Agent智能体等

    3. 通义星尘个性化大模型应用案例

    听众收益:

    1. 个性化大模型与通用大模型的区别

    2. 通义星尘个性化大模型和通义mPLUG多模态大模型技术体系

    3. 通义星尘个性化大模型真实项目应用案例

  • 哔哩哔哩 基础架构部 资深开发工程师蒋晓峰
    蒋晓峰
    哔哩哔哩 基础架构部 资深开发工程师

    个人介绍:哔哩哔哩资深开发工程师,Apache Paimon PPMC,Apache Kyuubi & RocketMQ Committer,主要负责哔哩哔哩 Remote Shuffle Service。

    演讲题目:Apache Paimon:实时数据湖 Streaming Lakehouse 的存储特性解读

    演讲提纲:

    1. 实时数据湖痛点剖析

    2. Apache Paimon 架构概览

    3. Apache Paimon 特性解读

    4. Apache Paimon 入湖实践

    5. Apache Paimon 规划展望

    听众收益:了解实时数据湖 Streaming Lakehouse 的存储底座概况,熟悉 Apache Paimon 实时数据湖的架构原理和实践案例。

  • 华为 技术专家谢凝
    谢凝
    华为 技术专家

    个人介绍:华为翻译中心技术专家,华为机器翻译产品和数据负责人,中国翻译协会翻译技术委员会副主任委员。于2006年加入华为,有丰富的机器翻译产品开发和数据构建经验。

    演讲题目:机器翻译数据增强实践

    演讲提纲:介绍华为翻译中心在机器翻译任务上的数据处理、数据增强实践。

    听众收益:

    1. 如何提升机器翻译训练数据的质量。

    2. 哪些是更有效的机器翻译数据增强策略。

  • 华为 NLP算法研究工程师吴章淋
    吴章淋
    华为 NLP算法研究工程师

    个人介绍:南京邮电大学硕士研究生毕业,目前就职于华为,从事nlp算法研究工作,研究方向主要包括大模型、机器翻译、语音翻译和知识图谱等领域,相关研究成果发表于ACL,EMNLP和IJCKG等会议,发表论文共计10余篇,也参加过近两年的WMT、CCMT、IWSLT、NLPCC、CCKS比赛,并拿下了多个赛道的第一。

    演讲题目:盘古大模型微调实践

    演讲提纲:

    1. 什么是大模型

    2. 大模型发展历程

    3. 大模型微调目的

    4. 大模型微调技术

    5. 大模型微调加速方法

    6. 大模型微调效果提升手段

    听众收益:

    1. 如何进行大模型微调?

    2. 如何加速大模型微调?

    3. 如何提升大模型微调效果?

  • 蔚来汽车 GPT应用技术负责人黄帅
    黄帅
    蔚来汽车 GPT应用技术负责人

    个人介绍:中科大硕士,曾服务于百度腾讯等互联网大厂,在大数据人工智能领域有十多年经验。

  • 腾讯 高级研究员姚亮
    姚亮
    腾讯 高级研究员

    个人介绍:姚亮,现任腾讯高级研究员,博士毕业于浙江大学,曾在美国西北大学任博士后研究员。以第一作者在AAAI、SIGIR、TKDE等顶级会议及期刊发表论文多篇,谷歌学术H指数21,入选全球前2%顶尖科学家、AI 2000人工智能全球最具影响力学者。现在腾讯游戏从事图学习、大语言模型相关的研究和落地。

    演讲题目:腾讯游戏的图学习研究与落地

    演讲提纲:

    1. 大规模图学习算法 PB-GNN

    2. 链路预测算法的研究与应用落地

    3. 大语言模型在知识图谱补全的应用

    听众收益:熟悉大规模图学习算法,链路预测算法,图预训练算法、大语言模型和知识图谱的结合。

  • Akulaku 资深算法开发工程师黄泓
    黄泓
    Akulaku 资深算法开发工程师

    个人介绍:毕业于代尔夫特理工大学,专注于图计算与知识图谱在Akulaku各种智能应用的落地。


  • ClickHouse CTOAlexry Milovdov
    Alexry Milovdov
    ClickHouse CTO

    个人介绍 :Alexey 毕业于莫斯科国立大学,拥有数学学位。他的兴趣领域包括数据处理算法和技术,他热爱数据和高性能。拥有13年的设计、开发和操作数据密集型应用程序的经验。他于2009年开始着手ClickHouse初始模型的策划和开发,并于2016年将其释放为开源项目。在ClickHouse之前,他开发了全球第二大网络分析系统的数据处理引擎。

    演讲题目:ClickHouse 2024 新功能与研发方向思考

    演讲提纲:ClickHouse是业内公认最快的OLAP数据引擎,同时clickHouse也在面对来自包括中国区在内的全球的优秀产品的竞争,这也激励了我们更加努力地发展社区,完善我们的产品。我们非常愿意分享我们产品的新功能新特性以及未来的roadmap,我们也希望听到来自中国社区和用户的期望。

  • ClickHouse 技术支持工程师谢志豪
    谢志豪
    ClickHouse 技术支持工程师

    个人介绍 :Derek 谢志豪是 ClickHouse 的技术支持工程师。主要工作范围包括帮助大型客户解决重大技术问题,优化 Clickhouse 集群,提升使用体验。Derek 毕业于新加坡国立大学 (NUS) 获得信息系统学位,在 ClickHouse 工作之前一直从事数据平台的优化和管理工作。

    演讲题目:ClickHouse 2024 新功能与研发方向思考

    演讲提纲:ClickHouse是业内公认最快的OLAP数据引擎,同时clickHouse也在面对来自包括中国区在内的全球的优秀产品的竞争,这也激励了我们更加努力地发展社区,完善我们的产品。我们非常愿意分享我们产品的新功能新特性以及未来的roadmap,我们也希望听到来自中国社区和用户的期望。

  • 火山引擎 ByteHouse 技术专家任强
    任强
    火山引擎 ByteHouse 技术专家

    个人介绍:任强,2020年7月加入火山引擎 ByteHouse 团队,一直从事实时导入相关研发工作,目前负责实时导入模块。

    演讲题目:火山引擎 ByteHouse 的云原生探索与实践

    演讲提纲:近年来,随着云基础设施的成熟和数仓技术的发展,云原生数仓凭借按量付费、按需弹性的特点越来越受到客户的青睐。字节跳动在云数仓领域有十多年技术经验积累,并基于开源 ClickHouse 推出的云原生数据仓库 ByteHouse。本次分享将从云数仓历史和前沿出发,介绍 ByteHouse 云数仓的整体架构和亮点,以及存算分离的关键设计与实践。主要包括以下内容:

    1. 数仓架构演进历史

    2. 云数仓演进中的技术难点和问题

    3. ByteHouse 云数仓架构设计以及存算分离的关键技术

    4. ByteHouse 存算分离的实践与优化

    听众收益:

    1. 了解云原生数仓的发展与核心价值

    2. ByteHouse 云数仓的架构设计与技术亮点

    3. 云原生数仓的挑战和展望

  • 腾讯音乐 推荐算法工程师孙嘉琨
    孙嘉琨
    腾讯音乐 推荐算法工程师

    个人介绍:硕士毕业于荷兰莱顿大学计算机专业,毕业后加入腾讯音乐至今,负责QQ音乐、IOT等多端多业务推荐算法优化。

    演讲题目:QQ音乐推荐排序算法实践

    演讲提纲:

    1. QQ音乐推荐整体架构

    2. 精排算法设计

    3. 跨域推荐相关算法详解及探索

    4. 总结与展望

    听众收益:了解QQ音乐推荐概况,熟悉多目标及多场景推荐的相关算法及应用实践。

  • 滴普科技 Senior Research Fellow陈峰
    陈峰
    滴普科技 Senior Research Fellow

    个人介绍:滴普科技高级研究员,《ClickHouse性能之巅》作者。数据智能领域资深架构师,曾主导OPPO智能缺陷识别、威视智能瞳孔检测、百丽丽影等多个数据智能项目技术架构的设计工作,有丰富的大模型落地经验。目前着眼于大模型在不同领域上的工程化落地。

    演讲题目:领域模型生产指南

    演讲提纲:

    1. 领域模型的难点

    a. 领域模型和通用大模型的异同点

    b. 领域模型的三大难点及其详细说明

    2. 领域模型的训练方法论

    a. 针对上诉难点的各种方法论

    听众收益:

    1. 了解领域模型与通用模型的不同

    2. 了解领域模型存在的几大难点

    3. 如何应对这三大难点的多种可行方法论

  • 滴普科技 语言模型研究员黄月红
    黄月红
    滴普科技 语言模型研究员

    个人介绍:滴普科技语言模型研究员,“CHAOS万有引力”公众号作者,发表过多篇国际会议和sci论文,五年深度模型开发经验。主要研究方向为大语言模型,机器视觉,有丰富的模型开发优化经验,同时在因果推断,推荐系统,知识图谱等领域也有一定兴趣和开发经验。

    演讲题目:大语言模型优化:Fine-Tuning 技术与方法实践

    演讲提纲:

    1. Fine-Tuning 大语言模型的必要性分析

    a. 什么样的情况下需要 fine-tuning 大语言模型

    b. fine-tuning 大语言模型需要准备些什么

    2. fine-tuning 算法介绍

    a. 一般过程及原理

    b. 模型量化

    c. qlora

    d. Neftune

    e. …

    3. 测试自己的大语言模型

    a. 各种测试平台,工具,方法,标准介绍

    b. 定义自己的测试指标和方式

    听众收益:

    1. 了解如何 fine-tuning 大语言模型

    2. 了解 fine-tuning 的方法和策略

    3. 了解 fine-tuning 大语言模型评估方法

  • 数造科技 高级大数据技术专家杨明皓
    杨明皓
    数造科技 高级大数据技术专家

    个人介绍:英国谢菲尔德大学计算机硕士,海南数造科技高级技术专家。10年+金融行业实践经验,10年+大数据、知识图谱与自然语言研发经验。

    演讲题目:DataOps 加大模型促进数据工程创新

    演讲提纲:在数字化时代,数据管理和分析至关重要,而传统数据管理和分析存在诸多的挑战,在此背景下通过分析 DataOps 大模型的特点,提出 DataOps 的基础上结合大模型能力,实现数据工程的敏捷和智能化,促进数据分析的快速交付和数据民主。本次分享的主要内容包括:

    1. 传统数据管理面临的挑战

    2. DataOps 与大模型结合激活数据工程潜力

    3. 数造科技 DataOps 与大模型的产品落地实践

    4. 未来展望

    听众收益:

    1. DataOps 的工作流程

    2. 大模型 Text2SQL 的能力

    3. DataOps + 大模型如何进一步提效数据工程

  • 新浪微博 资深算法工程师于翔
    于翔
    新浪微博 资深算法工程师

    个人介绍:于翔,新浪微博机器学习平台深度学习框架负责人,目前主要负责机器学习平台的大规模稀疏模型训练推理服务、图深度学习系统等。

    演讲题目:大规模图深度学习训练在新浪微博的工程落地实践

    演讲提纲:本次主要跟大家分享在大规模图学习落地过程中,遇到的一些问题与解决方法,其中包大规模图训练的挑战,开源训练框架选择与落地优化,介绍下图学习场景的业务实践。

    听众收益:了解大规模GNN遇到的训练挑战与解决方案。

  • OPPO 数据智能中心 大数据架构师付庆午
    付庆午
    OPPO 数据智能中心 大数据架构师

    个人介绍:目前在OPPO数据架构组负责架构演进研发,Spark 开源RSS项目Shuttle发起人,曾供职去哪儿网大数据,阿里云MC团队。

    演讲题目:OPPO下一代大数据AI一体架构实践

    演讲提纲:

    技术架构:

    1、云原生的计算架构:

    云上极致弹性计算架构助力大幅降本

    2、大数据AI一体化数据湖架构:

    秒级实时、元数据管理、自动索引构建、非结构化数据管理

    应用落地:

    1、多数据源一键实时入湖,多维度数据秒级查询可见,代替部分实时场景对kafka依赖,流批一体,实现大幅降本增效

    2、基于数据湖的实时特征平台建设,基于实时湖仓+Flink,实现流批一体特征工程数据开发,PB级特征近实时更新

    3、大模型非结构化文本训练数据入湖,加速大语言模型训练

    4、数据湖在混合云场景应用

    听众收益:了解新一代大数据AI一体架构如何在公有云上降本增效,大数据和AI如何在数据层一体化,不仅了解数据湖本身的技术架构,同时将了解在实时湖仓、搜推算法、大模型训练、混合云上不同场景的应用落地经验。

  • 平安集团 科技会数据管理 高级经理张森森
    张森森
    平安集团 科技会数据管理 高级经理

    个人介绍:电子科技大学硕士毕业,曾服务于中通服,TeraData 等知名公司。现就职于平安集团科技会安保中心数据管理部门,任技术平台组负责人(高级经理),曾负责引领集团数据中台的规划、建设,现负责集团数据技术管理运营工作以及集团数据管理平台的建设。

    演讲题目:模型赋能下的数据安全合规管理

    演讲提纲:

    1. 数据合规管理的架构

    2. 合规知识库的构建

    3. 借助大模型进行智能合规监测

    4. 实现全生命周期的数据合规监测 - DCMM评估模型,评判数据能力成熟度 - PIA评估个人信息收集利用合规性

    5. 构建数据合规化指标体系,实时监测风险

    听众收益:

    1. 学习使用大模型构建智能化数据合规知识库

    2. 了解如何利用大模型进行数据合规能力评估

    3. 获取利用大模型提升数据合规水平的行业经验

  • 腾讯 公共数据平台部 内容智能应用组/AI组副组长冯可
    冯可
    腾讯 公共数据平台部 内容智能应用组/AI组副组长

    个人介绍:上海交通大学、佐治亚理工学院双硕士。毕业后就职于腾讯,先后参与和负责QQ旋风、QQ公众号、腾讯看点、QQ浏览器、游戏内容中台相关数据和AI建设工作。

    演讲题目:AIGC在游戏内容创作领域的应用

    演讲提纲:

    1.行业背景

    游戏内容业务背景

    研究现状与挑战

    游戏智能创作效果

    2.文本生成与游戏内容创作

    文本生成相关技术

    在实际场景的应用效果

    3.图片生成与游戏内容创作

    图片生成相关技术

    在实际场景的应用效果

    4.视频生成与游戏内容创作

    视频生成相关技术

    在实际场景的应用效果

    5.未来的机遇与挑战

    听众收益:

    1、了解游戏内容业务背景,以便更好地把握市场趋势和发展方向

    2、了解游戏智能创作的研究现状与挑战

    3、掌握文本生成、图片生成和视频生成等相关技术在游戏内容创作中的应用,为实际业务提供参考

  • 炎凰数据 研发工程师吴立
    吴立
    炎凰数据 研发工程师

    个人介绍:硕士,毕业于上海交通大学,在上海炎凰数据主要负责时序数据库的开发。之前在Splunk工作,主要参与数据采集相关的开发工作。

    演讲题目:使用JIT技术实现高效的数据库表达式求值

    演讲提纲:

    1. 介绍数据库表达式求值的一般方法

    · 什么是表达式求值问题

    · 常见方法如向量化/JIT/树遍历等

    · 不同的数据库的解法

    2. JIT即时编译技术

    · 什么是JIT即时编译技术

    · JIT技术的优缺点

    3. 使用Gandiva表达式编译器

    · 介绍Apache Arrow

    · 介绍Gandiva表达式编译器, LLVM及其工作

    听众收益:

    1. 如何对数据库表达式求值

    2. JIT即时编译技术的基本概念以及为什么需要JIT

    3. 如何使用Apache Arrow/Gandiva的JIT即时编译技术加速计算

  • 阿里云 人工智能平台PAI深度学习框架负责人张杰
    张杰
    阿里云 人工智能平台PAI深度学习框架负责人

    个人介绍:张杰,长期从事大数据、云计算、深度学习相关方向,擅长云计算、深度学习平台、超大规模模型训练、自动模型并行策略等领域。负责PAI平台的深度学习框架ChatLearn、TorchAcc和EPL等。

    演讲题目:PAI-ChatLearn:灵活易用、大规模 RLHF 高效训练框架

    演讲提纲:PAI-ChatLearn 是阿里云机器学习平台 PAI 团队自主研发,灵活易用、大规模模型 RLHF 高效训练框架。支持大模型进行 SFT(有监督指令微调)、RM(奖励模型)、RLHF(基于人类反馈的强化学习)完整训练流程。PAI-ChatLearn 支持大规模(175B + 175B)模型的 RLHF 高效训练。本次演讲对 PAI-ChatLearn 的架构、性能、以及如何进行高效 RLHF 训练等进行简要的介绍。

  • 阿里云 MaxCompute SQL 引擎技术专家,Apache Calcite PMC雷春蔚
    雷春蔚
    阿里云 MaxCompute SQL 引擎技术专家,Apache Calcite PMC

    个人介绍:雷春蔚,Apache Calcite PMC,具有多年大数据从业经验,主攻 SQL 引擎性能优化,先后负责了阿里云 MaxCompute 物化视图、dynamic filter、索引等核心功能的设计和开发。

    演讲题目:物化视图在 MaxCompute 中的探索与实践

    演讲提纲:物化视图是将查询预先计算并存储的一张特殊的物理表,当执行相关查询时,可以复用预计算结果,提高查询性能,是降本增效的妙招;本次演讲将从物化视图创建、物化视图维护、物化视图应用和物化视图推荐及自动物化视图4个方面介绍物化视图在 MaxCompute 中的探索和实践。

  • 阿里云高级产品专家、阿里云DataWorks产品负责人田奇铣
    田奇铣
    阿里云高级产品专家、阿里云DataWorks产品负责人

    个人介绍:阿里云DataWorks产品负责人,打造全链路数据开发治理平台支撑阿里巴巴集团与阿里云上众多客户的数字化转型。


    演讲题目:阿里云DataWorks:新一代“Data+AI”数据开发与数据治理平台的产品演进

  • vivo 互联网 大数据专家罗明波
    罗明波
    vivo 互联网 大数据专家

    个人介绍:曾先后就职于TCL、vivo等公司,拥有9年互联网领域和大数据领域实践经验,长期从事互联网高并发、高性能、海量数据接入、海量消息处理等领域的相关工作。对于互联网、物联网、大数据领域服务稳定性、架构升级、增效将本等场景有较为丰富的方案设计及落地经验。目前就职于vivo公司担任vivo互联网大数据专家,负责超大数据规模下分布式消息中间件的架构升级、可用性保障、增效降本及分布式消息中间件容器化等方面工作。

    演讲题目:vivo 超大数据规模下分布式消息中间件架构演进实践

    演讲提纲:

    1. 十万亿级消息中间件架构演进实践

    2. 超大数据规模下Pulsar核心架构优势

    3. 超大数据规模下消息中间件高可用保障体系及可观测

    4. 未来规划

    听众收益:

    1. 了解vivo 日均十万亿级的消息规模下分布式消息中间件平台在高可用性、增效降本等场景下的技术方案思考和相关难点问题的解决思路,以及下一代云原生分布式消息中间件Pulsar在超大数据规模下的架构优势

    2. 了解vivo 超大数据规模下消息中间件高可用保障体系及可观测实践

    3. 了解vivo 超大数据规模下消息中间件未来规划

  • OPPO 互联网广告召回算法负责人余文毅
    余文毅
    OPPO 互联网广告召回算法负责人

    个人介绍:余文毅,2020年加入 OPPO,现任互联网广告召回算法负责人。先后就职于腾讯、OPPO,长期深耕广告推荐算法领域。目前主要负责召回算法优化,也在重排算法、行业优化算法等领域有一定实践。

    演讲题目:OPPO 广告召回算法实践与探索

    演讲提纲:主要介绍 OPPO 互联网广告业务下,“面向最终目标的广告召回算法”的实践与探索经验,包括:

    1. 召回模型架构选型的分析与实践

    2. 召回离线评估标准的建设与迭代

    3. “面向最终目标的广告召回算法”的业务优化实践与模型优化探索

    听众收益:希望能通过我们的分享,给从业者们一些参考:

    1. “面向最终目标的广告召回算法”的利与弊

    2. 召回算法离线评估指标的探索经验

    3. 召回算法的业务优化与模型探索经验

  • vivo 互联网大数据架构师袁文兵
    袁文兵
    vivo 互联网大数据架构师

    个人介绍:计算机科学与技术硕士,曾任职于腾讯,现在 vivo 负责大数据研发工作,OLAP 项目负责人,专注于大数据系统和 OLAP 数据库的技术研发工作,具有8年大数据从业经验。

    演讲题目:ClickHouse 在 vivo 的应用实践

    演讲提纲:

    1. vivo OLAP 的发展历程与选型

    2. ClickHouse 的稳定性实践

    3. ClickHouse 查询优化实践

    4. ClickHouse 实践案例

    听众收益:

    1. 了解 ClickHouse 常见的稳定性问题及解决方案

    2. 了解 ClickHouse 的查询优化方面的实践技巧

    3. ClickHouse 如何赋能业务,带来降本增效

  • 微信 大数据研发高级工程师孙弘毅
    孙弘毅
    微信 大数据研发高级工程师

    个人介绍:硕士毕业于南京大学计算机系,具有多年大数据和分布式系统研发经验,对 Spark、Flink、Kafka、Pulsar 等大数据组件和消息中间件有深入的理解,目前在微信 WeOLAP 团队参与以 Clickhouse 为基座的海量数据亚秒级分析系统研发。

    演讲题目:WeOLAP:微信 OLAP 新场景优化实践

    演讲提纲:

    1. ClickHouse 在微信的新应用场景

    2. 如何进行查询性能观测

    3. 湖仓读取场景优化

    4. 实验场景优化

    5. 向量数据库应用 & embedding 检索优化

  • 灵犀互娱 技术专家黄海林
    黄海林
    灵犀互娱 技术专家

    个人介绍:黄海林,灵犀互动数据服务 leader,Roaringbitmap Java 版 BSI 作者。

    演讲题目:Bit-sliced-index:基于 Roaringbitmap 的人群 OLAP 分析、在线服务的 one more thing?

    演讲提纲:

    1. 灵犀互娱面向游戏用户的数据难题

    2. 元数据驱动数据架构设计

    听众收益:

    1. 人群和指标的高效联动分析

    2. 高性能人群服务如何设计

  • 灵犀互娱 高级研发工程师唐凯麟
    唐凯麟
    灵犀互娱 高级研发工程师

    个人介绍:唐凯麟,计算机科学与技术硕士,专注于大数据系统和数据平台的技术研发工作,现在主要负责阿里巴巴-灵犀互娱数据平台开发。

    演讲题目:Bit-sliced-index:基于 Roaringbitmap 的人群 OLAP 分析、在线服务的 one more thing?

    演讲提纲:此次分享将介绍现代 DMP 平台中的数据存储与计算面临的特点与挑战,以及为灵犀互娱针对海量数据的建模与存储计算优化策略。具体包括:

    1. 灵犀互娱业务数据应用现状及挑战

    2. 基于 Roaring Bitmap 与 Bit-Index Slice 的数据存储、计算原理介绍

    3. 案例分享

    听众收益:

    1. 海量数据建模、存储与计算解决方案

    2. 如何构建高效的海量数据平台架构快速进行数据分析

  • 活动日程
    2023-11-24
    2023-11-25
    2023-11-24
    09:00 -12:10
    主题演讲
    2023-11-24
    09:00-09:40

    大数据 AI 一体化解读

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    林伟
    阿里云计算平台事业部首席架构师,阿里云人工智能平台 PAI & 数据开发与治理平台 DataWorks 负责人
    2023-11-24
    09:40-10:20

    金融大模型技术创新与应用探索

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    杨青
    度小满技术委员会执行主席、数据智能应用部总经理
    2023-11-24
    10:20-11:00

    OPPO 应用分发在推荐领域提效上的实践与思考

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    赖洪科
    OPPO 互联网 应用研发平台总经理
    2023-11-24
    11:00-11:40

    走向千行百业的大模型

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    肖仰华
    复旦大学教授,上海市数据科学重点实验室主任
    2023-11-24
    11:40-12:10

    圆桌讨论:大模型时代,Data+AI的变与不变

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    肖仰华
    复旦大学教授,上海市数据科学重点实验室主任
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    陈峭霖
    腾讯游戏 首席数据科学家
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    费浩峻
    奇富科技 首席算法科学家
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    刘一鸣
    阿里云 大数据产品负责人
    2023-11-24
    14:00 -16:35
    湖仓一体架构演进论坛

    出品人:王鑫 蚂蚁集团 大数据部 实时数据负责人

    2023-11-24
    14:00-14:45

    湖仓一体加速引擎Bolt及在字节跳动火山引擎LAS的应用

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    杨嘉义
    字节跳动 LAS 查询引擎负责人
    2023-11-24
    14:45-15:30

    Apache Paimon:实时数据湖 Streaming Lakehouse 的存储特性解读

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    蒋晓峰
    哔哩哔哩 基础架构部 资深开发工程师
    2023-11-24
    15:30-15:50

    茶歇

    2023-11-24
    15:50-16:35

    基于 StarRocks 和 Paimon 打造湖仓分析新范式

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    王日宇
    阿里云 高级软件开发工程师
    2023-11-24
    14:00 -16:35
    数据指标体系建设与应用论坛

    出品人:景生军 YY直播 大数据负责人

    2023-11-24
    14:00-14:45

    数据采集治理

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    韩钰
    腾讯 PCG 数据上报系统负责人
    2023-11-24
    14:45-15:30

    YY直播业务指标治理实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    邓琴丰
    YY直播 数据产品负责人
    2023-11-24
    15:30-15:50

    茶歇

    2023-11-24
    15:50-16:35

    机器翻译数据增强实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    谢凝
    华为 技术专家
    2023-11-24
    14:00 -17:20
    大模型训练推理与微调论坛

    出品人:李永 阿里云 人工智能平台PAI引擎负责人

    2023-11-24
    14:00-14:45

    PAI-ChatLearn:灵活易用、大规模 RLHF 高效训练框架

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    张杰
    阿里云 人工智能平台PAI深度学习框架负责人
    2023-11-24
    14:45-15:30

    简化并加速AI/ML模型训练&推理的数据访问

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    傅正佳
    Alluxio 研发负责人
    2023-11-24
    15:30-15:50

    茶歇

    2023-11-24
    15:50-16:35

    盘古大模型微调实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    吴章淋
    华为 NLP算法研究工程师
    2023-11-24
    16:35-17:20

    TensorRT LLM 介绍

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    周国峰
    NVIDIA DevTech 研发经理
    2023-11-24
    14:00 -17:20
    大模型行业实践

    出品人:费浩峻 奇富科技 首席算法科学家

    2023-11-24
    14:00-14:45

    业务理解和逻辑推理是金融行业大模型运转的动力

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    杨剑
    奇富科技 高级算法总监
    2023-11-24
    14:45-15:30

    当好故事插上大模型的翅膀

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    陈炜于
    阅文集团 技术副总经理
    2023-11-24
    15:30-15:50

    茶歇

    2023-11-24
    15:50-16:35

    大模型在汽车行业的应用与实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    黄帅
    蔚来汽车 GPT应用技术负责人
    2023-11-24
    16:35-17:20

    EILaw : 面向企业法务数字化的中文LLM

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    陈祖龙
    阿里巴巴 企业智能算法负责人
    2023-11-24
    14:00 -17:20
    图机器学习前沿与应用论坛

    出品人:焦学武 百度 主任架构师

    2023-11-24
    14:00-14:45

    超⼤⾏为异构图的表征学习及应⽤

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    胡伟
    百度 资深研发工程师
    2023-11-24
    14:45-15:30

    腾讯游戏的图学习研究与落地

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    姚亮
    腾讯 高级研究员
    2023-11-24
    15:30-15:50

    茶歇

    2023-11-24
    15:50-16:35

    大规模图深度学习训练在新浪微博的工程落地实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    于翔
    新浪微博 资深算法工程师
    2023-11-24
    16:35-17:20

    图计算在 Akulaku 智能风控中的应用

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    黄泓
    Akulaku 资深算法开发工程师
    2023-11-24
    14:00 -16:35
    游戏与AIGA论坛

    出品人:陈峭霖 腾讯游戏 首席数据科学家

    2023-11-24
    14:00-14:45

    Pioneering 2D image generation for AAA games

    助力3A大作:领跑2D图像生成技术

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    Alexis Rolland
    Ubsoft China,Development Director
    2023-11-24
    14:45-15:30

    Game AI Bot 如何提升玩家在PVP类游戏中的体验?

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    关凯
    网易伏羲 资深人工智能工程师
    2023-11-24
    15:30-15:50

    茶歇

    2023-11-24
    15:50-16:35

    Game+Agent 我们的初步尝试

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    刘文强
    腾讯 IEG Global Manager
    2023-11-25
    09:00 -12:20
    极致效能OLAP论坛

    出品人:董旭 微信 专家工程师,微信数仓技术负责人

    2023-11-25
    09:00-09:40

    ClickHouse 2024新功能与研发方向思考

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    Alexry Milovdov
    ClickHouse CTO
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    谢志豪
    ClickHouse 技术支持工程师
    2023-11-25
    09:40-10:20

    使用 JIT 技术实现高效的数据库表达式求值

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    吴立
    炎凰数据 研发工程师
    2023-11-25
    10:20-11:00

    WeOLAP:微信 OLAP 新场景优化实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    孙弘毅
    微信 大数据研发高级工程师
    2023-11-25
    11:00-11:40

    Bit-sliced-index:基于 Roaringbitmap 的人群 OLAP 分析、在线服务的 one more thing

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    黄海林
    灵犀互娱 技术专家
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    唐凯麟
    灵犀互娱 高级研发工程师
    2023-11-25
    11:40-12:20

    ClickHouse 在 vivo 的应用实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    袁文兵
    vivo 互联网大数据架构师
    2023-11-25
    09:00 -12:00
    新一代数据架构

    出品人:王海华 货拉拉 大数据基础架构负责人、大数据架构师

    2023-11-25
    09:00-09:45

    货拉拉大数据下一代基础架构实践与思考

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    何洋
    货拉拉 大数据专家
    2023-11-25
    09:45-10:30

    知乎大数据跨机房实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    贾承昆
    知乎 数据平台负责人
    2023-11-25
    10:30-11:15

    OPPO下一代大数据AI一体架构实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    付庆午
    OPPO 数据智能中心 大数据架构师
    2023-11-25
    11:15-12:00

    vivo 超大数据规模下分布式消息中间件架构演进实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    罗明波
    vivo 互联网 大数据专家
    2023-11-25
    09:00 -12:00
    云原生大数据迭代论坛

    出品人:周强 OPPO 数据架构负责人

    2023-11-25
    09:00-09:45

    混合云原生大数据底盘

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    曾昭正
    顺丰科技 大数据高级研发工程师
    2023-11-25
    09:45-10:30

    零售行业永辉超市云原生数据中台的探索与实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    马吉辉
    永辉超市 大数据架构师
    2023-11-25
    10:30-11:15

    物化视图在 MaxCompute 中的探索与实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    雷春蔚
    阿里云 MaxCompute SQL 引擎技术专家,Apache Calcite PMC
    2023-11-25
    11:15-12:00

    火山引擎 ByteHouse 的云原生探索与实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    任强
    火山引擎 ByteHouse 技术专家
    2023-11-25
    09:00 -12:00
    推荐系统变革论坛

    出品人:黄帆 腾讯 专家研究员

    2023-11-25
    09:00-09:45

    面向2026年的推荐算法前瞻

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    肖玄基
    Shopee 内容电商算法负责人
    2023-11-25
    09:45-10:30

    OPPO 广告召回算法实践与探索

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    余文毅
    OPPO 互联网广告召回算法负责人
    2023-11-25
    10:30-11:15

    QQ音乐推荐排序算法实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    孙嘉琨
    腾讯音乐 推荐算法工程师
    2023-11-25
    11:15-12:00

    强化学习在推荐系统中的实践探索与业界进展

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    张启华
    虎牙直播 推荐算法工程师
    2023-11-25
    09:00 -12:00
    DEEPNOVA大模型论坛

    出品人:吴小前 滴普科技 CTO

    2023-11-25
    09:00-09:45

    领域模型生产指南

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    陈峰
    滴普科技 Senior Research Fellow
    2023-11-25
    09:45-10:30

    使用 OpenLLM 构建和部署大模型应用

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    明希
    BentoML 高级软件工程师
    2023-11-25
    10:30-11:15

    大语言模型优化:Fine-Tuning 技术与方法实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    黄月红
    滴普科技 语言模型研究员
    2023-11-25
    11:15-12:00

    大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    刘焕勇
    360 人工智能研究院算法专家、知识图谱方向负责人、360智脑项目组核心成员
    2023-11-25
    09:00 -11:15
    AIGC与智能交互

    出品人:万里进 百度 主任架构师

    2023-11-25
    09:00-09:45

    多模内容理解在百度商业广告中的探索实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    金志鹏
    百度 资深研发工程师
    2023-11-25
    09:45-10:30

    教育领域大模型的技术和应用

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    苏喻
    合肥综合性国家科学中心 人工智能研究院 副研究员
    2023-11-25
    10:30-11:15

    通义星尘个性化大模型相关技术与应用

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    严明
    阿里巴巴 通义实验室 高级算法专家
    2023-11-25
    14:00 -17:20
    数据治理发展趋势论坛

    出品人:孙伟 快手 资深数据架构师

    2023-11-25
    14:00-14:45

    蚂蚁新一代数字智能化治理平台 AutoFinOps 实践与探索

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    林天权
    蚂蚁集团 高级数据技术专家
    2023-11-25
    14:45-15:30

    DataOps 加大模型促进数据工程创新

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    杨明皓
    数造科技 高级大数据技术专家
    2023-11-25
    15:30-15:50

    茶歇

    2023-11-25
    15:50-16:35

    快手数据成本白盒化治理实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    冯赞锋
    快手 大数据架构师
    2023-11-25
    16:35-17:20

    阿里云 DataWorks 湖仓融合数据治理与大模型应用探索

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    田奇铣
    阿里云高级产品专家、阿里云DataWorks产品负责人
    2023-11-25
    14:00 -18:05
    AB实验应用与发展论坛

    出品人:王勇 微信实验平台负责人、数据科学专家

    2023-11-25
    14:00-14:45

    货运双边市场实验的挑战和实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    王世伟
    货拉拉 增长数据科学负责人
    2023-11-25
    14:45-15:30

    因果推断与医学研究

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    胡金波
    重庆医科大学附属第一医院 内分泌科 副研究员,主治医师
    2023-11-25
    15:30-15:50

    茶歇

    2023-11-25
    15:50-16:35

    如何保证实验外部有效性(External Validity)

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    韩士超
    腾讯 微信实验平台 数据科学家
    2023-11-25
    16:35-17:20

    A/B测试中的实时监测策略与加速方法

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    詹若涵
    香港科技大学 助理教授
    2023-11-25
    17:20-18:05

    知乎实验平台工程实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    杨昆
    知乎 实验平台技术负责人
    2023-11-25
    14:00 -17:20
    AIGC与业务提效论坛

    出品人:刘旭 淘天集团 内容技术负责人

    2023-11-25
    14:00-14:45

    生成式AI在淘宝内容的研究与应用

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    俞一鹏
    淘天集团 高级算法专家
    2023-11-25
    14:45-15:30

    多模态预训练模型在OPPO端云场景的落地实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    陈宸
    OPPO 研究院 高级算法工程师
    2023-11-25
    15:30-15:50

    茶歇

    2023-11-25
    15:50-16:35

    大模型从训练到产品落地分享

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    付凡
    vivo 人工智能部门算法总监
    2023-11-25
    16:35-17:20

    AIGC在游戏内容创作领域的应用

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    冯可
    腾讯 公共数据平台部 内容智能应用组/AI组副组长
    2023-11-25
    14:00 -16:35
    数智金融效能建设论坛

    出品人:尹正 中国信息通信研究院 云计算与大数据研究所 高级业务主管

    2023-11-25
    14:00-14:45

    模型赋能下的数据安全合规管理

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    张森森
    平安集团 科技会数据管理 高级经理
    2023-11-25
    14:45-15:30

    基于需求驱动的数据治理场景化实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    左银康
    国信证券 数据治理负责人
    2023-11-25
    15:30-15:50

    茶歇

    2023-11-25
    15:50-16:35

    数字化转型下的大数据平台治理

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    许璐
    平安产险 数据智能 大数据工程师
    2023-11-25
    14:00 -16:35
    数据产品设计实践论坛

    出品人:张靖 bilibili 高级技术总监

    2023-11-25
    14:00-14:45

    京东物流一站式敏捷BI产品规划与落地实践

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    焦文健
    京东 大数据产品总监
    2023-11-25
    14:45-15:30

    线下营销的数智化应用分享

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    董沅
    阿里巴巴 瓴羊 数字营销产品经理
    2023-11-25
    15:30-15:50

    茶歇

    2023-11-25
    15:50-16:35

    电商与内容型业务用增数据的基建异同

    嘉宾
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    熊瑾
    bilibili 数据产品经理

    大数据 AI 一体化解读

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    林伟
    阿里云计算平台事业部首席架构师,阿里云人工智能平台 PAI & 数据开发与治理平台 DataWorks 负责人

    个人介绍:林伟,主攻大规模分布式训练加速、编译优化、大数据计算、分布式系统等技术工程建设和性能优化。具有17年的系统架构设计及研发经验,并在国际一流ODSI、NSDI、SIGMOD会议上多次发表论文。原微软大数据平台组的核心成员,曾在微软亚洲研究院和微软美国工作10年。


    金融大模型技术创新与应用探索

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    杨青
    度小满技术委员会执行主席、数据智能应用部总经理

    个人介绍:杨青,度小满技术委员会执行主席、数据智能应用部总经理,硕士毕业于清华大学计算机系,曾就职于百度、阿里,从事 NLP、搜索、推荐、大数据架构等相关方向的研发工作。2018 年初加入度小满金融开始组建数据智能部,从0到1建设度小满金融的智能引擎的核心算法,深耕计算机视觉、自然语言处理、图模型、机器学习、因果推断等技术能力,多篇文章被EMNLP、ACL、CIKM等国际顶会收录,“智能化征信解读中台”工程荣获吴文俊人工智能科技进步奖。相关技术广泛应用于度小满营销、经营、风控、反欺诈全流程业务场景,为上千万客户提供着稳定、安全的金融服务。目前专注于AIGC在金融场景中的落地,基于度小满模型即服务“MaaS”的模式积极探索文生图、数字人与生成式大模型的应用转化。已于年初带领团队发布国内首个千亿中文金融大模型“轩辕”。

    演讲题目:金融大模型技术创新与应用探索

    演讲提纲:

    1. 大模型简介

    2. 开源轩辕大模型详解

    3. 金融大模型应用探索

    4. 总结与展望

    听众收益:详细了解国内开源金融大模型的研发过程,了解大模型在金融行业中如何应用,对自研大模型以及使用大模型都有帮助。

    OPPO 应用分发在推荐领域提效上的实践与思考

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    赖洪科
    OPPO 互联网 应用研发平台总经理

    个人介绍:OPPO互联网应用研发平台及推搜算法部总经理,有超过14年的互联网广告研发经验,主导OPPO广告播放系统、搜索引擎等多项研发建设,也同时负责厂商应用体系数据搭建等工作。目前负责OPPO软件商店、游戏中心等研发工作,同时负责推搜部门整体技术探索及应用。

    演讲题目:OPPO 应用分发在推荐领域提效上的实践与思考

    演讲提纲:本次分享将为大家带来 OPPO 作为厂商在应用分发业务及推荐、大数据、算法领域上的一些差异化技术能力和思考,包含:

    1. OPPO 应用分发业务场景介绍

    2. OPPO 应用分发数据体系概况及架构

    3. OPPO 在推荐领域提效的相关技术能力及实践应用

    4. 未来在推荐领域及大数据领域的规划与方向

    听众收益:

    1. 了解 OPPO 在应用分发业务上的具体场景及厂商应用分发的差异化特点

    2. 了解 OPPO 应用分发在推荐算法领域的技术能力、全场景数据价值及应用案例

    3. 了解 OPPO 未来在端云协同、大模型等相关领域的方向

    走向千行百业的大模型

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    肖仰华
    复旦大学教授,上海市数据科学重点实验室主任

    复旦大学教授、博导,上海市数据科学重点实验室主任。长期从事大数据、 知识图谱研究。发表 CCF-A 、B 类等论文 200 余篇。出版学术专著与教材三部。 完成五十多项政府及人工智能头部企业研发项目。荣获包括华为、阿里、美团等机构授予的科研奖项二十多项。担任 Applied Intelligence 等多个国际期刊副主编或编委。

    圆桌讨论:大模型时代,Data+AI的变与不变

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    肖仰华
    复旦大学教授,上海市数据科学重点实验室主任

    复旦大学教授、博导,上海市数据科学重点实验室主任。长期从事大数据、 知识图谱研究。发表 CCF-A 、B 类等论文 200 余篇。出版学术专著与教材三部。 完成五十多项政府及人工智能头部企业研发项目。荣获包括华为、阿里、美团等机构授予的科研奖项二十多项。担任 Applied Intelligence 等多个国际期刊副主编或编委。

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    陈峭霖
    腾讯游戏 首席数据科学家
    北京大学学士,UCLA生物统计系博士,2013年底毕业后在诺华制药任首席统计师,从事临床试验统计分析和医药大数据研究;2017年加入SparkBeyond任资深数据科学家, 为世界五百强企业提供可落地的大数据解决方案。2018年加入腾讯游戏数据挖掘团队,目前致力于游戏出海领域的机器学习、推荐系统、用户画像、知识图谱等的研究和应用,同时打造业界领先的游戏领域通用数据挖掘平台。
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    费浩峻
    奇富科技 首席算法科学家
    费浩峻,奇富科技首席算法科学家,数据智能部、大模型部总经理。全面负责 360数科 数智化工作的研究和落地。深耕智能增长技术十余年、金融科技的创新者,曾任百度金融/度小满主任架构师,腾讯专家研究员。长期投身于广告、检索和增长等应用研究领域,专注于大数据、人工智能研究方向,对技术如何驱动业务发展有着丰富的经验和独到的理解,拥有大数据、NLP、计算广告、信息处理等 专利二十余项。本科毕业于华中师范大学,硕士毕业于北京大学。2021年加入360数科,从数据安全、数据生态、大模型计算着手, 推动360数科的人工智能技术体系不断完善升级。围绕金融科技场景,带领人工智能团队打造了新一代的智能增长平和智能征信中台,带领团队推出业内首个金融垂类大模型,以大模型为基础在对话机器人、客服管理、用户经营等方向进行了全面的升级。
    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    刘一鸣
    阿里云 大数据产品负责人

    个人介绍:刘一鸣,目前负责阿里云ODPS等自研大数据产品,主攻云原生一体化数仓引擎能力的演进和商业化,在数据仓库、大数据计算、开源大数据行业有15年以上工作经验。原Kyligence 副总裁,Apache Kylin PMC。


    演讲题目:阿里云大数据AI一体化最佳实践


    演讲简介:Data+AI时代,大数据平台该如何建设?我们认为需要具备计算效率、开发效率、处理效率为一体的高效能力,才能保障企业AI时代下的业务创新。阿里云提供了从数据集成、清洗、建模、计算到服务的大数据+AI整套产品解决方案。 同时,阿里云自研大数据平台 MaxCompute 推出分布式计算框架 MaxFrame,100% 兼容 Pandas 等数据处理接口,打通数据管理、大规模数据分析、处理到 ML 开发全流程,打破大数据及 AI 开发使用边界,大幅提升开发效率,助力企业快速构建AI时代的基础设施。

    湖仓一体加速引擎Bolt及在字节跳动火山引擎LAS的应用

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    杨嘉义
    字节跳动 LAS 查询引擎负责人

    个人介绍:曾在百度智能云、大数据等部门从事数据分析和服务、数据科学等工作,拥有十多年的开发和架构经验。当前负责字节跳动火山引擎 LAS 底层的湖仓一体加速引擎 Bolt 和 Presto 方向。

    演讲题目:湖仓一体加速引擎 Bolt 及在字节跳动火山引擎 LAS 的应用

    演讲提纲:Spark、Presto 等引擎原 Java 执行的性能优化进入瓶颈期,而基于向量化和编译优化的 native 引擎,可获两倍性能加速比,降低资源成本。Bolt 已经在字节跳动内部 SparkSQL、Presto 大规模上线,加速效果显著,其特色有:面向多场景统一加速、端到端向量化执行。本次分享将介绍 Bolt 的意义、架构和在火山引擎 LAS 产品的应用实践。

    1. Bolt 的背景和意义

    2. Bolt 的架构设计

    3. Bolt 的核心特色

    4. Bolt 在火山引擎湖仓一体产品 LAS 的实践

    听众收益:

    1. 了解基于向量化和编译优化的 Bolt 加速引擎,如何获得 2x 加速比和 40% 资源节约。

    2. 了解火山引擎湖仓一体产品 LAS 的架构、特色及应用场景。

    3. 了解 Bolt 在湖仓一体产品 LAS 的应用现状及主要收益。

    Apache Paimon:实时数据湖 Streaming Lakehouse 的存储特性解读

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    蒋晓峰
    哔哩哔哩 基础架构部 资深开发工程师

    个人介绍:哔哩哔哩资深开发工程师,Apache Paimon PPMC,Apache Kyuubi & RocketMQ Committer,主要负责哔哩哔哩 Remote Shuffle Service。

    演讲题目:Apache Paimon:实时数据湖 Streaming Lakehouse 的存储特性解读

    演讲提纲:

    1. 实时数据湖痛点剖析

    2. Apache Paimon 架构概览

    3. Apache Paimon 特性解读

    4. Apache Paimon 入湖实践

    5. Apache Paimon 规划展望

    听众收益:了解实时数据湖 Streaming Lakehouse 的存储底座概况,熟悉 Apache Paimon 实时数据湖的架构原理和实践案例。

    茶歇

    基于 StarRocks 和 Paimon 打造湖仓分析新范式

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    王日宇
    阿里云 高级软件开发工程师

    个人介绍:计算机科学与技术硕士,专注于大数据系统和 OLAP 数据库的技术研发工作,现在主要负责开源 StarRocks 项目内核开发。

    演讲题目:基于 StarRocks 和 Paimon 打造湖仓分析新范式

    演讲提纲:

    1. 数据湖技术发展的演进介绍

    2. 使用 StarRocks + Paimon 湖仓分析方案主要场景介绍

    3. 使用 StarRocks 构建 Paimon 物化视图和数据湖分析的关键技术原理介绍

    4. 使用 StarRocks + Paimon 湖仓分析能力的未来技术规划

    听众收益:

    1. 了解数据湖技术发展的演进

    2. 了解如何使用 StarRocks + Paimon 构建湖仓分析方案

    3. 了解 StarRocks + Paimon 湖仓分析的核心技术原理

    数据采集治理

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    韩钰
    腾讯 PCG 数据上报系统负责人

    个人介绍:硕士毕业于中国科学院计算机网络信息中心,曾先后就职于百度、滴滴、腾讯等公司,目前在腾讯数据中台负责数据上报系统,深耕数据上报质量和效率,实现PCG的全业务覆盖。

    演讲题目:数据采集治理

    演讲提纲:

    1、引子

    1)数据采集的深广准决定了指标应用的能力上限,指标治理需要从采集源头开始

    2)数据采集其实就做一件事:将真实的客观世界数字化并记录下来

    3)做好数据采集的终极目标是 质量 和 效率

    2、质量

    1)数据质量问题60%~80%发生在采集阶段,在指标应用阶段才发现质量问题会让人气馁,排查也很低效

    2)新一代数据质量审查工具,让人们对数据质量的认知从 合规检查 提升到 合理分析

    3)质量审查能让人一眼看穿数据质量,让指标使用方可以放心大胆的使用采集数据

    4)智能判定则可让机器自动发现问题,基于灰度主流对比、主流日期环比等一系列相关性对比思路

    5)行为诊断可用来帮助诊断一些数据采集的疑难杂症,通过可视化单个用户的全部行为轨迹

    6)补充其他质量工具,总结实践经验

    3、效率

    1)效率瓶颈很多时候并不在开发上,而在对需求的梳理、沟通、反复修改、录入、验收,以及后续长久的维护上

    2)定义终端数据采集模型,在 事件 的基础上增加 页面 和 元素,标准化采集口径,约定大于灵活

    3)实现 在线文档 与 需求面板 的同步,既利用了在线文档的便捷,又能在需求面板中完成Diff对比、测试验收等操作

    4)利用采集SDK帮助提升开发效率,用一套API 引导开发者按采集模型来埋点,可选的用自动和半自动采集来减轻开发负担,搭配一套高效的测试诊断工具

    5)建立退出机制,基于ROI(血缘热度/成本)的生命周期管理

    4、展望

    1)质量 和 效率 我们在路上

    听众收益:

    1、了解新一代数据质量审查工具,让人快速看清数据质量,让机器自动发现问题

    2、了解如何才能把数据采集的效率做好

    YY直播业务指标治理实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    邓琴丰
    YY直播 数据产品负责人

    个人介绍:目前负责YY直播数据产品的总体规划,带领团队落地包括数据开发管理、数据治理、数据分析、数据服务、用户画像及运营分析等数据平台及应用产品;有10年+的大数据分析及产品经历。

    演讲题目:YY直播业务指标治理实践

    演讲提纲:烟囱式的需求开发沉积大量数据模型及数据报表;而业务指标管理存在技术口径和业务口径混用,同名不义及同义不同名等问题;通过业务指标的体系化梳理及构建,引入指标生命周期管理机制,清理融合存量数据模型及报表;最终面对业务用户,构建以指标目录为入口的自助购物式的数据获取及分析体验,提纲如下:

    1. 存在的问题及原因分析

    2. 业务指标体系化构建

    3. 业务指标管理驱动数据治理

    4. 自助购物式的指标分析

    听众收益:

    1. 如何梳理并构建业务指标体系?

    2. 如何利用指标管理驱动数据治理?

    3. 指标管理产品构建及运营的实战经验

    茶歇

    机器翻译数据增强实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    谢凝
    华为 技术专家

    个人介绍:华为翻译中心技术专家,华为机器翻译产品和数据负责人,中国翻译协会翻译技术委员会副主任委员。于2006年加入华为,有丰富的机器翻译产品开发和数据构建经验。

    演讲题目:机器翻译数据增强实践

    演讲提纲:介绍华为翻译中心在机器翻译任务上的数据处理、数据增强实践。

    听众收益:

    1. 如何提升机器翻译训练数据的质量。

    2. 哪些是更有效的机器翻译数据增强策略。

    PAI-ChatLearn:灵活易用、大规模 RLHF 高效训练框架

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    张杰
    阿里云 人工智能平台PAI深度学习框架负责人

    个人介绍:张杰,长期从事大数据、云计算、深度学习相关方向,擅长云计算、深度学习平台、超大规模模型训练、自动模型并行策略等领域。负责PAI平台的深度学习框架ChatLearn、TorchAcc和EPL等。

    演讲题目:PAI-ChatLearn:灵活易用、大规模 RLHF 高效训练框架

    演讲提纲:PAI-ChatLearn 是阿里云机器学习平台 PAI 团队自主研发,灵活易用、大规模模型 RLHF 高效训练框架。支持大模型进行 SFT(有监督指令微调)、RM(奖励模型)、RLHF(基于人类反馈的强化学习)完整训练流程。PAI-ChatLearn 支持大规模(175B + 175B)模型的 RLHF 高效训练。本次演讲对 PAI-ChatLearn 的架构、性能、以及如何进行高效 RLHF 训练等进行简要的介绍。

    简化并加速AI/ML模型训练&推理的数据访问

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    傅正佳
    Alluxio 研发负责人

    个人介绍:本科毕业于上海交通大学电子系,随后取得香港中文大学信息工程博士学位,毕业后加入新加坡高级数字科学中心(美国伊利诺伊大学在新加坡的研究所)从事科研工作,在计算机网络和分布式系统领域相关的顶级国际会议发表多篇论文。加入Alluxio前,傅正佳曾在新加坡科技公司Bigo Technology担任机器学习研发总监。

    演讲题目:简化并加速AI/ML模型训练&推理的数据访问

    演讲提纲:人工智能(AI)的应用正在迅速增长,49% 的首席信息官表示他们已经使用或计划使用人工智能。最近,生成式人工智能的蓬勃发展进一步加速了这一应用,使人工智能成为企业创造收入、提高客户满意度和组织生产力的当务之急。成功的人工智能项目需要访问数据,为应用程序快速提供数据的能力至关重要。随着人工智能用例越来越复杂,我们需要了解数据访问模式以及如何使用正确的解决方案来解决这些问题。此次分享将介绍现代AI/ML平台中的数据访问模式,将探讨机器学习管道每个阶段的数据访问特点,以及为大规模AI优化数据访问的策略。具体包括:

    1. AI/ML工作流在访问数据时的挑战

    2. 针对分析和AI的高性能数据访问层介绍

    3. 使用Alluxio进行模型训练的主要场景和价值

    4. 主要用户案例分享

    听众收益:了解全新的AI/ML训练解决方案,通过构建高校的数据平台架构快速生成分析结果。

    茶歇

    盘古大模型微调实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    吴章淋
    华为 NLP算法研究工程师

    个人介绍:南京邮电大学硕士研究生毕业,目前就职于华为,从事nlp算法研究工作,研究方向主要包括大模型、机器翻译、语音翻译和知识图谱等领域,相关研究成果发表于ACL,EMNLP和IJCKG等会议,发表论文共计10余篇,也参加过近两年的WMT、CCMT、IWSLT、NLPCC、CCKS比赛,并拿下了多个赛道的第一。

    演讲题目:盘古大模型微调实践

    演讲提纲:

    1. 什么是大模型

    2. 大模型发展历程

    3. 大模型微调目的

    4. 大模型微调技术

    5. 大模型微调加速方法

    6. 大模型微调效果提升手段

    听众收益:

    1. 如何进行大模型微调?

    2. 如何加速大模型微调?

    3. 如何提升大模型微调效果?

    TensorRT LLM 介绍

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    周国峰
    NVIDIA DevTech 研发经理

    个人介绍:2014 年毕业于中国科学院。毕业后加入 NVIDIA 至今,任 DevTech 团队研发经理。主要负责中国区大客户技术项目合作和技术研发。

    演讲题目:TensorRT LLM 介绍

    演讲提纲:TensorRT LLM 是 NVIDIA 加速 LLM 推理的开源解决方案。TensorRT LLM 提供了 python 接口,灵活的模块化组件,丰富的预定义主流模型,极大地方便了开发者在 NVIDIA平台上部署基于 LLM 的服务;同时,NVIDIA 投入了大量工程师对 TensorRT LLM 做了极致优化,包括主流的量化算法 (smoothQuant, GPTQ, and AWQ), in-flight batching, Tensor 和 pipeline 并行等推理加速优化方法。TensorRT LLM 除了具备业界领先的推理性能,同时也在不断提高它的易用性。

    1 什么是 TensorRT LLM?

    2 TensorRT LLM 主要特点

    3 如何使用 TensorRT LLM

    4 TensorRT LLM 性能

    5 TensorRT LLM 展望

    听众收益:

    1 理解 TensorRT LLM 产品定位

    2 熟悉 TensorRT LLM 主要功能和使用方法

    3 了解 TensorRT LLM 主要优化手段

    业务理解和逻辑推理是金融行业大模型运转的动力

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    杨剑
    奇富科技 高级算法总监

    个人介绍:负责奇富科技风控、营销、获客等相关算法和数据挖掘业务。构建奇富科技大数据体系,大语言模型、图计算等技术框架。在意图识别、行为序列、图计算等算法上,带领团队进行算法创新,实现金融信贷领域的深度落地。多年从事信贷风控领域算法研究和实施,曾经负责全场景风控模型的建设、数据生态建设等。

    演讲题目:业务理解和逻辑推理是金融行业大模型运转的动力

    演讲提纲:金融行业几乎是众多行业中,最早进行数字化的行业,科技一直伴随着金融行业的发展,而大模型的运用将带来金融的科技属性的又一次飞升。金融行业的大模型和其他行业最大的区别,在于金融行业的业务复杂程度、行业经营规范的要求以及安全隐私保护上。并且金融场景中有很多业务判断要求十分严谨,容错率很低,对于当前大模型的能力是一个挑战。金融业务在实际经营过程中,不仅需要有总结归纳和表达输出的能力,更要具备逻辑推理的能力,而支持逻辑推理落实,并做出差异化的方法,是通过结合私有化的领域知识图谱构建的思维链、思维树或思维图。同时面对各类复杂金融业务场景,也不是单纯算力、数据和参数规模的比拼,而是要针对具体场景,利用对业务的理解,有区别化、精确化的挑选参与模型预训练、指令精调、进行RLHF所需的数据。产出的大模型所扮演的角色,也应该是单一或者有限几个领域的专家。具体内容包括:

    1. 科技是金融行业发展的动力,大模型是助推金融科技能力提升的又一个助推器

    2. 金融行业大模型的特殊性及其难点与挑战

    3. 利用科技属性以及科技优势提升金融行业大模型效果

    4. 面对挑战,金融行业大模型可以解决哪些问题

    听众收益:

    1. 理解金融行业大模型与其他行业的差异性

    2. 理解金融行业大模型在落地过程中存在哪些难点

    3. 理解如何发挥科技优势,提升金融行业大模型效果

    4. 理解金融行业大模型在金融业务开展中扮演哪些角色

    当好故事插上大模型的翅膀

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    陈炜于
    阅文集团 技术副总经理

    茶歇

    大模型在汽车行业的应用与实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    黄帅
    蔚来汽车 GPT应用技术负责人

    个人介绍:中科大硕士,曾服务于百度腾讯等互联网大厂,在大数据人工智能领域有十多年经验。

    EILaw : 面向企业法务数字化的中文LLM

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    陈祖龙
    阿里巴巴 企业智能算法负责人

    个人介绍:阿里巴巴企业智能算法负责人,资深算法专家,浙江省人工智能协会智能制造分会百人专家,山东人工智能协会专家成员,中国“双法”学会数学建模分会理事,现负责面向大型企业的数字化智能文档、企业级办公助手以及法务等领域大模型相关工作,曾负责阿里巴巴飞猪算法(搜索、推荐、广告、供应链等)团队和淘宝首页人群个性化推荐,带领团队在业务相关技术走向国内外先进水平,在WWW、SIGIR、SIGKDD、ICDE、WSDM、CIKM、AAAI等国际顶级会议和VLDB、TITS、TOIS、ITOJ、TACL等国际顶级期刊发表论文40多篇等。

    超⼤⾏为异构图的表征学习及应⽤

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    胡伟
    百度 资深研发工程师

    个人介绍:胡伟,百度资深研发工程师,百度大商业图模型方向负责人。

    演讲题目:超⼤⾏为异构图的表征学习及应⽤

    演讲提纲:

    1. 背景和现状(面临的挑战)

    2. 解决方案和技术创新

    3. 收益和落地

    听众收益:

    1. 如何优化图存储

    2. 如何加速图模型训练

    3. 如何优化多机通信的性能

    腾讯游戏的图学习研究与落地

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    姚亮
    腾讯 高级研究员

    个人介绍:姚亮,现任腾讯高级研究员,博士毕业于浙江大学,曾在美国西北大学任博士后研究员。以第一作者在AAAI、SIGIR、TKDE等顶级会议及期刊发表论文多篇,谷歌学术H指数21,入选全球前2%顶尖科学家、AI 2000人工智能全球最具影响力学者。现在腾讯游戏从事图学习、大语言模型相关的研究和落地。

    演讲题目:腾讯游戏的图学习研究与落地

    演讲提纲:

    1. 大规模图学习算法 PB-GNN

    2. 链路预测算法的研究与应用落地

    3. 大语言模型在知识图谱补全的应用

    听众收益:熟悉大规模图学习算法,链路预测算法,图预训练算法、大语言模型和知识图谱的结合。

    茶歇

    大规模图深度学习训练在新浪微博的工程落地实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    于翔
    新浪微博 资深算法工程师

    个人介绍:于翔,新浪微博机器学习平台深度学习框架负责人,目前主要负责机器学习平台的大规模稀疏模型训练推理服务、图深度学习系统等。

    演讲题目:大规模图深度学习训练在新浪微博的工程落地实践

    演讲提纲:本次主要跟大家分享在大规模图学习落地过程中,遇到的一些问题与解决方法,其中包大规模图训练的挑战,开源训练框架选择与落地优化,介绍下图学习场景的业务实践。

    听众收益:了解大规模GNN遇到的训练挑战与解决方案。

    图计算在 Akulaku 智能风控中的应用

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    黄泓
    Akulaku 资深算法开发工程师

    个人介绍:毕业于代尔夫特理工大学,专注于图计算与知识图谱在Akulaku各种智能应用的落地。


    Pioneering 2D image generation for AAA games

    助力3A大作:领跑2D图像生成技术

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    Alexis Rolland
    Ubsoft China,Development Director

    个人介绍:Alexis Rolland, 自2012年加入育碧,曾先后在大数据、数据分析和机器学习等领域担任多个关键职务。目前,作为La Forge中国团队开发总监,他领导着团队在技术创新领域迈出坚实的步伐。出于对新兴科学技术的执着追求,Alexis一直致力于架起学术前沿和视频游戏产业之间的桥梁,尤其在积极推动育碧生成式AI助力内容创作的革新中,发挥着关键的作用。

    演讲题目:Pioneering 2D image generation for AAA games(助力3A大作:领跑2D图像生成技术)

    演讲提纲: 本次演讲将介绍育碧(Ubisoft)在为3A游戏创建专有图像生成式模型方面的方法。 演讲内容将包括以下部分:

    • 为什么需要创建微调图像生成式模型

    • 育碧的方法和方法论

    • 介绍Caption Studio实用工具

    • 展示图像生成式模型

    听众收益:您将了解到育碧在微调图像生成式模型方面的实现方法和道德原则,及相关的指导方针和最佳实践。

    Game AI Bot 如何提升玩家在PVP类游戏中的体验?

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    关凯
    网易伏羲 资深人工智能工程师

    个人介绍:硕士,毕业于浙江大学计算机系。于18年3月加入网易伏羲,自21年中起负责强化学习落地方向。其专注于优化Game AI Bot的表现及策略,提升玩家游戏体验。目前成果已在多款网易雷火的游戏落地应用,如:永劫无间、逆水寒(端游、手游)、全明星街球派对,倩女幽魂(端游、手游)等。

    演讲题目:Game AI Bot 在PVP场景中的应用与实践

    演讲提纲:

    1. PVP类游戏Game AI Bot的应用场景及案例引入

    2. 如何生产满足需求Game AI Bot

    3. 如何应用Game AI Bot 及其结果

    4. 工作展望

    听众收益:

    1. 了解PVP类游戏对Game AI Bot的需求及其痛点

    2. 了解现阶段的Game AI Bot的生产流程

    3. 了解Game AI Bot如何联合游戏匹配系统进行应用

    茶歇

    Game+Agent 我们的初步尝试

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    刘文强
    腾讯 IEG Global Manager

    个人介绍:刘文强在18年博士毕业之后加入腾讯,曾负责游戏领域知识图谱构建和应用。现任腾讯IEG Global算法中心NLP组长,主要负责多语言自然语言处理的算法研发以及在腾讯海外游戏的应用设计和开发工作。

    演讲题目:Game+Agent 我们的初步尝试

    演讲提纲:随着最新大语言模型,例如GPT系列,PaLM2的兴起,大语言模型强大的能力为AI Agent 的突破带来了契机。大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为Agent的核心大脑,就可以实现以往难以实现的将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。本次分享主要分为下面三个部分:

    1. Agent 的整体介绍

    2. Agent 的技术架构拆解

    3. 我们在 Agent 上一些尝试

    4. 总结

    听众收益:

    1. 了解目前 Agent 的一些主流进展

    2. 了解目前 Agent 的技术细节

    3. 具体如何实践

    ClickHouse 2024新功能与研发方向思考

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    Alexry Milovdov
    ClickHouse CTO

    个人介绍 :Alexey 毕业于莫斯科国立大学,拥有数学学位。他的兴趣领域包括数据处理算法和技术,他热爱数据和高性能。拥有13年的设计、开发和操作数据密集型应用程序的经验。他于2009年开始着手ClickHouse初始模型的策划和开发,并于2016年将其释放为开源项目。在ClickHouse之前,他开发了全球第二大网络分析系统的数据处理引擎。

    演讲题目:ClickHouse 2024 新功能与研发方向思考

    演讲提纲:ClickHouse是业内公认最快的OLAP数据引擎,同时clickHouse也在面对来自包括中国区在内的全球的优秀产品的竞争,这也激励了我们更加努力地发展社区,完善我们的产品。我们非常愿意分享我们产品的新功能新特性以及未来的roadmap,我们也希望听到来自中国社区和用户的期望。

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    谢志豪
    ClickHouse 技术支持工程师

    个人介绍 :Derek 谢志豪是 ClickHouse 的技术支持工程师。主要工作范围包括帮助大型客户解决重大技术问题,优化 Clickhouse 集群,提升使用体验。Derek 毕业于新加坡国立大学 (NUS) 获得信息系统学位,在 ClickHouse 工作之前一直从事数据平台的优化和管理工作。

    演讲题目:ClickHouse 2024 新功能与研发方向思考

    演讲提纲:ClickHouse是业内公认最快的OLAP数据引擎,同时clickHouse也在面对来自包括中国区在内的全球的优秀产品的竞争,这也激励了我们更加努力地发展社区,完善我们的产品。我们非常愿意分享我们产品的新功能新特性以及未来的roadmap,我们也希望听到来自中国社区和用户的期望。

    使用 JIT 技术实现高效的数据库表达式求值

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    吴立
    炎凰数据 研发工程师

    个人介绍:硕士,毕业于上海交通大学,在上海炎凰数据主要负责时序数据库的开发。之前在Splunk工作,主要参与数据采集相关的开发工作。

    演讲题目:使用JIT技术实现高效的数据库表达式求值

    演讲提纲:

    1. 介绍数据库表达式求值的一般方法

    · 什么是表达式求值问题

    · 常见方法如向量化/JIT/树遍历等

    · 不同的数据库的解法

    2. JIT即时编译技术

    · 什么是JIT即时编译技术

    · JIT技术的优缺点

    3. 使用Gandiva表达式编译器

    · 介绍Apache Arrow

    · 介绍Gandiva表达式编译器, LLVM及其工作

    听众收益:

    1. 如何对数据库表达式求值

    2. JIT即时编译技术的基本概念以及为什么需要JIT

    3. 如何使用Apache Arrow/Gandiva的JIT即时编译技术加速计算

    WeOLAP:微信 OLAP 新场景优化实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    孙弘毅
    微信 大数据研发高级工程师

    个人介绍:硕士毕业于南京大学计算机系,具有多年大数据和分布式系统研发经验,对 Spark、Flink、Kafka、Pulsar 等大数据组件和消息中间件有深入的理解,目前在微信 WeOLAP 团队参与以 Clickhouse 为基座的海量数据亚秒级分析系统研发。

    演讲题目:WeOLAP:微信 OLAP 新场景优化实践

    演讲提纲:

    1. ClickHouse 在微信的新应用场景

    2. 如何进行查询性能观测

    3. 湖仓读取场景优化

    4. 实验场景优化

    5. 向量数据库应用 & embedding 检索优化

    Bit-sliced-index:基于 Roaringbitmap 的人群 OLAP 分析、在线服务的 one more thing

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    黄海林
    灵犀互娱 技术专家

    个人介绍:黄海林,灵犀互动数据服务 leader,Roaringbitmap Java 版 BSI 作者。

    演讲题目:Bit-sliced-index:基于 Roaringbitmap 的人群 OLAP 分析、在线服务的 one more thing?

    演讲提纲:

    1. 灵犀互娱面向游戏用户的数据难题

    2. 元数据驱动数据架构设计

    听众收益:

    1. 人群和指标的高效联动分析

    2. 高性能人群服务如何设计

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    唐凯麟
    灵犀互娱 高级研发工程师

    个人介绍:唐凯麟,计算机科学与技术硕士,专注于大数据系统和数据平台的技术研发工作,现在主要负责阿里巴巴-灵犀互娱数据平台开发。

    演讲题目:Bit-sliced-index:基于 Roaringbitmap 的人群 OLAP 分析、在线服务的 one more thing?

    演讲提纲:此次分享将介绍现代 DMP 平台中的数据存储与计算面临的特点与挑战,以及为灵犀互娱针对海量数据的建模与存储计算优化策略。具体包括:

    1. 灵犀互娱业务数据应用现状及挑战

    2. 基于 Roaring Bitmap 与 Bit-Index Slice 的数据存储、计算原理介绍

    3. 案例分享

    听众收益:

    1. 海量数据建模、存储与计算解决方案

    2. 如何构建高效的海量数据平台架构快速进行数据分析

    ClickHouse 在 vivo 的应用实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    袁文兵
    vivo 互联网大数据架构师

    个人介绍:计算机科学与技术硕士,曾任职于腾讯,现在 vivo 负责大数据研发工作,OLAP 项目负责人,专注于大数据系统和 OLAP 数据库的技术研发工作,具有8年大数据从业经验。

    演讲题目:ClickHouse 在 vivo 的应用实践

    演讲提纲:

    1. vivo OLAP 的发展历程与选型

    2. ClickHouse 的稳定性实践

    3. ClickHouse 查询优化实践

    4. ClickHouse 实践案例

    听众收益:

    1. 了解 ClickHouse 常见的稳定性问题及解决方案

    2. 了解 ClickHouse 的查询优化方面的实践技巧

    3. ClickHouse 如何赋能业务,带来降本增效

    货拉拉大数据下一代基础架构实践与思考

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    何洋
    货拉拉 大数据专家

    个人介绍:何洋,本科毕业于中南大学,先后就职于唯品会、饿了么、拼多多,负责过万级规模大数据集群,目前就职于货拉拉,主要从事大数据安全、计算资源调度、大数据平台和 GPT 应用相关工作。

    演讲题目:货拉拉大数据下一代基础架构实践与思考

    演讲提纲:

    1. 背景与挑战

    2. 基础架构实践

    3. 总结与思考

    4. 未来展望

    听众收益:

    1. 面对资源波峰低谷,如何在成本和资源效率间平衡

    2. 除了 x86 服务器,我们还有别的选择么

    3. 面向云原生浪潮,大数据架构如何演进

    知乎大数据跨机房实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    贾承昆
    知乎 数据平台负责人

    个人介绍:贾承昆。曾就职于阿里云、猿辅导、知乎等公司。有多年数据架构方向的工作经验。负责知乎大数据的基础架构和数据平台相关的工作。

    演讲题目:知乎大数据跨机房实践

    演讲提纲:介绍知乎大数据跨机房方案,如何在多个机房之间迁移数据,调度计算作业并保障稳定性。

    听众收益:

    1. 如何设计并实现 Hadoop 跨机房方案

    2. 如何在多集群之间进行快速的数据迁移

    3. 如何在多集群架构下保障稳定性

    OPPO下一代大数据AI一体架构实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    付庆午
    OPPO 数据智能中心 大数据架构师

    个人介绍:目前在OPPO数据架构组负责架构演进研发,Spark 开源RSS项目Shuttle发起人,曾供职去哪儿网大数据,阿里云MC团队。

    演讲题目:OPPO下一代大数据AI一体架构实践

    演讲提纲:

    技术架构:

    1、云原生的计算架构:

    云上极致弹性计算架构助力大幅降本

    2、大数据AI一体化数据湖架构:

    秒级实时、元数据管理、自动索引构建、非结构化数据管理

    应用落地:

    1、多数据源一键实时入湖,多维度数据秒级查询可见,代替部分实时场景对kafka依赖,流批一体,实现大幅降本增效

    2、基于数据湖的实时特征平台建设,基于实时湖仓+Flink,实现流批一体特征工程数据开发,PB级特征近实时更新

    3、大模型非结构化文本训练数据入湖,加速大语言模型训练

    4、数据湖在混合云场景应用

    听众收益:了解新一代大数据AI一体架构如何在公有云上降本增效,大数据和AI如何在数据层一体化,不仅了解数据湖本身的技术架构,同时将了解在实时湖仓、搜推算法、大模型训练、混合云上不同场景的应用落地经验。

    vivo 超大数据规模下分布式消息中间件架构演进实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    罗明波
    vivo 互联网 大数据专家

    个人介绍:曾先后就职于TCL、vivo等公司,拥有9年互联网领域和大数据领域实践经验,长期从事互联网高并发、高性能、海量数据接入、海量消息处理等领域的相关工作。对于互联网、物联网、大数据领域服务稳定性、架构升级、增效将本等场景有较为丰富的方案设计及落地经验。目前就职于vivo公司担任vivo互联网大数据专家,负责超大数据规模下分布式消息中间件的架构升级、可用性保障、增效降本及分布式消息中间件容器化等方面工作。

    演讲题目:vivo 超大数据规模下分布式消息中间件架构演进实践

    演讲提纲:

    1. 十万亿级消息中间件架构演进实践

    2. 超大数据规模下Pulsar核心架构优势

    3. 超大数据规模下消息中间件高可用保障体系及可观测

    4. 未来规划

    听众收益:

    1. 了解vivo 日均十万亿级的消息规模下分布式消息中间件平台在高可用性、增效降本等场景下的技术方案思考和相关难点问题的解决思路,以及下一代云原生分布式消息中间件Pulsar在超大数据规模下的架构优势

    2. 了解vivo 超大数据规模下消息中间件高可用保障体系及可观测实践

    3. 了解vivo 超大数据规模下消息中间件未来规划

    混合云原生大数据底盘

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    曾昭正
    顺丰科技 大数据高级研发工程师

    个人介绍:10年以上大数据底盘研发经验,2017年加入顺丰科技,负责dataPaaS相关工作,主要涉及大数据混合云弹性扩缩容、云原生实时数湖等业界创新型技术在顺丰的探索和落地。

    演讲题目:混合云原生大数据底盘

    演讲提纲:

    1、背景与趋势

    2、顺丰混合云原生数据架构升级

    3、顺丰大数据架构应用案例

    听众收益:

    1. 多云融合的大数据基础设施如何做到低成本

    2. Hadoop 与云原生架构如何做融合

    3. 跨机房离线任务如何保障计算效率

    零售行业永辉超市云原生数据中台的探索与实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    马吉辉
    永辉超市 大数据架构师

    个人介绍:马吉辉,永辉超市大数据架构师,数据中台OLAP架构负责人,永辉CLICKHOUSE布道者,毕业于南京大学计算机系,2019年加入永辉云创数据智能产品研发部,从0到1构建永辉线上大数据计算体系,离线、准实时、实时数仓架构,2020年主导并参与了永辉数智化转型之路,构建永辉数据中台,数据中心"蓄水池",高效赋能业务增长。多年大数据从业经验,对数据基础架构服务、数据资产化、数据应用具有深刻的洞见。目前专注于数据治理,自助取数分析-人人都是数据分析师的体系建设落地。基于永辉"极光"平台实现业务输出。

    演讲题目:零售行业永辉超市云原生数据中台的探索与实践

    演讲提纲:

    1. 永辉数据中台的经路历程

    2. 以数据赋能零售业务的探索与实践

    3. 数据治理思维驱动数据中台稳定高效

    4. 未来展望

    听众收益:

    1. 了解零售业数据中台私有云建设的探索与实践

    2. 了解数据治理在数据中台中的思维体现

    3. 了解数据如何赋能复杂的零售业务变化

    4. 对零售业技术的未来的探索与实践

    物化视图在 MaxCompute 中的探索与实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    雷春蔚
    阿里云 MaxCompute SQL 引擎技术专家,Apache Calcite PMC

    个人介绍:雷春蔚,Apache Calcite PMC,具有多年大数据从业经验,主攻 SQL 引擎性能优化,先后负责了阿里云 MaxCompute 物化视图、dynamic filter、索引等核心功能的设计和开发。

    演讲题目:物化视图在 MaxCompute 中的探索与实践

    演讲提纲:物化视图是将查询预先计算并存储的一张特殊的物理表,当执行相关查询时,可以复用预计算结果,提高查询性能,是降本增效的妙招;本次演讲将从物化视图创建、物化视图维护、物化视图应用和物化视图推荐及自动物化视图4个方面介绍物化视图在 MaxCompute 中的探索和实践。

    火山引擎 ByteHouse 的云原生探索与实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    任强
    火山引擎 ByteHouse 技术专家

    个人介绍:任强,2020年7月加入火山引擎 ByteHouse 团队,一直从事实时导入相关研发工作,目前负责实时导入模块。

    演讲题目:火山引擎 ByteHouse 的云原生探索与实践

    演讲提纲:近年来,随着云基础设施的成熟和数仓技术的发展,云原生数仓凭借按量付费、按需弹性的特点越来越受到客户的青睐。字节跳动在云数仓领域有十多年技术经验积累,并基于开源 ClickHouse 推出的云原生数据仓库 ByteHouse。本次分享将从云数仓历史和前沿出发,介绍 ByteHouse 云数仓的整体架构和亮点,以及存算分离的关键设计与实践。主要包括以下内容:

    1. 数仓架构演进历史

    2. 云数仓演进中的技术难点和问题

    3. ByteHouse 云数仓架构设计以及存算分离的关键技术

    4. ByteHouse 存算分离的实践与优化

    听众收益:

    1. 了解云原生数仓的发展与核心价值

    2. ByteHouse 云数仓的架构设计与技术亮点

    3. 云原生数仓的挑战和展望

    面向2026年的推荐算法前瞻

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    肖玄基
    Shopee 内容电商算法负责人

    个人介绍:毕业于中科院软件所,目前在Shopee负责电商直播为主的内容电商算法,曾在腾讯,阿里,百分点工作过。主要研发方向包括推荐,内容生态,用户增长,营销等。

    演讲题目:面向2026年的推荐算法前瞻

    演讲提纲:

    • 常规的推荐系统范式已经逐渐走入瓶颈,原因是在当前固定化的问题描述下模型和系统几乎已经发展 到极限。当前的主要范式是模型是召回+排序+重排,系统上是样本挖掘+特征工程+线上打分预估能力建设。一线大厂在上述领域已经把空间几乎挖掘殆尽。

    • 同时可以看到,我们的用户仍然对当前推荐系统满意度并没有达到理想态。推荐系统是一个非常面向 于用户满意的平台系统,而用户满意是一个永远有不同理解的问题,正如“一千个用户眼里有一千种好 的推荐系统理解”。同时,我们的推荐系统效果和平台的最终价值之间仍然存在差距。

    • 构建更好的推荐系统需要我们对重新定义“什么是好的推荐系统”。

    • 这并不是学术界的“强行挖坑”或者“继续填坑”,而是不同层面上都在呼唤新的定义。

    • 事实上,新的推荐系统已经零散的在学术界和工业界展现星星之火。

    听众收益:

    1)了解未来3年的推荐系统前沿问题,把握大局方向。

    2)参与我们的推荐算法的github开源项目: OneRec。

    OPPO 广告召回算法实践与探索

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    余文毅
    OPPO 互联网广告召回算法负责人

    个人介绍:余文毅,2020年加入 OPPO,现任互联网广告召回算法负责人。先后就职于腾讯、OPPO,长期深耕广告推荐算法领域。目前主要负责召回算法优化,也在重排算法、行业优化算法等领域有一定实践。

    演讲题目:OPPO 广告召回算法实践与探索

    演讲提纲:主要介绍 OPPO 互联网广告业务下,“面向最终目标的广告召回算法”的实践与探索经验,包括:

    1. 召回模型架构选型的分析与实践

    2. 召回离线评估标准的建设与迭代

    3. “面向最终目标的广告召回算法”的业务优化实践与模型优化探索

    听众收益:希望能通过我们的分享,给从业者们一些参考:

    1. “面向最终目标的广告召回算法”的利与弊

    2. 召回算法离线评估指标的探索经验

    3. 召回算法的业务优化与模型探索经验

    QQ音乐推荐排序算法实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    孙嘉琨
    腾讯音乐 推荐算法工程师

    个人介绍:硕士毕业于荷兰莱顿大学计算机专业,毕业后加入腾讯音乐至今,负责QQ音乐、IOT等多端多业务推荐算法优化。

    演讲题目:QQ音乐推荐排序算法实践

    演讲提纲:

    1. QQ音乐推荐整体架构

    2. 精排算法设计

    3. 跨域推荐相关算法详解及探索

    4. 总结与展望

    听众收益:了解QQ音乐推荐概况,熟悉多目标及多场景推荐的相关算法及应用实践。

    强化学习在推荐系统中的实践探索与业界进展

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    张启华
    虎牙直播 推荐算法工程师

    个人介绍:目前就职于虎牙,之前先后在百度和腾讯工作,一直从事推荐算法领域,尤其对重排/混排算法有较深的理解与创新。在业界首次提出把强化学习应用于多目标融合领域的方案,随后在腾讯多个产品有效果显著的落地应用,后续也有多家公司跟进应用,该成果整理成论文发表在数据挖掘领域国际顶级学术会议KDD2022上,引起较大反响,在这一领域开创了一个全新范式,大幅提升了效果天花板。

    演讲题目:强化学习在推荐系统中的实践探索与业界进展

    演讲提纲:

    1. 推荐系统与强化学习

    a. 强化学习概述,及其应用领域

    b. 推荐系统的传统方法及当前挑战

    c. 强化学习与推荐系统的结合点:交互性与长期满意度

    (讲述结合的动机,推荐系统通过不断增加预测任务并拓展目标周期,以提升对用户的长期满意度,而强化学习的交互性及长期价值建模有助于推荐系统实现该目标)

    2. 探索强化学习在推荐系统中的应用

    a. 推荐问题的强化学习建模

    b. 面临的核心挑战

    i. 推荐系统的动态性与复杂性

    ii. 延迟奖励与复杂的环境反馈

    c. 常见的强化学习实践方案,优势及局限性

    d. 离线强化学习的实践探索

    i.OfflineRL的训练框架

    ii.不同范式的OfflineRL模型算法

    iii.离线评估方法

    (以踩坑过程为线索,介绍建模方法,在探索过程中遇到的一些问题,分布偏移、外推误差,模型训练困难,线上效果不稳定等等。介绍一种成功案例的OfflineRL的流程框架)

    3. 业界的新进展与进展

    a. 近期研究成果,论文分享或成功案例

    b. 新的算法与技术概述

    c. 未来展望,一些可以尝试的方向畅想

    听众收益:在此次演讲中,我们将尝试探索强化学习与推荐系统的结合点,并分享一些实践中的踩坑经验。听众可能会对这两者的结合有更多的了解,认识到实践中可能的挑战和考虑点。通过一些业界的研究进展,我们希望提供一些思考的方向,但这只是一个起点。期待与大家共同探讨,相互学习,一同前行。

    领域模型生产指南

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    陈峰
    滴普科技 Senior Research Fellow

    个人介绍:滴普科技高级研究员,《ClickHouse性能之巅》作者。数据智能领域资深架构师,曾主导OPPO智能缺陷识别、威视智能瞳孔检测、百丽丽影等多个数据智能项目技术架构的设计工作,有丰富的大模型落地经验。目前着眼于大模型在不同领域上的工程化落地。

    演讲题目:领域模型生产指南

    演讲提纲:

    1. 领域模型的难点

    a. 领域模型和通用大模型的异同点

    b. 领域模型的三大难点及其详细说明

    2. 领域模型的训练方法论

    a. 针对上诉难点的各种方法论

    听众收益:

    1. 了解领域模型与通用模型的不同

    2. 了解领域模型存在的几大难点

    3. 如何应对这三大难点的多种可行方法论

    使用 OpenLLM 构建和部署大模型应用

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    明希
    BentoML 高级软件工程师

    个人介绍:BentoML 全栈工程师,Python 玩家,开源爱好者。负责 BentoML 项目的开发。著名 Python 包管理器 PDM 作者。

    演讲题目:使用 OpenLLM 构建和部署大模型应用

    演讲提纲:

    一、大模型应用部署的挑战

    二、使用OpenLLM 快速启动一个大模型的应用

    a. 通过 OpenLLM 调用大语言模型

    b. 通过OpenLLM启动一个HTTP server

    c. 使用命令行进行模型推理

    d. 使用Python Client与应用交互

    e. OpenLLM 与 langchain的集成

    f. 模型推理性能的优化

    三、使用 BentoML 工具构建并部署大模型应用

    a. BentoML 简介

    b. 构建一个bento

    c. 将Bento部署到bentocloud

    听众收益:

    1. 如何使用常见的LLM快速启动一个应用

    2. LLM应用性能优化的方法

    3. BentoML 框架的安装与使用方法

    大语言模型优化:Fine-Tuning 技术与方法实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    黄月红
    滴普科技 语言模型研究员

    个人介绍:滴普科技语言模型研究员,“CHAOS万有引力”公众号作者,发表过多篇国际会议和sci论文,五年深度模型开发经验。主要研究方向为大语言模型,机器视觉,有丰富的模型开发优化经验,同时在因果推断,推荐系统,知识图谱等领域也有一定兴趣和开发经验。

    演讲题目:大语言模型优化:Fine-Tuning 技术与方法实践

    演讲提纲:

    1. Fine-Tuning 大语言模型的必要性分析

    a. 什么样的情况下需要 fine-tuning 大语言模型

    b. fine-tuning 大语言模型需要准备些什么

    2. fine-tuning 算法介绍

    a. 一般过程及原理

    b. 模型量化

    c. qlora

    d. Neftune

    e. …

    3. 测试自己的大语言模型

    a. 各种测试平台,工具,方法,标准介绍

    b. 定义自己的测试指标和方式

    听众收益:

    1. 了解如何 fine-tuning 大语言模型

    2. 了解 fine-tuning 的方法和策略

    3. 了解 fine-tuning 大语言模型评估方法

    大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    刘焕勇
    360 人工智能研究院算法专家、知识图谱方向负责人、360智脑项目组核心成员

    个人介绍:360人工智能研究院算法专家、知识图谱方向负责人、360智脑项目组核心成员,“老刘说NLP”公众号作者,曾就职于中国科学院软件研究所。主要研究方向为大模型数据挖掘与自动化评估、领域知识/事件图谱的构建与落地应用,主持或参与研制全行业事理图谱、百科图谱、知识图谱平台、事件情报分析、右侧推荐、大模型研发等落地项目,申请发明专利十余项、论文数篇。近年来在OGB-Wikikg2、CCKS多模态实体对齐、可解释类案匹配等评测中获得多项冠亚军。致力于自然语言处理技术开源共享,在github开源项目60+,收获star数超2W+。

    演讲题目:大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索

    演讲提纲:幻觉问题是制约大模型在某容错性较低场景的拦路虎。而幻觉问题本身来源于多个方面,包括数据、训练方式以及解码策略等。本报告将围绕大模型幻觉的起因、如何评估、在真实落地场景下如何结合外部知识图谱进行缓解等几个方面进行介绍。

    听众收益:

    1. 什么是大模型幻觉,幻觉是好是坏?

    2. 为什么会出现幻觉,又如何评价幻觉?

    3. 幻觉在落地场景中如何用知识图谱加以缓解?外挂 or 受控生成 or 其他?

    多模内容理解在百度商业广告中的探索实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    金志鹏
    百度 资深研发工程师

    个人介绍:硕士毕业于中科院自动化研究所,2016年加入百度商业广告团队,先后从事凤巢点击率模型优化、商业多模内容理解等工作,目前在商业技术中台团队担任内容中台资深算法工程师,负责多模态理解与生成方向,相关工作多次发表于 SIGIR,CIKM,BigData 等国际会议。

    演讲题目:多模内容理解在百度商业广告中的探索实践

    演讲提纲:

    1. 商业图文预训练大模型

    2. 多模内容表征如何赋能商业系统,包括排序系统、召回系统

    3. 多模内容理解与生成大一统

    听众收益:

    1. 如何训练一个百亿的图文大模型?

    2. 多模态内容如何赋能商业系统?

    3. 排序模型的 ID 记忆性问题如何解决?

    教育领域大模型的技术和应用

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    苏喻
    合肥综合性国家科学中心 人工智能研究院 副研究员

    个人介绍:苏喻,工学博士,硕士生导师,合肥综合性国家科学中心人工智能研究院副研究员,合肥师范学院计算机学院副教授,专业负责人,中国计算机学会大数据专家委员会通讯委员,安徽省计算机学会青少年信息学教育专委会秘书长,研究方向为自然语言理解,数据挖掘与推荐系统。2011年7月-2022年2月就职于科大讯飞研究院,历任科大讯飞AI教育研究院副院长,AI研究院认知群教育条线负责人,学习机业务线业务总监,重点负责教育领域个性化学习业务,其研发的多项成果已经成功的应用到讯飞智学网、讯飞学习机等相关产品中,于2018年获得讯飞首届华夏创新奖,获2020年吴文俊人工智能科学技术奖科技进步一等奖。同时,先后参与多项安徽省、部级等层面的重大项目科研工作,如国家自然科学基金重点项目“基于多模态数据的学习者认知诊断理论与关键技术研究”、科技部重大专项“面向分类用户个性化需求的科技大数据精准服务技术”等。其间获得多项发明专利,并在AAAI、KDD、IJCAI等国际知名学术会议与期刊发表文章近50余篇。

    演讲题目:教育领域大模型的技术和应用

    演讲提纲:随着技术的不断演进,大语言模型,如GPT-4,及其相关技术已经深深影响了许多行业。尤其在教育领域,这些模型已经促进了许多前沿的应用与实践的出现。通过将大语言模型融入智慧教育,我们希望其能够解决传统方法所面临的问题。本次演讲将重点探讨如何利用大语言模型来应对智能教育所遭遇的技术问题,并分享我们团队的最新研究进展。此外,演讲的最后还将介绍我们在教育场景下结合上述技术所取得的应用成果。

    1.简述大语言模型在通用教育下有哪些应用场景

    2.阐述目前智慧教育在技术上所面临的问题 (有标签数据少、闭环周期长、需要融入领域知识)

    3.介绍团队在教育领域大模型相关的技术

    4.1基于大语言模型的知识构建

    (1)人机合的知识图谱构建技术:通过与大语言模型的结合,实现人机协作的方式,可以更高效、准确地构建领域内的知识图谱;

    (2)大模型的小知识学习技术:允许大模型专门针对某一领域或主题进行微学习,从而生成更加准确的领域相关内容;

    4.2基于大语言模型的仿真强化试题推荐技术

    (1)基于大语言模型的学生学习行为仿真技术:通过大模型分析学生的学习行为,模拟其学习路径和趋势,从而预测学生在进行某个学习和做题后的知识水平情况;

    (2)基于大语言模型的强化试题推荐技术:结合强化学习和大语言模型仿真,系统可以根据学生的学习历程和反馈,动态推荐适合其学习水平和需求的试题,帮助学生更加高效地学习和巩固知识;

    5.教育领域大模型相关的应用

    (1)数字人AI录播课

    (2) AI智慧编译器

    听众收益:听众将从本次演讲中获得对大语言模型在教音领域的深入了解,探索其如何解决智慧教育的技术挑战,以及实际应用中的具体案例,为教育者和技术从业者提供有价值的启示和激发创新思维的灵感。

    通义星尘个性化大模型相关技术与应用

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    严明
    阿里巴巴 通义实验室 高级算法专家

    个人介绍:严明,中科院自动化所博士,阿里巴巴通义实验室NLP高级算法专家。主要研究方向为对话问答、预训练语言模型与多模态内容理解,目前为团队多模态大模型基础技术负责人。曾在SQuAD/GLUE/MSMARCO/VQA等10多个国际赛事中取得第一,并4次取得超越人类基准的结果,发表ICML/ACL/EMNLP/ICLR/CVPR/AAAI等40多篇国际顶级会议论文,目前负责通义星尘个性化大模型基础技术与X-PLUG开源体系构建。

    演讲题目:通义星尘个性化大模型相关技术与应用

    演讲提纲:

    1. 大模型技术发展背景

    2. 通义星尘个性化大模型技术体系:个性化、多模态、Agent智能体等

    3. 通义星尘个性化大模型应用案例

    听众收益:

    1. 个性化大模型与通用大模型的区别

    2. 通义星尘个性化大模型和通义mPLUG多模态大模型技术体系

    3. 通义星尘个性化大模型真实项目应用案例

    蚂蚁新一代数字智能化治理平台 AutoFinOps 实践与探索

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    林天权
    蚂蚁集团 高级数据技术专家

    个人介绍:林天权(花名:画龙),现任蚂蚁集团高级数据技术专家,有10多年大数据研发、架构升级和数据治理经验,14年开始加入蚂蚁,深度参与蚂蚁大数据的发展和升级演进,曾作为实时数据负责人主导蚂蚁双十一媒体实时大屏、蚂蚁全域实时采集链路和蚂蚁实时数据研发平台研发,以及PB级adhoc查询加速服务和大安全一键数据服务化平台研发与升级,现任蚂蚁安全大数据技术团队数据架构及治理负责人,推进技术创新,打造EB级AutoFinOps核心能力,升级蚂蚁新一代数据架构,用数据创造价值。

    演讲题目:蚂蚁新一代数字智能化治理平台 AutoFinOps 实践与探索

    演讲提纲:科技驱动一直是蚂蚁的核心发展理念,也是蚂蚁安身立命之本。蚂蚁过去的发展,源于能够始终抓住技术变革机遇,用技术创造价值。蚂蚁集团在面对EB级数据规模、错综复杂的业务以及数字时代新型安全风险挑战,数据治理除了传统的运动式治理、元数据驱动治理、一站式治理平台、自上而下的治理规范制度约束等解决方案外,也在不断尝试技术创新和架构升级等手段破局和提效,提供更加高效、便捷、丝滑的自动化、智能化解决方案,本次分享带你深入了解蚂蚁如何通过治理数字智能化快速实现“无感降本”,特别是智能归因、AutoFinOps、错峰计算等技术应用和实践,期待你的聆听,也期待与你一起交流。具体内容包括:

    1. 数据治理的困难与挑战

    2. 数据治理的顶层设计和架构

    3. 数据治理自动化和智能化的最佳实践

    4. 思考总结与未来展望

    听众收益:

    1. 了解蚂蚁数据治理的设计思路

    2. 深度解读蚂蚁“无感降本”技术如何高效实现

    3. 探讨数据治理领域未来趋势

    DataOps 加大模型促进数据工程创新

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    杨明皓
    数造科技 高级大数据技术专家

    个人介绍:英国谢菲尔德大学计算机硕士,海南数造科技高级技术专家。10年+金融行业实践经验,10年+大数据、知识图谱与自然语言研发经验。

    演讲题目:DataOps 加大模型促进数据工程创新

    演讲提纲:在数字化时代,数据管理和分析至关重要,而传统数据管理和分析存在诸多的挑战,在此背景下通过分析 DataOps 大模型的特点,提出 DataOps 的基础上结合大模型能力,实现数据工程的敏捷和智能化,促进数据分析的快速交付和数据民主。本次分享的主要内容包括:

    1. 传统数据管理面临的挑战

    2. DataOps 与大模型结合激活数据工程潜力

    3. 数造科技 DataOps 与大模型的产品落地实践

    4. 未来展望

    听众收益:

    1. DataOps 的工作流程

    2. 大模型 Text2SQL 的能力

    3. DataOps + 大模型如何进一步提效数据工程

    茶歇

    快手数据成本白盒化治理实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    冯赞锋
    快手 大数据架构师

    个人介绍:先后就职于百度、创新工厂-豌豆荚、快手三家公司,主要擅长大数据中台构建、数据治理,在搜索、爬虫、后端服务开发等方向也有一定积累,目前在快手主要负责数据治理架构设计和开发工作。

    演讲题目:快手数据成本白盒化治理实践

    演讲提纲:

    1.1 背景介绍

    · 数据治理介绍:快手数据治理整体介绍

    · 本次分享核心:通过引擎与数仓白盒化拆解,提升治理深度,实现降本增效

    1.2 收益评估方法

    · 压缩率

    · 存储数据量

    · 资源消耗(CPU核*天)

    · 作业运行时长

    · 作业失败率

    1.3 引擎白盒化

    · HBO

    · JVM升级

    · 压缩算法替换

    · 计算过程拆解

    1.4 数仓白盒化

    · 基于 Similar SubExpression 的公共模型构建和优化

    · 数仓自动化治理实践

    1.5 个人思考

    · 严谨:事前收益测算 -> 事中灰逐步度验证,解决异常CASE -> 事后整体效果评估

    · 深入:对引擎、工具、数仓均有深入理解

    · 行动:躬身入局,模糊各个团队的边界

    1.6 未来规划

    · 压缩效率持续提升

    · 实时计算Flink白盒化

    · 数仓架构优化

    听众收益:

    1、深入到大数据存储计算引擎和数据仓库,对其进行白盒化拆解,在治理思路、治理经验等方面有不少可借鉴之处

    2、讲述快手实践,如何成功降低千万级存储和计算成本

    阿里云 DataWorks 湖仓融合数据治理与大模型应用探索

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    田奇铣
    阿里云高级产品专家、阿里云DataWorks产品负责人

    个人介绍:阿里云DataWorks产品负责人,打造全链路数据开发治理平台支撑阿里巴巴集团与阿里云上众多客户的数字化转型。


    演讲题目:阿里云DataWorks:新一代“Data+AI”数据开发与数据治理平台的产品演进

    货运双边市场实验的挑战和实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    王世伟
    货拉拉 增长数据科学负责人

    个人介绍:2014年天津大学硕士毕业后加入腾讯,7年腾讯手游风控经验,先后主导过QQ飞车(休闲类)、英雄联盟(moba类)和和平精英(fps类)等20款+手游的安全对抗工作;2021年加入货拉拉,负责增长数据科学的日常管理,主要负责货运AB实验,GPT大模型、画像标签等技术能力建设的工作。

    演讲题目:货运双边市场实验的挑战和实践

    演讲提纲:

    1. 初识货运双边市场

    2. 货运场景实验问题

    3. 货运实验技术方案

    4. 货运场景实验案例

    听众收益:

    1. 同城货运如何交易的

    2. 如何缓解运力竞争带来的实验干扰

    3. 降本增效下如何衡量补贴策略效果

    因果推断与医学研究

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    胡金波
    重庆医科大学附属第一医院 内分泌科 副研究员,主治医师

    个人介绍:胡金波,医学博士,主治医师、副研究员、博士生导师,获得重庆市杰出青年基金、重庆市高校巴渝学者。擅长内分泌性高血压、糖尿病、甲亢等内分泌疾病的诊治,主要研究领域为肾上腺疾病。曾留学美国哈佛大学。担任美国内分泌协会(ENDO)会员、重庆医师协会内分泌代谢科医师分会委员。主持国家级课题2项、省部级课题4项,获得省部级科研奖励2项。执笔撰写《中国肾上腺意外瘤多学科管理专家共识》,参编第2版人民卫生出版社《“5+3”医学整合课程教材》。在《Ann Intern Med》、《J Am Coll Cardiol》、《Metabolism》等杂志发表论文35篇(中科院1区论文12篇)。

    演讲题目:因果推断与医学研究

    演讲提纲:随机实验和因果分析在医药领域有悠久的历史,并得到广泛的认可。本次分享将结合一个高血压诊疗的应用案例,从以下两方面介绍:

    1)医药临床实验里的实验设计

    2)医药学界对因果推断和实验设计的要求、解读和共识

    听众收益:

    1、如何从诊疗场景出发挑选合适的设计和推断方法

    2、了解因果推断和实验设计在垂直领域的应用

    3、医药学作为比互联网更早、更严谨使用随机实验和因果推断的垂直领域,给互联网公司带来的思考和启发

    茶歇

    如何保证实验外部有效性(External Validity)

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    韩士超
    腾讯 微信实验平台 数据科学家

    个人介绍:本硕毕业于加州大学伯克利分校统计系和计算机系,现在腾讯微信实验平台负责实验设计和因果推断研究,专注于双边市场的问题和其他各类方法的应用与落地。

    演讲题目:如何保证实验外部有效性(External Validity)

    演讲提纲:随着AB实验日益增加的重要性,我们越来越关注策略在小流量实验期间观测到的因果统计量能否在推全后保持一致。本次演讲将会从如下方面介绍微信实验平台在外部一致性问题上的探索和应用:

    1. 问题背景-可能会造成实验期间观测到的效果和推全后不一致的原因

    2. 实验设计侧的解决方法

    3. 实验分析侧的解决方法

    听众收益:

    1. 了解导致实验期间观测到的效果和推全后不一致的方法框架

    2. 了解双边市场实验设计和有溢出和抢夺效应时的实验设计及分析方法

    3 . 了解其他消除内外部不一致的方法及应用场景

    A/B测试中的实时监测策略与加速方法

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    詹若涵
    香港科技大学 助理教授

    个人介绍:詹若涵是香港科技大学工业工程与决策分析系助理教授。她的研究开发了使用因果推理、统计和机器学习等工具来创新数据驱动决策的方法,尤其对平台运营和经济学问题感兴趣。此前,她获得了北京大学数学学士学位、斯坦福大学统计学硕士学位和计算与应用数学博士学位。

    演讲题目:A/B测试中的实时监测策略与加速方法

    演讲提纲:

    1. 在A/B实验中进行实时监控时,为什么传统的固定样本量测试方法不能有效控制第一类错误(Type-I error)?

    2. 我们推出了一种新的置信区间构建方法,适合于有重复观测的用户。此方法可以有效地在实时监控中控制第一类错误(Type-I error)。

    3. 如何确保实时监控实验的效能(power)?

    4. 如何基于实时观测来加速实验进程?

    听众收益:

    1. 如何在实时监测A/B实验中有效控制第一类错误?

    2. 如何提高A/B实验的统计效能?

    3. 如何利用实时监测来加速A/B实验进程?

    知乎实验平台工程实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    杨昆
    知乎 实验平台技术负责人

    个人介绍:知乎实验平台技术负责人,多年微服务,云平台和大数据相关经验,亲历负责了知乎多代实验平台的产品迭代过程。

    演讲题目:知乎实验平台工程实践

    演讲提纲:介绍知乎实验平台的架构体系演进,如何从 0 到 1 搭建实验平台,从不科学到科学置信的发展过程。

    1. 知乎实验平台的发展历程

    2. 踩过的坑和经验沉淀

    3. 科学实验平台的架构设计

    4. 未来展望

    听众收益:

    1. 实验平台分流模型的架构和设计

    2. 实验分析链路的构建

    3. 在实验的过程中哪些坑可以避免少走一些弯路

    生成式AI在淘宝内容的研究与应用

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    俞一鹏
    淘天集团 高级算法专家

    个人介绍:俞一鹏,浙江大学计算机专业博士毕业,博士期间在新加坡国立大学进行联合培养。曾在IBM中国研究院担任研究科学家,在腾讯担任高级研究员。工作期间主要研究方向为自然语言处理和多模态,涉及内容创作、内容理解和内容推荐,也负责过“游戏内的自然语言交互”的AI项目。在IJCAI、ACM MM和Ubicomp等国际A类顶会上发表过多篇一作论文,有十几项已授权的中国和美国专利。

    演讲题目:生成式AI在淘宝内容的研究与应用

    演讲提纲:演讲主要介绍AIGC技术在淘宝内容化业务中的算法研发和业务应用。具体包括:

    1.UGC互动创新玩法

    2.视频剪辑&生成技术

    3.多模态大语言模型的落地挑战

    听众收益:

    1.AIGC技术在UGC互动的创新玩法尝试

    2.视频剪辑&生成技术如何赋能商家和用户

    3.多模态大语言模型的快速迭代和效果评估

    多模态预训练模型在OPPO端云场景的落地实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    陈宸
    OPPO 研究院 高级算法工程师

    个人介绍:陈宸,本科毕业于上海交通大学,博士毕业于香港科技大学。主要研究方向包括视频编解码、图像处理、持续学习/鲁邦学习等机器学习基础问题、计算机视觉在细粒度识别上的应用、多模态预训练在AIGC方向的应用等。曾任腾讯高级研究员,负责腾讯全媒体内容安全识别体系的搭建。现任OPPO研究院高级算法工程师,负责多模态预训练在跨模态检索、理解和生成的端云场景应用研究。在大模型预训练、端侧轻量化以及下游应用都有长期业务实践经验。

    演讲题目:多模态预训练模型在OPPO端云场景的落地实践

    演讲提纲:主要围绕图文多模态预训练模型在检索、理解、生成等各个方向的云端两侧的技术优化和落地场景介绍。如何在低资源的情况下用最少的算力优化多模态大模型已经成功落地到移动终端。

    1. 图文检索云端两侧优化思路

    2. 文图生成大模型继续预训练优化思路

    3. 文图生成下游垂域优化思路(个性化生成、垂域微调、文字渲染等)

    4. 文图生成大模型端侧轻量化落地介绍

    听众收益:

    1. 了解大模型在低资源下持续优化的算法实践经验;

    2. 了解大模型在移动终端的轻量化落地优化链路;

    3. 了解图文预训练模型在理解和生成方向的业务落地场景和实践经验。

    茶歇

    大模型从训练到产品落地分享

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    付凡
    vivo 人工智能部门算法总监

    个人介绍:毕业于中国地质大学(武汉)信息技术相关专业,超10年算法经验。2017年加入vivo,从事NLP算法相关工作,期间参与Jovi语音助手、电话秘书、手语翻译官等算法研发,从0到1搭建千万日活产品。目前在vivo从事大模型算法开发及产品落地相关工作。

    演讲题目:大模型从训练到产品落地分享

    演讲提纲:

    1. 大模型演进 & 技术架构;

    2. vivo 在大模型训练分享;

    3. vivo 在大模型产品落地技术;

    4. vivo 大模型成果展示;

    听众收益:

    1. 预训练数据如果构建及预处理方案?

    2. SFT 如何提高模型效果?

    3. 大模型如何适配到产品应用?

    AIGC在游戏内容创作领域的应用

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    冯可
    腾讯 公共数据平台部 内容智能应用组/AI组副组长

    个人介绍:上海交通大学、佐治亚理工学院双硕士。毕业后就职于腾讯,先后参与和负责QQ旋风、QQ公众号、腾讯看点、QQ浏览器、游戏内容中台相关数据和AI建设工作。

    演讲题目:AIGC在游戏内容创作领域的应用

    演讲提纲:

    1.行业背景

    游戏内容业务背景

    研究现状与挑战

    游戏智能创作效果

    2.文本生成与游戏内容创作

    文本生成相关技术

    在实际场景的应用效果

    3.图片生成与游戏内容创作

    图片生成相关技术

    在实际场景的应用效果

    4.视频生成与游戏内容创作

    视频生成相关技术

    在实际场景的应用效果

    5.未来的机遇与挑战

    听众收益:

    1、了解游戏内容业务背景,以便更好地把握市场趋势和发展方向

    2、了解游戏智能创作的研究现状与挑战

    3、掌握文本生成、图片生成和视频生成等相关技术在游戏内容创作中的应用,为实际业务提供参考

    模型赋能下的数据安全合规管理

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    张森森
    平安集团 科技会数据管理 高级经理

    个人介绍:电子科技大学硕士毕业,曾服务于中通服,TeraData 等知名公司。现就职于平安集团科技会安保中心数据管理部门,任技术平台组负责人(高级经理),曾负责引领集团数据中台的规划、建设,现负责集团数据技术管理运营工作以及集团数据管理平台的建设。

    演讲题目:模型赋能下的数据安全合规管理

    演讲提纲:

    1. 数据合规管理的架构

    2. 合规知识库的构建

    3. 借助大模型进行智能合规监测

    4. 实现全生命周期的数据合规监测 - DCMM评估模型,评判数据能力成熟度 - PIA评估个人信息收集利用合规性

    5. 构建数据合规化指标体系,实时监测风险

    听众收益:

    1. 学习使用大模型构建智能化数据合规知识库

    2. 了解如何利用大模型进行数据合规能力评估

    3. 获取利用大模型提升数据合规水平的行业经验

    基于需求驱动的数据治理场景化实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    左银康
    国信证券 数据治理负责人

    个人介绍:本科毕业于华中科技大学,先后在大型股份制商业银行、四大央企和国信证券从事数据治理工作。在商业银行总行开展数据治理,推动全行的数据标准制定、客户数据质量检核、元数据的管理和平台工具建设,在四大央企之一开展集团主数据建设,进行集团组织、员工、物料主数据的规划、实施和推广,目前在国信证券开展数据治理工作,负责公司数据治理组织、制度、流程、工具的规划、设计和实施落地。

    演讲题目:基于需求驱动的数据治理场景化实践

    演讲提纲:在大数据时代,数据治理已经成为了企业数字化转型的必经之路。然而传统的数据治理和数据资产管理工作往往偏向中后台,如何将数据资产管理与业务、开发结合,将数据治理由管控走向服务,更好地体现数据资产的成果和价值,是目前行业数据治理共同面临的痛点和挑战。为此,本次分享从需求管理的思路出发,面向监管报送、资产管理、经营分析等实际的业务场景以及模型开发、测试和生产环境一致性保障等开发场景,剖析痛点和需求,设计方案,实现数据治理的场景化落地。

    听众收益:

    1. 数据治理缺乏业务配合,如何驱动业务和开发的积极性?

    2. 数据治理流于形式,如何嵌入日常的研发节点?

    3. 数据治理涉及领域众多,如何融合打通?

    茶歇

    数字化转型下的大数据平台治理

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    许璐
    平安产险 数据智能 大数据工程师

    个人介绍:15年加入平安,目前负责平安产险大数据基础平台研发管理优化等工作。

    演讲题目:数字化转型下的大数据平台治理

    京东物流一站式敏捷BI产品规划与落地实践

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    焦文健
    京东 大数据产品总监

    个人介绍:京东大数据产品总监,中国人民大学MBA,十年以上大数据从业经验,具有数据中台化、数据业务化、数据智能化的落地实践经验。

    演讲题目:京东物流一站式敏捷BI产品规划与落地实践

    演讲提纲:

    - 京东物流业务数据应用现状及挑战。

    - 一站式敏捷BI产品的规划与迭代升级路径。

    - 业务应用实践案例。

    听众收益:

    - 理解敏捷BI产品规划和设计要点

    - 学习如何提升BI类数据产品的性能和用户体验

    - 学习BI产品助力业务自助式实现数据分析的实践路径

    线下营销的数智化应用分享

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    董沅
    阿里巴巴 瓴羊 数字营销产品经理

    个人介绍:主攻大数据AI方向,深耕行业应用产品多年,现负责阿里巴巴线下营销产品设计研发。

    演讲题目:线下营销的数智化应用分享

    演讲提纲:

    1、线下营销盲点分析

    2、利用数智能力实现线下营销人群的精准定位、精准触达、效果评估、资产二次运营的实践方法论分享

    3、案例分享

    听众收益:

    1、如何实现线下精准营销?

    2、如何评估户外品牌广告的效果?

    3、如何沉淀户外营销的资产?

    茶歇

    电商与内容型业务用增数据的基建异同

    DataFunCon2023·深圳站:大模型时代,Data+AI的变与不变
    熊瑾
    bilibili 数据产品经理

    个人介绍:曾负责网易数帆的数据开发平台、阿里数据中台的用增/私域/集团标签等数据项目。目前在bilibili负责数据产品。

    演讲题目:电商与内容型业务用增数据的基建异同

    演讲提纲:在不同的业务类型、组织形态、发展阶段等要素下,用增数据如何建设好。

    听众收益:用增数据建设在诸多不同要素下的数据实践差异:

    1. 业务类型:电商业务v.s.内容社区业务

    2. 组织形态:自上而下型v.s.自下而上型

    3. 发展阶段:成熟期v.s.生长期

    参会须知

    1206463963617065.jpeg

    赞助商

    hukan _转曲(2)_02.png

    活动门票
    活动筹备中
    售票推广中
    活动结束
    选择票
    门票名称
    单价(¥)
    截止时间
    数量
    普通票(单人票 · 早鸟 · 不含餐)
    5,000
    2023-11-25 17:20
    已售罄
    普通票(4人团 · 早鸟 · 不含餐)
    4,000
    2023-11-25 17:20
    已售罄
    标准票(4人团 · 早鸟 · 含餐)
    4,500
    2023-11-25 17:20
    已售罄

    退票说明:不支持退票

    优惠或邀请码
    票价
    0
    活动主办方
    往届回顾