使用微信扫一扫分享到朋友圈
使用微信扫一扫进入小程序分享活动
即日起免费报名【DEEPNOVA大模型论坛】,并于【11月25日上午】签到,可得:
🎁价值💰2000元的当日所有平行论坛门票
🎁价值💰365元的DataFunPro会员年卡1张
🎁大数据/AI方向技术书籍1本(仅限前50名签到用户)
11月25日(本周六)9:00-18:00,诚邀您来「深圳机场凯悦酒店」参加 DataFun 2023年举办的最后1场线下大会,各行各业的技术专家们将分享:
🔥大模型的前沿技术与实践,例如:大模型微调、部署、大模型“幻觉”问题。
🔥推荐系统的经典应用与变革,例如:强化学习在推荐系统中的实践探索与业界进展。
🔥AIGC与智能交互和业务提效,例如:大模型从训练到产品落地分享
🔥AB实验的应用与业内动态,例如:因果推断与医学研究
🔥智能金融建设与提效方法,例如:基于需求驱动的数据治理场景化实践
面向2026年的推荐算法前瞻
听众收益:
1. 了解未来3年的推荐系统前沿问题,把握大局方向
2. 参与我们的推荐算法的github开源项目:OneRec
OPPO 广告召回算法实践与探索
演讲提纲:
主要介绍 OPPO 互联网广告业务下,“面向最终目标的广告召回算法”的实践与探索经验,包括:
1. 召回模型架构选型的分析与实践
2. 召回离线评估标准的建设与迭代
3. “面向最终目标的广告召回算法”的业务优化实践与模型优化探索
听众收益:
希望能通过我们的分享,给从业者们一些参考:
1. “面向最终目标的广告召回算法”的利与弊
2. 召回算法离线评估指标的探索经验
3. 召回算法的业务优化与模型探索经验
QQ音乐推荐排序算法实践
演讲提纲:
1. QQ音乐推荐整体架构
2. 精排算法设计
3. 跨域推荐相关算法详解及探索
4. 总结与展望
听众收益:
了解QQ音乐推荐概况,熟悉多目标及多场景推荐的相关算法及应用实践。
强化学习在推荐系统中的实践探索与业界进展
听众收益:
在此次演讲中,我们将尝试探索强化学习与推荐系统的结合点,并分享一些实践中的踩坑经验。听众可能会对这两者的结合有更多的了解,认识到实践中可能的挑战和考虑点。通过一些业界的研究进展,我们希望提供一些思考的方向,但这只是一个起点。期待与大家共同探讨,相互学习,一同前行。
多模内容理解在百度商业广告中的探索实践
演讲提纲:
1、商业图文预训练大模型
2、多模内容表征如何赋能商业系统,包括排序系统、召回系统
3、多模内容理解与生成大一统
听众收益:
1、如何训练一个百亿的图文大模型?
2、多模态内容如何赋能商业系统?
3、排序模型的ID记忆性问题如何解决?
教育领域大模型的技术和应用
演讲提纲:
本次演讲将重点探讨如何利用大语言模型来应对智能教育所遭遇的技术问题,并分享我们团队的最新研究进展。此外,演讲的最后还将介绍我们在教育场景下结合上述技术所取得的应用成果。
听众收益:
听众将从本次演讲中获得对大语言模型在教音领域的深入了解,探索其如何解决智慧教育的技术挑战,以及实际应用中的具体案例,为教育者和技术从业者提供有价值的启示和激发创新思维的灵感。
通义星尘个性化大模型相关技术与应用
演讲提纲:
1. 大模型技术发展背景
2. 通义星尘个性化大模型技术体系:个性化、多模态、Agent智能体等
3. 通义星尘个性化大模型应用案例
听众收益:
1. 个性化大模型与通用大模型的区别
2. 通义星尘个性化大模型和通义mPLUG多模态大模型技术体系
3. 通义星尘个性化大模型真实项目应用案例
领域模型生产指南
演讲提纲:
1. 领域模型的难点
(1)领域模型和通用大模型的异同点
(2)领域模型的三大难点及其详细说明
2. 领域模型的训练方法论
(1)针对上诉难点的各种方法论
听众收益:
1. 了解领域模型与通用模型的不同,
2. 了解领域模型存在的几大难点
3. 如何应对这三大难点的多种可行方法论
使用 OpenLLM 构建和部署大模型应用
演讲提纲:
1.大模型应用部署的挑战
2.使用OpenLLM 快速启动一个大模型的应用
(1)通过 OpenLLM 调用大语言模型
(2)通过OpenLLM启动一个HTTP server
(3)使用命令行进行模型推理
(4)使用Python Client与应用交互
(5)OpenLLM 与 langchain的集成
(6)模型推理性能的优化
3.使用 BentoML 工具构建并部署大模型应用
(1)BentoML 简介
(2)构建一个bento
(3)将Bento部署到bentocloud
听众收益:
1. 如何使用常见的LLM快速启动一个应用
2. LLM应用性能优化的方法
3. BentoML 框架的安装与使用方法
大语言模型优化:Fine-Tuning 技术与方法实践
演讲提纲:
1. Fine-Tuning 大语言模型的必要性分析
(1)什么样的情况下需要 Fine-Tuning 大语言模型
(2)Fine-Tuning 大语言模型需要准备些什么
2. Fine-Tuning 算法介绍
(1)一般过程及原理
(2)模型量化
(3)qlora
(4)Neftune
3. 测试自己的大语言模型
(1)各种测试平台,工具,方法,标准介绍
(2)定义自己的测试指标和方式
听众收益:
1. 了解如何 Fine-Tuning 大语言模型
2. 了解 Fine-Tuning 的方法和策略
3. 了解 Fine-Tuning 大语言模型评估方法
大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索
演讲提纲:
幻觉问题是制约大模型在某容错性较低场景的拦路虎。而幻觉问题本身来源于多个方面,包括数据、训练方式以及解码策略等。本报告将围绕大模型幻觉的起因、如何评估、在真实落地场景下如何结合外部知识图谱进行缓解等几个方面进行介绍。
听众收益:
1. 什么是大模型幻觉,幻觉是好是坏?
2. 为什么会出现幻觉,又如何评价幻觉?
3. 幻觉在落地场景中如何用知识图谱加以缓解?外挂 or 受控生成 or 其他?
货运双边市场实验的挑战和实践
演讲提纲:
1. 初识货运双边市场
2. 货运场景实验问题
3. 货运实验技术方案
4. 货运场景实验案例
听众收益:
1. 同城货运如何交易的
2. 如何缓解运力竞争带来的实验干扰
3. 降本增效下如何衡量补贴策略效果
因果推断与医学研究
演讲提纲:
随机实验和因果分析在医药领域有悠久的历史,并得到广泛的认可。本次分享将结合一个高血压诊疗的应用案例,从以下两方面介绍:
1. 医药临床实验里的实验设计
2. 医药学界对因果推断和实验设计的要求、解读和共识
听众收益:
1. 如何从诊疗场景出发挑选合适的设计和推断方法
2. 了解因果推断和实验设计在垂直领域的应用
3. 医药学作为比互联网更早、更严谨使用随机实验和因果推断的垂直领域,给互联网公司带来的思考和启发
如何保证实验外部有效性(External Validity)
演讲提纲:
随着AB实验日益增加的重要性,我们越来越关注策略在小流量实验期间观测到的因果统计量能否在推全后保持一致。本次演讲将会从如下方面介绍微信实验平台在外部一致性问题上的探索和应用:
1. 问题背景-可能会造成实验期间观测到的效果和推全后不一致的原因
2. 实验设计侧的解决方法
3. 实验分析侧的解决方法
听众收益:
1. 了解导致实验期间观测到的效果和推全后不一致的方法框架
2. 了解双边市场实验设计和有溢出和抢夺效应时的实验设计及分析方法
3 . 了解其他消除内外部不一致的方法及应用场景
A/B测试中的实时监测策略与加速方法
演讲提纲:
1. 在A/B实验中进行实时监控时,为什么传统的固定样本量测试方法不能有效控制第一类错误(Type-I error)
2. 我们推出了一种新的置信区间构建方法,适合于有重复观测的用户。此方法可以有效地在实时监控中控制第一类错误(Type-I error)
3. 如何确保实时监控实验的效能(power)
4. 如何基于实时观测来加速实验进程?
听众收益:
1. 如何在实时监测A/B实验中有效控制第一类错误?
2. 如何提高A/B实验的统计效能?
3. 如何利用实时监测来加速A/B实验进程?
知乎实验平台工程实践
演讲提纲:
介绍知乎实验平台的架构体系演进,如何从 0 到 1 搭建实验平台,从不科学到科学置信的发展过程。
1. 知乎实验平台的发展历程
2. 踩过的坑和经验沉淀
3. 科学实验平台的架构设计
4. 未来展望
听众收益:
1. 实验平台分流模型的架构和设计
2. 实验分析链路的构建
3. 在实验的过程中哪些坑可以避免少走一些弯路
模型赋能下的数据安全合规管理
演讲提纲:
1. 数据合规管理的架构
2. 合规知识库的构建
3. 借助大模型进行智能合规监测
4. 实现全生命周期的数据合规监测 - DCMM评估模型,评判数据能力成熟度 - PIA评估个人信息收集利用合规性
5. 构建数据合规化指标体系,实时监测风险
听众收益:
1. 学习使用大模型构建智能化数据合规知识库
2. 了解如何利用大模型进行数据合规能力评估
3. 获取利用大模型提升数据合规水平的行业经验
基于需求驱动的数据治理场景化实践
演讲提纲:
在大数据时代,数据治理已经成为了企业数字化转型的必经之路。然而传统的数据治理和数据资产管理工作往往偏向中后台,如何将数据资产管理与业务、开发结合,将数据治理由管控走向服务,更好地体现数据资产的成果和价值,是目前行业数据治理共同面临的痛点和挑战。为此,本次分享从需求管理的思路出发,面向监管报送、资产管理、经营分析等实际的业务场景以及模型开发、测试和生产环境一致性保障等开发场景,剖析痛点和需求,设计方案,实现数据治理的场景化落地。
听众收益:
1. 数据治理缺乏业务配合,如何驱动业务和开发的积极性?
2. 数据治理流于形式,如何嵌入日常的研发节点?
3. 数据治理涉及领域众多,如何融合打通?
数字化转型下的大数据平台治理
生成式AI在淘宝内容的研究与应用
演讲提纲:
演讲主要介绍AIGC技术在淘宝内容化业务中的算法研发和业务应用。具体包括:
1. UGC互动创新玩法
2. 视频剪辑&生成技术
3. 多模态大语言模型的落地挑战
听众收益:
1. AIGC技术在UGC互动的创新玩法尝试
2. 视频剪辑&生成技术如何赋能商家和用户
3. 多模态大语言模型的快速迭代和效果评估
多模态预训练模型在OPPO端云场景的落地实践
演讲提纲:
主要围绕图文多模态预训练模型在检索、理解、生成等各个方向的云端两侧的技术优化和落地场景介绍。如何在低资源的情况下用最少的算力优化多模态大模型已经成功落地到移动终端。
1. 图文检索云端两侧优化思路
2. 文图生成大模型继续预训练优化思路
3. 文图生成下游垂域优化思路(个性化生成、垂域微调、文字渲染等)
4. 文图生成大模型端侧轻量化落地介绍
听众收益:
1. 了解大模型在低资源下持续优化的算法实践经验
2. 了解大模型在移动终端的轻量化落地优化链路
3. 了解图文预训练模型在理解和生成方向的业务落地场景和实践经验
大模型从训练到产品落地分享
演讲提纲:
1. 大模型演进 & 技术架构;
2. vivo 在大模型训练分享
3. vivo 在大模型产品落地技术
4. vivo 大模型成果展示
听众收益:
1. 预训练数据如果构建及预处理方案?
2. SFT 如何提高模型效果?
3. 大模型如何适配到产品应用?
AIGC在游戏内容创作领域的应用
听众收益:
1. 了解游戏内容业务背景,以便更好地把握市场趋势和发展方向
2. 了解游戏智能创作的研究现状与挑战
3. 掌握文本生成、图片生成和视频生成等相关技术在游戏内容创作中的应用,为实际业务提供参考
面向2026年的推荐算法前瞻
个人介绍:毕业于中科院软件所,目前在Shopee负责电商直播为主的内容电商算法,曾在腾讯,阿里,百分点工作过。主要研发方向包括推荐,内容生态,用户增长,营销等。
演讲题目:面向2026年的推荐算法前瞻
演讲提纲:
• 常规的推荐系统范式已经逐渐走入瓶颈,原因是在当前固定化的问题描述下模型和系统几乎已经发展 到极限。当前的主要范式是模型是召回+排序+重排,系统上是样本挖掘+特征工程+线上打分预估能力建设。一线大厂在上述领域已经把空间几乎挖掘殆尽。
• 同时可以看到,我们的用户仍然对当前推荐系统满意度并没有达到理想态。推荐系统是一个非常面向 于用户满意的平台系统,而用户满意是一个永远有不同理解的问题,正如“一千个用户眼里有一千种好 的推荐系统理解”。同时,我们的推荐系统效果和平台的最终价值之间仍然存在差距。
• 构建更好的推荐系统需要我们对重新定义“什么是好的推荐系统”。
• 这并不是学术界的“强行挖坑”或者“继续填坑”,而是不同层面上都在呼唤新的定义。
• 事实上,新的推荐系统已经零散的在学术界和工业界展现星星之火。
听众收益:
1)了解未来3年的推荐系统前沿问题,把握大局方向。
2)参与我们的推荐算法的github开源项目: OneRec。
OPPO 广告召回算法实践与探索
个人介绍:余文毅,2020年加入 OPPO,现任互联网广告召回算法负责人。先后就职于腾讯、OPPO,长期深耕广告推荐算法领域。目前主要负责召回算法优化,也在重排算法、行业优化算法等领域有一定实践。
演讲题目:OPPO 广告召回算法实践与探索
演讲提纲:主要介绍 OPPO 互联网广告业务下,“面向最终目标的广告召回算法”的实践与探索经验,包括:
1. 召回模型架构选型的分析与实践
2. 召回离线评估标准的建设与迭代
3. “面向最终目标的广告召回算法”的业务优化实践与模型优化探索
听众收益:希望能通过我们的分享,给从业者们一些参考:
1. “面向最终目标的广告召回算法”的利与弊
2. 召回算法离线评估指标的探索经验
3. 召回算法的业务优化与模型探索经验
QQ音乐推荐排序算法实践
个人介绍:硕士毕业于荷兰莱顿大学计算机专业,毕业后加入腾讯音乐至今,负责QQ音乐、IOT等多端多业务推荐算法优化。
演讲题目:QQ音乐推荐排序算法实践
演讲提纲:
1. QQ音乐推荐整体架构
2. 精排算法设计
3. 跨域推荐相关算法详解及探索
4. 总结与展望
听众收益:了解QQ音乐推荐概况,熟悉多目标及多场景推荐的相关算法及应用实践。
强化学习在推荐系统中的实践探索与业界进展
个人介绍:目前就职于虎牙,之前先后在百度和腾讯工作,一直从事推荐算法领域,尤其对重排/混排算法有较深的理解与创新。在业界首次提出把强化学习应用于多目标融合领域的方案,随后在腾讯多个产品有效果显著的落地应用,后续也有多家公司跟进应用,该成果整理成论文发表在数据挖掘领域国际顶级学术会议KDD2022上,引起较大反响,在这一领域开创了一个全新范式,大幅提升了效果天花板。
演讲题目:强化学习在推荐系统中的实践探索与业界进展
演讲提纲:
1. 推荐系统与强化学习
a. 强化学习概述,及其应用领域
b. 推荐系统的传统方法及当前挑战
c. 强化学习与推荐系统的结合点:交互性与长期满意度
(讲述结合的动机,推荐系统通过不断增加预测任务并拓展目标周期,以提升对用户的长期满意度,而强化学习的交互性及长期价值建模有助于推荐系统实现该目标)
2. 探索强化学习在推荐系统中的应用
a. 推荐问题的强化学习建模
b. 面临的核心挑战
i. 推荐系统的动态性与复杂性
ii. 延迟奖励与复杂的环境反馈
c. 常见的强化学习实践方案,优势及局限性
d. 离线强化学习的实践探索
i.OfflineRL的训练框架
ii.不同范式的OfflineRL模型算法
iii.离线评估方法
(以踩坑过程为线索,介绍建模方法,在探索过程中遇到的一些问题,分布偏移、外推误差,模型训练困难,线上效果不稳定等等。介绍一种成功案例的OfflineRL的流程框架)
3. 业界的新进展与进展
a. 近期研究成果,论文分享或成功案例
b. 新的算法与技术概述
c. 未来展望,一些可以尝试的方向畅想
听众收益:在此次演讲中,我们将尝试探索强化学习与推荐系统的结合点,并分享一些实践中的踩坑经验。听众可能会对这两者的结合有更多的了解,认识到实践中可能的挑战和考虑点。通过一些业界的研究进展,我们希望提供一些思考的方向,但这只是一个起点。期待与大家共同探讨,相互学习,一同前行。
多模内容理解在百度商业广告中的探索实践
个人介绍:硕士毕业于中科院自动化研究所,2016年加入百度商业广告团队,先后从事凤巢点击率模型优化、商业多模内容理解等工作,目前在商业技术中台团队担任内容中台资深算法工程师,负责多模态理解与生成方向,相关工作多次发表于 SIGIR,CIKM,BigData 等国际会议。
演讲题目:多模内容理解在百度商业广告中的探索实践
演讲提纲:
1. 商业图文预训练大模型
2. 多模内容表征如何赋能商业系统,包括排序系统、召回系统
3. 多模内容理解与生成大一统
听众收益:
1. 如何训练一个百亿的图文大模型?
2. 多模态内容如何赋能商业系统?
3. 排序模型的 ID 记忆性问题如何解决?
教育领域大模型的技术和应用
个人介绍:苏喻,工学博士,硕士生导师,合肥综合性国家科学中心人工智能研究院副研究员,合肥师范学院计算机学院副教授,专业负责人,中国计算机学会大数据专家委员会通讯委员,安徽省计算机学会青少年信息学教育专委会秘书长,研究方向为自然语言理解,数据挖掘与推荐系统。2011年7月-2022年2月就职于科大讯飞研究院,历任科大讯飞AI教育研究院副院长,AI研究院认知群教育条线负责人,学习机业务线业务总监,重点负责教育领域个性化学习业务,其研发的多项成果已经成功的应用到讯飞智学网、讯飞学习机等相关产品中,于2018年获得讯飞首届华夏创新奖,获2020年吴文俊人工智能科学技术奖科技进步一等奖。同时,先后参与多项安徽省、部级等层面的重大项目科研工作,如国家自然科学基金重点项目“基于多模态数据的学习者认知诊断理论与关键技术研究”、科技部重大专项“面向分类用户个性化需求的科技大数据精准服务技术”等。其间获得多项发明专利,并在AAAI、KDD、IJCAI等国际知名学术会议与期刊发表文章近50余篇。
演讲题目:教育领域大模型的技术和应用
演讲提纲:随着技术的不断演进,大语言模型,如GPT-4,及其相关技术已经深深影响了许多行业。尤其在教育领域,这些模型已经促进了许多前沿的应用与实践的出现。通过将大语言模型融入智慧教育,我们希望其能够解决传统方法所面临的问题。本次演讲将重点探讨如何利用大语言模型来应对智能教育所遭遇的技术问题,并分享我们团队的最新研究进展。此外,演讲的最后还将介绍我们在教育场景下结合上述技术所取得的应用成果。
1.简述大语言模型在通用教育下有哪些应用场景
2.阐述目前智慧教育在技术上所面临的问题 (有标签数据少、闭环周期长、需要融入领域知识)
3.介绍团队在教育领域大模型相关的技术
4.1基于大语言模型的知识构建
(1)人机合的知识图谱构建技术:通过与大语言模型的结合,实现人机协作的方式,可以更高效、准确地构建领域内的知识图谱;
(2)大模型的小知识学习技术:允许大模型专门针对某一领域或主题进行微学习,从而生成更加准确的领域相关内容;
4.2基于大语言模型的仿真强化试题推荐技术
(1)基于大语言模型的学生学习行为仿真技术:通过大模型分析学生的学习行为,模拟其学习路径和趋势,从而预测学生在进行某个学习和做题后的知识水平情况;
(2)基于大语言模型的强化试题推荐技术:结合强化学习和大语言模型仿真,系统可以根据学生的学习历程和反馈,动态推荐适合其学习水平和需求的试题,帮助学生更加高效地学习和巩固知识;
5.教育领域大模型相关的应用
(1)数字人AI录播课
(2) AI智慧编译器
听众收益:听众将从本次演讲中获得对大语言模型在教音领域的深入了解,探索其如何解决智慧教育的技术挑战,以及实际应用中的具体案例,为教育者和技术从业者提供有价值的启示和激发创新思维的灵感。
通义星尘个性化大模型相关技术与应用
个人介绍:严明,中科院自动化所博士,阿里巴巴通义实验室NLP高级算法专家。主要研究方向为对话问答、预训练语言模型与多模态内容理解,目前为团队多模态大模型基础技术负责人。曾在SQuAD/GLUE/MSMARCO/VQA等10多个国际赛事中取得第一,并4次取得超越人类基准的结果,发表ICML/ACL/EMNLP/ICLR/CVPR/AAAI等40多篇国际顶级会议论文,目前负责通义星尘个性化大模型基础技术与X-PLUG开源体系构建。
演讲题目:通义星尘个性化大模型相关技术与应用
演讲提纲:
1. 大模型技术发展背景
2. 通义星尘个性化大模型技术体系:个性化、多模态、Agent智能体等
3. 通义星尘个性化大模型应用案例
听众收益:
1. 个性化大模型与通用大模型的区别
2. 通义星尘个性化大模型和通义mPLUG多模态大模型技术体系
3. 通义星尘个性化大模型真实项目应用案例
领域模型生产指南
使用 OpenLLM 构建和部署大模型应用
大语言模型优化:Fine-Tuning 技术与方法实践
大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索
个人介绍:曾就职于中国科学院软件研究所。主要研究方向为文档理解、知识增强。近年来参与360文档大模型、360智脑大模型及右侧推荐等落地项目研发,发表专利十余项、论文数篇,开源项目70余个,在OGB实体链接预测、ICPR 公式识别等多个评测任务中获得多项冠亚军,创立“老刘说NLP”技术社区,具有广泛影响力。
货运双边市场实验的挑战和实践
个人介绍:2014年天津大学硕士毕业后加入腾讯,7年腾讯手游风控经验,先后主导过QQ飞车(休闲类)、英雄联盟(moba类)和和平精英(fps类)等20款+手游的安全对抗工作;2021年加入货拉拉,负责增长数据科学的日常管理,主要负责货运AB实验,GPT大模型、画像标签等技术能力建设的工作。
演讲题目:货运双边市场实验的挑战和实践
演讲提纲:
1. 初识货运双边市场
2. 货运场景实验问题
3. 货运实验技术方案
4. 货运场景实验案例
听众收益:
1. 同城货运如何交易的
2. 如何缓解运力竞争带来的实验干扰
3. 降本增效下如何衡量补贴策略效果
因果推断与医学研究
个人介绍:胡金波,医学博士,主治医师、副研究员、博士生导师,获得重庆市杰出青年基金、重庆市高校巴渝学者。擅长内分泌性高血压、糖尿病、甲亢等内分泌疾病的诊治,主要研究领域为肾上腺疾病。曾留学美国哈佛大学。担任美国内分泌协会(ENDO)会员、重庆医师协会内分泌代谢科医师分会委员。主持国家级课题2项、省部级课题4项,获得省部级科研奖励2项。执笔撰写《中国肾上腺意外瘤多学科管理专家共识》,参编第2版人民卫生出版社《“5+3”医学整合课程教材》。在《Ann Intern Med》、《J Am Coll Cardiol》、《Metabolism》等杂志发表论文35篇(中科院1区论文12篇)。
演讲题目:因果推断与医学研究
演讲提纲:随机实验和因果分析在医药领域有悠久的历史,并得到广泛的认可。本次分享将结合一个高血压诊疗的应用案例,从以下两方面介绍:
1)医药临床实验里的实验设计
2)医药学界对因果推断和实验设计的要求、解读和共识
听众收益:
1、如何从诊疗场景出发挑选合适的设计和推断方法
2、了解因果推断和实验设计在垂直领域的应用
3、医药学作为比互联网更早、更严谨使用随机实验和因果推断的垂直领域,给互联网公司带来的思考和启发
如何保证实验外部有效性(External Validity)
个人介绍:本硕毕业于加州大学伯克利分校统计系和计算机系,现在腾讯微信实验平台负责实验设计和因果推断研究,专注于双边市场的问题和其他各类方法的应用与落地。
演讲题目:如何保证实验外部有效性(External Validity)
演讲提纲:随着AB实验日益增加的重要性,我们越来越关注策略在小流量实验期间观测到的因果统计量能否在推全后保持一致。本次演讲将会从如下方面介绍微信实验平台在外部一致性问题上的探索和应用:
1. 问题背景-可能会造成实验期间观测到的效果和推全后不一致的原因
2. 实验设计侧的解决方法
3. 实验分析侧的解决方法
听众收益:
1. 了解导致实验期间观测到的效果和推全后不一致的方法框架
2. 了解双边市场实验设计和有溢出和抢夺效应时的实验设计及分析方法
3 . 了解其他消除内外部不一致的方法及应用场景
A/B测试中的实时监测策略与加速方法
个人介绍:詹若涵是香港科技大学工业工程与决策分析系助理教授。她的研究开发了使用因果推理、统计和机器学习等工具来创新数据驱动决策的方法,尤其对平台运营和经济学问题感兴趣。此前,她获得了北京大学数学学士学位、斯坦福大学统计学硕士学位和计算与应用数学博士学位。
演讲题目:A/B测试中的实时监测策略与加速方法
演讲提纲:
1. 在A/B实验中进行实时监控时,为什么传统的固定样本量测试方法不能有效控制第一类错误(Type-I error)?
2. 我们推出了一种新的置信区间构建方法,适合于有重复观测的用户。此方法可以有效地在实时监控中控制第一类错误(Type-I error)。
3. 如何确保实时监控实验的效能(power)?
4. 如何基于实时观测来加速实验进程?
听众收益:
1. 如何在实时监测A/B实验中有效控制第一类错误?
2. 如何提高A/B实验的统计效能?
3. 如何利用实时监测来加速A/B实验进程?
知乎实验平台工程实践
个人介绍:知乎实验平台技术负责人,多年微服务,云平台和大数据相关经验,亲历负责了知乎多代实验平台的产品迭代过程。
演讲题目:知乎实验平台工程实践
演讲提纲:介绍知乎实验平台的架构体系演进,如何从 0 到 1 搭建实验平台,从不科学到科学置信的发展过程。
1. 知乎实验平台的发展历程
2. 踩过的坑和经验沉淀
3. 科学实验平台的架构设计
4. 未来展望
听众收益:
1. 实验平台分流模型的架构和设计
2. 实验分析链路的构建
3. 在实验的过程中哪些坑可以避免少走一些弯路
模型赋能下的数据安全合规管理
个人介绍:电子科技大学硕士毕业,曾服务于中通服,TeraData 等知名公司。现就职于平安集团科技会安保中心数据管理部门,任技术平台组负责人(高级经理),曾负责引领集团数据中台的规划、建设,现负责集团数据技术管理运营工作以及集团数据管理平台的建设。
演讲题目:模型赋能下的数据安全合规管理
演讲提纲:
1. 数据合规管理的架构
2. 合规知识库的构建
3. 借助大模型进行智能合规监测
4. 实现全生命周期的数据合规监测 - DCMM评估模型,评判数据能力成熟度 - PIA评估个人信息收集利用合规性
5. 构建数据合规化指标体系,实时监测风险
听众收益:
1. 学习使用大模型构建智能化数据合规知识库
2. 了解如何利用大模型进行数据合规能力评估
3. 获取利用大模型提升数据合规水平的行业经验
基于需求驱动的数据治理场景化实践
个人介绍:本科毕业于华中科技大学,先后在大型股份制商业银行、四大央企和国信证券从事数据治理工作。在商业银行总行开展数据治理,推动全行的数据标准制定、客户数据质量检核、元数据的管理和平台工具建设,在四大央企之一开展集团主数据建设,进行集团组织、员工、物料主数据的规划、实施和推广,目前在国信证券开展数据治理工作,负责公司数据治理组织、制度、流程、工具的规划、设计和实施落地。
演讲题目:基于需求驱动的数据治理场景化实践
演讲提纲:在大数据时代,数据治理已经成为了企业数字化转型的必经之路。然而传统的数据治理和数据资产管理工作往往偏向中后台,如何将数据资产管理与业务、开发结合,将数据治理由管控走向服务,更好地体现数据资产的成果和价值,是目前行业数据治理共同面临的痛点和挑战。为此,本次分享从需求管理的思路出发,面向监管报送、资产管理、经营分析等实际的业务场景以及模型开发、测试和生产环境一致性保障等开发场景,剖析痛点和需求,设计方案,实现数据治理的场景化落地。
听众收益:
1. 数据治理缺乏业务配合,如何驱动业务和开发的积极性?
2. 数据治理流于形式,如何嵌入日常的研发节点?
3. 数据治理涉及领域众多,如何融合打通?
数字化转型下的大数据平台治理
个人介绍:15年加入平安,目前负责平安产险大数据基础平台研发管理优化等工作。
演讲题目:数字化转型下的大数据平台治理
生成式AI在淘宝内容的研究与应用
个人介绍:俞一鹏,浙江大学计算机专业博士毕业,博士期间在新加坡国立大学进行联合培养。曾在IBM中国研究院担任研究科学家,在腾讯担任高级研究员。工作期间主要研究方向为自然语言处理和多模态,涉及内容创作、内容理解和内容推荐,也负责过“游戏内的自然语言交互”的AI项目。在IJCAI、ACM MM和Ubicomp等国际A类顶会上发表过多篇一作论文,有十几项已授权的中国和美国专利。
演讲题目:生成式AI在淘宝内容的研究与应用
演讲提纲:演讲主要介绍AIGC技术在淘宝内容化业务中的算法研发和业务应用。具体包括:
1.UGC互动创新玩法
2.视频剪辑&生成技术
3.多模态大语言模型的落地挑战
听众收益:
1.AIGC技术在UGC互动的创新玩法尝试
2.视频剪辑&生成技术如何赋能商家和用户
3.多模态大语言模型的快速迭代和效果评估
多模态预训练模型在OPPO端云场景的落地实践
个人介绍:陈宸,本科毕业于上海交通大学,博士毕业于香港科技大学。主要研究方向包括视频编解码、图像处理、持续学习/鲁邦学习等机器学习基础问题、计算机视觉在细粒度识别上的应用、多模态预训练在AIGC方向的应用等。曾任腾讯高级研究员,负责腾讯全媒体内容安全识别体系的搭建。现任OPPO研究院高级算法工程师,负责多模态预训练在跨模态检索、理解和生成的端云场景应用研究。在大模型预训练、端侧轻量化以及下游应用都有长期业务实践经验。
演讲题目:多模态预训练模型在OPPO端云场景的落地实践
演讲提纲:主要围绕图文多模态预训练模型在检索、理解、生成等各个方向的云端两侧的技术优化和落地场景介绍。如何在低资源的情况下用最少的算力优化多模态大模型已经成功落地到移动终端。
1. 图文检索云端两侧优化思路
2. 文图生成大模型继续预训练优化思路
3. 文图生成下游垂域优化思路(个性化生成、垂域微调、文字渲染等)
4. 文图生成大模型端侧轻量化落地介绍
听众收益:
1. 了解大模型在低资源下持续优化的算法实践经验;
2. 了解大模型在移动终端的轻量化落地优化链路;
3. 了解图文预训练模型在理解和生成方向的业务落地场景和实践经验。
大模型从训练到产品落地分享
个人介绍:毕业于中国地质大学(武汉)信息技术相关专业,超10年算法经验。2017年加入vivo,从事NLP算法相关工作,期间参与Jovi语音助手、电话秘书、手语翻译官等算法研发,从0到1搭建千万日活产品。目前在vivo从事大模型算法开发及产品落地相关工作。
演讲题目:大模型从训练到产品落地分享
演讲提纲:
1. 大模型演进 & 技术架构;
2. vivo 在大模型训练分享;
3. vivo 在大模型产品落地技术;
4. vivo 大模型成果展示;
听众收益:
1. 预训练数据如果构建及预处理方案?
2. SFT 如何提高模型效果?
3. 大模型如何适配到产品应用?
AIGC在游戏内容创作领域的应用
个人介绍:上海交通大学、佐治亚理工学院双硕士。毕业后就职于腾讯,先后参与和负责QQ旋风、QQ公众号、腾讯看点、QQ浏览器、游戏内容中台相关数据和AI建设工作。
演讲题目:AIGC在游戏内容创作领域的应用
演讲提纲:
1.行业背景
游戏内容业务背景
研究现状与挑战
游戏智能创作效果
2.文本生成与游戏内容创作
文本生成相关技术
在实际场景的应用效果
3.图片生成与游戏内容创作
图片生成相关技术
在实际场景的应用效果
4.视频生成与游戏内容创作
视频生成相关技术
在实际场景的应用效果
5.未来的机遇与挑战
听众收益:
1、了解游戏内容业务背景,以便更好地把握市场趋势和发展方向
2、了解游戏智能创作的研究现状与挑战
3、掌握文本生成、图片生成和视频生成等相关技术在游戏内容创作中的应用,为实际业务提供参考