微信分享
第25届 GOPS 全球运维大会暨研运数智化技术峰会 · 深圳站

使用微信扫一扫分享到朋友圈

活动详情

GOPS 全球运维大会由高效运维社区(GreatOPS)和 BizDevOps 社区联合主办,指导单位为 DAOPS 基金会、开放运维联盟(OOPSA),GOPS 大会是国内第一个运维行业大会,面向互联网、金融、通信及传统行业广大运维技术人员,旨在传播先进技术思想和理念,分享业内最佳实践。

2025年,GOPS 全球运维大会即将迎来十周年,自2015年启航一路走来,GOPS 吸引了来自全球各地的 IT 精英和技术领袖,共同探讨 IT 技术领域的最新技术和最佳实践。迄今为止,GOPS 已经举行了二十四次,大会参会嘉宾累计突破8万人次,国内每一站均为本地区最大规模的高端运维盛会,满意度和推荐度高达97%以上。

第二十五届 GOPS 全球运维大会暨研运数智化技术峰会·深圳站将于2025年4月25-26日在深圳湾万丽酒店召开。

大会将为期2天,侧重大模型、DevOps、SRE、AIOps、BizDevOps、云原生及安全等热门技术领域。特设了如大模型 + 运维/研发测试、银行/证券数字化转型、平台工程、DevOps/AIOps 最佳实践、互联网名企等特色专场。

GOPS 主要面向运维行业的中高端技术人员,包括运维、开发、测试、架构师等群体。目的在于帮助IT技术从业者系统学习了解相关知识体系,让创新技术推动社会进步。您将会看到国内外知名企业的相关技术案例,也能与国内顶尖的技术专家探讨技术实践,使企业可以根据最佳实践确定自己的选型方案,并提前预估相关的风险和收益,实现技术落地。


【渠道合作】

 渠道总监:刘   欣 158 0111 5386(微信同号)


【赞助和门票业务咨询】

 业务经理:周   静 130 7118  2180 (微信同号)

 业务经理:刘毅菲 130 2108 2989(微信同号)

 业务经理:尹   蜜 130 2108 5529(微信同号)


【议题申报】

 项目经理:高婉莹 185 1087 3635(微信同号)

 项目总监:刘   杰 156 5212 7323(微信同号)


荣誉顾问—大会顾问团—大会主席团

WechatIMG14720.jpg

五大亮点

1010217904988 (1).jpeg

专场规划

screenshot-20250214-171029.png

当前精彩议题(持续更新中)

议程-GOPS25深圳站_副本2.jpg

活动嘉宾(持续更新中...)
  • 刘亮
    长安汽车
    大数据中心 CTO
    演讲主题:长安 DevOps 与数字化转型实践
    议题简介:敬请期待
    演讲提纲:
    1、长安数字化转型规划与 DevOps 落地概要;
    2、DevOps 与数字化转型概要;
    3、DevOps 使能数字化转型实践;
    4、DevOps 与数字化转型协同实践;
    5、DevOps 自身数字化转型实践。
    听众收益:敬请期待
    个人简介: 刘亮,14年大型企业数字化变革经验;17年大型企业 IPD 数字化变革规划与落地; 21年软件研发及软件研发管理体系建设经验。
  • 杨康
    中国工商银行
    软件开发中心 金融科技经理
    演讲主题:从理念到实践:BizDevOps 在工行的破局之路
    议题简介:敬请期待
    演讲提纲:
    1、金融科技在新时代下面临的机会与挑战;
    2、大型商业银行 BizDevOps 实践案例;
    3、新局面下大型商业银行的应变之法。
    听众收益:
    1、了解工行软件开发中心 BizDevOps 实践案例及受益;
    2、了解大型商业银行数智研发新模式;
    3、围绕数字化转型新局面,了解大型商业银行的应变之法。
    个人简介:杨康,DevOps 与研发效能专家,持有 CSM、CSPO、CSD、SAFe 认证,10年以上的金融科技从业经验,历任产品经理、开发、运维、效能管理,致力于组织级 DevOps 推广和落地。牵头工行软件开发中心信用卡运营管理项目通过信通院 BizDevOps 业务价值管理模块三级认证,成为业界首批、同业首家达到该认证水平的机构。
  • 王洋
    招商基金
    IT 基础架构师
    演讲主题:招商基金 FinOps 数字化 IT 运营分析管理平台探索与实践
    议题简介:近些年,FinOps 的实践在国内外日趋成熟,本项目正是基于招商基金的内部需求以及外部成熟技术,以构建“数据+算法+场景”的高价值服务型数据资产为指引,落地了一套完整的以业务系统为中心的 FinOps 数字化 IT 容量运营分析平台,截止目前,直接成本加间接成本共计约近200万元加12人月左右,并完成相关软著一篇、专利一篇,并在信通院组织的2024年金信通比赛中获得卓越案例奖。
    演讲提纲:
    1、 FinOps 的发展与现状;
    2、 招商基金 FinOps 建设思路与整体架构;
    3、 招商基金 FinOps 运营分析平台建设实践;
    4、未来规划与展望。
    听众收益:
    1、FinOps 能给企业降本增效带来哪些可以快速见效的收益;
    2、FinOps 相关系统平台建设过程中的设计思路是什么;
    3、FinOps 相关系统在实施过程中有哪些注意事项;
    4、FinOps 在企业落地过程中应该如何构建各种场景。
    个人简介:王洋,现任招商基金公司信息技术部架构师(基础架构方向)。硕士研究生学历,曾就职于蚂蚁金服金融云团队。擅长领域:云计算IAAS 和 PAAS 平台规划与建设、系统架构设计、API 治理、微服务网关、可观测性建设、一体化运维平台建设、DevSecOps、SRE、信创在基金行业落地等。ITIL 认证,并在 IEEE Computer 发表论文” on-demand security architecture”,撰写专利“一种数据保护方法、装置及数据保护系统”(专利号:201010538235.8)。GOPS 全球运维大会优秀讲师,信通院混沌工程工作组成员,信通院一云多芯稳定性工作组成员,TWT 社区专家,互联网产业联盟零信任产业标准工作组成员,基金行业信息安全白皮书编者成员,DevOps Master 认证等。
  • 鞠鹏
    国投证券
    混沌工程专家
    演讲主题:故障演练平台进化论——自动化与多态化演练
    议题简介:本次演讲深入探讨混沌工程的成长历程与进化趋势,旨在揭示如何实现混沌实验的闭环全流程管理,推动其向一体化、自动化、智能化阶段迈进。演讲将围绕三大核心篇章展开:首先,直面混沌实验挑战,揭示技术创新如何助力实验流程自动化,显著提升演练效率与精确度;其次,探索多态化演练模式,灵活应对多样化应用场景需求,为混沌文化的培育奠定坚实基础;最后,展望 AI 大模型在混沌工程中的应用潜力,借助机器学习、深度学习及强化学习等前沿技术,重塑实验设计、执行与分析流程,引领混沌工程步入智能化新时代。
    演讲提纲:
    1、系统稳定性挑战与混沌工程定位;
    2、混沌实验流程自动化:破解实验困境的钥匙;
    3、混沌演练模式多态化:培育团队混沌文化的基石。
    听众收益:
    1、掌握混沌工程精髓:了解混沌工程的核心原理与实践方法,有效提升系统韧性,确保业务连续性与稳定性;
    2、领略自动化与多态化演练魅力:了解混沌实验流程自动化与多态化演练模式的最新实践,降低实验门槛、培育团队混沌文化;
    3、展望智能化未来:洞察AI大模型在混沌工程领域的广阔前景,了解混沌工程智能化时代的发展趋势,为系统稳定性保障注入全新动力。
    个人简介:鞠鹏,拥有多年深耕证券行业的经历,我从开发干到运维,目前就职于国投证券担任运维开发职位。我怀揣对技术和创新的无限热忱,在职业生涯中不仅积累了深厚的产品思维底蕴,还实战锤炼了系统稳定性优化的专长。在券商的工作经历,我参与了主流交易软件的开发、运维、测试等工作,对运维工具的开发及其与业务场景的深度融合有着独到见解与丰富实践。 我的工作哲学始终围绕“业务为核心”,依托产品思维引领运维策略,致力于不断精进系统稳定性与安全性,确保业务顺畅运行。我乐于开放我的实战经验宝盒,期待能与同样致力于提升系统稳健性的同行们携手共进,相互启迪,共创佳绩。通过此次演讲,我满怀信心地将为大家激发新的思考火花,共同增强在业务驱动下的系统稳定性优化能力,提升我们的专业技能与行业自信。
  • 莫本榕
    国投证券
    运维开发工程师
    演讲主题:基于可观测指标体系提升应用诊断分析能力的实践
    议题简介:敬请期待
    演讲提纲:
    1、统一监控平台建设概述;
    2、可观测指标体系的建设及推广;
    3、全链路可观测场景展望。
    听众收益:
    1、了解统一监控平台建设的过程;
    2、了解利用可观测指标体系提升应用故障分析诊断能力的实践;
    3、共同学习探索行业全链路可观测建设思路。
    个人简介: 莫本榕,拥有15年运维相关工作经验,先后从事过 IDC、网络、系统运维及运维开发工作。目前在国投证券主要负责统一监控平台的建设、运维及运营工作。
  • 张立科
    中国移动
    信息技术中心 资深 SRE 专家
    演讲主题:基于 SRE 稳定性保障体系的运维数智化转型实践
    议题简介:在人工智能大模型技术不断创新与行业应用快速发展的背景下,传统系统稳定性保障体系正面临着向数字化和智能化转型的压力与挑战。基于SRE的稳定性保障体系,不仅在确保系统稳定、安全运行方面起到了至关重要的作用,还显著地推动了运维领域的数字化和智能化转型。通过深入探索运维数智化转型的有效路径与实践成效,我们能够更好地理解并预见未来稳定性保障体系的发展趋势与方向。
    演讲提纲:
    1、运维数智化转型面临的挑战;
    2、SRE 在稳定性保障体系中的关键作用;
    3、稳定性保障体系建设和运维数智化转型实践;
    4、未来展望-面向未来的稳定性保障体系。
    听众收益:
    1、了解大模型在运维领域的发展,应用和趋势;
    2、了解和借鉴标准化、体系化 SRE 最佳实践在运维数智化转型中发挥的关键作用;
    3、了解和借鉴中国移动 IT 支撑系统稳定性保障体系数智化转型实践路径和成效;
    4、共同探索在大模型技术创新和产业应用背景下面向未来的稳定性保障体系。
    个人简介:张立科,深耕运维15年,曾就职于中央电视台新闻共享中心、中体骏彩、某头部消费金融公司等企业和单位,从事系统运维工作。从一线运维、值班组长、两地三中心运维调度到资深 SRE 工程师、战略咨询顾问和运维专家,始终致力于大型信息系统的稳定性保障体系建设和运维管理工作。参与两地三中心运维模式演进和管理工作,主导完成统一监控体系建设、自动化智能巡检平台建设、告警治理、应急体系建设和变更风险管控等专项工作,现就职于中移动信息技术有限公司,负责部门 SRE 和 AI +相关工作,SRE 体系建设创新实践入选2024年信通院云系统稳定安全运行典型案例。获得运维大会金牌讲师荣誉称号。
  • 胡炜
     江苏移动
    运维管理资深专家
    演讲主题:基于 AI+大模型的运维智能体探索与实践
    议题简介:围绕大规模支撑系统云原生运维面临的问题和挑战,依托集省平台协同建设模式,引入大模型平台作为 AI 使能层自研孵化多个智能体,赋能 AI+统一运维治理。创新打造了包括上云导诊、深度巡检、异常诊断、故障处置智能体等一批高价值生产力场景,简化操作流程,重塑运维服务体验,推动运维水平迈上数智化新台阶。
    演讲提纲:
    1、江苏公司 AI+支撑工作思路;
    2、AI+ 运维领域场景规划及能力体系;
    3、大模型在云原生运维领域的场景应用。
    听众收益:
    1、了解大模型在运营运维领域的发展现状,应用场景及未来发展趋势;
    2、了解大模型在运维运营领域的体系建设情况;
    3、共同学习探索行业,垂直领域大模型建设思路。
    个人简介:胡炜,负责 PaaS 层架构规划和数智化运维能力提升,以及日常维护和系统优化工作,确保 IT 云安全稳定运行。具有多年的运维管理经验、运维系统规划经验、业务连续性管理经验、AIOPS 运维能力构建经验。集团 IT 运维专家,高级通信工程师,取得第一发明人专利11项;多次荣获省级创新一、二、三等奖及多项在岗技术革新成果奖等。
  • 蒋浩澜
    中邮消费金融
    运行维护专家 
    演讲主题:全场景自愈运维体系构建:从版本回退到双活切换的深度实践
    议题简介:随着企业数字化转型的加速,IT 系统的复杂性和业务连续性要求不断提高,传统运维模式面临效率低、响应慢、人工干预多等诸多挑战。本次演讲以“全场景自愈运维体系构建:从版本回退到双活切换的深度实践”为主题,分享如何通过智能化、自动化手段构建全面覆盖的运维自愈体系。 我们将深入解析自愈运维的核心理念和技术实现,从故障感知、根因分析到自动化处置,系统性介绍关键场景的实践案例。内容涵盖核心链路应用版本的自愈回退、同城双活切换的自愈恢复,以及复杂场景下的应急自愈操作。通过实际案例与数据展示,我们将阐释如何实现从“分钟级”感知与修复到“秒级”切换的运维能力升级。
    本次分享将为您带来全面的技术框架、实施建议和未来趋势展望,助力企业打造高效、可靠的运维自愈体系,推动智能化运维迈向新高度。
    演讲提纲:
    1、企业数字化转型下的运维挑战与自愈需求;
    2、自愈运维的核心理念与价值体现;
    3、全场景自愈运维体系的构建思路;
    4、核心链路回退与双活切换的自愈实践案例;
    5、自愈运维成果总结与未来发展方向。
    听众收益:
    1、掌握核心链路版本回退和同城双活切换的自愈实践方法,实现业务连续性和高效运维能力提升;
    2、深入了解自愈运维体系的构建思路,从架构设计到关键技术,全面优化运维响应与自动化能力;
    3、获取复杂场景下的智能化应急解决方案,降低突发故障风险,提升系统稳定性与业务可靠性。
    个人简介:蒋浩澜, 拥有20多年 IT 技术与管理经验,涵盖丰富的行业实践与深厚的专业积累。先后服务于私企、民企及外企,具备超过20年的软件全生命周期管理实战经验,深入了解不同领域的 IT 需求与解决方案。现任中邮消费金融公司运行维护专家,专注于金融行业 IT 运行维护与信息安全保障,在关键系统的稳定性优化、运维自动化提升以及安全合规体系建设方面拥有丰富的实践经验,尤其在金融科技领域表现卓越。多年来致力于运维能力体系化建设,倡导以技术驱动运维变革,以实践推动运维标准化,善于将先进技术与行业需求深度融合,为企业核心业务的稳定高效运行提供专业支持。
  • 林英
     国信证券
    资深运维经理
    演讲主题:构建运维数字化转型的基石:国信证券 CMDB 数据治理实践
    议题简介:在数字化转型浪潮下,国信证券通过 CMDB 治理助力金融IT运维升级。从2015年起步,国信证券经历了CMDB 从资产线上化到智能化的四个阶段:解决实体资产数字化管理难题,为运维工具提供统一数据源,提升数据可信度,并探索社交化与智能化的未来。通过精细化管理、组织保障、流程管控以及平台支撑,国信证券构建了高效的数据治理体系,实现了数据质量的显著提升和运维效率的优化。本次演讲将分享国信证券在 CMDB 治理中的实践经验、技术探索以及未来展望,为金融行业数字化转型提供参考。
    演讲提纲:
    1、国信 CMDB 发展的四个阶段;
    2、CMDB 数据治理实践;
    3、CMDB 数据治理案例;
    4、未来展望。
    听众收益:
    1、了解 CMDB 在不同阶段的重点和难点,为自身组织的 CMDB 建设提供参考;
    2、学习如何通过组织保障、流程管控和平台支撑构建高效的数据治理体系,提升数据质量;
    3、通过国信的实际案例,了解数据治理中的常见问题及解决方案,避免踩坑。
    个人简介: 林英,先后任腾讯高级测试工程师、国信证券资深运维经理,擅长测试实践工作的提质增效、测试工具在运维领域的应用、CMDB数据治理等领域。牵头设计和主导国信证券全链路压测方案设计和落地,荣获行业多个奖项,推动测试工具在业务可用性监控的建设落地,主导了CMDB数据治理专项工作,为国信运维的数字化转型提供助力。
  • 金鑫
    中金财富证券
    DevOps 架构师
    演讲主题:BizDevOps 引领下的研运一体化平台构建和实践之路
    议题简介:介绍中金财富如何从 DevOps 的理念出发,并进一步探索 BizDevOps,打造一站式研发流程与平台,实现从研发到交付的全链条优化。此外,分享一些落地实践案例以及如何在组织内部进行推广,推动组织的敏捷规模化。
    演讲提纲:
    1、平台建设背景与价值;
    2、研运一体化平台构建之路;
    3、规模化推广实施路径
    听众收益:
    1、了解 BizDevOps 在证券行业数字化转型中的作用;
    2、了解中金财富如何构建一站式研发流程、平台和实践案例;
    3、了解在组织内部如何进行规模化推广,参考信通院评级标准,制定组织内部的标准
    个人简介: 金鑫 ,从事金融行业 DevOps 相关经验近10年,先后就职穆迪分析、平安证券、中金财富证券,目前致力于中金财富的 DevOps 一站式研发流程、规范和平台的建设工作,负责平台的接入和推广,赋能内部敏捷团队的工作。在软件配置管理、敏捷开发,研发效能等方面有丰富的实践经验。
  • 董佩
    中邮消费金融
    数智化应用团队主管 
    演讲主题:全链路智能化可观测体系建设之路
    议题简介:随着消费金融行业的竞争日益激烈,细微的技术错误都可能引发其巨大的流量损失和沉没成本。业务发展需要更有力的科技支撑,传统粗放式的后端监控方式已经难以满足业务的发展需求,转向更精细化的全流程运维管控成为必然趋势。
    本次分享介绍中邮消费金融可观测平台建设方面的探索与实践。该平台旨在提升技术链路的稳定性和业务监控的可观测性,创新性地提出了以技术实体为核心、以业务场景为导向的监控体系,实现了业务指标与技术指标之间的双向关联,使得指标波动有指向,问题分析有路径。
    我们将深入剖析中邮消费金融可观测平台建设理念,详细阐述平台整体架构、重要功能和主要创新点,包括但不限于:
    ·指标分层体系:从宏观到微观,全面覆盖业务和技术指标。
    ·多源数据采集:支持多种数据源,确保监控数据的全面性和准确性。
    ·基于时序检测模型的故障发现:利用先进的算法快速并精准地识别异常。
    ·四大故障诊断模块:横向调用链路、全局纵向拓扑、数据趋势分析、错误码分布及趋势分析。
    通过本次分享,希望能够让听众全面了解中邮消费金融可观测平台的建设成果,启发听众在自身业务场景中探索类似的创新应用。
    演讲提纲:
    1、行业现状与挑战分析;
    2、中邮消费金融可观测平台建设理念;
    3、可观测体系架构详解;
    4、平台功能建设与创新点;
    5、平台实施效果与业务价值;
    6、未来展望与规划。
    听众收益:
    1、了解消费金融行业在技术监控领域的最新实践和趋势;
    2、掌握构建高效、稳定的技术监控体系的方法和策略;
    3、获取实际案例和经验分享,为自身业务场景中的探索提供参考和借鉴。
    个人简介: 董佩,先后就职于 Nortel、华为、中邮消费金融,目前担任中邮消费金融数智化应用团队主管,专注于数据应用和智能化应用建设。有丰富的大数据数仓和数据应用实践经验,带领团队不断探索创新突破之路,将前沿技术与金融业务深度融合,为公司的数字化转型和智能化升级提供强有力的专业支持。
  • 顾宇
    前腾讯研发效能专家
    现某头部跨境电商研发效能部门负责人
    演讲主题:研发效能中的业务和安全融合实践
    议题简介:敬请期待
    演讲提纲:
    1、研发效能中的业务和安全融合实践;
    2、组织上下文下的技术战略;
    3、关于 Biz 实践;
    4、关于 Sec 实践;
    5、关于 DevOps 实践;
    6、那些有效和无效的考核指标。
    听众收益:
    1、了解什么是技术战略,技术战略的内容和定义;
    2、了解如何在组织结构下分析和制订技术战略;
    3、了解如何用技术战略指导业务和安全融合落地;
    4、了解业务和安全融合实践落地的难点和度量指标。
    个人简介:顾宇, 前腾讯研发效能工程师,现某头部跨境电商研发效能部门负责人。曾经作为咨询师和软件工程师为各行业客户提供数字化转型和研发效能咨询服务。并在其中综合应用规模化敏捷(SAFe®)、领域驱动设计(DDD)、微服务架构、DevOps 和云原生技术。并在多年的咨询和实践过程中积累了丰富的经验,合著有《敏捷测试价值观、方法与实践》一书。现在专注于技术战略和大语言模型在 BizDevSecOps 方面的应用。
  • 杨振涛
    vivo
    研发总监
    演讲主题:如何让你的平台工程实践更加贴近业务?
    议题简介:本主题将介绍平台工程及相关开源项目发展现状,结合业务价值,深入探讨在平台工程实践中,如何分别从平台和平台用户即内部开发者的双方视角来提升成功率,通过更加工程化的方式开发和运营平台产品,推动 DevOps 在高复杂度和大规模场景中的最佳实践,最终通过关联平台工程的度量指标与业务指标,助力高效高质交付业务价值。
    演讲提纲:
    1、平台工程现状及云原生复杂性概述;
    2、准确把握新技术实践的“鸿沟”,是否要成为“早期采纳者” ?
    3、平台工程关键实践及相关开源项目现状 ;
    4、平台工程相关标准与核心度量指标,及其如何与业务指标关联;
    5、更加贴近业务:积累的经验教训和误区。
    听众收益:
    1、了解炒作过后平台工程的最新发展现状和趋势、及相关开源项目的最新动态;
    2、了解平台工程相关事实标准及度量指标,结合自身业务能够评估如何投入平台工程实践以及如何与业务指标关联;
    3、参考业内已有经验教训和误区,提升自身业务中的平台工程实践成功率。
    个人简介:杨振涛, vivo 互联网 研发总监。PECommunity 平台工程社区发起人、LFAPAC 开源布道者、工程师体验 EngEx 倡导者。专注于技术洞察与研究、技术领导力、平台工程与开发者体验。近年来在组织内部探索实践平台工程与内部开发者关系,通过建设内部开发者平台、门户、社区,来落地平台工程与内源文化,提升组织研发效率与内部开发者体验,并跟踪 dNPS 等指标和实践开放度量框架。在 KubeCon&CloudNativeCon、WOT 等会议上分享或出品平台工程,深度参与 CNCF 平台工作组与国际平台工程社区、内源社区的贡献,获得社区月度 Hero 等 。
  • 徐新龙
    蚂蚁集团
    超级计算技术部
    基础设施 AIOps 负责人
    演讲主题:AIOps 在大模型训练场景的实践
    议题简介:大模型训练是一项复杂的系统性工程,训练过程中会遇到算法模型迭代、训练框架适配、海量数据大带宽、硬件设备故障、软件兼容性问题、网络通信异常、存储写入失败等各种挑战,因此高效地完成一次大模型训练是业界普遍追求的目标。 对比传统应用使用的通用算力(CPU)资源,智算(GPU)资源不仅昂贵,在训练过程中对基础设施也提出了更加高的复杂结构性要求。为了达成高效训练的目标,我们借助 AIOps 快速发现训练问题、定位故障根源、快速恢复任务,进而保障了模型训练的有效时长,提升和保证资源的有效利用。
    演讲提纲:
    1、大模型训框架及练流程简介;
    2、通过异常检测算法及时发现训练任务异常;
    3、通过相关性算法和专家知识库,对异常训练任务进行诊断,快速定位出发生故障原因和异常实体;
    4、结合 EDL 框架及 K8S 调度技术,快速隔离故障实体、恢复任务,保障训练过程的有效训练时长。
    听众收益:
    1、分享蚂蚁在保障模型训练任务稳定性和提升训练效率方面的经验,为相关从业人员提供借鉴;
    2、技术层面,将 AIOps 结合大模型训练场景中,为训练过程中的异常检查、故障定位、以及任务恢复提供更加有效的手段。
    个人简介:徐新龙,硕士学历,毕业于复旦大学信号处理方向,在人工智能技术结合运维场景的应用方面有十年以上的丰富实践经验。 现就职于蚂蚁集团超级计算技术部、算力治理团队,负责大模型训练稳定性和智算资源的 Profiling 产品化建设,主导基础设施 AIOps 实践落地。
  • 曾欢
    蚂蚁集团
    超级计算技术部
    高可用 SRE 团队负责人
    演讲主题:从探索到落地:AI Agents 智能体在 DevOps 场景的实践
    议题简介:在分布式系统运维场景中,传统 DevOps 面临报警治理效率低、根因定位耗时长等核心挑战。蚂蚁集团通过单智能体实现日常答疑效率突破,但在复杂应急场景中仍存在跨系统协同瓶颈。基于此,我们构建了多智能体框架 AIEvo,实现从单点优化到群体智能的演进。
    本次演讲将解析:1)通过单智能体实现部分产品50%+的日常答疑拦截率,80%+的答疑准确率,构建结构化知识定位体系;2)面对报警风暴场景时,AIEvo 框架如何通过动态编排、SOP 演化、全局审查、全局行为观察四大机制,实现了多智能体在应急定位中的应用。揭示智能体技术在运维领域的规模化落地路径。
    演讲提纲:
    1. DevOps 演进之痛:从日常运维到应急响应的双重挑战
    1.1 日常运维效率瓶颈 :
    - 知识分散:40+中间件系统的文档孤岛问题 ;
    - 定位低效:单次问题查询需遍历3-4个系统;
    - 人力依赖:85%的基础咨询需专家介入。
    1.2 应急场景的三大死结 : - 信息割裂:报警数据跨5+系统,人工关联耗时严重 ;
    - 路径依赖:历史处置经验难以标准化复用 ;
    - 协同失效:跨团队沟通成本导致 MTTR(平均修复时间)增加。
    2. 单智能体破局:日常运维实践
    2.1 技术架构突破 :
    - 结构化 Prompt 体系:角色认知+上下文约束+格式规范的三层设计(原文Prompt模块) ;
    - 精准 Tool 调用:Schema 强校验使工具调用准确率从68%→93%; - 混合召回策略:精确搜索使错误码解析准确率达98%,BGE+ReRanker+向量缓存实现3秒级召回;
    - 反馈机制:输出进行校验及评审反馈使模型更加稳定。
    3. 单智能体的局限与多智能体破局
    3.1 能力边界暴露 :
    3.1.1 跨系统关联失效:支付系统网络抖动事件中,单 Agent 误判导致30%无效操作 ;
    3.1.2 动态决策缺失:无法自动适配30%以上的新型故障模式。
    3.2 AIEvo框架设计理念 : 3.2.1 动态编排:Manager Agent 按报警特征组建诊断联盟(如"日志 Agent+拓扑 Agent+资源 Agent") ;
    3.2.2 SOP 演化:将200页运维手册转化为可执行的 DOT Graph;
    3.2.3 全局审查:实时拦截17类常见逻辑偏差;
    3.2.4 全局行为观察: 实时监控 Agent 推理过程,评估逻辑合理性,并优化团队成员。
    4. 多智能体实战:AIEvo 的应急场景突破
    4.1 报警降噪的群体智能
    4.1.1 三级过滤机制:
    - 监控 Agent:基于时序数据识别噪音波动;
    - 拓扑 Agent:基于知识图谱剔除孤立报警 ;
    - 自愈 Agent:整合自愈系统,识别已自愈告警;
    4.1.2 成效:日均有效报警量从1000+→200,准确率90%
    4.2 跨系统根因定位
    4.2.1 链式推理引擎:
    - Manager Agent 组建定位团队 → SOP Agent 根据报警从知识库召回,思考处理策略 → 团队 Leader 按照 SOP 开始进行推动治理 -> Team 成员遵从指令定位 -> Watcher观察 团队运行状况 -> Fedback 反馈机制对每个 Agent 进行输出审查
    4.2.2 典型案例:跨域消息异常定位耗时降低至10分钟,准确率80%
    听众收益:
    1. 体系化认知升级:掌握从单点优化到群体智能的演进路径,覆盖80%运维场景的技术选型策略 ;
    2. 实战方案复用:
    中小团队:可直接部署单智能体方案,2天实现误报率下降60% ;
    大型企业:基于AIEvo框架构建跨系统 Agent 集群,故障定位时效提升3-5倍;
    1.生态共建机遇:加入开源社区,共建 DevOps 智能化之路
    个人简介: 曾欢,13年金融级系统稳定性架构专家,ArchSummit 讲师,运维智能化践行者。主导了蚂蚁集团 LDC 弹性架构演进、全站上云等核心基建,设计支撑万亿级交易规模的异地多活容灾体系。累计参与13次双11大促护航,获公司级卓越贡献奖。现任超级计算技术部高可用SRE团队TL,负责中间件&网络等基础设施的可用性建设,主导AI agents 在部门超大规模系统的 DevOps 场景实践。
  • 王威
    蚂蚁集团
    超级计算技术部
    算力治理平台团队负责人
    演讲主题:大模型训练稳定性度量实践
    议题简介:敬请期待
    演讲提纲:
    1、大模型时代背景概述;
    2、稳定性对于大模型训练过程的影响;
    3、大模型训练稳定性度量理论;
    4、大模型训练稳定性度量工具;
    5、由大模型训练稳定性度量工具引发的对于未来提升点的展望。
    听众收益:
    1、了解稳定性对于模型训练的重要性;
    2、了解大模型训练稳定性和传统在线服务稳定性的不同点;
    3、共同学习和探索稳定性度量方案以及提升策略。
    个人简介: 王威,硕士毕业于浙江大学,入职蚂蚁10+年,从事SRE相关工作,先后负责过业务线、中间件、缓存等产品线。现负责蚂蚁集团算力治理平台,负责算力资源的优化治理,支持大模型训练和强化学习的开展。
  • 李国杰
    蚂蚁集团
    平台工程与技术风险部
    可观测平台技术专家
    演讲主题:异构集群下的大模型可观测实践
    议题简介:在混合云场景下,我们面向大模型训练场景构建了全栈可观测产品,包括多云异构模式下的数据采集,以训练作业为核心的全景观测能力,训练效果可视化,告警托管能力以及稳定性应急能力建设等。通过这些能力及时发现模型训练异常、快速应急、提高训练效率。
    演讲提纲:
    1、蚂蚁大模型介绍;
    2、蚂蚁多云异构模式下大模型可观测技术介绍和落地;
    3、大模型训练的推理场景可观测展望。
    听众收益:
    1、了解大模型的历史背景以及蚂蚁的发展现状;
    2、了解大模型训练领域的稳定性建设和可观测技术建设;
    3、共同学习探索大模型训练和推理领域可观测技术。
    个人简介: 李国杰,蚂蚁集团智能可观测平台技术专家,2017年加入蚂蚁集团,长期从事可观测领域数据体系建设,现负责蚂蚁智能可观测平台技术架构、云原生可观测、大模型可观测产品建设。
  • 刘轩霖
    字节跳动
    工程效能开发专家
    演讲主题:大模型在单元测试生成中的应用实践
    议题简介:在大模型出现后,有越来越多的应用引入了大模型辅助研发编写代码,但在纷繁复杂的业务代码项目中,想要系统地落地会面临很多困难。我们将介绍我们在技术和业务落地上的挑战和解法,例如如何收集有效的训练数据、模型输出的不确定性如何控制,写出来的代码本身的问题如何修复,在各式各样的、有复杂历史背景的代码中怎么编写好的代码。
    演讲提纲:
    1、介绍大模型在代码生成方向的历史和现状;
    2、介绍我们在 SFT、PE、RAG 等领域的探索,agent 构建上遇到的挑战以及解决方案;
    3、介绍在业务上的实际落地,包括常见问题、解决方案、收益;
    4、未来展望。
    听众收益:
    1、了解大模型在代码生成领域(尤其是单测代码生成)的现状;
    2、了解单测推广中常见的项目、技术上常见的问题;
    3、了解我们探索到的行之有效的应用大模型建设智能单元测试系统的建设思路。
    个人简介:刘轩霖,在字节跳动多个业务部门担任过服务端开发,目前负责 Go 语言智能单元测试项目,结合大模型和软件工程技术建设智能测试核心能力,并推动智能单测系统应用在抖音、头条、财经等业务研发,为研发、测试提效。
  • 冯富秋
    阿里巴巴
    操作系统运维总监
    龙蜥社区 系统运维联盟主席
    演讲主题:大模型知识库在运维领域的应用和改进
    议题简介:本次演讲聚焦运维知识库与大模型 RAG 技术的融合,探讨其在系统运维中的应用前景。我们将分析检索增强技术带来的优势、面临的挑战及其改进方案,同时介绍基于 Multi-Agent 的知识库体系,优化知识库构建、使用和评估流程,推动知识库的持续改进。此外,还将展望大模型知识库运维联盟体系对行业发展的帮组。听众将了解 RAG 技术在基础软件运维的应用现状与未来趋势,并学习如何利用 Multi-Agent 技术提升运维效率,实现智能运维。
    演讲提纲:
    1、运维知识库与大模型 RAG 技术综述;
    探讨运维知识库的现状及其重要性,介绍大模型 RAG(检索增强生成)技术的基本概念和发展背景,阐述二者结合对系统运维的意义;
    2、系统运维中的检索增强技术:优势、挑战与优化路径。
    分析通用大模型知识库检索增强技术在提升运维效率和决策支持方面的作用,讨论其可能存在的局限性,并提出针对性的改进策略;
    3、基于 Multi-Agent 系统的知识库革新;
    介绍如何利用 Multi-Agent 技术构建高效的知识库体系,探讨该技术在优化知识库构建、使用及评估流程中的具体应用,促进知识库的动态更新和自我完善;
    4、大模型知识库运维联盟体系与行业未来;
    展望大模型知识库在运维领域的合作模式——运维联盟体系,分析这种新型协作机制对推动行业标准制定和技术进步的影响,描绘行业发展蓝图。
    通过以上四个部分,本次演讲旨在为听众提供一个全面而深入的理解框架,帮助他们把握运维知识库与大模型 RAG 技术融合带来的机遇与挑战。
    听众收益:
    1.洞察大模型知识库 RAG 技术在基础软件运维行业的发展现状与未来趋势,探索其在运维领域的深入应用场景,为运维业务创新提供灵感;
    2.掌握如何借助 Multi-Agent 技术优化知识库的构建、使用和评估体系,促进运维知识库的良性循环与持续改进,提升运维效率与智能化水平;
    通过本次演讲,听众不仅能紧跟技术前沿,还能获得实际操作的指导,助力其所在组织实现运维知识库的转型升级。
    个人简介:冯富秋,阿里云基础软件稳定性运维专家、总监,龙蜥运维联盟主席。专注于将操作系统深入剖析能力以及前沿大模型等创新技术转化为实际工程解决方案,旨在打造更加高效和智能的IT基础设施。研究并发起龙蜥运维联盟,联合产业界、学术界、研究机构及标准化组织,共同推进运维行业的标准化、用户友好性和智能化进程,促进行业健康发展。
  • 尹斌斌
    阿里巴巴
    高级技术专家
    演讲主题:操作系统运维新体系:健康分与自动化诊断
    议题简介:敬请期待
    演讲提纲:
    1、背景:传统操作系统运维面临的挑战,包括监控指标繁多、告警依赖阈值、缺乏现场信息等;
    2、智能化运维的必要性:阐述为什么需要智能化运维,以及健康分和自动化诊断在其中的作用;
    3、离群检测算法的应用:详细说明如何利用离群检测算法对指标进行异常打分,并汇聚成集群健康分;
    4、自动化诊断的实现:探讨如何采集加密信息,并通过自动化诊断实现所见即所得的问题排查;
    5、底层诊断技术:讨论内存诊断、调度诊断、load诊断、网络抖动和丢包诊断;
    6、案例分析:通过实际案例展示智能化运维体系的效果;
    7、未来展望:探讨智能化运维的未来发展趋势和潜在挑战。
    听众收益:
    1、了解最新的操作系统运维技术和趋势,包括健康分评估和自动化诊断的探索;
    2、了解操作系统内存诊断、调度诊断、网络抖动和丢包诊断等方面实现。
    个人简介: 尹斌斌,10年操作系统稳定性领域的专业经验。专注于操作系统内存运维、智能监控和自动化诊断演讲主题。
  • 李艳红
    阿里巴巴
    研发工程师
    演讲主题:基于 Opentelemetry 的大模型应用全栈可观测:以 DeepSeek R1+ vLLM为例
    议题简介:在云原生计算的快速发展中,如何实现大模型应用的高效可观测性成为一项重要挑战。本议题将探讨如何利用 OpenTelemetry 框架,构建 Dify 平台(一个简单易用的大模型应用开发平台)和 vLLM(用于大模型推理加速的框架)之间的 LLM 应用全栈可观测性。使用 vLLM 部署 DeepSeek R1模型做为模型服务,我们将介绍如何通过仪表化、生成并导出指标和日志,来深入分析整个 LLM 应的性能表现,提升模型的监控及调试能力,从而实现更高水平的资源利用和性能优化。同时配置相关的告警,帮助研发人员及时定位问题,调整资源。参与者将学习到具体的实现方法以及在云原生环境中有效整合 OpenTelemetry 的最佳实践。
    演讲提纲:
    1、背景可观测性在 LLM 中的角色和重要性;
    2、基于 Opentelemetry 的大模型应用全栈可观测方案;
    3、案例展示:基于 DeepSeek R1+vLLM 的结果展示具体大模型应用可观测结果展示如何保障 LLM 应用正常回复;
    4、总结与计划后续支持计划。
    听众收益:
    这一议题将填补行业内大模型可观测性这一领域的空白,通过提供实用的案例研究,帮助开发者和运维人员优化大模型的性能,提高可观测性,从而使模型能够在真实生产环境中表现得更佳。此外,通过实施 OpenTelemetry,企业能够大幅降低由于性能问题导致的相关成本,提高资源的利用效率,推动云原生与 AI 的深度融合,解锁大模型的真正潜力。参与者的收获将推动整个生态系统的知识共享与技术进步。
    个人简介: 李艳红,可观测研发工程师,负责大模型可观测性和 python apm agent 研发,属于阿里云云原生应用平台可观测性团队的一部分。我在这一领域的广泛研究和实践工作使我积累了丰富的专业知识,特别是在 Dify, Langchain,llama-index,openAI 等大模型的可观测性研究上。并且针对 vLLM 模型推理框架的可观测性(模型可观测性)有研究。
  • 张加浪
    腾讯TEG
    资深质量运营研发工程师
    演讲主题:大模型时代,AIOps 的探索与落地实践
    议题简介:在当今信息技术飞速发展的时代,企业的 IT 系统日益复杂,传统运维方式在面对与日俱增的业务需求时,已然力不从心。不过,令人振奋的是,AIOps(Artificial Intelligence for IT Operations)应势而生,它巧妙地把人工智能技术融入 IT 运维领域,为实现智能化运维管理开辟了新道路。如今,大模型的横空出世,又给 AIOps 带来了全新的机遇与挑战。在此背景下,本次分享将结合实际业务场景使用情况,探讨大模型在 AIOPS 中的研究与应用。
    演讲提纲:
    (一)AIOps 的背景与发展
    1、IT 运维面临失控的挑战;
    2、AIOps 定义及关键应用;
    3、AIOps 应用不足与瓶颈。
    (二)大模型的崛起
    1、大模型的分类及应用;
    2、大模型带来的机遇。
    (三)大模型在 AIOps 中的应用实践
    1、解决“语言不通”问题,提升 AIOps 效率;
    2、降低使用门槛,强化 AIOps 普适性;
    3.预置编排,增强自动化能力;
    4.大模型在 AIOps 中的挑战及解决方案。
    (四)未来展望与探索
    1.灵活的 AIOps 智能体平台趋势。
    听众收益:
    1、了解大模型在 AIOps 中的应用场景、研究及发展趋势;
    2、了解业务中如何将 AIOps 和大模型有效落地的可行性和实施方案;
    3、共同学习探讨 DevOps 领域大模型建设思路。
    个人简介:张加浪,多年一直从事 AIOps 相关研究和建设工作,原腾讯云智能监控负责人,从0到1组建腾讯云智能监控商业化产品。对内支撑了腾讯会议、QQ空间和腾讯云等上百个产品的监控感知。腾讯网络安全质量建设负责人,将大模型、AIOps 引入安全业务实践落地,使业务得到显著的提效和提质
  • 李健
    腾讯音乐
    DevOps 平台负责人
    演讲主题:腾讯音乐 DevOps 体系建设:奏响高效运维与创新的交响曲
    议题简介:在快速迭代的业务需求背景下,DevOps 作为提效工具,提供简洁高效的工具链,提高研发效率,加速业务上线,从而迅速实现业务价值。 本次分享将介绍腾讯音乐 DevOps 平台的建设背景、建设思路以及所具备的平台能力。同时探讨在落地实践过程中所遇到的问题和挑战,以及如何应对不断变化的业务需求和技术挑战,以实现持续的业务创新与发展。
    演讲提纲:
    1、CI/CD 的现状与问题;
    2、DevOps 引入与面临的挑战;
    3、DevOps 建设的关键要素;
    4、DevOps 建设的收益与展望。
    听众收益:
    1、了解 DevOps 全流程的现状与挑战,为业务提效提供有力支持;
    2、了解 DevOps 的实践落地的案例,为企业提供更多的建设思路;
    3、探索 DevOps 在提效方面的新技术与新思路,推动企业持续创新与发展。
    个人简介:李健,腾讯音乐 DevOps 平台负责人,10年丰富的研发经验,其中6年专注于 DevOps 领域,2020年加入腾讯音乐后,负责 DevOps 平台,为集团内各个产品线提供一站式 CI/CD 服务。团队专注于 DevOps 领域的平台建设,致力于研发简便高效的工具链,助力业务的快速迭代上线。实现 DevOps 的全流程自动化和在腾讯音乐的落地实践 。
  • 曹伟
    货拉拉
    框架工具组负责人
    演讲主题:货拉拉微服务 Proxyless Service Mesh 大规模落地实践
    议题简介:近些年随着货拉拉业务的高速增长,业务服务从最初的单体架构演进到当前的微服务架构,满足公司业务发展的同时也带来了服务数量的爆发式增长,随之带来的是服务升级成本增加,每次全面升级框架 SDK 的新版本都要花费较长的时间周期,新能力及架构演进需求得不到快速全面铺开,为此我们选择 Proxyless Service Mesh 来提升大规模服务升级效率,本次将分享我们如何做相关技术选型,当前落地情况及最佳实践,最后一起展望这一领域的未来发展方向。
    演讲提纲:
    1、为什么选择 Proxyless Service Mesh ?
    2、在货拉拉的落地现状与最佳实践;
    3、货拉拉的 Service Mesh 未来展望。
    听众收益:
    1、了解 Proxyless Service Mesh 的选型思路,根据实际情况选择合适的实现方案;
    2、了解基于 JavaAgent 的 Proxyless Service Mesh 实现细节及最佳实践;
    3、了解 Service Mesh 在微服务领域的未来发展方向。
    个人简介: 曹伟,2016年 硕士毕业于上海大学,加入平安壹钱包中间件团队从事分布式定时调度服务研发。
    2019年 初加入阿里本地生活,从事微服务统一研发框架的开发和维护工作。
    2020年 中加入货拉拉,作为框架工具组 Leader,专注于公司微服务生态能力的建设和演进、统一研发框架建设、大规模提升研发效率等工作。
  • GOPS 2024 深圳站 现场回顾
    第25届 GOPS 全球运维大会暨研运数智化技术峰会 · 深圳站
    第25届 GOPS 全球运维大会暨研运数智化技术峰会 · 深圳站
    第25届 GOPS 全球运维大会暨研运数智化技术峰会 · 深圳站
    第25届 GOPS 全球运维大会暨研运数智化技术峰会 · 深圳站
    第25届 GOPS 全球运维大会暨研运数智化技术峰会 · 深圳站
    第25届 GOPS 全球运维大会暨研运数智化技术峰会 · 深圳站
    合作伙伴
    铂金赞助
    黄金赞助
    媒体及社区合作
    活动门票
    活动筹备中
    售票推广中
    活动结束
    选择票
    门票名称
    现在 - 2月28日(¥) 3月1日 - 3月31日(¥) 原价
    数量
    普通票
    3,360 3,780 4,200
    0
    1、可参加大会两日所有的技术演讲;
    2、不含酒店中午自助餐
    3、大客户团购优惠 刘欣15801115386
    标准票
    3,860 4,280 4,700
    0
    1、可参加大会两日所有的技术演讲;
    2、含酒店中午自助餐
    3、大客户团购优惠 刘欣 15801115386

    退票说明:不支持退票

    优惠或邀请码
    票价
    0
    活动主办方