SRE
-
14个工具,让 DevOps 和 SRE 遥遥领先!
Tekton 是一个用于创建持续集成/持续交付( CI/CD) 系统的开源框架,提供处理各种部署环境、云提供商以及本地部署的灵活性和功能。它实现了跨供应商、语言和部署环境的 CI/CD 工具和流程的标准化。
-
站点可靠性工程SRE最佳实践 -- 黄金监控信号
黄金信号是SRE工具箱中的关键工具。通过测量和监控延迟、流量、错误和饱和度指标,即使面对日益增加的复杂性和需求,SRE也可以确保其系统保持可靠、可扩展和高性能。
-
得物SRE视角下的蓝绿发布
自从交易域进行蓝绿发布以来,平均大版本的发布时效较之前得到了较大的提升,同时近期大版本已没有出现故障事件,在升级蓝绿发布后,我们可以提前在切流阶段发现问题,并快速回切进行修复,避免了故障带入生产。因此,现在蓝绿发布相比过去滚动部署,在效率和稳定性上均大有提升。
-
资损防控技术体系简介及实践
在得物落地资损防控期间,作为SRE一直在宣导的理念:资损防控需要研发、测试、SRE三方相互协作,三道防线相互兜底,合并共举达到资损防控的目标。
-
不会建数据资产体系的SRE,不是一名好运维
B站的服务树,所用到数据存储的引擎很多。比如,用关系型数据库,存储人员信息或其他信息;用MongoDB存储文档数据;用图数据库进行图的构建。
-
DevOps/SRE 必懂概念:不可变基础设施
在IT界,我们在软件工程和DevOps中都有可变性和不可变性的概念。在软件工程中,这一概念被应用于面向对象的编程,而在DevOps中,它被应用于基础设施自动化。在本指南中,我们将从DevOps的角度重点讨论不可变的基础设施。
-
救火运维逆袭攻略:云原生+ DevOps+ SRE+ ITIL
可观测能力是当前热门的方向,包括指标监控、追踪和日志记录。我们可以从用户视角出发,关注稳定性、性能和产品易用性。在市场上有很多成熟的产品可供选择,通过外部合作(购买)的方式快速具备可观测能力。
-
这套SLO运营体系与报警,不允许还有SRE没看过!
可观测帮助找出原因,SLO让我们知道结果,所以SRE里面第二本书的第四章,提及SLO报警的时候,介绍了一个实践:你有一个SLO的大盘,这个大盘使你得知服务的SLO产生影响,接下来应该告诉研发,服务的黄金指标有哪些,并基于可观测做成一个大盘,那么这个大盘就可以让研发在收到告警之后,快速定位错误的原因,做故障的定界。
-
2023年将流行的15个强大的 DevOps 和 SRE 工具
随着每年越来越多的 DevOps 和 SRE 工具的出现,我们很难跟上它们的步伐,所以这些工具特别引起了我们的注意,我们相信它们可以为您提供最大的价值。
-
揭秘运维工程师职业生涯天花板 SRE (Site Reliability Engineering) 的工作职责
有很多人问过我想了解一下 SRE 这个岗位,这是个很大的话题,在这篇博客中把想到的一些介绍一下吧。
-
得物容器SRE探索与实践
关于什么是SRE,以及在业务上有哪些具体的输出,网上资料众多但都只是对基本概念做描述。那容器SRE究竟要怎么结合业务,得物容器SRE又有哪些最佳实践,本文就得物容器SRE的一些事情向大家做介绍。
-
S11总决赛那晚,B站SRE为活动保障都做了些啥?
SRE在背后是如何支持保障这些活动并不断完善我们的活动保障体系的呢?接下来就为大家揭晓。
-
什么是SRE?一文详解SRE运维体系
在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中。 2020-11-30 12:50:26 SRE运维可观测性系统 啥拦截软件都挡不住?教你杜绝流氓软件弹窗 最近很多朋友都向笔者表示了想要购买新MacBook的想法,一方面是由于M1芯片性能非常强劲,另一方面也在于想要体验一下macOS——Windows系统上的流氓软件弹窗,实在了忍无可忍了!
-
传统运维不迷茫,究竟如何转型SRE?
运维人员是非常勤奋、爱学习的,具有非常广泛的技术视野和技能池。但在技术生态中为何总是处于一种较为弱势的、从属的、被动的地位?
-
2021.7.13故障后,哔哩哔哩SRE稳定性保障揭秘
B站2017年之前没有SRE,当时主要负责的事情就是效率优先,需求响应(比如变更、标准化、报警治理和琐事优化)。2018年引入SRE文化,开始理解业务架构、推进读的多活建设、探索 SRE 里的 Oncall 制度/复盘文化在B站的落地。