Course Code: coaws
Duration: 21 hours
Prerequisites:

  • 对云概念和网络有基本了解。
  • 熟悉Linux命令行和脚本。
  • 具备源代码控制(Git)和基本CI/CD概念的经验。

受众

  • 云运维工程师。
  • SRE和平台工程师。
  • DevOps工程师和技术团队负责人。

Overview:

AWS是一个全面的云平台,提供计算、存储、网络、监控和自动化服务,支持稳健、可扩展和弹性的运维。

本次由讲师指导的培训(线上或线下)面向中高级运维和平台工程师,旨在帮助他们在AWS上可靠、安全地操作、监控、自动化和运行生产工作负载。

培训结束后,学员将能够:

  • 使用CloudWatch、CloudTrail和可观测性最佳实践来操作和监控AWS工作负载。
  • 使用基础设施即代码工具(如Terraform和AWS CloudFormation)自动进行基础设施配置和管理。
  • 设计和操作CI/CD流水线、部署策略以及云服务的发布自动化。
  • 实施运维安全、身份控制和基于操作手册的事件响应。
  • 在生产云环境中应用成本管理、备份和灾难恢复实践。

课程形式

  • 互动讲座与讨论。
  • 讲师指导的控制台和CLI演示。
  • 实践实验室和基于场景的练习。

课程定制选项

  • 如需定制本课程,请联系我们安排。

Course Outline:

AWS云运维基础

  • 云中的运维角色和职责。
  • AWS账户结构、组织和多账户策略。
  • 核心运维服务:CloudWatch、CloudTrail、AWS Config。

基础设施即代码与配置管理

  • IaC和不可变基础设施的原则。
  • 使用Terraform和AWS CloudFormation进行配置。
  • 管理状态、模块和环境升级。

CI/CD与部署策略

  • 为云原生apps设计CI/CD流水线。
  • 蓝绿部署、金丝雀部署和滚动部署。
  • 自动回滚、健康检查和发布验证。

监控、可观测性与告警

  • 指标、日志和跟踪:收集、存储和分析。
  • 使用CloudWatch、X-Ray和第三方可观测性工具。
  • 定义SLOs/SLIs、告警策略和值班实践。

安全运维与身份管理

  • IAM最佳实践、最小权限和跨账户访问。
  • 密钥管理、KMS和安全参数存储。
  • 运维安全:补丁策略、漏洞扫描和审计跟踪。

弹性、备份与灾难恢复

  • 设计容错和高可用性。
  • 备份策略、快照自动化和恢复流程。
  • 灾难恢复计划和操作手册创建。

成本优化与治理

  • 成本可见性:计费、标签和成本分配策略。
  • 资源优化、预留实例/节省计划和预算控制。
  • 治理:策略、护栏和合规自动化。

容器、Serverless与运行时运维

  • ECS、EKS和Lambda的运维注意事项。
  • 服务发现、自动扩展和资源限制。
  • 日志记录、跟踪和调试容器化工作负载。

事件响应、操作手册与混沌工程

  • 基于操作手册的事件响应和事后分析实践。
  • 自动化修复和自愈模式。
  • 混沌实验简介:验证弹性。

实践工作坊:操作一个示例工作负载

  • 使用IaC和CI/CD流水线部署一个示例应用。
  • 实施监控、告警和自动化修复脚本。
  • 模拟事件并练习基于操作手册的响应。

总结与下一步