【書評】SRE・運用保守
概要
背景・課題
- 一般にソフトウェアの運用よりもを誕生させるための議論が多い
- しかし実際は誕生後の運用の方がコストとして40%~90%になりうるという推定研究結果がある(=創業よりも守勢の方が難しい)
- また従来、ソフトウェア開発エンジニアとシステムアドミニストレーターとが別の職種として分かれていた
解決方針
- プロダクト開発チームと別に、運用のためのSREチームを発足
- 新たにソフトウェアエンジニアに運用業務を任せるようにし、開発業務時間50%運用業務時間50%にする
- 50%を超えた運用業務はプロダクト開発チームに差し戻す(これにより運用業務手作業時間の増加を防ぐ)
- 50%の開発業務では、ソフトウェア定義設計開発運用保守全般の標準化、自動化を図る
他業界との比較
4つの観点での考察
- 準備とディザスタテスト
- ポストモーテムの文化(個人と問題の分離)
- 自動化と運用のオーバーヘッドの低減
- 構造化された合理的な判断
結論
- 他業界と比較するとSREは、発生しうる障害の様々な影響への未然防止よりも変更を加える速度・適応速度への要求が高い
- (ただし障害の影響がとても大きい場合保守的なアプローチが妥当
- SREは他の業界で培われた原則を採用し、規模、複雑性、速度、信頼性のバランスをもたらすために作られた組織的取り組み
付録:
Google参考資料
https://lp.cloudplatformonline.com/rs/808-GJW-314/images/App_Modernization_Session_03.pdf