株式会社Topotalに入社して半年経ちました
2021/12/01に株式会社Topotalに入社していました。
本日12/1 株式会社 Topotal に入社しました。
— Takatada Yoshima (@shiimaxx) 2021年12月1日
SRE as a Service を提供するエンジニアとして、お客様の SRE の実践をお手伝いしていきます!https://t.co/ITfMDu0eSN
自分はフルタイムでSRE as a ServiceというSite Reliability Engineering(以降SRE)を軸にした技術支援サービスの提供をしています。
入社半年という区切りのよい時期なので、半年間で取り組んだことをまとめてみました。
自身の振り返りが主ですが、現時点でTopotalのSRE as a Serviceの業務内容について外に出ている情報はそう多くないので、ご興味を持っていただいた方向けの参考情報として役立てばと思っています。
やったこと
前提として2〜3社のお客様の支援を同時並行で行っています。他にも細々したものはありますが主にこんな感じです。
- Terraform AWS Providerのアップデート
- DatadogでgRPCエンドポイントのモニタリング
- コンテナレジストリ間でイメージ同期する仕組み作り
- GKEクラスタの可用性向上
- モニタリングの整備
- Infrastructure as codeの導入
- SLO導入
お客様によってインフラ/SRE組織のフェーズは様々なので、お手伝いする内容も幅広くなっています。
お客様のインフラ/SRE組織が持っている明確な課題に取り組むこともあれば(1,2,3)、何となく不安に感じている箇所を掘り下げて課題整理からやらせてもらうこともあります(4,5)。
また、SREを実践するための取り組みの支援もしました(6,7)。この場合、単にツールやプラクティスを導入するだけではなく、組織にあわせてどのように運用できるかを一緒に考えたり、お客様の社内でのSREの理解促進のために各種取り組みのモチベーションを説明するドキュメントを書くということもしました。
SREの実践の支援においては、自分自身がSRE自体に対する一定の理解はあるものの、実際に組織に導入するということはやったことがなかったため、社内のメンバーから知見をもらったり、日々SRE book、SRE Workbook、Seeking SRE、各種事例やドキュメントなどを参照して理解を深めつつ、お客様の組織における実践に適用していくということをやっていました。
技術トピックとしては、AWS全般、GCP(GKE、Cloud Run)、Terraformあたりを触ることが多かったです。
コードを書く機会もたくさんありました。ちょっとしたツールを書いたり、運用にがっつり絡むソフトウェアを書いたり、一部OSSとして公開しているものもあります。
ちなみに今のところプログラミング言語の指定があったことはなく、その時々で用途や好みで選定していました。自分の場合はGo、Ruby、Pythonのどれかにしていました。
Topotalでは、ソフトウェアで運用の課題を解決することが推奨されているので、今後もどんどんやっていきたいと思っています。
宣伝
TopotalではSREを積極採用しています。ご興味のある方は問い合わせ・申込みをしていただけると嬉しいです!