職位描述
工作職責
1、負責各業務線包括但不限于架構、部署、監控、治理、容災、安全等進行規劃和實施。
2、負責應用故障演練、應急預案、SOP手冊編寫工作,確保故障時業務能快速恢復。
3、負責公司數據庫管理維護,落地數據庫標準化,規范化運維,優化監控及性能。
4、負責突發問題處理,能夠對復雜問題進行定位和處理,接受7*24小時Oncall。
5、推動及開發高效的自動化運維,提升運維工作效率。
6、協同研發人員推動提升服務的可靠性、可擴展性以及性能優化,保障系統SLA。
任職資格
1、本科及以上學歷,計算機相關專業,5年以上互聯網平臺運維/SRE相關工作經驗。
2、扎實的計算機軟件基礎,精通Linux、Windows Server等操作系統,熟練(Golang/Python/Shell)至少兩門語言,有DBA經歷優先。
3、熟悉運維體系和SRE體系建設,熟悉阿里云/騰訊云/華為云等云廠商相關產品運維管理。
4、熟悉JVM虛擬機的內存機制、GC機制,能進行JAVA進程異常的故障定位及排查。
5、熟悉Nginx、Tomcat、ElasticSearch、Zookeeper、RabbitMQ、Kafka等主流開源軟件的維護與使用。
6、熟悉Mysql、Postgresql、SQLServer、MongODB、Redis、Oracle等主流數據庫的安裝、配置、優化、備份和恢復等工作,具備較強的故障分析和解決能力。
7、熟悉常用開源日志及監控平臺,Zabbix、Prometheus、Grafana、ELK等,并能夠編寫自定義監控腳本。
8、精通CI/CD相關工具,熟練Java、Node等語言的build流程,熟悉Gitlab、Jenkins、Maven、Jira等工具的使用。
9、精通Docker、K8S架構和技術原理,包括但不限于獨立編寫Dockerfile,并有大規模使用、排錯和優化能力。
10、責任心強,善于溝通,具有很好的學習能力,有良好的團隊合作精神,有敬業精神。