工作職責:
1.參與設計和開發智算產品,包括組件設計、開發、測試、上線等,搭建日志、監控、報警、鏈路跟蹤等基礎運維系統;
2.參與制定并執行運維流程、規范和標準化措施,提高運維效率,降低故障率; 3.與供應商協同,搭建和運維智算平臺,包括云管、服務器、網絡、存儲等各個子系統;
4.診斷和解決客戶問題,線上環境的維護,監控,調優,和故障定位,特別是在GPU密集型應用和高性能計算場景下,確保系統快速恢復正常運行;
任職資格:
1.本科及以上學歷,3~5年工作經驗;
2.熟悉常用的Linux操作系統,了解分布式系統的基礎架構理論,如微服務和容器化等;
3.對云計算中計算、存儲、網絡、云管等一個或多個領域有比較深入的了解;
4.熟練掌握Go、Python等語言;
5.有云平臺、GPU集群管理平臺的研發運維經驗,備大規模系統監控運維經驗,熟悉kubernetes、Prometheus、Grafana、ELK、Loki等優先;
6.熟悉GPU、AI、3D渲染中的一個或多個領域者優先;
7.加分項:
- 有大規模分布式系統或云計算平臺運維開發的經驗
- 有深度學習、大模型訓練、推理運維、故障處理和穩定性保障的經驗
- 有系統化開發運維保障平臺的經驗