崗位職責
一、硬件選型與部署:
1、負責數據中心服務器、GPU算力卡、存儲設備的選型論證及采購評測,輸出硬件兼容性報告;
2、主導新服務器上架部署,包括RAID配置、BIOS/UEFI調優、硬件級故障診斷與備件更換。
二、算力集群運維
1、支持GPU服務器(含DeepSeek一體機)的硬件調優,監控GPU顯存利用率及散熱性能;
2、制定IDC機房硬件巡檢標準,設計服務器生命周期管理方案(退役/擴容決策)。
三、技術支持與優化
1、協助AI研發團隊完成大模型/深度學習模型(如pth模型)本地部署的算力驗證,排查硬件資源瓶頸;
2、編寫硬件運維手冊及故障應急處理SOP,定期組織技術內部分享。
四、新技術研究
1、跟蹤國產化服務器及AI加速芯片發展趨勢,主導新硬件適配性測試(如華為昇騰系列);
2、進行服務器、存儲的產品引進和技術評估,包括技術規格確定、技術測試的標準制定和實施、技術服務要求的制定。
任職要求:
1、本科及以上學歷,計算機、電子工程或相關專業,5年以上服務器硬件運維經驗;
2、精通Intel/AMD CPU體系架構,掌握主流GPU(NVIDIA/海光DCU,華為910B)的硬件特性及監測工具;
3、熟悉服務器BMC/iLO管理,能獨立完成硬盤背板/電源模組,內存,顯卡更換及固件升級;
4、具備Linux基礎運維能力(Ubuntu/CentOS),了解基礎腳本編寫(Bash/Python);
優選條件(滿足任意1項):
5、有AI算力集群(多卡集群)部署經驗或HPC高性能計算項目背景;
6、熟悉國產化服務器(浪潮/華為)或DeepSeek LLM一體機運維邏輯。
因項目進度會有適當加班的情況,能參與加班。
薪資待遇面議!
薪資待遇面議!