崗位職責(zé):
1、打造業(yè)界領(lǐng)先的大數(shù)據(jù)+AI云平臺(tái)產(chǎn)品,參與公司內(nèi)基于Ray的分布式計(jì)算場景的方案設(shè)計(jì)以及研發(fā),包括機(jī)器學(xué)習(xí)、圖等場景,滿足大模型時(shí)代的數(shù)據(jù)處理及應(yīng)用需求;
2、參與云平臺(tái)的架構(gòu)設(shè)計(jì)和研發(fā),包括數(shù)據(jù)處理、資源調(diào)度、模型/算子管理、模型部署服務(wù)等;
3、基于K8S體系構(gòu)建大規(guī)模任務(wù)處理系統(tǒng),并負(fù)責(zé)GPU、CPU等多種異構(gòu)資源的編排調(diào)度優(yōu)化;
4、參與Ray內(nèi)核/Kuberay以及相關(guān)上層生態(tài)框架的功能開發(fā)&性能優(yōu)化;
5、參與Ray在K8S上的彈性/潮汐資源集群穩(wěn)定性/可觀測(cè)性/平臺(tái)化對(duì)接等能力建設(shè);
6、負(fù)責(zé)充分利用各種異構(gòu)計(jì)算(GPU、CPU、其他異構(gòu)硬件)、存儲(chǔ)(各種云存儲(chǔ))、網(wǎng)絡(luò)(VPC、RDMA)等資源,支持主流的PyTorch、Megatron、TensorFlow等訓(xùn)練框架,支持大規(guī)模 LLM 預(yù)訓(xùn)練、Finetuning、強(qiáng)化學(xué)習(xí)等各種訓(xùn)練范式,支持大模型、生信計(jì)算等各種業(yè)務(wù)場景下算法需求;
7、負(fù)責(zé)訓(xùn)練系統(tǒng)的產(chǎn)品化落地,打造算法工程師友好的、體驗(yàn)一流的公有云訓(xùn)練平臺(tái);
8、完成領(lǐng)導(dǎo)交辦的其他工作事項(xiàng)。
任職要求:
1、擁有扎實(shí)的計(jì)算機(jī)基礎(chǔ)和良好的編程能力,熟練掌握Linux環(huán)境下的Go/Java/Python等1-2種語言;
2、熟悉K8S工作原理、云原生AI/大數(shù)據(jù)生態(tài)常用的開源組件,或熟悉RAY、Spark等分布式數(shù)據(jù)處理框架;
3、有深度學(xué)習(xí)、大模型、LLM應(yīng)用等平臺(tái)開發(fā)經(jīng)驗(yàn),或熟悉LangChain、Dify等開源Agent框架;
4、熟悉大模型領(lǐng)域數(shù)據(jù)處理流程/算法Kubernetes 架構(gòu)和生態(tài);
5、熟悉 Docker/Containerd/Kata 等容器技術(shù),有豐富的云原生機(jī)器學(xué)習(xí)系統(tǒng)實(shí)踐和開發(fā)經(jīng)驗(yàn);
加分項(xiàng):
1、有機(jī)器學(xué)習(xí)、大數(shù)據(jù)平臺(tái)的工程架構(gòu)落地經(jīng)驗(yàn),熟練掌握常見的分布式訓(xùn)練、計(jì)算框架(pytorch/tensorflow/ray/spark/flink)原理及工程實(shí)現(xiàn),熟悉GPU、大模型相關(guān)軟硬件技術(shù)棧;
2、有計(jì)算產(chǎn)品落地經(jīng)驗(yàn)(最好是tob、tog paas/saas 項(xiàng)目或公有云項(xiàng)目,深度使用經(jīng)驗(yàn)也可行);
3、熟悉NLP、CV相關(guān)的算法和技術(shù),熟悉大模型訓(xùn)練、RL算法者優(yōu)先;
4、有以下某一方向領(lǐng)域的經(jīng)驗(yàn):CUDA,RDMA,AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking),ML for System,Distributed Storage。