崗位職責:
1、負責處理和清洗大規模、多來源的數據集,保證數據的完整性和可靠性,消除數據中的偏見、冗余、毒性內容
2、提升清洗數據和生成數據的質量,通過多樣算法和模型提升和優化數據質量
3、設計、構建和維護大模型相關的大數據處理系統和數據管道
4、負責數據處理中涉及到的NLP模型的設計與優化,提升數據處理的效率和準確性
5、大模型相關的數據質量把控,包括但不限于數據一致性檢查、數據完整性驗證等;
6、對大規模數據集進行處理和分析,確保數據的準確性和可靠性;
7、理解數據需求,與業務緊密配合,開發建立自動化數據質量評估流程及系統
8、及時發現和定位數據問題,跟蹤問題的解決進度,確保數據問題得到有效解決
9、編寫詳實的數據評估報告,提供訓練數據分析和改進建議,為團隊提供有效的反饋支持;
開展數據治理,持續提升數據質量,挖掘數據價值。
專業:計算機、人工智能、軟件工程、數學等相關專業
素質:溝通能力強,表達清晰,有責任心
經驗:NLP、機器學習或大模型相關背景和經歷
西安 - 雁塔
軟通動力信息技術(集團)股份有限公司西安 - 雁塔
陜西思極科技有限公司西安 - 雁塔
西安慧瀾語言科技有限公司西安 - 雁塔
中國移動研究院西安 - 雁塔
陜西壹祖源再生醫學有限公司西安 - 雁塔
首聘(北京)科技有限公司