基础信息
所属部门:
淘天集团
学历:
硕士
工作年限:
3 年
职位描述
负责为大模型训练和Agent构建准备高质量数据,专注于海量数据收集、清洗、处理工作,为模型训练提供优质数据支撑。
1. 数据收集与获取:通过API接口、公开数据集、合作伙伴等多种方式收集文本、代码、多模态等训练数据
2. 数据清洗与预处理:进行数据去重、格式转换、质量筛选、内容过滤,处理HTML2Text、PDF2Text、OCR、ASR等格式转换
3. 数据标注与构建:设计数据标注方案,构建高质量的监督学习、强化学习训练数据集和评估数据集
4. 数据合成与生成:使用AI技术进行数据合成,包括文本生成、代码生成、多模态数据生成等,扩充训练数据规模
5. 需求对接与迭代:与模型训练团队、Agent开发团队密切协作,快速响应数据需求,持续优化数据质量
6. 工具开发与优化:开发数据处理工具和脚本,优化处理流程效率,确保大规模数据处理的稳定性
职位要求
基础要求:
1. 本科及以上学历,计算机、人工智能等相关专业优先
2. 3年以上大规模数据处理或模型训练工作经验
3. 精通Python、Java等至少一种编程语言,熟悉SQL及数据库操作
技术要求:
1. 精通文本、多模态等非结构化数据处理方法
2. 掌握数据清洗、特征提取、数据增强等核心技术
3. 熟悉深度学习框架(PyTorch等)和模型训练推理技术
4. 掌握AI数据合成技术,包括提示词工程、模型调用、数据生成质量评估等
5. 具备优秀的分析和解决复杂问题的能力
软技能:
1. 学习能力强,能快速上手新工具和技术
2. 具备良好的团队协作和沟通能力
3. 能够有效协调内外部资源推动项目进展
加分项
1. 有大模型相关数据收集处理清洗经验
2. 主导过大模型数据平台建设或大数据开源框架开发
3. 熟悉云服务(阿里云MaxCompute、AWS、Azure等)
4. 掌握多模态数据处理技术(HTML2Text、PDF2Text、OCR、ASR等)
5. 熟悉大模型提示词工程和模型调优
6. 具备AI数据合成项目经验,包括使用LLM进行文本生成、代码生成、多模态数据合成等