我们使用Cookie和类似技术来改善您的体验、分析网站使用情况并协助我们的营销工作。我们收集的数据包括页面访问记录和匿名使用统计。隐私政策

大模型评测工程师 at Lysander W.

职位预算: CNY 30,000-50,000

发布时间: 2026-07-03

Python
PyTorch
Helm

金蝶国际AI产品团队诚聘大模型评测工程师：负责前沿大语言模型（LLM）的系统性、多维度评估。需构建覆盖基础能力（推理/数学/代码/多语言）、安全合规（价值观对齐、有害内容拒答）、垂直领域适配（金融/医疗/法律）及用户体验的全栈评测框架；设计自动化流水线，集成并扩展HELM、BIG-Bench等基准；执行版本回归评测与归因分析；协同算法与产品团队推动模型优化。要求：硕士+，2年+ LLM/NLP评测经验，精通Python与PyTorch，熟悉主流评测指标与数据集，具备实验设计与可视化分析能力。工作地点：深圳。

工作详情