我們使用Cookie和類似技術來改善您的體驗、分析網站使用情況並協助我們的營銷工作。我們收集的數據包括頁面訪問記錄和匿名使用統計。私隱政策

大模型评测工程师 at Lysander W.

職位預算: CNY 30,000-50,000

發佈時間: 2026-07-03

Python
PyTorch
Helm

金蝶国际AI产品团队诚聘大模型评测工程师：负责前沿大语言模型（LLM）的系统性、多维度评估。需构建覆盖基础能力（推理/数学/代码/多语言）、安全合规（价值观对齐、有害内容拒答）、垂直领域适配（金融/医疗/法律）及用户体验的全栈评测框架；设计自动化流水线，集成并扩展HELM、BIG-Bench等基准；执行版本回归评测与归因分析；协同算法与产品团队推动模型优化。要求：硕士+，2年+ LLM/NLP评测经验，精通Python与PyTorch，熟悉主流评测指标与数据集，具备实验设计与可视化分析能力。工作地点：深圳。

工作詳情