我们使用Cookie和类似技术来改善您的体验、分析网站使用情况并协助我们的营销工作。我们收集的数据包括页面访问记录和匿名使用统计。 隐私政策
职位预算: CNY 30,000-50,000
发布时间:
金蝶国际AI产品团队诚聘大模型评测工程师:负责前沿大语言模型(LLM)的系统性、多维度评估。需构建覆盖基础能力(推理/数学/代码/多语言)、安全合规(价值观对齐、有害内容拒答)、垂直领域适配(金融/医疗/法律)及用户体验的全栈评测框架;设计自动化流水线,集成并扩展HELM、BIG-Bench等基准;执行版本回归评测与归因分析;协同算法与产品团队推动模型优化。要求:硕士+,2年+ LLM/NLP评测经验,精通Python与PyTorch,熟悉主流评测指标与数据集,具备实验设计与可视化分析能力。工作地点:深圳。