AI音频算法工程师（语音/音乐生成与处理） at 王.

职位预算: CNY 25,000-45,000

发布时间: 2026-07-01

Python
TensorFlow
PyTorch
TensorRT
Whisper

万兴科技诚聘资深AI音频算法工程师，深度参与AIGC音频产品核心研发。本岗位聚焦四大技术方向：（1）语音合成（TTS）与语音克隆（Voice Cloning）：基于VITS、Diff-SVC、So-VITS-SVC、OpenUtau等框架，实现高自然度、低延迟、多语种、可控风格的端到端语音生成；（2）AI音乐生成（Music Generation）：深入应用MusicLM、Suno、Udio、Riffusion等前沿模型，构建旋律生成、和弦编排、风格迁移、结构化作曲能力，并优化prompt工程与条件控制机制；（3）音源分离与增强（Source Separation）：熟练使用Demucs、Spleeter、Open-Unmix等模型，支持人声/伴奏/鼓/贝斯等多目标精准分离，适配直播降噪、会议增强、母带修复等工业场景；（4）语音识别与音频理解（ASR/Audio Understanding）：集成Whisper（多语言/鲁棒性微调）、Wav2Vec2、WhisperX等方案，支撑歌词同步、语音指令解析、音频内容摘要等上层功能。必备技能：Python（必精）、PyTorch（必精）、TensorFlow（部署优化）、Librosa（音频特征提取）、SoX（格式转换与预处理）、Whisper（ASR微调与推理）、Diff-SVC / So-VITS-SVC（歌声合成）、MusicLM / Suno（音乐生成原理与数据构建）、ONNX Runtime / TensorRT（模型导出与加速）、CUDA（GPU并行优化）。加分项：熟悉MOS/STOI/ESTOI/PESQ等主观/客观评估体系；有WebAssembly/WASM音频实时推理经验；参与过开源音频项目（如ESPnet、ESPnet2、OpenUtau）；具备AIGC音频产品从0到1落地经验。工作地点：长沙 / 深圳（可选），长期项目，提供股权激励 + 行业领先月薪（25K–45K CNY/月）。

工作详情