我们使用Cookie和类似技术来改善您的体验、分析网站使用情况并协助我们的营销工作。我们收集的数据包括页面访问记录和匿名使用统计。 隐私政策
职位预算: CNY 25,000-45,000
发布时间:
万兴科技诚聘资深AI音频算法工程师,深度参与AIGC音频产品核心研发。本岗位聚焦四大技术方向:(1)语音合成(TTS)与语音克隆(Voice Cloning):基于VITS、Diff-SVC、So-VITS-SVC、OpenUtau等框架,实现高自然度、低延迟、多语种、可控风格的端到端语音生成;(2)AI音乐生成(Music Generation):深入应用MusicLM、Suno、Udio、Riffusion等前沿模型,构建旋律生成、和弦编排、风格迁移、结构化作曲能力,并优化prompt工程与条件控制机制;(3)音源分离与增强(Source Separation):熟练使用Demucs、Spleeter、Open-Unmix等模型,支持人声/伴奏/鼓/贝斯等多目标精准分离,适配直播降噪、会议增强、母带修复等工业场景;(4)语音识别与音频理解(ASR/Audio Understanding):集成Whisper(多语言/鲁棒性微调)、Wav2Vec2、WhisperX等方案,支撑歌词同步、语音指令解析、音频内容摘要等上层功能。 必备技能:Python(必精)、PyTorch(必精)、TensorFlow(部署优化)、Librosa(音频特征提取)、SoX(格式转换与预处理)、Whisper(ASR微调与推理)、Diff-SVC / So-VITS-SVC(歌声合成)、MusicLM / Suno(音乐生成原理与数据构建)、ONNX Runtime / TensorRT(模型导出与加速)、CUDA(GPU并行优化)。 加分项:熟悉MOS/STOI/ESTOI/PESQ等主观/客观评估体系;有WebAssembly/WASM音频实时推理经验;参与过开源音频项目(如ESPnet、ESPnet2、OpenUtau);具备AIGC音频产品从0到1落地经验。 工作地点:长沙 / 深圳(可选),长期项目,提供股权激励 + 行业领先月薪(25K–45K CNY/月)。