💡 NagaTranslate:利用 Whisper、VITS 和 LLM 构建低资源那加兰语言翻译与语音管道

:light_bulb: 这项工作解决了那加兰口头语言严重缺乏 NLP 工具的问题,展示了一个结合开源语音模型与商业 LLM 的实用管道,并突出了低资源语言在 API 便利性与自托管独立性之间的权衡。

:light_bulb: 这项工作解决了那加兰口头语言严重缺乏 NLP 工具的问题,展示了一个结合开源语音模型与商业 LLM 的实用管道,并突出了低资源语言在 API 便利性与自托管独立性之间的权衡。

一个名为 NagaTranslate 的项目正在为低资源的那加兰克里奥尔语(Nagamese、Ao、Sema)构建翻译和语音管道,使用 Whisper 进行语音识别,VITS 进行语音合成,并使用商业 LLM API 进行文本翻译,此前已从微调的 NLLB 模型迁移过来。

翻译后端目前使用带有优化提示和少样本示例的商业 LLM API,但长期目标是回归自托管开源权重模型(如 Llama 或 Gemma)。ASR 和 TTS 模型是微调后的 Whisper 和 VITS,托管在 Hugging Face Spaces ZeroGPU 上。

:paperclip: r/MachineLearning · 6/28 03:05

:link: https://www.reddit.com/r/MachineLearning/comments/1uhlvjv/nagatranslate_building_a_translation_and_voice/


:postbox: Horizon 日报 · 2026-06-29