阿里巴巴推大规模音频语言模型Qwen-Audio-站长杂谈-DZ插件网

阿里巴巴推大规模音频语言模型Qwen-Audio

左右不逢缘

2023/11/23 14:18:50

阿里巴巴研究团队最近推出的Qwen-Audio系列为大规模音频语言模型领域带来了重大突破。该系列通过采用层次标签的多任务框架，成功解决了有限的预训练音频模型面临的多样化任务的挑战。

相比之前专注于语音的工作，Qwen-Audio不仅包含人类语音，还涵盖了自然声音、音乐和歌曲，实现了在具有不同粒度的数据集上的协同训练。该模型在语音感知和识别任务方面表现出色，而无需进行特定任务的修改。

进入原文参与互动