阿里巴巴推大规模音频语言模型Qwen-Audio
阿里巴巴研究团队最近推出的Qwen-Audio系列为大规模音频语言模型领域带来了重大突破。该系列通过采用层次标签的多任务框架,成功解决了有限的预训练音频模型面临的多样化任务的挑战。
相比之前专注于语音的工作,Qwen-Audio不仅包含人类语音,还涵盖了自然声音、音乐和歌曲,实现了在具有不同粒度的数据集上的协同训练。该模型在语音感知和识别任务方面表现出色,而无需进行特定任务的修改。
相比之前专注于语音的工作,Qwen-Audio不仅包含人类语音,还涵盖了自然声音、音乐和歌曲,实现了在具有不同粒度的数据集上的协同训练。该模型在语音感知和识别任务方面表现出色,而无需进行特定任务的修改。