国产中文大语言模型“天河天元”发布 镖师2023/05/21 19:54:12 据介绍,中文大语言模型的数据集非常稀缺。国家超算天津中心搜集整理了网页数据、各种开源训练数据、中文小说数据、古文数据、百科数据、新闻数据,以及专业领域的中医、医药、问诊、法律等多种数据集,训练数据集总 token 数达到 350B,最终训练打造出了自己的中文语言大模型 —— 天河天元大模型。 进入原文参与互动