训练

阶段3(2021年07月-09月)：知识指导的大规模预训练语言模型，含约1000亿参数，训练数据包括1TB以中文为核心的多语言数据和亿级实体关系图谱。

文章

阶段2(2021年01月-06月)：以中文为核心多语言大规模预训练语言模型，含约200亿参数，训练数据包括500GB以中文为核心的多语言数据。

文章

阶段1(2020年10月-12月)：中文大规模预训练语言模型，含约30亿参数，训练数据包括100GB中文数据。

文章

实际上，当数据无所不在时，它会形成一系列的内容产品，王巍举例，比如机器新闻写作，新闻机器人在大数据的训练和深度学习的背景下，能够形成个性化和风格化的语言风格，甚至，能用二次元等多元化语言风格来生产新闻，这是大数据等技术对新闻内容生产的改造。

文章

《普通话小镇》项目组负责人告诉界面新闻，他们在前期走访了三区三州（大多位于青藏高原地区）的普通话需求人群，发现偏远地区用户对于普通话训练的需求远比想象中的大。

文章

如清华大学孙茂松、刘知远团队和李涓子、唐杰团队提出了知识指导的预训练模型ERNIE和KEPLER，循环智能杨植麟团队提出了性能显著优于BERT的XLNet模型，清华大学朱小燕和黄民烈团队提出了面向情感分析的预训练模型SentiLARE，融合常识知识的预训练语言生成模型StoryGPT，面向中文对话生成的CDial-GPT模型，等等。

文章

清源CPM计划将积极配备算力、数据和人力，注重开展原创研究，尽早实现与国际顶尖机构在超大规模预训练模型技术方面并跑，提升中文自然语言的深度理解和生成能力。

文章

清源CPM计划是以中文为核心的大规模预训练模型。

文章

研究团队将在智源研究院大规模算力平台的支持下，开展以中文为核心的超大规模预训练模型研究，包括跨语言学习、文本生成、知识融合、模型并行和压缩等前沿课题，并将相关模型及时通过智源社区开源共享。

文章

GPT-3能胜任的常识性问答，CPM预训练模型一样可以应对：

文章

与已有的中文预训练模型相比，本次发布的清源CPM大规模预训练模型具有以下特点：

文章

为了更直观地展示清源CPM预训练模型的效果，官方提供了一些文本生成的Demo。

文章

智源和清华本次发布的大规模预训练模型，难以在单块GPU上运行，因此需要将模型在多个GPU之间分配参数，进行并行化训练。

文章

最近，北京智源人工智能研究院和清华大学研究团队，合作开展了一项大规模预训练模型开源计划——清源CPM(ChinesePretrainedModels)。

文章

首期开源内容包括预训练中文语言模型和预训练知识表示模型，可广泛应用于中文自然语言理解、生成任务以及知识计算应用。

文章

64块V100训练3周

文章