大型语言模型未来发展趋势瞻望  第1张图11. 由人类专家评估的GPT3模型及其指令调优变体的性能(: “自我指导: 将语言模型与自我生成的指令对齐”)

未来有了这样的模型,就有可能减少模型输出的偏差和毒性,并提高用所需数据集进行微调的效率,也就是说,模型要学会自我优化。

虽然每个模型的参数、训练数据、算法等都会造成性能上的差异,但今天所有被广泛认可的语言模型–如OpenAI的GPT-3、Nvidia/微软的Megatron-Turing、谷歌的BERT–最终都有一个基本的设计。它们是

密集的语言模型意味着这些模型中的每一个都使用其所有的参数来创建对提示的响应。正如你可能猜到的,这不是很有效,而且很麻烦。

稀疏的专家模型是指一个模型能够只激活其相关的参数集来回答一个给定的提示。目前开发的具有超过1万亿个参数的LLM被认为是稀疏模型。2 这些模型的一个例子是谷歌的GLam,具有1.2万亿个参数。

据《福布斯》报道,谷歌的GLaM比GPT-3大七倍,但训练时消耗的能量却少三分之二。它只需要一半的计算资源用于推理,并在众多自然语言任务上超过了GPT-3的性能。

稀疏专家模型意味着以这种方式开发未来的语言模型,效率更高,对环境的破坏也更小。