大型语言模型(LLMs)是什么及应用、优势和挑战  第1张提高任务的准确性

大型语言模型能够处理大量的数据,这导致预测和分类任务的准确性提高。这些模型利用这些信息来学习模式和关系,这有助于它们做出更好的预测和分组。

例如,在情感分析中,大型语言模型可以分析数以千计的客户评论,以了解每条评论背后的情感,从而提高确定客户评论是正面的、负面的还是中性的准确性。这种准确性的提高在许多商业应用中是至关重要的,因为小的错误会产生重大影响。

语言模型的能力受限于它们所训练的文本训练数据,这意味着它们对世界的认识是有限的。模型学习训练数据中的关系,而这些关系可能包括:

当训练数据没有被检查和标记时,语言模型已经被证明会。

也有一些情况下,。

每个大型语言模型只有一定的内存,所以它只能接受一定数量的令牌作为输入。例如,ChatGPT的限制是2048个令牌(大约1500个词),这意味着ChatGPT无法对输入进行理解,也无法为超过2048个令牌限制的输入生成输出。

开发大型语言模型需要大量投资,包括计算机系统、人力资本(工程师、研究人员、科学家等)和电力。由于是资源密集型,使得大型语言模型的开发只适用于拥有巨大资源的巨大企业。据估计,英伟达和微软的Megatron-Turing,项目总成本接近1亿美元。

Megatron-Turing是用数百台NVIDIA DGX A100多GPU服务器开发的,每台服务器的耗电量高达6.5千瓦。伴随着大量的电力来冷却这个巨大的框架,这些模型需要大量的电力,并留下了大量的碳足迹。

根据一项研究,在GPU上训练BERT(谷歌的LLM)大致相当于一次跨美国的飞行。