大型语言模型(LLM):定义、普及原因、训练方式
by Canonical on 12 December 2023
大型语言模型(LLM)是专门用于理解自然语言的机器学习模型。生成式 AI 在世界范围内被广泛采用之后,大型语言模型便广为人知,但它们的应用范围不止于聊天机器人。LLM 适合生成翻译或内容摘要。本篇博客将介绍大型语言模型 (LLM),包括其优点、挑战、出名的项目和未来发展趋势。
大型语言模型(LLM)是机器学习模型。它们通常包含深度学习的最新进展。这些模型可以执行与语言相关的任务,不只是文本生成。它们采用非常大的非结构化数据集进行训练,以学习模式并识别文本中的关系。文本可以有条件地加以提示,从而简化自然语言或代码中的有用任务。
语言模型的复杂程度各不相同。通常,LLM 指的是使用深度学习技术捕获复杂模式以生成文本的模型。它们具有大量的参数,通常使用自监督学习进行训练。大型语言模型超出了大型转换器模型的范畴,因为它太大而无法在单台机器上运行。LLM 通常以 API 或网页界面的形式提供。
LLM 用例
LLM 的用例有很多。其中不仅包括纯文本生成,还包括翻译、人际互动或摘要。它们被企业组织用于解决各种问题,包括:
- 通过减少重复性任务来提高生产力
- 解决人才短缺问题
- 内容创作
- 情感分析
内容生成
根据应用程序的不同,有多个 LLM 可以用于基于触发器或不基于触发器的内容生成。虽然内容本身需要优化,但 LLM 可以生成很棒的初稿,非常适合进行头脑风暴、解决问题或捕获灵感。它们不应该被视作拥有真相之源的事实手册。
聊天机器人
LLM 可能被用于聊天机器人,有助于提供客户支持,故障排除,甚至进行开放式对话。它们还可以加速信息收集过程,解决反复出现的问题或疑问。
语言翻译
翻译是 20 世纪 50 年代促使 LLM 项目启动的主要动力。但如今,LLM 可以自动翻译各种语言的内容,实现内容本地化。虽然它们运行良好,但值得一提的是,其输出质量取决于不同语言的可用数据量。
情感分析
LLM 通常会提取文本并分析情绪和观点,以判断情绪。企业组织经常使用它来收集数据,总结反馈并快速识别改进机会。它既可以帮助企业提高客户满意度,又可以帮助企业识别开发和功能需求。
这些只是受益于 LLM 的部分用例。其他一些应用包括文本聚类、内容摘要或代码生成。
构建 LLM 时的挑战
LLM 看起来是一个复杂而创新的解决方案,可以为企业助力并让人工智能爱好者兴奋不已。但构建 LLM 却存在着一系列的挑战:
- 大型数据集不可或缺。尽管企业在努力改进数据收集流程和数据质量,但仍有一些行业的数据由于不同的原因——要么是数字化程度不够,要么就是可用性不足——仍然不可用。
- 训练 LLM 需要提高计算能力。GPU 或 DGX 等强大计算资源的可用性成就了 LLM,这种可用性也代表了一种限制,因为其成本高昂且交付时间长。
- 人才短缺是任何人工智能项目都会面临的挑战,因为寻找能够构建或微调 LLM 的熟练人员比较耗时。技能差距是任何举措中都存在的挑战——人们对人工智能的兴趣增长速度快于对人才增长速度。
- 训练缓慢会延迟项目交付。根据训练所用硬件以及数据集大小的不同,训练可能需要耗费数月。
- 可解释性仍然是个难题,这也是专业人士经常难以理解 LLM 输出的一些预测信息的一个重要原因。在数十亿参数之间进行挖掘非常耗时,而且预测通常几乎不会受到偏倚数据所影响,而偏倚数据更加难以检测。
LLM 的好处
随着人工智能的普及以及更多 LLM 的构建,重申大型语言模型带来的好处至关重要。广大受众、各行各业的企业、热衷于深度学习的工程师以及跨越不同工作领域的专业人士对 LLM 都很感兴趣,因为它们具有复制人类语言的功能。
- 它们可以捕捉语言的细微差别,通常会捕捉文档的上下文。这样可以让翻译或情感分析更加准确。
- 它们可以减少耗费在重复性任务上的时间,甚至减轻花费时间收集信息的负担。例如,聊天机器人可以提出问题,帮助客户支持团队更快地处理工单。
- 它们具有加速模型训练和减少所需数据的潜力。这与 LLM 可用的参数数量有关——数量越大,所需的数据量就越小。
开源 LLM
2023 年,社区的蓬勃发展让开源 LLM 应运而生。Huggingface 只是在 ChatGPT 发布后活跃量激增的例子之一,其目标是在不同的应用程序中获得遵循指令的大型语言模型。这就导致开源 LLM 的数量呈爆炸式增长,如 Guanco、h2oGPT 或 OpenAssistant。关于开源 LLM,以下几点值得注意:
- 拥有数十亿参数的 LLM 在性能方面可以轻松与极大型数据集上训练的模型一较高下。
- 微调小型 LLM 所需预算较低。
- 社区的贡献让开源 LLM 进步速度快得多。
- 诸如低秩自适应(LoRa)之类的技术可以降低训练成本。
即开即用的解决方案仍然对企业具有吸引力,但从长期来看,开源社区可能会加大力度在新的环境(包括笔记本电脑)中提供 LLM。这还有可能让拥有专有 LLM 的企业组织和开源社区之间开展前所未有的合作,前者专注于构建模型(因为他们拥有计算能力),后者则致力于对模型进行微调。
LLM 工具
大型语言模型需要使用大量的数据和高性能硬件。此外还需要用于实验跟踪、数据清洗和管道自动化的工具。开源机器学习平台,如 Canonical 推出的 Charmed Kubeflow,都是很好的选择,因为它们可以让开发人员在一个工具中运行端到端的机器学习生命周期。使用 Charmed Kubeflow,让专业人员能够通过使用应用或遵循 EKS 指南,在公共云上开始训练。Charmed Kubeflow 已在 NVIDIA DGX 等高性能硬件上经过测试和认证。Canonical 的产品组合包括 Charmed MLFlow 和一个可观察性堆栈。
阅读更多
订阅博客文章
查看更多内容
Canonical x Lenovo: 在边缘运行 AI workloads
携手 Canonical 和 Lenovo,在边缘运行 AI 工作负载 从制造业中的预测性维护,到医疗保健行业中的虚拟助手,再到最偏远地区的电信路由器优化,AI 正在各种边缘环境中掀起新浪潮,带来新机遇。但为了支持这些几乎随处运行的 AI 工作负载,公司需要具备快速、安全且高度可扩展的边缘基础架构。 开源工具 —— 例如用于轻量级 Kubernetes 编排的 MicroK8s 和用于 ML 机器学习工作流的 Charmed Kubeflow —— 可以为边缘 AI 部署提供更高的灵活性和安全性。如果配合加速计算堆栈使用,这些解决方案可以帮助专业人员更快地交付项目,降低运营成本,以及确保更可预测的结果。 今天这篇博客探讨为什么企业正逐渐在边缘 AI 领域转向开放式基础架构 […]
分步指南:在 Ubuntu 上使用 Azure IoT Operations
简介 随着最近 Azure IoT Operations 的发布,Microsoft 为其客户提供了一个统一的数据平面,在节点数据捕获、基于边缘的遥测处理和云入口方面做出重大改进。 Azure IoT Operations 与 Ubuntu 的结合可谓是相得益彰,可以构建开箱即用的安全可靠的解决方案。 这篇博客是 Microsoft 的 Azure IoT Operations 入门的分步指南。最后,您会将 Azure IoT Operations 服务部署到本地支持 Azure Arc 的 microk8s Kubernetes 集群,并使用 X509 证书身份验证配置了与集群的 MQTT 代理的安全通信。为了实现这一点,您将执行命令、创建和编辑文件并发布自签名证书 […]
写给坚守CentOS的你-必知的六个关键点,助你做好准备
CentOS 7 的生产商在 2020 年宣布,CentOS 7 将于 2024 年 7 月达到生命周期结束(EoL)。如今,该日期已经过去,然而 CentOS 的故事还没有结束。有人预计 CentOS 用户数量会大幅下降,但数据显示,22% 的企业仍在使用 CentOS。 我们也许应该降低我们的期望:CentOS 7 的生命周期可能即将结束,但许多组织可能仍在考虑向新系统过渡却尚未实施。然而,CentOS 用户仍然必须面对这样一个事实:他们等待迁移的时间越长,就越难保持 CentOS 资产的安全和功能。坚持下去看起来很诱人,但是月复一月,年复一年,依赖关系将开始瓦解,手动修补工作量将增加,不兼容性将开始在整个堆栈中出现。 本篇博客适合仍在决定迁移到哪个系统的读者进行 […]