大语言模型的术语表(Large Language Models Glossary)
注意力机制(Attention Mechanism)
在大型语言模型中,注意力机制使模型能够在处理信息时聚焦于输入数据的特定部分,从而提升其在各类自然语言处理任务中的表现。
BERT(Bidirectional Encoder Representations from Transformers – 基于Transformer的双向编码器表示):
是自然语言处理(NLP)和深度学习领域的重大突破。它由谷歌人工智能研究团队(Google AI Language)开发,并在2018年发表的题为《BERT:用于语言理解的深度双向Transformer预训练》(BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding)的研究论文中首次提出。
上下文窗口(Context Window):
上下文窗口是指大型语言模型(LLM)在生成预测时考虑的那部分文本。它由固定数量的先前标记(tokens)组成,模型利用这个上下文来理解单词之间的关系和依赖。上下文窗口的大小可因特定架构和任务而异,但对于保持生成文本的上下文连贯性至关重要。
上下文嵌入(Contextual Embeddings)
在大型语言模型中,上下文嵌入能够根据单词或短语在句子中的语境动态生成向量表示,从而精准捕捉语义的细微差异和含义变化。
DistilBERT:
DistilBERT 是流行模型 BERT(Bidirectional Encoder Representations from Transformers)的一个变体,设计目标是在保持自然语言处理(NLP)任务中具有竞争力性能的同时,实现更小型化和高效化。
深度学习(Deep Learning)
深度学习是机器学习的一个子领域,通过使用多层神经网络来学习数据的内在表征,从而完成复杂任务。
人工智能道德准则(Ethical AI Guidelines):
人工智能道德准则是用于规范大型语言模型(LLM)及其他人工智能技术负责任开发和使用的原则与规则。这些指南旨在解决人工智能应用中的偏见、公平性、透明度和隐私问题。
小样本学习(Few-shot Learning):
小样本学习与零样本学习(zero-shot learning)密切相关,是LLM的另一项卓越能力。在小样本学习中,LLM只需极少的示例或上下文即可快速适应任务或问题。这些模型无需为每项新任务准备海量数据集,仅需几个示例或提示即可理解任务要求。
小样本提示(Few-shot Prompt): 小样本提示类似于零样本提示(zero-shot prompt),但会向 LLM 提供最少的训练示例或上下文。这类提示使模型能够从少量信息或示例中进行泛化,从而使其能够回答未经明确训练的问题或执行未经明确训练的任务。
微调(Fine-tuning): 微调指对预训练语言模型进行调整以使其适应特定任务或领域的过程。像 GPT-3、BERT 等 LLM 最初是在海量通用文本语料库上进行训练的,以学习语言模式和结构。然而,要使它们在文本摘要、翻译、情感分析或聊天机器人等特定应用中发挥作用,微调是必要的。
微调数据集(Fine-tuning Dataset): 微调数据集是指用于使预训练的LLM适应特定任务或领域的专用数据集。在微调过程中,模型在此较小数据集上进行训练,以使其更加专业化并更适用于目标任务。微调使得LLM能够将其通用的语言理解能力迁移到特定的应用中。
微调超参数(Fine-tuning Hyperparameters): 微调超参数是指在LLM微调过程中调整的参数。微调涉及在特定任务或数据集上训练预训练模型。像学习率(learning rates)、批次大小(batch sizes)和优化算法(optimization algorithms)等超参数会被调整以实现最佳性能。
GPT(Generative Pre-trained Transformer – 生成式预训练Transformer模型):
GPT,全称为“Generative Pre-trained Transformer”,是由 OpenAI 开发的大规模语言模型。它凭借理解和生成类人文本的能力而备受瞩目。我们来分解一下GPT所代表的含义:
- 生成式(Generative): GPT是一个生成模型,能够生成类人文本。给定一个提示或输入文本,GPT可以生成连贯且上下文相关的回应,使其成为执行各种自然语言处理任务的宝贵工具。
- 预训练(Pre-trained): GPT在来自互联网的海量文本数据上进行了预训练。在预训练阶段,模型学习理解语言的结构、语法、词汇和语义。此阶段让模型接触到了多样且广泛的语言模式。
- Transformer: “Transformer”指的是GPT所基于的底层神经网络架构。Transformer以其高效处理序列数据的能力而闻名。它们特别擅长捕捉文本中的长距离依赖关系,因此尤其适合自然语言理解和生成任务。
推理(Inference):
推理是指使用训练好的LLM模型生成预测或响应的过程。当LLM部署在应用程序中时,基于输入数据(如用户查询)进行预测或生成文本的过程被称为推理。这是模型应用其在训练阶段所学知识执行特定任务的阶段。
知识蒸馏(Knowledge Distillation):
知识蒸馏是一种将较大、较复杂LLM(称为“教师模型”)的知识迁移到较小、更高效的LLM(称为“学生模型”)的技术。该技术涉及训练学生模型以模仿教师模型的行为和预测。
语言建模(Language Modeling):
语言建模是自然语言处理中的一项基本任务。它涉及训练一个语言模型(如LLM)来预测单词序列或标记(tokens)中的下一个词。语言模型学习给定语言中单词之间的统计模式和关系,从而使其能够生成连贯且上下文相关的文本。
LLM API(大型语言模型应用编程接口):
LLM API(应用编程接口)是一种允许用户通过网络使用大型语言模型功能的接口。它使开发者能够将LLM能力(如文本生成或语言理解)集成到他们的应用程序、网站或服务中。
LLM 架构(LLM Architecture):
LLM(大型语言模型)架构特指语言模型的特定结构和设计。它包含模型的神经网络架构、层数、隐藏层大小以及在开发过程中做出的任何其他架构上的选择。该架构在决定模型的能力和性能方面起着至关重要的作用。
LLM 基准评测(LLM Benchmarking):
LLM基准评测是依据既定标准或基准评估大型语言模型性能的实践。它有助于评估这些模型在各种任务和数据集上的表现,并支持不同LLM之间的比较。
LLM 偏见评估(LLM Bias Assessment):
LLM偏见评估涉及评估并减轻大型语言模型输出和行为中的偏见。这一过程旨在识别并修正由训练数据或模型架构引发的偏见,以确保生成公平和无偏见的回应。
LLM 协作平台(LLM Collaboration Platforms):
LLM协作平台是为从事大型语言模型项目的团队设计的专业化工具和环境。这些平台促进了团队成员的协作、版本控制以及数据和模型检查点的无缝交换。
LLM 数据增强(LLM Data Augmentation):
LLM数据增强涉及采用多种技术来扩大用于微调或训练大型语言模型的数据量和多样性。这些技术可以包括释义、翻译或数据合成,以提高模型的性能。
LLM 效率优化(LLM Efficiency):
LLM效率优化指的是为优化大型语言模型资源消耗所采取的措施。这包括降低其计算需求、内存使用量和能耗的技术,使其更具可持续性和成本效益。
LLM 嵌入(LLM Embeddings):
LLM嵌入是指LLM词汇表中单词或标记(tokens)的学习表示。这些嵌入捕捉了单词的语义和上下文信息,使模型能够理解和生成文本。
LLM 伦理委员会(LLM Ethics Committee):
LLM伦理委员会是一个监督机构或团队,负责在大型语言模型的开发和使用方面进行伦理方面的监督。其职责包括处理与偏见、公平性、透明度和负责任AI实践相关的问题。
LLM 微调策略(LLM Fine-tuning Strategy):
LLM微调策略指的是用于将预训练LLM适配到特定任务或领域的方法和流程。它涉及在特定任务的数据或示例上训练LLM,并修改其参数以优化其在目标任务上的表现。
LM Head(语言模型头输出层):
语言模型头(Language model head),简称LM head,指的是LLM的输出层。它是模型负责生成预测的部分,其形式可以是词概率、文本序列或其他相关输出。LM head利用模型隐藏层提供的上下文信息,生成有意义的基于语言的预测。
LLM 递进式微调策略(LLM Fine-tuning Curriculum):
LLM递进式微调策略是一种逐步使大型语言模型适应复杂任务的结构化方法。它涉及在微调过程中逐步将模型暴露在越来越具有挑战性的数据或任务面前,帮助其循序渐进地学习。
LLM 超参数调优(LLM Hyperparameter Tuning):
LLM超参数调优涉及优化模型的超参数(如学习率、批次大小和网络架构),以使其在特定任务或数据集上实现更好的模型性能。
LLM 推理API(LLM Inference API):
LLM推理API(应用编程接口)是一种允许用户与训练好的大型语言模型交互并将其用于各种自然语言处理任务的接口。此API允许开发者和应用程序利用LLM的能力进行预测、生成文本或执行其他语言相关任务。它充当了LLM与外部软件之间的桥梁,使得将语言模型功能无缝集成到各种应用(包括聊天机器人、内容生成、情感分析、翻译服务等)中成为可能。本质上,LLM推理API通过标准化编程接口提供LLM能力,促进了LLM在实际应用中的实用化。
LLM 可解释性 (LLM Interpretability):
LLM可解释性涉及一系列用于理解和解释大型语言模型(LLM)的决策和推理过程的技巧和方法。这对于在人工智能应用中建立信任和确保透明度至关重要。
LLM 解释工具 (LLM Interpretation Tools):
LLM解释工具是旨在可视化和理解大型语言模型行为的软件或方法。它们帮助研究人员和开发者深入了解模型如何做出决策,并为其输出生成解释。
LLM 知识库集成 (LLM Knowledge Base Integration):
LLM知识库集成涉及将外部知识源(如数据库或特定领域信息)整合到LLM的知识和推理能力中。这提升了模型在依赖知识的任务上的表现。
LLM 知识图谱 (LLM Knowledge Graphs):
LLM知识图谱是嵌入在大型语言模型(LLM)中的结构化知识的表示形式。它们以图结构组织信息,连接实体和概念,使得LLM在语言理解和生成任务中更容易访问和利用结构化知识。
LLM 知识迁移 (LLM Knowledge Transfer):
LLM知识迁移指的是分享从大型语言模型中获得的见解、信息或专业知识的过程。这可以涉及将知识传播给其他模型或应用程序,使它们能够受益于原始LLM的知识和能力。
LLM 语言支持 (LLM Language Support):
LLM语言支持表示大型语言模型能够理解和生成内容所使用的语言范围。它反映了模型的多语言能力,范围从支持少数几种语言到广泛支持多种语言不等。
LLM 模型库 (LLM Model Zoo):
LLM模型库指的是为研发社区提供的预训练大型语言模型的存储库或集合。这些模型可作为执行各种自然语言处理任务的起点。
LLM 提供商 (LLM Provider):
LLM提供商是提供大型语言模型服务的公司或组织。这些提供商开发、维护并提供LLM访问权限,通常通过API或基于云的服务实现。例如包括OpenAI、Google Cloud AI和Microsoft Azure。
LLM 正则化技术 (LLM Regularization Techniques):
LLM正则化技术是在语言模型训练过程中使用的方法,旨在防止过拟合(即模型在训练数据上表现良好,但在新的、未见过的数据上表现不佳)。正则化方法有助于提高模型的泛化能力。
LLM 鲁棒性测试 (LLM Robustness Testing):
LLM鲁棒性测试评估模型在各种条件和扰动下的性能,包括含噪输入数据、对抗性攻击和不同环境。它有助于识别模型的脆弱点和需要改进的领域。
LLM 规模化挑战 (LLM Scaling Challenges):
LLM规模化挑战指的是在部署超大型语言模型时遇到的问题和困难。这些挑战可能包括计算需求、资源限制以及需要专门的基础设施来有效训练和运行此类模型。
LLM 任务聚合 (LLM Task Aggregation):
LLM任务聚合涉及将多个任务或功能整合到由大型语言模型驱动的统一工作流中。这种方法利用模型的通用性,在单个应用或系统内处理各种任务。
LLM 训练数据 (LLM Training Data):
LLM训练数据指的是用于训练大型语言模型的庞大数据集。该数据集通常包含来自互联网、书籍、文章和其他来源的大量文本。模型从这些数据中学习模式、语言结构和上下文。
LLM 训练流程 (LLM Training Pipeline):
LLM训练流程指的是训练大型语言模型所涉及的步骤和过程的序列。这通常包括在大规模文本语料库上进行预训练、针对特定任务进行微调,以及通常还包括超参数调优和正则化等额外步骤。
LLM 可迁移性 (LLM Transferability):
LLM可迁移性是指预训练的LLM能够将其从一个领域或任务中获得的知识应用到另一个领域或任务的能力,即使目标领域或任务与其原始训练内容不同。高可迁移性是LLM的一个理想特性。
LLM 应用场景 (LLM Use Case):
LLM应用场景指的是大型语言模型被用于的具体应用和任务。这些可以包括聊天机器人、语言翻译、内容生成、情感分析等。
大型语言模型量子计算 (LLM Quantum Computing):
大型语言模型量子计算探索量子计算技术在增强大型语言模型的训练和运行方面的潜力。它利用量子计算的计算能力来执行更高效、更高级的语言建模任务。
掩码语言模型 (Masked Language Model):
掩码语言模型是LLM的一种变体,其中句子中的某些标记(tokens)被故意掩盖(masked),模型的任务是预测这些被掩盖的标记。这种训练方式有助于LLM理解单词之间的上下文关系。
掩码标记预测 (Masked Token Prediction):
掩码标记预测是一项任务,其中LLM被给予一个文本序列,其中某些标记被特殊的“掩码”(mask)标记替换,模型的目标是预测被掩盖标记的原始内容。这项任务常用于预训练像BERT这样的语言模型,帮助它们学习单词之间的上下文关系。
Megatron:
Megatron 是一种强大且高性能的深度学习模型架构,专为训练大规模语言模型而设计。它由领先的技术公司 NVIDIA 开发,该公司以其图形处理器(GPU)和人工智能解决方案而闻名。Megatron 是 NVIDIA 推动自然语言处理(NLP)领域发展,并使研究人员和组织能够构建和训练大规模语言模型努力的一部分。
模型检查点 (Model Checkpoint):
模型检查点是LLM在训练过程中特定时间点保存的权重、参数和其他重要组件的快照。检查点对于恢复训练、微调或部署模型而无需从头开始非常有用。
模型压缩 (Model Compression):
模型压缩是在保持性能的同时减小大型语言模型体积的过程。这对于高效部署至关重要,尤其是在资源受限的环境中。
多语言LLM (Multilingual LLM):
多语言大型语言模型旨在理解和处理多种语言。它们经过训练能够处理多种语言的文本,对于涉及多种语言数据的任务非常有价值。
多任务学习 (Multi-task Learning):
多任务学习是一种训练方法,其中LLM被训练以同时执行多个任务。通过利用任务间的共享知识,这可以提高模型的整体性能。
预训练 (Pre-training):
预训练指的是模型训练的初始阶段,即语言模型在微调之前在大规模数据集上进行训练。这一阶段是构建像GPT-3、BERT或类似模型这样高性能语言模型的关键步骤。
预训练数据集 (Pre-training Dataset):
预训练数据集是一个庞大且多样化的数据集,最初用于训练LLM的语言理解能力。该数据集包含来自各种来源和领域的大量文本。LLM在针对特定任务进行微调之前,会从这个数据集中学习语言模式和世界知识。
RoBERTa:
RoBERTa,全称“A Robustly Optimized BERT Pretraining Approach”(一种鲁棒优化的BERT预训练方法),是BERT(Bidirectional Encoder Representations from Transformers)模型的一个变体,BERT是一种流行的用于自然语言理解和表示学习的架构。RoBERTa由Facebook AI于2019年提出,此后在自然语言处理(NLP)领域获得了极大的关注和采用。
自注意力机制 (Self-Attention Mechanism):
自注意力机制是Transformer架构(LLM中常用)的一个基本组成部分。它允许模型在处理每个单词时,权衡序列中不同单词的重要性,从而使其能够有效地捕捉上下文关系和依赖。
T5 (Text-to-Text Transfer Transformer – 文本到文本迁移Transformer):
T5,即文本到文本迁移Transformer,是由Google Research开发的一种最先进的自然语言处理(NLP)模型。它代表了深度学习和NLP领域的重大进步。T5建立在Transformer架构之上,该架构已被证明在各种NLP任务中非常有效。
文本生成 (Text Generation):
文本生成指的是使用语言模型(如LLM)生成类人文本的过程。这些模型通过基于给定上下文预测下一个单词或单词序列来生成文本。文本生成被用于各种应用,包括聊天机器人、内容生成和机器翻译。
标记化/分词 (Tokenization):
标记化(或分词)是将一段文本(如句子或文档)分解成称为标记(tokens)的更小单元的过程(为LLM输入将文本拆分为更小的单元(标记))。标记可以是单词、子词(subwords),甚至是字符,具体取决于所使用的特定标记化方法。标记化是自然语言处理(NLP)中的关键步骤,通常在将文本数据输入语言模型之前作为预处理步骤执行。它通过将文本划分为离散单元来帮助模型理解和处理文本。
标记嵌入 (Token Embedding):
标记嵌入是LLM中标记(单词或子词)的数值表示。每个标记被映射到一个高维向量,使得相似的标记具有相似的嵌入表示。标记嵌入是模型理解和生成文本的基础。
Transformer架构 (Transformer):
Transformer是一种基础的神经网络架构,在大型语言模型(LLM)和其他自然语言处理(NLP)任务中扮演着至关重要的角色。它由Vaswani等人在2017年发表的题为《Attention Is All You Need》的开创性论文中提出。
迁移学习 (Transfer Learning):
迁移学习是一种技术,利用已经学习到通用语言理解的预训练大型语言模型(LLM)作为起点,在新的、特定任务的数据集上进行训练。与从头开始训练相比,这种方法节省了时间和资源。
迁移学习适配器 (Transfer Learning Adapter):
迁移学习适配器是一个模块化组件,用于对预训练的LLM进行微调。它允许对模型进行特定任务的修改,而无需重新训练整个架构,从而使微调过程更加高效。
XLNet:
XLNet,全称为“Extra-Long Transformer Network”(超长Transformer网络),是自然语言处理(NLP)领域中使用的Transformer架构的一个变体。它由谷歌人工智能(Google AI)和卡内基梅隆大学的研究人员开发,旨在解决早期NLP模型(如BERT – Bidirectional Encoder Representations from Transformers)的一些局限性。
零样本学习 (Zero-shot Learning):
零样本学习是大型语言模型(LLM)的一种能力,使其能够对未经明确训练的任务或问题进行预测或响应。这意味着LLM可以基于其预训练的语言理解能力,将知识泛化到未见过的任务或主题上。
零样本提示 (Zero-shot Prompt):
零样本提示是提供给大型语言模型(LLM)的一个查询或指令,要求模型在没有任何针对该特定任务或主题的事先专门训练的情况下提供答案或执行任务。零样本提示不依赖于对模型进行特定任务的微调,而是依靠LLM已有的知识和通用语言理解能力来生成响应。