当前位置: 首页 > news >正文

无锡做公司网站的做公司网站 烟台

无锡做公司网站的,做公司网站 烟台,网站设置密码怎么破解,企业网站优化公司有哪些文章目录 题目摘要引言方法实验消融研究 题目 Techgpt-2.0:解决知识图谱构建任务的大型语言模型项目 论文地址#xff1a;https://arxiv.org/abs/2310.03668 摘要 大型语言模型 (LLM) 与指令调优相结合#xff0c;在泛化到未见过的任务时取得了重大进展。然而#xff0c;它… 文章目录 题目摘要引言方法实验消融研究 题目 Techgpt-2.0:解决知识图谱构建任务的大型语言模型项目 论文地址https://arxiv.org/abs/2310.03668 摘要 大型语言模型 (LLM) 与指令调优相结合在泛化到未见过的任务时取得了重大进展。然而它们在信息提取IE方面不太成功落后于特定任务模型。通常IE 任务的特点是复杂的注释指南这些指南描述任务并向人类提供示例。以前利用此类信息的尝试都失败了即使是最大的模型也是如此因为它们无法遵循开箱即用的指南。在本文中我们提出了 GoLLIEIE 大型语言模型指南该模型能够通过微调以符合注释指南从而改进未见过的 IE 任务的零样本结果。综合评估经验表明GoLLIE 能够泛化并遵循看不见的准则优于之前零样本信息提取的尝试。消融研究表明详细的指导方针是获得良好结果的关键。代码、数据和模型将公开。 引言 信息提取IE的任务非常具有挑战性。这一挑战在详细的指南中显而易见其中包含精细的定义和大量的例外情况人类注释者必须遵循这些指南来执行任务。当前 SoTA 模型的性能在很大程度上取决于人工注释数据的数量因为该模型从这些示例中学习指导。然而在新的注释模式中进行测试时这种性能会显着下降。在 IE 中获得良好结果的常见做法是从头开始在每个新域和模式中手动注释因为几乎不存在跨应用程序域的传输。不幸的是这在财务成本和人力方面都是不可行的。 大型语言模型 (LLM)的最新进展使得能够泛化到未见过的任务的模型的开发成为可能。因此当前的零样本 IE 系统利用LLM中编码的知识来注释新示例。作为预训练过程的副产品模型现在可以强有力地代表个人或组织。因此可以提示他们从文本中提取对这些类别的提及。然而这有一个明显的限制并非每个注释模式*都以相同的方式定义“人”或任何其他标签。例如ACE 将代词注释为人称而 CoNLL 则不然。IE 任务需要的信息不仅仅是标签名称它们还需要注释指南。 目前的LLM已经接受过遵循说明的培训但他们未能遵循开箱即用的注释指南。例如下图显示了特定领域的零样本命名实体识别的结果。当提示指导方针时gpt-3.5-turbo 的结果很低在音乐或政治领域的 F1 分数约为 20。构建一个能够实现高性能零样本信息提取的系统减少对昂贵的人工注释的依赖仍然是一个开放的挑战。在这项工作中我们提出了 GoLLIE遵循指南的 IE 大型语言模型这是一个经过微调的LLM旨在学习如何遵守一小部分众所周知的 IE 任务的指南。综合零样本评估经验表明GoLLIE 在零样本信息提取方面优于 SoTA。 大型语言模型 (LLM) 在开发可泛化到未见过的任务的系统方面取得了重大进展。使用大量互联网数据训练了LLM发现给定自然语言任务描述的预训练模型可以在没有明确监督的情况下执行问答、机器翻译或总结等任务。基于这一发现指令调优通常称为多任务微调已成为实现未知任务泛化的主要方法。此过程涉及在大量未标记数据上预训练模型然后针对各种任务集合对其进行微调这些任务被表述为文本到文本问题。向模型提供自然语言指令或提示以识别其应解决的任务。研究已经证明增加语言模型的参数数量再加上指令调优数据集的大小和质量的改进可以增强泛化能力。LLM在各种具有挑战性的任务中表现出了令人印象深刻的零样本泛化能力包括编码、常识推理和医学应用等。 在信息提取IE领域最近的共享任务表明XLM-RoBERTa和 mDEBERTA等仅编码器的语言模型仍然存在最有效的模型。利用 LLM 和自然语言指令进行 IE 的尝试不太成功因为它们的性能落后于仅编码器模型。在十亿参数 LLM 之前间接监督方法通过利用从文本蕴涵和问答等任务中学到的知识来改进零样本 IE。提出了一种实体类型方法该方法使用 LSTM 将维基百科的标签描述编码为嵌入然后用于对输入进行评分。利用外部知识的方法在细粒度零样本 NER 上也取得了成功。引入了一种统一的文本到结构生成方法可以对不同的 IE 任务进行通用建模。提出将 IE 任务转换为语义匹配问题使他们的方法能够推广到新领域并标记训练期间未见过的本体。将 IE 任务定义为自然语言描述性指令并在各种 IE 任务中训练了LLM。在对具有看不见的标签本体的任务的评估中他们的模型优于其他指令调整方法。 大多数针对 IE 的指令调整尝试都有一个限制它们仅考虑提示中的标签名称例如“列出所有人员”。这带来了两大挑战。首先并非所有数据集都对“人”等标签具有相同的定义有些数据集不包括虚构人物或代词。其次标签名称本身不足以描述复杂或不太常见的标签。虽然有人尝试提示LLM使用指南但LLM有关任务标签的丰富先验知识阻止了模型遵守这些指南。 方法 与以前的方法不同GoLLIE 强制模型关注指南中的细节在训练期间未见过的模式上表现稳健。在本节中我们深入探讨我们方法的细节描述输入和输出的表示方式以及用于强制模型遵循准则的正则化技术。我们对模型的输入和输出采用了基于 Python 代码的表示。这种方法不仅提供了清晰且人类可读的结构而且还解决了通常与自然语言指令相关的几个挑战。它能够以统一的格式表示任何信息提取任务。输入可以使用 Python 代码格式化程序例如 Black自动标准化。输出结构良好解析它很简单。此外当前大多数LLM都在其预训练数据集中包含代码这表明这些模型已经熟悉这种表示形式。 上图显示了该格式的三个主要部分模式定义、输入文本和输出注释。模式定义形成输入的初始段。本节包含有关表示为 Python 类的标签的信息指导方针明确表达为文档字符串以及以代码注释的形式呈现的代表性注释候选者。类定义的数量对应于数据集中标签的数量。课程很灵活并且针对每项任务而有所不同。例如NER 数据集的类仅需要一个属性来指定与该类相对应的文本范围。另一方面事件参数提取 (EAE) 或槽位填充 (SF) 等更复杂的任务需要更多类属性来对任务进行分类例如事件参与者列表请参阅附录 A 中的示例。输入文本是输入的第二部分。输入文本在 Python 中表示为字符串变量。输出注释是模型生成的部分。 result后模型开始生成。注释是表示为模式定义部分上定义的类的实例列表。解析输出很简单在 Python 中执行生成的代码会生成一个包含结果的列表。这种易于解析输出的方式是我们模型的一个显着优势。附录 E 提供了对该方法效率的进一步详细分析。 指南增强表示这项工作的主要贡献是使用指南作为推理过程的一部分来改进零样本泛化。下图显示了带有和不带有指导方针的类定义示例。不同的数据集通常以多种不同的方式定义指导方针有些提供标签的复杂定义但有一些例外和特殊处理而另一些则仅给出一些有代表性的候选标签。标签的填充物。为了规范化输入格式我们将标签定义包含为类文档字符串并将候选者作为主要参数的注释通常是提及或跨度。 EAE 或 SF 等复杂任务需要参数或槽的附加定义为此我们在每个类参数上添加了一些小定义作为注释。在本文中我们将没有指南的模型称为 Baseline将有指南的模型称为 GoLLIE。 训练正则化我们希望确保模型遵循指导方针而不仅仅是学习识别特定的数据集并在它们上正确执行。为此我们在训练期间引入各种噪声。这会阻止模型识别特定数据集、回忆特定标签或仅关注标签名称而不是学习遵循指南中每个标签的实际描述。我们应用了以下正则化。类顺序打乱对于每个示例输入类的顺序被随机打乱。这使得模型更难记住整个任务定义。类丢失我们随机删除一些输入类。通过从输入和输出中消除少数类我们迫使模型学习仅输出输入中定义的类的实例。这不仅鼓励模型专注于模式定义而且还最大限度地减少了推理过程中出现幻觉的情况。指南释义我们生成标签定义的变体以防止模型轻松记住它们。我们还认为这将使该方法对于定义的不同变化更加稳健。代表性候选者抽样与我们对释义所做的类似对于每个输入我们从每类 10 个固定池中抽样 5 个不同的候选者。类名称屏蔽涉及用占位符例如 LABEL 1替换标签类名称例如 PERSON。这可以防止模型在训练期间利用标签名称并强制其参与并理解指南。 实验 评估零样本能力需要将数据分为训练数据集和评估数据集。然而许多信息提取基准都基于相同的域或共享其模式的一部分。为了确保零样本评估不受类似数据的影响我们根据数据域划分了一组基准。对于训练我们主要保留来自新闻和生物医学领域的数据集而对于评估我们使用来自不同领域的数据集。这种方法有助于避免在评估过程中引入任何噪音。在评估数据集中我们包括 CrossNER这是一个分为多个领域的数据集为了简单起见我们将每个领域称为一个单独的数据集人工智能、文学、音乐、政治和科学。另外我们将 MIT Movie 和 MIT Restaurant 称为电影和餐厅。表 1 包含有关实验中使用的数据的信息。 我们训练模型执行 5 种不同的任务命名实体识别 (NER)、关系提取 (RE)、事件提取 (EE)、事件参数提取 (EAE) 和槽位填充 (SF)。然而我们仅在感兴趣的三个主要任务上评估了模型NER、EE 和 EAE。另外两个任务被添加到训练数据中以增加多样性并提高模型的灵活性。为了提高模型的质量对两个数据集进行了少量修改。首先Ontonotes 5 的训练数据由于自动标注而大幅减少。其次TACRED 数据集从 RE 转换为 SF以增加任务的复杂性。这些修改使我们的系统无法与这些任务的现有技术相媲美。然而我们感兴趣的焦点是零样本评估因此其好处比在监督设置上添加 2 个可比点更有趣。在 CASIE 数据集中我们检测到注释的事件跨度不一致。模型通常注释子字符串而不是整个范围。因此我们根据预测的事件类别评估所有模型而不考虑确切的文本跨度。对于参数我们使用部分匹配。 我们使用每个数据集作者发布的指南。当此类指南未公开时我们会要求人类专家根据开发分会的注释来创建它们。当可用时从指南中提取代表性候选者否则根据词频从列车分割中采样候选者或根据指南手动策划候选者。使用 Vicuna 33B v1.3 自动生成释义。 语言模型和基线 主干LLMGoLLIE 是的微调版本。 然而在开发过程中考虑了其他骨干 LLM例如 LLaMA、LLaMA-2因为我们的方法使用代码来表示输入和输出Code-LLaMA 模型在初步实验中效果更好。为了进行公平比较本文开发的基线也基于 Code-LLaMA。本文的所有开发都是使用 Code-LLama 的 7B 参数版本完成的但是为了进行缩放分析我们还训练了 13B 和 34B 参数模型。训练设置为了训练模型我们使用 QLoRA。 LoRA 冻结预先训练的模型权重并将可训练的秩分解矩阵注入到 Transformer 架构的线性层中。在初步实验中该设置在零样本任务上优于微调整个模型同时训练速度更快。我们按照 Dettmers 等人的建议将 LoRA 应用于所有线性变压器块层。使用余弦调度器对模型进行 3 个 epoch 的训练有效批量大小为 32学习率为 3e-4。我们的训练基础设施是 2 台 NVIDIA A100每台 80GB。 可比系统我们的主要比较点是 Instruct-UIE因为它是最接近我们系统的方法但不使用指南。考虑进行比较的另一个系统是 PromptNER它建议使用 Chain-of-Though 来提示 GPT-3.5 和 T5 的定义以执行少样本 NER。与我们不同的是他们没有对模型进行微调以遵守指南。为了公平比较我们只考虑了论文中报告的零样本结果。此外当 Instruct-UIE 和 PromptNER 的结果不可用时还会添加其他 SoTA 系统进行比较。鉴于我们的系统是为零样本场景设计的监督实验旨在验证我们的系统不会降低其性能。因此对于监督场景我们选择了 SoTA 中与我们最具有可比性的设置的系统。 监督数据集上的结果下如表所示。将 GoLLIE 与基线进行比较它们都获得非常相似的结果平均绝对差异为 0.3 个 F1 点。这是预期的因为基线模型隐式地学习了在微调期间根据数据分布注释数据集的指南。此外尽管 GoLLIE 微调中引入了噪声以便根据准则进行概括但性能仍接近基线。与其他系统相比我们的模型总体上取得了相似的结果。关注我们的模型表现明显不佳的两个数据集 WNUT 和 NCBIDisease我们发现该任务仍需要具体技术。例如使用外部知识来检测新兴和稀有实体。在 NCBIDisisease 数据集中在生物医学领域语料库上预训练的模型取得了最佳结果。 利用 Flan-T5它在生物医学领域任务上非常熟练。然而这些改进是对我们的建议的补充。 零样本评估零样本的结果如下表所示。总体而言与基线相比在几乎每个数据集上使用指南时结果都有显着改善平均绝对差异为 13 个 F1 点。尽管根据领域划分评估基准但训练标签和评估基准之间总是存在一些重叠。例如数据集 E3C 和 WikiEvents 与 BC5CDR、ACE05 和 RAMS 等数据集共享其模式的很大一部分。这种现象反映在结果中。GoLLIE 大幅超越了当前的 zeri-shot SoTA 方法 Instruct-UIE和基于 Entailment 的 IE。与 Instruct-UIE 相比主要区别在于骨干模型、训练数据量以及指南的使用与否。Instruct-UIE 利用 11B FlanT5它是在 473 个 NLP 数据集上微调的 T5。在数据方面Instruct-UIE总共利用了来自不同领域的34个IE数据集将不同的任务计为数据集我们只利用了12个数据集。与我们的方法相反他们不使用指南信息。尽管如此我们的方法表现明显更好表明指南对结果有重要影响。 PromptNER还在提示中添加了一些定义信息以便执行零样本 NER。我们将我们的方法与图中的他们表示为 GPT-3.5进行比较。尽管他们的方法也利用了指南但我们的方法在所有数据集上的表现明显更好这表明LLM即使使用 175B 参数很难遵循指南。他们通过在上下文中添加示例来解决这个问题但在可比较的设置T5-XXL上仍然远远落后。 模型扩展最近的研究表明增加语言模型的参数数量可以提高泛化能力。更高的参数数量可带来卓越的平均零样本性能。然而一些数据集和任务可以从更大的LLM中受益匪浅而另一些则不然。我们认为某些数据集并没有看到增加 LLM 规模的好处因为它们的性能受到我们在第 5.3 节中讨论的指南问题的阻碍。虽然一般来说较大的模型在监督和零样本设置中都能取得更好的结果但具有 7B 参数主干的 GoLLIE 已经表现出强大的零样本能力。 可见标签与不可见标签零样本数据集中并非所有标签都是不可见的训练数据集和零样本数据集中的标签之间存在重叠。尽管这些标签可能有非常不同的注释准则但我们也会报告训练期间未接触到的标签集的结果以更好地了解 GoLLIE 的泛化能力。下图汇总了零样本场景中已见和未见标签的跨数据集的 F1 分数。所有模型在看不见的标签上表现出稍低的性能。对于基线模型性能下降更为明显。相比之下GoLLIE 表现出更好的泛化能力显示出可见标签和未看见标签之间的 F1 分数差距较小。此外随着模型参数数量的增加差距会更小。 消融研究 我们进行了消融以查看零样本评估中几个组件的贡献。我们分析了的不同正则化技术。此外我们将基线表示为“w/o all”即删除包括指南在内的所有组件时。除了平均零样本 F1 之外我们还提供了 GoLLIE 的单边 p 值。类顺序改组、指南释义和类名屏蔽似乎对最终结果没有显着贡献而类丢失虽然显着但改进很小。损失仅根据结果标记进行计算从本质上限制了模型与准则过度拟合的可能性。相反代表性注释项向模型发出了更强的信号。我们看到指南中的定义和代表性候选者如何互补并有助于相互改进。 在本节中我们的目的是更好地理解通过指南提示LLM的效果。我们专注于不同数据集上的特定标签结果如下表所示。我们的分析涵盖了 GoLLIE 实体标记的成功和不成功案例。对于后者我们还旨在确定模型未能正确标记这些实体的原因。详细信息在指南中MEDIA、VULNERABILITYPATCH、TRAILER 和 TASK 等标签本质上是多义的因此很难仅根据标签名称来确定适当的分类。因此由于信息不足基线很难有效地对这些标签下的项目进行分类。相反GoLLIE 成功地遵循了这些指南强调了它们的实用性。当注释不符合准则时对于 MultiNERD 数据集的 TIME 标签我们发现我们的模型将年份标记为 TIME 实体。根据注释指南这是正确的。令人惊讶的是年份没有被标记为数据集中的实体。在这种情况下GoLLIE 成功地遵循了指南不幸的是数据集注释没有。 不明确的标签CoNLL03 和 CrossNER 数据集使用的杂项类别是指未包含在数据集设置的预定义类别中的任何命名实体。这个定义非常模糊并且是对不适合任何类型的各种元素的包罗万象。预定义类别。类似地电影数据集的 PLOT 类别用于标记各种元素。例如电影中的事件例如谋杀、赛马、角色例如吸血鬼、僵尸和原籍国例如英国等。这种缺乏特异性阻碍了标记此类元素的一致规则或指南的制定这对人类和机器来说都是一个问题。因此GoLLIE 也无法准确地标记它们。 细粒度实体和粗实体之间的冲突CrossNER 数据集为每个域中的人名引入了两个标签。例如在科学领域中使用标签“SCIENTIST”和“PERSON”。前者用于标记任何不是科学家的人。类似地文学域包括标签“WRITER”和“PERSON”。该指南帮助 GoLLIE 将实体正确标记为 WRITER。然而尽管有指导方针GoLLIE 仍然将个人归类为“人”即使他们是科学家。从技术上讲这并不是不正确的因为根据定义每个科学家也是一个人。 强烈的标签先入之见在其政治领域集中CrossNER 包含“政治政党”标签。 GoLLIE 的表现优于基线再次证明了为模型提供指导的实用性。然而我们经常发现该模型将政党归类为组织。如表 1 所列大多数预训练数据集源自新闻领域其中政党是一个常见实体。然而没有一个微调数据集包含 POLITICAL PARTY 实体相反它们被归类为组织。因此在推理过程中该模型始终将政党标记为组织。我们相信这个问题可以通过扩大微调数据集的数量和多样性来解决。 总之我们预计 GoLLIE 将在具有明确定义和明确界限的指导方针的标签上表现良好。另一方面模糊的标签或非常粗糙的标签带来了挑战。在这方面相信 GoLLIE 会受益于学习遵循“始终标记最具体的类”或“在没有其他特定类的情况下注释此类”等指令。我们还预计 GoLLIE 将从扩大预训练数据集的数量和多样性中受益。 在本文中我们介绍了 GoLLIE这是一种经过专门微调以符合注释指南的LLM该指南旨在帮助人类注释数据集。全面的零样本评估从经验上证明注释指南对于LLM来说非常有价值因为 GoLLIE 成功地利用了它们。与之前的零样本 IE 尝试相比GoLLIE 实现了更好的零样本结果后者不利用指南或使用未针对遵循指南进行微调的模型。GoLLIE 是模型开发方面的重大进步可以泛化到未见过的 IE 任务。未来我们计划通过使用更大、更多样化的预训练数据集来增强 GoLLIE。我们还将通过扩展模型可以遵循的指令集来提高模型在模糊和粗糙标签上的性能。
http://www.ho-use.cn/article/10816394.html

相关文章:

  • 网站源码是什么小程序开发和app开发差别
  • 上海企乐网站制作公司vs2015做简单网站
  • 做阿里巴巴网站图片大全上海seo推广公司
  • 协会类网站免费模板网站主页设计代码
  • 无锡网站维护公司月付网站空间提供商
  • 重庆产品推广类网站wordpress滑动登录
  • 武进网站建设要多少钱免费wordpress主题下载
  • 南宁营销网站建设上优化seo
  • 厦门城乡建设局网站什么是企业vi设计
  • 建设网站要买空间吗东莞企业网站制作怎么做
  • 东莞电商公司排名广州外贸seo优化
  • vs做网站教程商城网站设计配色思想
  • 做网站的素材包含哪些建设摩托125图片大全
  • 网站建设的摘要怎么写青岛品牌网站制作电话
  • 4a景区网站建设标准口碑营销渠道
  • 有打赏功能的网站坑梓网站建设
  • 网站开发单子wordpress旅游网主题
  • 建设博客网站步骤电子商务公司
  • 建设部网站公告注册成功seo关键词使用
  • 建站 赚钱做土特产网站什么名字最好
  • 威海高新园区建设运营有限公司网站百度推广优化公司
  • 一流的盘锦网站建设做外销网站
  • 营销型网站建设的5大技巧wordpress产品筛选
  • 长春做网站制作旅游网站网页的代码
  • 网站备案 个体工商户重庆网站seo昔年优化
  • 东莞微信网站开发程序开发软件有哪些
  • 如何在公司建网站系统深喘旋磨做紧夹断妖精网站
  • 保定市建设局网站关于建设 医院网站的请示
  • 做外贸需要建英文网站吗开源门户系统
  • 企业门户网站设计php语言做的大网站