做网站新手流程,网站权重怎么看,苏州网络推广网站建设,网络销售工作怎么样abstract
各种社交网络的出现产生了大量的数据。捕获、区分和过滤真假新闻的有效方法变得越来越重要#xff0c;特别是在 COVID-19 大流行爆发之后。本研究对假新闻检测系统的图神经网络 (GNN) 的现状和挑战进行了多方面、系统的回顾#xff0c;并概述了使用 GNN 实现假新闻…
abstract
各种社交网络的出现产生了大量的数据。捕获、区分和过滤真假新闻的有效方法变得越来越重要特别是在 COVID-19 大流行爆发之后。本研究对假新闻检测系统的图神经网络 (GNN) 的现状和挑战进行了多方面、系统的回顾并概述了使用 GNN 实现假新闻检测系统的综合方法。此外还从多个角度讨论了用于实现实用假新闻检测系统的基于 GNN 的先进技术。首先我们介绍假新闻、假新闻检测和 GNN 的背景和概述。其次我们提供了基于 GNN 分类法的假新闻检测分类法并按类别审查和突出显示模型。随后我们按类别比较这些方法的关键思想、优点和缺点。接下来我们讨论假新闻检测和 GNN 可能面临的挑战。最后我们提出了该领域的几个悬而未决的问题并讨论了未来研究的潜在方向。我们相信系统从业者和新手可以利用这篇综述通过部署使用 GNN 的假新闻检测系统来克服当前的障碍并应对未来的情况。
1. Introduction 最近社交网络导致了信息爆炸。社交网络已成为全世界人们的主要沟通渠道。然而社交网络上发布的新闻的真实性往往无法确定。因此使用社交网络是一把双刃剑。因此如果从社交网络收到的消息是真实的那将是有益的。反之如果这条新闻是假的就会产生很多不良后果假新闻广泛传播时造成的损害程度是难以估量的。 假新闻是传播欺骗性内容或完全歪曲真实新闻文章的绝对创造性信息的来源[1]。假新闻的例子有很多。亨特等人。 [2]表明2016年美国总统大选期间克林顿支持者的活动受到顶级影响者的传统中间派和左倾新闻传播的影响而特朗普支持者的运动受到顶级假新闻传播者动态的影响。此外据报道英国脱欧公投相关假新闻的传播引发了舆论操纵。最近新冠肺炎疫情期间假新闻盛行。这些例子表明假新闻在社交网络上的传播对许多领域产生了重大影响。在假新闻广泛传播之前及时发现并遏制假新闻是一项紧迫任务。因此在过去的十年中已经采用了许多方法来检测和防止假新闻的传播其中基于图神经网络GNN的方法是最新的。 根据之前关于使用 GNN 进行假新闻检测的好处的研究结果我们总结了使用 GNN 的一些主要理由如下。现有的假新闻检测方法几乎完全专注于模型中与内容、传播和社交背景相关的特征。 GNN 有望成为一个潜在的统一框架用于结合内容、传播和基于社交情境的方法 [3]。假新闻传播者可以攻击基于机器学习的模型因为这些模型强烈依赖于新闻文本。为了避免这个问题有必要减少检测模型对新闻文本的依赖。基于 GNN 的模型可以在没有文本信息的情况下实现与现代方法相似或更高的性能 [4]。基于 GNN 的方法可以灵活地使用参数化随机游走和迭代聚合器来定义信息传播模式 [5]。图神经网络是一种新技术专注于在图结构上使用深度学习算法[6]。在应用于假新闻检测系统之前GNN 已成功应用于许多机器学习和自然语言处理相关的任务例如对象检测 [7,8]、情感分析 [9,10] 和机器翻译 [11 12]。通过深度学习改进卷积神经网络、循环神经网络和自动编码器实现了众多 GNN 的快速发展[13]。社交网络上基于 GNN 的假新闻检测系统的快速发展可以归因于社交网络在用户数量、发布新闻量和用户交互方面的快速增长。因此社交网络如果独立应用自然会变成复杂的图结构这对于之前基于机器学习和深度学习的假新闻检测算法来说是有问题的。造成这种现象的主要原因是图大小对节点数量以及不同数量的邻居节点的依赖性。因此一些重要的运算卷积在图域中很难计算。此外之前基于机器学习和深度学习的假新闻检测算法的主要假设是新闻条目是独立的。这种假设不适用于图数据因为节点可以通过各种类型的关系例如引用、交互和友谊连接到其他节点。基于 GNN 的假新闻检测方法已经被开发出来。尽管已经取得了一些最先进的结果见表1但在我们进行这项研究时还不存在完整的基于 GNN 的假新闻检测和预防系统。社交网络上的假新闻仍然是一个需要解决的重大挑战第一个理由。 表 1 描述了与使用基于 GNN 的方法相比传统方法的性能改进。 已经发表了各种假新闻检测的调查论文例如[18-23]。我们简要总结相关工作如下Vitaly Klyuev 等人。 [20]使用自然语言处理NLP和文本挖掘技术对基于语义的不同假新闻检测方法进行了调查。此外作者还讨论了社交网络上的自动检查和机器人检测。与此同时押川等人。 [21] 介绍了一项针对假新闻检测的调查仅重点审查基于 NLP 的方法。柯林斯等人。 [18]介绍了假新闻的各种变体并回顾了防止假新闻在社交网络上传播的最新趋势。舒等人。 [22]对各种类型的虚假信息、因素影响以及减少影响的方法进行了审查。汗等人。 [19] 提出了虚假新闻的变体例如错误信息、谣言、点击诱饵和虚假信息。他们提供了一些假新闻变体检测方法的更详细的表示而不限制基于 NLP 的方法。他们还介绍了可用的检测模型类型例如基于知识的方法、事实检查方法和混合方法。此外作者还介绍了防止假新闻及其变种的政府策略。马哈茂德等人。 [23]通过实施几种常用的机器学习和 GNN 方法来检测社交媒体上的假新闻并比较它们的性能从而进行了比较分析。没有任何调查论文尝试使用最新技术即基于 GNN 的方法第二个理由对假新闻检测进行全面而彻底的概述。 以上两个理由促使我们进行这项调查。尽管不可避免地存在一些相似之处但我们的调查与上述工作的不同之处在于我们专注于使用最新的基于 GNN 的技术来描述、分析和讨论假新闻检测模型。我们相信本文可以为新研究人员、新手和系统从业者在使用 GNN 提高假新闻检测系统的性能时克服当前障碍并形成未来方向提供重要和基础的参考。本文做出以下四个主要贡献。 • 我们提供迄今为止最全面的假新闻调查包括相似的概念、特征、相关特征的类型、方法的类型和基准数据集。我们根据假新闻的特点重新定义了类似的概念。这项调查可以作为阐明、改进和提出不同假新闻检测方法的实用指南。
• 我们对现有类型的 GNN 模型进行了简要回顾。我们还对不同类型的模型进行了必要的比较并总结了相应的算法。
• 我们介绍了用于假新闻检测系统的 GNN 模型的详细信息例如模型管道、基准数据集和开源代码。这些细节提供了背景并指导经验丰富的开发人员为假新闻预防应用程序提出不同的 GNN。
• 我们介绍并讨论使用 GNN 模型检测和预防假新闻的开放问题。我们对每个问题进行全面分析并提出有关模型深度和可扩展性权衡的未来研究方向。 本节阐述了该问题的合理性并强调了我们进行这项调查的动机。本文其余部分的顺序如下。第 2 节介绍背景并概述假新闻、假新闻检测和 GNN。第 3 节介绍了用于进行审查的调查方法。第 4 节分析了纳入论文的一般信息。第 5 节对所选论文进行了分类和详细审查。随后我们在第 6 节中按类别讨论了这些方法的比较、优点和缺点。接下来在第 7 节中简要评估了假新闻和 GNN 可能面临的挑战。最后我们确定了该领域的几个悬而未决的问题并讨论了潜在的问题第 8 节中的未来研究方向。
2. Background
2.1. Understanding fake news
什么是假新闻新闻被理解为元信息可以包括以下内容[24]
• 来源新闻出版商例如作者、网站和社交网络。 • 标题用简短的文字描述新闻的主要话题以吸引读者的注意力。
• 正文内容新闻的详细描述包括亮点和发布者特征。
• 图像/视频正文内容的一部分提供视觉插图以简化新闻内容。
• 链接其他新闻来源的链接。 “假新闻”被麦格理词典评为 2016 年年度词汇 [24]。假新闻受到相当大的关注受到研究者的关注不同观点给出了不同的定义。在[24]中作者将假新闻定义为“故意且可证实的虚假新闻文章”。奥尔科特和根茨科[2]对假新闻做了狭义的定义“故意且可证实的虚假新闻文章可能会误导读者”。在另一个定义中作者将假新闻视为“在形式上模仿新闻媒体内容但在组织过程或意图上不模仿的捏造信息”[25]。在[26]中作者考虑了各种形式的假新闻例如虚假、误导或创造性新闻包括传播信息的几个特征和属性。在[27]中作者将假新闻广义定义为“虚假新闻”将假新闻狭义定义为“新闻媒体故意发布的虚假新闻”。以前的假新闻检测方法中也采用了类似的定义[3,4,28,29]。 假新闻的特征尽管存在不同的定义但大多数假新闻具有以下共同特征。
• 回声室效应回声室[30]可以广义地定义为关注对某一主题具有相同政治倾向或信念的用户意见的环境。这些观点通过与具有相似倾向和态度的其他用户的反复互动而得到强化。社会可信度[31]和频率启发式[31]即搜索符合现有评论的信息的趋势可能是社交网络上出现回声室的原因[24,32–34]。当新闻信息量不足时可以利用社会公信力来判断其真实性。但仍有不少人认为其可信并进行传播导致大众普遍接受此类消息的可信性。当人们经常听到新闻时频率启发就会形成导致人们自然地认可该信息即使它是假新闻。
• 欺骗意图[35]这一特征是基于“没有人会无意中以新闻文章的形式产生不准确的信息假新闻类型是故意创造来欺骗”的假设来识别的[25]。欺骗是由政治/意识形态或经济原因引发的[2,36–38]。然而假新闻也可能出现并被传播以娱乐、娱乐或者如[39]中所提议的“挑衅”。
• 恶意账户目前社交网络上的新闻既来自真实的人也来自虚幻的人。尽管假新闻是由非真人帐户创建和传播的但仍有一些真人传播假新闻。主要为了传播假新闻而创建的帐户被称为恶意帐户[27]。恶意帐户分为三种主要类型社交机器人、巨魔和机器人用户[24]。社交机器人是由计算机算法控制的社交网络帐户。当社交机器人主要设计用于传播有害信息并在创建和传播有害信息方面发挥重要作用时该社交机器人被称为恶意帐户。假新闻[40]。该恶意帐户还可以自动发布新闻并与其他社交网络用户互动。巨魔是真实存在的人他们扰乱在线社区以激发社交媒体用户的情感反应[24]。网络喷子的目的是通过激起社交网络用户的负面情绪来操纵信息来改变他人的观点[40]。因此用户产生强烈的怀疑和不信任[24]他们会陷入一种迷茫的状态分不清什么是真的什么是假的。渐渐地用户会怀疑真相并开始相信谎言和虚假信息。 Cyborg 用户是由真人创建的恶意帐户然而他们通过使用程序来维持活动。因此赛博格更擅长传播虚假新闻[24]。
• 真实性该特征旨在识别新闻是否属实[27]。事实陈述可以被证明是真或假。主观意见不被视为事实陈述。只有客观的意见才被视为事实陈述。事实陈述永远不会是错误的。当一个声明被发表时如果它可以被反驳那么它就不是一个事实声明[41]。非事实陈述是我们可以同意或不同意的陈述。换句话说这个消息有时是错误的有时是正确的甚至是完全错误的。假新闻大多包含非事实陈述。
• 该信息是新闻这个特征[27]反映了该信息是否是新闻。
根据假新闻的特点我们对假新闻给出新的定义如下。 “假新闻”是指包含不实陈述的新闻带有恶意账户可能会引起回音室效应意图误导公众。与假新闻相关的概念存在关于假新闻的各种概念。利用假新闻的特点我们可以重新定义这些概念来区分它们
• 虚假新闻[42,43] 是指包含来自恶意帐户的非事实陈述的新闻这些陈述可能会导致意图不明的回音室效应。
• 虚假信息[44]是包含恶意帐户的非事实陈述的新闻或非新闻可能导致回音室效应意图误导公众。
• 择优挑选[45]是包含恶意账户常见事实陈述的新闻或非新闻可能会引起回音室效应意图误导公众。
• 谣言[46]是包含来自恶意帐户的事实或非事实陈述的新闻或非新闻可能会导致意图不明的回声室效应。
• 虚假信息是来自恶意帐户的非事实陈述的新闻或非新闻可能导致回音室效应意图误导公众。
• 操纵[47]是市场新闻其中包含恶意账户的非事实陈述可能导致回音室效应意图误导公众。
• 欺骗性新闻[2,24,27] 是指包含来自恶意帐户的非事实陈述的新闻这些陈述可能引起回音室效应意图误导公众。
• 讽刺新闻[48] 是包含来自恶意帐户的事实或非事实陈述的新闻可能会引起回音室效应其目的是娱乐公众。
• 错误信息[33] 是包含来自恶意帐户的非事实陈述的新闻或非新闻这些陈述可能会导致意图不明的回音室效应。
• Clickbait [49] 是包含来自恶意帐户的事实或非事实陈述的新闻或非新闻可能导致回音室效应意图误导公众。
• 虚假事实[50] 是未定义的信息新闻或非新闻由恶意账户的非事实陈述组成可能导致回音室效应意图误导公众。
• 宣传[48] 是带有偏见的信息新闻或非新闻包括来自恶意帐户的关于大多数政治事件的未定义陈述事实或非事实可能导致回音室效应意图误导公众。
• 草率新闻[19] 是不可靠且未经证实的信息新闻或非新闻包括记者分享的未定义的陈述可能导致回声室效应意图误导公众。
2.2. Fake news detection
2.2.1. What is fake news detection? 与传统新闻媒体不同假新闻主要利用基于内容的新闻特征来检测对于社交媒体基于社交情境的辅助功能可以帮助检测假新闻。因此在[24]中作者根据新闻的基于内容和上下文的特征提出了假新闻检测的正式定义。给定新闻文章a的n个用户之间的社交互动ε假新闻检测的目标是预测a是否是假新闻的实例。该目标由预测函数 F : ε → {0, 1} 定义使得 在此Shu 和 Sliva 将预测函数 F 定义为二元分类函数因为假新闻检测包含来自发布者的关于实际新闻主题的扭曲信息扭曲偏差。根据媒体偏差理论[51]失真偏差通常被定义为二元分类。 使用上述假新闻检测的定义在本文中我们将假新闻检测视为多分类任务。给定一组 n 条新闻 N {n1, n2,... 。 。 , nn} 和一组 m 个标签 Ψ 假新闻检测识别分类函数 F 使得 F : N → Ψ 将每个新闻 n ∈ N 映射到具有 Ψ 中可靠标签的真实类。与假新闻相关的概念见2.1节对应的是与假新闻检测相关的概念例如谣言检测和错误信息检测分类。这些概念的定义与假新闻检测任务类似。
2.2.2. Fake news detection datasets
在本节中我们介绍最近用于假新闻检测的常见数据集。这些数据集是通过结合之前论文 [19,52,53] 中提出的英语数据集来准备的并通过添加缺失的数据集来丰富。与其他调查或评论论文相比我们计算了 35 个数据集的统计数据而 D’Ulizia 等人。 [52]夏尔马等人。 [53]以及可汗等人。 [19]分别只考虑了 27、23 和 10 个数据集。因此我们按域名、概念类型、内容类型和类数量列出数据集。表2对假新闻数据集进行了简要比较。根据表2中的内容这些数据集可以进一步详细说明如下 • ISOT1来自路透社的假新闻和真实新闻来自 PolitiFact 和维基百科标记的网站的假新闻。
• Fakeddit英语多模态假新闻数据集包括图像、评论和元数据新闻。
• LIAR2英语数据集包含 2007 年至 2016 年从在线流媒体和两个社交网络Twitter 和 Facebook收集的 12,836 条有关政治的简短陈述。
• 斯坦福假新闻假新闻和讽刺故事包括对人物的夸张支持或谴责、阴谋理论、种族主义主题以及对可靠来源的怀疑。 • FA-KES有关叙利亚冲突的虚假新闻例如伤亡、活动、地点和活动日期。
• BREAKING!使用斯坦福假新闻数据集和BS 探测器数据集3 创建的英语数据集。这些数据包括有关 2016 年美国总统大选的新闻都是从网页收集的。
• BuzzFeedNews4英语数据集包含 2016 年至 2017 年从 Facebook 收集的 2283 篇有关政治的新闻文章。
• FakeNewsNet5英语数据集包含从在线流媒体和 Twitter 收集的 422 篇有关社会和政治的新闻文章。
• FEVER英语数据集包含从在线流媒体收集的 185,445 条有关社会的声明。
• FakeCovid英文数据集包含从 92 个事实核查网站爬取的 5182 篇有关 COVID-19 健康和社会的新闻文章参考 Poynter 和 Snopes。 • CredBank6英语数据集包含 2014 年 10 月至 2015 年 2 月从 Twitter 收集的关于 1000 多个社会事件的 6000 万条推文。 • Memetracker从 1.65 亿人中收集的英语数据集包含 9000 万份文档、1.12 亿条引文和 2200 万条有关社会的各种短语。网站。 • BuzzFace英语数据集包含 2016 年 7 月至 2016 年 12 月从 Facebook 收集的 2263 篇新闻文章和 160 万条有关社会和政治的评论。该数据集于 2016 年 9 月进行了扩展。
• FacebookHoax英语数据集包含 2016 年 7 月至 2016 年 12 月从 Facebook 收集的 15,500 个有关科学的恶作剧。此外该数据集还识别出拥有超过 230 万个赞的帖子。
• Higgs-Twitter英语数据集包含从 Twitter 收集的 527,496 位用户发布的有关新希格斯玻色子检测科学的 985,590 条推文。
• Trust and Believe英语数据集包含 Twitter 上 50,000 名政客用户的信息。所有信息都是手动标记的或使用可用的学习方法。
• Yelp包含从在线流媒体收集的 18,912 条技术虚假评论的英语数据集。
• PHEME英语和德语数据集包含从 Twitter 收集的 4842 条推文和 330 个有关社会和政治的谣言对话。
由于手稿页数有限我们不描述进一步的数据集。其余数据集显示在附录“数据集描述”下。 基于上述分析我们比较了图1中假新闻数据集的标准然后讨论了观察结果以及这些观察结果的主要原因。首先从新闻内容的类型来看35个数据集中有29个数据集包含文本数据82.86% 35 个数据集中的 3 个数据集包含文本、图像和视频数据8.57%即 Fakeddit、Stanford Fake News 和 Verification Corpus 35 个数据集中有两个包含文本和图像数据5.71%即 FakeNewsNet 和 Breaking仅 1 个数据集包含文本和视频数据2.86%。没有数据集包含单独的图像或视频因为以前的假新闻检测方法主要使用基于 NLP 的技术这些技术高度依赖于文本数据。此外带标签的图像或视频数据很少因为对其进行注释是劳动密集型且成本高昂的。 其次就新闻领域而言35 个数据集中有 20 个和 19 个数据集分别关注社会新闻57.14%和政治新闻54.29%而只有 1 个数据集包含经济、欺诈/骗局和虚假新闻2.86% 。这些发现可以用以下事实来解释假新闻在政治和社会领域比在其他领域更具针对性和广泛性[89]。第三关于假新闻概念的类型35个数据集中有27个包含假新闻概念77.14%其次是谣言11.43%、讽刺8.57%、恶作剧和真实新闻5.71%最后是虚假评论2.86%。因此包含假新闻概念的数据集通常用于假新闻检测应用因为假新闻包含新闻机构为了政治或经济利益而传播的虚假信息[46]。最后就应用类型而言35个数据集最常见的应用目标是虚假检测71.43%其次是事实检查11.43%、真实性分类和谣言检测8.57%因为假新闻检测应用可以用来解决实际问题。此外假新闻检测是最普遍的应用涵盖了将虚假信息分类为真或假的整个过程。因此虚假信息数据集与收集最相关[52]。
2.2.3. Features of fake news detection 图 2. 假新闻检测方法的特征类别。
图2总结了从新闻内容和上下文中提取和表示有用特征类别的细节。根据假新闻的新闻属性和判别特征我们可以提取不同的特征来构建假新闻检测模型。目前假新闻检测主要依赖于新闻和上下文信息。在这项调查中我们将有助于假新闻检测的因素分为七类特征网络特征、情感特征、语言特征、视觉特征、帖子特征、用户特征和基于潜在特征。基于语言的特征这些特征用于捕获有关新闻写作风格属性的信息例如单词、短语、句子和段落。假新闻旨在误导或娱乐公众以获取经济或政治利益。因此基于假新闻的意图我们可以很容易地提取出与假新闻中经常出现的写作风格相关的特征例如使用挑衅性的词语来刺激读者的注意力设置耸人听闻的标题。为了最好地捕捉基于语言的特征我们将它们分为五种常见类型词汇、句法、语义、特定领域和非正式。词汇特征指的是措辞例如最显着的字符n-gram[90,91]、否定词、疑问词、缩写词、粗俗词[92]的频率以及词语的新颖性[93]。句法特征捕获与句子级别相关的属性例如标点符号的数量[94]、功能词名词、动词和形容词的数量[93]、POS标签的频率[95]和句子复杂性[96 97]。语义特征捕获与潜在内容相关的属性例如潜在主题的数量[98]和上下文线索[99]。这些特征是通过最先进的 NLP 技术提取的例如分布语义嵌入技术和主题建模LDA 技术[100]。特定领域的特征捕获与新闻中的领域类型相关的属性例如引用的单词、图表的频率和外部链接[101]。非形式性特征捕获与书写错误相关的属性例如拼写错误、脏话、网络用语和同意词的数量[27]。 基于情感的特征此类特征捕获有关新闻中出现的人类情感或感受的属性[102,103]。这些特征是根据假新闻的意图和真实性特征来识别和提取的。它们分为两组视觉极性和文本极性。与视觉极性相关的关键因素是正面/负面图像/视频的数量、焦虑/愤怒/悲伤图像/视频的数量以及感叹号的数量[27]。这些因素捕获类似于文本极性的信息。 基于用户的特征此类特征是根据假新闻的恶意帐户特征特别是社交机器人和机器人用户进行识别和提取的。基于用户的功能是与创建或传播虚假新闻的用户帐户相关的属性。这些特征分为两个层面即群体层面和个体层面[27]。该个人专注于利用每个特定用户的虚假或真实因素例如注册年龄、关注者数量以及用户发布的意见数量[102,104]。同时群体层面关注与用户群体相关的因素如用户比例、关注者比例、关注者比例等[95,105]。基于帖子的特征该类特征是根据假新闻的恶意账号和新闻特征进行识别和提取的。基于帖子的功能用于捕获与用户对共享新闻的响应或意见相关的属性。这些特征分为三类组、后和时间[27]。帖子级别侧重于利用每个帖子的因素[28]例如其他用户对此帖子的看法支持、否认、主要主题和可靠性程度。群体层面关注与该帖子相关的所有意见的因素[106]例如支持意见的比例、反对意见的比例以及可靠程度[95,105]。时间水平记录了帖子和关注者数量随时间变化以及感官比率等因素[105]。 基于网络的特征基于网络的特征用于提取有关新闻出现和传播的媒体属性的信息[107]。此类特征是根据假新闻的回声室、恶意账号、意图等特征进行识别和提取的。这里可提取的特征是传播结构、传播方式以及与新闻传播相关的一些因素例如密度和聚类系数。因此可以形成许多网络模式例如发生、立场、友谊和扩散[24]。姿态网络[106]是一个带有节点、边、显示所有与新闻相关的文本节点之间的边显示文本中相似的立场权重。同现网络[28]是一个图其中的节点显示用户边缘指示用户参与度例如用户对同一新闻的意见数量。友谊网络[105]是一个图其节点显示对同一新闻有相关意见的用户边显示这些用户的关注者/被关注者结构。扩散网络[105]是友谊网络的扩展版本其节点表示对同一新闻有意见的用户边缘显示了这些用户之间的信息传播路径与新闻相关的文本节点之间的边显示文本中相似的立场权重。同现网络[28]是一个图其中的节点显示用户边缘指示用户参与度例如用户对同一新闻的意见数量。友谊网络[105]是一个图其节点显示对同一新闻有相关意见的用户边显示这些用户的关注者/被关注者结构。扩散网络[105]是友谊网络的扩展版本其节点表示对同一新闻有意见的用户边缘显示了这些用户之间的信息传播路径. 基于视觉的特征很少有假新闻检测方法被应用于视觉新闻[24]。此类特征是根据假新闻的真实性、新闻和预期特征来识别和提取的。基于视觉的特征用于捕获与包含图像、视频或链接的新闻相关的属性[27,100]。此类别中的特征分为两组视觉特征和统计特征。视觉水平反映了每个视频或图像的因素例如清晰度、连贯性、相似性分布、多样性和聚类得分。统计层面计算所有视觉内容的因素例如图像的比例和视频的比例。 潜在特征这里我们需要注意的一个关键概念是不可直接观察到的潜在特征包括潜在文本特征和潜在视觉特征。需要潜在特征来更有效地从原始数据中提取和表示潜在语义。此类特征是根据假新闻的回声室、真实性、新闻信息等特征进行识别和提取的。通常通过使用新闻文本表示模型来创建新闻文本向量来提取潜在文本特征。文本表示模型可以分为三组上下文化文本表示例如 BERT [110]、ELMo [111]、非上下文化文本表示例如 Word2Vec [112]、FastText [113]、GloVe [114] 和基于知识图的表示例如 Koloski 等人。方法[115]、RotatE[116]、QuatE[117]、ComplEx[118]。上下文化文本表示是可以捕获更丰富的上下文和语义信息的词向量。基于知识图的表示可以通过两个实体之间的连接及其基于知识图的关系来添加人类知识表示从而丰富各种上下文和非上下文表示。新闻文本表示不仅可以用作传统机器学习模型[119]的输入还可以集成到深度学习模型中例如神经网络[115]、循环网络[120]和变压器[110,121,122]以及基于GNN的用于假新闻检测的模型[123-125]。潜在的视觉特征通常是从视觉新闻中提取的例如图像和视频。通过使用神经网络[126]来提取潜在视觉特征以创建包含图像像素张量或矩阵的潜在视觉表示。
2.2.4. Fake news detection techniques 图 3. 假新闻检测的类别。
图 3 显示了假新闻检测技术的概述。之前的相关论文[21,27,42,46,53,79,107]证明假新闻检测技术通常分为四类方法基于内容的方法包括基于知识和基于风格的方法基于上下文的方法、基于传播的方法、基于多标签学习的方法和基于混合的假新闻检测方法。令 Ψ a 为假新闻检测任务的相应输出类之一。例如Ψ a ε {真实假}或 Ψ a ε {非谣言未经证实的谣言虚假谣言真实谣言}或 Ψ a ε {真假}。 基于知识的检测给定新闻项 a其具有由三元组 K (S, P, O) [127] 表示的一组知识其中 S {s1, s2, . 。 。 , sk} 是从新闻项 a 中提取的主题集合P {p1, p2,... 。 。 , pk} 是从新闻项 a, O {o1, o2,... 中提取的一组谓词。 。 。 , ok} 是从新闻项a中提取的一组对象。因此ka i (si, pi, oi) ∈ K , 1 ≤ i ≤ n称为知识。例如我们有一条新闻“约翰·史密斯是中心医院的一位著名医生”从这个陈述中我们有 ka i (约翰·史密斯, 职业, 医生)。假设我们有一组真实的知识 Kt (St, Pt, Ot)其中ktal (stl, ptl, otl) ∈ Kt, 1 ≤ l ≤ m 设GK是包含一组真实知识的真实知识图其中节点代表一组(St)。 , Ot) ε Kt 和边表示一组 (Pt) ε Kt基于知识的假新闻检测方法的目的是定义一个函数 F 来比较 ka i (si, pi, oi) ε K 和 ktal (stl, ptl, otl) ∈ Kt使得 F : ka i GK −→Ψ a i 。 函数 F 用于为每个三元组 (si, pi, oi) 分配标签 Ψ a i∈ [0, 1]将其与图 GK 上的所有三元组stl、ptl、otl进行比较其中标签 0 和 1 分别表示假和真。函数 F 可以定义为 F (ka i , GK ) Pr(edge pi 是来自的链接。 ˆ si 到 ˆ oi 在 GK 上其中 Pr 是概率 ˆ si 和 ˆ oi 分别是与 GK 上 si 和 oi 匹配的节点 ˆ si argminstl |J(si, stl)| 和 ˆ oi argminotl |J(oi, otl)| 分别为 其中 xi 是某个阈值 J(si, stl) 是计算 si 和 sti 之间距离的函数与 J(oi, otl) 类似。例如当 |J(si, stl)| 0 或 |J(si, stl)| xi 我们可以将 si 视为与 sti 相同。该类别的技术是根据假新闻的真实性和新闻特征提出的。基于知识的技术的目标是利用外部来源来对新闻陈述进行事实核查。事实检查步骤旨在识别与特定上下文相对应的陈述的真实性[72]。它可以自动实现面向计算[128]或手动实现基于专家[101, 129,130]众包[67,131]。 基于风格的检测给定一个具有一组 f a s 风格特征的新闻项 a其中 f a s 是一组有关新闻内容的特征。基于风格的假新闻检测被定义为二元分类来识别新闻项 a 是假的还是真实的这意味着我们必须找到一个映射函数 F 使得 F : f a s → Ψ a。该类别的技术是根据假新闻的意图和新闻特征提出的。基于风格的技术的目标是捕捉假新闻独特的写作风格。假新闻以独特的风格吸引了很多人的注意从普通新闻中脱颖而出。书写风格的捕捉步骤是自动构建的。然而必须遵守两种技术作为标准风格表示技术[132-134]和风格分类技术[28,91,135]。 基于上下文的检测给定新闻项a具有一组fa c 上下文特征其中fa c 包括新闻文本、新闻来源、新闻发布者和新闻交互。基于上下文的假新闻检测被定义为二元分类的任务以识别新闻项 a 是假的还是真实的这意味着我们必须找到一个映射函数 F使得 F : f a c → Ψ a。技巧该类别是根据恶意账号和假新闻的新闻特征提出的。基于来源的技术的目标是获取出现、发布和传播新闻的来源的可信度[27]。可信度是指人们对新闻的质量和可信度的情感反应。此类技术通常分为两种方法i根据新闻作者和出版商评估新闻出现和传播的来源的可靠性[136,137]和ii评估新闻出现和传播的来源的可靠性基于社交媒体用户传播[105,138,139]。 基于传播的检测给定新闻项 a 和一组新闻传播模式特征。基于传播的假新闻检测被定义为二元分类以识别新闻项 a 是假的还是真实的这意味着我们必须开发一个映射函数 F使得 F : f a p → Ψ a。此类技术是根据假新闻的回声室效应和新闻特征提出的。基于传播的技术的目标是捕获和提取有关假新闻传播的信息。也就是说此类方法旨在根据人们分享假新闻的方式来检测假新闻。这些技术通常分为两大类i使用新闻级联[140,141]和ii使用自定义传播图[142-145]。 基于多标签学习的检测令 χ ∈ Rd 为 d 维输入特征矩阵因此新闻项 a [a1, . 。 。 ad] ε χ 令 Γ {real, fake}l 为标签矩阵使得 Ψ [Ψ1, . 。 。 , Ψl] ∈ Γ 其中 l 是类标签的数量。给定一个训练集 {(a, Ψ )}多标签学习检测的任务是学习一个函数 F : χ → Γ 来预测 ˆ Ψ F (a)。基于多标签学习的检测是一种学习方法其中训练集中的每个新闻项都与一组标签相关联。此类技术是根据假新闻的回声室效应和新闻特征提出的。基于多标签学习的技术的目标是捕获和提取有关新闻内容和新闻潜在文本的信息。此类技术通常分为四种方法i使用基于样式的表示[17,115,146,147] (ii) 使用基于风格的分类[15, 29,148–151] (iii) 使用新闻级联[140,152] (iv) 使用自定义的传播图[4,16,125,153]。 基于混合的检测该方法是一种最先进的假新闻检测方法它同时结合了两种先前的方法例如内容上下文[154,155]、传播内容[147,156]和上下文传播[4] 14]。这些混合方法目前很受关注因为它们可以捕获与假新闻相关的更有意义的信息。因此它们可以提高假新闻检测模型的性能。
需要讨论的一个关键问题是假新闻的早期发现。假新闻的早期检测通过仅提取与原始新闻项的出现相比具有适当时间延迟的有限社会背景来提供假新闻的早期警报。基于知识的方法稍微不适合假新闻早期检测因为这些方法强烈依赖于知识图谱同时新传播的新闻往往会产生新的信息并包含知识图谱中未出现的知识。基于风格的方法可用于假新闻早期检测因为它们主要依赖于新闻内容使我们能够在新闻出现且尚未传播后立即检测假新闻。然而基于风格的假新闻早期检测方法仅适用于短时间内因为它们严重依赖于创作风格而创作者和传播者可以改变这种风格。基于传播的方法不适合假新闻的早期检测因为尚未传播的新闻通常包含很少的有关其传播的信息。据我们所知基于上下文的方法最适合假新闻早期检测因为它们主要依赖于新闻环境例如新闻来源、新闻发布者和新闻互动。该功能允许我们在新闻出现后立即通过网站垃圾邮件检测[157]、不信任链接修剪[158]和用户行为分析[159]方法检测假新闻。一般来说假新闻的早期发现只适用于短时间内因为人类智力是无限的。当假新闻的早期检测方法得到应用时用不了多久人类就会创造出一种有效的方法来打击它。这个问题仍然是假新闻检测领域的重大挑战。
2.3. Understanding graph neural networks 在本节中我们提供 GNN 的背景和定义。下一节将讨论 GNN 的技术、挑战和类型。在介绍本节内容之前我们先介绍一下表 3 中本文使用的符号。 2.3.1. What is a graph?
在讨论图结构的深度学习模型之前我们提供图结构的更正式的描述。形式上一个简单的图表示为 G {V , E}其中 V {v1, v2,...。 。 。 , vn} 是节点集合E {e11, e12, . 。 。 , enn} 是边的集合其中 eij (vi, vj) ∈ E, 1 ≤ i, j ≤ n。其中vi和vj是两个相邻节点。邻接矩阵 A 是一个 n × n 矩阵其中 我们可以使用简单图的更多信息来创建改进的图例如属性图[6]、多关系图[160]。
属性图是简单图的扩展版本。它们是通过节点属性X或边属性X e相加得到的其中X ∈ Rn×d是节点特征矩阵xvn ∈ Rd表示节点v的特征向量 X e ∈ Rm×c 是边缘特征矩阵其中 xevi,vj ∈ Rc 表示边缘 eij 的特征向量。
这里节点属性随着时间自动改变。因此令 X (t) 为第 t 个时间步的节点表示的特征矩阵时空图定义为 G(t) {V , E, X (t)}其中 X (t) ∈ Rn×d。多关系图是简单图的另一种扩展版本其中包括具有不同类型关系 τ 的边。
在这些情况下我们有 eij (vi, vj) ε E → eij (vi, τ , vj) ε E。每条边都有一个关系邻接矩阵 Aτ 。整个图可以创建一个邻接张量 A ∈ Rn×r×n。多关系图可以分为两个子类型异构图和多重图。
异构图这里节点可以分为不同的类型。这意味着 V V1 ∪ V2∪ ... ∪ Vk其中 i ̸ jVi ∩ Vj ∅。同时边通常必须满足节点类型之后的条件。然后我们有 eij (vi, τ , vj) ε E → eij (vi, τh, vj) ε E其中 vi ∈ Vt vj ∈ Vk 且 t ̸ k。
多重图这里图被分为一组 k 层其中每个节点属于一层并且每层都有一个唯一的关系称为层内边类型。另一种边缘类型是层间边缘类型。层间层连接跨层的同一节点。这意味着 G {Gi, i ∈ {1, 2, ... 。 。 , k}}Gi {Vi, Ei}其中 Vi {v1, v2, . 。 。 , vn}, Ei Eintra i ∪ Einter i , Eintra i {elj (vl, vj), vl, vj Î Vi}, Einter i {elj (vl, vj), vl Î Vi, vj Î Vh 1≤h≤kh̸i}。
2.3.2. What are graph neural networks? GNN 是使用图结构数据上的深度学习模型创建的这意味着深度学习模型处理欧几里得空间数据相反GNN [6,161-163] 处理非欧几里得域。假设我们有一个图 G {V , E} 其中邻接矩阵 A 和节点特征矩阵或边特征矩阵X或 X e。给定 A 和 X 作为输入GNN 的主要目标是在第 k 层之后找到输出即节点嵌入和节点分类 H(k) F (A, H(k−1) ; θ (k))其中 F 是传播函数 θ 是函数 F 的参数当 k 1 时则 H(0) X 。传播函数有多种形式。设 σ (·) 为非线性激活函数例如 ReLU W(k)是第k层的权重矩阵 ˆ A 为归一化邻接矩阵计算公式为 ˆ A D−0.5A⊤D−0.5 其中 D 为 A⊤ 的对角度矩阵计算公式为 Dii Σ j A⊤ ij A⊤ A I 其中 I 是单位矩阵。通常使用传播函数的简单形式F (A, H(k)) σ (AH(k−1)W (k))。此外还可以改进传播函数以适合GNN任务如下所示
对于节点分类任务函数 F 通常采用以下形式[164] 对于节点嵌入任务函数 F 通常采用以下形式[165] 其中 Q 是一个转换器表示边 e 是否连接到给定节点并且 Q ⊤ T I Me 是边的可学习矩阵 φ 是对角化算子 ⊙ 是元素乘积 H(k−1) e 是第 (k − 1) 层边缘的隐藏特征矩阵其中 H0 e X e X e 是边缘特征矩阵。 Q φ(H(k−1) e Me)Q ⊤ 是对边缘的特征矩阵进行归一化。 Q φ(H(k−1) e Me)Q ⊤⊙ ˆ A 是通过添加边的信息来融合邻接矩阵。 参考文献中详细介绍了 GNN 中传播函数的更多选择。 [13,165]。 Sperduti 等人将早期神经网络应用于非循环图。 [166] 1997 年。2005 年Gori 等人。 [167]引入了 GNN 的概念Scarselli 等人进一步详细介绍了这一概念。 [168] 2009 年Gallicchio 等人。 [169] 2010 年。根据 Wu 等人的说法。 [6]GNN 可分为四种主要分类法传统 GNN、图卷积网络、图自动编码器和时空图神经网络。在接下来的小节中我们将介绍 GNN 的类别。 传统的图神经网络GNNs*是循环神经网络RNNs的扩展由 Scarselli 等人首次提出。 [168]通过考虑信息扩散机制其中节点的状态被更新并交换信息直到获得稳定的平衡[167,168]。在这些 GNN 中函数 F 也定义为等式 3。然而第 k 层的特征矩阵 H(k) 使用不同的方程进行更新如下所示 其中 N(vj) 是节点 vj 的邻居节点集合F 是参数函数H(k) vj 是节点 vj 第 k 层的特征向量H(0) vj 是随机向量。 图卷积网络GCN首先由 Kipf 和 Welling [164] 提出。它们能够表示图形并在各种任务中表现出出色的性能。在这些 GNN 中在构建图之后函数 F 也定义为等式 3。然而GCN 在第 k 个卷积层的递归传播步骤由下式给出 其中 H(0) X 。 σ (·) 是激活函数。 W(k) ∈ Rm×d, k {1, 2, 3, . 。 .} 是为第 k 层创建的转移矩阵。 b(1) 和 b(2) 是两层的偏差 图自动编码器 (GAE) 是具有两个组件的深度神经架构(i) 编码器将图上的节点转换为潜在特征的向量空间(ii) 解码器从潜在特征中解码图上的信息。特征向量。 GAE 的第一个版本是由 Kipf 和 Welling 提出的[170,171]。在这些 GNN 中函数 F 的形式被重新定义为以下等式 其中 ̃ A φ(ZZ ⊤) 是重建的邻接矩阵φ 是解码器组合的激活函数。 Z是编码器组成的输出。在这些 GAE 中GCN 在编码器步骤中用于创建嵌入矩阵因此Z是根据方程计算的。 3。因此Z F ( ˆ A, H(k)) 和 F (·) 对应于 GCN 的情况。 Z ⊤ 是 Z 的转置矩阵。 现实世界的任务作为图结构和图输入都是动态的。为了表示这些类型的数据按照第 2.3.1 节中的介绍构建了时空图。然而为了捕捉这些图的动态性STGNN 被提议用于对包含具有动态和相互依赖性的节点的输入进行建模。 STGNN 可以分为两种方法基于 RNN 的方法和基于 CNN 的方法。对于基于 RNN 的方法为了捕获时空关系STGNN 的隐藏状态被传递到基于图卷积的循环单元 [172-174]。 STGNN 的传播函数形式也如式1所示。 3。然而第k层的值计算如下 其中 X n(t) 是时间步 t 的节点特征矩阵。使用图卷积后方程 (10) 重新计算如下 其中 GCN 是 GCN 模型之一。 U ∈ Rn×n 是按特征值排序的特征向量矩阵其中 U⊤U I。 对于基于 CNN 的方法基于 RNN 的方法递归地处理时空图。因此它们必须迭代传播过程因此它们在传播时间和梯度爆炸或消失问题方面存在局限性[175-177]。基于 CNN 的方法可以通过利用并行计算实现稳定的梯度和低内存来解决这些问题。 基于注意力的图神经网络AGNN[178]删除了所有中间的全连接层并用保持图结构的注意力机制替换传播层[179]。注意力机制允许学习邻域的动态和自适应局部摘要以获得更准确的预测[180]。 AGNN 的传播函数形式如式1所示。 3。然而AGNN 包含图注意力层。在每一层中一个共享的、可学习的线性变换 M ∈ Rth×dh 其中 h 是第 t 个隐藏层的数量dh 是第 t 个隐藏层的维度用于每个节点的输入特征如下 其中节点 vi 的行向量定义如下 其中 β(t−1) ε R 是传播层的注意力引导参数。请注意传播层的 β 值会随着隐藏状态的变化而变化。 φ(·)是传播层的激活函数。
3. Survey methodology 图4. 研究方法流程图
在这项研究中我们使用 GNN 方法对假
新闻检测文章进行了系统回顾包括三个主要步骤“文献搜索”、“选择合格论文”和“分析和讨论”[181] 。研究方法如图4所示 文献检索用于选择包含以下关键字的同行评审的英文科学论文“GNN”OR“图神经网络”OR“GCN”OR“图卷积网络”OR“ “GAE”或“图自动编码器”或“AGNN”或“基于注意力的图神经网络”与“假新闻”或“假新闻”或“谣言”或“谣言”或“恶作剧”或“点击诱饵”或“讽刺”或“错误信息”与“检测”相结合。这些关键词是从 2019 年 1 月到 2021 年第二季度末从 Google Scholar、Scopus 和 DBLP 中提取的。 合格论文的选择用于排除使用 GNN 进行假新闻检测的非显式论文。为了选择明确的论文我们指定了一组排除/纳入标准。纳入标准如下英文撰写2019年后发表经过同行评审全文检索。排除标准如下评论、调查、比较或仅提出数学模型的论文。分析和讨论论文用于比较调查文献并捕捉主要挑战和有趣的开放问题旨在为假新闻检测提供各种独特的未来方向。 通过上述策略最终共选取27篇论文2019年5篇2020年16篇2021年前6个月6篇进行综合比较和分析。这些选定的论文根据 GNN 分类法分为四组参见第 2.3.2 节包括传统的基于 GNN、基于 GCN、基于 AGNN 和基于 GAE 的方法。下一步根据方法名称、关键思想、损失函数、优点和缺点等标准对合格论文进行分析。
4. Quantitative analysis of eligible papers 以前的假新闻检测方法主要使用机器学习[74,92,182–184]和深度学习[95,120,185–189]来将新闻分类为假或真、谣言或非谣言、垃圾邮件或非垃圾邮件。关于使用机器学习和深度学习检测假新闻的各种调查和评论论文已经发表。在本文中我们详细讨论了最新的基于 GNN 的假新闻检测方法。使用第 3 节中的研究方法最终选择了 27 篇在 2019 年之后发表的使用 GNN 进行假新闻检测的论文以便在以下小节中进行更详细的审查。表 4 展示了之前研究在模型名称、推荐代码表 5、作者、出版年份、GNN 类型、数据集、性能和基于方法的假新闻检测方面的比较。利用表 4 中信息之间的关系我们根据基于 GNN 的假新闻检测方法的四种分布标准对定量调查方法进行了比较如图 5 所示 2019年至2021年第二季度末有关使用GNN进行假新闻检测的调查论文数量表明该问题正在吸引系统从业者越来越多的关注从2019年到2020年增加了40.74%。尽管在 2021 年只有 22.22% 的假新闻检测文章集中在使用 GNN但第二季度尚未结束考虑到假新闻相关的爆发我们相信今年最后两个季度将会产生更多该领域的文章。 COVID-19 以及该问题的挑战。就所采用的新闻概念类型目标类型而言27 篇调查论文中有 14 篇与假新闻检测相关51.85%其次是谣言和垃圾邮件检测29.63%、7.41%而其他类型检测仅占3.7%。造成这些结果的一个可能原因是假新闻的产生和传播符合积极的经济和政治利益。也就是说假新闻如果不及时发现和防范会给人们带来很多不良影响。此外正如上面分析的一个同样重要的原因是用于假新闻检测的数据集现在比其他数据集更丰富、标记更全面参见第 2.2.2 节。 关于基于 GNN 的技术作者主要74.07%使用 GCN 来进行假新闻检测模型其次是基于 GNN 的方法14.81%、GAE 和 AGNN3.7%。这种选择归因于 GCN 对于图表示的适用性以及在广泛的任务和应用中实现了最先进的性能 [13]。最后发布了三分之一的基于传播和基于内容的方法33.33%其次是基于混合的22.22%和基于上下文的11.11%方法。这一结果归因于基于传播和基于上下文的方法主要同时使用有关网络结构、用户和语言学的新闻信息。该信息对于假新闻检测最为重要。
5. Literature survey 在本节中我们将调查使用图神经网络进行假新闻检测的论文。基于GNN分类法参见第2.3.2节我们将基于GNN的假新闻检测方法分为传统的基于GNN、基于GCN、基于AGNN和基于GAE的方法如表6所示。 • 传统的基于 GNN 的方法GNN*是基于 GNN 的假新闻检测方法的先驱。这些方法将一组类似的循环参数应用于图中的所有节点以创建具有更好和更高级别的节点表示。
• 基于GCN 的方法(GCN) 通常使用卷积运算来创建图的节点表示。与传统的基于 GNN 的方法不同基于 GCN 的方法允许集成多个卷积层以提高节点表示的质量。
• 基于AGNN 的方法主要通过将注意力机制输入图中来构建。因此AGNN 用于有效捕获和聚合重要邻居来表示图中的节点。
• 基于GAE 的方法是无监督学习方法用于将图上的节点编码为潜在向量并对编码信息进行解码以重构图数据从而通过集成潜在信息来创建节点表示。 调查论文中提出的用于检测虚假信息的大多数方法都用于解决分类问题任务该任务涉及将谣言或非谣言、真或假等标签与特定文本片段相关联。在使用 GNN 进行假新闻检测时研究人员主要采用传统的 GNN 和 GCN 来实现最先进的结果。另一方面一些研究人员应用了其他方法例如 GAE 和 AGNN来预测其符合的标签。
5.1. Detection approach based on GNNs∗ GNN* 代表了 GNN 的第一个版本提高了使用非欧几里得数据的机器学习和深度学习方法的假新闻检测性能。韩等人。 [4]利用非欧几里得数据的 GNN* 的能力来检测社交网络上新闻传播方法之间的差异。然后他们通过训练两个 GNN 实例将新闻分为假新闻和真实新闻两个标签。在第一种情况下GNN* 在完整数据上进行训练。第二个案例涉及使用部分数据训练 GNN*。在第二种情况下与传统的 GNN 不同使用梯度情景记忆和弹性权重合并两种技术来构建 GNN*并持续学习旨在早期检测虚假传播模式。与最先进的模型相比该方法无需考虑任何文本信息即可获得优越的性能。特别是在训练新数据时随着数据集的增长可以节省时间和成本因为整个数据集不会被重新训练。然而一个主要限制是强遗忘的发生并不能通过提取更多特征包括“通用”特征来解决。哈米德等人。 [193]介绍了一种通过分析与 COVID-19 和 5G 网络之间的阴谋论相关的推文来检测传播错误信息的恶意用户的方法。该方法包括两个基础i基于内容的假新闻检测和ii基于上下文的假新闻检测。第二种策略是基于GNNs*实现的训练GNNs*表示并将5G网络评论分为三类非阴谋、阴谋和其他阴谋。所获得的平均 ROC 性能非常好0.95%因为它捕获了与新闻文本和结构方面相关的大部分信息。然而文本信息和结构信息都没有同时使用。阮等人。 [5]提出了一种名为 FANG 的模型用于基于新闻上下文的假新闻检测考虑以下步骤i提取有关新闻的特征例如来源用户及其互动并发布时间表 (ii) 构建两个次齐次图即新闻源和用户 (iii) 分别在两个子图上使用无监督模型来建模邻居关系。此外作者使用预训练的检测网络来检测新闻内容作为扩展信息。与最近的图形和非图形模型相比FANG 可以以更高的保真度捕获新闻上下文。特别是即使训练数据有限FANG 仍然具有鲁棒性。然而用户及其交互等特征在输入 FANG 之前会被提取。因此可能会出现一些关于文本编码和情感检测的错误并将它们提供给FANG。另一个限制是上下文数据集的快速过时因为我们无法在查询时检索超链接和其他跟踪因为它们可能不再可用。 与 GNN* 上的其他当代工作不同上面介绍了假新闻检测任务。钱德拉等人。 [15]提出了一种称为 SAFER 的方法具有三个不同的特征。 (i) 他们为两种类型的边和节点构建了一个具有相同异构输入图的 GNN* 模型。 (ii) 他们通过利用在线社交社区的影响来确定上下文特征而不使用用户配置文件。 iii他们只使用在线用户的网络信息来评估这些社区的角色但他们的结果仍然比以前的方法更好。作者提出了关系 GNN* 和双曲 GNN* 来建模用户和社区关系。关系 GNN 比传统 GNN 获得了更好的结果。然而双曲 GNN* 的结果仅与其他 GNN* 具有可比性。因此为真正分层的社交网络数据集建模用户/社区是未来需要解决的挑战。
5.2. Detection approach based on GCNs 基于 GCN 的方法是一类主要用于假新闻检测并依赖于 GNN 的方法。 GCN 是 GNN 的扩展它基于卷积函数导出图结构并集成来自邻域的节点信息。 GCN 可以表示图并在各种任务上实现最先进的性能包括假新闻检测。卢等人。 [14]提出了一种名为 GCAN 的推文假新闻检测新方法包括以下五个主要步骤i提取与用户相关的量化特征 (ii) 将新闻推文中的单词转换为向量 (iii) 代表用户之间有意识的推文传播方法 (iv) 捕获推文上下文与用户交互之间以及推文上下文与用户传播之间的相关性 (v) 通过结合所有学习到的表征将推文分类为假新闻或真实新闻。 GCAN 表现出出色的性能和合理的可解释性。这项研究的主要贡献是将双重注意力机制与 GCN 相结合。第一个机制同时捕获推文上下文和用户交互之间的关系。第二种机制同时捕获推文上下文和用户传播之间的关系。该方法可以被认为是 GCN 的丰富版本。 GCAN 的形式由 GCN 改进如下Hs tanh(WsS (Wg G)F ⊤)Hg tanh(Wg G (WsS)F )其中 S 表示推文上下文之间关系的嵌入和用户交互 G表示推文上下文和用户传播之间关系的嵌入 Ws和Wg表示可学习参数的矩阵 F 和 F ⊤ 分别是变换矩阵及其转置。 基于 GNN 固有的聚合机制Zhang 等人。 [151]提出了一种称为 SAGNN 的简化 GNN 方法用于计算 Twitter 用户与其他用户之间的互动程度以进行谣言检测。与传统 GCN 的卷积层不同SAGNN 不包含权重矩阵 W 。此外邻接矩阵的识别与传统的 GCN 不同。因此SAGNN中的两层被定义为H(1) σ (H(0)E)其中H(1)称为嵌入层E是词嵌入矩阵。因此H(2) σ ( ̃ AH(1))其中H(2)称为聚合层 ̃ A I uB vC其中 u、v 是 SAGNN 的可学习参数。矩阵 B 计算如下如果 vi 是 vj 的父级则 Bij 1否则为 0而矩阵 C 的定义为如果 vi 是 vj 的子级则 Cij 1否则为 0。Ke 等人。 [156]通过捕获微博上来源、转发和用户之间的本地和全局关系构建了一个异构图即 KZWANG用于谣言检测。该方法包括以下三个主要步骤i词嵌入使用多头注意力机制将新闻的文本内容转换为向量 其中 headiattention(QW Q i , KW K i , VW Vi ) 其中 Q ∈ Rnq×d, K ∈ Rnk×d, V ∈ Rnv×d 是查询、键和值的句子 nq、nk、nv 是每个句子中的单词数和注意力QKV SoftmaxQK⊤√dkV; (ii) 传播和交互表示是通过 GCN 学习的 (iii) 图构建构建了用户之间潜在交互的模型P H(k) σ ( ˆ AH(k−1)W (k−1))。该模型与传统 GCN 的区别在于KZWANG 是使用多头注意力机制的新闻文本表示和使用 GCN 的传播表示的组合。因此GCN层和多头注意力层的输出是谣言分类的输入R Softmax(TP b)其中T是文本表示矩阵。 P是传播表示矩阵。 R是整个模型的输出。 洛特菲等人。 [204]引入了一个包含两个 GCN 的模型i推文的 GCN例如源和回复为 T H(k) σ (^ AT H(k−1)W (k−1)) (ii) 用户的 GCN例如用户之间的交互为 Re H(k) σ ( ˆ AReH(k−1)W (k−1)) 其中 AT 是推文 GCN 的邻接矩阵确定为if (推文 i 回复推文 j) 或 (i j) 则 Aij T 1否则为 0。同时ARe 是用户 GCN 的邻接矩阵定义如下 if (用户 i 向用户 i 发送了 m 条推文对话中或i j则Aij Re 1否则为0。并且H0 X确定为如果推文i中存在高频词j或传播时间为回复之间的间隔推文 i 和源推文则 X ij 1 否则 0 。与其他模型不同作者构建了两个独立的 GCN然后将它们连接成一个全连接层用于假新闻检测称为 Softmax((T ⊕ Re)W b)其中 ⊕ 是连接函数。 武等人。 [125]提出了一种名为 GraphSAGE 的新方法用于基于传播检测的谣言检测。与其他基于传播的方法相比该方法提出了一种基于 GCN 的图传播嵌入方法通过将节点特征向量和其本地邻居的特征向量聚合为组合向量将新闻传播过程及其特征转换为向量空间。因此GraphSAGE模型与传统GCN模型的区别在于聚合器功能它分为以下聚合器i卷积聚合器 (ii) LSTM aggregator: (iii) 池聚合器 (iv) 线性聚合器 其中 wi 是邻居 hvi 的权重向量。 GraphSAGE 有效地集成了内容、社交、时间和传播结构等功能。这些功能可以聚合重要信息来训练算法来确定新闻是否是谣言。然而这种方法需要有关所发布新闻的整个传播过程的数据。在某些情况下如果发布的新闻在传播时没有获得回应意见那么 GraphSAGE 模型的准确性就会降低。卞等人。 [16]提出了一种Bi-GCN模型具有自上而下TD-GCN和自下而上BU-GCN两种传播操作以检测谣言、分散和传播的两个基本特征。 Bi-GCN 的构建如下 (i) 高级节点表示为 H(k) TD σ ( ˆ ATDH (k−1)W (k) TD ) 和 H(k) BU σ ( ˆ ABU H (k−1)W (k) BU )。 (ii) 根特征增强如下 ̃ H (k) TD concat (H (k) TD , (H (k−1) TD )root ) 和 ̃ H (k) BU concat(H(k) BU (H (k−1) BU )root ) 其中 concat 是连接函数 root表示根节点 (iii) 节点表示作为 STD mean( ̃ H (2) TD ) 和 SBU mean( ̃ H (2) BU ) 馈送到池聚合器中然后将它们连接到一个全连接层中以进行假新闻检测如下所示^ y Softmax(concat(STD, SBU ))。该模型可以使用 TD-GCN 捕获谣言模式的传播也可以使用 BU-GCN 捕获谣言结构的分散。另外通过GCN层层提取新闻隐藏信息增加谣言根源的影响力。然而TD-GCN和BU-GCN仍然是独立构建的。 白等人。 [154]构造了一个称为SR图的图其中节点特征矩阵X由词向量确定相邻矩阵 A 定义如下如果推文 i 回复推文 j则 Aij 1否则为 0。利用 SR 图作者提出了用于谣言检测的 EGCN 模型 PG H(k) σ ( ˆ AH(k−1)W (k))节点比例分配机制为 PT TextCNN(A, X )其中 TextCNN 表示传统的 CNN 模型。令 n 和 m 分别为当前 SR 图和最大 SR 图中的节点数我们通过 Y PG × nm PT (1 − nm ) 得到 EGCN 的特征输出。 EGCN 的输出由 ^ y Softmax(FC (Y )) 确定。该模型侧重于利用新闻内容对谣言传播过程的影响。然而EGCN 需要有关所发布新闻的整个对话的数据。在某些情况下如果发布的新闻在传播时没有得到回应意见其准确性就会降低。 Hu 等人提出的多深度 GCN。 [190]结合新闻的相似性通过差异程度来区分新闻的真假。该方法可以解决假新闻检测的重大挑战即对信息有限的短新闻例如标题进行自动假新闻检测。作者没有堆叠 GCN 层来合并长距离的信息而是计算不同的距离邻近矩阵来描述节点之间的关系并显式保护多粒度信息从而改进了具有多样性信息的节点表示过程。因此它在输入 GCN 之前执行 k 步邻近来创建不同深度的邻近矩阵。对于第 k 个邻近度输出定义为 zk ˆ AkReLU( ˆ AkXW (0) k )W (1) k , k 1, 2, 3, ...。 。 .其中节点特征矩阵 X 包含词嵌入和信用历史表示。 ˆ Ak 是第 k 个邻近矩阵 ˆ Ak ˆ A× ˆ A×···× ˆ A k 其中如果 i、j 具有相同的工作职位则 Aij 1否则 Aij 0。然后使用注意力机制聚合多深度信息以创建最终表示 Pj m Σ i1 αizi 阮等人。 [155]介绍了两种基于文本和基于图形的方法用于检测有关 COVID-19 和 5G 阴谋的虚假新闻。对于第一种方法作者使用预训练的 BERT 模型和多层感知器模型的组合来检测假新闻以捕获推文的文本特征和元数据。对于第二种方法作者使用了每个节点提取了 9 个特征的 GCN例如页面排名、中心和权限以进行基于内容的假新闻检测。在实现这两种方法之后作者证明第一种方法的性能优于第二种方法。因此元数据在假新闻检测中发挥着重要作用。因此未来应该考虑通过提取GCN的元数据特征来提高假新闻检测的效率。关于 COVID-19 和 5G 阴谋Pehlivan [194]引入了基于结构的假新闻检测来评估现有模型的性能。与其他方法不同作者仅使用网络的时间特征而没有考虑文本特征。选择了两个最先进的模型来评估 GCN 和 DGCN [205]。此外作者使用他们的时间特征来测试多元长短期记忆全卷积网络方法[206]。 GCN和DGCN的节点特征矩阵是根据以下值创建的度中心性、接近中心性、介数中心性、负载中心性、调和中心性、#cliques、聚类系数、平方聚类系数和平均邻居度。多元长短期记忆全卷积网络的节点特征矩阵是使用平均聚类系数、#graph cliques、#connected Components、局部效率、#isolates 和到源推文的归一化时间距离创建的。李等人。 [191]引入了一种基于传播的方法通过关注新闻的社会背景信息来确定政治观点。在本研究中GCN 与邻接矩阵一起使用通过特征提取来捕获和表示社会上下文共享动作、关注政治新闻的动作以及节点特征矩阵用于通过词嵌入捕获新闻的隐藏内容。迈耶斯等人。 [153]展示了传播特征在假新闻检测模型中的重要作用。作者首先构建了一个传播图来呈现重要信息然后使用随机森林分类器来训练该图并创建节点嵌入。最后使用GCN模型来预测推文的真实性。与其他传播图不同作者构建了以下图令 G {V , E} 表示传播图其中 V 是包含推文节点和转发节点的节点集合E 是推文节点之间连接的边集合及其带有时间权重的转发节点。因此这个传播图包括一组子图其中每个子图包括一个推文节点及其转发节点并且其深度永远不会超过1。 结合 GCN 和马尔可夫随机场MRF模型构建了社交垃圾邮件发送者检测模型[201]。首先作者在有向图上使用卷积来明确考虑各种邻居。然后他们使用成对 MRF 展示了邻居对用户标签的三种影响关注、追随者、互惠。值得注意的是MRF 被表述为用于多步推理的 RNN。最后MRF 层堆叠在 GCN 层之上并通过整个模型的端到端过程进行训练。与传统的 GCN 不同该模型使用改进的前向传播规则 其中 Ai、Ao、Ab 是邻居类型 ^ Ab Ab I; Di、Do、ˆDb 分别为 Ai、Ao、Ab 的度矩阵节点特征矩阵X H(0)是基于BoW特征创建的。然后作者用 GCN 输出初始化 MRF 层的后验概率为 其中 w, w′ ≥ 0 是两个可学习的参数用于测量 MRF 模型的同质性和异质性强度。该方法展示了GCN和MRF层组合的优越性。多步 MRF 层对于收敛至关重要。然而节点特征矩阵是通过词袋方法简单创建的。未来可以使用最先进的嵌入模型来改善这一限制。 提出了一种名为 FauxWard [149] 的新型 GCN 框架通过利用新闻特征例如语言、语义和结构属性来进行赝品检测。作者将赝品检测建模为分类问题并使用 GCN 来解决该问题。 FauxWard 与传统的 GCN 模型类似然而与这些模型不同的是它在图卷积层之间添加了基于集群的池化层以更有效地学习节点表示。基于簇的池化层首先根据先前图卷积层的节点向量将邻居节点分配到簇中然后学习簇表示作为后图卷积层的输入。它通过 ̃ A(k) C (k−1)⊤ ̃ A(k−1)C (k−1) 执行图卷积其中 ̃ A(k) 是更新后的邻接矩阵 C (k) 是第 k 个图卷积层后得到的聚类矩阵使得 H(k) C (k−1)⊤σ ( ̃ A(k−1)H (k−1)W (k −1))其中 H(0) X 是节点特征矩阵。与传统的 GCN 不同这个 X 是通过连接文本内容例如语言、情感、认可和图像内容例如元数据创建的。 马尔霍特拉等人。 [147]介绍了一种结合RoBERTa和BiLSTM的方法TD Bi(RoTa(tweet))其中RoTa表示RoBERTa模型[207]Bi表示BiLSTM模型和GCN方法GD H(k) σ ( ˆ AH(k−1)W (k))其中 H(0) X 是由 11 个特征连接而成的节点特征矩阵例如好友数、关注者数、关注者数等用于谣言检测为 ˆ y Softmax (concat(TD, GD))。该模型基于谣言特征例如传播和内容。它利用了推文新闻的结构、语言学和图形方面的特征。 弗拉德等人。 [195]提出了一种基于两个主要组成部分的多模式多任务学习方法模因识别和仇恨言论检测。第一个结合了 GCN 和意大利 BERT 来表示文本而第二个是图像表示方法在不同的基于图像的结构之间有所不同。图像组件采用带有五个 CNN 堆栈的 VGG-16 [208] 来表示图像。文本组件使用两种机制来表示文本即意大利 BERT 注意力机制和卷积机制。该模型是多模态的因为它同时考虑与文本和图像内容相关的特征。与此同时蒙蒂等人。 [3]介绍了一种基于几何深度学习的假新闻检测方法通过构建异构图数据来整合与新闻相关的信息例如用户配置文件和交互、网络结构、传播模式和内容。给定一个 URL u 以及一组提到 u 的推文作者构建了一个图 Gu {V , E}。 V 是对应于推文及其海报的一组节点。 E 是一组边表示两个节点之间的四种关系之一follow、followed、spreading 和 spread。该图具有节点特征矩阵 X 和邻接矩阵 A。X 是通过表征用户特征例如个人资料、网络结构和推文内容创建的。然而矩阵 A 定义如下如果节点 vj 传播节点 vi 的推文或节点 vi 传播节点 vj 的推文或节点 vi 跟随节点 vj或节点 vj 跟随节点 vi则 Aij 1否则0;给定矩阵 X 和 A与传统的 GCN 类似作者使用了四层 GCN两个用于节点表示的卷积层和两个全连接层来预测新闻是假还是真的。然而与之前的一些 GCN 不同在该提案中滤波器 [178] 中的一种注意机制和均值池用于减少每个卷积层的特征向量维度。 SELU [209]被用作整个网络的非线性激活函数。 李等人。 [123]提出了一种基于 GCN 的大规模广告反垃圾邮件方法名为 GAS。与之前的 GCN 不同在 GAS 模型中通过集成异构图和同构图的节点和边来构建组合图以捕获局部和全局评论上下文。 GAS的定义步骤如下 (i)图构建作者构建了两种类型的图分别为闲鱼图和评论图。第一个图用 G {U, I, E} 表示其中 U、I 分别是代表用户及其项目的节点集E 是代表评论的边集。该图的邻接关系如下创建如果用户 i 对项目 j 发表评论 e则 AX ij 1否则为 0。第二个图是通过连接表达具有相似含义的评论的节点来构造的。这意味着如果注释 i 与 j 具有相似的含义则 AC ij 1否则为 0。 (ii) 闲鱼图上的 GCN令 h(l) e 、 h(l) U(e) 和 h(l) I (e ) 分别为边、用户和项目的第 l 层节点嵌入 ze h(l) e σ (W (l) E · concat(h(l−1) e , h(l−1) ) U(e) , h(l−1) I(e) )) 其中 h(0) e TN(w0, w1, . . . , wn) 且 U(e)、I(e) 是用户节点和边 e 的项目节点。设 h(l) N(u)、h(l) N(i) 是节点 u、i 的邻居嵌入。 TN 代表 TextCNN 模型 [210]。 wk 是推文中单词 k 的词向量。因此 其中 ∀e (u, i) ∈ E(i)E(u) 是与 u 连接的边建立注意力机制。由此我们有 zu h(l) u concat(W (l) U · h(l) u , h(l) N(u)) 和 zi h(l) i concat (W ( l) I · h(l) i , h(l) N(i))。 (iii) 评论图上的 GCN在这一步中作者使用[211]中提出的 GCN 模型将评论图上的节点表示为节点嵌入为 pe GCN(X C , AC )其中 X C 是节点特征矩阵。 (iv) GAS分类器GAS模型的输出定义为y classifier(concat(zi, zu, ze, pe))。
5.3. Detection approach based on AGNNs 任等人。 [17] 介绍了一种称为 AA-HGNN 的新颖方法将用户和社区关系建模为异构信息网络HIN用于基于内容和基于上下文的假新闻检测。 AA-HGNN 中使用的主要技术涉及通过学习异构信息网络来改进节点表示过程。在本研究中AGNN 使用两个级别的注意力机制节点学习相同邻居的权重然后通过聚合与每个特定类型邻居相对应的邻居权重来表示它们并使用模式来学习节点信息从而获得特定类型邻居表示的最佳权重。假设我们有一个新闻 HIN 和一个新闻 HIN 模式用 G {V , E} 和 SG {VT , ET } 表示。令 V {C ∪ N ∪ S} 其中 C创作者、N新闻、S主题且 E {Ec,n ∪ En,s}。令 VT {θn, θc , θs} 和 ET {write, ownsto} 表示节点类型和链接类型。节点级注意力定义为 h′ ni Mθn · hni 其中 ni ∈ Nhni 是节点 ni 的特征向量。 Mθn 是 θn 类型的变换矩阵。设 T ∈ {C ∪ N ∪ S}tj ∈ T 属于类型邻居 θt 且 tj ∈ neighborni 。设 eθt ij att(h′ ni , h′ tj ; θt ) 为节点 tj 对 ni 的重要程度其中 att 为节点级注意力机制注意力权重系数为 αθt ij Softmaxj(eθt ij ) 则模式节点是通过聚合邻居的特征来计算的Tni σ ( Σ tj ∈neighborni αθt ij · h′ tj )。设 ωθt i schema(WTni , WNni ) 为模式节点 Tni 的重要程度其中 schema 为模式级注意力机制Nni 为节点 ni 的邻居对应的模式节点。最终的融合系数计算为 βθt i Softmaxt (ωθt i )。由此我们得到节点表示为 rni Σ θt ∈VT β θt i · Tni 。 AA-HGNN 在不使用大量标记数据的情况下仍然可以实现出色的性能因为它受益于对抗性主动学习。由于其高通用性它还可以用于与异构图相关的其他实际任务。贝纳米拉等人。 [192]提出了用于二进制文本分类任务的基于内容的假新闻检测方法。目标是基于 GNN 的半监督方法来解决标记数据限制的问题。该方法包括以下步骤新闻嵌入基于k近邻图推理的新闻表示基于GNN的新闻分类例如AGNN[179]和GCN[164]它们是传统的GNN没有改进或更新。
5.4. Detection approach based on GAEs 使用自动编码器特殊图数据Kipf [170]使用GAE对图进行编码以表示图中的潜在结构信息。 GAE 用于各个领域例如推荐系统[212]和链接预测[213]具有合理的性能。最近研究人员开始应用 GAE 进行假新闻检测。表 10 总结了之前基于 GAE 的假新闻检测模型的研究。 [124]提出了一种从新闻中捕获文本、传播和结构信息以进行谣言检测的模型。该模型包括三部分编码器、解码器和检测器。编码器使用 GCN 来表示新闻文本来学习信息例如文本内容和传播。解码器使用编码器的表示来学习整体新闻结构。检测器还使用编码器的表示来预测事件是否是谣言。解码器和检测器同时实现。这些部分一般定义如下 (i) Encoder 组件GCN 的两层用于增强学习能力 其中 σ 是 ReLU 函数。 X表示通过确定TF-IDF值创建的词向量邻接矩阵A定义如下如果节点vi响应节点vj则Aij 1否则为0。然后使用GCN来学习高斯变分 GAE 的分布为 z μ εσ 其中 μ GCN(H(1), A) 且 logσ GCN(H(1), A) μ、σ 和 ε 是平均值、标准差和分别为高斯分布的标准样本。 (ii) 解码器组件在此步骤中使用内积 (⊙) 将邻接矩阵重构为 ̃ A ⊙(ZZ ⊤)其中 Z 是分布矩阵 z。 (iii) 检测器组件此步骤旨在表示潜在信息并对新闻进行分类。它被定义为 S MP(Z )其中 MP 代表均值池运算符。最后该模型的输出层定义为 ^ y Softmax(SW b)其中 W 是全连接层的参数矩阵。
6. Discussion
6.1. Discussion on GNNs∗-based methods 表 7 比较了之前基于 GNN* 的假新闻检测模型的研究。我们介绍了基于 GNN* 的假新闻检测方法的主要步骤、优点和缺点。我们的一些评估如下关于提取的特征[4]仅使用基于用户的特征 [5]使用基于网络、用户和语言学的特征和[193]使用基于语言的特征文本分析。同时[15]使用了与网络和语言学相关的特征。关于图结构[4,5,193]构造了一个齐次图。然而与[4,193]不同的是仅构建了一张图而[5]创建了两个子图来表示新闻源和新闻用户。同时[15]构建了一个具有两种类型的节点和边的异构图。然而虽然[15]的图结构比其他三个模型更好但[192]提供了最好的性能。这个结果可能是因为[5]可以更好地提取假新闻检测中有意义的特征。因此未来开发新的基于GNN*的模型应该更多地关注提取优秀的特征和构建良好的标准数据而不是专注于改进图结构。
6.2. Discussion on GCNs-based methods 表8和表9比较了之前基于GCN的假新闻检测模型的研究。我们介绍了基于GCN的假新闻检测方法的主要步骤、优点和缺点。在我们的评估中[3,14,16,123,191]和[196]等方法显示出最佳效率其中两种方法用于假新闻检测两种方法用于谣言检测两种方法用于垃圾邮件分类。对于第一类中的两篇论文[3]是第一个将GCN应用于假新闻检测的论文。该方法侧重于提取基于用户、基于网络和基于语言的特征来构建基于传播的异构 GCN。作者确定该提案可以获得比基于内容的方法更有希望的结果。相反[14]是一个具有双重注意力机制的富集 GCN。该方法使用基于用户和基于语言的特征来构建具有双重关注机制的同质 GCN。在我们的评估中虽然[14]使用了双重注意力机制但效率仍然低于[3]。值得注意的是这个结果主要归因于[3]比[14]提取了更多的特征。此外[3] 中使用的图结构被评估为比 [14] 中使用的结构更好。展望未来我们希望通过同时使用基于用户、基于网络和基于语言的特征构建双注意力异构 GCN 来提高假新闻检测方法的性能。对于第二类中的两篇论文这两种方法都是通过基于传播的 GCN 来检测谣言的。不同之处在于[16]构建了双向GCN来同时捕获谣言传播结构和谣言传播模式。同时[196]基于多阶邻居的信息创建了单向GCN来捕获谣言源。 在我们看来[16]可以优于[196]因为谣言检测、谣言传播和传播比谣言源更重要。对于最后一类的两篇论文[123,191] 也提出了使用基于社交上下文的 GCN 进行垃圾邮件检测的类似方法。不同之处在于[123]构建了一个集成异构图和同构图的模型来捕获本地和全球新闻上下文。相比之下[191]仅构建了一个异构图来捕获一般新闻上下文。我们认为[123]中提出的模型比[191]中的方法更容易理解可以重新实现并且产生稍微更好的结果。造成这一结果的原因是构建每种类型的图都适合对每种类型的上下文进行捕获和集成这比为所有上下文构建一个图更能全面地捕获新闻上下文。因此在构建基于 GNN 的假新闻检测模型时应该构建不同的图来捕获每种特定类型的信息然后执行融合步骤。与构建一种类型的图表来捕获所有类型的信息相比这种方法有望提供更好的性能。我们最大限度地限制一般图的构造然后将其划分为特定类型因为图的分解很容易导致边之间关系的信息丢失。
6.3. Discussion on AGNNs- and GAEs-based methods 表 10 比较了之前基于 AGNN 和 GAE 的假新闻检测模型的研究。我们介绍了两种方法在 AGNN 和 AGE 类别中用于假新闻检测的主要步骤、优点和缺点。显然[17]提出了比[192]更详细的假新闻检测方法。另外[17]中的方法是在[192]之后提出的因此它比[192]更好。例如[192]构建了一个同构图而[17]创建了一个异构图。异构图被评价为优于同构图因为它可以捕获更有意义的信息。因此它获得了比[192]更好的结果。与此同时林等人。 [124]方法使用传统的 GCN 变体来编码图的潜在表示。该方法可以高效捕获整个结构信息。因此它可以通过添加两个组件即解码器和检测器来丰富传统的 GCN。然而本研究仅关注基于用户和基于语言的特征忽略了基于网络的特征因此预计不会达到预期的效果。
7. Challenges 7.1. Fake news detection challenges 根据假新闻检测领域的最新出版物我们总结并将挑战分为五类其中每一类挑战对应于一类假新闻检测。每种类型挑战的详细信息如图 6 所示。以下提出了可能成为假新闻检测未来方向的重大挑战。 Deepfake [214] 是一种超现实的数字控制视频显示人们所说或所做的事情从未真正发生过或基于人工智能技术生成的合成文档。鉴于这些造假技术的复杂性由于描述捏造确定公开露面或影响者声明的真实性具有挑战性。因此Deepfake目前对假新闻检测提出了重大挑战。黑客影响者的账户传播假新闻或有关名人本人演讲的虚假信息也是假新闻检测中的一个独特现象。然而当这些帐户的实际所有者发现并纠正它们时这些信息将很快被删除。然而这些信息一旦传播开来就会造成极其恶劣的影响。因此即时检测影响者的帖子是否虚假已成为一项重要挑战。新闻可能在某个时间点是假的而在另一个时间点是真实的。也就是说消息是真是假取决于它被说出来和传播的时间。因此实时假新闻检测尚未得到彻底解决。 构建基准数据集并确定与每种假新闻检测方法相对应的标准特征集仍然是挑战。凯舒等人。 [215]通过四个嵌入组件新闻内容、新闻用户、用户与新闻交互和发布者新闻关系同时有效地提取内容、上下文和传播特征构建了第一个假新闻检测方法。然后这四个嵌入被输入到半监督分类方法中以学习未标记新闻的分类函数。此外该方法还可用于假新闻的早期检测。鲁昌斯基等人。 [28]通过提取用户行为、新闻行为以及假新闻传播者的群体行为构建了更准确的假新闻预测模型。然后将三个功能输入到该架构中包括以下三个模块i使用循环神经网络通过新闻和传播者行为来捕获用户对给定新闻的时间活动 (ii) 通过用户行为了解新闻来源 (iii) 集成前两个模块以高精度检测假新闻。从这项文献调查中我们发现最有效的方法结合了内容、背景和传播的特征。尽管这些组合方法所使用的算法复杂度高、提取的特征多、特征维度高但它们可以同时捕获假新闻的各个方面。因此同时提取内容、传播模式和用户立场的最有效且成本最低的方法不仅是一个有前途的解决方案也是假新闻检测的重大挑战。
7.2. Challenges related to graph neural networks 在研究相关文献的基础上本节总结了基于 GNN 的方法的一些挑战然后确定了未来可能的方向。大多数传统的 GNN 使用无向图和边权重作为二进制值1 和 0[216]不适合许多实际任务。例如在图聚类中寻求满足两个条件的图划分i不同组之间的边权重之间的差异尽可能小i不同组之间的边权重之间的差异尽可能小。 (ii) 相似组之间的边权重差异尽可能大。这里如果边的权重是二进制值则无法使用该图解决给定问题。因此未来的研究可以尽可能地以边的权重作为代表节点之间关系的实际值来构造图。 消极情绪因为他们忽视了“非常”的影响。因此改进基于 GNN 的模型的未来方向应侧重于根据句子嵌入或重要短语嵌入确定节点特征。在句子中同时捕获上下文、内容、语义关系和情感知识对于基于 GNN 的 NLP 任务至关重要。与此同时只有少数研究通过灵活的 GNN 整合了其中一些功能以提高 NLP 任务的效率包括假新闻检测。例如在[217]中作者通过 GNN 提取常识知识和语法而在[218]中作者通过表示文档-单词关系和单词共现构建了一个基于文本的 GNN。据我们所知没有一个 GNN 能够同时考虑所有内容、上下文、常识知识和语义关系。对于基于 NLP 任务的 GNN 来说这项任务仍然是一个令人兴奋的挑战。到目前为止由于梯度消失GCN 仅限于几个层两层或三层这限制了它们的实际应用。例如[217,219,220]中的 GCN 由于梯度误差消失而停在两层。因此利用深度学习算法在模糊句法图、模糊知识图和模糊上下文图的组合图上构建句法、知识和上下文的深度模糊GCN可以解决先前方面方法的上述局限性。情绪分析。 8. Conclusion and open issues 基于 GNN 的假新闻检测相对较新。因此已发表的研究数量有限。尽管我们没有在相同的数据集上实施 27 篇研究中提出的方法也没有根据相同的比较标准评估其效率但这里调查的 27 篇论文表明该方法最初获得了优异的结果。此外需要解决许多挑战才能取得更全面的结果我们在相应章节的末尾对此进行了讨论。尽管如此鉴于 27 篇接受调查的论文预计未来的结果是有希望的。通过解决这些挑战我们希望提高基于 GNN 的假新闻检测的有效性。以下段落分析了基于 GNN 的假新闻检测的一些挑战并讨论了未来的方向。基准数据最近一些研究人员认为在训练系统时数据对系统性能的影响比算法更大[221]。然而在我们的评估中我们没有图学习社区中用于假新闻检测的图基准数据。基于图的假新闻检测基准可能为未来的研究提供机会和方向。兼容的硬件随着Deepfake的快速增长表示这些数据的图形将变得更加复杂。然而GNN 的可扩展性越高算法的价格和复杂性就越高。科学家经常使用图聚类或图采样来解决这个问题而忽略了使用这些技术的图的信息丢失。因此未来图的可扩展性可能会通过开发适合图结构的专用硬件来解决。例如GPU 在降低深度学习算法的价格和提高速度方面取得了巨大的飞跃。假新闻早期发现假新闻早期发现是指在假新闻广泛传播之前及早发现以便人们及早干预、及早预防、限制其危害。假新闻的早期发现必须尽快完成因为假新闻传播得越广泛认证效应就越容易发挥作用意味着人们就越有可能相信这些信息。目前对于假新闻的早期检测人们往往专注于分析新闻内容和新闻上下文这带来了三个挑战。首先新新闻的出现往往会带来新的知识而这些新的知识尚未存储在现有的信任知识图谱中无法在新闻出现时立即更新。其次假新闻往往内容相同但欺骗性文字不同风格并同时出现在许多不同的领域。最后与新闻内容、新闻上下文、新闻传播和潜在信息相关的有限信息可能会对基于 GNN 的检测方法的性能产生不利影响。动态GNN当前基于GNN的假新闻检测方法中使用的大多数图都具有静态结构难以实时更新。相比之下新闻的真实性会随着时间的推移而不断变化。因此有必要构建时空上能够随实时信息变化的动态图。异构 GNN当前大多数基于 GNN 的假新闻检测模型都构建同构图。然而很难在这些图表上同时表示所有的新闻文本、图像和视频。因此使用包含不同类型的边和节点的异构图是未来的研究方向。新的 GNN 适用于假新闻检测领域所需的异构图。多重 GNN正如第 7.2 节中分析的那样大多数基于 GNN 的假新闻检测方法都专注于独立使用传播、内容或上下文特征进行分类。很少有方法使用这三个特征中的两个的组合。没有一种方法可以在一个模型中同时使用传播、内容和上下文的混合。因此这个问题也是当前假新闻检测的一个挑战。未来研究应该通过构建多重图来构建 GNN 模型以相同的结构表示新闻传播、内容和上下文。