普林斯顿大学(Princeton University)领导的一个研究团队开发了一种实时跟踪外国在线虚假信息活动的技术,这可能有助于减轻2020年美国大选受到的外部干扰。
研究人员开发了一种方法,杏耀开帐号利用机器学习来识别恶意互联网账户,或称喷子,基于他们过去的行为。在《科学进展》杂志上,该模型调查了中国、俄罗斯和委内瑞拉过去在2016年大选前后针对美国发起的虚假信息运动。
该团队通过分析Twitter和Reddit上的帖子以及其中包含的超链接或url,确定了这些活动所遵循的模式。在进行了一系列测试后,他们发现他们的模型可以有效地识别那些参与了外国影响力运动的帖子和账户,包括那些以前从未使用过的账户。
他们希望软件工程师能够在他们的工作基础上建立一个实时监控系统,以暴露外国对美国政治的影响。
普林斯顿大学公共和国际事务学院(Princeton School of Public and international affairs)的政治和国际事务教授雅各布·n·夏皮罗(Jacob N. Shapiro)说,“我们的研究意味着,你可以实时估计有多少信息存在,以及他们在谈论什么。”“这并不完美,但它会迫使这些演员变得更有创意,可能会停止努力。”你只能想象,如果有人投入工程努力来优化它,它会变得多好。”
夏皮罗和助理研究学者Meysam Alizadeh与纽约大学政治学教授Joshua Tucker和新泽西理工学院信息学助理教授Cody Buntain共同进行了这项研究。
团队从一个简单的问题开始:仅使用基于内容的特性和已知的影响力活动实例,您能否通过查看其他内容来判断给定的帖子是否属于影响力活动的一部分?
他们选择调查一个被称为“postURL对”的单元,这只是一个带有超链接的帖子。为了产生真正的影响,协同行动需要人类和机器人驱动的信息共享。该团队推测,随着时间的推移,类似的帖子可能会在不同平台上频繁出现。
他们将Twitter和Reddit上的巨魔活动数据与纽约大学社交媒体和政治中心(CSMaP)多年来收集的政治参与用户和普通用户的丰富帖子数据结合起来。这些喷子的数据包括来自中国、俄罗斯和委内瑞拉的公开的推特和Reddit数据,这些喷子从2015年底到2019年总共有8000个账号和720万条帖子。
CSMaP的联席主管塔克说:“如果没有常规的、普通的推文基线比较数据集,杏耀注册帐号我们就不可能进行分析。”“我们用它来训练模型,以区分有协调的影响活动和普通用户的推文。”
团队考虑了帖子本身的特点,比如时间,字数,或者提到的URL域是否是一个新闻网站。他们还研究了所谓的“metacontent”,也就是一个帖子中的消息是如何与当时共享的其他信息相关的(例如,一个URL是否在喷子共享的前25个政治域名中)。
“Meysam对metacontent的洞察力是关键,
杏耀娱乐生财 ,”夏皮罗说。“他发现我们可以用机器来复制人类的直觉,那就是‘这篇文章的某些地方看起来不太合适’。“喷子和普通人都经常在他们的帖子中包含本地新闻的url,但是喷子们倾向于在这些帖子中提到不同的用户,可能是因为他们想把读者的注意力引向一个新的方向。”Metacontent可以让算法找到这些异常。”
该团队对他们的方法进行了广泛的测试,每月在四个影响活动的五个不同的预测任务上检查业绩。在几乎所有的463个不同的测试中,很清楚哪些帖子属于或不属于影响力运作的一部分,这意味着基于内容的功能确实有助于在社交媒体上找到协调的影响力活动。
在一些国家,这些模式比其他国家更容易被发现。委内瑞拉的“喷子”只转发了特定的人和话题,因此很容易被发现。俄罗斯和中国的喷子更擅长让他们的内容看起来很自然,但他们也能被发现。例如,在2016年初,俄罗斯的“喷子”经常链接到极右的网址,考虑到他们帖子的其他方面,这是不寻常的;而在2017年初,他们以奇怪的方式链接到政治网站。
总的来说,随着时间的推移,发现俄罗斯巨魔的活动变得越来越困难。有可能,调查小组或其他人发现了这些虚假信息,给帖子打上标记,迫使“网络攻击者”改变策略或做法,尽管俄罗斯人在2018年制造的信息似乎也比前几年少。
虽然研究表明,没有一组稳定的特征可以发现影响努力,但它也表明,喷子内容几乎总是以可检测的方式不同。在一组测试中,作者展示了这种方法可以找到一个正在进行的活动中从未使用过的帐户。尽管社交媒体平台经常删除与外国虚假信息活动有关的账户,但该团队的发现可能会带来更有效的解决方案。
Buntain说:“当平台禁止这些账户时,这不仅使收集数据在未来很难找到类似的账户,而且也给虚假信息的行为人发出了信号,他们应该避免导致删除的行为。”“这种机制允许(该平台)识别这些账户,将他们与Twitter的其他部分隔离开来,并让这些行为者看起来像是在继续分享他们的虚假信息材料。”
这项工作强调了社会和计算科学之间跨学科研究的重要性,以及资助研究数据档案的重要性。
夏皮罗说:“美国人民应该了解,外国为了影响我们的政治正在做些什么。”“这些结果表明,提供这种知识在技术上是可行的。我们目前缺乏的是政治意愿和资金,这是对事实的歪曲。”
研究人员警告说,这种方法不是万灵药。它要求有人已经确定了最近的影响竞选活动的学习。以及不同的功能如何结合在一起,以显示可疑内容随时间和活动之间的变化。