求转发?求扩散?有些谣言会以饱满的情绪和煽动性的语言模式,试图达到广泛传播的效果。为了有针对性的破除谣言,这些“智能侦探”研发出八十多款“谣言粉碎机”…
出品:格致论道讲坛
以下内容为中国科学院计算技术研究所研究员曹娟演讲实录:
大家好,我是曹娟,来自中科院计算所。我研究的方向和大家的生活息息相关,是互联网上的虚假新闻检测。今年是我做虚假新闻检测的第10年,我们所长还送给我一个绰号——“智能女侦探”。
既然是侦探,那我们先来破个案。年3月4号,网上有消息称:印度宣布人口已经达到了14.15亿,超过了中国,位居世界第一,“这是历史性的一刻”。那真实的情况是什么样子的?让我们来调查一下。
首先,《印度快报》显示,政府计划在年进行人口普查,由于疫情爆发推迟了这项计划,所以印度至今没有宣布官方的人口数据。该截图来自于印度的一个医疗机构,而且这个数据是通过算法模拟得到的、预测的,并不是官方公布的数据。
我们再看一下联合国的数据,显示印度在年的人口数是13.8亿,并没有超过中国。根据这上面两个调查来看,我们断定这个信息是不实的。
▲左:AVAAZ《FacebooksAlgorithm:AMajorThreattoPublicHealth》
右:年度微博辟谣数据报告
在现在的互联网上,这样让人一惊一乍的谣言实在是太多了。根据统计,Facebook上82家不实信息源的年浏览量达到了38亿;在中国,年度微博共有效处理不实信息6万多条。
大家有没有觉得,我们每天都在跟谣言斗智斗勇。尤其在重大事件发生的时候,谣言更像炸弹一样,来势凶猛。每当这个时候,我都特别地忙,因为身边的朋友、同学、领导都会纷纷发来信息,让我去求证:曹娟,你看这条信息是真的假的?同学群为了某件事发生争吵的时候,他们就会
我出来:曹娟,你来看一下这个东西是不是假的?我真的非常的感谢每一位给我发来求证信息的人,是你们的需要,让我觉得这份工作特别的有价值、有意义。
从“耳听为虚”到“眼见亦假”
言归正传,回到我们的话题:为什么现在互联网上的谣言这么多呢?其实谣言从古至今都有,而且它的破坏力一点儿都不亚于今天的谣言。
让我们回到两千年前的西周。当时年幼的周成王继位,由他的叔叔周公摄政辅助。但是另外一个叔叔管叔非常妒忌,他就四处散布谣言:“周公要夺位了!周公要夺位了!”流言可畏,周公就被赶走了,但其实想要夺位的恰恰是管叔。这件事就是白居易诗里面所写到的“周公恐惧流言日”。
但这是古代的谣言,再怎么厉害也只能口口相传,它的传播力是有限的。现在互联网出现了,随便一条新闻就可以影响到成千上万的人。
比如大家是不是经常看到这样的消息:水果要空腹才能吃,吃了醋有会导致骨质疏松……这些新闻最后都被证实是假的。这样的文字新闻很容易就可以发布,造谣的成本很低。所以大家会想:文字都不靠谱,要有图才能有真相。
但有图一定能有真相吗?让我们看一下这个例子。
这是年的一条非常“热”的图片新闻,说成都的一个小伙子把火锅店开到了南极。后面被证实,图片里南极科考站墙壁上的“成都火锅”是PS上去的。由于P图技术非常好,人眼很难分辨它的真假,所以很多大媒体都转载了。
我们发现,技术的进步已经颠覆了“有图有真相”的传统认知。图像已经不可信了,那么视频总可以眼见为实了吧?好,我们再看一下。
这个视频是年通过人脸驱动重演技术伪造奥巴马讲话的一个视频。右边是真正说这一段话的人,左边是通过他的讲话驱动奥巴马视频生成的伪造讲话。我们看到,这个视频看着非常真实对不对?那视频也很难相信了。
如果说前面的文字新闻可以通过人工审核判断真假,那么图片和视频一定需要技术揭示出伪造的本质,才能识别出来。我们现在要做的事情就是跟上技术的进步,使得社会的认知达到一个新的平衡。“魔高一尺”,我们要“道高一丈”,这就是我选择这个方向的原因。
谣言有什么特征?
在做这个方向的过程中,我们遇到了第一个问题:我要检测谣言,那谣言长什么样子呢?具备什么样的特征呢?
谣言最早的一个定义来自于社会心理学,他把谣言定义为一种被广泛传播的、未经证实的信息。广泛传播和未经证实就是谣言的本质特性。
举个例子,比如说我为了让这次演讲效果更好,今天吃了兴奋剂。但我就算吃兴奋剂其实也并不重要,对不对?所以也就没有核查价值,因为它不会引起广泛传播。但是如果我说某个运动员吃了兴奋剂,这个事情就非常关键——它会引起广泛的传播,那么核查它的真假就非常有价值、有意义。所以广泛传播是谣言的一个本质特点。
为了探索这两个特点,我们需要大量数据的支撑,所以我们要做的第一件事就是建一个谣言大数据平台。团队花了大半年的时间,用几十台机器搭建了一个分布式的采集平台,每10分钟为一个采集周期,每天能发现上百条争议性的新闻线索。从年至今积累了8年,达到了百万级的争议性新闻线索,其中有十万级的人工精标注的谣言数据。
▲睿鉴识谣——国内首个AI识谣平台
这个平台对我们的研究非常重要,我后面要介绍的所有工作都是基于这个平台开展的。
首先,我们发现谣言有自己的语言学的模式。比如它是未经证实的,它的信息是不可信的,那就经常会出现“网传”“据说”“爆料”“有消息称”……因为它未经证实,所以就有人去质疑,问“真的假的”?甚至去否定它,说这是不实的,这是谣言,这是假的。
又由于谣言要达到广泛传播的目的,它会煽动你、影响你,所以它的情绪会非常饱满,比如说“太可怕了”“太惨了”,有这样一些浓烈的情感;它甚至会告诉你“求转发”“求扩散”。
▲Guoetal.,RumorDetectionwithHierarchicalSocialAttentionNetwork.CIKM.
我们分别在Twitter的英文环境和微博的中文环境数据上进行过验证,确实具有这样的语言模式。如果你以后看到具有这些关键词的新闻,一定要小心点哦。
▲Zhangetal.,MiningDualEmotionforFakeNewsDetection.WWW.
第二个是谣言的情感模式,它要影响你、让你去传播,就得在情感上煽动你。比如上图左边的新闻,它本身带有很强烈的情感,“不作为的”“惨案”等等就会去煽动你。但还有一类新闻非常隐蔽,像右边这样的新闻,它会模仿官方的发文,一本正经地在说谎。他知道他的话题一定会戳中大家的痛点、热点或者