分享者:中国传媒大学大数据分析与挖掘实验室博士生张志强
众所周知,我们处于网络信息大爆炸的时代。现代互联网产生了大量的舆情信息,其中很多信息并不是正常的信息,是因为在网络中存在着大量水军或部分恶意造谣者。国家非常重视舆情治理,它与整个国家的安全息息相关。网络中许多貌似无用的热点话题,也与我们的日常生活具有紧密关联,引起大众的广泛关注,在某种意义上也会影响到整个社会生活的方方面面。
部分具有网络舆情监测或舆情治理功能的平台
在整个信息传播过程中,引起人们关注的话题,往往是遵循某一规律进行传播的。此处我重点关注网络中微博的信息传播情况。这里借用了殷复莲教授在2020年出版的《网络信息传播建模与分析》一书,书中将网络信息传播的整个过程,抽象为一种单信息传播的模式。例如在微博中有一个大V发布了一条信息,随后会产生很多的评论数据以及累计转发量数据。
在此背景之下,可以将整个网络信息传播抽象成如图所示形式。
这种形式仿造了医学领域传染病动力学的研究基础,把网民划分为四类群体:第一类是易受影响的群体,他们没有接触到这些信息;第二类是已经接触到信息的群体;在这个群体之中会有一部分人进行转发,这类人群被称之为转发者。转发之后,一部分人因已接触过这些信息而失去兴趣,因而变成免疫者。
单信息传播SFI动力学模型
单信息传播SFI动力学模型
简单将这一单信息传播过程进行抽象的建模,可以用SFI动力学模型表示。模型中有三个主要的群体,即S、F和I,分别代表易受影响人群、传播人群和信息免疫人群。
这一模型与传染病动力学模型的不同之处在于:传染病领域是可以实时获得各个群体的状态,例如某个个体处于感染病毒或免疫病毒的状态。但在信息传播领域,往往只能获得已经接收到信息群体的数据。例如可以将微博中的转发量作为已接受到信息的群体数量。难点在于获得信息免疫人群的数据。所以在此引入新的变量C代表累积传播人群。以微博为例,可以用某一条微博信息的累计转发量来代表这个群体。其中存在一些参数,比如说贝塔、阿尔法、P,此处类似传染病动力学模型,它们各有特殊含义。借此完成对整个单信息传播的动力学建模,图3为模型的基本的微分方程形式。引入累计转发量,可以通过爬虫的方法获得某一条新闻或舆论的累计转发人群,或是接触到信息的人群的具体情况。
嵌入物理神经网络
我的方法是将PINN方法引入到信息传播过程,关注在时间推进的情境下,各个群体的数量变化。此处的输入数据仅为时间,输入数据也可以包含一些其他变量,如距离,但并非现实生活中的物理距离,它可能是网络中的两个节点或网络社交的距离,如好友关系。通过某种方式递出距离,同时也需要获得各个群体的初值。
通过PINN方法,可以对整个单信息传播的过程进行建模。建模过程中主要想获得舆论传播某条信息的未来发展趋势,这一行为对于探索传播规律、舆情信息的监控和治理等大有裨益。
基于Paddle的实验结果
基于经典最小二乘法、蒙特卡洛采样法的拟合效果
此类方法非常依赖于真实数据的情况。同时也对各个状态的初值非常敏感。
基于飞桨平台,使用PINN的方法拟合单信息传播模型的效果
基于PINN的方法,首先其整体拟合效果往往优于传统方法。其次,使用PINN的方法可以加入一些其他变量。在尝试过程中,我加入了部分社交距离的变量,验证它相比于经典方法,做偏微分的拟合效果更突出。最后,这一方法对初值和边界并不敏感。无论传染病动力学还是信息传播动力学,初值和边界对整个结果的重要性不言而喻,很多情况下结果的偏差是不合理的初值和边界选择导致的。
此外,我也做了部分信息传播方面的其他研究:引入情感变量,将转发群体进行情感的分类,包含正面情感、负面情感或中性情感三种情况。
基于传统方法的拟合情况,尤其是在舆论发展到快速传播阶段时,拟合效果并不理想。关于非常经典的谣言的两个阶段,一是谣言的传播阶段,二是辟谣信息的传播阶段,这类信息的传播结果,需要分阶段各自进行动力学的拟合,然而使用PINN的方法可以将整个过程进行建模。
总结与展望
1.使用PINN的方法在多个传播动力学模型上均可取得优于传统方法的拟合结果;
2.相比于纯数据驱动方法,结合动力学模型能够预测更长阶段且减少误差累积;
3.PINN方法在反问题求解上受初值或边界值影响不明显,拟合更加高效;
4.处理多输入问题(如偏微分方程),拟合参数同时获得各个状态值的输出,PINN方法更加高效;
5.在信息传播动力学问题中,除时间t外的自变量比较难确定,关于传播动力学中偏微分方程的拟合还有待实验验证。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。