新浪舆情通

社交媒体时代核心用户识别与传播规模预测分析

作者: 发布时间: 2020-11-10 点击数: 0
随着社交平台的发展,微博越来越成为人们对于热点事件的发声平台,并对现实能够产生广泛的影响,而微博中的海量信息通过用户的交互和转发行为进行传播,用户的传播重要性衡量了其在整个信息扩散过程中所占的权重,通过核心用户的识别来预测单条微博的传播规模具有非常重要的科学意义。本报告首先基于复杂网络模体理论,运用节点度概念来量化用户的传播重要性,发现,基于模体重要性计算方法是对传统动态网络节点重要性的一种改进与拓展,更全面地测度了传播网络结构的复杂性和节点的多维度重要性。其次,运用机器学习方法,建立模型对单条微博传播规律进行预测,发现,时间序列特征是最有效的,现在传播规模预测中占主导地位,而文本类特征的预测

一、研究背景与问题的提出

随着社交媒体的发展,由微博舆论场自发形成的核心用户既是微博社群中的核心成员,也是微博舆论场的中心,更是突发公共事件在微博中信息扩散的关键节点,他们的存在具有维系关注强度、传播重要信息、引导网络舆论的重要作用。目前有关核心用户的研究集中于计算机、情报管理、新闻传播学等多门学科,呈现出跨学科的发展特点。在传播学领域中,网络意见领袖的研究根植于传统意见领袖理论及论坛、社区、博客、微博等社交网站等的兴起,最早可追溯至2003年前后,在2006年尤其是2008年以后逐年增多。研究主要包括以下方面;1.网络意见领袖的影响机制。Huffaker认为网络意见领袖能够通过制造或激发某一特定主题的对话来设置议程,影响话题框架。国内学者曾繁旭等以微博几例拆迁维权议题为个案,从社会网络理论视角出发,发现有无意见领袖群体的关注导致了公共议题发展的差异。王秀丽则以知乎这一网络社区为例,探讨了网络意见领袖如何设置议程,影响社区成员的舆论导向和态度行为。2.网络对草根意见领袖的赋权作用及网络意见领袖的生成路径。如学者崔凯等基于“下厨房”app网络爬虫数据的分析,发现互联网为草根阶层提供了成为意见领袖的机会,同时将其影响因素分为自致和先赋两类。


情报学及计算机学科首先关注核心用户的社群结构特征,特别是基于不同领域和话题,如重大公共事件、网络谣言及辟谣等,成为研究热点。其次,关注基于大数据对用户行为本身的研究。如彭希羡等通过利用决策树分析、相关性分析和关联挖掘等方式对微博用户进行统计分析。最后,该学科聚焦于用户群体的挖掘与识别。目前核心用户挖掘研究方向和理论基础主要集中于5个方向:1.利用SNA,通过获取用户间的关系数据,构建社交网络,通过该网络的多种指标衡量用户的重要性。其优点在于简单易懂、指标全面,因而成为核心用户研究的主流方法。2.运用传统的网页排名算法PageRank,将微博用户视为传统页面,用户间的联系则表征为网页间的链入链出关系,从而构建出用户间的有向图。3.基于影响问题最大化的top-k nodes算法,通过对社交网络信息在传中动态变动的特征分析,寻找最终信息传播效果最有影响力的前K个用户。4.构建评价指标体系,用于评价微博用户重要性程度,通过层次分析法等量化指标方法,对用户进行建模研究,得到用户的影响力的评分。5.基于关联规则方法中的经典Apriori算法。


传播规模与核心用户研究密切相关,当前对于传播规模的研究同样存在两种路径。传播学领域多从媒体机构的传播影响力出发,对其“两微一端”的传播规模进行测量。如吴玉兰等以“@财新网”为例,以微博粉丝数量及微博发布总量为指标分析传播规模,从而探究财经媒体的传播影响力。情报学及计算机学科则从技术视角,关注网络舆情,特别是谣言信息的传播模型建构及传播规模预测。这也是本文关注的重点。

当前信息传播模型的理论基础主要包括复杂网络理论、多重网络理论和社会网络分析法。复杂网络以图论和统计物理作为理论支撑,深入探讨网络拓扑结构及其特性。其主要特征包括:1.由多个节点或子系统组成;2.易受外界环境影响,并与外界不断进行物质、能量和信息交换;3.在特定情况下,网络内的节点之间存在某种链接关系,并且互相作用,从而给彼此带来影响;4.节点间的相互作用和整个系统存在某种复杂的非线性关系。而随着对社交网络研究的深入,学者发现其不仅是单层次复杂网络,因而提出多重网络的概念,即一个网络结构中具有多层网络。而社会网络分析法将整个网络视为由若干节点构成,每个节点之间有一定的链接关系,网络结构内的链接关系决定了信息的传播路径及其特征。


综上所述,本文发现对于核心用户和传播规模的研究存在两种截然不同的视角。传播学视角关注传播进程中的人与社会的关系,探讨社会结构和新媒体技术如何影响核心用户的生成及核心用户对政治社会的反作用;对于传播规模的研究,多关注机构组织的影响力及舆论生成和发展的原因与影响,较少涉及到数理知识;其运用的量化研究方法也较为简单,以内容分析或社会网络分析法为主。而情报学和计算机学则更多关注核心用户作为节点与整个社群结构的特征与关系,以及舆论传播发展的内在机制。其方法更为严谨,数理模型完备,但缺乏对现象成因的诠释。基于以上研究,我们提出以下问题:

研究问题一:网络热点事件中,如何能够精确识别出对事件起主要作用的核心用户?


研究问题二:网络热点事件中,核心用户的特征有哪些?


研究问题三:哪些因素能够影响信息传播规模?



二、研究方法与数据预处理

2.1 数据说明和预处理

本文采用了一个大规模的微博信息传播数据集。该数据集中,一共抓取了26998条源微博数据,这些源微博被转发共计超过1784万次,涉及到约800万位用户,用户之间的关注关系超过了7亿条。数据集一共分为三部分:用户关注关系数据、转发关系数据,源微博文本数据。其中,用户关注关系数据包含用户和其所关注的用户的列表;微博转发关系数据包含微博id、被转发用户、产生转发行为的用户、转发时间与源微博发布时间的间隔和转发的微博内容;源微博文本数据包含源微博id、微博作者id、微博发布时刻和源微博内容。


用户关注关系网络和转发关系网络能够反映用户在社交媒体中的影响力。将该关注关系数据处理成能够进行网络构建的数据格式,并建立用户关注关系网络;基于全部微博的转发关系,以微博作者为起始节点,转发者为目的节点,构建一个有向转发网络来衡量用户在转发网络中的影响力;基于单条微博数据,以微博作者为起始节点,转发者为目的节点,构建单条微博的传播树。


2.2 核心用户识别方法

2.2.1广播式和病毒式模体度的定义

定义1. 广播式模体(broadcast motif). 反映了信息传播过程中的广播效应,是星形网络结构的主要构成成分,其中的扩散传播特征是由于单个有影响力的节点所致,其结构为图1中(a)的三节点模体结构。网络的广播式模体度即为网络中所包含广播式模体的数量指标。

1.png

定义2. 病毒式模体(viral motif). 反映了信息传播过程中的病毒效应,它包括一个多代分支结构,其中节点仅直接影响相邻的分支,其主要结构为图1中(b)的三节点模体结构。网络的病毒式模体度即为网络中所包含病毒式模体的数量指标。


定义3. 节点模体度(motif degree).给定一个有向传播网络结构G=(V,E),V代表节点集,E 代表边集,a∈V,由网络中任意节点a作为根节点,由a出发能够形成广播式传播模体结构与病毒式传播模体结构的数量指标,即图1中以红色节点为根节点可以形成广播式模体以及病毒式模体的数量,分别记为节点广播式模体度BM和节点病毒式模体度VM,因此该指标是由两个数值所构成的,结果保存于二元集合(BM, VM)中。节点模体度的算法伪代码如下所示。

2.jpg


2.3 传播规模预测方法

2.3.1 预测问题定义

本研究试图通过观察一条微博发布后一小时内的转发动态来预测其未来的传播规模。在我们的数据中,大多数的微博在发布后的72小时后很少会得到转发,因此本研究将预测问题定义为:已知一条微博发布后一小时内的转发动态,预测未来第75分钟、第195分钟、第315分,…,第4380分钟的传播规模。

2.3.2 基于最大信息系数的相关性分析方法

最大信息系数(Maximal Information Coefficient, MIC)是于2011年发表在Science杂志上提出的针对大数据集基于互信息的新奇关联方法。该方法优于传统的皮尔逊相关系数,可以判定变量间的函数关系或者非函数关系,进而得出该变量在数据集中的影响力。MIC计算分为三个步骤:给定i、j,对XY构成的散点图进行i列j行网格化,并求出最大的互信息值,然后对最大的互信息值进行归一化,最后选择不同尺度下互信息的最大值作为MIC值。其公式定义如下:

3.png

其中,Ⅰ[X;Y]表示变量X和Y之间的互信息,|X|,|Y|表示在散点图网格中,分别在X和Y方向共被分成了多少段,|X||Y|<Β表示所有的方格总数不能大于Β,Β取数据总量的0.6或0.55次方,该值是一个经验值。


MIC具有普适性、公平性和对称性的特点。MIC的普适性是指它能够发掘样本中各种各样的函数关系,且不限定函数的类型(如线性函数,对数函数等)。总之,几乎能够囊括所有的函数关系;MIC的公平性是指对于有着相同的噪声程度的函数和非函数关系,MIC能够给出相似的系数。MIC的对称性是指MIC(X,Y)=MIC(Y,X),这是因为只取决于数据的排序,在保序变换轴中MIC是不变的,其中IF表示F在中的概率分布。

2.3.3 基于XGBoost模型特征排序方法

XGBoost(Extreme Gradient Boosting)是一种梯度提升树(Gradient Boosted Decision Trees)模型。相比于经典的GBDT,XGBoost做了一些改进,从而在效果和性能上有明显的提升。GBDT将目标函数泰勒展开到一阶,而XGBoost将目标函数泰勒展开到了二阶,保留了更多有关目标函数的信息,对提升效果有很大的帮助。此外,XGBoost加入L2正则化项,有利于模型获得更低的方差。除理论与传统GBDT存在差别外,XGBoost的设计理念主要有如下几点优点:速度快、可移植、少写代码、可容错。


基于模型的特征排序方法,主要是根据算法模型的预测性能来评价特征子集的优劣。利用XGBoost机器学习算法,可以在训练的过程中给出各个特征的评分,从而表明每个特征对模型训练的影响力。在XGBoost算法中,特征评分可以看成是被用来分离决策树的次数,特征的评分越高,则说明该特征越重要,对于算法性能的影响越大。



三、研究发现与结果

3.1 基于广播式与病毒式模体度的节点重要性分析

针对数据集中每一条“源微博”,本文首先利用其转发数据构建一个有向传播网络(微博作者为起始节点,转发者为目的节点)。其次,计算传播网络中每个用户的节点模体度指标。最后,对每个用户的节点模体度进行求和(即广播式模体度加上病毒式模体度),并按照从大到小的顺序进行排序。


图2展示了一条微博有向传播网络以及节点模体度指标的分布情况。根微博的发布内容主要是关于“某大学研究生考试试卷”的讨论。数据集中具体的用户昵称已经脱敏处理,本文使用字母来表示。图2(a)为该条微博传播网络结构图, 红色节点A表示微博的发布者,紫色节点表示节点模体度大于0的用户,蓝色节点表示节点模体度等于0的用户。微博信息的传播顺序为用户A—>B—>D—>E—>C。从图中可以看出,“源微博”的发布获得大量的转发,其网络结构呈现出蒲公英形状。从发布用户A处主要衍生出三个重要节点用户B、D和E。微博信息在用户B和D处获得大量的转发,二者的网络结构也呈现出蒲公英形状。而微博信息在用户E处既获得了许多转发,也得到了较深的传播深度,并且微博信息从用户E处传播到了用户C的粉丝圈内,同时获得大量的转发。

4.jpg

图2(b)展示该条微博的节点模体度指标分布情况,横坐标轴代表节点的广播式模体度,纵坐标轴代表节点的病毒式模体度,节点模体度指标为零的用户不予显示。图中颜色条反映了具有相同节点模体度的用户频数分布,节点颜色越趋近于红色,说明某种模体度下的出现用户的频数越多。节点颜色趋近紫色时,表示某种模体度下的节点的数量越少。从图中可以看出,由于不同用户自身对传播贡献的差异,使得节点模体度指标的分布大体上分为两部分。

第一部分为坐标轴左下方的用户,这些用户具有较低的广播式模体数和病毒式模体数,对应图2(a)中未标明字母的紫色节点。第二部分为坐标轴右方的5个用户A, B, C, D, E。这些用户具有较大的节点模体度指标,说明对信息传播的贡献较大,基本上主导的信息的传播。


3.2 影响信息传播的多类别多特征的结果分析

本研究构建了四类影响信息传播的主要因素,包括关注关系网络结构特征(Follower network)、转发网络结构特征(Retweet network)、时间序列特征(Time series)和微博文本特征(Content text),总计82维特征(具体的特征描述和表示符号见附录)。图3展示了各种特征组合的预测结果,X轴表示传播时间,Y轴表示评价指标RMSE。该指标的数值越小,说明预测值与真实值之间的误差就越小,预测精度也就越高。总体上,随着传播时间的增长,各类特征的预测性能逐渐降低。在所构建的四类特征中,微博文本特征的预测结果最差,其次是关注关系网络结构特征和转发网络结构特征。而时间序列特征的预测性能最好,尤其是75分钟至500分钟这段时间内,时间序列特征的RMSE随时间变化曲线几乎与所有特征(All features)的曲线重合。也发现经过特征选择后的12维特征(The best feature combination)的RMSE随时间变化曲线与所有特征的曲线几乎完全拟合,即仅经过特征选择后的12维特征就能达到理想的预测效果。换句话说,在实际应用中只考虑这12维特征可以降低模型的复杂程度,避免过拟合,减少运算时间,有利于提升预测准确性。

5.jpg

为了分析各类特征在不同传播时期的影响力,本研究将信息传播过程分为三个阶段:初期(T=75分钟),中期(T=2275分钟),后期(T=4275分钟),并从已训练好XGBoost模型中提取出这三个时期特征重要性排序。图4展示信息传播这三个时期的Top20特征重要性排序。在信息传播的初期(Early),时间序列类特征总体上排在一个靠前的位置,尤其是scaleT60,PF和scaleT59特征,它们的特征重要性得分远远高于其他特征。在信息传播的中后期,排在靠前位置的是网络结构类特征和微博文本类特征,并且这两类特征的影响力分数差别不大,几乎分布600以上。而时间序列特征位置开始下降,较为明显的是scaleT60特征,其特征重要性得分从1001下降到了416。综上所述,时间序列特征是影响信息传播规模关键因素。

6.png



四、结论与讨论

现实微博网络的复杂性,线上线下的多重关系,子网络结构链接关系的差异性,用户的个性化特征、信息的多种类别都给微博网络的属性增添了复杂性。运用单一的网络结构研究微博信息传播显然不够贴合实际,研究成果现实适用性并不强。因此,运用大数据解析微博网络的基本特征,并引入复杂网络与多重网络的理念,令整个微博网络既具有小世界和无标度等复杂网络的特性,同时又兼具多重网络的线上线下网络结构特性。本文提出了一种基于模体结构的社交网络用户传播重要性定量分析方法,对微博传播网络中的用户以及每条微博进行了基于广播式模体度与病毒式模体度构建的二维模体度量化,细致地刻画了节点的传播特性,并基于这种节点模体度属性,分析了微博网络中信息的传播机制。同时,本研究基于机器学习框架构建了研究信息传播影响因素的新范式,该框架涉及特征工程、特征选择、评价准则三个步骤。首先,使用XGBoost模型对四类重要特征进行了类内的特征影响力排序,发现了不同类别特征的主要影响因素,并且基于最大信息系数对四类特征进行了类间和类内的相关关系分析和特征重要性排序,筛选出最优的特征组合。对多类别多特征的信息流行度预测结果进行比较,发现在整个信息传播过程,随着传播时间的增长,信息流行度范围的预测准确性降低,其中时间序列特征在信息传播预测中起到关键性的作用。


附录

1.1 关注关系网络类别特征分析

信息发布者的社会影响力对于微博信息的流行度具有很强的影响,社会影响力是指一种用户影响他人观点、情感和行为的现象[1],在线社会网络中可以使用一些网络结构特征来进行刻画。Bakshy等分析了Twitter上用户影响力与推特转发量之间的关系,发现那些热点话题的发布者通常是一些高影响力用户,这类用户的其他推特同样也具有较高的转发量[2]。Zhang等分析了上千个新浪微博用户的转发情况,发现用户的被订阅数目越多,其发布微博获取的最大转发数就越多[3]。鉴于这些网络结构特征的影响,本文使用预处理后的用户关注关系数据构建网络,并且提取出表1中的5种发微博节点的网络特征作为信息流行度预测的特征量。

8.png

基于XGBoost算法,图2的左侧子图展示了关注关系网络结构特征的影响力排序,Y轴是特征重要性分数。从图中可以看出,源微博发布用户的出度、入度和PageRank值对信息传播流行度的影响较大,而源微博用户发布者的双向度和所有度对信息流行度的影响较小,并且这两个特征的重要性分数与排在前三名的特征差距很大。可见在关注关系网络中,节点的双向度和节点的所有度并不能准确地量化用户的影响力。在图2的右图中,基于最大信息系数计算出这一类别特征之间的相关性。这5个特征统计量被分成2个集合,第一个集合包含了节点的PageRank值、入度和所有度,它们之间具有很强的相关性,最大信息系数接近1,因为这三个特征量都受到节点粉丝数目的影响。第二个集合含有节点的出度以及双向朋友的数量,它们之间也有较强的相关性,主要是因为这两个特征量是由节点的朋友数目确定的。总体上,第一个集合的相关性强于第二个集合。


结合上述的分析,本文首先根据特征的影响力排序,选取out_degree1、in_degree1和pagerank1作为关注关系网络的主要类别特征,因为这三个特征的影响力得分主要分布在6000~8000之间,而bi_degree1和all_degree1分布在2500~4500之间,差距较大。其次,根据右图中发现Pagerank1、indegree1和all_degree1之间的相关性都大于0.9,彼此之间存在较强的冗余性,考虑到in_degree1和 pagerank1特征影响力分数接近,信息传播过程中发挥的作用也接近,因此使用特征影响力得分为6686的in_degree1特征代替得分为6169的pagerank1特征。最后,将关注关系网络类特征的最优组合设置为out_degree1和in_degree1。

7.jpg


1.2 转发网络类别特征分析

相比关注关系网络,转发网络结构特征的构建是以动态网络拓扑结构、动态的用户行为为基础。Kupavskii等在预测Twitter中微博信息转发级联规模中提出使用转发网络中用户的PageRank值这一特征来衡量用户的影响力,并且该特征的引入提高了模型的预测能力[4]。为了刻画转发者之间的相互关系和影响力,本文除了利用转发用户数据构建节点的PageRank值特征以外,还构建了转发网络的其他结构特征,如表2所示。

8.png

图3展示了基于XGBoost模型的转发网络结构特征影响力排序和基于最大信息系数的特征间相关性。左图为转发网络结构特征影响力排序,Y轴表示该类特征的重要性分数。从左图中可以看出转发网络中节点入度、所有度、PageRank值和节点的出度这四个特征量影响最大,而用户的双向朋友数量影响最小。在右图中,可以发现与关注网络类似,转发网络中用户的PageRank值、入度和所有度这三个特征量构成的集合MIC值都大于0.76,即它们之间有着较强的相关性。总体来看,第一个集合的相关性强于第二个集合。

9.png

结合上述的分析,考虑到in_degree2、all_degree2、pagerank2和out_degree2这四个特征的影响力分数主要分布在15000至25000之间,而bi_degree2的影响力分数只有4366。因此,本文首先将这4维特征作为转发网络的最优特征组合。根据右图的相关性分析,发现pagerank2、in_degree2和all_degree2之间具有较强的替代性,且all_degree2和pagerank2的影响力差距不大,因此使用影响力分数为17911的all_degree2来代替影响力分数为17221的pagerank2。out_degree2与其他特征之间的相关性较低,比较独立,不予删除。最后,将in_degree2、all_degree2和out_degree2这三个特征设为转发网络类的最优特征组合。


1.3 时间序列类别特征分析

时间序列对信息的流行度有很强的影响。Yang等研究了用户生成内容流行度随时间的消涨模式,挖掘出6类形态各异的流行度时序模式[5]。Hu等通过对短期爆发的热门话题流行度时间序列进行了分析,发现仅需要少量历史数据,就能准确地预测话题流行度[6]。同时为了测量时间序列的爆发性,构建峰值比率(Peak Fraction, PF)和变异系数(Coefficient of Variation, CV)这两个特征量[7]。其中,峰值peak被定义为净增长最大的单位事件里的扩散规模。峰值比率是峰值与总扩散规模S的比值,即

10.jpg

变异系数衡量的是整个扩散曲线的稳定程度,它被定义为时间序列的标准差δ和均值的比率,即

17.png

鉴于时间序列特征对信息流行度的影响,本文使用表3中的三种时间序列特征作为信息流行度预测的特征量。

11.jpg
12.jpg

图4展示了基于XGBoost模型的时间序列特征影响力排序和基于最大信息系数的特征间相关性。由于该类特征维数较多,本文选取经过特征排序后的前20维特征来进行分析。图4中的左侧子图为时间序列特征影响力排序,Y轴表示特征的重要性得分。从图中可以发现微博初始的传播规模,峰值比率和变异系数对信息传播的影响较大。第59分钟和第60分钟的传播规模(ScaleT60和ScaleT59)排在靠前的位置,主要是因为这两个特征与第一个预测目标(ScaleT75)具有较强的相关性。图4中的右侧子图为时间序列特征之间的相关性,发现微博初始的传播规模之间的相关性较低,而后面的时刻的传播规模之间有着较强的相关性。峰值比率和变异系数与其他变量之间相关性较低。


结合上述的分析,首先将经过XGBoost特征排序后的前20维特征作为该类特征的主要影响因素。根据右图中的特征相关性分析,发现传播规模特征之间的相关性都大于0.8,彼此之间可以相互替代。scaleT1和scaleT2的特征影响力分数为546和529,分别位于特征影响力排序的第二位和第三位,两个特征的影响力又几乎相同,因此使用scaleT2来代替scaleT1。同理,我们可以用位于第四位的scaleT60去代替之后传播规模特征。PF和CV特征与其他特征之间相关性较低,不予删除。最后,PF、CV、scaleT2和scaleT60成为了时间序列类别特征的最优特征组合。


1.4 微博文本类别特征分析

微博的文本内容对微博信息的流行度具有很大的影响。比如,某个明星发布其最新的歌曲专辑,其该条微博通常会获得上百万的转发量。而一些新闻类的微博获得的转发量较少。Hong等利用主题模型对微博的文本内容进行分类,同时分析了文本内容类别与微博转发量之间的关系[8]。在微博系统中,一条微博中通常包含多种多媒体信息,如超链接,视频,图片等。Suh等分析大量的新浪微博数据,发现超链接和标签数量与微博信息是否被转发具有较强的相关性[9]。Zhao等发现相对于纯文字的微博,含有视频,图片等多媒体信息的微博往往具有较大的转发量和较长的活跃时间[10]。Bao等发现相比其他用户,具有大量粉丝数目的用户提及率更高[11]。考虑到这些文本特征的影响,本文使用表4中的文本特征作为信息流行度预测的特征量。对于微博文本内容的类别特征,使用LDA主题模型对文本内容进行主题类别的划分。

13.jpg

图5为基于XGBoost模型的特征影响力排序以及基于皮尔逊系数的特征相关性分析。左图为微博文本特征影响力排序,Y轴为特征的重要性分数。从图中可以从中微博的发布时间、文本长度、内容类别这三个特征量的影响最大,而是否包含红包、是否包含抽奖等特征几乎对信息流行度的预测无影响。右图为微博文本特征之间的相关性,可以发现这10个特征量之间的相关性很低,即说明这些特征之间几乎都是相互独立的。


考虑到这10维特征的相关性较低,且realse_time、wordlenth和content_category这三维特征的影响力分数主要分布在400至1900左右,远远高于影响力分数分布在0至200的7维特征。因此,本文将realse_time、wordlenth和content_categor作为微博文本类特征的最优特征组合。

14.jpg


1.5 最优特征组合

在上述的四个小节中,本文对每一类别内的特征进行了特征影响力排序和相关性分析,得到了各类特征的最优组合,从原始82维特征降到了目前的12维,详细情况如表5所示。

15.jpg

 

   本小节主要对表5中的特征进行类别间的特征相关分析和影响力排序。如图6所示。从图中可以看出,这12维特征大致地被划分为两个集合,第一个   集合中包含了关注结构特征和转发网络结构的关键特征,主要是因为它们都受到节点的结构影响,其中all_degree2和in_degree2的相关性最强,接近1.0,而其余特征之间相关性都在0.5以下。第二集合包含了时间序列类的关键特征,包括scaleT60、scaleT2和CV。scaleT60和scaleT2之间存在一定的相关性,接近0.5左右,主要是因为二者受到时间因素的影响。微博文本类特征与其他类别特征之间不具有相关性,彼此之间相互独立。总体上,经过类别内的特征选择后,已经过滤掉了大部分的冗余特征。除了all_degree2和in_degree2外,剩下的特征之间基本上呈现出弱相关或相互独立。因此,可以将当前的特征传入到模型中进行预测。
16.jpg


附录参考文献

[1] 王平,谢耘耕.突发公共事件中微博意见领袖的实证研究——以“温州动车事故”为例[J].现代传播(中国传媒大学学报),2012,34(03):82-88.

[2] Katz E.The two-step flow of communication:An up-to-date report on an hypothesis[J].Public Opinion Quarterly, 1957, 21 (1) :61-78.

[3] Eirinaki M, Monga S P S, Sundaram S.Identification of influential social networkers[J].International Journal of Web Based Communities, 2012, 8 (2) :136-158.

[4] LIM S H,KIM S W,PARK S,et al. Determining content power users in a blog network:an approach and its applications[J]. Systems,Man and Cybernetics,Part A:Systems and Humans,IEEE Transactions on,2011,41(5):853-862.

[5] AKRITIDIS L,KATSAROS D,BOZANIS P. Identifying the productive and influential bloggers in a community[J].Systems,Man,and Cybernetics,Part C:Applications and Reviews,IEEE Transactions on,2011,41(5):759-764.

[6] 何黎,何跃,霍叶青.微博用户特征分析和核心用户挖掘[J].情报理论与实践,2011,34(11):121-125.

[7] 王平,谢耘耕.突发公共事件中微博意见领袖的实证研究——以“温州动车事故”为例[J].现代传播(中国传媒大学学报),2012,34(03):82-88.

[8] 曾繁旭,黄广生.网络意见领袖社区的构成、联动及其政策影响:以微博为例[J].开放时代,2012,(04):115-131.

[9] 王秀丽.网络社区意见领袖影响机制研究——以社会化问答社区“知乎”为例[J].国际新闻界,2014,36(09):47-57.

[10] 崔凯,刘德寰,燕熙迪.草根意见领袖网络社会资本累积路径研究——基于网络美食社区“下厨房”网络爬虫数据的分析[J].新闻记者,2020,(02):64-74.

[11] 林萍,王晓梅,魏静.基于社群结构比较的意见领袖协作网络分析[J].宁夏社会科学,2020,(02):193-205.

[12] 彭希羡,朱庆华,刘璇.微博客用户特征分析及分类研究:以“新浪微博”为例[J].情报科学,2015,33(1):69-75.

[13] 朱灵慧,钱鹏.基于bilibili的弹幕视频分享网站核心用户群体特征研究[J].情报探索,2020,(03):16-23.

[14] 王和勇,蓝金炯.微群核心用户挖掘的关联规则方法的应用[J].图书情报工作,2014,58(02):115-120.

[15] 吴玉兰,肖青.财经媒体官方微博传播影响力研究——以“@财新网”为例[J].现代传播(中国传媒大学学报),2014,36(06):53-57.

[16] 崔金栋,郑鹊,孙硕.微博信息传播模型及其演化研究综述[J].图书馆论坛,2018,38(01):68-77.

[17] Reshef D N, Reshef Y A, Finucane H K, et al. Detecting Novel Associations in Large Data Sets[J]. Science, 2011, 334(6062): 1518-1524.

[18] Chen T , Guestrin C . XGBoost: A Scalable Tree Boosting System[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016.

[19] 王和勇,蓝金炯.微群核心用户挖掘的关联规则方法的应用[J].图书情报工作,2014,58(02):115-120.

[20] 崔金栋,郑鹊,孙硕.微博信息传播模型及其演化研究综述[J].图书馆论坛,2018,38(01):68-77.

[21] Katz E, Lazarsfeld P F, Roper E, et al. Personal influence : the part played by people in the flow of mass communications[J]. American Sociological Review, 1956, 17(4).

[22] Bakshy E, Hofman J M, Mason W A, et al. Everyone's an influencer: quantifying influence on twitter[C]//Proceedings of the fourth ACM international conference on Web search and data mining. ACM, 2011: 65-74.

[23] Zhang S, Xu K, Li H. Measurement and Analysis of Information Propagation in Online Social Networks Like Microblog [J][J]. Journal of Xi'an Jiaotong University, 2013, 2: 124-130.

[24] Kupavskii A, Ostroumova L, Umnov A, et al. Prediction of retweet cascade size over time[C]//Proceedings of the 21st ACM international conference on Information and knowledge management. ACM, 2012: 2335-2338.

[25] Yang J, Leskovec J. Patterns of temporal variation in online media[C]. web search and data mining, 2011: 177-186.

[26] Hu Y, Hu C, Fu S, et al. Predicting the popularity of viral topics based on time series forecasting[J]. Neurocomputing, 2016.


申请试用

为了确保您能够顺利通过申请,请您填写真实有效信息。客服人员将在24小时内与您电话联系,为您开通账号!

*
*
*