背景
做舆情监测产品这么久,也没好好的总结过自己之前做的舆情项目,通过本文您将可以了解一个常见的舆情系统应用场景和舆情相关技术介绍。
为什么叫舆情系统
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。所以市场上衍生出对于舆情信息的监测需求。
舆情系统应用场景
舆情系统本质上是一个数据监测系统,解决的是特定的数据快&准的推送问题;
在实际使用中,常常有这些应用场景:
舆论监测 是指对各级政府机构、名人、大型企业需要实时掌握互联网舆论,对相关负面舆情及时获知并处理,避免负面舆情持续发酵恶化,对网络中相关热点事件进行多维度的数据分析和舆情趋势研判,为舆情处置、方针决策提供依据
行业监测 企业需要了解涵盖主流媒体的全面垂直行业信息内容,监测高度相关的行业新闻,时刻掌握行业新闻与热点活动,深度挖掘有价值的情报见解并形成专业化的报告。
品牌及声誉监测 指企业或者品牌方根据互联网中的品牌及声誉信息,了解自己的品牌及声誉情况,当有负面信息发生时
网络口碑监测 品牌方关注互联网中品牌相关舆情信息,了解网民对企业品牌及形象的评价,分析消费者对品牌的认知和注意力迁移,积极引导正面的口碑舆情传播,及时对负面口碑进行处置。
竞品分析 企业需要实时了解竞争对手或企业动态、舆情信息走势,了解自己产品和竞品在行业中的舆情趋势对标,深挖竞品数据、信息和市场布局,以提升自己产品的竞争优势,赢得市场先机。
商业情报 企业根据自己个性需求,获取特定站点信息,及时了解行业最新消息或者商机,从而快速采取商业动作,进行商业决策;
常用舆情系统所用技术
常用框架
常用技术
网络爬虫
从技术的角度讲,它采用的搜索技术与百度的搜索无异,都是基于网络爬虫,在此科普一下网络爬虫是什么?
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
常用算法
由于舆情采集的回来的内容主要为文本内容,关于文本识别与分析,主要是用的NLP相关的算法模型,常用的有:
simhash算法 解决相同内容聚合的问题;
TF-IDF算法 常用来解决文本相似度的问题;
倾向性算法 用来判断文本的正负面程度;
NER 命名实体识别 用来文本主体提取;
分词算法 实现长文本词句的拆分;
存储技术
常用的有Elastic search,适合数据量不大(亿级左右)的情况,ES自带分词器,用的还是比较爽的。到10亿级别建议用大数据架构。
高频功能
专题监测
专题监测是舆情系统的高频功能,解决的是监测范围的配置问题;通常会有三种词的配置,分别为主体词、相关关键词、排除词;主体词是指监测主体,相关关键词是指和主体词相关的关键词,排除词是指不能出现的词。为了用户使用更方便,在这个层面可以进行词库的构建,实现相关词推荐。
舆情趋势分析
舆情趋势分析也是舆情系统的高频功能,用来实现相关信息的总览;
预警配置
这个功能解决的问题是信息采集后更好的触达问题,由于不同信息传播属性、来源属性、信息特征不一样,在预警层面常常会有基于来源、作者、传播量、相关性、信息正负面程度的配置,为了更好的触达用户系统需要具备产品页面推送、手机短信、邮箱预警、微信推送、电话等的触达方式;
报告导出
由于舆情系统上提供的数据更多的是呈现目的,而在用户实际业务场景中,实际使用的用户和进行舆情决策的用户通常不是一个人,此时作为系统使用者需要形成数据报告进行汇报,或者信息转发,所以系统通常要具备信息简报、周报、月报的功能,分别以单条信息为模版、单周为数据模版、月为数据模版,实现用户的报告导出及转发的目标。
总结
本文介绍了常见舆情系统的实际应用场景及技术架构,以及核心功能介绍。
舆情系统本质上是一个互联网信息的定向监测工具,利用这套技术思路及路线,衍生出内容安全、商业情报、口碑监测、竞品监测等领域;
现在舆情是网络安全中属于内容安全领域的一个赛道,很多内容安全的方案在实际上和舆情监测技术流程是一样的,只不过侧重点不一致,内容安全解决的是内容合规问题,而舆情监测是解决重点信息监测预警的问题,一个是主动视角,一个是被动视角。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。