本文作者:王桂泽
本文介绍了云音乐舆情平台建设过程中遇到的一些问题和解决方案。
背景介绍
通用舆情分析概念和局限
通用的舆情分析是指通过收集、整理和分析公众对某一特定话题或事件的言论、观点和情感,从而了解公众对该话题或事件的态度和情绪的方法。舆情分析可以通过监测社交媒体、新闻媒体、论坛、博客等渠道上的信息来获取公众的声音和反馈。
通用舆情分析的局限
通用的舆情分析由于数据来源广泛,内容格式宽泛,仅能基于特定主题进行情感分析或趋势分析,无法深入挖掘信息,这意味着企业可能无法获得关于产品的详细反馈和建议,无法了解消费者对产品的具体需求和改进方向。因此,为了满足企业内部对产品提升的需求,可能需要采用更专业、更定制化的舆情分析工具和方法,以便更全面、深入地了解消费者对产品的态度和期望。
云音乐舆情平台建设
1. 数据特征:数据来源丰富
云音乐舆情分析的数据来源不仅包括外部公众渠道上的信息(比如社交媒体、新闻、博客等),还有许多内部的数据来源,例如通过APP提交的反馈数据,在歌曲下方的评论数据,或者是通过七鱼客服人工反馈的数据等等。这些数据为精细化的舆情分析提供了基础。
这些数据具有如下特点:
- 相关性更高:反馈内容都与产品密切相关。
- 馈更加及时:反馈消息实时推送,具有高时效性。
- 更加结构化:除了反馈内容,还包括用户信息、设备信息、系统信息等。
2. 分析诉求:精细化分析诉求
云音乐的舆情分析平台与通用的舆情分析不同,它需要支持更多维度和更细致的分析能力,以满足不同业务和场景的监控需求。
聚类分析
云音乐拥有多个产品,每个产品都有各自的功能模块,而每个功能模块还可以进一步细分为子功能。可以将这种结构理解为每个产品都有一个功能树(聚类树)。聚类分析是指将舆情数据归类到聚类树上的某个具体的聚类节点,以便更好地了解用户对不同功能模块的态度和需求,从而针对性地进行改进和优化产品。
反馈类型分析
在确定舆情所属的功能模块之后,还需要进一步分析用户的反馈类型,不同的反馈类型需要不同的角色关注。包括:
- 问题反馈:反馈产品或功能问题,开发人员需要关注
- 产品建议:反馈产品或功能改进建议,产品经理需要关注
- 使用咨询:用户咨询产品的使用方法或者相关问题,客服需要关注
- 投诉举报:反馈产品或功能的不良问题或违规行为,合规人员需要关注
摘要提取
摘要提取是指提取舆情消息中的要点和关键信息。通过对原始消息进行提炼,摘要识别可以帮助用户快速了解舆情消息。另外,可以对大量舆情消息进行摘要分析,以便发现整体问题和趋势,并发现新的热点问题。
情感分析
情感分析类似于传统的舆情分析,主要是识别用户情感,包括正向、负向和中性。可以帮助我们了解用户对特定功能的态度和情绪,从而指导产品的改进和优化方向。
3. 智能监控:监控和报警
舆情监控和通用的监控系统存在一些区别:
- 有些渠道的舆情消息是定时爬取的,实时性要求不高
- 舆情消息量一般都比较大,一般是对整体趋势、热点问题的监控
- 舆情变化趋势是随机的,和内部产品和外部环境都有关系,没有特定的规律
这就要求平台制定更加智能的监控策略,当舆情消息超出预期时,可以通过短信、邮件等方式向指定人员发送报警通知,以便相关人员及时处理。
舆情流转链路
云音乐舆情平台更加专注于舆情数据的分析、洞察和监控,通过定义标准化的数据结构快速接入不同来源的数据,下面是核心的舆情流转链路:
舆情数据来自第三方平台,包括:反馈平台,七鱼私信平台、大数据平台;上报支持包括MQ协议和http协议;输出原始舆情。
适配器:原始舆情先经过适配器处理,标准化各数据源模型结构,补充设备、产品等元数据信息。输出标准舆情。
分析器:对标准舆情进行内容分析,根据舆情所属空间,获取该空间的聚类树,并进行聚类分析、情感分析、意图分析、摘要分析、关键词分析。输出标准舆情+分析标。
存储器:将标准舆情和分析标存储到Elasticsearch,供后续在线查询和分析。
报警计算器:根据平台内的报警规则(系统报警+用户报警),判断当前舆情是否满足报警规则并触发报警。
在线查询&分析:查询、趋势分析、聚合分析等。
舆情大盘:发现热点事件、各分析维度的排行榜等。
舆情消息模型
平台数据来源渠道广泛,而且每个数据源都有独立的属性,既要支持针对每种渠道的精细化分析,也要支持在全局视角对多种渠道数据进行整体分析。
为了解决这个问题,平台设计了通用的舆情消息模型,在数据接入层和产品展示层,都是面向这个数据模型进行设计,这样设计的好处有:
- 在数据接入层,可以快速接入新的数据源
- 在产品层,可以复用舆情查询、分析、报警等功能
一条标准化的舆情消息有下面一些属性:
数据源
数据源是指舆情的数据来源,比如来自App的用户反馈,来自七鱼私信的客服对话等。
平台会根据不同的数据源,在产品层做动态的功能展示。比如在舆情查询页,会根据数据源展示相应的属性,在报警配置页,会根据数据源展示相应的筛选条件。
基础属性
每种数据源都有一些基础属性。这些属性是在舆情上报时能够识别并携带上来的,例如用户信息、设备信息、App信息、操作系统信息等。
平台支持按照所有基础属性做筛选、聚合分析,在报警的时候也可以按照所有基础属性做筛选,提供了灵活的查询和监控能力。
分析属性
除了基础属性,分析器(包括平台内置的分析器和用户自定义的分析器)还会为舆情添加额外的分析属性。
不同的分析器会生成不同的分析属性,例如情感分析器会生成情感属性,聚类分析器会生成聚类属性等。
和基础属性类似,所有分析属性都支持筛选、聚合分析。
扩展属性
支持业务方自定义一些扩展属性,以满足不同业务方差异化的查询和分析需求。
技术架构
数据接入:原始舆情数据,有来自反馈平台、七鱼平台、数据平台等;协议支持MQ和http协议。
处理层:
- 适配器:将各种来源的数据源整合成标准文档结构,并补充元数据:如产品、设备信息、用户信息等。
- 分析器:对舆情内容进行多维度分析,包括:聚类、情感、意图、关键词、摘要提取,分析之后会打上分析标
数据管理:数据管理主要是配置处理层的处理规则以及报警规则
分析&可视化层:提供对分析之后的舆情数据的查询和分析能力;
监控&报警:对接通用监控和统一报警实现舆情监控;同时提供定时分析和舆情洞察能力,提供舆情大盘和日报功能。
分析引擎
分析引擎负责对采集上来的数据做分析,生成对应的分析属性。 平台会内置一些分析器,比如情感分析、聚类分析、反馈类型分析等。
分析器的选择是灵活的,可以根据舆情的数据特征(数据源和基础属性)和分析需求,选择相应的一个或多个分析器进行分析处理。
同时,平台也可以方便地添加自定义的分析器,以满足不同场景的分析需求。可以通过GPT提示词开发、SDK插件、服务接入等多个方式接入自定义的分析器。
内置分析器
平台内置的分析器都是基于GPT开发的,相比传统的机器学习、NLP等分析方法,使用GPT分析具有以下优势。
- 首先,GPT模型能够更好地理解和处理自然语言,在语义理解和文本生成方面表现出色,更好地理解语言的上下文和含义,从而析过程中能够更准确地捕捉到细微的语义差异。
- 其次,GPT不需要人工标注训练数据,根据需求调整提示词后即可立即生效。传统的机器学习和NLP方法通常需要大量标注数据来训练模型,需要耗费大量人力、机器和时间成本,无法满足快速变化的业务需求。
- 另外,GPT模型还能具有总结归纳、发现新问题的能力,而传统的机器学习和NLP方法则则无法完成这一任务。
GPT成本优化
与传统的机器学习、NLP等分析方法相比,GPT分析会产生费用,并且随着分析文本数量的增加,成本也会增长。在某些情况下,成本可能会很高,例如在进行聚类分析时,需要将聚类树和文本一起输入给GPT。然而,聚类树本身(包括节点和节点的描述)可能非常庞大,这将消耗大量的Token。平台也针对性的做了一些成本优化措施:
优化1 缓存
- 基于常见文本的分析结果缓存
- 基于文本+聚类树版本的分析结果缓存
优化2 精简聚类树
聚类分析场景中,聚类树本身消耗了大量的Token,可以在分析之前通过文本相似度算法先筛选出"可能归属"
的聚类,在分析的时候只需要分析这些聚类即可,这可以大大减少聚类树的大小, 有效地降低分析成本。
在线查询&聚合分析
舆情消息经过分析引擎分析后会保存在 ElasticSearch 数据库中,以便支持实时地在线查询和分析。
舆情查询页设计如下:
舆情查询
舆情查询的主要场景:在限定上下文中,查询和某个关键词相关的舆情。限定上下文支持全属性(包括基础属性和分析属性);关键词也需要支持逻辑运算,通配符匹配等能力。
例如:查询用户反馈数据源、iphone端、负面情感的和『黑椒播放器』相关的舆情消息。
趋势分析
平台支持灵活的趋势分析能力。在给定查询条件后,您可以查看数据的变化趋势,并指定不同的聚合粒度。此外,平台还提供一些趋势指标,如平均值、最小值、最大值、P80和P95等数据,以满足不同的分析场景。
例如:在新建监控和报警时,希望根据历史的舆情数据趋势和指标,制定合理的报警阈值。
聚合分析
平台支持全属性的聚合分析能力。在给定查询条件后,平台会计算所有『可聚合维度』的分布情况,给出每个维度的不同取值的消息总数和占比。『可聚合维度』是根据当前搜索的数据源动态识别的,不同的数据源可以配置不同的聚合分析维度。
例如:查询某个时间范围内的Top聚类问题,或者分析和某个主题相关的所有舆情消息的情感分布、App版本分布等。
监控和报警
平台支持灵活的监控和报警策略。一条监控或报警规则包括3个部分:
1. 数据筛选
数据筛选指定了希望监控的舆情消息范围,支持全属性(基础属性和分析属性)的筛选,每个属性支持指定多个值。
例如:指定监控范围为:用户反馈数据源中,iphone端、改版相关、负面舆情。
2. 报警条件
平台支持常见的报警条件,例如检测周期、每次检测的时间范围,以及按照阈值、环比增长触发等。同时,平台对阈值的设定经过优化,可以根据历史数据的趋势指标来指定动态阈值。当趋势发生变化时,报警阈值也会相应地动态改变,以确保阈值始终与当前趋势匹配,从而更准确地反映问题。
3. 报警接收
当满足报警条件后,会通知相关的接收方。支持指定接收人、IM群组,发送方式也支持IM、短信、电话、邮件等。
智能报警
舆情报警具有一定的特殊性,首先舆情消息本身数据量较大,数据有一定的滞后性,通常会关注整体的变化趋势,而且趋势会随着产品功能迭代和外部环境发生较大的变动。
在这种场景下,报警的监控策略和阈值设置就难以确定,如果设置固定的报警阈值,很容易出现误报或者漏报的情况。如果都是靠人工定期维护报警,成本又会很高,而且及时性和有效性也难以保障。
针对这个问题,平台提供了一种智能报警的解决方案。平台会根据不同的监控场景自动创建报警规则,报警阈值是根据历史数据动态计算并定时刷新的。
例如,在聚类问题反馈类监控中,希望监控每个聚类的问题反馈情况,平台会为每个聚类创建一个智能报警规则,监控与该聚类相关且反馈类型是问题反馈的舆情数据。
同时根据在该数据筛选条件下的历史的舆情趋势,动态计算阈值和环比增长值,以确保阈值和环比值与当前舆情趋势相匹配。为了保证阈值的时效性,平台还会定时刷新这个阈值。
这样可以有效保证报警的有效性和时效性,同时不需要人工参与,大大降低了人工成本。
总结
云音乐舆情平台具有以下特点:多数据源、多维度的数据特征;丰富、可扩展的分析器;灵活的在线查询和聚合分析能力;以及智能的监控和报警能力。能够满足复杂场景的舆情分析、查询、监控和报警需求。
后续的发展方向是结合GPT,进一步挖掘数据背后的价值,例如提供智能日报或周报功能,对周期内的舆情数据进行提炼、总结,并给出分析报告,以减少人工分析的成本。
最后
更多岗位,可进入网易招聘官网查看 https://hr.163.com/
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。