为什么全文档情感分析会失败以及段落级评分如何解决它

主要观点:传统单一声明文档的情感分析工具会遗漏长文档中的复杂性和细微差别,作者开发了一个开源 Python 包pdf-section-sentiment来解决此问题,该包可将 PDF 文档按节拆分并进行情感分析,提供高分辨率的文档情感视图,比传统方法更精确,适用于多个行业。
关键信息:

  • 传统情感分析工具返回整个文档的单一聚合情感得分,常不准确。
  • pdf-section-sentiment包基于将文档拆分为有意义的节并单独评分的理念,有 PDF 节提取和节级情感分析两个核心功能。
  • 安装pip install pdf-section-sentiment,可通过两个命令行接口使用,分别是仅提取节和提取并分析情感。
  • 工作流程:将 PDF 转换为 Markdown 格式,按节拆分,对每节进行情感分析,输出结构化 JSON 结果。
  • 适用于金融、法律、政策等行业,可用于识别情感变化、审查文本等。
  • 情感得分范围为-1 到 1,根据阈值确定标签,有布局挑战、模型局限性等,未来将加入 LLM 模型等功能。
    重要细节:
  • 使用 IBM 的[Docling]将 PDF 转换为 Markdown 并保留节标题。
  • 用 LangChain 的MarkdownHeaderTextSplitter检测标题并组织文档。
  • 每节通过 TextBlob 模型计算极性得分并分配标签。
  • 示例输出为包含节标题、情感得分和标签的 JSON 结构。
  • 有布局挑战(非标准格式)、模型局限性(TextBlob 语义不敏感)、 scalability 问题(处理大 PDF 需批处理或优化)等限制。
阅读 175
0 条评论