主要观点:报告、发票和报表在向最终用户分享日常活动的每周、每月和年度使用数据及其趋势方面起着重要作用,包括多种格式的数据,且包含用户的 PII 信息。组织因 PII 数据泄露和报告中数据不准确需支付罚款等,多数组织用第三方供应商生成并发送报表,误送或信息不准确的几率较高,可通过视觉语言模型和机器学习技术消除数据泄露。
关键信息:
- 报告等生成过程:客户交易数据存于数据库或数据仓库,软件流程执行数据收集、格式修改等生成报表,再通过邮件或邮寄发送给客户,各阶段可能出错。
- 提取与验证:广泛使用 PDF 格式,有非机器学习和机器学习两种提取方式,前者包括 PDF 转文本、OCR 等,后者如视觉语言模型(SmolDocling、Docling 等)、AWS 服务(Textract、Comprehend)等,且需验证提取数据的准确性。
重要细节: - 非机器学习方法的局限性,如不能提取 PDF 中的表格等元素。
- SmolDocling 是超紧凑的 VLM 能进行端到端多模态文档转换,Docling 是开源库用于文档解析处理。
- Landing AI 的 Agentic Document Extraction 利用大视觉模型和大语言模型提取数据。
- AWS Textract 能提取扫描文档数据并保留结构,AWS Comprehend 可用于特定实体识别提取。
- 验证可在报表发送前进行,可将结构化 Markdown 存储后与源数据比较,对 PII 等信息准确性进行验证。
结论:生成含 PII 信息的报表等多步骤过程中,验证其准确性很关键,利用机器学习可高效提取和比较数据,降低时间和成本。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。