超13万律师使用的工具,启信宝推出“司法大数据”功能

7 月 30 日
阅读 2 分钟
140
合合信息旗下的启信宝,作为行业领先的商业查询APP,依托其3亿企业及机构的实时动态数据,涵盖工商、股权、司法、知识产权等多维度信息,推出了“司法大数据”功能。
封面图

【合合TextIn】智能文档处理系列—电子文档解析技术全格式解析

4 月 15 日
阅读 13 分钟
386
在当今的数字化时代,电子文档已成为信息存储和交流的基石。从简单的文本文件到复杂的演示文档,各种格式的电子文档承载着丰富的知识与信息,支撑着教育、科研、商业和日常生活的各个方面。随着信息量的爆炸性增长,如何高效、准确地处理和分析这些电子文档,已经成为信息技术领域面临的一大挑战。在这一背景下,电子文...
封面图

【论文解读】大模型事实性调查(下)

4 月 10 日
阅读 22 分钟
233
[链接]上期我们分享了《大模型事实性调查》论文解读的前半部分,这一期为大家带来后面的内容,欢迎阅读交流。四、事实性分析在前面的第3节中,论文提供了与评估事实性相关的定量统计数据。在本节中,论文将更深入地探讨在大型语言模型中影响事实性的潜在机制。4.1事实性分析本小节深入研究了关于llm的事实性的有趣分析,...
封面图

入选人民网2023普惠金融优秀案例,合合信息旗下启信宝赋能银行对公信贷数字化转型

1 月 12 日
阅读 2 分钟
289
普惠金融承载着改善民生、促进实体经济发展的重要职责,近十年来,普惠金融发展取得了长足进步,多层次普惠金融供给格局逐步确立。银行作为金融体系的重要组成部分,高效工作是构建普惠金融体系的重要推动力。
封面图

中国信通院携手合合信息开启《文档图像篡改检测标准》制定工作

2023-06-15
阅读 2 分钟
724
 文档图像是信息的重要载体,却经常被不法分子利用软件、算法进行篡改。这些虚假材料往往被用于散播谣言、经济诈骗、编造虚假新闻,给个人、社会造成了恶劣的影响。AIGC全球爆火后,人们对“生成式造假”风险的攀升倍感忧虑,图像内容的安全与可信性也成为了公众关注的焦点。 
封面图

Marior去除边距和迭代内容矫正用于自然文档矫正

2023-04-28
阅读 8 分钟
831
本文简要介绍了论文“ Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild ”的相关工作。照相机捕捉到的文档图像通常会出现透视和几何变形。考虑到视觉美感较差和OCR系统性能下降,对其进行纠正具有重要的价值。最近的基于学习的方法集中关注于精确裁剪的文档图像。然而,...
封面图

可防离职员工冒用身份,合合信息名片全能王与钉钉用数字名片打造安全“围栏”

2022-11-15
阅读 2 分钟
649
名片是人际交往中的一条纽带。秦汉有竹制的“谒”,唐代纸质的“名刺”也被沿用许久。如今,无实体的数字名片在商务人士中已十分普及,科技加持下,名片的载体不断变轻,其蕴含的信息却愈发丰富。 
封面图

ABCNet:端到端的可训练框架的原理应用及优势对比

2022-11-07
阅读 5 分钟
1.2k
ABCNet(Adaptive Bezier Curve Network)是一个端到端的可训练框架,用于识别任意形状的场景文本。直观的pipeline如图所示。采用了单点无锚卷积神经网络作为检测框架。移除锚定箱可以简化我们任务的检测。该算法在检测头输出特征图上进行密集预测,检测头由4个步长为1、填充为1、3×3核的叠层卷积层构成。接下来,分两部...

【文本检测与识别白皮书-3.2】第三节:常用的文本识别模型

2022-11-03
阅读 14 分钟
1.5k
2017年华中科技大学在发表的论文《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition》提出了一个识别文本的方法,这种方法就是CRNN。该模型主要用于解决基于图像的序列识别问题,特别是场景文本识别问题。
封面图

去电脑屏幕纹不用再凹姿势拍照了!合合信息智能文字识别“黑科技”上线扫描全能王

2022-10-28
阅读 2 分钟
1.2k
当人们拿起手机拍摄电脑、电视屏幕上的画面时,会发现有一些彩色条纹横亘照片中间,对图像观感和信息阅读造成了严重的干扰,例如:室内电子屏前进行合照拍摄,画面上总有条纹扰人心弦;想拍下教室大屏幕上的资料回家学习,画面里的纹路多到字都看不清.....这些令人恼火的条纹有一个官方名称——摩尔纹,也称“屏幕纹”。 用...

【文本检测与识别-白皮书-第三章】第三节:算法模型 2

2022-10-24
阅读 9 分钟
951
CTPN,全称是“Detecting Text in Natural Image with Connectionist Text Proposal Network”(基于连接预选框网络的文本检测)。CTPN直接在卷积特征映射中检测一系列精细比例的文本建议中的文本行。CTPN开发了一个垂直锚定机制,可以联合预测每个固定宽度提案的位置和文本/非文本得分,大大提高了定位精度。序列建议由递...
封面图

常用的文本检测与识别方法 - 第一节【文本检测与识别-白皮书-第三章】

2022-10-17
阅读 6 分钟
1.6k
随着深度学习的快速发展,图像分类、目标检测、语义分割以及实例分割都取得了突破性的进展,这些方法成为自然场景文本检测的基础。基于深度学习的自然场景文本检测方法在检测精度和泛化性能上远优于传统方法,逐渐成为了主流。图1 列举了文本检测方法近几年来的发展历程。

【技术白皮书】第五章:信息抽取技术的未来发展趋势和面临的挑战

2022-08-25
阅读 6 分钟
1.4k
论文《 Survey on Deep Learning for Named Entity Recognition》总结了NER技术面临的挑战和未来发展方向。随着建模语言的进步和实际应用的需求,NER会得到研究人员更多的关注。另一方面,NER通常被视为下游应用程序的预处理组件。这意味着特定的NER任务由下游应用程序的需求定义,例如,命名实体的类型以及是否需要检测...
封面图

文本纠错:提升OCR任务准确率的方法

2022-08-24
阅读 7 分钟
1.2k
在某些领域,如医疗行业,识别错误可能带来巨大的损失。因此如何降低OCR任务的错字率受到学术界和工业界的广泛关注。合合信息通过本文来讲解文本纠错技术帮助更多人解决业务问题。通常文本纠错的流程可以分为错误文本识别、候选词生成和候选词排序三个步骤。

【技术白皮书】第三章:事件信息抽取的方法

2022-08-17
阅读 21 分钟
2.4k
事件抽取(EE) 是信息抽取研究中的一个重要而富有挑战性的课题。事件作为一种特殊的信息形式,是指在特定时间、特定地点发生的涉及一个或多个参与者的特定事件,通常可以描述为状态的变化。事件提取任务旨在将此类事件信息从非结构化的纯文本中提取为结构化的形式,主要描述现实世界中事件发生的“谁、何时、何地、什么、...

【技术白皮书】第三章 - 2 关系抽取的方法

2022-08-16
阅读 23 分钟
1.8k
由于传统机器学习的关系抽取方法选择的特征向量依赖于人工完成,也需要大量领域专业知识,而深度学习的关系抽取方法通过训练大量数据自动获得模型,不需要人工提取特征。

【技术白皮书】第三章:文本信息抽取模型介绍——实体抽取方法:NER模型(下)

2022-08-15
阅读 10 分钟
1.2k
新加坡科技设计大学的研究者2018年在论文《Chinese NER Using Lattice LSTM》中提出了新型中文命名实体地识别方法Lattice LSTM。