高效准确的PDF解析工具,赋能企业非结构化数据治理

12 月 18 日
阅读 3 分钟
44
在数据为王的时代浪潮中,企业数据治理已成为组织优化运营、提高竞争力的关键。随着数字化进程的加速,企业所积累的数据量呈爆炸式增长,数据类型也愈发多样化,这些数据构成了现代企业数据资产的重要组成部分。然而,传统的数据治理方式主要聚焦于结构化数据,如数据库中的表格信息,而对于非结构化数据的治理则显得力...
封面图

CCF-CV企业交流会—走进合合信息顺利举办,打造大模型时代的可信AI

12 月 13 日
阅读 3 分钟
67
​ 近期,《咬文嚼字》杂志发布了2024年度十大流行语,“智能向善”位列其中,过去一年时间里,深度伪造、AI诈骗等话题屡次登上热搜,AI技术“野蛮生长”引发公众担忧。今年9月,全国网络安全标准化技术委员会发布了《人工智能安全治理框架》,指出人工智能既面临自身技术缺陷、不足带来的内生风险,也面临不当使用、滥用甚至...
封面图

DocFlow票据AI自动化处理工具:出色的文档解析+抽取能力,提升企业文档数字化管理效能

12 月 12 日
阅读 3 分钟
75
近期,DocFlow票据自动化产品正式在TextIn平台上线。DocFlow是一款票据AI自动化处理工具,支持不同版式单据智能分类扩展,可选功能插件配置流程,满足多样业务场景。
封面图

合合信息智能图像处理技术,让你的设备更智能

12 月 4 日
阅读 2 分钟
544
最近和一位朋友聊天,听到一些关于打印机的吐槽。从20年开始,部分或者全部远程办公的企业渐渐多起来,wfh的打工人也在家添置了简易的必要办公设备,比如打印机。在家用,自然没有买办公室和打印店那种有扫描台的“大家伙”。但问题来了,手机拍摄的照片没有打印机扫描那么精准,出来的效果也是“原拍原打”,看着既不舒服,...

用AI“读懂”专业文档资料,合合信息助力出海企业规避侵权“陷阱”

12 月 2 日
阅读 2 分钟
93
近年来,在“走出去”政策支持下,企业出海持续升温。根据中国上市公司协会数据,2024上半年我国上市公司实现海外业务收入3.83万亿元,同比增长12.84%。随着出海规模不断扩大,企业跨国间的交流也变得日益频繁。为了应对提交出口产品注册资料、制作海外项目竞标标书等场景,合合信息智能文档处理技术助力企业解析、翻译电...
封面图

TextIn文档解析表格处理模型优化,显著提升表格解析性能

11 月 28 日
阅读 2 分钟
101
此前版本中,表格解析处理针对有线表格与无线表格预先分类,并基于框线进行模型预测。在运行过程中,我们发现,分类错误问题对表格解析准确率有负面影响。
封面图

南京大学苏州校区学生代表团到访合合信息,开启“沉浸式”人工智能企业行

11 月 26 日
阅读 1 分钟
72
为进一步深化校企合作,探索产业科技拔尖创新人才培养新模式,近期,南京大学苏州校区师生代表到访上海合合信息科技股份有限公司(以下简称“合合信息”,股票代码:SH688615)。此次活动设置了展厅讲解、技术交流、模拟面试等多个体验环节,旨在增强学生对人工智能及商业大数据技术在实际应用中的理解和认识,引导学生系...
封面图

一键擦除手写笔迹,试试这款省时省力的学习利器

11 月 25 日
阅读 2 分钟
99
凡是给小朋友辅导过功课,或是自己有过考证经验的朋友,想必都对成沓成堆的书本、习题册、试卷、资料不太陌生。尽管电子化办公已逐渐走向成熟,“笔头”和“案卷”仍然是大家成长过程中必经的一环。与之相伴的,是涂改得花花绿绿、覆满字迹的纸页。当作业和试卷批改完,需要整理错题、二次利用试卷的时候,问题来了:充满涂...
封面图

合合信息线下技术交流日报名启动!超多福利等你来领!

11 月 21 日
阅读 1 分钟
107
快到年终啦,合合信息打算和上海的新老朋友进行一场零距离聚会!我们在上海1927鲁迅与内山纪念书局精心策划了一场技术交流见面会,活动现场可以体验好玩的黑科技,在思想的交流与碰撞中结交新朋友,探索技术产品热门议题。参会还可带走敲多丰富的伴手礼~
封面图

文档数字化采集与智能处理:图像弯曲矫正技术概述

11 月 13 日
阅读 3 分钟
137
由于电子文档更容易存档、编辑、签名和共享的特点,文档电子化的趋势逐年显著,而随着高质量摄像头在手机等移动设备上的普及,利用移动设备对文档进行数字化采集已经非常普遍。移动设备让每一位使用者能够便捷采集文档图像,不过,这也使原始文档图像的情况变得复杂多变:页面弯曲、阴影遮挡、摩尔纹、图片模糊、字迹不...
封面图

TextIn ParseX文档解析SDK工具新增Java版本

11 月 6 日
阅读 6 分钟
133
TextIn ParseX通用文档解析是一款大模型友好的解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。此前,为了让用户获得文档解析引擎返回的丰富版面元素,我们推出了一系列的sdk函数(+link),包括目录树、公式、表格、图片、全文m...
封面图

单月30k+ Downloads!一款头部Embedding开源模型

10 月 23 日
阅读 4 分钟
286
在数字化转型的浪潮中,文本数据的处理和分析成为了各行各业关注的焦点。如何将人类阅读的文本转换为机器可理解的形式,并且能够准确地召回和提取这些转换结果,成为了提升我们工作效率和体验的关键。无论是从社交媒体中提取情感倾向,还是对大量文档进行内容相似性分析,或是在复杂的对话系统中实现精准的语义理解,文...
封面图

AIGC时代如何打击图片造假诈骗?合合信息文档篡改检测有妙招

10 月 22 日
阅读 2 分钟
320
近日,第七届中国模式识别与计算机视觉大会(简称“PRCV 2024”)在乌鲁木齐举办。大会由中国自动化学会(CAA)、中国图象图形学学会(CSIG)、中国人工智能学会(CAAI)和中国计算机学会(CCF)联合主办,新疆大学承办。作为模式识别和计算机视觉领域学术盛会,PRCV 2024吸引了众多国内外科研工作者及行业从业者参与,分...
封面图

做好个人信息保护“守门员”,合合信息入选首批PIA典型案例集

10 月 18 日
阅读 1 分钟
216
信息风险是数字时代出现的新型风险之一,人工智能等技术在便利人们生活的同时,也潜藏着个人信息泄露、滥用的隐患。为了保障个人信息安全,维护公民在网络空间的合法权益,近期,中国网络安全产业联盟数据安全工作委员会(简称“CCIA数安委”)组织编制了《个人信息保护影响评估(PIA)典型案例集》(简称“《PIA典型案例集...
封面图

复旦大学全球供应链研究中心揭牌,合合信息共话大数据赋能

10 月 17 日
阅读 1 分钟
163
10月13日,复旦大学全球供应链研究中心(以下简称“中心”)揭牌仪式在复旦大学管理学院政立院区隆重举行。我国的供应链体系庞大复杂,在百年未有之大变局下,保障产业链供应链安全已成为我国的重要战略目标。中心的设立旨在回应国家战略需求,推动全球供应链的科学研究和实践创新。复旦大学副校长陈志敏,国家自然科学基...
封面图

用户的声音| 出色的表格解析能力!TextIn文档解析助力金融信息化企业数据底座建设

10 月 16 日
阅读 3 分钟
220
最近,合小研收到了一些重要的用户反馈——它们来自各个行业领域的先锋用户,“大模型+”的前沿探索者。对AI从业者来说,今年诺贝尔奖的公布像一剂强心针,调动起了大家的热情,在世界范围内更广泛地看见AI的无限可能性。TextIn团队和我们的用户都是其中的一员。我们探讨各自的赛道和前进的方向,并在不同的领域注入AI的力量...
封面图

启信宝数据产业报告:我国数据产业蓬勃发展,产业景气度向好

10 月 12 日
阅读 2 分钟
279
近年来,随着数据战略地位的显著提升,数据产业在全球范围内迎来了前所未有的发展机遇。近日,合合信息旗下启信宝发布了《数据产业全景——关键指标分析与趋势洞察》报告,对我国数据产业蓬勃发展的态势进行了系统性地解析,基于产业链视角,深入剖析了数据产业的上中下游产业链,并通过产业的指标统计分析,为行业观察者...
封面图

PDF解析+RAG,手把手教你在Coze搭建个人知识库!

10 月 11 日
阅读 3 分钟
795
在这个信息爆炸的时代,搭建个人知识库就像是拥有了一个超级智能的“外脑”。 它不仅能帮你储存知识,还能在你需要的时候迅速地调取信息,提高知识的使用效率。 此外,个人知识库还能够帮助我们系统化整理知识、融会贯通,将零散的信息整合成有条理的知识体系,省去人工梳理消耗的时间精力。它可以充当优秀“智库”的角色——...
封面图

OCR+PDF解析配套前端工具开源详解!

10 月 10 日
阅读 2 分钟
385
面对日常生活和工作中常见的OCR识别、PDF解析、翻译、校对等场景,配套的可视化工具能够极大地提升我们的使用体验和工作效率。通过可视化界面,我们可以直观地看到文本识别、解析和翻译的结果,便捷评估产品效果。今天来跟大家分享一个非常棒的开源项目——TextIn ParseX-Frontend,帮助我们轻松搭建优秀的前端可视化界面...
封面图

PS技术vs篡改检测,P图“照妖镜”实力如何?

9 月 30 日
阅读 3 分钟
439
如何判断一张图片有没有被P过?社媒上的美颜照片尚属小事,但如果身份证、护照、学历证明这些重要文件和图片也能通过PS神技篡改,问题就大了。于是,江湖流传几款“鉴P技巧”,其中受到广泛肯定的主要有两种:检查图片中的异常区域如果一张图片被PS修改过,那么图片中可能会存在一些异常区域,如颜色、光线、透视关系等方...
封面图

助力园区数字化转型,合合信息市北高新园区打造“一企一画像”个性化服务

9 月 18 日
阅读 1 分钟
258
在数字化时代的浪潮中,产业园区的数字化转型已成为推动经济发展、提升管理效率和增强竞争力的关键因素。上海市市北高新技术服务业园区(以下简称“市北高新园区”)携手合合信息旗下启信产业大脑™推出“一企一画像”创新平台,在国内率先探索产业园区数字化转型发展新路径。该平台展现了数字技术赋能园区管理的巨大潜力。目...
封面图

AI假图检测:Deepfake层出不穷,怎么才能“有图有真相”?

9 月 12 日
阅读 2 分钟
589
随着AIGC技术的迅猛发展,互联网上涌现出各种逼真的篡改照片和视频。“有图有真相”已经成为历史。而证件、票据、账单、流水等文件P图这些更为常见的伪造活动,也在AI技术的加持下如虎添翼,成为不少企业与机构的头疼难题。其中,在我们的日常生活里,影像资料广为流传的名人是典型重灾区,新技术也成为诈骗犯手中的利器。...
封面图

论文解读 -TongGu

9 月 9 日
阅读 7 分钟
205
一、简要介绍文言文是通往中国古代丰富遗产和智慧的门户,但其复杂性给大多数没有专业知识的现代人构成了巨大的理解障碍。虽然大型语言模型(LLM)在自然语言处理(NLP)方面显示出了显著的能力,但它们在文言文理解(CCU)方面存在困难,特别是在对数据的要求和知识密集型的任务方面。为了应对这一困境,论文提出了Tong...
封面图

TextIn ParseX:助力开发者解析版面元素信息

9 月 5 日
阅读 6 分钟
318
TextIn ParseX通用文档解析是一款大模型友好的解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。产品特点支持多种扫描内容:能良好处理各类图片与扫描文档,包括手机照片、截屏等内容。支持多种语言:支持简体中文/繁体中文/英文/...
封面图

合合信息启信宝参编国内首份《数据产业图谱(2024)》

9 月 3 日
阅读 2 分钟
271
​ 近日,在2024中国国际大数据产业博览会上,北京交通大学张向宏教授正式发布了国内首部《数据产业图谱(2024)》(以下简称“图谱”)。该图谱由北京交通大学牵头,联合清华大学、北京大学、中国软件评测中心、华为、合合信息等11家单位共同参与构建。
封面图

AI赋能新质生产力培育,合合信息登上《人民日报》

9 月 2 日
阅读 2 分钟
233
古籍数字化保护是一项极具挑战性的、规模庞大的任务,需要解决看清古籍、理解古籍、修复古籍等系列技术难题。2024年世界人工智能大会上,合合信息古籍修复项目通过AIGC技术对损毁的“敦煌遗书”进行字形、颜色、背景修复,吸引了全球各地文化机构及参观者的关注。
封面图

数博会聚焦:合合信息启信宝践行数据创新应用

8 月 30 日
阅读 2 分钟
259
8月28日,2024中国国际大数据产业博览会在贵阳开幕。会议期间,国家数据局局长刘烈宏主持召开企业家座谈会,上海合合信息科技股份有限公司董事长镇立新受邀参加。
封面图

图像处理中的对抗性研究:浅谈水印去除技术

8 月 29 日
阅读 7 分钟
353
不论是在社交媒体平台还是各类工作学习资料,大大小小的图像和文件水印是我们习以为常的附赠产物,在图像上叠加可见水印为解决版权问题提供了一种强有力的手段,它被用于在互联网共享时标识和保护图像版权。
封面图

A股迎来中报季,合合信息文档解析技术辅助大模型深度解读财报

8 月 28 日
阅读 2 分钟
229
财务报告是公众和投资者了解企业经营状况的主要信源之一。步入8月中下旬,上市公司进入了中报披露高峰期。据东方财富Choice数据统计,截至8月14日数据,A股有超过1715只个股公布了2024年半年度业绩预告,海量的财报文件对于金融行业从业者而言,无疑是巨大的工作量。
封面图

巧用PDF转Markdown插件,在扣子(Coze)手搓一个有趣好玩的AI Bot

8 月 22 日
阅读 3 分钟
346
近期,TextIn团队开发的PDF转Markdown插件已经上架Coze平台。短短的时间内,已经有不少朋友愉快地和我们的工具开始玩耍。今天我们抛砖引玉,介(an)绍(li)几种PDF转Markdown插件的有趣玩法!1 专属翻译官外语文献翻译难?小语种阅读不便?PDF文件只能手动复制、逐段翻译?在学术领域和工作中,我们或多或少地被这些问...
封面图