单月30k+ Downloads!一款头部Embedding开源模型

10 月 23 日
阅读 4 分钟
138
在数字化转型的浪潮中,文本数据的处理和分析成为了各行各业关注的焦点。如何将人类阅读的文本转换为机器可理解的形式,并且能够准确地召回和提取这些转换结果,成为了提升我们工作效率和体验的关键。无论是从社交媒体中提取情感倾向,还是对大量文档进行内容相似性分析,或是在复杂的对话系统中实现精准的语义理解,文...
封面图

AIGC时代如何打击图片造假诈骗?合合信息文档篡改检测有妙招

10 月 22 日
阅读 2 分钟
140
近日,第七届中国模式识别与计算机视觉大会(简称“PRCV 2024”)在乌鲁木齐举办。大会由中国自动化学会(CAA)、中国图象图形学学会(CSIG)、中国人工智能学会(CAAI)和中国计算机学会(CCF)联合主办,新疆大学承办。作为模式识别和计算机视觉领域学术盛会,PRCV 2024吸引了众多国内外科研工作者及行业从业者参与,分...
封面图

做好个人信息保护“守门员”,合合信息入选首批PIA典型案例集

10 月 18 日
阅读 1 分钟
95
信息风险是数字时代出现的新型风险之一,人工智能等技术在便利人们生活的同时,也潜藏着个人信息泄露、滥用的隐患。为了保障个人信息安全,维护公民在网络空间的合法权益,近期,中国网络安全产业联盟数据安全工作委员会(简称“CCIA数安委”)组织编制了《个人信息保护影响评估(PIA)典型案例集》(简称“《PIA典型案例集...
封面图

复旦大学全球供应链研究中心揭牌,合合信息共话大数据赋能

10 月 17 日
阅读 1 分钟
93
10月13日,复旦大学全球供应链研究中心(以下简称“中心”)揭牌仪式在复旦大学管理学院政立院区隆重举行。我国的供应链体系庞大复杂,在百年未有之大变局下,保障产业链供应链安全已成为我国的重要战略目标。中心的设立旨在回应国家战略需求,推动全球供应链的科学研究和实践创新。复旦大学副校长陈志敏,国家自然科学基...
封面图

用户的声音| 出色的表格解析能力!TextIn文档解析助力金融信息化企业数据底座建设

10 月 16 日
阅读 3 分钟
116
最近,合小研收到了一些重要的用户反馈——它们来自各个行业领域的先锋用户,“大模型+”的前沿探索者。对AI从业者来说,今年诺贝尔奖的公布像一剂强心针,调动起了大家的热情,在世界范围内更广泛地看见AI的无限可能性。TextIn团队和我们的用户都是其中的一员。我们探讨各自的赛道和前进的方向,并在不同的领域注入AI的力量...
封面图

启信宝数据产业报告:我国数据产业蓬勃发展,产业景气度向好

10 月 12 日
阅读 2 分钟
157
近年来,随着数据战略地位的显著提升,数据产业在全球范围内迎来了前所未有的发展机遇。近日,合合信息旗下启信宝发布了《数据产业全景——关键指标分析与趋势洞察》报告,对我国数据产业蓬勃发展的态势进行了系统性地解析,基于产业链视角,深入剖析了数据产业的上中下游产业链,并通过产业的指标统计分析,为行业观察者...
封面图

PDF解析+RAG,手把手教你在Coze搭建个人知识库!

10 月 11 日
阅读 3 分钟
363
在这个信息爆炸的时代,搭建个人知识库就像是拥有了一个超级智能的“外脑”。 它不仅能帮你储存知识,还能在你需要的时候迅速地调取信息,提高知识的使用效率。 此外,个人知识库还能够帮助我们系统化整理知识、融会贯通,将零散的信息整合成有条理的知识体系,省去人工梳理消耗的时间精力。它可以充当优秀“智库”的角色——...
封面图

OCR+PDF解析配套前端工具开源详解!

10 月 10 日
阅读 2 分钟
158
面对日常生活和工作中常见的OCR识别、PDF解析、翻译、校对等场景,配套的可视化工具能够极大地提升我们的使用体验和工作效率。通过可视化界面,我们可以直观地看到文本识别、解析和翻译的结果,便捷评估产品效果。今天来跟大家分享一个非常棒的开源项目——TextIn ParseX-Frontend,帮助我们轻松搭建优秀的前端可视化界面...
封面图

PS技术vs篡改检测,P图“照妖镜”实力如何?

9 月 30 日
阅读 3 分钟
270
如何判断一张图片有没有被P过?社媒上的美颜照片尚属小事,但如果身份证、护照、学历证明这些重要文件和图片也能通过PS神技篡改,问题就大了。于是,江湖流传几款“鉴P技巧”,其中受到广泛肯定的主要有两种:检查图片中的异常区域如果一张图片被PS修改过,那么图片中可能会存在一些异常区域,如颜色、光线、透视关系等方...
封面图

中国信通院携手合合信息发布《文本图像篡改检测系统技术要求》

9 月 20 日
阅读 2 分钟
88
Deepfake(深度伪造)技术野蛮生长,引发了一系列负面后果。在韩国通讯软件Telegram上,某私密聊天室成员利用女性照片非法合成色情照片和视频,影响极为恶劣。除了普通的受害者,知名人士也难以逃脱图像伪造的“魔爪”,某视频网站上,由AI合成的马斯克等名人为虚假投资做背书的视频泛滥成灾。不法分子利用人工智能技术兴...
封面图

助力园区数字化转型,合合信息市北高新园区打造“一企一画像”个性化服务

9 月 18 日
阅读 1 分钟
117
在数字化时代的浪潮中,产业园区的数字化转型已成为推动经济发展、提升管理效率和增强竞争力的关键因素。上海市市北高新技术服务业园区(以下简称“市北高新园区”)携手合合信息旗下启信产业大脑™推出“一企一画像”创新平台,在国内率先探索产业园区数字化转型发展新路径。该平台展现了数字技术赋能园区管理的巨大潜力。目...
封面图

AI假图检测:Deepfake层出不穷,怎么才能“有图有真相”?

9 月 12 日
阅读 2 分钟
304
随着AIGC技术的迅猛发展,互联网上涌现出各种逼真的篡改照片和视频。“有图有真相”已经成为历史。而证件、票据、账单、流水等文件P图这些更为常见的伪造活动,也在AI技术的加持下如虎添翼,成为不少企业与机构的头疼难题。其中,在我们的日常生活里,影像资料广为流传的名人是典型重灾区,新技术也成为诈骗犯手中的利器。...
封面图

论文解读 -TongGu

9 月 9 日
阅读 7 分钟
88
一、简要介绍文言文是通往中国古代丰富遗产和智慧的门户,但其复杂性给大多数没有专业知识的现代人构成了巨大的理解障碍。虽然大型语言模型(LLM)在自然语言处理(NLP)方面显示出了显著的能力,但它们在文言文理解(CCU)方面存在困难,特别是在对数据的要求和知识密集型的任务方面。为了应对这一困境,论文提出了Tong...
封面图

TextIn ParseX:助力开发者解析版面元素信息

9 月 5 日
阅读 6 分钟
157
TextIn ParseX通用文档解析是一款大模型友好的解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。产品特点支持多种扫描内容:能良好处理各类图片与扫描文档,包括手机照片、截屏等内容。支持多种语言:支持简体中文/繁体中文/英文/...
封面图

合合信息启信宝参编国内首份《数据产业图谱(2024)》

9 月 3 日
阅读 2 分钟
142
​ 近日,在2024中国国际大数据产业博览会上,北京交通大学张向宏教授正式发布了国内首部《数据产业图谱(2024)》(以下简称“图谱”)。该图谱由北京交通大学牵头,联合清华大学、北京大学、中国软件评测中心、华为、合合信息等11家单位共同参与构建。
封面图

AI赋能新质生产力培育,合合信息登上《人民日报》

9 月 2 日
阅读 2 分钟
151
古籍数字化保护是一项极具挑战性的、规模庞大的任务,需要解决看清古籍、理解古籍、修复古籍等系列技术难题。2024年世界人工智能大会上,合合信息古籍修复项目通过AIGC技术对损毁的“敦煌遗书”进行字形、颜色、背景修复,吸引了全球各地文化机构及参观者的关注。
封面图

数博会聚焦:合合信息启信宝践行数据创新应用

8 月 30 日
阅读 2 分钟
159
8月28日,2024中国国际大数据产业博览会在贵阳开幕。会议期间,国家数据局局长刘烈宏主持召开企业家座谈会,上海合合信息科技股份有限公司董事长镇立新受邀参加。
封面图

图像处理中的对抗性研究:浅谈水印去除技术

8 月 29 日
阅读 7 分钟
164
不论是在社交媒体平台还是各类工作学习资料,大大小小的图像和文件水印是我们习以为常的附赠产物,在图像上叠加可见水印为解决版权问题提供了一种强有力的手段,它被用于在互联网共享时标识和保护图像版权。
封面图

A股迎来中报季,合合信息文档解析技术辅助大模型深度解读财报

8 月 28 日
阅读 2 分钟
126
财务报告是公众和投资者了解企业经营状况的主要信源之一。步入8月中下旬,上市公司进入了中报披露高峰期。据东方财富Choice数据统计,截至8月14日数据,A股有超过1715只个股公布了2024年半年度业绩预告,海量的财报文件对于金融行业从业者而言,无疑是巨大的工作量。
封面图

巧用PDF转Markdown插件,在扣子(Coze)手搓一个有趣好玩的AI Bot

8 月 22 日
阅读 3 分钟
162
近期,TextIn团队开发的PDF转Markdown插件已经上架Coze平台。短短的时间内,已经有不少朋友愉快地和我们的工具开始玩耍。今天我们抛砖引玉,介(an)绍(li)几种PDF转Markdown插件的有趣玩法!1 专属翻译官外语文献翻译难?小语种阅读不便?PDF文件只能手动复制、逐段翻译?在学术领域和工作中,我们或多或少地被这些问...
封面图

沪港数据竞赛圆满落幕,启信宝独揽双重大奖

8 月 21 日
阅读 2 分钟
102
为进一步加大沪港两地协同效应,实现城市科技创新发展愿景,沪港两地正围绕数据流通和应用展开多维度的合作。近期,备受瞩目的“数据要素x沪港合作开放数据竞赛2024”颁奖典礼暨“数据要素x”大赛上海分赛出征仪式圆满举行。上海市数据局副局长、上海市大数据中心主任邵军,香港特别行政区政府数字政策办公室数字政策专员黄...
封面图

Coze插件发布!PDF转Markdown功能便捷集成,打造你的专属智能体

8 月 19 日
阅读 2 分钟
158
在扣子搜索“pdf转markdown”,或在Coze平台搜索“pdf2markdown”,即可找到插件,在你的专属智能体中便捷使用文档解析功能。如果想测试解析插件在你需要的场景下表现如何,可以直接对话bot,试用pdf转markdown效果。同时,TextIn团队提供了简单的Workflow示例供参考,有搭建工作流需要的朋友也可直接复制使用。现在,“pdf转...
封面图

变“金点子”为“好应用”,合合信息智能文档处理技术助力大学生探索AI创新边界

8 月 14 日
阅读 2 分钟
123
谈“糖”色变、追求养生、低卡生活……这些热门词汇频频在社交媒体上掀起讨论热潮。有这样一批年轻人不但捕捉到了这些词汇背后真实的用户需求,并且正在利用AI技术寻找解决之道。
封面图

TextIn文档树引擎,助力RAG知识库问答检索召回能力提升

8 月 14 日
阅读 3 分钟
101
TextIn团队的文档解析测评工具Markdown Tester在Github发布后,我们陆续与大家探讨了目前业内对PDF解析工作的评判标准与我们各项测评指标的设计原理,包括段落、表格、公式、阅读顺序等维度。今天,我们将介绍另一项重要指标,也是业内面对的一项普遍性难点:标题识别,以及它如何影响数据清洗与RAG系统开发。我们依旧从...
封面图

商业银行国际结算规模创新高,合合信息AI助力金融行业智能处理多版式文档

8 月 2 日
阅读 2 分钟
148
随着我国外贸新业态的快速增长,银行国际结算业务在服务实体经济发展、促进贸易投资便利化进程中发挥了越来越重要的作用。根据中国银行业协会近日发布的《中国贸易金融行业发展报告(2023—2024)》,2023年我国主要商业银行国际结算规模再创历史新高,达到11.57万亿美元,较上一年增幅4.4%。中国商业银行在跨境供应链金...
封面图

PDF解析,还能做得更好

8 月 1 日
阅读 2 分钟
284
随着大模型文档智能应用逐渐步入正轨,文档解析类产品成为其中重要的一环。文档解析工具能够“唤醒”沉睡在PDF文件中的知识,将其转化为机器能够识别、读取的信息,将可用数据从txt、csv格式扩展到大批量的电子档、扫描档文件,为数据处理、大模型训练、RAG系统开发提供优质的“燃料”。
封面图

超13万律师使用的工具,启信宝推出“司法大数据”功能

7 月 30 日
阅读 2 分钟
127
合合信息旗下的启信宝,作为行业领先的商业查询APP,依托其3亿企业及机构的实时动态数据,涵盖工商、股权、司法、知识产权等多维度信息,推出了“司法大数据”功能。
封面图

【合合TextIn】智能文档处理系列—电子文档解析技术全格式解析

4 月 15 日
阅读 13 分钟
355
在当今的数字化时代,电子文档已成为信息存储和交流的基石。从简单的文本文件到复杂的演示文档,各种格式的电子文档承载着丰富的知识与信息,支撑着教育、科研、商业和日常生活的各个方面。随着信息量的爆炸性增长,如何高效、准确地处理和分析这些电子文档,已经成为信息技术领域面临的一大挑战。在这一背景下,电子文...
封面图

【论文解读】大模型事实性调查(下)

4 月 10 日
阅读 22 分钟
195
[链接]上期我们分享了《大模型事实性调查》论文解读的前半部分,这一期为大家带来后面的内容,欢迎阅读交流。四、事实性分析在前面的第3节中,论文提供了与评估事实性相关的定量统计数据。在本节中,论文将更深入地探讨在大型语言模型中影响事实性的潜在机制。4.1事实性分析本小节深入研究了关于llm的事实性的有趣分析,...
封面图

入选人民网2023普惠金融优秀案例,合合信息旗下启信宝赋能银行对公信贷数字化转型

1 月 12 日
阅读 2 分钟
263
普惠金融承载着改善民生、促进实体经济发展的重要职责,近十年来,普惠金融发展取得了长足进步,多层次普惠金融供给格局逐步确立。银行作为金融体系的重要组成部分,高效工作是构建普惠金融体系的重要推动力。
封面图