搜索是过拟合的生成;生成是欠拟合的搜索

2022-12-13
阅读 3 分钟
560
神经搜索的最大竞争者可能来自于一种甚至不需要向量嵌入作为中间表示的技术 —— 一种直接返回你想要的结果的端到端技术。"那么,谁将是神经搜索最大的竞争对手?"本文作者:肖涵,Jina AI 创始人兼 CEO谁将是神经搜索最大的竞争对手?就在 2019 年的圣诞节前几天,我坐在一个狭小的会议室里,周围是我们种子风投公司的投...
封面图

DocArray 0.20.0 发布!新增 Milvus 后端支持,更好地嵌套数据搜索,新增 RGB-D 格式的 3D 模型表示

2022-12-13
阅读 3 分钟
584
DocArray 是一个用于处理、传输和存储多模态数据的 Python 工具包。DocArray 提供便捷的多模态数据处理功能,具备基于 Protobuf 提供高性能的网络传输性能,同时也为多种向量存储方案提供统一的 API 接口。
封面图

J-Tech Talk 活动预告|近似最近邻搜索算法 HNSW 的改进与优化

2022-10-25
阅读 1 分钟
719
J-Tech Talk由 Jina AI 社区为大家带来的技术分享工程师们将深入细节地讲解具体的问题分享 Jina AI 在开发过程中所积累的经验针对海量向量数据的搜索,无论是工业界还是学术界都做了大量的研究。由于精确的向量搜索在海量数据的场景下搜索时间过长,所以目前的常见做法,是在向量上建立近似搜索索引。学术上我们称之为近...
封面图

CLIP-as-service 0.8.0 版本发布:新增支持大型 ONNX 模型文件

2022-10-25
阅读 2 分钟
998
​ ​CLIP-as-service 是一种用于编码图像和文本的低延迟、高可扩展性服务。它可以作为微服务轻松集成到神经搜索解决方案中。💡 CLIP-as-service 0.8.0 现已正式发布!本次更新包含 3 个新增功能、1 个性能改进、1 个文档改进。🆕 新功能新增支持大型 ONNX 模型文件 (#828)单个 ONNX 模型文件有2GB大小的限制,更大的 ONNX ...
封面图

1024 分享|如何打造围绕开源理念的团队工程师文化

2022-10-25
阅读 4 分钟
485
10 月 23 号,在 CCF CED 2022 大会上,Jina AI 联合创始人兼 CTO 王楠博士代表 Jina AI 团队分享了《从神经搜索到多模态应用:和全球团队一起打造优秀的开源工具》,与全国线上线下的工程师们交流“工程师文化”。
封面图

开发者嘉年华|博客马拉松挑战,记录学习进程,分享你的知识!

2022-10-12
阅读 3 分钟
532
在坚持开放协作精神,具备全球影响力的 Jina AI 开源社区,每天都有来自世界各地的开发者来到这里,因为技术产生联结,因为联结产生共创。在 10 月,Jina AI 联合太极图形、OpenMLDB、OpenPPL、电鸭社区、Ladies Who Tech、云启资本等合作伙伴,举办围绕开发者文化的 1024 嘉年华活动,一起做有意思的活动,发现有意思的...
封面图

技术分享预告|DocArray x Redis 比快更快的向量搜索

2022-10-11
阅读 3 分钟
995
北京时间 10 月 11 号,本周二晚 10 点,小燕将在 Zoom 平台,面向全球开发者,进行全英文技术分享《Lightning fast Vector Search with DocArray and Redis》
封面图

开发者 J 有意思|1024 开发者嘉年华活动正式启幕

2022-10-10
阅读 3 分钟
784
在坚持开放协作精神,具备全球影响力的 Jina AI 开源社区,每天都有来自世界各地的开发者来到这里,因为技术产生联结,因为联结产生共创。在 10 月,Jina AI 联合太极图形、OpenMLDB、OpenPPL、电鸭社区、LadiesWhoTech、云启资本等合作伙伴,举办围绕开发者文化的 1024 嘉年华活动,一起做有意思的活动,发现有意思的开...
封面图

中关村归国留学人员联创中心揭牌仪式,Jina AI 受邀出席活动

2022-09-26
阅读 2 分钟
514
2022 年 9 月 25 日上午,中关村归国留学人员联创中心揭牌仪式在中关村创业大街顺利举行,Jina AI 联合创始人兼 COO 何烜彬现场进行企业项目分享,并面向现场各海外高校校友代表发出人才招募邀请。
封面图

一文读懂Jina生态的Dataclass

2022-09-21
阅读 9 分钟
567
Jina AI 始终致力于构建简单、易用、全托管的最佳工具,来帮助开发者快速搭建多模态、跨模态应用。而作为工程师,我们一直在努力开发新的功能和 API,以满足用户对多模态数据处理的诸多场景需要。
封面图

J-Tech & 开源之夏|什么是比快更快的向量搜索

2022-09-19
阅读 1 分钟
890
J-Tech Talk由 Jina AI 社区为大家带来的技术分享工程师们将深入细节地讲解具体的问题分享 Jina AI 在开发过程中所积累的经验
封面图

嵌套数据搜索还能这么玩!

2022-09-14
阅读 2 分钟
599
向量数据库固然很好,它让我们可以根据相似性快速地检索向量。但向量数据库考虑的是向量,而我们要考虑的是数据,当数据很简单时,这两者几乎是等价的,每个向量代表一个数据点,而每个数据点都与一个向量相关。但是,现实世界的数据往往都是复杂的,多层级的,各式各样的...往往嵌套的数据结构才能更好地表达数据内容和...
封面图

线下活动|来开源集市和Jina AI面对面say hi!

2022-09-02
阅读 2 分钟
685
9月3号(本周六)14:00,Jina AI与其余十个开源组织联合举办的开源集市将在北京中关村创业大街12号楼5层举办。欢迎广大的开源爱好者来赶集!

如何用DockArray的子索引实现嵌套数据的搜索

2022-08-31
阅读 2 分钟
715
在数据很简单的时候,每个向量都代表一个数据点,我们轻松地存储到任意向量数据库,基于相似度去检索 embedding。但现实世界的数据总是很混乱的,多模态数据有着各式各样的层次嵌套结构。
封面图

活动回顾|8月中文社区面对面

2022-08-22
阅读 1 分钟
646
​ 导语8 月 18 号 Jina AI 举办了「中文社区面对面」活动,本文为分享回顾。CLIP-as-service 比 CLIP 多了哪些更好用的功能?Finetuner 的介绍和示例社区明星项目的开发体验和心得没来得及参与本次中文社区面对面活动的小伙伴,观看下方视频,关注 Jina AI 公众号,后台回复【OH】,获取完整 PPT!CLIP-as-serviceCLIP-a...
封面图

使用Karpenter通过时间切片管理GPU节点

2022-08-16
阅读 8 分钟
499
在机器学习领域,我们经常使用 GPU 来加速计算工作负载。但现在的企业和开发者都更热衷于“上云”。有了云计算,使用云服务,用多少付多少,也就能降低运营成本了。
封面图

系列教程 | 用Jina搭建PDF搜索引擎Part 3

2022-06-08
阅读 2 分钟
794
前两篇文章讲解了PDF搜索的操作方法,本期推送将讲解构建PDF搜索引擎的经验和教训。之前我们以一个案例为代表讲述的PDF搜索引擎的构建,并不能包揽全部PDF搜索的种类和情况。我们的初始版本如下:[链接]它旨在:01具有通用性,并能很好地处理任何类型的PDF数据(强调工作良好 - 仅仅返回结果并不意味着它是好的 - 它需要...

系列教程 | 用Jina搭建PDF搜索引擎Part 1

2022-05-26
阅读 7 分钟
1.2k
随着神经搜索 (Neural Search) 技术的普及,越来越多开发者,开始尝试用 Jina 解决非结构化数据的索引和搜索问题。本系列教程中,我们将演示 如何用 Jina 搭建一个PDF 搜索引擎。
封面图

轻松入门,30min 搭建一个「淘立拍」应用

2022-05-25
阅读 1 分钟
771
人人皆可「以图搜图」。淘立拍大家肯定都不陌生,用手机拍下喜欢的衣服,就可以搜到对应商品的链接。如果没有丰富的工程开发、AI 模型训练以及 DevOps 经验,个人开发者如何开发一个类似「淘立拍」的以图搜图的系统呢?现在,无需耗费大量人力,只需借助 Jina NOW,轻轻松松就可以创建一个以图搜图的系统了。了解更多 Ji...

10 分钟打造文本搜索引擎,附详细教程

2022-05-20
阅读 2 分钟
1.2k
神经搜索 (Neural Search) 是指利用深度神经网络,搜索图像、视频、文本等各种非结构化数据。与传统基于文本标签的搜索相比,神经搜索更加全面和有针对性。

Jina AI 蝉联 2022 CB Insights 全球 AI 百强

2022-05-18
阅读 2 分钟
983
北京时间 5 月 17 日晚,CB Insights 官方发布 2022 AI 100 年度全球榜单,从 7000 多家申请公司中,筛选出了 100 家最具创新影响力的 AI 商业公司,入选率不足 1.5%。

线上分享 | 以淘立拍为例,深度学习下的搜索召回技术

2022-05-18
阅读 1 分钟
776
打开淘宝,对准目标物品扫一扫,即可快速搜索查找类似商品;对准题目拍照搜索,片刻就能搜到解题思路;播放歌曲片段,听歌识曲 APP 十几秒就能识别出对应歌曲……

开源之夏 2022 | 申请 Jina AI 社区任务,成为业界领先的神经搜索开源项目贡献者!

2022-05-12
阅读 3 分钟
930
开源之夏是由「开源软件供应链点亮计划」发起,并长期支持的一项暑期开源活动。旨在鼓励全球在校学生,积极参与开源软件的开发维护,促进优秀开源软件社区的蓬勃发展,培养和发掘更多优秀的开发者。

Jina AI x 矩池云 | 神经搜索引擎,一键构建

2022-05-12
阅读 7 分钟
1.2k
近 5 年以来,图片、视频、语音等非结构化数据的数量,出现了爆发式增长。随着深度学习技术的不断升级,深度表征学习、迁移学习、对比学习等技术日益成熟, 非结构化数据的搜索也逐渐形成可能。

社区项目分享 | 用 Jina 搭建一个电影推荐系统

2022-05-06
阅读 3 分钟
1.3k
我们每天都在接触推荐系统,短视频、电商、外卖、演出、广告……今天,我们将演示 Jina AI 社区用户 Achintya 的项目,他用 Jina 搭建了一个电影推荐系统。电影推荐系统原理概览在这个 Demo 中,作者将电影推荐转换成了文本搜索问题。系统将用户输入作为文本 query,并在数据库中搜索与查找类似电影。注:开始前需要向模型...
封面图

顺滑编程:一行代码解决多模态搜索问题

2022-04-28
阅读 3 分钟
943
​ 一提到神经搜索 (Neural Search) ,有些朋友难免会发怵,自己没有丰富的 AI 开发以及工程经验,能玩得转吗?别慌,今天我们将为大家介绍一个新产品--Jina NOW:只需一行代码即可创建和部署神经搜索解决方案。观看视频,Jina AI 首席工程师 Florian Hoenicke,5 分钟带你了解并实操 Jina NOW:[链接]​Jina NOW:一行代...
封面图

从 0 到 1,开发一个智能问答机器人

2022-04-25
阅读 5 分钟
1.3k
新冠爆发之初,人们对这种新型病毒充满疑问,本教程将以疫情相关的问答为应用场景,以普通 Chatbot 的交互形式为依托,最终实现用户在终端键入查询(问题)后,智能问答机器人可以输出相关的答案。
封面图

Jina Hub:一站式神经搜索系统组件分享平台

2022-04-18
阅读 4 分钟
1.5k
​ Hub 是 Jina 全家桶中非常重要的一个成员,本期推文我们将详细介绍 Hub 的相关内容。在过往推文中,我们介绍过:[高度适配深度学习任务的可扩展数据结构 DocArray]()[开源神经搜索框架 Jina]()[神经搜索系统结果调优工具 Finetuner]()[为文本和图像创建 SOTA 表征向量的 CLIP-as-service]()今天,我们将为大家介绍 Jin...

分享回顾 | 基于深度学习的神经语义搜索

2022-04-07
阅读 9 分钟
1.4k
​ 本文内容主要分为以下四部分:​神经搜索的背景及优势一、什么是神经搜索?​神经搜索 (Neural Search) 由 Jina AI 首创,可以理解为 Deep Learning for Search 的简称,是指借助深度学习技术,使用非结构化数据,搜索非结构数据。神经搜索包括两个重要部分:信息搜索及深度学习技术。1、神经搜索之信息搜索提到搜索,最...

BERT-as-service 时隔三年突然更新,这次连名儿都改了

2022-03-30
阅读 6 分钟
1.7k
2018 年 9 月,Google 一篇 BERT 模型相关论文引爆全网:该自然语言模型,在机器阅读理解顶级水平测试 SQuAD1.1 中,连破 11 项 NLP 测试记录,两个衡量指标全面超越人类。
封面图