Elasticsearch 对于分词 position 的巧妙设计(qbit)

12 月 19 日
阅读 3 分钟
65
前言本文对 ES 7.17 适用需要探讨的问题 {代码...} {代码...} 以下测试均使用 ES 内置的 simple 分词器试验过程直接查看分词结果 {代码...} 可以看到分词结果 position {代码...} 新建索引并写入数据创建 my_index 索引 {代码...} 写入数据 {代码...} 查看数据 {代码...} {代码...} 分词 position查看 name.text 的分词 ...

试试 Elasticsearch 的 unsigned_long(qbit)

12 月 12 日
阅读 1 分钟
111
前言本文在 Elasticsearch 7.17 下测试Elasticsearch 自 7.10 引入了 64 位无符号整数 unsigned_long,之前只有 long已知 long 的数据范围 {代码...} 已知 unsigned_long 的数据范围 {代码...} 试验创建索引 {代码...} 测试 LLL 字段,写入数据 18446744073709551615,即 2^64-1 {代码...} LLL 字段报错如下,超过了 lon...

http 压测工具(qbit)

11 月 26 日
阅读 1 分钟
246
前言记录常用的 http 压测工具JmeterGitHub 地址 [链接]Apache 老牌压测工具,图形界面版ab官方地址 [链接]Apache HTTP 服务器自带的一个性能测试工具,命令行工具heyGitHub 地址 [链接]一个由 Google 工程师 Martin Heinz(rakyll)使用 Go 语言开发的HTTP压力测试工具,主要用于对 Web 服务进行压力测试,可以作为 Apa...

Windows 下启动 gradio 信息: 用提供的模式无法找到文件。(qbit)

11 月 21 日
阅读 1 分钟
209
技术栈 {代码...} 启动 gradio 报如下信息 {代码...} 经排查,是因为 gradio 时调用 系统 where 命令去找 nodejs {代码...} 本文出自 qbit snap

Gradio/Streamlit 格式化 json(qbit)

11 月 21 日
阅读 2 分钟
292
前言技术栈 {代码...} Gradio 格式化 json示例代码 {代码...} 格式化前截图格式化后截图Streamlit 格式化 json示例代码 {代码...} 示例截图截至 Streamlit 1.40.1,Streamlit 似乎无法复用数据框输出内容相关阅读Gradio 官方文档:[链接]Streamlit 官方文档:[链接]四种 Gradio 界面本文出自 qbit snap

Elasticsearch 查看节点状态信息(qbit)

11 月 1 日
阅读 1 分钟
292
前言本文对 Elasticsearch 7.17 有效查看集群信息查看集群整体状态 {代码...} 查看节点信息查看所有节点的 热线程 {代码...} 查看单个节点的 热线程 {代码...} 查看所有节点的 线程池 {代码...} 查看单个节点的 线程池 {代码...} 查看所有节点的 task {代码...} 查看单个节点的 task {代码...} 节点 CPU 占用高<案例&...

Python AES 加密和解密(qbit)

10 月 28 日
阅读 3 分钟
280
前言AES 有多种加密模式,本文选取了最常用的 CBC 模式 {代码...} 技术栈 {代码...} 示例代码导入库 {代码...} PKCS7 填充与反填充 {代码...} 生成初始化向量 {代码...} 加密/解密 {代码...} 为了便于在线验证,示例中生成初始化向量采用了随机选取数字/小写字母/大写字母的方式输出结果 {代码...} 相关阅读cryptography...

Spark 写入 Elasticsearch 报错地址被占用(qbit)

10 月 24 日
阅读 3 分钟
266
技术栈 {代码...} 报错片段 {代码...} 下面 3 个是协调节点的地址 {代码...} 在 Spark 代码中调整以下写入参数,都没用 {代码...} 最后排查结果是多个索引的数据文件太多,在切换索引时,新绑定端口不够用,用 spark repartition 减少数据文件个数后问题得以解决。感觉很奇怪:看起来像是一个数据文件占用了一个端口,而...

ES 自定义分词匹配及同义词处理(qbit)

10 月 18 日
阅读 4 分钟
245
前言本文对 Elasticsearch 7.17 有效,分词器使用 ik_max_word设计思路 {代码...} GetLeafTermDSL叶子节点的 term 匹配流程图示例代码 {代码...} 自定义分词搜索整体外围调用 GetLeafTermDSL流程图示例代码 {代码...} 相关阅读用 pyparsing 3.x 将与或非逻辑表达式转换为Elasticsearch查询语句本文出自 qbit snap

Python elasticsearch.helpers.async_bulk 解读(qbit)

10 月 14 日
阅读 1 分钟
231
前言本文对 Elasticsearch 7.17 有效梳理 Elasticsearch Python 客户端的异步批量写入官方文档elasticsearch.helpers.async_bulk解读qbit 开始对 stats_only 和 raise_on_error 参数的用法有些迷惑下面是研究后的解读默认返回成功写入的数据条数和错误列表如果 stats_only 设置为 True,返回写入成功的条数和失败的条数r...

Python 调用 cypher 语句清空 neo4j 全部索引(qbit)

9 月 23 日
阅读 2 分钟
224
技术栈 {代码...} Python 脚本 {代码...} 后记如果代码运行卡住,检查数据库地址和账号密码。本文出自 qbit snap

AWS S3 删除过期目录(转载)

9 月 6 日
阅读 2 分钟
432
前言技术栈 {代码...} 对于 AWS S3 在 web 控制台点击显示版本才能展示的过期目录,直接在 web 控制台或者用普通的 aws cli 命令是删除不掉的AWS 中国区工程师为 qbit 提供了以下删除 AWS S3 过期目录的脚步代码脚本内容 {代码...} 本文出自 qbit snap

Cypher 查询包含某关键词的图(qbit)

8 月 28 日
阅读 1 分钟
320
前言本文对 neo4j 5.21.0 适用项目需求是查询哪些图包含指定 keyword,已知实现上用 label 作为图的标识查询得到所有图即得到所有 label {代码...} 查询单个图是否包含 keyword方式一查询节点 {代码...} 查询边 {代码...} 方式二查询非孤立节点和边 {代码...} 查询孤立节点 {代码...} 注意孤立节点的查询方式 {代码...} ...

怎样调整 Elasticsearch 的 should 加分(qbit)

8 月 23 日
阅读 3 分钟
248
前言本文对 Elasticsearch 7.17 适用Elasticsearch 权威指南说 {代码...} 以 qbit 当前认知来说,should 有两个功能 {代码...} 本文想试验,should 加分加多少,怎样控制加多少试验创建索引 {代码...} 写入测试数据 {代码...} must 查询 abstract,得到 1.47 分 {代码...} must 查询 title,得到 0.86 分must 查询 abstr...

用 NetworkX 展示 Elasticsearch 同义词文件(qbit)

8 月 20 日
阅读 2 分钟
287
前言NetworkX github: [链接]Elasticsearch solr 同义词格式: [链接]技术栈 {代码...} 同义词文件qbit_synonym.txt {代码...} 代码code {代码...} 可以切换自己需要的布局 {代码...} 结果控制台打印 {代码...} 图片展示本文出自 qbit snap

AWS EC2 上启用账号密码登录(qbit)

8 月 16 日
阅读 1 分钟
241
操作系统 AWS EC2 Ubuntu 22.04修改配置文件 /etc/ssh/sshd_config {代码...} 如果需要启用远程 root {代码...} 重启 sshd 服务生效 {代码...} 本文出自 qbit snap

fastapi streamingresponse 不能正常流式返回(qbit)

8 月 16 日
阅读 1 分钟
518
以 fastapi 为 web 框架,使用 langchain 调用大语言模型流式返回数据给web接口调用时,流式返回不能正常工作,只能整块返回 {代码...}

ES terms 聚合结果不精确示例

8 月 6 日
阅读 1 分钟
318
原文出处铭毅天下: Elasticsearch 聚合数据结果不精确,怎么破?示例

关于 Elasticsearch 同义词的困惑(qbit)

8 月 1 日
阅读 5 分钟
449
前言ES 版本 7.17同义词分词器 IKES 官方文档:Token graphs,里面没有 多词vs.多词 的示例分词器组成(出自:[链接])synonym_graph 为 TokenFilter: [链接]同义词困惑查询语句 {代码...} 输出结果 {代码...} 问题为什么 联合 的 positionLength 会由 1 变成 2 ? (已知 positionLength 为默认值 1 时不显示)为什么 ...

Flink 流处理 WordCount 输出到 jsonl(qbit)

6 月 21 日
阅读 8 分钟
484
前言技术栈 {代码...} 相关文档Flink DataStream API 编程指南: [链接]File Sink: [链接]示例代码 {代码...} 输出与输出输入文件内容 {代码...} 输出文件内容 {代码...} 项目配置文件 pom.xml {代码...} 本文出自 qbit snap

Flink 流批处理 WordCount(qbit)

6 月 14 日
阅读 6 分钟
588
前言技术栈 {代码...} WordCount 批处理官方文档:[链接]示例代码 {代码...} 运行结果 {代码...} WordCount 流处理官方文档:[链接]示例代码(滚动窗口) {代码...} 用 nc 创建服务端,并输入数据 {代码...} 运行结果 {代码...} pom.xml {代码...} 本文出自 qbit snap

Elasticsearch 8.x 重要变化(qbit)

5 月 24 日
阅读 2 分钟
745
前言本文记录的重要变化重要与否为 qbit 个人判断官方 Release notes:[链接]收费功能查看:Elastic Stack subscriptions回顾:向量搜索创新的时间线8.0 (2022-02-11)What’s new in 8.0默认启用安全特性(Security features)KNN 搜索 API 技术预览(NLP) {代码...} 减少 keyword、text字段的空间占用支持结合 PyTorch ...

Elasticsearch 用 pipeline 添加字段(qbit)

5 月 23 日
阅读 2 分钟
470
前言本文对 Elasticsearch 7.17 适用需要通过 reindex 给数据添加字段,查官方文档估摸 set 和 append 两种 processor 实现,试验之试验过程idx_1创建索引 idx_1 {代码...} idx_2运用 set 创建 pipeline {代码...} 创建索引 idx_2 {代码...} 查看索引 idx_2 {代码...} {代码...} idx_3运用 append 创建 pipeline {代码.....

Elasticsearch 字符串类型字段转整数类型字段(qbit)

5 月 22 日
阅读 1 分钟
490
ES 中要将字符串类型字段转整数类型字段,原来的想法是直接将新 mapping 中字段定义为整数,再 reindex,实践发现走不通,需要定义 pipeline 做转换才行

Python3 利用正则转化参数化表达式(qbit)

4 月 24 日
阅读 2 分钟
320
前言技术栈 {代码...} 案例测试代码 {代码...} 测试输出 {代码...} 相关资料库[链接][链接]文章pyparsing 学习(博客园)取代正则-使用pyparsing来定制自己的解析器(知乎)Pyparsing快速构建解释器 | 实战搜索查询语法(知乎)parsing logical expression with pyparsingPyparsing实战(知乎)用 pyparsing 3.x 将与或...

用 pyparsing 3.x 化简括号冗余的或非逻辑表达式(qbit)

4 月 24 日
阅读 2 分钟
311
前言技术栈 {代码...} 案例测试代码 {代码...} 测试输出 {代码...} 相关资料库[链接][链接][链接][链接]文章PyParsing 官方文档:[链接]pyparsing 学习(博客园)取代正则-使用pyparsing来定制自己的解析器(知乎)Pyparsing快速构建解释器 | 实战搜索查询语法(知乎)parsing logical expression with pyparsingPyparsi...

用 pyparsing 3.x 将与或非逻辑表达式转换为Elasticsearch查询语句(qbit)

4 月 23 日
阅读 4 分钟
335
前言技术栈 {代码...} 案例测试代码 {代码...} 测试输出 {代码...} 相关资料库[链接][链接][链接][链接]文章PyParsing 官方文档:[链接]pyparsing 学习(博客园)取代正则-使用pyparsing来定制自己的解析器(知乎)Pyparsing快速构建解释器 | 实战搜索查询语法(知乎)parsing logical expression with pyparsingPyparsi...

Python3 下利用 redis 对接口限速(qbit)

3 月 28 日
阅读 3 分钟
331
前言技术栈 {代码...} 利用 redis 的 zset 实现接口调用限速案例测试代码 {代码...} 结果输出 {代码...} 参考文献实现接口的限流各种算法本文出自 qbit snap

Elasticsearch nested 嵌套字段排序(qbit)

1 月 11 日
阅读 3 分钟
986
前言本文的例子来自铭毅天下,并得到了铭毅天下本人的指导本文内容对 Elasticsearch 7.17 适用示例多商品在不同分类下有不同的排名,取某个分类下的topN创建 mappings {代码...} 写入样例数据 {代码...} 铭毅天下 给的参考查询语句,用到了聚合 {代码...} 参考ES nested 字段排序官方示例不用聚合的查询语句 {代码...} ...

AWS Serverless PySpark 指定 Python 版本(qbit)

2023-12-22
阅读 7 分钟
562
官方建议用在 Amazon Linux 2 上编译安装 Python 环境,测试发现在 Ubuntu 上用 Miniconda 生成的虚拟环境也是可以的