举例说明三种类型的ssh隧道(qbit)

2022-08-11
阅读 2 分钟
1.8k
本地端口转发机器与网络状况 {代码...} 机器与网络状况示意图在开发机 Q 上执行以下命令创建隧道 {代码...} 在开发机 Q 上执行以下命令连接 MongoDB {代码...} 远程端口转发机器与网络状况 {代码...} 机器与网络状况示意图在主机 J 上开放 /etc/ssh/sshd_config 配置里面的 GatewayPorts,否则只能监听 localhost 在开发...

CentOS 6.9 升级 glibc 2.12 到 2.17(qbit)

2022-07-06
阅读 4 分钟
4k
由于种种原因,qbit 需要在 CentOS 6.9 上通过 Miniconda 安装 Python 3.8,发现 glibc 版本太旧装不上,于是试验升级了glibc

遍历 ES 节点校验分词(qbit)

2022-06-16
阅读 3 分钟
1.1k
前言技术栈 {代码...} hao 分词器:[链接]有时更新 ES 分词器或远程词典后,不确定每个节点是否都已更新到位,没找到直接的命令来校验,故写了一份 Python 脚本来做校验原理是利用 index.routing.allocation.include._ip 将索引分配到具体某个节点的分片上代码创建了 test_{nodeName} 的索引,测试完后手动删除 {代码......

ClickHouse 之 SummingMergeTree/AggregatingMergeTree 实现准实时看板(qbit)

2022-06-15
阅读 4 分钟
2.3k
前言本文测试环境 ClickHouse 版本为 22.3 LTSSummingMergeTree 官方文档:[链接]AggregatingMergeTree 官方文档:[链接]原理就是预聚合,可以把统计时扫表条数减少几个数量级。有点 flink 流式计算的味道。初始化测试数据生成创建库 {代码...} 创建表 {代码...} 插入数据 {代码...} 查看数据 {代码...} 查看每天的下载...

ClickHouse 分布式架构(qbit)

2022-06-13
阅读 1 分钟
2.2k
HDFS、Spark、HBase和Elasticsearch这类分布式系统,都采用了Master-Slave主从架构,有一个管控节点作为Leader统筹全局。而ClickHouse则采用Multi-Master多主架构,集群中的每个节点角色对等,客户端访问任意一个节点都能得到相同的效果。 这种多主的架构由许多优势,例如对等的的角色使系统架构变得更加简单,不用再区...

ClickHouse 数据表导出和导入(qbit)

2022-06-01
阅读 1 分钟
3.7k
前言本文对 ClickHouse 22.3 适用官方文档:Inserting Data from a File,是把数据文件路径直接放到了SQL里面,没用重定向JSON Lines 格式导出语句 {代码...} 导入语句 {代码...} Native 格式导出语句 {代码...} 导入语句 {代码...} 本文出自 qbit snap

检查 http url 下载文件的大小(qbit)

2022-05-18
阅读 1 分钟
1.4k
前言 {代码...} 示例环境 {代码...} 示例代码 {代码...} 本文出自 qbit snap

用 Python 批量检查 sqlite/db3 文件是否损坏(qbit)

2022-05-10
阅读 5 分钟
1.9k
对 Python 3.8 适用check_db3.py {代码...} 本文出自 qbit snap

Elasticsearch preload数据到缓存(qbit)

2022-04-21
阅读 2 分钟
2.9k
前言本文对 Elasticsearch 7.17 适用官方文档:[链接]preload 哪些文件官方建议 preload {代码...} aggression 多,但内存不是很充足,可以考虑 preload {代码...} 内容充足可以取上面的并集 preload {代码...} 其他官方文档里面讲 index.store.preload 是静态配置,可以在 elasticsearch.yml或建立索引前配置。实际上索...

Ubuntu 下使用 pyenv 管理 Python 版本(qbit)

2022-03-28
阅读 2 分钟
2.5k
前言软件环境 {代码...} pyenv github: [链接]安装 pyenv安装依赖 {代码...} 安装 {代码...} 在 ~/.profile 里面添加 {代码...} 在 ~/.bashrc 里面添加 {代码...} 重启 shell {代码...} pyenv 基本用法查看可安装的 Python 版本 {代码...} 安装指定版本的 Python {代码...} 查看已安装的 Python 版本 {代码...} 切换 Pyt...

workflow 之 Prefect 基本用法(qbit)

2022-02-24
阅读 6 分钟
1.7k
用 poetry 初始化项目后在 pyproject.toml 添加以下依赖,然后运行 poetry update -vvv {代码...}

VS Code 配置 Java 开发环境(qbit)

2022-02-09
阅读 1 分钟
1.8k
技术栈 {代码...} 插件安装 {代码...} maven settings.xml 配置在设置中搜索 mavenJava 插件配置,注意这里的配置并不会对 Maven for Java 插件生效Maven for Java 插件设置本文出自 qbit snap

Windows 10 修改远程桌面端口(qbit)

2022-02-08
阅读 1 分钟
1.8k
操作系统版本 Windoow 10 专业版 21H2用 PowerShell 查看端口号 {代码...} 在注册表中修改端口值(regedit) {代码...} 右键我的电脑 -> 属性 -> 启用远程桌面打开 Windows 防火墙高级设置新建入站规则放行自定义端口本文出自 qbit snap

用 logstash 从 kafka 读取数据写入 Elasticsearch(qbit)

2022-01-28
阅读 4 分钟
2.5k
技术栈 {代码...} 用 docker 搭建 logstash官方文档docker 镜像拉取:[链接]docker 镜像配置:[链接]docker 镜像目录结构:[链接]配置步骤拉取镜像 {代码...} logstash 配置文件 /home/qbit/logstash/settings/logstash.yml {代码...} 管道配置文件 /home/qbit/logstash/pipeline/:/usr/share/logstash/pipeline/es-pipe...

用 docker 快速搭建 kafka(qbit)

2022-01-26
阅读 4 分钟
3.1k
搭建 kafka本节技术栈 {代码...} kafka docker 镜像:[链接]kafka docker 镜像 github: [链接]搜索 kafka 镜像 {代码...} 列出 tag {代码...} 也可以用 podman 命令列出 {代码...} 编排文件 docker-compose.yml {代码...} 启动 kafka 和 zookeeper {代码...} 查看 kafka 和 zookeeper 是否正常运行 {代码...} 可视化工...

现代化命令行工具之Ubuntu 20.04(qbit)

2021-08-16
阅读 2 分钟
2.6k
批量配置简易的 shell 脚本:[链接] {代码...} 本脚本适用于与有 root/sudo 权限使用本脚本适用于初始化,没做条件判断,不适用于复杂情景工具rg 替换 grep编程语言: RustGitHub:[链接]安装与配置 {代码...} bat 替换 cat编程语言: RustGitHub: [链接]安装与配置 {代码...} fd 替换 find编程语言: RustGitHub: # [...

Ubuntu 20.04 下使用 fzf(qbit)

2021-08-12
阅读 1 分钟
6k
fzf github: [链接]安装 {代码...} 配置 {代码...} 测试 {代码...} 本文出自 qbit snap

Python 遍历中国区 s3 目录(qbit)

2021-08-08
阅读 3 分钟
2.5k
软件环境 {代码...} s3fs 文档:[链接]client_kwargs 参见:[链接]示例代码 {代码...} 多进程示例代码 {代码...} 本文出自 qbit snap

pandas 直接读取中国区 s3 文件(qbit)

2021-08-08
阅读 1 分钟
3.4k
SDK 版本 {代码...} 示例代码 {代码...} 本文出自 qbit snap

拒绝裸奔,为 Elasticsearch 设置账号密码(qbit)

2021-08-04
阅读 2 分钟
11k
前言2019 年 5 月 21 日,Elastic 官方博客发文称,ES 6.8 和 7.1 免费开放基本的安全功能。包括: {代码...} 铭毅天下解读: Elasticsearch 7.1免费安全功能全景认知阮一鸣《Elasticsearch核心技术与实战》有对安全功能的视频讲解本文对 Elasticsearch v7.13 可用ES 安全的几个层面集群身份认证与用户鉴权(账号密码)...

xonsh tips(qbit)

2021-08-03
阅读 1 分钟
1.8k
前言github:[链接]TIPS安装 {代码...} Windows cmd 下避免中文路径乱码 {代码...} 配置文件 ~/.xonshrc {代码...} 本文出自 qbit snap

为 Elasticsearch 设置 update_time(qbit)

2021-07-28
阅读 3 分钟
2.7k
前言本文对 Elasticsearch 7.17 有效创建时间(create_time)没找到好的实现方式如果入库的数据不再更新,文中的 update_time 可等同于 create_timeupdate_time 示例创建 Ingest pipelines(script、date) {代码...} 查看 pipeline {代码...} 创建索引,并设置默认 pipeline {代码...} 插入数据 {代码...} 查看 mapping...

NetworkX Tips(qbit)

2021-07-12
阅读 1 分钟
1.9k
引子NetworkX github: [链接]技术栈 {代码...} Tips导入包 {代码...} 连通分量 {代码...} 度最大的节点 {代码...} 节点按度降序 {代码...} 连通分量的个数 {代码...} 打印各连通分量的节点集合 {代码...} 本文出自 qbit snap

Windows 下配置 pproxy 开机启动(qbit)

2021-07-12
阅读 1 分钟
2.8k
环境本文对 Windows 10/2019 适用Python 版本 3.8.2pproxy 版本: 2.7.8步骤安装 pproxy {代码...} 任务计划程序 -> 创建基本任务输入任务名!触发器设置为“计算机启动时”操作设置为“启动程序”配置启动程序和参数 {代码...} 勾选图示复选框,点击完成勾选图示的单选框,复选框是否勾选视具体情况,点击确定重启验证本文...

推荐系统学习笔记(三)

2021-07-09
阅读 3 分钟
2.6k
Doc2vec方法是一种无监督算法,能从变长的文本(例如:句子、段落或文档)中学习得到固定长度的特征表示。Doc2vec也可以叫做 Paragraph Vector、Sentence Embeddings,它可以获得句子、段落和文档的向量表达,是Word2Vec的拓展,其具有一些优点,比如不用固定句子长度,接受不同长度的句子做训练样本。

Python 包管理工具 poetry(qbit)

2021-06-30
阅读 1 分钟
3.1k
官方文档:[链接]poetry 查看配置项 {代码...} 修改缓存目录 {代码...} 将虚拟目录放在项目内 {代码...} 发现 pyenv 等虚拟环境的 python 解释器 {代码...} 软件包国内镜像(pyproject.toml) {代码...} {代码...} 指定特定平台(linux)的第三方包 {代码...} poetry 导出 requirements.txt {代码...} 本文出自 qbit snap

推荐系统学习笔记(二)

2021-06-24
阅读 2 分钟
2.3k
用户画像到底是什么?它是对用户信息的向量化表示,就是 User Profile,俗称“用户画像”。用户画像不是推荐系统的目的,而是在构建推荐系统的过程中产生的一个关键环节的副产品。构建用户画像需要下面两个步骤。

Elasticsearch 7.x 配置 IK 自定义词典(qbit)

2021-06-24
阅读 1 分钟
4.8k
es 配置IK Dictionary Configuration {代码...} 不能热词更新,每次修改词典都需要重启 ES热词更新参见 使用 nginx 快速搭建 elasticsearch ik 远程词典服务Kibana 测试 {代码...} 本文出自 qbit snap

Python3 内存文件/临时文件(qbit)

2021-06-20
阅读 1 分钟
2.2k
io.StringIO/io.BytesIO官方文档: [链接]tempfile.TemporaryFile/tempfile.TemporaryDirectory官方文档: [链接]示例 {代码...} pyfilesystem官方文档: [链接]本文出自 qbit snap

推荐系统学习笔记(一)

2021-06-10
阅读 3 分钟
2.3k
互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载(information overload)问题。