「爬虫通用解析器」调研

2023-11-20
阅读 16 分钟
331
最著名的通用解析器就是 newspaper3k但是其实还有很多「通用解析器」,可参考:[链接]我自己看了一下,感觉 goose3 也不错,可以作为 newspaper 的补充(newspaper 就是 newspaper3k) {代码...} 运行结果 {代码...} 又看到一个项目,叫做 trafilatura按照它自己的描述,这个整体指标比 newspaper3k 和 goose3 高出不少...

milvus 是否支持高维度向量

2023-11-17
阅读 1 分钟
126
看到有人有上面的需求,但是 milvus 是不支持的,milvus 只支持一维向量

如何下载固定版本的 chrome 和 chromedriver?

2023-11-15
阅读 1 分钟
250
目前我找到的一个地方就是下载测试版本的,可以指定版本[链接]在这里可以下载 chrome 和 chromedriver

一个2core4GB的 mysql server 的 QPS 和 TPS 能在多少?

2023-11-02
阅读 1 分钟
255
数据库基本的配置信息如下,使用的磁盘是 ESSD PL1 云盘这个数据库的时候比较检查,都是一些很简单的 select 和 update 和 insert可以看到 TPS 基本在 1k 左右,而 QPS 可以到 3-4k

hostname 有不能使用下划线的规定吗?

2023-10-31
阅读 2 分钟
373
seo 优化:docker compose 的服务名应该使用下划线还是中划线docker 的容器名应该使用下划线还是中划线使用 minio + docker compose的时候,我把 minio 的 service name 叫做 public_miniopython 进程和 minio server 在一个 docker-compose.yaml 里面然后 python 进程使用 public_minio:9000 作为 end_point 访问这个 mi...

mysql 的 docker 容器如何设置默认的数据库

2023-10-31
阅读 1 分钟
229
This variable is optional and allows you to specify the name of a database to be created on image startup. If a user/password was supplied (see below) then that user will be granted superuser access (corresponding to GRANT ALL) to this database.这个变量是可选的,允许您指定要在映像启动时创建的数据...

ruff check 的 --exclude 参数如何设置多个路径

2023-10-28
阅读 5 分钟
257
ruff check --help {代码...} 主要是下面的部分 {代码...} 所以很简单,错误做法 {代码...} {代码...} 正确做法,使用 --extend-exclude 追加 {代码...} 如果有更多目录呢?无限追加 --extend-exclude 就好了 {代码...}

python plotly 设置go.Scatter为实线(线条的样式)

2023-10-26
阅读 1 分钟
395
{代码...} 要修改线条样式,就修改 dash 参数,支持使用下面的值'solid': 实线连续的实线,是最常见的线条样式。'dot': 点线使用小点来绘制线条,每个点之间有一定的空隙。'dash': 短划线使用短线段来绘制线条,线段之间有一定的空隙。'longdash': 长短划线使用长的线段来绘制线条,线段之间有一定的空隙。'dashdot': 短...

k8s 设置非强一致的反亲和性

2023-10-26
阅读 3 分钟
135
Q:如何设置反亲和性,尽可能让 pod 部署在不同的 node 上,如果需要部署的pod数大于节点数,也可以在一个节点上部署多个 pod,如何设置?

mysql 报错 incompatible with sql_mode=only_full_group_by

2023-10-19
阅读 1 分钟
269
翻译出来的 sql 如下,可以看到其实比较不规范,group by 里面只有 track_source_id,但是 select 里面却有 parser_name、error_class_name、track_source_id

peewee 创建连接前的前置操作,wireshark 抓包

2023-10-19
阅读 2 分钟
247
{代码...} 执行上面的代码,对应用户的 sql 只有一个 {代码...} 但是从 wireshark 抓包可以看到有多个 Request Query192.168.26.31 是客户端192.168.38.223 是 Mysql server那么这些 Request Query 究竟是啥呢?第一个 Request Query {代码...} 第二个 Request Query {代码...} 第三个 Request Query {代码...}

fastapi+pytorch 推理遇到内存泄露问题

2023-10-13
阅读 1 分钟
854
现象描述:uvicorn + fastapi + 不使用 async def 的时候,随着请求持续增加,内存会一直涨上去但是内存不是线性增长的。当请求 QPS 很低的时候,几乎不怎么增长;但是当 QPS 比较大的时候,会一点点增长。连续持续的 QPS 让内存增长非常缓慢但是短短续续的大QPS,会让QPS刚到达的那几秒就有几十MB的快速增长,然后增长...

普通用户安装的普通命令,使用 sudo 运行出现 command not found

2023-10-13
阅读 1 分钟
302
普通用户安装的普通命令,使用 sudo 运行出现 command not found普通命令就是改命令安装在用户路径下比如我使用普通用户安装了一个 py-spy安装路径如下: {代码...} 但是使用普通用户执行会没有权限 {代码...} 直接加 sudo 执行就是 command not found {代码...} 此时咋办?在开头加上 sudo env "PATH=$PATH" ...

docker build 的时候,指定使用哪个 dockerignore 文件?

2023-10-12
阅读 2 分钟
385
我的目录结构如上,deploy/docker/private/Dockerfile 和 deploy/docker/private/Dockerfile.dockerignore

关于为什么使用 docker 的 python基础镜像时,要指定patch版本?

2023-10-12
阅读 5 分钟
625
在 python:3.11.5-bookworm 中:3 表示 Python 的主要版本号。在这个例子中,它指的是 Python 3系列。Python 分为两个主要版本系列,即 Python 2 和 Python 3,其中 Python 3 是当前推荐使用的版本。11 表示 Python 的次要版本号。在这个例子中,它表示 Python 3.11 版本。次要版本通常包含新功能和改进,但与主要版本不...

如何使用 pytest 测试多层路径下面的 py 文件,避免 ModuleNotFoundError

2023-10-10
阅读 1 分钟
267
我的文件路径如下: {代码...} 测试代码引用了项目文件, 类似testing/test_myservice.py {代码...} 此时想运行单元测试的话错误的方式:pytest -m testing.test_myservicepytest testing/test_myservice.py正确的方式:python -m pytest testing/test_myservice.py这样就可以避免遇到 ModuleNotFoundError: No module na...

vue3 使用 reactive/ref 在 template/script 中是否需要加 value 的总结「有待验证」

2023-10-10
阅读 1 分钟
732
下面的内容来自 chatGPT QA 记录,正确性我需要稍后验证,未完待续...讨论下面四个问题:vue3 的 reactive 在 script 里面读写需要加 value 吗?vue3 的 ref 在 script 里面读写需要加 value 吗?vue3 的 reactive 在 template 里面读写需要加 value 吗?vue3 的 ref 在 template 里面读写需要加 value 吗?Q: vue3 的 r...

rabbitmq 基础之 AMQP 0-9-1 协议解读

2023-10-08
阅读 1 分钟
306
先贴官方链接:AMQP 0-9-1 快速参考AMQP 0-9-1 完整参考指南操作 rabbitmq,支持 HTTP (15672 端口)和 AMQP 协议 (5672 端口)HTTP 没什么好讲的,因为这个是「管理接口」,不是正经的生产接口,要正经使用 rabbtimq, 用的都是 AMQP 协议,所以,我们需要对 AMQP 比较了解Rabbitmq 生产者消费者的数据流方向首先,我...

修复挂载 elasticsearch.yml 之后,elasticsearch8.x 在 docker 下无法启动的问题

2023-10-07
阅读 16 分钟
743
{代码...} 直接运行不行,elasticsearch8 会有警告,拒绝 http 连接 {代码...} 解决办法: {代码...} 然后重新创建容器然后又报错了 {代码...} 问题出在 elasticsearch.yml我修改了 elasticsearch.yml ,修改后如下 {代码...} 问题就不复存在了文件权限相关的解决办法参考:[链接]

nameko 框架中,日志级别都变成 INFO 的问题调查

2023-10-07
阅读 1 分钟
127
[链接]问题在这里,如果 LOGGING 不在配置用,就默认设置为 INFO {代码...}

python 关于第三方日志的QA记录

2023-10-07
阅读 4 分钟
236
A:在 Python 中,你可以使用 logging 模块来查看当前的日志级别。logging 模块提供了一个全局的日志系统,它包含了各种配置和方法,允许你控制日志的输出。

编译 pyav 成 wheel 并使用 auditwheel 固化动态链接库

2023-09-26
阅读 1 分钟
691
{代码...} {代码...} 如果你想知道 manylinux_2_35 是什么含义,可以参考:pypa/manylinux输出如下: {代码...} 安装最新的 patchelf 参考:[链接]安装 patchelf 之前要安装 autoconf {代码...}

pymilvus 的 offset 参数不生效

2023-09-19
阅读 1 分钟
646
错误写法 {代码...} 正确的写法 {代码...}

debian10 buster 可能要停止维护了?

2023-09-19
阅读 2 分钟
564
{代码...} 上面脚本,报错如下 {代码...} 但是看来一下官网又不是[链接]估计还是不靠谱的 aliyun 导致的

aliyun cicd+debian12,把软件源换成 aliyun 内网源

2023-09-19
阅读 1 分钟
1k
aliyun 内网 {代码...} 如果是外网,直接用中科大吧,速度更快 {代码...}

给 linux 的 NVIDIA GPU 安装 CUDA Toolkit

2023-09-18
阅读 4 分钟
1.2k
拿到电脑后,我先一个 ubuntu-drivers devices 查看可用的驱动版本 {代码...} 参考:使用 ubuntu-drivers 安装 nvida 显卡驱动的一些疑问?关于『使用 ubuntu-drivers 安装 nvida 显卡驱动的一些疑问』解答因为我是 ubuntu server 版本,而不是 Desktop 版本,所以我要安装带 -server 后缀的然后我想安装最新的,最新的...

使用中科大镜像源一键给 ubuntu 安装 docker

2023-09-18
阅读 2 分钟
1k
{代码...} 然后 {代码...} 如果想以普通用户(非 root)使用 docker,再执行下面的命令 {代码...} 如果还想安装最新的 docker-compose ,使用下面的命令 {代码...} 如果你不幸在中国大陆,给 docker 换镜像源也是很重要的参考: 哪个docker镜像源质量最好?编辑下面的文件 {代码...} 非 root 要加 sudo写入下面的内容 {代...

vscode + autopep8 无法格式化 python 代码问题解决

2023-09-14
阅读 3 分钟
1.1k
{代码...} 上面的代码,死活无法用快捷键格式化,所以手动输入 autopep8 看看 {代码...} 懒得去管是哪个模块引起的问题了先无脑升级第三方试试 {代码...} 升级之后,问题就解决了具体是哪个包引起的问题,我懒得去找了,反正全部升级就对了

RPATH 的优先级高于 LD_LIBRARY_PATH、LD_PRELOAD 这些环境变量吗?

2023-09-14
阅读 1 分钟
465
延伸出一个问题:RPATH 的优先级高于 LD_LIBRARY_PATH、LD_PRELOAD、LD_LIBRARYN、LD_DEBUG、LD_BIND_NOW 这些环境变量吗?