使用 pdfminer.six 解析并提取 pdf 中的文本

7 月 4 日
阅读 2 分钟
857
一. pdfminer.six 中的 bbox 定义 {代码...} 以页面的左下角为原点,区域的(左下,右上)两个点的座标所以 bbox 返回的四个座标 [x, y, xx, yy] 对应如下x : 区域左下角距离页面左下角的水平距离y : 区域左下角距离页面左下角的垂直距离xx :区域右上角距离页面左下角的水平距离yy :区域右上角距离页面左下角的垂直距离二...

在 dify 服务器上配置其他应用

6 月 20 日
阅读 1 分钟
686
sudo docker inspect 3b14 查看 nginx 容器的挂载情况,发现挂了 /path/to/docker/nginx/conf.d 这个目录。

本机开发 https 证书配置

6 月 3 日
阅读 2 分钟
487
为了方便快捷的实现蓝牙 BLE 数据的收集,想到使用 web Bluetooth 来解决设备端的问题。安卓的高版本浏览器支持通过前端代码访问蓝牙设备,iOS 可以通过安装特定浏览器支持。Web Bluetooth 为了安全性考虑强制要求必须通过 HTTPS 协议加载,所以本地开发必须配置 HTTPS 证书。

阿里云物联网平台踩坑记录

3 月 8 日
阅读 1 分钟
280
使用 pip 安装的是 aliyun-iot-linkkit , 不要装 linkkit。二者导入包名相同(都是 import linkkit) 但是安装名不同。( 鄙视这种碰瓷开源包的恶心行为 )

kratos 框架的问题

2023-06-13
阅读 1 分钟
1.3k
优点啥都有,类似 PHP 的各种框架。开箱即用,给你整上各种现代化的工具,甭管用不用,需要不需要全整齐。依赖注入、http、gRPC、MySQL、Redis 都“搞里头“。问题结构混乱。proto 文件散到各个目录,甚至 proto 的版本都没管理好。依赖注入纯粹是为了用而用,没有用依赖注入解决任何实际问题,也没做到代码抽象和隔离。对...

现代化 protobuf 包管理 - 七个步骤使用cicd生成第三方包

2023-06-06
阅读 6 分钟
1.6k
本教程使用的是二进制的 gitlab-runner 配合 docker 生成 protobuf 的第三方包,并在分支 merge 时自动发布 tag 版本。

使用 Go 消费某里云 RocketMQ 中的消息

2023-03-30
阅读 2 分钟
1.6k
因为 Go-Cannal 经常挂掉,导致 MySQL binlog 同步到 ES 的链路故障。所以改用了另外一种同步方案。用某云的 DTS 消费 MySQL 的 binlong,用 DTS 的 Java 客户端消费 kafka 协议的消息,得到 MySQL 的变更。Java 再将变更 Push 到 RocketMQ。改造原有的 Go 代码,消费 RocketMQ 消息,完成业务逻辑( 复用之前的逻辑代码...

记一次 go mod vendor 报错排查经过

2022-10-21
阅读 2 分钟
4.6k
该步骤将以 go.mod 文件中写明的包和版本为准下载第三方依赖并保存到本地的 vendor 目录。下载过程中将校验 go.sum 中的 hash 值是否同文件 hash 一致。

执行 go vendor 时第三方包 go 版本冲突问题的解决方法

2022-07-14
阅读 2 分钟
5.4k
该步骤将以 go.mod 文件中写明的包和版本为准下载第三方依赖并保存到本地的 vendor 目录。下载过程中将校验 go.sum 中的 hash 值是否同文件 hash 一致。

[玩坏 Linux 的 N 种方式] 垃圾代码中有死循环

2021-12-02
阅读 2 分钟
1.9k
本系列是查阅无数资料,又不想从头开始读厚厚的计算机操作系统教材,痛定思痛之后脑洞大开的结果。鉴于我有一些基础概念,那就从破坏性实验开逆向思考:用垃圾代码搞坏 Linux,顺便了解各种情况下系统诊断命令的输出。

NVIDIA , CUDA, onnxruntime 版本依赖问题

2021-04-30
阅读 2 分钟
13.1k
Table 1. CUDA Toolkit and Compatible Driver VersionsCUDA Toolkit Linux x86_64 Driver VersionCUDA 11.2 >= 450.80.02CUDA 11.1 (11.1.0) >= 450.80.02CUDA 11.0 (11.0.3) >= 450.36.06CUDA 10.2 (10.2.89) >= 440.33CUDA 10.1 (10.1.105) >= 418.39CUDA 10.0 (10.0.130) >= 410.48CUDA 9.2 (9.2....

应用可视化探索在线教育业务中的数据

2020-08-23
阅读 5 分钟
2.5k
    疫情以来,越来越多的家长和学生开始主动或者被动的接受在线这种教学方式。在线教育行业迎来了一波流量增长,积累的数据也越来越多。与此同时,越来越的创业者开始进入这个行业,行业内的竞争也越来越激烈。能否高效的利用这些数据,成为一个公司能否装上涡轮发动机迎风起飞的关键因素。

使用 gitlab 实现 proto 文件的 semantic version 管理(2) - 配置篇

2020-05-03
阅读 2 分钟
4.1k
最终目标:所有 proto 文件的改动都体现在版本号中;开发者不需要手动编译 proto 文件;同一个版本号在各个语言中是通用的;配置方案:配置 gitlab CI,实现 merge request 通过之后自动打包并生成版本号;每个版本号生成之后自动生成对应语言的接口定义和 message 文件;配置 Dockerfile, 在生产环境构建时使用对应版...

使用 gitlab 实现 proto 文件的 semantic version 管理(1) - 使用规范

2020-05-02
阅读 2 分钟
5.2k
历史原因我司的后端团队在同时使用 3 种语言:Python、Go、Java。为了实现团队的水平拆分和业务逻辑的收敛,我们会在不同的业务线间使用 unary 模式的 gRPC 来进行同步通信。 例如报名业务中会存在一个查询某个用户所有报名记录的接口,这个接口是 Python 语言开发的,在不同的业务场景上 Go、Java 都会调用这个接口。这...

超简单的算法:千位符号添加

2020-04-18
阅读 1 分钟
2.3k
题目: 给一个整数,每三位添加一个逗号展示。例如:1234 输出: 1,234。 答案: 取模 1000,得后三位,依次取模。得到三位数字为元素的数组 拼接上面的数组,添加符号打印。 Javascript 实现: {代码...}

软件研发的 QSS 悖论

2020-04-01
阅读 1 分钟
1.9k
三要素只能取其中两个,不可能同时取三个。 high Quality 交付质量高 large Scale 研发人员的规模大 fast Speed 研发速度快 研发是一个多人协作的过程,同时技术水平越高的人交付质量和速度越高。基于以下公理推断而来: 协作成本定律。人跟人之间的沟通成本是一直存在且同参与沟通的人数呈正相关。如果在两人之间达成共...

一次技术复盘会议的复盘

2019-10-16
阅读 1 分钟
2.5k
议程 提前发会议邀请和通知,提醒大家思考并记录问题。 把椅子摆成一个圆圈,安排人员入座。中间放一些饮料和零食。 给每个人发一张小纸片,要求大家用一个词形容这次项目开发的感受并写下来。然后收集所有的纸片。 表扬环节,从记录员的左手边开始发言,表扬项目开发中遇到的人或者事情。 暴露问题环节,先做自我批评,...

Semantic Versioning on Private Library Package for Golang 1.13

2019-10-07
阅读 2 分钟
2.3k
Golang version 1.13 or above GOPRIVATE introduced to go module since 1.13

Go Channel 面试题解析

2019-03-16
阅读 2 分钟
7.2k
写代码实现两个 goroutine,其中一个产生随机数并写入到 go channel 中,另外一个从 channel 中读取数字并打印到标准输出。最终输出五个随机数。

docker 学习笔记

2019-01-04
阅读 1 分钟
1.5k
概念 image 镜像 {代码...} container 实例 {代码...} 命令行 docker ps 查看当前正在运行的实例 docker images 查看本地的所有镜像 docker run xxxx 实例化一个镜像本运行他的实例 docker stop 停止某个实例 docker build . -t xxxx 用当前目录的 Dockerfile 编译一个镜像打上标签 xxxx

AI 黑话大全

2018-12-28
阅读 1 分钟
5.2k
In machine learning, the term "ground truth" refers to the accuracy of the training set's classification for supervised learning techniques. This is used in statistical models to prove or disprove research hypotheses. The term "ground truthing" refers to the process of gathering the proper object...

Go module 起手式

2018-09-05
阅读 1 分钟
2.8k
安装 Golang 到最新版并检查 {代码...} 设置环境变量开启功能 {代码...} 初始化项目 {代码...} 直接写代码 {代码...} 然后编译运行 {代码...} 注意,我们并没有 go get github.com/airylinus/goutils 后续和扩展 包管理是个比较复杂的问题,有循环依赖等问题 go mod 的原理有很多资料可以看 [链接] 是微软开源的项目,解...

那些我的代码中从不用的 Golang 特性 - 马特-莱亚

2018-08-15
阅读 1 分钟
2.3k
- 我不使用的关键字 我不用 goto goto 会让代码执行逻辑难以阅读和理解。 另外还可以使用 label 标记来组织代码 {代码...} 我不用 fallthroughgolang 的 switch 足够好用,不需要用 fallthrough 退化到其他语言的模式。 我不用 else 大部分的 else 可以用反转判断来实现。例如: {代码...}

RTFM:腾讯微信公众号H5页面使用微信支付爬坑记

2017-11-02
阅读 2 分钟
7.5k
公众号的页面会在微信环境下打开,所以默认已经有登录态。openID、AppID、AppSecret 都能拿到,申请开通商家支付之后会有 PayKey 和 mch_id (商家帐号,类似 101000000 之类的数字)。

Caffe solver 配置和基本概念

2017-09-15
阅读 1 分钟
3.5k
必备的文件 solver.prototxt 训练求解的配置文件 {代码...} train-test.prototxt 网络定义文件,也可以分开定义 {代码...} xxx.caffemodel 训练完成之后得到的神经网络权重文件 {代码...} deploy.prototxt 应用时实用的网络 solver.prototxt 文件格式 iter (iteration) 对应一次权限更新。也就是说一次前向和一次后向,...

聚类算法比较:K-means 和高斯混合模型

2017-05-04
阅读 2 分钟
15k
假设每个 cluster 存在一个中心点,该 cluster 内的所有数据项到这个中心点的欧式距离(勾股定理的扩展:各维度差的平方求和再开方)都小于到其他 cluster 中心点的距离。算法的任务就是找出这些 cluster 的中心点。K-means 算法先随机选取 K (唯一的算法参数) 个点作为中心点,然后通过计算欧式距离来给所有数据项归...

机器学习Model大乱斗

2017-03-04
阅读 1 分钟
2.3k
决策树 Decision Tree 简介 原理:通过一层一层的逻辑分支判断最终的结果 分类:监督学习 优势 可解释性强、逻辑简单 可以拟合非线性的模型 执行效率高 二分类和多分类问题都可以解决 缺点 容易过拟合 不能学习属性间的关系 不支持在线学习,新样本出现之后需要重建树

Golang memory model

2017-02-26
阅读 8 分钟
3.2k
The Go memory model specifies the conditions under which reads of a variable in one goroutine can be guaranteed to observe values produced by writes to the same variable in a different goroutine.

Golang 单元测试指引

2016-11-02
阅读 1 分钟
4.3k
Golang 单元测试指引 参考: [链接] . 普通单测 testing.T . 单测环境准备和清理 testing.M (set-up/tear-down) . 性能测试 testing.B . 覆盖率 testing.Cover

GPUImage 图片滤镜

2016-10-28
阅读 1 分钟
1.8k
{代码...}