Bert中文字向量、词向量、句向量

2023-12-12
阅读 8 分钟
307
参考文献:1.bert中文使用总结:[链接]2.用pytorch版Bert获取中文字向量:[链接]3.【重要】BERT中的词向量指南,非常的全面,非常的干货:[链接]主要讲了句子输入,输出的维度,每一个维度的内容,讲的非常好,把代码复制过来: {代码...} {代码...} Token初始化 {代码...} 下面是词汇表中包含的一些令牌示例。以两个#号...

基于Bert的多标签文本分类

2023-12-11
阅读 9 分钟
444
【BERT-多标签文本分类实战】之一——实战项目总览  【BERT-多标签文本分类实战】之二——BERT的地位与名词术语解释  【BERT-多标签文本分类实战】之三——多标签文本分类的方向与常用数据集介绍  【BERT-多标签文本分类实战】之四——数据集预处理  【BERT-多标签文本分类实战】之五——BERT模型库的挑选与Transformers  【BERT-...

测试集(验证集)准确率比训练集准确率还要高

2023-12-01
阅读 4 分钟
813
问题描述:在进行神经网络训练时,发现验证集的准确率比训练集还要高,觉得太不正常了,不知道问题出在哪里。我们训练模型的方式就是在训练集上最小化损失。因此,模型在训练集上有着更好的表现,才应该是正常的现象。因为原来训练的时候验证集的准确率都比训练集准确率低很多,这一下反过来,觉得有点蒙。

batchsize、iteration、epoch之间的关系

2023-11-30
阅读 1 分钟
953
1、batchsize是批次大小,假如取batchsize=24,则表示每次训练时在训练集中取24个训练样本进行训练。2、iteration是迭代次数,1个iteration就等于一次使用24(batchsize大小)个样本进行训练。3、epoch,1个epoch就等于一次使用训练集中全部样本训练一次。如果训练样本为1000,batchsize=24,则训练一个完整的样本集需要...

Keras编程--2 错误处理

2023-11-25
阅读 10 分钟
162
训练时候输入的维度、中间层Dense的维度很容易出错,输入维度要正确,才能正确送入计算;最后一层的维度需要与标签的种类数一致,才能正确分类输出。

keras编程学习

2023-11-23
阅读 6 分钟
99
Keras 是一个用 Python 编写的高级神经网络 API,它能够以 TensorFlow, CNTK, 或者 Theano 作为后端运行。

症状词表转化GUI

2023-09-23
阅读 2 分钟
870
因为需要构建中医症状同义词库,需要从基本中医书籍中收集中医症状的同义词。《中医症状学研究》里包含较多同义词,可以用来收集。但是,一个个输入太慢,可以利用OCR提取文字后,再根据文本格式特点将同义词自动提出出来。于是构建一个简单的gui程序,左侧输入原始文本,右侧输出提取的同义词文本。

已经安装Pytorch的cuda版本,但还是调用的cpu

2023-08-18
阅读 4 分钟
1.8k
或者进入虚拟环境查看,确实为false查阅很多资料之后发现,如果有nVidia显卡,要安装gpu版本的pytorch时,不像cpu版本那么简单,还有很多基础工作要做,需要根据CUDA安装对应的CUDA toolkit,然后要安装对应的cudnn,最后再安装对应版本的pytorch。

安装TensorFlow

2023-07-10
阅读 3 分钟
329
用命令安装报错了,原因是清华的镜像中已经没有2.4.0这个版本了。最低的版本是2.5.0,想着TensorFlow2应该是兼容的,于是决定安装处于中间位置的2.9.0版本。

ThinkPad风扇老是高速转动解决方法

2023-06-02
阅读 1 分钟
1.5k
问题:3月底买了一台ThinkPad E14笔记本,由于比较忙放了差不多半个月才用。使用一个多月之后,发现一个比较不爽的事情,在我打开网页或者用编辑文字的时候,CPU风扇老是一下子狂转,一下子狂转。开始没太注意,后来发现有些不对劲。因为发现CPU利用率不到20%的时候,风扇就开始了躁动,按理不应该啊。于是测试几次,发...

百度AI开发者 AK、SK申请

2023-04-27
阅读 1 分钟
577
吐槽一下百度开发者文档:1、最大问题:文档没有梳理清楚。里面文档太乱了,昨天去调用“文本信息提取”api,根据文档去创建AK、SK根本找不到地方,后来也不知道从哪里进去创建好了应用,今天再进去的时候,又找不到了,真是头晕。在这之前,我还多次调用过百度的地图api,那个文档感觉就清晰一些。2、文档内容不完整。估...

Pycharm项目如何在新的系统或别人电脑上重新配置打开?

2023-04-26
阅读 2 分钟
1.6k
问题描述:1、买了一台新电脑,装的事win11系统,安装了Python环境以及Pycharm等工具。2、原来电脑上的项目拷贝到新系统,同时用Pycharm打开,并设置原来venv虚拟路径下Scripts下的python.exe作为项目的解释器,但还是提示找不到包。

vscode使用:venv创建多版本虚拟环境

2023-04-23
阅读 2 分钟
1.2k
想着学习一下开源神器vscode的使用,发现在创建不是默认Python环境的虚拟环境时不是很方便(相比Pycharm来说麻烦很多)。比如我安装了Python3.8/3.8/3.10版本,比较新的3.10作为默认环境配置在系统环境变量中,两外两个没有添加。在VScode terminal中输入python -m venv myvenvfolder,则默认选择Python3.10版本创建的虚...

医案数据整理GUI

2023-04-10
阅读 14 分钟
1.2k
比较tk、pyqt、pyside之后,选择pyqt。主要理由是,pyqt开发实例多,文档全,成熟,后期发展空间大,而且跨平台也不差,语法与pyside差不多,后期也容易切换。参考文献:[链接]那么用pyqt5还是pyqt6呢?pyqt6。因为是升级迭代产品,更优秀。也不是最新beta版本,已经有pyqt6.2了,所以很多问题应该也解决了。

pandas简单操作

2022-12-22
阅读 3 分钟
942
1、pandas读取csv数据csv是gb2312编码,之前pandas一直没有代码提示,不知道怎么制定read_csv的编码方式,于是用open函数指定gb2312编码打开后,再把结果送入padnas,这样能解决不能解析的编码问题。

安装第三方包之后,Pycharm中使用时无提示

2022-12-21
阅读 1 分钟
2.1k
问题:安装第三方的包之后,PyCharm里面在导入这个包,或者在代码中使用这个包,都没有提示。比如最近安装了pandas,导入pandas之后使用就没有提示。但是在虚拟目录的Lib\site-packages目录里中能看到pandas的源码,说明安装是没有问题,问题就在PyCharm中无法引用到这个包。

正则表达式学习笔记

2022-12-19
阅读 1 分钟
867
从文本中提取数据需要用到正则表达式,以前看过一点,但随着不用很快又忘记了。这次又看了一下,记录一下要点:总体可以分为几类,代表字符的、表示重复的、表示分界的、表示分组的代表字符:.可以代表出换行之外的任意一个字符,注意是一个字符![]中括号内字符可以任意匹配其中一个字符,比如[0-9]表示匹配任意一个数...

创建图神经网络的Pycharm项目

2022-11-17
阅读 1 分钟
839
前面安装了anaconda,在anaconda创建虚拟环境PyG,并在PyG中安装了pytorch和pytorch的图几何计算的包,今天在Pycharm中创建一个项目,解释器就用前面PyG中的解释器。

安装PyTorch Geometric

2022-11-08
阅读 3 分钟
2k
因为上篇文章中安装的PyTorch版本是1.13,再安装PyTorchGeometric的时候发现最高支持的是1.12,所有只能在创建一个虚拟环境,再安装1.12的pytorch,再安装Geometric。查看官方安装文档:[链接]

安装PyTorch

2022-11-07
阅读 4 分钟
1.9k
为了能够让一台电脑上跑多个环节,最好是把包都安装在虚拟环境中,这样就不会影响系统的anaconda环境。创建anaconda的虚拟环境有两种方式,第一种是在anaconda的navigator中安装,如下图:第二方式是用命令行创建虚拟环境:

安装anaconda

2022-11-07
阅读 2 分钟
2.2k
anaconda官网网址:[链接]如果对版本没有要求,直接选择网址给你的默认推荐(根据你当前系统环境给出的),打开后就可以看到,下面也有详细的版本号以及支持的python版本。

基于Django的医案校对网站设计与实现(2)

2022-09-30
阅读 6 分钟
877
在左侧增加自定义的栏目是网站项目的常见需求。因为Django后台栏目是根据Model自动生成的,所以可以在model.py中定义一个model,然后在admin.py中定义对应的类,并注册上去,这样就会在左侧自动生成一个栏目。model.py中添加如下类:

基于Django的医案校对网站设计与实现

2022-09-19
阅读 6 分钟
1.6k
在项目下创建一个case_check的app,用命令创建。首先进入项目目录并启动虚拟目录,如图所示。然后,用下面命令创建app:python manage.py startapp case_check得到下图红色区域所示结构的app。

重装系统后,Python打开原来项目文件,不能使用原有的虚拟环境的问题

2022-09-02
阅读 2 分钟
1.7k
问题描述:因为原来系统运行速度变慢,重装了win10系统。但是在打开原来的一个工程项目的时候,不能配置原有的虚拟环境,报错误:Python packaging tools not found.install packaging tools。

anaconda及相关包的安装及配置

2022-05-25
阅读 6 分钟
1.5k
为了研究需要,当前安装的版本是Anaconda3-5.1.0-Windows-x86_64.exe。anaconda的各种版本可以在下面网站中找到:

anaconda navigator启动时一直卡在 loading applications 界面

2022-05-25
阅读 1 分钟
7.4k
事件起因:因为要装一个TensorFlow的低版本环境跑nlp任务,结果装完环境后竟然打不开anaconda navigator,一直卡在loading applications。

学习神经网络 绘图matplotlib

2022-04-21
阅读 3 分钟
1.3k
1.简单折线图导入matplotlib包中的pyplot函数,重命名为plt创建一个数字列表plt.plot(调用创建的数字列表)plt调用show将绘制的好的折线图显示出来

学习神经网络-numpy的操作

2022-04-20
阅读 2 分钟
670
1.numpy的切片X[m,n],表示X的第m维中的第n段数据。也可以按切片写法:X[m:n,k:v],第一维从m到n-1,第二维取从k到v-1X[:,n],表示第一维的m全部取,第二维取第n段数据,如果是矩阵,就是取第n列。

如何从电子书中提取文字?

2022-01-28
阅读 7 分钟
1.6k
问题:本来是从《伤寒论医案集》pdf中识别文字,但是此书的pdf图片分辨很低,不清晰,即使调用百度的高精度ocr识别错误率也比较高。后来找到了该书的最新版,买了一本京东的电子版,然后准备把里面的医案一个一个复制出来进行整理,但是弄了好久,感觉还是太慢了,里面医案有500多啊。

提高图片ocr识别正确率

2022-01-26
阅读 2 分钟
2.6k
上一篇文章中用到的方法是从pdf中读取二进制之后,直接生成image,中间调整图片分辨率的参数。这里采用另外一种方法,可以提高图片的清晰度。上代码: