大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现

2023-07-18
阅读 11 分钟
1.1k
在自然语言处理问题中,可从互联网上下载大量无标注数据,而针对具体问题的有标注数据却非常少,GPT 是一种半监督学习方法,它致力于用大量无标注数据让模型学习 “常识”,以缓解标注信息不足的问题。其具体方法是在针对有标签数据训练 Fine-tune 之前,用无标签数据预训练模型 Pretrain,并保证两种训练具有同样的网络结...
封面图

大语言模型的预训练[3]之Prompt Learning:Prompt Engineering详解

2023-07-18
阅读 11 分钟
1.4k
第一范式:传统机器学习模型的范式,基于全监督学习(fully supervised learning)的方法。通过构建特征工程(feature engineering),利用领域知识从数据中提取好的特征,直接解决下游任务。例如tf-idf特征 + 朴素贝叶斯等机器算法。
封面图

人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF

2023-07-17
阅读 4 分钟
748
在大语言模型完成 SFT 监督微调后,下一阶段是构建一个奖励模型来对问答对作出得分评价。奖励模型源于强化学习中的奖励函数,能对当前的状态刻画一个分数,来说明这个状态产生的价值有多少。在大语言模型微调中的奖励模型是对输入的问题和答案计算出一个分数。输入的答案与问题匹配度越高,则奖励模型输出的分数也越高。
封面图

人工智能自然语言处理:N-gram和TF-IDF模型详解

2023-07-16
阅读 4 分钟
548
N-Gram 是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为 N 的滑动窗口操作,形成了长度是 N 的字节片段序列。

人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

2023-07-16
阅读 7 分钟
2.9k
SFT(Supervised Fine-Tuning)监督微调是指在源数据集上预训练一个神经网络模型,即源模型。然后创建一个新的神经网络模型,即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识,且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相...
封面图

Linux和Windows系统下:Paddle、tensorflow、pytorch/GPU[cuda、cudnn]

2023-07-15
阅读 16 分钟
946
Anaconda安装:Anaconda是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。使用Anaconda可以通过创建多个独立的Python环境,避免用户的Python环境安装太多不同版本依赖导致冲突。
封面图

强化学习:基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源)

2023-07-15
阅读 6 分钟
358
强化学习:基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源)特点自我对弈详细注释流程简单代码结构net:策略价值网络实现mcts:蒙特卡洛树实现server:前端界面代码legacy:废弃代码docs:其他文件utils:工具代码network.py:移植过来的网络结构代码model_5400.pkl:移植过来的网络训练权重train_agent.py:...
封面图

学科知识图谱学习平台项目 :技术栈Java、Neo4j、MySQL等超详细教学

2023-07-14
阅读 2 分钟
396
学科知识图谱学习平台项目 :技术栈Java、Neo4j、MySQL等超详细教学0.效果展示1.安装教程安装Java SDK 11,下载前需要登录Oracle账号,下载链接,安装教程,测试是否能在命令行工具调用java {代码...} 打开Neo4j官网,下载社区版服务器,不要选择桌面版,下载链接,依照跳出的网页对Neo4j进行配置,配置完成后能在命令行...
封面图

基于知识图谱的电影知识问答系统:训练TF-IDF 向量算法和朴素贝叶斯分类器、在 Neo4j 中查询

2023-07-13
阅读 6 分钟
493
基于知识图谱的电影知识问答系统:训练TF-IDF 向量算法和朴素贝叶斯分类器、在 Neo4j 中查询1.项目介绍训练 TF-IDF 向量算法和朴素贝叶斯分类器,预测用户文本所属的问题类别使用分词库解析用户文本词性,提取关键词结合关键词与问题类别,在 Neo4j 中查询问题的答案通过 Flask 对外提供 RESTful API前端交互与答案展示2...
封面图

领域知识图谱的医生推荐系统:利用BERT+CRF+BiLSTM的医疗实体识别,建立医学知识图谱,建立知识问答系统

2023-07-13
阅读 9 分钟
491
本项目主要实现了疾病自诊和医生推荐两个功能并构建了医生服务指标评价体系。疾病自诊主要通过利用BERT+CRF+BiLSTM的医疗实体识别, 建立医学知识图谱,从而实现基于患者问诊文本的疾病初诊。这个功能帮助患者初步了解自身的疾病情况并为下一步与医生的交流提供支持。第二个功能是医生推荐。本平台采用基于Jacard距离的M...

Linux和Windows系统下:Anaconda、Paddle、pytorch,含GPU、CPU版本详细安装过程

2023-07-13
阅读 6 分钟
809
Anaconda安装:Anaconda是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。使用Anaconda可以通过创建多个独立的Python环境,避免用户的Python环境安装太多不同版本依赖导致冲突。

从零开始构建一个电影知识图谱,实现KBQA智能问答[下篇]:KBQA问答Demo超详细教学

2023-07-11
阅读 15 分钟
577
从零开始构建一个电影知识图谱,实现KBQA智能问答[下篇]:Apache jena SPARQL endpoint及推理、KBQA问答Demo超详细教学效果展示:1.Apache jena SPARQL endpoint及推理在上一篇我们学习了如何利用 D2RQ 来开启 endpoint 服务,但它有两个缺点:不支持直接将 RDF 数据通过 endpoint 发布到网络上。不支持推理。这次我们介...
封面图

从零开始构建一个电影知识图谱,实现KBQA智能问答[上篇]:本体建模

2023-07-11
阅读 12 分钟
762
从零开始构建一个电影知识图谱,实现KBQA智能问答[上篇]:本体建模、RDF、D2RQ、SPARQL endpoint与两种交互方式详细教学效果展示:首先介绍我们使用的数据、数据来源和数据获取方法;其次,基于数据内部关系,介绍如何以自顶向下的方式构建本体结构。1.数据准备实践篇使用的数据是与电影相关的。基本统计数据如下:演员...
封面图

从零开始的知识图谱生活,构建一个百科知识图谱/基于ES的简单语义搜索

2023-07-10
阅读 5 分钟
577
目标是包含百度百科、互动百科、中文wiki百科的知识,千万级实体数量和亿级别的关系数目。目前已完成百度百科和互动百科部分,其中百度百科词条4,190,390条,互动百科词条4,382,575条。转换为RDF格式得到三元组 128,596,018个。存入 neo4j中得到节点 16,498,370个,关系 56,371,456个,属性 61,967,517个。
封面图

领域知识图谱-中式菜谱知识图谱:实现知识图谱可视化和知识库智能问答系统

2023-07-10
阅读 4 分钟
502
A knowledge graph for Chinese cookbook(中式菜谱知识图谱),可以实现知识图谱可视化和知识库智能问答系统(KBQA)
封面图

金融时间序列预测方法合集:CNN、LSTM、随机森林、相似度计算、各类评判指标绘图(数学建模科研适用)

2023-07-08
阅读 6 分钟
702
金融时间序列预测方法合集:CNN、LSTM、随机森林、ARMA预测股票价格(适用于时序问题)、相似度计算、各类评判指标绘图(数学建模科研适用)1.使用CNN模型预测未来一天的股价涨跌-CNN(卷积神经网络)使用CNN模型预测未来一天的股价涨跌数据介绍open 开盘价;close 收盘价;high 最高价low 最低价;volume 交易量;label...
封面图

手把手教学小型金融知识图谱构建:图算法、关系预测、命名实体识别、Cypher Cheetsheet详细教学等

2023-07-08
阅读 17 分钟
806
手把手教学小型金融知识图谱构建:量化分析、图数据库neo4j、图算法、关系预测、命名实体识别、Cypher Cheetsheet详细教学等效果预览:1. 知识图谱存储方式知识图谱存储方式主要包含资源描述框架(Resource Description Framework,RDF)和图数据库(Graph Database)。1.1 资源描述框架特性存储为三元组(Triple)标准的...
封面图

基于知识图谱的《红楼梦》人物关系可视化及问答系统(含码源):命名实体识别、关系识别、LTP简单教学

2023-07-07
阅读 8 分钟
1.9k
3) static文件夹存放css和js,是页面的样式和效果的文件4) raw_data文件夹是存在数据处理后的三元组文件5) neo_db文件夹是知识图谱构建模块

手把手教学构建农业知识图谱:农业领域的信息检索+智能问答,命名实体识别,关系抽取,实体关系查询

2023-07-07
阅读 10 分钟
517
手把手教学构建农业知识图谱:农业领域的信息检索+智能问答,命名实体识别,关系抽取,实体关系查询1.项目介绍:效果展示:目录结构: {代码...} 可复用资源hudong_pedia.csv : 已经爬好的农业实体的百科页面的结构化csv文件labels.txt: 5000多个手工标注的实体类别predict_labels.txt: KNN算法预测的15W多个实体的类别...

手把手教学构建证券知识图谱/知识库(含码源):网页获取信息、设计图谱、Cypher查询、Neo4j关系可视化展示

2023-07-06
阅读 5 分钟
806
手把手教学构建证券知识图谱/知识库(含码源):网页获取信息、设计图谱、Cypher查询、Neo4j关系可视化展示demo展示:代码结构 {代码...} 码源下载见文末跳转码源下载见文末跳转1.数据源本项目需要用到两种数据源:一种是公司董事信息,另一种是股票的行业以及概念信息。公司董事信息这部分数据包含在data目录下的stockp...
封面图

知识图谱之《海贼王-ONEPICE》领域图谱项目实战(含码源):知识抽取、知识计算、知识应用、图谱可视化、问答系统(KBQA)等

2023-07-06
阅读 20 分钟
1.7k
《海贼王》(英文名ONE PIECE) 是由日本漫画家尾田荣一郎创作的热血少年漫画,因为其宏大的世界观、丰富的人物设定、精彩的故事情节、草蛇灰线的伏笔,受到世界各地的读者欢迎,截止2019年11月7日,全球销量突破4亿6000万本1,并被吉尼斯世界纪录官方认证为“世界上发行量最高的单一作者创作的系列漫画”2。
封面图

数据挖掘18大算法实现以及其他相关经典DM算法:决策分类,聚类,链接挖掘

2023-07-03
阅读 5 分钟
937
18大数据挖掘的经典算法以及代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面,后面都是相应算法的博文链接,希望能够帮助大家学。目前追加了其他的一些经典的DM算法,在others的包中涉及聚类,分类,图算法,搜索算等等,没有具体分类。
封面图

强化学习从基础到进阶-案例与实践[5.1]:Policy Gradient策略梯度-Cart pole游戏展示

2023-06-30
阅读 8 分钟
521
强化学习(Reinforcement learning,简称RL)是机器学习中的一个领域,区别与监督学习和无监督学习,强调如何基于环境而行动,以取得最大化的预期利益。

强化学习从基础到进阶-案例与实践[4.2]:深度Q网络DQN-Cart pole游戏展示

2023-06-30
阅读 9 分钟
334
强化学习(Reinforcement learning,简称RL)是机器学习中的一个领域,区别与监督学习和无监督学习,强调如何基于环境而行动,以取得最大化的预期利益。

强化学习从基础到进阶--案例与实践含面试必知必答[9]:稀疏奖励、curiosity、分层强化学习HRL

2023-06-29
阅读 8 分钟
560
实际上用强化学习训练智能体的时候,多数时候智能体都不能得到奖励。在不能得到奖励的情况下,训练智能体是非常困难的。例如,假设我们要训练一个机器臂,桌上有一个螺丝钉与一个螺丝起子,要训练它用螺丝起子把螺丝钉栓进去很难,因为一开始智能体是什么都不知道,它唯一能够做不同的动作的原因是探索。例如,我们在做 ...

强化学习从基础到进阶-常见问题和面试必知必答[8]:近端策略优化PPO算法

2023-06-28
阅读 3 分钟
800
重要性采样(important sampling):使用另外一种分布,来逼近所求分布的一种方法,在强化学习中通常和蒙特卡洛方法结合使用,公式如下:$$ \int f(x) p(x) \mathrm{d} x=\int f(x) \frac{p(x)}{q(x)} q(x) \mathrm{d} x=E_{x \sim q}[f(x){\frac{p(x)}{q(x)}}]=E_{x \sim p}[f(x)] $$我们在已知 $q$ 的分布后,可以使用...
封面图

强化学习从基础到进阶-常见问题和面试必知必答[7]:深度确定性策略梯度DDPG算法、TD3算法详解

2023-06-27
阅读 2 分钟
732
深度确定性策略梯度(deep deterministic policy gradient,DDPG):在连续控制领域经典的强化学习算法,是深度Q网络在处定性”表示其输出的是一个确定的动作,可以用于连续动作环境;“策略梯度”代表的是它用到的是策略网络,并且每步都会更新一次,其是一个单步更新的策略网络。其与深度Q网络都有目标网络和经验回放的技...
封面图

强化学习从基础到进阶--案例与实践[7.1]:深度确定性策略梯度DDPG算法详解项目实战

2023-06-27
阅读 12 分钟
821
OpenAI Gym中其实集成了很多强化学习环境,足够大家学习了,但是在做强化学习的应用中免不了要自己创建环境,比如在本项目中其实不太好找到Qlearning能学出来的环境,Qlearning实在是太弱了,需要足够简单的环境才行,因此本项目写了一个环境,大家感兴趣的话可以看一下,一般环境接口最关键的部分即使reset和step。

强化学习从基础到进阶-常见问题和面试必知必答[6]:演员-评论员算法,异步A2C、与生成对抗网络的联系等详解

2023-06-26
阅读 4 分钟
810
异步优势演员-评论员(asynchronous advantage actor-critic,A3C)算法:一种改进的演员-评论员算法,通过异步的操作,实现强化学习模型训练的加速。
封面图

强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基线、优势函数、动作分配合适的分数

2023-06-25
阅读 5 分钟
843
策略(policy):在每一个演员中会有对应的策略,这个策略决定了演员的后续动作。具体来说,策略就是对于外界的输入,输出演员现在应该要执行的动作。一般地,我们将策略写成 $\pi$ 。
封面图