汀NLP - SegmentFault 思否

基于因果关系知识库的因果事件图谱构建

2023-07-26

阅读 7 分钟

531

现实社会是个逻辑社会，大量的逻辑即逻辑经验存在于我们的脑海中，而这些逻辑经验是无法穷举出来的，靠大量人工的总结，显然不切实际。然而，幸好人类将这种逻辑用文字表达出来了，这为我们利用自然语言处理技术实现这种因果逻辑的抽取提供了可能性。不过，受限于自己的技术水平，目前还无法将深度学习这套高端的打发应...

中文人物关系知识图谱（含码源）：中文人物关系图谱构建、知识问答等应用.

汀丶

2023-07-26

阅读 11 分钟

688

项目介绍知识抽取(实体关系抽取)是知识图谱构建中的核心环节,实体关系抽取作为一项基本技术在自然语言处理应用中扮演着重要作用.究其技术而言,主要分成两种三种主流方法:

从零开始搭建医药领域知识图谱实现智能问答与分析服务

汀丶

2023-07-25

阅读 13 分钟

关于知识图谱概念性的介绍就不在此赘述。目前知识图谱在各个领域全面开花，如教育、医疗、司法、金融等。本项目立足医药领域，以垂直型医药网站为数据来源，以疾病为核心，构建起一个包含7类规模为4.4万的知识实体，11类规模约30万实体关系的知识图谱。

金融领域：产业链知识图谱包括上市公司、行业和产品共3类实体十万级别产业链图谱

汀丶

2023-07-25

阅读 8 分钟

611

包括上市公司所属行业关系、行业上级关系、产品上游原材料关系、产品下游产品关系、公司主营产品、产品小类共6大类。上市公司4,654家，行业511个，产品95,559条、上游材料56,824条，上级行业480条，下游产品390条，产品小类52,937条，所属行业3,946条。

基于50W携程出行攻略构建事件图谱（含码源）：交通工具子图谱、订酒店吃饭事件图谱等

汀丶

2023-07-20

阅读 3 分钟

433

基于50W携程出行攻略构建事件图谱（含码源）：交通工具子图谱、订酒店吃饭事件图谱等项目构成本项目由两个部分的组成,具体包括语料的获取以及基于语料的事件挖掘两个部分,具体项目目录包括:news_spider:基于scrapy的游记采集脚本event_graph:基于依存句法与顺承模式的顺承事件抽取脚image:游记顺承事件图谱效果图1.出行...

大语言模型的预训练[6]：思维链(Chain-of-thought，CoT)原理详解以及在LLM上应用

汀丶

2023-07-20

阅读 4 分钟

3.6k

在 2017-2019 年之间，随着 Transformer 模型的提出，计算资源与大规模语料库不断出现，自然语言处理领域发生了翻天覆地的变化，传统的全监督学习的范式逐渐达到了瓶颈，很难在传统的训练方式上取得大幅度提升。这时大规模预训练模型的如 Bert、RoBERTa 等模型的出现使得研究方向转向了以预训练模型为基础 + 下游任务 Fi...

大语言模型的预训练[5]：语境学习、上下文学习In-Context Learning设计以及ICL底层机制等原理详解

汀丶

2023-07-19

阅读 7 分钟

978

大规模预训练语言模型（LLM）如 GPT-3 是在大规模的互联网文本数据上训练，以给定的前缀来预测生成下一个 token（Next token prediction）。通过预测词的训练目标、大规模数据集以及超高参数量的模型相结合，产生了性能极强的 LLM，它可以 “理解” 任何文本输入，并在其基础上进行“写作”，除此以外，GPT-3 的论文发现，大...

大语言模型的预训练[4]：指示学习Instruction Learning以及和Prompt Learning,ICL区别

汀丶

2023-07-19

阅读 4 分钟

1.3k

Instruction Learning 让模型对题目 / 描述式的指令进行学习。针对每个任务，单独生成指示，通过在若干个 full-shot 任务上进行微调，然后在具体的任务上进行评估泛化能力，其中预训练模型参数是可更新的。

大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现

汀丶

2023-07-18

阅读 11 分钟

1.8k

在自然语言处理问题中，可从互联网上下载大量无标注数据，而针对具体问题的有标注数据却非常少，GPT 是一种半监督学习方法，它致力于用大量无标注数据让模型学习 “常识”，以缓解标注信息不足的问题。其具体方法是在针对有标签数据训练 Fine-tune 之前，用无标签数据预训练模型 Pretrain，并保证两种训练具有同样的网络结...

大语言模型的预训练[3]之Prompt Learning：Prompt Engineering详解

汀丶

2023-07-18

阅读 11 分钟

2.1k

第一范式：传统机器学习模型的范式，基于全监督学习（fully supervised learning）的方法。通过构建特征工程（feature engineering），利用领域知识从数据中提取好的特征，直接解决下游任务。例如tf-idf特征 + 朴素贝叶斯等机器算法。

人工智能LLM模型：奖励模型的训练、PPO 强化学习的训练、RLHF

汀丶

2023-07-17

阅读 4 分钟

1.2k

在大语言模型完成 SFT 监督微调后，下一阶段是构建一个奖励模型来对问答对作出得分评价。奖励模型源于强化学习中的奖励函数，能对当前的状态刻画一个分数，来说明这个状态产生的价值有多少。在大语言模型微调中的奖励模型是对输入的问题和答案计算出一个分数。输入的答案与问题匹配度越高，则奖励模型输出的分数也越高。

人工智能自然语言处理：N-gram和TF-IDF模型详解

汀丶

2023-07-16

阅读 4 分钟

848

N-Gram 是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为 N 的滑动窗口操作，形成了长度是 N 的字节片段序列。

人工智能大语言模型微调技术：SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

汀丶

2023-07-16

阅读 7 分钟

3.4k

SFT（Supervised Fine-Tuning）监督微调是指在源数据集上预训练一个神经网络模型，即源模型。然后创建一个新的神经网络模型，即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识，且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相...

Linux和Windows系统下:Paddle、tensorflow、pytorch/GPU[cuda、cudnn]

汀丶

2023-07-15

阅读 16 分钟

1.3k

Anaconda安装：Anaconda是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。使用Anaconda可以通过创建多个独立的Python环境，避免用户的Python环境安装太多不同版本依赖导致冲突。

强化学习：基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源)

汀丶

2023-07-15

阅读 6 分钟

653

强化学习：基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源)特点自我对弈详细注释流程简单代码结构net：策略价值网络实现mcts：蒙特卡洛树实现server：前端界面代码legacy：废弃代码docs：其他文件utils：工具代码network.py：移植过来的网络结构代码model_5400.pkl：移植过来的网络训练权重train_agent.py：...

学科知识图谱学习平台项目：技术栈Java、Neo4j、MySQL等超详细教学

汀丶

2023-07-14

阅读 2 分钟

625

学科知识图谱学习平台项目：技术栈Java、Neo4j、MySQL等超详细教学0.效果展示1.安装教程安装Java SDK 11，下载前需要登录Oracle账号，下载链接，安装教程，测试是否能在命令行工具调用java {代码...} 打开Neo4j官网，下载社区版服务器，不要选择桌面版，下载链接，依照跳出的网页对Neo4j进行配置，配置完成后能在命令行...

基于知识图谱的电影知识问答系统：训练TF-IDF 向量算法和朴素贝叶斯分类器、在 Neo4j 中查询

汀丶

2023-07-13

阅读 6 分钟

740

基于知识图谱的电影知识问答系统：训练TF-IDF 向量算法和朴素贝叶斯分类器、在 Neo4j 中查询1.项目介绍训练 TF-IDF 向量算法和朴素贝叶斯分类器，预测用户文本所属的问题类别使用分词库解析用户文本词性，提取关键词结合关键词与问题类别，在 Neo4j 中查询问题的答案通过 Flask 对外提供 RESTful API前端交互与答案展示2...

领域知识图谱的医生推荐系统：利用BERT+CRF+BiLSTM的医疗实体识别，建立医学知识图谱，建立知识问答系统

汀丶

2023-07-13

阅读 9 分钟

756

本项目主要实现了疾病自诊和医生推荐两个功能并构建了医生服务指标评价体系。疾病自诊主要通过利用BERT+CRF+BiLSTM的医疗实体识别，建立医学知识图谱，从而实现基于患者问诊文本的疾病初诊。这个功能帮助患者初步了解自身的疾病情况并为下一步与医生的交流提供支持。第二个功能是医生推荐。本平台采用基于Jacard距离的M...

Linux和Windows系统下:Anaconda、Paddle、pytorch，含GPU、CPU版本详细安装过程

汀丶

2023-07-13

阅读 6 分钟

1.1k

从零开始构建一个电影知识图谱，实现KBQA智能问答[下篇]：KBQA问答Demo超详细教学

汀丶

2023-07-11

阅读 15 分钟

787

从零开始构建一个电影知识图谱，实现KBQA智能问答[下篇]：Apache jena SPARQL endpoint及推理、KBQA问答Demo超详细教学效果展示：1.Apache jena SPARQL endpoint及推理在上一篇我们学习了如何利用 D2RQ 来开启 endpoint 服务，但它有两个缺点：不支持直接将 RDF 数据通过 endpoint 发布到网络上。不支持推理。这次我们介...

从零开始构建一个电影知识图谱，实现KBQA智能问答[上篇]：本体建模

汀丶

2023-07-11

阅读 12 分钟

998

从零开始构建一个电影知识图谱，实现KBQA智能问答[上篇]：本体建模、RDF、D2RQ、SPARQL endpoint与两种交互方式详细教学效果展示：首先介绍我们使用的数据、数据来源和数据获取方法；其次，基于数据内部关系，介绍如何以自顶向下的方式构建本体结构。1.数据准备实践篇使用的数据是与电影相关的。基本统计数据如下：演员...

从零开始的知识图谱生活，构建一个百科知识图谱/基于ES的简单语义搜索

汀丶

2023-07-10

阅读 5 分钟

1.4k

目标是包含百度百科、互动百科、中文wiki百科的知识，千万级实体数量和亿级别的关系数目。目前已完成百度百科和互动百科部分，其中百度百科词条4,190,390条，互动百科词条4,382,575条。转换为RDF格式得到三元组 128,596,018个。存入 neo4j中得到节点 16,498,370个，关系 56,371,456个，属性 61,967,517个。

领域知识图谱-中式菜谱知识图谱：实现知识图谱可视化和知识库智能问答系统

汀丶

2023-07-10

阅读 4 分钟

853

A knowledge graph for Chinese cookbook（中式菜谱知识图谱），可以实现知识图谱可视化和知识库智能问答系统（KBQA)

金融时间序列预测方法合集：CNN、LSTM、随机森林、相似度计算、各类评判指标绘图（数学建模科研适用）

汀丶

2023-07-08

阅读 6 分钟

金融时间序列预测方法合集：CNN、LSTM、随机森林、ARMA预测股票价格（适用于时序问题）、相似度计算、各类评判指标绘图（数学建模科研适用）1.使用CNN模型预测未来一天的股价涨跌-CNN（卷积神经网络）使用CNN模型预测未来一天的股价涨跌数据介绍open 开盘价；close 收盘价；high 最高价low 最低价；volume 交易量；label...

手把手教学小型金融知识图谱构建：图算法、关系预测、命名实体识别、Cypher Cheetsheet详细教学等

汀丶

2023-07-08

阅读 17 分钟

1.1k

手把手教学小型金融知识图谱构建：量化分析、图数据库neo4j、图算法、关系预测、命名实体识别、Cypher Cheetsheet详细教学等效果预览：1. 知识图谱存储方式知识图谱存储方式主要包含资源描述框架(Resource Description Framework，RDF)和图数据库（Graph Database）。1.1 资源描述框架特性存储为三元组（Triple）标准的...

基于知识图谱的《红楼梦》人物关系可视化及问答系统（含码源）：命名实体识别、关系识别、LTP简单教学

汀丶

2023-07-07

阅读 8 分钟

2.3k

3) static文件夹存放css和js，是页面的样式和效果的文件4) raw_data文件夹是存在数据处理后的三元组文件5) neo_db文件夹是知识图谱构建模块

手把手教学构建农业知识图谱：农业领域的信息检索+智能问答，命名实体识别，关系抽取，实体关系查询

汀丶

2023-07-07

阅读 10 分钟

721

手把手教学构建农业知识图谱：农业领域的信息检索+智能问答，命名实体识别，关系抽取，实体关系查询1.项目介绍：效果展示：目录结构： {代码...} 可复用资源hudong_pedia.csv : 已经爬好的农业实体的百科页面的结构化csv文件labels.txt： 5000多个手工标注的实体类别predict_labels.txt: KNN算法预测的15W多个实体的类别...

手把手教学构建证券知识图谱/知识库（含码源）：网页获取信息、设计图谱、Cypher查询、Neo4j关系可视化展示

汀丶

2023-07-06

阅读 5 分钟

936

手把手教学构建证券知识图谱/知识库（含码源）：网页获取信息、设计图谱、Cypher查询、Neo4j关系可视化展示demo展示：代码结构 {代码...} 码源下载见文末跳转码源下载见文末跳转1.数据源本项目需要用到两种数据源：一种是公司董事信息，另一种是股票的行业以及概念信息。公司董事信息这部分数据包含在data目录下的stockp...

知识图谱之《海贼王-ONEPICE》领域图谱项目实战（含码源）：知识抽取、知识计算、知识应用、图谱可视化、问答系统(KBQA)等

汀丶

2023-07-06

阅读 20 分钟

1.9k

《海贼王》(英文名ONE PIECE) 是由日本漫画家尾田荣一郎创作的热血少年漫画，因为其宏大的世界观、丰富的人物设定、精彩的故事情节、草蛇灰线的伏笔，受到世界各地的读者欢迎，截止2019年11月7日，全球销量突破4亿6000万本1，并被吉尼斯世界纪录官方认证为“世界上发行量最高的单一作者创作的系列漫画”2。

数据挖掘18大算法实现以及其他相关经典DM算法：决策分类，聚类，链接挖掘

汀丶

2023-07-03

阅读 5 分钟

1.2k

18大数据挖掘的经典算法以及代码实现，涉及到了决策分类，聚类，链接挖掘，关联挖掘，模式挖掘等等方面,后面都是相应算法的博文链接，希望能够帮助大家学。目前追加了其他的一些经典的DM算法，在others的包中涉及聚类，分类，图算法，搜索算等等，没有具体分类。