汀NLP - SegmentFault 思否

PGL图学习之项目实践(UniMP算法实现论文节点分类、新冠疫苗项目实战，助力疫情)[系列九]

2022-11-29

阅读 14 分钟

图是一个复杂世界的通用语言，社交网络中人与人之间的连接、蛋白质分子、推荐系统中用户与物品之间的连接等等，都可以使用图来表达。图神经网络将神经网络运用至图结构中，可以被描述成消息传递的范式。百度开发了PGL2.2，基于底层深度学习框架paddle，给用户暴露了编程接口来实现图网络。与此同时，百度也使用了前沿的...

图神经网络之预训练大模型结合：ERNIESage在链接预测任务应用

汀丶

2022-11-27

阅读 11 分钟

1.1k

在很多工业应用中，往往出现如下图所示的一种特殊的图：Text Graph。顾名思义，图的节点属性由文本构成，而边的构建提供了结构信息。如搜索场景下的Text Graph，节点可由搜索词、网页标题、网页正文来表达，用户反馈和超链信息则可构成边关系。

PGL图学习之图神经网络ERNIESage、UniMP进阶模型[系列八]

汀丶

2022-11-26

阅读 25 分钟

1.2k

PGL图学习之图神经网络ERNIESage、UniMP进阶模型[系列八]原项目链接：fork一下即可：[链接]相关项目参考：（其余图神经网络相关项目见主页）关于图计算&图学习的基础知识概览：前置知识点学习（PGL）[系列一] [链接]图机器学习(GML)&图神经网络(GNN)原理和代码实现(前置学习系列二）：[链接]图学习【参考资料1】词向量wo...

PGL图学习之图神经网络GraphSAGE、GIN图采样算法[系列七]

汀丶

2022-11-19

阅读 23 分钟

1.5k

0. PGL图学习之图神经网络GraphSAGE、GIN图采样算法[系列七]本项目链接：[链接]相关项目参考：更多资料见主页关于图计算&图学习的基础知识概览：前置知识点学习（PGL）[系列一] [链接]图机器学习(GML)&图神经网络(GNN)原理和代码实现(前置学习系列二）：[链接]在图神经网络中，使用的数据集可能是亿量级的数据，而由于GP...

PGL图学习之图神经网络GNN模型GCN、GAT[系列六]

汀丶

2022-11-18

阅读 13 分钟

1.5k

ICLR2023的评审结果已经正式发布！今年的ICLR2023共计提交6300份初始摘要和4922份经过审查的提交，其中经过审查提交相比上一年增加了32.2%。在4922份提交内容中，99%的内容至少有3个评论，总共有超过18500个评论。按照Open Review评审制度，目前ICLR已经进入讨论阶段。

PGL图学习之图游走类metapath2vec模型[系列五]

汀丶

2022-11-17

阅读 16 分钟

877

PGL图学习之图游走类metapath2vec模型[系列五]本项目链接：[链接]有疑问查看原项目相关项目参考：关于图计算&图学习的基础知识概览：前置知识点学习（PGL）[系列一] [链接]图机器学习(GML)&图神经网络(GNN)原理和代码实现(前置学习系列二）：[链接]图学习【参考资料2】-知识补充与node2vec代码注解： [链接]图学习【参考...

Paddle Graph Learning (PGL)图学习之图游走类模型[系列四]

汀丶

2022-11-16

阅读 25 分钟

724

Paddle Graph Learning (PGL)图学习之图游走类模型[系列四]更多详情参考：Paddle Graph Learning 图学习之图游走类模型[系列四] [链接]相关项目参考：关于图计算&图学习的基础知识概览：前置知识点学习（PGL）[系列一] [链接]图机器学习(GML)&图神经网络(GNN)原理和代码实现(前置学习系列二）：[链接]图学习【参考资料1...

图学习【参考资料2】-知识补充与node2vec代码注解

汀丶

2022-11-15

阅读 12 分钟

1.2k

本项目参考：[链接]*一、正题篇：DeepWalk、word2vec、node2vec其它相关项目:关于图计算&图学习的基础知识概览：前置知识点学习（PGL）[系列一] [链接]图机器学习(GML)&图神经网络(GNN)原理和代码实现(前置学习系列二）：[链接]1.1 DeepWalk算法流程【图来源：网络，笔记由笔者添上】算法流程：【其中使用skip-gram模型...

图学习初探Paddle Graph Learning 构建属于自己的图【系列三】

汀丶

2022-11-14

阅读 13 分钟

896

项目链接：[链接]如遇到问题查看原项目解决图学习温故以及初探Paddle Graph Learning (PGL)构建属于你的图【系列三】相关项目参考：图机器学习(GML)&图神经网络(GNN)原理和代码实现(前置学习系列二）：[链接]关于图计算&图学习的基础知识概览：前置知识点学习（PGL）[系列一] [链接]0.知识点回顾根据图的节点间是否有方...

词向量word2vec（图学习参考资料1）

汀丶

2022-11-13

阅读 18 分钟

1.2k

在自然语言处理任务中，词向量（Word Embedding）是表示自然语言里单词的一种方法，即把每个词都表示为一个N维空间内的点，即一个高维空间内的向量。通过这种方法，实现把自然语言计算转换为向量计算。

图机器学习(GML)&图神经网络(GNN)原理和代码实现(前置学习系列二）

汀丶

2022-11-12

阅读 15 分钟

1.7k

项目链接：[链接]欢迎fork欢迎三连！文章篇幅有限，部分程序出图不一一展示，详情进入项目链接即可图机器学习(GML)&图神经网络(GNN)原理和代码实现（PGL）[前置学习系列二]上一个项目对图相关基础知识进行了详细讲述，下面进图GMLnetworkx ：NetworkX 是一个 Python 包，用于创建、操作和研究复杂网络的结构、动力学和功...

关于图计算&图学习的基础知识概览：前置知识点学习（Paddle Graph L）系列【一】

汀丶

2022-11-11

阅读 21 分钟

1.2k

关于图计算&图学习的基础知识概览：前置知识点学习（Paddle Graph Learning (PGL)）欢迎fork本项目原始链接：关于图计算&图学习的基础知识概览：前置知识点学习（Paddle Graph L）[链接]因为篇幅关系就只放了部分程序在第三章，如有需求可自行fork项目原始链接。0.1图计算基本概念首先看到百度百科定义：图计算（Graph P...

基线提升至96.45%：2022 司法杯犯罪事实实体识别+数据蒸馏+主动学习

汀丶

2022-11-10

阅读 20 分钟

本项目给出本次法研杯详细的技术方案，从UIE-base开始到UIE数据蒸馏以及主动学习的建议，欢迎大家尝试，ps：主动学习标注需要自行实现，参考项目，楼主就不标注了。

NLP领域任务如何选择合适预训练模型以及选择合适的方案【规范建议】【ERNIE模型首选】

汀丶

2022-11-09

阅读 7 分钟

1.2k

信息抽取：从给定文本中抽取重要的信息，比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来，就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。

主动学习（Active Learning）简介综述汇总以及主流技术方案

汀丶

2022-11-08

阅读 12 分钟

2.9k

主动学习(Active Learning)综述以及在文本分类和序列标注应用项目链接fork一下，含实践程序，因篇幅有限就没放在本博客中，如有需求请自行fork [链接]

知识蒸馏相关技术【模型蒸馏、数据蒸馏】以ERNIE-Tiny为例

汀丶

2022-11-07

阅读 6 分钟

1.1k

基于ERNIE预训练模型效果上达到业界领先，但是由于模型比较大，预测性能可能无法满足上线需求。直接使用ERNIE-Tiny系列轻量模型fine-tune，效果可能不够理想。如果采用数据蒸馏策略，又需要提供海量未标注数据，可能并不具备客观条件。因此，本专题采用主流的知识蒸馏的方案来压缩模型，在满足用户预测性能、预测效果的...

Paddle模型性能分析工具Profiler：定位瓶颈点、优化程序、提升性能

汀丶

2022-11-04

阅读 13 分钟

1.3k

Paddle Profiler是飞桨框架自带的低开销性能分析器，可以对模型运行过程的性能数据进行收集、统计和展示。性能分析器提供的数据可以帮助定位模型的瓶颈，识别造成程序运行时间过长或者GPU利用率低的原因，从而寻求优化方案来获得性能的提升。

在数据增强、蒸馏剪枝下ERNIE3.0模型性能提升项目链接：[链接]以CBLUE数据集中医疗搜索检索词意图分类为例：本项目首先讲解了数据增强和数据蒸馏的方案，并在后面章节进行效果展示，结果预览：模型ACCPrecisionRecallF1average_of_acc_and_f1ERNIE 3.0 Base0.802550.93171470.9082840.9198500.86120ERNIE 3.0 Base+数据...

应用实践：Paddle分类模型大集成者[PaddleHub、Finetune、prompt]

汀丶

2022-11-02

阅读 18 分钟

1.1k

相关文章：Paddlenlp之UIE模型实战实体抽取任务【打车数据、快递单】Paddlenlp之UIE分类模型【以情感倾向分析新闻分类为例】含智能标注方案）项目连接：[应用实践：分类模型大集成者[PaddleHub、Finetune、prompt]]([链接])1.基于PaddleHub下的分类模型构建PaddleHub--API接口文档说明：遇到不知道参数设置具体情况清查...

小样本学习在文心ERNIE3.0多分类任务应用--提示学习

汀丶

2022-11-01

阅读 13 分钟

1.3k

二分类/多分类任务在商品分类、网页分类、新闻分类、医疗文本分类等现实场景中有着广泛应用。现有的主流解决方案是在大规模预训练语言模型进行微调，因为下游任务和预训练任务训练目标不同，想要取得较好的分类效果往往需要大量标注数据，因此学界和业界开始研究如何在小样本学习（Few-shot Learning）场景下取得更好的...

推广TrustAI可信分析：通过提升数据质量来增强在ERNIE模型下性能

汀丶

2022-10-31

阅读 13 分钟

875

快递单中抽取关键信息【一】----基于BiGRU+CR+预训练的词向量优化

汀丶

2022-10-28

阅读 26 分钟

1.1k

相关文章：本项目连接：[链接]快递单中抽取关键信息数据集链接：[链接]主要介绍：PaddleNLP中的网络层BiGRU、CRF、ViterbiDecoder。通过paddlenlp.embedding的功能，热启动加载中文词向量，提升效果评价指标paddlenlp.metrics.ChunkEvaluatorPART A. 背景介绍A.1 快递单信息抽取任务如何从物流信息中抽取想要的关键信息...

快递单信息抽取【三】--五条标注数据提高准确率，仅需五条标注样本，快速完成快递单信息任务

汀丶

2022-10-27

阅读 6 分钟

1.1k

本项目将演示如何通过五条标注样本进行模型微调，快速且准确抽取快递单中的姓名、电话、省、市、区、详细地址等内容，形成结构化信息。辅助物流行业从业者进行有效信息的提取，从而降低客户填单的成本。

快递单信息抽取【二】基于ERNIE1.0至ErnieGram + CRF预训练模型

汀丶

2022-10-26

阅读 12 分钟

890

命名实体识别是NLP中一项非常基础的任务，是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体识别的准确度，决定了下游任务的效果，是NLP中的一个基础问题。在NER任务提供了两种解决方案，一类LSTM/GRU + CRF，通过RNN类的模型来抽取底层文本的信息，而CRF(条件随机场)模型来学习底层Token...

基于Ernie-3.0 CAIL2019法研杯要素识别多标签分类任务

汀丶

2022-10-25

阅读 10 分钟

本项目链接：基于Ernie-3.0 CAIL2019法研杯要素识别多标签分类任务本项目将介绍如何基于PaddleNLP对ERNIE 3.0预训练模型微调完成法律文本多标签分类预测。本项目主要包括“什么是多标签文本分类预测”、“ERNIE 3.0模型”、“如何使用ERNIE 3.0中文预训练模型进行法律文本多标签分类预测”等三个部分。

UIE_Slim满足工业应用场景，解决推理部署耗时问题，提升效能。

汀丶

2022-10-24

阅读 15 分钟

1.7k

在UIE强大的抽取能力背后，同样需要较大的算力支持计算。在一些工业应用场景中对性能的要求较高，若不能有效压缩则无法实际应用。因此，基于数据蒸馏技术构建了UIE Slim数据蒸馏系统。其原理是通过数据作为桥梁，将UIE模型的知识迁移到封闭域信息抽取小模型，以达到精度损失较小的情况下却能达到大幅度预测速度提升的效果。

PaddleNLP通用信息抽取技术UIE【一】产业应用实例：信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、

汀丶

2022-10-21

阅读 17 分钟

1.1k

相关文章：1.快递单中抽取关键信息【一】----基于BiGRU+CR+预训练的词向量优化2.快递单信息抽取【二】基于ERNIE1.0至ErnieGram + CRF预训练模型3.快递单信息抽取【三】--五条标注数据提高准确率，仅需五条标注样本，快速完成快递单信息任务1）PaddleNLP通用信息抽取技术UIE【一】产业应用实例：信息抽取{实体关系抽取、...

AiTrust下预训练和小样本学习在中文医疗信息处理挑战榜CBLUE表现

汀丶

2022-10-19

阅读 18 分钟

1.1k

CBLUE又是一个CLUE榜单，大家都知道近年来NLP领域随着预训练语言模型（下面简称PTLM）的兴起又迎来了一波迅猛发展，得益于PTLM技术的推动，催生出一批多任务的benchmark榜单，代表性的工作是GLUE，在中文领域也有CLUE。CBLUE的全名是Chinese Biomedical Language Understanding Evaluation，是目前国内首个医疗AI方向的...

【一】ERNIE：飞桨开源开发套件，入门学习，看看行业顶尖持续学习语义理解框架，如何取得世界多个实战的SOTA效果？

汀丶

2022-10-19

阅读 5 分钟

761

参考文章：深度剖析知识增强语义表示模型——ERNIE_财神Childe的博客-CSDN博客_ernie模型ERNIE_ERNIE开源开发套件_飞桨[链接]1.背景介绍近年来，语义表示（language representation）技术的发展，使得 “预训练-微调” 作为解决NLP任务的一种新的范式开始出现。一个通用的表示能力强的模型被选择为语义表示模型，在预训练阶...

PaddleNLP--UIE（二）--小样本快速提升性能（含doccona标注

汀丶

2022-10-18

阅读 12 分钟

1.5k

自动从无结构或半结构的文本中抽取出结构化信息的任务, 主要包含的任务包含了实体识别、关系抽取、事件抽取、情感分析、评论抽取等任务; 同时信息抽取涉及的领域非常广泛，信息抽取的技术需求高，下面具体展现一些示例