汀NLP - SegmentFault 思否

机器学习算法（四）: 基于支持向量机的分类预测

2023-03-24

阅读 9 分钟

946

支持向量机（Support Vector Machine，SVM）是一个非常优雅的算法，具有非常完善的数学理论，常用于数据分类，也可以用于数据的回归预测中，由于其其优美的理论保证和利用核函数对于线性不可分问题的处理技巧，在上世纪90年代左右，SVM曾红极一时。

机器学习算法（二）: 基于鸢尾花数据集的朴素贝叶斯(Naive Bayes)预测分类

汀丶

2023-03-23

阅读 6 分钟

1k

朴素贝叶斯算法（Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到，有着坚实的数学基础，以及稳定的分类效率。NB模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。当年的垃圾邮件分类都是基于朴素贝叶斯分类器...

机器学习算法（一）: 基于逻辑回归的分类预测

汀丶

2023-03-22

阅读 11 分钟

904

逻辑回归（Logistic regression，简称LR）虽然其中带有"回归"两个字，但逻辑回归其实是一个分类模型，并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热，但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。

基于PaddleOCR的多视角集装箱箱号检测识别

汀丶

2023-03-21

阅读 12 分钟

1.1k

第一部分由4位英文字母组成。前三位代码主要说明箱主、经营人，第四位代码说明集装箱的类型。列如CBHU 开头的标准集装箱是表明箱主和经营人为中远集运

4.基于Label studio的训练数据标注指南：情感分析任务观点词抽取、属性抽取

汀丶

2023-03-05

阅读 4 分钟

1.4k

情感分析任务Label Studio使用指南1.基于Label studio的训练数据标注指南：信息抽取（实体关系抽取）、文本分类等2.基于Label studio的训练数据标注指南：（智能文档）文档抽取任务、PDF、表格、图片抽取标注等3.基于Label studio的训练数据标注指南：文本分类任务4.基于Label studio的训练数据标注指南：情感分析任务观...

2.基于Label studio的训练数据标注指南：（智能文档）文档抽取任务、PDF、表格、图片抽取标注等

汀丶

2023-03-04

阅读 4 分钟

1.3k

文档抽取任务Label Studio使用指南1.基于Label studio的训练数据标注指南：信息抽取（实体关系抽取）、文本分类等2.基于Label studio的训练数据标注指南：（智能文档）文档抽取任务、PDF、表格、图片抽取标注等3.基于Label studio的训练数据标注指南：文本分类任务4.基于Label studio的训练数据标注指南：情感分析任务观...

1.基于Label studio的训练数据标注指南：信息抽取（实体关系抽取）、文本分类等

汀丶

2023-03-03

阅读 5 分钟

1.2k

文本抽取任务Label Studio使用指南1.基于Label studio的训练数据标注指南：信息抽取（实体关系抽取）、文本分类等2.基于Label studio的训练数据标注指南：（智能文档）文档抽取任务、PDF、表格、图片抽取标注等3.基于Label studio的训练数据标注指南：文本分类任务4.基于Label studio的训练数据标注指南：情感分析任务观...

3.基于Label studio的训练数据标注指南：文本分类任务

汀丶

2023-03-02

阅读 2 分钟

1.6k

文本分类任务Label Studio使用指南1.基于Label studio的训练数据标注指南：信息抽取（实体关系抽取）、文本分类等2.基于Label studio的训练数据标注指南：（智能文档）文档抽取任务、PDF、表格、图片抽取标注等3.基于Label studio的训练数据标注指南：文本分类任务4.基于Label studio的训练数据标注指南：情感分析任务观...

推荐系统[四]：精排-详解排序算法LTRpoitwise, pairwise, listwise相关评价指标

汀丶

2023-03-01

阅读 11 分钟

2.3k

0.前言召回排序流程策略算法简介推荐可分为以下四个流程，分别是召回、粗排、精排以及重排：召回是源头，在某种意义上决定着整个推荐的天花板；粗排是初筛，一般不会上复杂模型；精排是整个推荐环节的重中之重，在特征和模型上都会做的比较复杂；重排，一般是做打散或满足业务运营的特定强插需求，同样不会使用复杂模型...

推荐系统[八]算法实践总结V2：排序学习框架(特征提取标签获取方式)以及京东推荐算法精排技术实战

汀丶

2023-02-28

阅读 9 分钟

1.2k

「排序学习（Learning to Rank，LTR）」，也称「机器排序学习（Machine-learned Ranking，MLR)」，就是使用机器学习的技术解决排序问题。自从机器学习的思想逐步渗透到信息检索等领域之后，如何利用机器学习来提升信息检索的性能水平变成了近些年来非常热门的研究话题，因此产生了各类基于机器学习的排序算法，也带来了...

推荐系统[八]算法实践总结V0：腾讯音乐全民K歌推荐系统架构及粗排设计

汀丶

2023-02-27

阅读 11 分钟

835

1.前言：召回排序流程策略算法简介推荐可分为以下四个流程，分别是召回、粗排、精排以及重排：召回是源头，在某种意义上决定着整个推荐的天花板；粗排是初筛，一般不会上复杂模型；精排是整个推荐环节的重中之重，在特征和模型上都会做的比较复杂；重排，一般是做打散或满足业务运营的特定强插需求，同样不会使用复杂模...

推荐系统[八]算法实践总结V1：淘宝逛逛and阿里飞猪个性化推荐：召回算法实践总结

汀丶

2023-02-25

阅读 13 分钟

1.3k

0.前言：召回排序流程策略算法简介推荐可分为以下四个流程，分别是召回、粗排、精排以及重排：召回是源头，在某种意义上决定着整个推荐的天花板；粗排是初筛，一般不会上复杂模型；精排是整个推荐环节的重中之重，在特征和模型上都会做的比较复杂；重排，一般是做打散或满足业务运营的特定强插需求，同样不会使用复杂模...

国内“谁”能实现chatgpt，短期穷出的类ChatGPT简评（算法侧角度为主），以及对MOSS、ChatYuan给出简评

汀丶

2023-02-24

阅读 6 分钟

1.4k

ChatGPT（全名：Chat Generative Pre-trained Transformer），美国OpenAI 研发的聊天机器人程序，于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻...

推荐系统[三]：粗排算法常用模型汇总(集合选择和精准预估)，技术发展历史（向量內积，Wide&Deep等模型）以及前沿技术

汀丶

2023-02-23

阅读 6 分钟

1.9k

1.前言：召回排序流程策略算法简介推荐可分为以下四个流程，分别是召回、粗排、精排以及重排：召回是源头，在某种意义上决定着整个推荐的天花板；粗排是初筛，一般不会上复杂模型；精排是整个推荐环节的重中之重，在特征和模型上都会做的比较复杂；重排，一般是做打散或满足业务运营的特定强插需求，同样不会使用复杂模...

推荐系统[二]：召回算法超详细讲解[召回模型演化过程、召回模型主流常见算法、召回路径简介、多路召回融合]

汀丶

2023-02-22

阅读 6 分钟

2.1k

1.前言：召回排序流程策略算法简介推荐可分为以下四个流程，分别是召回、粗排、精排以及重排：召回是源头，在某种意义上决定着整个推荐的天花板；粗排是初筛，一般不会上复杂模型；精排是整个推荐环节的重中之重，在特征和模型上都会做的比较复杂；重排，一般是做打散或满足业务运营的特定强插需求，同样不会使用复杂模...

推荐系统[一]：超详细知识介绍，一份完整的入门指南，解答推荐系统相关算法流程、

汀丶

2023-02-21

阅读 7 分钟

1.3k

如果说互联网的目标就是连接一切，那么推荐系统的作用就是建立更加有效率的连接，推荐系统可以更有效率的连接用户与内容和服务，节约了大量的时间和成本。

基于文心大模型套件ERNIEKit实现文本匹配算法，模块化方便应用落地

汀丶

2023-02-15

阅读 18 分钟

1.2k

文心大模型，产业级知识增强大模型介绍官网：[链接]文心大模型开发套件ERNIEKit，面向NLP工程师，提供全流程大模型开发与部署工具集，端到端、全方位发挥大模型效能。提供业界效果领先的ERNIE 3.0系列开源模型和基于ERNIE的前沿任务模型，满足企业和开发者对NLP模型开发和学习的需求，预置文本分类、文本匹配、序列标注...

特定领域知识图谱融合方案：文本匹配算法之预训练Simbert、ERNIE-Gram单塔模型等诸多模型【三】

汀丶

2023-02-14

阅读 27 分钟

953

文本匹配任务在自然语言处理中是非常重要的基础任务之一，一般研究两段文本之间的关系。有很多应用场景；如信息检索、问答系统、智能对话、文本鉴别、智能推荐、文本数据去重、文本相似度计算、自然语言推理、问答系统、信息检索等，但文本匹配或者说自然语言处理仍然存在很多难点。这些自然语言处理任务在很大程度上都...

特定领域知识图谱融合方案：学以致用-问题匹配鲁棒性评测比赛验证【四】

汀丶

2023-02-14

阅读 11 分钟

990

文本匹配任务在自然语言处理中是非常重要的基础任务之一，一般研究两段文本之间的关系。有很多应用场景；如信息检索、问答系统、智能对话、文本鉴别、智能推荐、文本数据去重、文本相似度计算、自然语言推理、问答系统、信息检索等，但文本匹配或者说自然语言处理仍然存在很多难点。这些自然语言处理任务在很大程度上都...

2023计算机领域顶会(A类)以及ACL 2023自然语言处理（NLP）研究子方向领域汇总

汀丶

2023-02-06

阅读 11 分钟

1.9k

2023年的计算语言学协会年会（ACL 2023）共包含26个领域，代表着当前前计算语言学和自然语言处理研究的不同方面。每个领域都有一组相关联的关键字来描述其潜在的子领域，这些子领域并非排他性的，它们只描述了最受关注的子领域，并希望能够对该领域包含的相关类型的工作提供一些更好的想法。

特定领域知识图谱融合方案：文本匹配算法(Simnet、Simcse、Diffcse)

汀丶

2023-02-01

阅读 14 分钟

1.1k

文本匹配任务在自然语言处理中是非常重要的基础任务之一，一般研究两段文本之间的关系。有很多应用场景；如信息检索、问答系统、智能对话、文本鉴别、智能推荐、文本数据去重、文本相似度计算、自然语言推理、问答系统、信息检索等，但文本匹配或者说自然语言处理仍然存在很多难点。这些自然语言处理任务在很大程度上都...

NLP知识图谱项目合集（信息抽取、文本分类、图神经网络、性能优化等)

汀丶

2023-01-30

阅读 7 分钟

823

NLP知识图谱项目合集（信息抽取、文本分类、图神经网络、性能优化等）这段时间完成了很多大大小小的小项目，现在做一个整体归纳方便学习和收藏，有利于持续学习。1. 信息抽取项目合集1.PaddleNLP之UIE技术科普【一】实例：实体识别、情感分析、智能问答[链接]NLP领域任务选择合适预训练模型以及合适的方案【规范建议】【...

特定领域知识图谱(DKG)融合方案：技术知识前置【一】-文本匹配算法、知识融合方案

汀丶

2023-01-18

阅读 23 分钟

1.6k

本项目主要围绕着特定领域知识图谱(Domain-specific KnowledgeGraph:DKG)融合方案：技术知识前置【一】-文本匹配算法、知识融合学术界方案、知识融合业界落地方案、算法测评KG生产质量保障讲解了文本匹配算法的综述，从经典的传统模型到孪生神经网络“双塔模型”再到预训练模型以及有监督无监督联合模型，期间也涉及了近几...

基于ERNIELayout&PDFplumber-UIEX的多方案学术论文信息抽取【2022总结 2023展望新年第一篇文章】

汀丶

2023-01-05

阅读 13 分钟

1.1k

本项目链接：[链接]基于ERNIELayout&pdfplumber-UIE的多方案学术论文信息抽取，小样本能力强悍，OCR、版面分析、信息抽取一应俱全。

强化学习调参技巧二：DDPG、TD3、SAC算法为例：

汀丶

2022-12-15

阅读 6 分钟

2.9k

先写一个简化版的训练环境。把任务难度降到最低，确保一定能正常训练。记录正常训练的智能体的分数，与随机动作、传统算法得到的分数做比较。DRL算法的分数应该明显高于随机动作（随机执行动作）。DRL算法不应该低于传统算法的分数。如果没有传统算法，那么也需要自己写一个局部最优的算法

卡塔尔世界杯出现了半自动越位识别技术、动作轨迹捕捉等黑科技。

汀丶

2022-12-12

阅读 3 分钟

964

“旅程”的球体表面由20个名为SPEEDSHELL的纹理聚氨酯球面材料模块组成，通过热黏合拼接技术贴合在一起，是第一款完全使用水性涂料和水基胶的世界杯用球。贴合的设计可以更好地降低足球空中运行的阻力，从而提升足球在飞行时的稳定性。

[信息抽取]基于ERNIE3.0的多对多信息抽取算法：属性关系抽取

汀丶

2022-12-03

阅读 13 分钟

1.2k

实体关系，实体属性抽取是信息抽取的关键任务；实体关系抽取是指从一段文本中抽取关系三元组，实体属性抽取是指从一段文本中抽取属性三元组；信息抽取一般分以下几种情况一对一，一对多，多对一，多对多的情况：

PGL图学习项目合集&数据集分享&技术归纳业务落地技巧[系列十]

汀丶

2022-12-02

阅读 14 分钟

1.3k

本项目对图基本概念、关键技术（表示方法、存储方式、经典算法），应用等都进行详细讲解，并在最后用程序实现各类算法方便大家更好的理解。当然之后所有图计算相关都是为了知识图谱构建的前置条件

PGL图学习之基于UniMP算法的论文引用网络节点分类任务[系列九]

汀丶

2022-11-30

阅读 38 分钟

843

图神经网络（Graph Neural Network）是一种专门处理图结构数据的神经网络，目前被广泛应用于推荐系统、金融风控、生物计算中。图神经网络的经典问题主要有三种，包括节点分类、连接预测和图分类三种，本次比赛是主要让同学们熟悉如何图神经网络处理节点分类问题。

PGL图学习之项目实践(UniMP算法实现论文节点分类、新冠疫苗项目实战，助力疫情)[系列九]

汀丶

2022-11-29

阅读 14 分钟

1k

图是一个复杂世界的通用语言，社交网络中人与人之间的连接、蛋白质分子、推荐系统中用户与物品之间的连接等等，都可以使用图来表达。图神经网络将神经网络运用至图结构中，可以被描述成消息传递的范式。百度开发了PGL2.2，基于底层深度学习框架paddle，给用户暴露了编程接口来实现图网络。与此同时，百度也使用了前沿的...