SF
汀NLP
汀NLP
注册登录
关注博客
注册登录
主页
关于
RSS
强化学习从基础到进阶-案例与实践[4.2]:深度Q网络DQN-Cart pole游戏展示
汀丶
2023-06-30
阅读 9 分钟
389
强化学习(Reinforcement learning,简称RL)是机器学习中的一个领域,区别与监督学习和无监督学习,强调如何基于环境而行动,以取得最大化的预期利益。
强化学习从基础到进阶--案例与实践含面试必知必答[9]:稀疏奖励、curiosity、分层强化学习HRL
汀丶
2023-06-29
阅读 8 分钟
647
实际上用强化学习训练智能体的时候,多数时候智能体都不能得到奖励。在不能得到奖励的情况下,训练智能体是非常困难的。例如,假设我们要训练一个机器臂,桌上有一个螺丝钉与一个螺丝起子,要训练它用螺丝起子把螺丝钉栓进去很难,因为一开始智能体是什么都不知道,它唯一能够做不同的动作的原因是探索。例如,我们在做 ...
强化学习从基础到进阶-常见问题和面试必知必答[8]:近端策略优化PPO算法
汀丶
2023-06-28
阅读 3 分钟
864
重要性采样(important sampling):使用另外一种分布,来逼近所求分布的一种方法,在强化学习中通常和蒙特卡洛方法结合使用,公式如下:$$ \int f(x) p(x) \mathrm{d} x=\int f(x) \frac{p(x)}{q(x)} q(x) \mathrm{d} x=E_{x \sim q}[f(x){\frac{p(x)}{q(x)}}]=E_{x \sim p}[f(x)] $$我们在已知 $q$ 的分布后,可以使用...
强化学习从基础到进阶-常见问题和面试必知必答[7]:深度确定性策略梯度DDPG算法、TD3算法详解
汀丶
2023-06-27
阅读 2 分钟
804
深度确定性策略梯度(deep deterministic policy gradient,DDPG):在连续控制领域经典的强化学习算法,是深度Q网络在处定性”表示其输出的是一个确定的动作,可以用于连续动作环境;“策略梯度”代表的是它用到的是策略网络,并且每步都会更新一次,其是一个单步更新的策略网络。其与深度Q网络都有目标网络和经验回放的技...
强化学习从基础到进阶--案例与实践[7.1]:深度确定性策略梯度DDPG算法详解项目实战
汀丶
2023-06-27
阅读 12 分钟
914
OpenAI Gym中其实集成了很多强化学习环境,足够大家学习了,但是在做强化学习的应用中免不了要自己创建环境,比如在本项目中其实不太好找到Qlearning能学出来的环境,Qlearning实在是太弱了,需要足够简单的环境才行,因此本项目写了一个环境,大家感兴趣的话可以看一下,一般环境接口最关键的部分即使reset和step。
强化学习从基础到进阶-常见问题和面试必知必答[6]:演员-评论员算法,异步A2C、与生成对抗网络的联系等详解
汀丶
2023-06-26
阅读 4 分钟
904
异步优势演员-评论员(asynchronous advantage actor-critic,A3C)算法:一种改进的演员-评论员算法,通过异步的操作,实现强化学习模型训练的加速。
强化学习从基础到进阶-常见问题和面试必知必答[5]::梯度策略、添加基线、优势函数、动作分配合适的分数
汀丶
2023-06-25
阅读 5 分钟
880
策略(policy):在每一个演员中会有对应的策略,这个策略决定了演员的后续动作。具体来说,策略就是对于外界的输入,输出演员现在应该要执行的动作。一般地,我们将策略写成 $\pi$ 。
强化学习从基础到进阶-案例与实践[4.1]:深度Q网络-DQN项目实战CartPole-v0
汀丶
2023-06-24
阅读 12 分钟
869
相比于Q learning,DQN本质上是为了适应更为复杂的环境,并且经过不断的改良迭代,到了Nature DQN(即Volodymyr Mnih发表的Nature论文)这里才算是基本完善。DQN主要改动的点有三个:
强化学习从基础到进阶-常见问题和面试必知必答[4]::深度Q网络-DQN、double DQN、rainbow
汀丶
2023-06-24
阅读 10 分钟
1.2k
深度Q网络(deep Q-network,DQN):基于深度学习的Q学习算法,其结合了价值函数近似(value function approximation)与神经网络技术,并采用目标网络和经验回放等方法进行网络的训练。
强化学习从基础到进阶-常见问题和面试必知必答[3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等
汀丶
2023-06-23
阅读 5 分钟
609
概率函数和奖励函数:概率函数定量地表达状态转移的概率,其可以表现环境的随机性。但是实际上,我们经常处于一个未知的环境中,即概率函数和奖励函数是未知的。
强化学习从基础到进阶-常见问题和面试必知必答[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
汀丶
2023-06-20
阅读 5 分钟
502
马尔可夫性质(Markov property,MP):如果某一个过程未来的状态与过去的状态无关,只由现在的状态决定,那么其具有马尔可夫性质。换句话说,一个状态的下一个状态只取决于它的当前状态,而与它当前状态之前的状态都没有关系。
强化学习从基础到进阶-常见问题和面试必知必答[1]:强化学习概述、序列决策、动作空间定义Gym强化学习实验
汀丶
2023-06-19
阅读 4 分钟
655
强化学习(reinforcement learning,RL):智能体可以在与复杂且不确定的环境进行交互时,尝试使所获得的奖励最大化的算法。
强化学习从基础到进阶-案例与实践[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验
汀丶
2023-06-19
阅读 29 分钟
1.5k
强化学习(reinforcement learning,RL) 讨论的问题是智能体(agent)怎么在复杂、不确定的环境(environment)中最大化它能获得的奖励。如图 1.1 所示,强化学习由两部分组成:智能体和环境。在强化学习过程中,智能体与环境一直在交互。智能体在环境中获取某个状态后,它会利用该状态输出一个动作 (action),这个动...
全国大数据与计算智能挑战赛:面向低资源的命名实体识别基线方案,排名13/64
汀丶
2023-06-18
阅读 28 分钟
792
全国大数据与计算智能挑战赛:面向低资源的命名实体识别baseline,排名13/64。第一名:0.68962791,基线:0.67902593 ,感兴趣小伙伴可以刷刷榜。 国防科技大学系统工程学院(大数据与决策实验室)
2023中国高校计算机大赛 — 大数据挑战赛:论文学科分类(清华大学主办)
汀丶
2023-06-17
阅读 25 分钟
1.4k
赛事背景自 2022 年底以来,大规模语言模型在各行各业产生了广泛的应用,其中围绕学术工具开发也诞生了许多具有影响力的应用,例如 ChatPDF 等。另一方面,在 2023 年 3 月 14 日,智谱 AI 与清华大学联合发布了 ChatGLM-6B 开源模型,并在不到一个月的时间内吸引了超过 100 万人下载安装。该模型在 Hugging Face (HF) ...
人工智能领域:面试常见问题超全(深度学习基础、卷积模型、预训练模型、计算机视觉、自然语言处理、推荐系统、)
汀丶
2023-06-16
阅读 2 分钟
631
人工智能领域:面试常见问题超全(深度学习基础、卷积模型、对抗神经网络、预训练模型、计算机视觉、自然语言处理、推荐系统、模型压缩、强化学习、元学习)人工智能领域:面试常见问题1.深度学习基础为什么归一化能够提高求解最优解的速度?为什么要归一化?归一化与标准化有什么联系和区别?归一化有哪些类型?Min-max...
深度学习实践篇[17]:模型压缩技术、模型蒸馏算法:DynaBERT、TinyBERT
汀丶
2023-06-16
阅读 11 分钟
816
理论上来说,深度神经网络模型越深,非线性程度也就越大,相应的对现实问题的表达能力越强,但相应的代价是,训练成本和模型大小的增加。同时,在部署时,大模型预测速度较低且需要更好的硬件支持。但随着深度学习越来越多的参与到产业中,很多情况下,需要将模型在手机端、IoT端部署,这种部署环境受到能耗和设备体积的...
深度学习应用篇-元学习[16]:基于模型的元学习-Learning to Learn优化策略、Meta-Learner LSTM
汀丶
2023-06-15
阅读 8 分钟
855
Learning to Learn by Gradient Descent by Gradient Descent 提出了一种全新的优化策略,用 LSTM 替代传统优化方法学习一个针对特定任务的优化器。
深度学习应用篇-元学习[15]:基于度量的元学习:SNAIL、RN、PN、MN
汀丶
2023-06-15
阅读 14 分钟
881
元学习可以被定义为一种序列到序列的问题,在现存的方法中,元学习器的瓶颈是如何去吸收同化利用过去的经验。注意力机制可以允许在历史中精准摘取某段具体的信息。
深度学习应用篇-元学习[14]:基于优化的元学习-MAML模型、LEO模型、Reptile模型
汀丶
2023-06-14
阅读 14 分钟
876
Model-Agnostic Meta-Learning (MAML): 与模型无关的元学习,可兼容于任何一种采用梯度下降算法的模型。MAML 通过少量的数据寻找一个合适的初始值范围,从而改变梯度下降的方向,找到对任务更加敏感的初始参数,使得模型能够在有限的数据集上快速拟合,并获得一个不错的效果。该方法可以用于回归、分类以及强化学习。
深度学习应用篇-元学习[13]:元学习概念、学习期、工作原理、模型分类等
汀丶
2023-06-14
阅读 3 分钟
991
元学习 (Meta-Learning) 通常被理解为“学会学习 (Learning-to-Learn)”,指的是在多个学习阶段改进学习算法的过程。在基础学习过程中,内部(或下层/基础)学习算法解决由数据集和目标定义的任务。在元学习过程中,外部(或上层/元)算法更新内部学习算法,使其学习的模型改进外部目标。因此,元学习的核心想法是学习一个...
深度学习应用篇-推荐系统[12]:经典模型-DeepFM模型、DSSM模型召回排序策略以及和其他模型对比
汀丶
2023-06-13
阅读 6 分钟
458
CTR预估是目前推荐系统的核心技术,其目标是预估用户点击推荐内容的概率。DeepFM模型包含FM和DNN两部分,FM模型可以抽取low-order(低阶)特征,DNN可以抽取high-order(高阶)特征。低阶特征可以理解为线性的特征组合,高阶特征,可以理解为经过多次线性-非线性组合操作之后形成的特征,为高度抽象特征。无需Wide&Deep...
深度学习应用篇-推荐系统[11]:推荐系统的组成、场景转化指标(pv点击率,uv点击率,曝光点击率)、用户数据指标等评价指标详解
汀丶
2023-06-13
阅读 10 分钟
394
在网络技术不断发展和电子商务规模不断扩大的背景下,商品数量和种类快速增长,用户需要花费大量时间才能找到自己想买的商品,这就是信息超载问题。为了解决这个难题,个性化推荐系统(Recommender System)应运而生。
深度学习应用篇-自然语言处理[10]:N-Gram、SimCSE介绍,更多技术:智能标注、多分类算法、文本信息抽取等
汀丶
2023-06-12
阅读 9 分钟
667
N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征...
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别属性抽取实战项目合集(含智能标注)
汀丶
2023-06-12
阅读 20 分钟
858
命名实体识别(Named Entity Recoginition, NER)旨在将一串文本中的实体识别出来,并标注出它所指代的类型,比如人名、地名等等。具体地,根据MUC会议规定,命名实体识别任务包括三个子任务:
深度学习应用篇-计算机视觉-视频分类[8]:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
汀丶
2023-06-11
阅读 8 分钟
1.2k
视频流的爆炸性增长为以高精度和低成本执行视频理解任务带来了挑战。传统的2D CNN计算成本低,但无法捕捉视频特有的时间信息;3D CNN可以得到良好的性能,但计算量庞大,部署成本高。作者提出了一种通用且有效的时间偏移模块(TSM),它通过沿时间维度移动部分通道来促进相邻帧间的信息交换,同时它可以插入到2D CNN中实...
深度学习应用篇-OCR光学字符识别[7]:常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
汀丶
2023-06-11
阅读 9 分钟
1.4k
OCR(Optical Character Recognition,光学字符识别)是指对图像进行分析识别处理,获取文字和版面信息的过程,是典型的计算机视觉任务,通常由文本检测和文本识别两个子任务构成。
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
汀丶
2023-06-09
阅读 14 分钟
564
作者发现Deep Convolutional Neural Networks (DCNNs) 能够很好的处理的图像级别的分类问题,因为它具有很好的平移不变性(空间细节信息已高度抽象),但是DCNNs很难处理像素级别的分类问题,例如姿态估计和语义分割,它们需要准确的位置信息。
深度学习应用篇-计算机视觉-语义分割综述[5]:SegNet分割算法、常用二维三维半立体数据集汇总、前景展望等
汀丶
2023-06-09
阅读 18 分钟
714
目前,计算机视觉是深度学习领域最热门的研究领域之一。从广义上来说,计算机视觉就是要“赋予机器自然视觉的能力”。实际上,计算机视觉本质上就是研究视觉感知问题,其目标就是对环境的表达和理解,核心问题是研究如何对输入的图像信息进行组织,对物体和场景进行识别,进而对图像内容给予解释。更进一步来说,计算机视...
深度学习应用篇-计算机视觉-目标检测[4]:边界框、锚框(交并比、非极大值抑制NMS、SoftNMS
汀丶
2023-06-08
阅读 20 分钟
1.2k
对计算机而言,能够“看到”的是图像被编码之后的数字,它很难理解高层语义概念,比如图像或者视频帧中出现的目标是人还是物体,更无法定位目标出现在图像中哪个区域。目标检测的主要目的是让计算机可以自动识别图片或者视频帧中所有目标的类别,并在该目标周围绘制边界框,标示出每个目标的位置,如 图1 所示。
上一页
1
…
More
5
6
7
(current)
8
9
…
More
下一页
上一页
7
(current)
下一页