学习笔记CB014:TensorFlow seq2seq模型步步进阶

2018-05-05
阅读 29 分钟
3.6k
seq2seq模型基于循环神经网络序列到序列模型,语言翻译、自动问答等序列到序列场景,都可用seq2seq模型,用seq2seq实现聊天机器人的原理 [链接] 。

学习笔记CB013: TensorFlow、TensorBoard、seq2seq

2018-05-05
阅读 12 分钟
2.4k
tensorflow基于图结构深度学习框架,内部通过session实现图和计算内核交互。 tensorflow基本数学运算用法。 {代码...} 主要数字运算。 {代码...} 主要矩阵运算。 {代码...} tensorboard使用。tensorflow代码,先构建图,然后执行,对中间过程调试不方便,提供一个tensorboard工具调试。训练时提示写入事件文件到目录(/tm...

学习笔记CB011:lucene搜索引擎库、IKAnalyzer中文切词工具、检索服务、查询索引、导流、word2vec

2018-04-21
阅读 12 分钟
2.3k
影视剧字幕聊天语料库特点,把影视剧说话内容一句一句以回车换行罗列三千多万条中国话,相邻第二句很可能是第一句最好回答。一个问句有很多种回答,可以根据相关程度以及历史聊天记录所有回答排序,找到最优,是一个搜索排序过程。

学习笔记CB010:递归神经网络、LSTM、自动抓取字幕

2018-03-31
阅读 11 分钟
3.4k
递归神经网络(RNN),时间递归神经网络(recurrent neural network),结构递归神经网络(recursive neural network)。时间递归神经网络神经元间连接构成有向图,结构递归神经网络利用相似神经网络结构递归构造更复杂深度网络。两者训练属同一算法变体。

学习笔记CB009:人工神经网络模型、手写数字识别、多层卷积网络、词向量、word2vec

2018-03-13
阅读 6 分钟
3.8k
由n个输入特征得出与输入特征几乎相同的n个结果,训练隐藏层得到意想不到信息。信息检索领域,模型训练合理排序模型,输入特征,文档质量、文档点击历史、文档前链数目、文档锚文本信息,为找特征隐藏信息,隐藏层神经元数目设置少于输入特征数目,经大量样本训练能还原原始特征模型,相当用少于输入特征数目信息还原全...

学习笔记CB008:词义消歧、有监督、无监督、语义角色标注、信息检索、TF-IDF、隐含语义索引模型

2018-03-12
阅读 4 分钟
4.3k
词义消歧,句子、篇章语义理解基础,必须解决。语言都有大量多种含义词汇。词义消歧,可通过机器学习方法解决。词义消歧有监督机器学习分类算法,判断词义所属分类。词义消歧无监督机器学习聚类算法,把词义聚成多类,每一类一种含义。

学习笔记CB007:分词、命名实体识别、词性标注、句法分析树

2018-03-11
阅读 2 分钟
4.6k
概率图模型条件随机场适用观测值条件下决定随机变量有有限个取值情况。给定观察序列X,某个特定标记序列Y概率,指数函数 exp(∑λt+∑μs)。符合最大熵原理。基于条件随机场命名实体识别方法属于有监督学习方法,利用已标注大规模语料库训练。

学习笔记CB005:关键词、语料提取

2018-03-06
阅读 3 分钟
2.7k
安装scrapy pip install scrapy。创建scrapy工程 scrapy startproject baidu_search。做抓取器,创建baidu_search/baidu_search/spiders/baidu_search.py文件。

学习笔记CB004:提问、检索、回答、NLPIR

2018-02-24
阅读 5 分钟
2.4k
提问,查询关键词生成、答案类型确定、句法和语义分析。查询关键词生成,提问提取关键词,中心词关联扩展词。答案类型确定,确定提问类型。句法和语义分析,问题深层含义剖析。检索,搜索,根据查询关键词信息检索,返回句子或段落。答案抽取,分析和推理检索句子或段落,抽取提问一致实体,根据概率最大对候选答案排序。

学习笔记CB003:分块、标记、关系抽取、文法特征结构

2018-02-14
阅读 2 分钟
3.4k
分块,根据句子的词和词性,按照规则组织合分块,分块代表实体。常见实体,组织、人员、地点、日期、时间。名词短语分块(NP-chunking),通过词性标记、规则识别,通过机器学习方法识别。介词短语(PP)、动词短语(VP)、句子(S)。

学习笔记CB002:词干提取、词性标注、中文切词、文档分类

2018-02-13
阅读 4 分钟
4.2k
英文词干提取器,import nltk,porter = nltk.PorterStemmer(),porter.stem('lying') 。

学习笔记CB001:NLTK库、语料库、词概率、双连词、词典

2018-02-12
阅读 4 分钟
3.5k
聊天机器人知识主要是自然语言处理。包括语言分析和理解、语言生成、机器学习、人机对话、信息检索、信息传输与信息存储、文本分类、自动文摘、数学方法、语言资源、系统评测。

从零开始在iPhone上运行视频流实时预测模型应用,只需10步

2017-11-30
阅读 1 分钟
2.4k
4、下载TensorFlow核心静态库,运行:tensorflow/contrib/makefiles/download_depencies.sh 。

学习笔记DL008:概率论,随机变量,概率分布,边缘概率,条件概率,期望、方差、协方差

2017-11-25
阅读 4 分钟
3.6k
概率论,表示不确定性声明数学框架。提供量化不确定性方法,提供导出新不确定性声明(statement)公理。人工智能领域,概率法则,AI系统推理,设计算法计算概率论导出表达式。概率和统计理论分析AI系统行为。概率论提出不确定声明,在不确定性存在情况下推理。信息论量化概率分布不确定性总量。Jaynes(2003)。机器学习经常...

学习笔记DL007:Moore-Penrose伪逆,迹运算,行列式,主成分分析PCA

2017-11-23
阅读 3 分钟
3.1k
非方矩阵,逆矩阵没有定义。矩阵A的左逆B求解线性方程Ax=y。两边左乘左逆B,x=By。可能无法设计唯一映射将A映射到B。矩阵A行数大于列数,方程无解。矩阵A行数小于列数,矩阵有多个解。

学习笔记DL006:特征分解,奇异值分解

2017-11-22
阅读 2 分钟
3.1k
特征分解(eigendecomposition),使用最广,矩阵分解一组特征向量、特征值。方阵?的特征向量(eigenvector),与?相乘相当对该向量缩放非零向量?,??=λ?。标量λ为特征向量对应特征值(eigenvalue)。左特征向量(left eigenvector) ?ᵀ?=λ?ᵀ,右特征向量(right eigenvector)。?是?的特征向量,任何缩放向量??(?∈ℝ,?≠0)也是?的...

学习笔记DL005:线性相关、生成子空间,范数,特殊类型矩阵、向量

2017-11-21
阅读 2 分钟
3.4k
逆矩阵A⁽-1⁾存在,Ax=b 每个向量b恰好存在一个解。方程组,向量b某些值,可能不存在解,或者存在无限多个解。x、y是方程组的解,z=αx+(1-α),α取任意实数。

学习笔记DL004:标量、向量、矩阵、张量,矩阵、向量相乘,单位矩阵、逆矩阵

2017-11-20
阅读 2 分钟
4.3k
线性代数,面向连续数学,非离散数学。《The Matrix Cookbook》,Petersen and Pedersen,2006。Shilov(1977)。

学习笔记DL003:神经网络第二、三次浪潮,数据量、模型规模,精度、复杂度,对现实世界冲击

2017-11-19
阅读 5 分钟
2.6k
神经科学,依靠单一深度学习算法解决不同任务。视觉信号传送到听觉区域,大脑听学习处理区域学会“看”(Von Melchner et al., 2000)。计算单元互相作用变智能。新认知机(Fukushima,1980),哺乳动物视觉系统结构,处理图片强大模型架构,现代卷积网络基础(LeCun et al., 1998c)。神经网络基于整流线性单元(rectified linear...

学习笔记DL002:AI、机器学习、表示学习、深度学习,第一次大衰退

2017-11-18
阅读 3 分钟
3k
AI早期成就,相对朴素形式化环境,不要求世界知识。如IBM深蓝(Deep Blue)国际象棋系统,1997,击败世界冠军Garry Kasparov(Hsu,2002)。国际象棋,简单领域,64个位置,严格限制方式移动32个棋子。可由简短、完全形式化规则列表描述,容易事先准备。抽象、形式化,是人类最困难脑力任务,但计算机最容易。早期打败人类最...

学习笔记DL001:数学符号、深度学习的概念

2017-11-17
阅读 2 分钟
3.1k
数和数组。?,标量(整数或实数)。?,向量。?,矩阵。?,张量。??,?行?列单位矩阵。?,维度蕴含上下文单位矩阵。?⁽ⁿ⁾,标准基向量[0,…,0,10,…,0],其中索引n处值为1。diag(?),对象方阵,其中对象元素由?给定。a,标量随机变量。?,向量随机变量。?,矩阵随机变量。

学习笔记TF067:TensorFlow Serving、Flod、计算加速,机器学习评测体系,公开数据集

2017-11-14
阅读 5 分钟
4.3k
模型生命周期管理。模型先数据训练,逐步产生初步模型,优化模型。模型多重算法试验,生成模型管理。客户端(Client)向TensorFlow Severing请求模型,TensorFlow Severing返回适当模型给客户端。TensorFlow Serving、gRPC(谷歌公司开源高性能、跨语言RPC框架),提供跨语言RPC接口,不同编程语言都可以访问模型。

学习笔记TF066:TensorFlow移动端应用,iOS、Android系统实践

2017-11-14
阅读 31 分钟
3.4k
移动端应用原理。移动端、嵌入式设备应用深度学习方式,一模型运行在云端服务器,向服务器发送请求,接收服务器响应;二在本地运行模型,PC训练模型,放到移动端预测。向服务端请求数据可行性差,移动端资源稀缺。本地运行实时性更好。加速计算,内存空间和速度优化。精简模型,节省内存空间,加快计算速度。加快框架执...

学习笔记TF065:TensorFlowOnSpark

2017-11-13
阅读 11 分钟
4.4k
Hadoop生态大数据系统分为Yam、 HDFS、MapReduce计算框架。TensorFlow分布式相当于MapReduce计算框架,Kubernetes相当于Yam调度系统。TensorFlowOnSpark,利用远程直接内存访问(Remote Direct Memory Access,RDMA)解决存储功能和调度,实现深度学习和大数据融合。TensorFlowOnSpark(TFoS),雅虎开源项目。[链接] 。支持A...

学习笔记TF064:TensorFlow Kubernetes

2017-11-12
阅读 4 分钟
3.9k
AlphaGo,每个实验1000个节点,每个节点4个GPU,4000 GPU。Siri,每个实验2个节点,8个GPU。AI研究,依赖海量数据计算,离性能计算资源。更大集群运行模型,把周级训练时间缩短到天级小时级。Kubernetes,应用最广泛容器集群管理工具,分布式TensorFlow监控、调度生命周期管理。容器集群自动化部署、扩容、运维开源平台...

学习笔记TF063:TensorFlow Debugger

2017-11-11
阅读 6 分钟
4.2k
TensorFlow Debugger(tfdbg),TensorFlow专用调试器。用断点、计算机图形化展现实时数据流,可视化运行TensorFlow图形内部结构、状态。有助训练推理调试模型错误。[链接] 。

学习笔记TF062:TensorFlow线性代数编译框架XLA

2017-11-11
阅读 5 分钟
3.4k
XLA(Accelerated Linear Algebra),线性代数领域专用编译器(demain-specific compiler),优化TensorFlow计算。即时(just-in-time,JIT)编译或提前(ahead-of-time,AOT)编译实现XLA,有助于硬件加速。XLA还在试验阶段。[链接] 。

学习笔记TF061:分布式TensorFlow,分布式原理、最佳实践

2017-11-10
阅读 18 分钟
5.1k
分布式TensorFlow由高性能gRPC库底层技术支持。Martin Abadi、Ashish Agarwal、Paul Barham论文《TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems》。

学习笔记TF060:图像语音结合,看图说话

2017-11-06
阅读 17 分钟
2.6k
斯坦福大学人工智能实验室李飞飞教授,实现人工智能3要素:语法(syntax)、语义(semantics)、推理(inference)。语言、视觉。通过语法(语言语法解析、视觉三维结构解析)和语义(语言语义、视觉特体动作含义)作模型输入训练数据,实现推理能力,训练学习能力应用到工作,从新数据推断结论。《The Syntax,Semantics and Infer...

学习笔记TF059:自然语言处理、智能聊天机器人

2017-11-06
阅读 27 分钟
4.7k
日本富国生命保险公司花170万美元安装人工智能系统,客户语言转换文本,分析词正面或负面。智能客服是人工能智能公司研究重点。循环神经网络(recurrent neural network,RNN)模型。