大数据学习笔记 - SegmentFault 思否

深度学习之图像分类ResNet50学习

2021-05-10

阅读 5 分钟

8.5k

使用预先训练的模型进行特征提取：使用小型数据集时，通常的做法是利用在相同域中的较大数据集上训练的模型中学习的特征。这是通过实例化预训练的模型并在顶部添加完全连接的分类器来完成的。预先训练的模型是“冻结的”，训练过程中仅更新分类器的权重。在这种情况下，卷积基础提取了与每个图像关联的所有特征，而您刚刚...

深度学习之Bert中文分类学习

小鸡

2021-05-10

阅读 6 分钟

5.1k

Keys对应了三个属性，但其实bert应该是有7个特征属性。为什么另外四个属性在这里没有，目前不是很清楚，但我觉得Hub里面的Advance topics估计是在讲这个事情。但由于现在要做的任务是文本分类，以下的四个特征是不需要的。

深度学习之简单卷积神经网络Fashion MNIST

小鸡

2021-04-30

阅读 4 分钟

Fashion MNIST分类Fashion MNIST数据集现在称之为深度学习的Hello World。替代了之前的手写体识别了。原因应该是深度学习的发展，手写体识别变得太简单了。官方例子官方代码尝试使用卷积神经网络来识别官方卷积神经网络参考获取Fashion MNIST数据 {代码...} 定义卷积神经网络模型 {代码...} 训练模型 {代码...} 训练结果...

深度学习之简单分类

小鸡

2021-04-13

阅读 2 分钟

1.8k

深度学习之简单分类简单二元分类制造数据 {代码...} 构建模型并训练 {代码...} 查看测试数据和预测数据 {代码...} 多分类制造数据 {代码...} 构建模型并训练 {代码...} 查看数据 {代码...}

深度学习之回归模型-简单线性模型

小鸡

2021-03-30

阅读 2 分钟

深度学习之回归模型-简单线性模型数据集生成 {代码...} 定义线性模型 {代码...} 训练模型 {代码...} 画出损失历史图 {代码...} 查看模型是否拟合 {代码...}

sparkStreaming处理离线任务

小鸡

2020-10-23

阅读 1 分钟

2.2k

会有一些任务需要实时调取某用户的XX信息，在这一层如果使用接口去做，如果数据量到达30几万的数据，光一个scan就卡死在那边了。后面采用离线任务去做，大概一个任务可能会需要10几秒左右完成。

Spark读取ElasticSearch数据优化

小鸡

2020-08-21

阅读 3 分钟

6.6k

一般业务上，我们只会关心写ElasticSearch，写也没有用到spark-elasticsearch组件。使用的是ElasticSearch原生的bulkProcessor。

ElasticSearch ILM试玩

小鸡

2020-08-17

阅读 3 分钟

1.9k

ElasticSearch ILM试玩创建一个生命周期管理策略官方给的例子 {代码...} 自己随便造一个，完全可以在Kibana界面上完成操作~ {代码...} 创建一个带有策略的索引副本官方示例 {代码...} 自己造一个 {代码...} 写入索引文档测试 {代码...} 测试的一些问题疑惑设置的是1个文档就rollover，连续放入了好几个文档，也不会生成...

机器学习理论学习

小鸡

2020-06-16

阅读 3 分钟

1.6k

对于K最近邻算法来说，判断新数据是属于红色还是黑色，非常简单，这个点离谁最近，就和谁是同一类了。显然这样看来，它属于红色。但是这非常容易犯了“一叶障目，不见泰山”的问题。可以增加最近邻的数量，假设我们增加到3那么可以清楚地看到，会将新数据归于到黑色分类中。

Jackson的使用

小鸡

2020-03-17

阅读 3 分钟

3.4k

Jackson的使用枚举的序列化和反序列化使用@JsonValue和@JsonCreator {代码...} 使用JsonType {代码...} 反序列化List {代码...}

Spark RDD combineByKey

小鸡

2020-03-08

阅读 2 分钟

2.5k

这是一个很抽象化的方法，一开始看得一头雾水。但是大部分的聚合函数都基于这个方法去实现的，比如常用的reduceByKey，所以这个方法很重要。

ElasticSearch 聚合操作准备数据 {代码...} Metric聚合最小值、平均值、最大值 {代码...} 使用stats得到统计值 {代码...} 分桶聚合对员工的工种进行分桶 {代码...} 使用cardinality得到分桶数量 {代码...} 找到不同工种年龄最大的3个员工的信息 {代码...} Range分桶 {代码...} Histogram 分桶 {代码...} 嵌套分桶 {代...

scala学习：提取器

小鸡

2019-11-12

阅读 1 分钟

1.8k

scala学习：提取器 unapply 与模式匹配 {代码...} 正则表达式 {代码...}

Scala学习：抽象类型

小鸡

2019-11-08

阅读 1 分钟

1.2k

Scala学习：抽象类型 type 现实与代码不兼容的问题先抛出一个现实与代码不兼容的问题。以下代码奶牛吃草是正常的，但你把鱼也喂给奶牛，它竟然也吃起来了。这显然是不合理的。 scala通过type抽象类型解决这个问题 {代码...} 使用type解决不兼容问题 {代码...}

scala学习：枚举

小鸡

2019-11-06

阅读 1 分钟

2.2k

Scala学习：枚举类型枚举 {代码...} 自定义Value {代码...}

scala学习：隐式转换与隐式参数

小鸡

2019-11-05

阅读 2 分钟

2.1k

隐式转换和隐式参数 Scala总共有三个地方会使用隐式定义：转换到一个预期的类型对某个（成员）选择接收端（字段、方法调用等）的转换隐式参数隐式规则标记规则：只有标记为implicit的定义才可用。可标记任何变量、函数、对象作用域规则：被插入的隐式转换必须是当前作用域的单个标识符，或者跟隐式转换的源类型或...

scala学习：特质Trait

小鸡

2019-10-30

阅读 1 分钟

1.3k

特质 Trait Trait可堆叠特性可自由组合你的算法，非常灵活。越靠后的特质越先执行。特质使用的线性化解读super {代码...} 要特质还是不要？如果某个行为不会被复用用具体的类如果某个行为可能被用于多个互不相关的类用特质，只有特质才能被混入类继承关系中位于不同组成部分的类如果想从Java代码中继承某个行为用抽...

scala学习：模式匹配

小鸡

2019-10-29

阅读 3 分钟

1.3k

模式匹配常量模式 {代码...} 变量模式 {代码...} 序列模式 {代码...} 元组模式 {代码...} 带类型模式 {代码...} 变量守卫 {代码...} 密封类担心漏掉某些可能case的模式匹配编译警告：missing combination Int2 {代码...} Option类型 {代码...} 到处都是模式 {代码...}

scala学习：控制抽象

小鸡

2019-10-25

阅读 3 分钟

1.8k

控制抽象减少重复代码重复代码这是一开始最可能写出来的代码，代码很简单，就是文件名的过滤功能。 {代码...} 将逻辑抽象出来定义个filesMatching方法，将逻辑抽象，现在看着就舒服多了。但还不够完美。 {代码...} 去掉不必要参数在逻辑方法中，去掉参数，这样就更清爽了。 {代码...} 借贷模式假设你需要打开一个...

scala学习--方法与函数

小鸡

2019-10-20

阅读 3 分钟

1.9k

scala方法与函数（2.11） Scala介绍 Spark1.6中使用的是Scala2.10。Spark2.0版本以上使用是Scala2.11版本。 Scala官网6个特征 Java和scala可以混编类型推测(自动推测类型) 并发和分布式（Actor）特质，特征(类似java中interfaces 和 abstract结合) 模式匹配（类似java switch）高阶函数 scala方法与函数递归方法 5 4...

HBase 优化

小鸡

2019-10-16

阅读 10 分钟

5.1k

一般安装好的HBase集群，默认配置是给Master和RegionServer 1G的内存，而Memstore默认占0.4，也就是400MB。显然RegionServer给的1G真的太少了。

Oozie概览

小鸡

2019-09-27

阅读 12 分钟

OOZIE概览 [TOC] 调度框架：Linux Crontab，Azkaban，oozie，zeus 三款任务调度系统比较简介 oozie是一个工作流调度系统工作流的调度是DAG 可扩展：一个oozie就是一个mr任务，但是仅仅是map，没有reduce 可靠性：任务失败后重试集成了Hadoop生态系统的其他任务，如mr、pig、hive、sqoop、spark 主要组件 tomcat（serv...

ElasticSearch Hot&Warm架构

小鸡

2019-09-23

阅读 2 分钟

1.9k

ElasticSearch Hot&Warm架构数据通常不会有Update操作；适⽤于Time based索引数据（生命周期管理），同时数据量⽐较大的场景。引⼊Warm节点，低配置大容量的机器存放老数据，以降低部署成本两类数据节点, 不同的硬件配置 Hot 节点（通常使用 SSD）：索引有不断有新⽂档写入。通常使用 SSD Warm 节点（通常使用 H...

ElasticSearch集群部署方式

小鸡

2019-09-20

阅读 1 分钟

2.5k

ElasticSearch集群部署方式节点类型生产环境中建议节点单一职责 Master eligible（使⽤低配置的 CPU，RAM 和磁盘）负责集群状态管理 Data（使⽤高配置的 CPU, RAM 和磁盘）负责数据存储及处理理客户端请求 Ingest（使⽤高配置 CPU；中等配置的RAM；低配置的磁盘）负责数据处理理 Coordinating（使⽤中配置/高配置 ...

ElasticSearch分页与深度分页问题解决

小鸡

2019-09-16

阅读 4 分钟

13.6k

ElasticSearch分页与深度分页问题解决 ElasticSearch分页 {代码...} 这是ElasticSearch最简单的分页查询，但以上命令是会报错的。报错信息，指window默认是10000。 {代码...} 怎么解决这个问题，首先能想到的就是调大这个window。 {代码...} 但这种方法只是暂时解决问题，当数据量越来越大，分页也越来越深，还是会出问...

ElasticSearch分片定位与内部原理

小鸡

2019-09-10

阅读 3 分钟

3.8k

ElasticSearch分片定位与内部原理路由文档到一个分片文档会被存储到一个主分片中。Elasticsearch是如何知道一个文档应该存放到哪个分片中呢？实际上，这个过程是根据下面这个公式决定的： shard = hash(routing) % number_of_primary_shards routing 是一个可变值，默认是文档的 _id ，也可以设置成一个自定义的值。 ...

ElasticSearch跨集群搜索

小鸡

2019-09-05

阅读 3 分钟

5.1k

ElasticSearch跨集群搜索水平扩展痛点当水平扩展时，节点数不能无限增加。因为当集群的meta信息（节点，索引，集群状态）过多，会导致更新压力变大。单个Active Master会成为性能瓶颈，导致整个集群无法正常工作。跨集群搜索Cross Cluster Search 早期版本是通过Tribe Node实现多集群访问需求，但存在一定问题，现...

ElasticSearch搜索建议与上下文提示

小鸡

2019-09-03

阅读 6 分钟

9.9k

ElasticSearch搜索建议与上下文提示搜索建议通过Suggester Api实现原理是将输入的文本分解为Token，然后在词典中查找类似的Term返回根据不同场景，ElasticSearch设计了4中类别的Suggesters。 Term Suggester Phrase Suggester Complete Suggester Context Suggester Term Suggester 类似Google搜索引擎，我给的是一...

ElasticSearch这些概念要明白

小鸡

2019-08-29

阅读 2 分钟

ElasticSearch 基本概念文档（Document） ElasticSearch是面向文档的，文档是可搜索的最小单位。好比日志文件中的日志 MP3播放的一首歌文档会被序列化成JSON格式，保存在ElasticSearch中每个文档都有一个Unique ID 你可以自己制定ID 或者ElasticSearch自动生成。文档元数据元数据用于标注文档的相关信息 _index: ...

CDH离线搭建

小鸡

2019-08-26

阅读 9 分钟

17.5k

CDH离线搭建其实3年前就对CDH神交已久，当时也打算用CDH来作为公司的大数据平台，不过当时也是自己不够给力，导致后面换成了Ambari。最近CDH把HDP收购了，HDP也是我一直在用的一个大数据全家桶。这次想换个口味，感受一下CDH。这里只有两台测试机器，分别为es01,es02。是之前用来做elastic的集群。安装前必须考虑Cl...