elastic stack 那些事【10】

pipeline
1. input-filter-output 3阶段处理流程
2. 队列管理
3. 插件生命周期管理
logstash event
1. 内部流转的数据表现性时
2. 原始数据在input被转换为event 在output event被转换为目标格式数据
3. 在配置文件中可对event中的属性进行增删改查

in memory 无法处理 crash 宕机等情况导致数据丢失
persistent queue in disk
1. 可处理crash 等情况数据不会丢失
2. 保证数据至少消费一次
3. 充当缓冲区替代kafka等消息队列
queue.type:persisted (default memory)
queue.max_bytes:4gb 队列存储最大数据量

pipeline.workers|-w pipeline线程数即filter_output处理线程数默认是cpu核数
pipeline.batch.size|-b batcher 一次批量获取待处理文档数默认125 可以根据输出进行调整越大占用的heap空间可以通过jvm.options调整
pipeline.batch.delay|-u Batcher等待的时长单位为ms

logstash 设置配置文件
1. logstash.yml logstash配置例如 node.name path.data pipeline.workers queue.type
2. jvm.options 修改jvm参数例如 heap size
pipeline 定义数据处理流程文件以conf结尾

用于配置 input filter output 插件
input{}
filter{}
output{}

主要的数值类型

boolean : isFailed => true
数值类型 Number port=>33
字符串类型 String name=>"hello world"
数组
1. users => [{id=>1, name=>bob},{id=>2, name=> lili}]
2. path => ["/var/log/messages","/var/log/*.log"]

hash
match=>{

 "filed1" => "value1"
 "field2" => "value2"

}

注释 #
在配置中可以引用logstash event 的属性主要有两种方式
1. 直接引用字符串
  1. 世界引用字段值使用[]即可例如 [request] ua
2. 在字符串中以sprintf方式引用
  1. 使用%{}来实现例如 req => "request is %{request}"
支持条件判断语法 if expression {} else if expression {} else {}
表达式包含的操作符
1. 比较：== != <> <= >=
2. 正则是否匹配：=~ !~
3. 包含(字符串或者数组): in、 not in
4. 布尔操作符: and or nand xor !
5. 分组操作符：()