使用 H2O 深度学习进行异常检测

主要观点:本文主要介绍使用 H2O 的深度学习和异常检测包创建异常检测模型,涵盖异常检测的概念、所用数据集、H2O 的安装及数据读取、训练自编码器等内容。
关键信息

  • 异常检测可视为意外发生的罕见事件,有基于规则和机器学习的检测系统,文中重点介绍基于机器学习的 H2O 自编码器深度学习方法。
  • 所用数据集来自 1974 年《汽车趋势》杂志,经修改引入数据异常,用于演示。
  • 安装 H2O 可通过脚本或下载 tar 文件,可使用 R 语言与 H2O 交互,启动 h2o 服务器可指定线程等参数。
  • 读取数据时可将部分变量转换为因子,还可用 h2o.importFile、h2o.uploadFile 或 as.h2o()导入数据。
  • 训练自编码器用于异常检测,通过 h2o.deeplearning 函数设置相关参数,利用 h2o.anomaly 函数计算均方误差并找出异常记录。
    重要细节
  • 规则-based 系统由行业专家经验设计,检测“已知异常”,而机器学习-based 系统可处理不确定情况。
  • 安装 H2O 脚本中先删除旧版本,下载依赖包,再安装 H2O 包并测试是否安装成功。
  • 读取数据时将 mtcar 中的某些变量转换为因子,便于分析。
  • 训练自编码器时设置隐藏层等参数,通过 h2o.anomaly 函数计算均方误差,定义 cutoff 点为 0.099 来确定异常记录,最终找出两个被模型识别为异常的记录。
阅读 20
0 条评论