2

本节涵盖Apache钻教程中的关键信息。在安装钻沙箱和启动沙箱后,您可以打开另一个(Linux)终端窗口或(Windows)命令提示符,使用安全的shell(ssh壳)连接到VM,假设ssh已安装好。使用下面的登录名和密码:mapr/ mapr。为例子登录:

$ ssh mapr@localhost -p 2222
Password:
Last login: Mon Sep 15 13:46:08 2014 from 10.250.0.28
Welcome to your Mapr Demo virtual machine.

使用安全shell代替VM接口有一些优势。您可以从本教程复制/粘贴命令,避免鼠标控制问题。

Drill包括一个外壳连接到关系数据库和执行SQL命令。沙箱,钻壳运行在嵌入式模式。登录到沙盒后,使用 SQLLine命令。钻壳出现,您可以运行钻查询。

[mapr@maprdemo ~]$ sqlline
apache drill 1.1.0 
"Does your data know the Drill?"
0: jdbc:drill:>

在本教程中,您查询的数据集,包括hive和HBase和在文件系统中的文件,例如CSV、JSON、Parquet等文件。去访问这些不同的数据源,你连接钻到存储插件。

存储插件概述

你使用存储插件连接到一个数据源,如文件或Hive元存储。看看存储插件通过打开存储在钻Web控制台定义标签。启动一个web浏览器并打开:http://<IP address>:8047/storage.

控制面板来管理存储插件出现。
clipboard.png

你看到下面的存储插件配置:

  • cp

  • dfs

  • hive

  • maprdb

  • hbase

  • mongo

单击更新检查配置。

如果你在使用沙箱之前使用一个已安装的钻,你可 能会注意到,在沙箱中几个存储插件配置不同与在drill安装的存储插件。沙箱配置dfs,hive,maprdb和hbase存储插件定义在模拟运行的集群环境中扮演一个角色在教程中。

dfs

沙箱中dfs存储插件配置连接到MapR文件系统(MapR-FS)。

在沙箱中配置存储插件还包含一组工作区;每一个代表在MapR-FS中的一个位置:

  • 根:访问根文件系统位置

  • 点击:访问嵌套的JSON日志数据

  • 日志:在日志目录及其子目录访问平面(非嵌套)JSON日志数据

  • 视图:创建视图的工作区域

dfs配置包含格式定义。

{
  "type": "file",
  "enabled": true,
  "connection": "maprfs:///",
  "workspaces": {
    "root": {
      "location": "/mapr/demo.mapr.com/data",
      "writable": false,
      "defaultInputFormat": null
    },
    "clicks": {
      "location": "/mapr/demo.mapr.com/data/nested",
      "writable": true,
      "defaultInputFormat": "parquet"
    },
 . . .
 "formats": {
 . . .
   "csv": {
      "type": "text",
      "extensions": [
        "csv"
      ],
     "delimiter": ","
  },
 . . .
   "json": {
      "type": "json"
  },
   "maprdb": {
      "type": "maprdb"
  }
 . . .

maprdb

maprdb是MapR-DB在沙箱中的配置。你使用这种格式在沙箱查询MapR-DB/HBase表。

hive

在沙箱内hive为hive数据仓库配置。钻通过使用配置元存储连接到hive元存储节省URI。drill的元数据表自动供用户查询。

{
  "type": "hive",
  "enabled": true,
  "configProps": {
    "hive.metastore.uris": "thrift://localhost:9083",
    "hive.metastore.sasl.enabled": "false"
  }
}

不要在沙箱之外使用这个存储插件配置。使用的配置为远程或嵌入式云存储配置 。

←【用MapR Sandbox学习钻】
←【关于MapR沙箱】

关于MapR沙箱

本教程使用Hadoop用drill的预先配置环境,MapR沙箱。MapR包括钻作为的Hadoop分布的一部分。MapR的 沙箱的钻是一个功能齐全的单节点集群,被用来在Hadoop环境下获取钻的概览。商业和技术分析师、产品经理和开发人员可以使用沙箱环境通过执行各种类型的查询了解钻的力量和才能。

Hadoop不是钻的一个先决条件,用户可以开始增加 与钻直接在本地文件系统上运行SQL查询。请参考Apache钻在10分钟内 进行介绍在本地使用钻 (嵌入式)模式。

下一节Lesson1:学习数据集→


眼泪成诗hocc
91 声望13 粉丝

forget-me-not.


引用和评论

0 条评论