1

Install Drill Introduction

2016年1月4日,

你可以安装钻用于嵌入模式或分布式模式。选择嵌入模式钻只使用在单个节点上。安装钻用于嵌入模式不需要管理员安装。使用钻在嵌入式模式不需要配置。

选择分布式模式使用钻在Hadoop集群环境中。集群(多服务器)安装ZooKeeper是其中一个先决条件。您还需要为使用在分布式模式配置钻。完成这些任务后,连接钻你的hive,HBase,或者分布式文件系统的数据源,并运行查询。

使用Parquet文件从先前的安装

如果你安装钻1.2或更早的和生成的Parquet文件,你需要迁移文件用于以后的版本中,在下一节中解释。

←安装钻 迁移Parquet数据→

迁移Parquet数据

数据迁移Parquet你生成使用钻1.2或更早之前强制使用数据在后面的版本。数据必须被标记为Drill-generated。

重要的:
运行升级工具只有在Drill-generated Parquet的文件。

为什么钻迁移数据

钻1.3和以后使用了最新的Apache铺库来生成和分区铺文件,而钻1.2和更早之前的拼花库的使用自己的版本。 钻团队创建自己的版本修复一个缺陷在旧图书馆通过其他工具生成的准确处理Parquet文件,如Impala和hive和其他软件。Apache拼花固定的缺陷在最新的库,使其适用于钻1.3及以后。 钻现在使用Apache拼花图书馆一样黑斑羚、蜂巢等软件。你需要铺上运行升级工具在Parquet生成的文件通过钻1.2和更早使用过先前的版本。

升级工具简单地插入一个元数据标记文件中的版本号为钻文件。

为迁移做准备

留出足够的时间的迁移。通过钻开发人员测试的,花了32分钟升级1TB的数据840文件和370分钟去更新100GB数据在200k的文件。虽然在升级时文件的大小是一个因素,文件数量是最重要的因素。

系统管理员可以编写shell脚本同时运行升级工具在多个子目录。

备份数据迁移和创建一个或多个临时目录在迁移之前在下一节中描述的数据。

如何迁移数据

临时目录或目录保存恢复文件的副本,目前在系统故障时进行修改。检查临时目录也可以指示一个无人看管的迁移的成功或失败。

铺迁移数据生成用于钻1.3或更高版本,您在之前的版本中,遵循这些步骤:

重要:
运行升级工具只有在Drill-generated Parquet的文件。
  1. 备份数据迁移。

  2. 创建一个或多个临时目录,这取决于你如何计划运行升级工具,在同一文件系统作为数据。
    例如,如果数据在HDFS,HDFS上创建临时目录。当您运行升级工具创建不同的临时目录同时在不同的目录中可以有多个目录文件具有相同的名称。

  3. 下载和构建升级工具github

  4. 如果你使用Parquet元数据缓存:
    删除缓存文件生成的所有目录和子目录,运行升级工具的计划。

运行REFRESH TABLE METADATA 在所有先前存在的文件夹缓存文件。

  1. 运行升级工具如以下示例所示:

    java -Dlog.path=/<your path>/drill-upgrade/upgrade.log -cp drill-upgrade-1.0-jar-with-dependencies.jar org.apache.drill.upgrade.Upgrade_12_13 --tempDir=maprfs:///drill/upgrade-temp maprfs:///drill/testdata/

检查迁移的成功

如果你执行一个无人看管的迁移,检查临时目录或目录是空的。空目录显示成功。

迁移失败的处理

如果网络连接出现故障,或者如果用户取消操作,当时正在处理的文件取消可能损坏。从这种情况下,恢复执行以下步骤:

  1. 将文件从临时目录复制到您的Parquet目录文件。

  2. 重新运行升级工具。

跳过文件的工具,已经处理,仅更新剩余的文件。

←安装钻的介绍 安装钻在嵌入式模式→

安装钻在嵌入式模式

嵌入模式的先决条件
2015年12月30日

只使用钻在单个节点上,安装钻在嵌入式模式。在嵌入式模式安装钻,在你的计算机本地安装钻。 嵌入模式是一个快速的方法来安装和试钻而不用 执行任何配置任务。 动物园管理员安装不是必需的。 安装钻在嵌入式模式配置 本地Drillbit服务启动时自动启动钻壳。 你可以在一台机器上安装钻在嵌入式模式 运行Linux、Mac OS X或Windows操作系统。

你需要满足以下先决条件运行钻:

一个PATH环境变量,包括一个指向JDK安装
正在解压一个tar.gz文件的实用程序。

遵循特定的操作系统安装说明在这个文档。

←安装钻在嵌入式模式 在Linux和Mac OS X上安装钻→

在Linux和Mac OS X上安装钻机

2016年2月24日

首先,检查你满足先决条件,然后在Linux或Mac OS X上安装Apache钻:

完成以下步骤来安装钻:

  1. 在一个终端窗口,改变你想要的目录安装钻机。

  2. 下载最新版本的Apache钻在这里或从Apache钻镜像站点使用适合您系统的命令:

    wget http://mirrors.sonic.net/apache/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz
    curl -o apache-drill-1.5.0.tar.gz http://mirrors.sonic.net/apache/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

  3. 将下载文件复制到你想要的目录安装钻机。

  4. 提取钻内容 .tar.gz file. 必要的时候使用sudo命令:
    tar -xvzf <.tar.gz file name>

提取过程创建包含钻软件的安装目录。你现在可以开始钻

←嵌入模式的先决条件 开始钻在Linux和Mac OS X→

开始钻在Linux和Mac OS X

开始钻壳在嵌入模式,使用 drill-embedded命令。在内部,命令使用jdbc连接字符串和标识本地节点作为管理员节点。完成以下步骤开始钻壳:

  1. 导航到钻安装目录。

  2. 发出以下命令启动钻壳:

    bin / drill-embedded
    The 0: jdbc:drill:zk=local> prompt appears.

在这一点上,你可以运行查询

Drill开始,你也可以使用 sqlline 命令和一个自定义连接字符串,作为详细描述 “使用一个Ad-Hoc连接钻”。例如,当你启动shell您可以指定默认存储插件配置。这样在查询中就不需要指定存储插件配置。例如,这个命令指定了dfs存储插件:

bin/sqlline –u jdbc:drill:zk=local;schema=dfs

如果你开始钻在一个网络,然后想使用钻在另一个网络,比如你的家庭网络,重启钻。

关于钻提示

在嵌入模式,钻提示如下:

0: jdbc:drill:zk=local>
  • 0是钻的连接数,也可以只有一个在嵌入式节点。

  • jdbc连接类型。

  • zk=local意味着本地节点替代ZooKeeper节点。

退出钻壳

退出钻壳和停止钻过程在Mac OS X和Linux上,发出以下命令:

!quit

←在Linux和Mac OS X上安装钻 在Windows上安装钻→

在Windows上安装钻

2016年2月24日

首先,检查你满足先决条件 ,包括设置JAVA_HOME环境变量,然后安装钻机。目前,钻仅支持64位Windows。 完成以下步骤来安装钻:

1.下载最新版本的Apache钻 在这里 。
2.将下载文件的目录你想安装钻机。
3.解压GZ文件使用第三方工具。如果你所使用的工具没有潜在解压TAR文件以及GZ文件,执行第二 个解压缩软件提取钻。提取过程创建包含钻软件的安装目录。
在这一点上,你可以开始钻 。

←开始钻在Linux和Mac OS X 在Windows上开始钻→

开始钻在Windows上

开始钻壳使用sqlline命令。完成以下步骤来启动钻壳:

1.打开命令提示符。
2.导航到钻安装文件夹。
3.去bin目录。例如: cd bin
4.在命令行中输入以下命令:sqlline.bat -u "jdbc:drill:zk=local"

clipboard.png

钻的提示出现了。你可以提交查询钻。

您可以使用模式选项 sqlline 命令来指定一个存储插件。指定存储插件启动时消除了需要指定存储插件查询中。例如,这个命令指定了 dfs
存储插件:

C:\bin\sqlline sqlline.bat –u "jdbc:drill:zk=local;schema=dfs"

如果你开始钻在一个网络,然后想使用另一个网络上钻,比如你的家庭网络,重启钻。

退出钻壳

退出钻壳,发出以下命令:

!quit

←在Windows上安装钻机 →安装钻在分布式模式

安装钻在分布式模式

分布式模式的先决条件

2015年12月30日

你可以安装Apache钻在一个或多个节点在集群环境中运行它。

先决条件

集群中的节点上安装钻之前,确保集群满足下列先决条件:

  • Running Oracle JDK version 7 (Required)

  • Running a ZooKeeper quorum (Required)

  • Running a Hadoop cluster (Recommended)

  • Using DNS (Recommended)

←安装钻在分布式模式 在集群上安装钻→

在集群上安装钻

2016年2月24日
你安装钻在集群中的节点,配置集群ID,并添加管理员信息,如以下所述步骤:

1.下载最新版本的Apache钻 在这里 或从 Apache钻镜像站点 使用命令适合您的系统:

wget http://mirrors.sonic.net/apache/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz
curl -o apache-drill-1.5.0.tar.gz http://mirrors.sonic.net/apache/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

2.提取原始码到您选择的目录,如 /opt::

tar -xzvf apache-drill-<version>.tar.gz

3.在drill-override.conf,使用钻cluster ID,并提供管理员的主机名和端口号配置连接到你的动物园管理员群体。
a.编撰drill-override.conf位于conf目录中。
b.提供一个独特的cluster-id和动物园管理员的主机名和端口号在zk.connect。如果你在多个节点上安装钻,分配相同的cluster ID给每个钻节点,这样所有钻节点共享相同的ID。默认管理员港口开源版本的Apache钻是2181。

drill.exec:{
  cluster-id: "<mydrillcluster>",
  zk.connect: "<zkhostname1>:<port>,<zkhostname2>:<port>,<zkhostname3>:<port>"
 }

←分布式模式的先决条件 开始钻在分布式模式→

开始钻在分布式模式

2015年12月30日
使用钻在分布式模式中,您首先需要启动一个钻守护进程(Drillbit)在集群中的每个节点。开始Drillbit前试图连接客户端。启动Drillbit,使用 drillbit.sh 命令。

请注意 
如果你使用钻在嵌入式模式中,不使用drillbit.sh命令。

使用drillbit.sh命令

除了开始Drillbit,你使用 drillbit.sh 命令执行其他任务:

  • 检查Drillbit的状态

  • 停止或重新启动Drillbit

  • 配置一个默认Drillbit重启

您可以使用一个配置文件开始Drillbits。使用这些文件很方便控制Drillbits在多个节点上。

drillbit.sh命令语法

drillbit.sh [--config <conf-dir>] (start|stop|status|restart|autorestart)

例如,重新启动一个Drillbit tarball安装,导航到钻安装目录,并发出以下命令安装目录:

bin/drillbit.sh restart

开始钻壳

使用钻壳,可以交互地使用SQL命令查询连接数据源中的数据。开始钻壳,运行以下脚本之一,它位于钻安装的bin目录:

  • drill-conf使用连接字符串打开钻壳到指定的ZooKeeper节点
    drill-override.conf in <installation directory>/conf.

  • drill-localhost使用钻壳连接到ZooKeeper运行在当地主机

钻提示当你开始出现钻壳。

使用一个Ad-Hoc连接到钻

你通常使用自定义连接钻,但不会改变的连接字符串 drill-conf,开始钻壳在ad-hoc基点使用 sqlline。例如,开始钻壳使用一个特定的存储插件模式,使用下面的命令语法:

sqlline –u jdbc:drill:[schema=<storage plugin>;]zk=<zk name>[:<port>][,<zk name2>[:<port>]... ]

sqlline参数和连接参数

  • -u is the option that precedes(领先) a connection string. Required.

  • jdbc is the connection type. Required.

  • schema is the name of a storage plugin configuration(配置) to use as the default for queries. Optional(可选择的).

  • zk name specifies(指定) one or more ZooKeeper host names or IP addresses.

  • port is the ZooKeeper port number. Optional. Port 2181 is the default for the open source version of Apache Drill.

例如,开始钻壳是用默认模式 dfs存储插件:

bin/sqlline –u jdbc:drill:schema=dfs;zk=centos26

指定存储插件配置名称当你开始就不需要输入USE <schema name>使用<模式名称>
或在FROM子句中指定它。

以下命令启动钻壳在集群上运行管理员配置三点:

bin/sqlline –u jdbc:drill:zk=cento23,centos24,centos26:5181

直接 Drillbit 连接

如果你想直接连接到Drillbit而不是使用管理员选择Drillbit,替换 zk=<zk name>drillbit = <node> 作为下所示的URL。

jdbc:drill:[schema(模式)=<storage plugin(插件)>;]drillbit=<node name>[:<port>][,<node name2>[:<port>]...
]<directory>/<cluster ID>

在哪

drillbit=<node name> specifies one or more host names or IP addresses of cluster nodes running Drill.

退出钻壳

退出钻壳,发出以下命令:

!quit

停止钻

导航到钻安装目录,并发出以下命令停止Drillbit:

bin/drillbit.sh stop

← Installing(安装) Drill on the Cluster Starting the Web Console →

启动Web控制台

钻Web控制台是几个客户端接口之一您可以使用访问钻。

打开Web控制台,启动一个Web浏览器,和去下列url根据配置HTTPS支持:

  • http://<IP address or host name>:8047
    Use this URL when HTTPS support is disabled (the default).

  • https://<IP address or host name>:8047
    Use this URL when HTTPS support is enabled.

←开始钻在分布式模式 配置钻→


眼泪成诗hocc
91 声望13 粉丝

forget-me-not.


引用和评论

0 条评论