一、下载Hbase版本并安装

1、下载

  • 官方版本:http://archive.apache.org/dist/
  • CDH版本:archive.cloudera.com/cdh5/

一般选择CDH配套的版本,兼容性好

2、安装解压

二、分布式集群的相关配置

1、基本
这里切换回hadoop分布式集群,暂时不使用HA

hadoop01 hadoop02 hadoop03
NameNode
DataNode DataNode DataNode
zookeeper zookeeper zookeeper
HMaster
RegionServer RegionServer RegionServer

2、配置

  • 配置hbase-env.sh

  • 配置hbase-site.xml

  • 配置regionservers

三、启动依赖于zookeeper和HDFS的两个服务

1、从hadoop-HA还原到hadoop分布式集群

2、分发hbase到其他两个节点

3、启动namenode和datanode

4、启动Hbase

然后输入master的地址,可以通过Web进行查看

四、通过shell测试数据库

1、连接hbase

2、hbase shell操作

面向列的数据库(列式数据库)

五、日志信息存储需求分析及表的创建

下载了开源的用户查询日志

根据官网给的字段信息
访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL

具体的表结构,后面flume使用时一起给出