五分钟了解一下Hive
1.Hive什么
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表;
hive提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行;
Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户;
hive优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析;
Hive 并不提供实时的查询和基于行级的数据更新操,Hive 构建在基于静态批处理的Hadoop 上,适合离线计算;
Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析;
一张图了解一下大数据离线计算
2.Hive安装的三种模式
内嵌模式:元数据保持在内嵌的derby模式,只允许一个会话连接
本地独立模式:在本地安装Mysql,把元数据放到mySql内
远程模式:元数据放置在远程的Mysql数据库(企业中常用的)
3.安装Hive工具
下载安装包、修改配置文件、安装mysql、分发配置、启动测试
1、下载Hive安装包
http://hive.apache.org/downloads.html
2、将hive文件上传到HADOOP集群,并解压
将文件上传到:/export/software
tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /export/servers/
cd /export/servers/
ln -s apache-hive-1.2.1-bin hive
3、配置环境变量,编辑/etc/profile
#set hive env
export HIVE_HOME=/export/servers/hive
export PATH=${HIVE_HOME}/bin:$PATH
#让环境变量生效source /etc/profile
4、修改hive配置文件
进入配置文件的目录cd /export/servers/hive/conf/
修改hive-env.sh文件cp hive-env.sh.template hive-env.sh
将以下内容写入到hive-env.sh文件中
export JAVA_HOME=/export/servers/jdk
export HADOOP_HOME=/export/servers/hadoop
export HIVE_HOME=/export/servers/hive
修改log4j文件cp hive-log4j.properties.template hive-log4j.properties
将EventCounter修改成org.apache.hadoop.log.metrics.EventCounter
#log4j.appender.EventCounter=org.apache.hadoop.hive.shims.HiveEventCounter
log4j.appender.EventCounter=org.apache.hadoop.log.metrics.EventCounter
配置远程登录模式touch hive-site.xml
####### hive-site.xml和hive-default.xml
将以下信息写入到hive-site.xml文件中
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://hadoop02:3306/hivedb?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
</property>
</configuration>
需要额外:拷贝一个jdbc的驱动包到 hive的lib目录下。
5、安装mysql并配置hive数据库及权限
安装mysql数据库及客户端
yum install mysql-server
yum install mysql
service mysqld start
配置hive元数据库
mysql -u root -p
create database hivedb;
对hive元数据库进行赋权,开放远程连接,开放localhost连接
grant all privileges on *.* to root@"%" identified by "root" with grant option;
grant all privileges on *.* to root@"localhost" identified by "root" with grant option;
6、运行hive命令即可启动hivehive
jar冲突的错误:
参考:如果报错Terminal initialization failed; falling back to unsupported
将/export/servers/hive/lib 里面的jline2.12替换了hadoop 中/export/servers/hadoop/hadoop-2.6.1/share/hadoop/yarn/lib/jline-0.09*.jar
- 本文标签: Hive
- 本文链接: http://www.lzhpo.com/article/67
- 版权声明: 本文由lzhpo原创发布,转载请遵循《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权