hadoop简介与安装(一)

2017-09-23

hadoop

大数据

介绍hadoop

在海量数据的场景下,为了解决分布式部署中的公共问题一些框架就出现了hadoop,zookeeper
hadoop:由很多的技术框架组成的一个生态系统.它是一个上层的应用软件(java编写的)
不关是用来做海量数据储存的,因为在解决海量数据的处理中,解决了一些分布式很共同的问题,把解决这些问题的方法抽离出来,形成各种各样的框架.将这些框架单独拿出来也可以在项目中使用.

hadoop三个主要框架:

海量数据的存储(HDFS):分布式集群的文件系统,区别本机的文件系统

海量数据的分析(运算模型)(MapReduce):分析运算的模型,自己写运算逻辑(程序),写出来的就是MapReduce程序,通过YARM分配到节点之后运行MapReduce程序

Map程序:在不同节点并发运行
Reduce程序:全局处理,只在一同节点上运行,通过网络取得Map程序的结果.在分组统计时,Reduce也可以有多个

MapReduce:擅长海量离线日志分析,可由hive工具编写
storm:实时的流计算
spark:实时的迭代运算

资源管理调度(YARN):集群

安装hadoop:

集群的安装是很繁琐的事,Cloudera这个公司开发的安装系统(脚本)之后,只需要在一个节点,在浏览器中打开Cloudera,然后选择你所需要的服务,点确定之后,所以的程序包自动下载并安装好,同时还提供对集群的管理监控

但个人还是使用apache官方的hadoop

环境为: centos7 + hadoop.2.8.1 + virtualbox5 + jdk8

前提:

virtualbox5网络配置,联网成功
vim /etc/sysconfig/network-scripts/ifcfg-enp0s3 设置IP为192.168.1.222,并重启network
在/root目录下执行如下脚本,并且请在此目录提前下载好hadoop-2.8.1.tar.gz

1	curl https://file.femnyy.com/file/install_hadoop.sh \| sudo sh

注意:之后的所有操作也是root用户操作

访问:http://192.168.1.222:50070

巨坑:所有的服务都成功开启,但就是在主机访问不了,关闭了防火墙也不行,弄了半天的virtualbox的网络设置(自认为是没有错的)也不行,没想到居然是配置文件的问题
配置文件的巨坑

centos 7启动图形界面

# 方法一
yum group list
yum group install "GNOME Desktop"
startx
# 当重新启动时执行,就可以进入系统了
# You might have to hit 1, then 2 to agree to the license, then C to continue.
1--2--c--yes
# yum group install "GNOME Desktop" "Graphical Administration Tools"
# 开机时自动就是设置图形界面
# ln -sf /lib/systemd/system/runlevel5.target /etc/systemd/system/default.target 
# reboot
# 方法二
init 5