介绍hadoop
在海量数据的场景下,为了解决分布式部署中的公共问题一些框架就出现了hadoop,zookeeper
hadoop:由很多的技术框架组成的一个生态系统.它是一个上层的应用软件(java编写的)
不关是用来做海量数据储存的,因为在解决海量数据的处理中,解决了一些分布式很共同的问题,把解决这些问题的方法抽离出来,形成各种各样的框架.将这些框架单独拿出来也可以在项目中使用.
hadoop三个主要框架:
海量数据的存储(HDFS):分布式集群的文件系统,区别本机的文件系统
海量数据的分析(运算模型)(MapReduce):分析运算的模型,自己写运算逻辑(程序),写出来的就是MapReduce程序,通过YARM分配到节点之后运行MapReduce程序
Map程序:在不同节点并发运行
Reduce程序:全局处理,只在一同节点上运行,通过网络取得Map程序的结果.在分组统计时,Reduce也可以有多个
MapReduce:擅长海量离线日志分析,可由hive工具编写
storm:实时的流计算
spark:实时的迭代运算
资源管理调度(YARN):集群
安装hadoop:
集群的安装是很繁琐的事,Cloudera这个公司开发的安装系统(脚本)之后,只需要在一个节点,在浏览器中打开Cloudera,然后选择你所需要的服务,点确定之后,所以的程序包自动下载并安装好,同时还提供对集群的管理监控
但个人还是使用apache官方的hadoop
环境为: centos7 + hadoop.2.8.1 + virtualbox5 + jdk8
前提:
- virtualbox5网络配置,联网成功
- vim /etc/sysconfig/network-scripts/ifcfg-enp0s3 设置IP为192.168.1.222,并重启network
- 在/root目录下执行如下脚本,并且请在此目录提前下载好hadoop-2.8.1.tar.gz
|
|
注意:之后的所有操作也是root用户操作
访问:http://192.168.1.222:50070
巨坑:所有的服务都成功开启,但就是在主机访问不了,关闭了防火墙也不行,弄了半天的virtualbox的网络设置(自认为是没有错的)也不行,没想到居然是配置文件的问题
centos 7启动图形界面
|
|