购物网站开发报告,池州有哪些做网站的,建筑毕业设计代做网站,谷歌商店paypal官网下载部署伪分布式 Hadoop集群 一、JDK安装配置1.1 下载JDK1.2 上传解压1.3 java环境配置 二、伪分布式 Hadoop 安装配置2.1 Hadoop 下载2.2 上传解压2.3 Hadoop 文件目录介绍2.4 Hadoop 配置2.4.1 修改 core-site.xml 配置文件2.4.2 修改 hdfs-site.xml 配置文件2.4.3 修改 hadoop-… 部署伪分布式 Hadoop集群 一、JDK安装配置1.1 下载JDK1.2 上传解压1.3 java环境配置 二、伪分布式 Hadoop 安装配置2.1 Hadoop 下载2.2 上传解压2.3 Hadoop 文件目录介绍2.4 Hadoop 配置2.4.1 修改 core-site.xml 配置文件2.4.2 修改 hdfs-site.xml 配置文件2.4.3 修改 hadoop-env.xml 配置文件2.4.4 修改 mapred-site.xml 配置文件2.4.5 修改 yarn-site.xml 配置文件2.4.6 修改 slaves 配置文件2.4.7 配置 Hadooop 环境变量2.4.8 创建配置文件里面的目录 三、启动伪分布式 Hadoop 集群3.1 格式化主节点 namenode3.2 启动 Hadoop 伪分别集群3.3 查看 Hadoop 服务进程3.4 查看 HDFS 文件系统3.5 查看 YARN 资源管理系统 四、测试运行 Hadoop 伪分布集群4.1 查看 HDFS 目录4.2 参加 HDFS 目录4.3 准备测试数据4.4 测试数据上次到 HDFS4.5 运行 WordCount 案例查看作业运行结果 一、JDK安装配置
部署伪分布式 Hadoop 集群的安装依赖JDK
1.1 下载JDK
下载地址https://www.oracle.com/java/technologies/downloads/#license-lightbox
根据需要进行下载我的系统是 Centos Linux 7 所以就下载
1.2 上传解压
使用xshell等工具将java压缩包上传到 /root 根目录使用下面命令解压java并放到 /usr/local/ 目录下面
tar -zxvf jdk-8u421-linux-x64.tar.gz -C /usr/local/1.3 java环境配置
设置软连接方便使用
ln -s jdk1.8.0_421 jdk配置JDK环境变量
vim /etc/profile添加如下内容
# 添加JAVA环境变量
JAVA_HOME/usr/local/jdk
CLASSPATH.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH$JAVA_HOME/bin:$PATH刷新配置环境
source /etc/profile二、伪分布式 Hadoop 安装配置
2.1 Hadoop 下载
下载地址https://hadoop.apache.org/releases.html 根据需要下载自己的版本这里我下载 2.10.2
2.2 上传解压
上传到根目录 /root
把文件解压到 /usr/local
tar -zxvf /usr/local/hadoop-2.10.2.tar.gz -C /usr/local/配置软连接
ln -s /usr/local/hadoop-2.10.2/ hadoop2.3 Hadoop 文件目录介绍
Hadoop目录介绍 bin 存放内容Hadoop的各种可执行脚本和程序如启动和停止Hadoop服务的脚本、Hadoop命令行工具等。功能用于执行对Hadoop相关服务如HDFS、YARN、MapReduce等的操作和管理任务。 etc 存放内容Hadoop的配置文件如hadoop-env.sh环境变量配置、core-site.xml核心配置、hdfs-site.xmlHDFS配置、yarn-site.xmlYARN配置和mapred-site.xmlMapReduce配置等。功能这些文件定义了Hadoop集群的行为和设置是Hadoop正常运行的基础。 include 存放内容供C/C应用程序使用的Hadoop相关的头文件。功能当需要编写与Hadoop交互的本地代码时这些头文件是必要的。它们提供了与Hadoop API交互的接口和定义。 lib 存放内容Hadoop运行所需的本地库.so文件即动态链接库。功能这些库提供了如压缩/解压缩等底层功能支持是Hadoop正常运行的必要条件。 sbin 存放内容包含超级用户管理员使用的脚本主要用于系统级别的操作如启动和停止Hadoop守护进程。功能这些脚本通常需要更高的权限来执行用于管理Hadoop集群的底层服务和进程。 share 存放内容Hadoop的共享资源主要包括Java的jar包二进制源码、文档和其他资源文件。子目录如share/hadoop/common、share/hadoop/hdfs、share/hadoop/yarn和share/hadoop/mapreduce等分别对应Hadoop各个组件的库文件和文档。功能这些资源为Hadoop的开发和部署提供了必要的支持包括API文档、示例代码和依赖库等。 logs 存放内容Hadoop各个组件和服务的日志文件通常以.log结尾。功能这些日志文件记录了Hadoop集群的运行状态和错误信息是问题排查和性能优化的重要依据。
2.4 Hadoop 配置
2.4.1 修改 core-site.xml 配置文件
core-site.xml 文件主要是配置 Hadoop 的共有属性具体配置内容如下所示。
[roothadoop1 hadoop]# vim core-site.xml 在里面添加如下内容注释记得去掉避免引起格式错误
propertynamefs.defaultFS/namevaluehdfs://hadoop1:9000/value!--配置 hdfs NameNode 的地址9000是RPC通信的端口--
/property
propertynamehadoop.tmp.dir/namevalue/data/tmp/value!--hadoop 的临时目录--
/property2.4.2 修改 hdfs-site.xml 配置文件
hdfs-site.xml 文件主要配置跟 HDFS相关的属性具体配置内容如下所示
[roothadoop1 hadoop]# vim hdfs-site..xml 在里 面添加如下内容注释记得去掉避免引起格式错误
propertynamedfs.namenode.name.dir/namevalue/root/data/dfs/name/value!--配置 namenode 节点存储 fsimage的目录位置--
/property
propertynamedfs.datanode.data.dir/namevalue/root/data/dfs/data/value!--配置 datanode 节点存储 block 的目录位置--
/property
propertynamedfs.replication/namevalue1/value!--配置 hdfs 副本数量--
/property
propertynamedfs.permissions/namevaluefalse/value!--关闭 hdfs 的权限检查--
/property2.4.3 修改 hadoop-env.xml 配置文件
hadoop.env.sh 文件主要配置 Hadoop 环境相关的变量这里主要修改JAVA_HOME的安装目录具体配置如下所示。
[roothadoop1 hadoop]# vim hadoop-env.sh 大概第 25 行位置进行修改 export JAVA_HOME/usr/local/jdk
备注如果你有给JAVA配置JAVA_HOME环境变量此处也可以不进行修改
2.4.4 修改 mapred-site.xml 配置文件
mapred-site.xml 文件主要配置跟 MapReduce 相关的属性这里主要将 MapReduce 的运行框架名称配置为 YARN具体配置内容如下所示
# 先拷贝一份
[roothadoop1 hadoop]# cp mapred-site.xml.template mapred-site.xml
[roothadoop1 hadoop]# vim mapred-site.xml在里面添加如下内容注释记得去掉避免引起格式错误
propertynamemapreduce.framework.name/namevalueyarn/value!--指定运行 mapreduce 的环境为 YARN--
/property2.4.5 修改 yarn-site.xml 配置文件
yarn-site.xml 文件主要配置跟 YARN 相关的属性具体配置内容如下所示。
[roothadoop1 hadoop]# vim yarn-site.xml在里面添加如下内容注释记得去掉避免引起格式错误
propertynameyarn.nodemanager.aux-services/namevaluemapreduce_shuffle/value!--配置 NodeManager 执行MR任务的方式为 Shuffle 混洗--
/property2.4.6 修改 slaves 配置文件
slaves 文件主要配置哪些节点为 datanode 角色由于目前搭建的是 Hadoop伪分布集群所以只需要填写当前主机的 hostname 即可具体配置内容如下所示
[roothadoop1 hadoop]# vim slaves里面添加如下内容(主机名称): hadoop1
2.4.7 配置 Hadooop 环境变量
在 root 用户下添加 Hadoop 环境变量 具体操作如下所示
[roothadoop1 hadoop]# vim /etc/profile里面添加如下内容
# 添加 Hadoop环境变量
HADOOP_HOME/usr/local/hadoop
PATH$HADOOP_HOME/bin:$PATH
export HADOOP_HOME PATH更新环境配置文件
[roothadoop1 hadoop]# source /etc/profile查看 Hadoop 版本
[roothadoop1 hadoop]# hadoop version2.4.8 创建配置文件里面的目录
[roothadoop1 hadoop]# mkdir -p /root/data/tmp
[roothadoop1 hadoop]# mkdir -p /root/data/dfs/name
[roothadoop1 hadoop]# mkdir -p /root/data/dfs/data三、启动伪分布式 Hadoop 集群
3.1 格式化主节点 namenode
再 Hadoop 安装目录使用如下命令对 NameNode 进行格式化
[roothadoop1 hadoop]# ./bin/hdfs namenode -format注意第一次安装 Hadoop 集群需要对 NameNode 进行格式化Hadoop 集群安装成功之后下次只需要使用脚本 start-all.sh 一键启动 Hadoop 集群即可。
3.2 启动 Hadoop 伪分别集群
在 Hadoop 安装目录下使用脚本一键启动 Hadoop 集群具体操作如下所示
[roothadoop1 hadoop]# ./sbin/start-all.sh 3.3 查看 Hadoop 服务进程
通过 jps 命令查看 Hadoop 伪分布集群的服务进程具体操作如下
[roothadoop1 hadoop]# jps如果服务进程中包含 Resourcemanager、Nodemanager、NameNode、DataNode 和 SecondaryNameNode 等5个进程这就说明 Hadoop 伪分布式集群启动成功了。
3.4 查看 HDFS 文件系统
在浏览器中输入 http://hadoop1:50070 地址通过 web 界面查看 HDFS 文件系统具体操作如下
3.5 查看 YARN 资源管理系统
在浏览器中输入 http://hadoop1:8088 地址通过 web 界面查看 HDFS 文件系统具体操作如下 四、测试运行 Hadoop 伪分布集群
Hadoop 伪分布集群启动之后我们以 Hadoop 自带的 WordCount 案例来检测 Hadoop 集群环境的可用性。
4.1 查看 HDFS 目录
在 HDFS shell 中使用 ls 命令查看 HDFS 文件系统目录具体操作如下所示
[roothadoop1 hadoop]# ./bin/hdfs dfs -ls /由于是第一次使用 HDFS 文件系统所以 HDFS 中目前没有任何文件和目录
4.2 参加 HDFS 目录
在 HDFS shell 中使用 ls 命令查看 HDFS 文件系统目录具体操作如下所示
[roothadoop1 hadoop]# ./bin/hdfs dfs -mkdir /test4.3 准备测试数据
在 HDFS shell 中使用 ls 命令查看 HDFS 文件系统目录具体操作如下所示
[roothadoop1 hadoop]# vi words.log添加如下内容
hadoop hadoop hadoop
spark spark spark
flink flink flink4.4 测试数据上次到 HDFS
在 HDFS shell 中使用 ls 命令查看 HDFS 文件系统目录具体操作如下所示
[roothadoop1 hadoop]# ./bin/hdfs dfs -put words.log /test4.5 运行 WordCount 案例
使用 yarn 脚本将 Hadoop 自带的 WordCount 程序提交到 YARN 集群运行具体操作如下所示
[roothadoop1 hadoop]# ./bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.2.jar wordcount /test/words.log /test/out执行完查看 YARN 资源管理系统
查看作业运行结果
使用 cat 命令查看 WordCount 作业输出结果具体操作如下所示。
[roothadoop1 hadoop]# ./bin/hdfs dfs -cat /test/out/*如果 WordCount 运行结果符合预期值说明 Hadoop 伪分布式集群已经搭建成功