วิธีติดตั้งและกำหนดค่า Apache Hadoop บนโหนดเดียวใน CentOS 7

Apache Hadoop คือโครงสร้างเฟรมเวิร์กโอเพ่นซอร์สสำหรับการจัดเก็บข้อมูลขนาดใหญ่แบบกระจายและการประมวลผลข้อมูลทั่วทั้งคลัสเตอร์คอมพิวเตอร์ โครงการนี้ขึ้นอยู่กับองค์ประกอบต่อไปนี้:

Hadoop Common – ประกอบด้วยไลบรารี Java และยูทิลิตี้ที่จำเป็นสำหรับโมดูล Hadoop อื่นๆ
HDFS – ระบบไฟล์แบบกระจาย Hadoop – ระบบไฟล์แบบปรับขนาดได้ที่ใช้ Java ซึ่งกระจายไปยังหลายโหนด
MapReduce – กรอบงาน YARN สำหรับการประมวลผลข้อมูลขนาดใหญ่แบบขนาน
Hadoop YARN: กรอบงานสำหรับการจัดการทรัพยากรคลัสเตอร์

บทความนี้จะแนะนำคุณเกี่ยวกับวิธีที่คุณสามารถติดตั้ง Apache Hadoop บนคลัสเตอร์โหนดเดียวใน CentOS 7 (ใช้ได้กับ RHEL 7 และ Fedora 23+ด้วย > เวอร์ชัน) การกำหนดค่าประเภทนี้ยังอ้างอิงถึงเป็น โหมด Hadoop Pseudo-Distributed

ขั้นตอนที่ 1: ติดตั้ง Java บน CentOS 7

1. ก่อนที่จะดำเนินการติดตั้ง Java ขั้นแรกให้เข้าสู่ระบบด้วยผู้ใช้รูทหรือผู้ใช้ที่มีสิทธิ์รูทให้ตั้งชื่อโฮสต์ของเครื่องของคุณด้วยคำสั่งต่อไปนี้

hostnamectl set-hostname master

นอกจากนี้ ให้เพิ่มบันทึกใหม่ในไฟล์โฮสต์ด้วย FQDN เครื่องของคุณเองเพื่อชี้ไปที่ที่อยู่ IP ของระบบของคุณ

vi /etc/hosts

เพิ่มบรรทัดด้านล่าง:

192.168.1.41 master.hadoop.lan

แทนที่ชื่อโฮสต์ด้านบนและบันทึก FQDN ด้วยการตั้งค่าของคุณเอง

2. จากนั้น ไปที่หน้าดาวน์โหลด Oracle Java และรับ Java SE Development Kit 8 เวอร์ชันล่าสุดบนระบบของคุณด้วยความช่วยเหลือของ curl สั่งการ:

curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. หลังจากการดาวน์โหลดไบนารี่ Java เสร็จสิ้น ให้ติดตั้งแพ็คเกจโดยออกคำสั่งด้านล่าง:

rpm -Uvh jdk-8u92-linux-x64.rpm

ขั้นตอนที่ 2: ติดตั้ง Hadoop Framework ใน CentOS 7

4. ถัดไป สร้างบัญชีผู้ใช้ใหม่บนระบบของคุณโดยไม่ต้องใช้สิทธิ์รูท ซึ่งเราจะใช้สำหรับเส้นทางการติดตั้ง Hadoop และสภาพแวดล้อมการทำงาน โฮมไดเร็กทอรีของบัญชีใหม่จะอยู่ในไดเร็กทอรี /opt/hadoop

useradd -d /opt/hadoop hadoop
passwd hadoop

5. ในขั้นตอนถัดไป ให้ไปที่หน้า Apache Hadoop เพื่อรับลิงก์สำหรับเวอร์ชันเสถียรล่าสุด และดาวน์โหลดไฟล์เก็บถาวรบนระบบของคุณ

curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz

6. แยกไฟล์เก็บถาวรและคัดลอกเนื้อหาไดเร็กทอรีไปยังโฮมพาธของบัญชี Hadoop ตรวจสอบให้แน่ใจว่าคุณเปลี่ยนการอนุญาตไฟล์ที่คัดลอกตามนั้น

 tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/

7. ถัดไป เข้าสู่ระบบด้วยผู้ใช้ hadoop และกำหนดค่า Hadoop และ ตัวแปรสภาพแวดล้อม Java บนระบบของคุณโดยการแก้ไข < รหัส>.bash_profile ไฟล์

su - hadoop
vi .bash_profile

เพิ่มบรรทัดต่อไปนี้ต่อท้ายไฟล์:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. ตอนนี้ เริ่มต้นตัวแปรสภาพแวดล้อมและตรวจสอบสถานะโดยใช้คำสั่งด้านล่าง:

source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME

9. สุดท้าย กำหนดค่าการตรวจสอบสิทธิ์โดยใช้คีย์ ssh สำหรับบัญชี hadoop โดยการเรียกใช้คำสั่งด้านล่าง (แทนที่ ชื่อโฮสต์ หรือ FQDN กับคำสั่ง ssh-copy-id ตามลำดับ)

นอกจากนี้ ให้ปล่อย ข้อความรหัสผ่าน ว่างไว้เพื่อให้สามารถเข้าสู่ระบบผ่าน ssh โดยอัตโนมัติ

ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan