วิธีติดตั้งและกำหนดค่า Apache Hadoop บนโหนดเดียวใน CentOS 7
Apache Hadoop คือโครงสร้างเฟรมเวิร์กโอเพ่นซอร์สสำหรับการจัดเก็บข้อมูลขนาดใหญ่แบบกระจายและการประมวลผลข้อมูลทั่วทั้งคลัสเตอร์คอมพิวเตอร์ โครงการนี้ขึ้นอยู่กับองค์ประกอบต่อไปนี้:
- Hadoop Common – ประกอบด้วยไลบรารี Java และยูทิลิตี้ที่จำเป็นสำหรับโมดูล Hadoop อื่นๆ
- HDFS – ระบบไฟล์แบบกระจาย Hadoop – ระบบไฟล์แบบปรับขนาดได้ที่ใช้ Java ซึ่งกระจายไปยังหลายโหนด
- MapReduce – กรอบงาน YARN สำหรับการประมวลผลข้อมูลขนาดใหญ่แบบขนาน
- Hadoop YARN: กรอบงานสำหรับการจัดการทรัพยากรคลัสเตอร์
บทความนี้จะแนะนำคุณเกี่ยวกับวิธีที่คุณสามารถติดตั้ง Apache Hadoop บนคลัสเตอร์โหนดเดียวใน CentOS 7 (ใช้ได้กับ RHEL 7 และ Fedora 23+ด้วย > เวอร์ชัน) การกำหนดค่าประเภทนี้ยังอ้างอิงถึงเป็น โหมด Hadoop Pseudo-Distributed
ขั้นตอนที่ 1: ติดตั้ง Java บน CentOS 7
1. ก่อนที่จะดำเนินการติดตั้ง Java ขั้นแรกให้เข้าสู่ระบบด้วยผู้ใช้รูทหรือผู้ใช้ที่มีสิทธิ์รูทให้ตั้งชื่อโฮสต์ของเครื่องของคุณด้วยคำสั่งต่อไปนี้
hostnamectl set-hostname master
นอกจากนี้ ให้เพิ่มบันทึกใหม่ในไฟล์โฮสต์ด้วย FQDN เครื่องของคุณเองเพื่อชี้ไปที่ที่อยู่ IP ของระบบของคุณ
vi /etc/hosts
เพิ่มบรรทัดด้านล่าง:
192.168.1.41 master.hadoop.lan
แทนที่ชื่อโฮสต์ด้านบนและบันทึก FQDN ด้วยการตั้งค่าของคุณเอง
2. จากนั้น ไปที่หน้าดาวน์โหลด Oracle Java และรับ Java SE Development Kit 8 เวอร์ชันล่าสุดบนระบบของคุณด้วยความช่วยเหลือของ curl สั่งการ:
curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”
3. หลังจากการดาวน์โหลดไบนารี่ Java เสร็จสิ้น ให้ติดตั้งแพ็คเกจโดยออกคำสั่งด้านล่าง:
rpm -Uvh jdk-8u92-linux-x64.rpm
ขั้นตอนที่ 2: ติดตั้ง Hadoop Framework ใน CentOS 7
4. ถัดไป สร้างบัญชีผู้ใช้ใหม่บนระบบของคุณโดยไม่ต้องใช้สิทธิ์รูท ซึ่งเราจะใช้สำหรับเส้นทางการติดตั้ง Hadoop และสภาพแวดล้อมการทำงาน โฮมไดเร็กทอรีของบัญชีใหม่จะอยู่ในไดเร็กทอรี /opt/hadoop
useradd -d /opt/hadoop hadoop
passwd hadoop
5. ในขั้นตอนถัดไป ให้ไปที่หน้า Apache Hadoop เพื่อรับลิงก์สำหรับเวอร์ชันเสถียรล่าสุด และดาวน์โหลดไฟล์เก็บถาวรบนระบบของคุณ
curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
6. แยกไฟล์เก็บถาวรและคัดลอกเนื้อหาไดเร็กทอรีไปยังโฮมพาธของบัญชี Hadoop ตรวจสอบให้แน่ใจว่าคุณเปลี่ยนการอนุญาตไฟล์ที่คัดลอกตามนั้น
tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/
7. ถัดไป เข้าสู่ระบบด้วยผู้ใช้ hadoop และกำหนดค่า Hadoop และ ตัวแปรสภาพแวดล้อม Java บนระบบของคุณโดยการแก้ไข < รหัส>.bash_profile ไฟล์
su - hadoop
vi .bash_profile
เพิ่มบรรทัดต่อไปนี้ต่อท้ายไฟล์:
## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar
## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
8. ตอนนี้ เริ่มต้นตัวแปรสภาพแวดล้อมและตรวจสอบสถานะโดยใช้คำสั่งด้านล่าง:
source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME
9. สุดท้าย กำหนดค่าการตรวจสอบสิทธิ์โดยใช้คีย์ ssh สำหรับบัญชี hadoop โดยการเรียกใช้คำสั่งด้านล่าง (แทนที่ ชื่อโฮสต์ หรือ FQDN กับคำสั่ง ssh-copy-id
ตามลำดับ)
นอกจากนี้ ให้ปล่อย ข้อความรหัสผ่าน ว่างไว้เพื่อให้สามารถเข้าสู่ระบบผ่าน ssh โดยอัตโนมัติ
ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan