ค้นหาเว็บไซต์

แนวทางปฏิบัติที่ดีที่สุดสำหรับการปรับใช้เซิร์ฟเวอร์ Hadoop บน CentOS/RHEL 7 - ส่วนที่ 1


ในบทความชุดนี้ เราจะพูดถึงอาคาร Cloudera Hadoop Cluster Building ทั้งหมดโดยมีแนวทางปฏิบัติที่ดีที่สุดที่แนะนำโดยผู้จำหน่ายและอุตสาหกรรม

การติดตั้ง OS และการดำเนินการตามข้อกำหนดเบื้องต้นระดับ OS เป็นขั้นตอนแรกในการสร้าง คลัสเตอร์ Hadoop Hadoop สามารถทำงานบนแพลตฟอร์ม Linux หลากหลายรูปแบบ: CentOS, RedHat, Ubuntu, Debian<, SUSE ฯลฯ ในการผลิตแบบเรียลไทม์ คลัสเตอร์ Hadoop ส่วนใหญ่สร้างขึ้นจาก RHEL/CentOS เรา จะใช้ CentOS 7 เพื่อสาธิตในชุดบทช่วยสอนนี้

ในองค์กร การติดตั้ง OS สามารถทำได้โดยใช้ kickstart หากเป็นคลัสเตอร์โหนด 3 ถึง 4 การติดตั้งด้วยตนเองก็เป็นไปได้ แต่หากเราสร้างคลัสเตอร์ขนาดใหญ่ที่มีมากกว่า 10 โหนด การติดตั้ง OS ทีละรายการจะน่าเบื่อ ในสถานการณ์สมมตินี้ วิธีการ Kickstart เข้ามาในรูปภาพ เราสามารถดำเนินการติดตั้งจำนวนมากโดยใช้ Kickstart

การบรรลุประสิทธิภาพที่ดีจาก สภาพแวดล้อม Hadoop ขึ้นอยู่กับการจัดเตรียมฮาร์ดแวร์และซอฟต์แวร์ที่ถูกต้อง ดังนั้น การสร้าง คลัสเตอร์ Hadoop ที่ใช้งานจริงจึงต้องพิจารณาอย่างมากเกี่ยวกับฮาร์ดแวร์และซอฟต์แวร์

ในบทความนี้ เราจะพูดถึงเกณฑ์มาตรฐานต่างๆ เกี่ยวกับการติดตั้ง OS และแนวทางปฏิบัติที่ดีที่สุดบางประการสำหรับการปรับใช้ Cloudera Hadoop Cluster Server บน CentOS/RHEL 7

ข้อควรพิจารณาที่สำคัญและแนวปฏิบัติที่ดีที่สุดสำหรับการปรับใช้เซิร์ฟเวอร์ Hadoop

ต่อไปนี้คือแนวทางปฏิบัติที่ดีที่สุดในการตั้งค่าการใช้งาน Cloudera Hadoop Cluster Server บน CentOS/RHEL 7

  • เซิร์ฟเวอร์ Hadoop ไม่ต้องการเซิร์ฟเวอร์มาตรฐานระดับองค์กรในการสร้างคลัสเตอร์ แต่ต้องใช้ฮาร์ดแวร์สินค้าโภคภัณฑ์
  • ในคลัสเตอร์การใช้งานจริง แนะนำให้มีดิสก์ข้อมูล 8 ถึง 12 แผ่น ตามลักษณะของภาระงาน เราจำเป็นต้องตัดสินใจในเรื่องนี้ หากคลัสเตอร์มีไว้สำหรับแอปพลิเคชันที่เน้นการประมวลผล การมีไดรฟ์ 4 ถึง 6 ตัวถือเป็นแนวปฏิบัติที่ดีที่สุดเพื่อหลีกเลี่ยงปัญหา I/O
  • ไดรฟ์ข้อมูลควรถูกแบ่งพาร์ติชันแยกกัน เช่น เริ่มต้นจาก /data01 ถึง /data10
  • ไม่แนะนำให้ใช้การกำหนดค่า RAID สำหรับโหนดของผู้ปฏิบัติงาน เนื่องจาก Hadoop เองให้ความทนทานต่อข้อผิดพลาดของข้อมูลโดยการจำลองบล็อกเป็น 3 ตามค่าเริ่มต้น ดังนั้น JBOD จึงดีที่สุดสำหรับโหนดของผู้ปฏิบัติงาน
  • สำหรับเซิร์ฟเวอร์หลัก RAID 1 คือแนวทางปฏิบัติที่ดีที่สุด
  • ระบบไฟล์เริ่มต้นบน CentOS/RHEL 7.x คือ XFS Hadoop รองรับ XFS, ext3 และ ext4 ระบบไฟล์ที่แนะนำคือ ext3 เนื่องจากมีการทดสอบประสิทธิภาพที่ดี
  • เซิร์ฟเวอร์ทั้งหมดควรมีระบบปฏิบัติการเวอร์ชันเดียวกัน อย่างน้อยก็รุ่นรองที่เหมือนกัน
  • แนวทางปฏิบัติที่ดีที่สุดที่จะมีฮาร์ดแวร์ที่เป็นเนื้อเดียวกัน (โหนดของผู้ปฏิบัติงานทั้งหมดควรมีลักษณะฮาร์ดแวร์เหมือนกัน (RAM, พื้นที่ดิสก์ และคอร์ ฯลฯ)
  • ตามปริมาณงานของคลัสเตอร์ (ปริมาณงานที่สมดุล, Compute Intensive, I/O Intensive) และขนาด การวางแผนทรัพยากร (RAM, CPU) ต่อเซิร์ฟเวอร์จะแตกต่างกัน

ค้นหาตัวอย่างการแบ่งพาร์ติชันดิสก์ของเซิร์ฟเวอร์พื้นที่จัดเก็บข้อมูลขนาด 24TB ด้านล่าง

การติดตั้ง CentOS 7 สำหรับการปรับใช้เซิร์ฟเวอร์ Hadoop

สิ่งที่คุณต้องรู้ก่อนติดตั้งเซิร์ฟเวอร์ CentOS 7 สำหรับ เซิร์ฟเวอร์ Hadoop

  • การติดตั้งเพียงเล็กน้อยก็เพียงพอแล้วสำหรับ เซิร์ฟเวอร์ Hadoop (โหนดผู้ปฏิบัติงาน) ในบางกรณี GUI สามารถติดตั้งได้เฉพาะสำหรับเซิร์ฟเวอร์หลักหรือเซิร์ฟเวอร์การจัดการที่เราสามารถใช้เบราว์เซอร์สำหรับ Web UI ของ เครื่องมือการจัดการ
  • การกำหนดค่าเครือข่าย ชื่อโฮสต์ และการตั้งค่าอื่นๆ ที่เกี่ยวข้องกับระบบปฏิบัติการสามารถทำได้หลังการติดตั้งระบบปฏิบัติการ
  • ในแบบเรียลไทม์ ผู้จำหน่ายเซิร์ฟเวอร์จะมีคอนโซลของตนเองเพื่อโต้ตอบและจัดการเซิร์ฟเวอร์ ตัวอย่างเช่น เซิร์ฟเวอร์ของ Dell กำลังมี iDRAC ซึ่งเป็นอุปกรณ์ที่ฝังอยู่กับเซิร์ฟเวอร์ การใช้อินเทอร์เฟซ iDRAC นั้นทำให้เราสามารถติดตั้งระบบปฏิบัติการโดยมีอิมเมจระบบปฏิบัติการในระบบท้องถิ่นของเรา

ในบทความนี้ เราได้ติดตั้ง OS (CentOS 7) ในเครื่องเสมือน VMware แล้ว ที่นี่เราจะไม่มีดิสก์หลายแผ่นสำหรับทำพาร์ติชั่น CentOS คล้ายกับ RHEL (ฟังก์ชันการทำงานเดียวกัน) ดังนั้นเราจะดูขั้นตอนในการติดตั้ง CentOS

1. เริ่มต้นด้วยการดาวน์โหลดอิมเมจ ISO CentOS 7.x ในระบบ Windows ในเครื่องของคุณ และเลือกในขณะที่บูตเครื่องเสมือน เลือก 'ติดตั้ง CentOS 7' ตามที่แสดง

2. เลือก ภาษา ค่าเริ่มต้นจะเป็น อังกฤษ และคลิก ดำเนินการต่อ

3. การเลือกซอฟต์แวร์ – เลือก 'การติดตั้งขั้นต่ำ' และคลิก 'เสร็จสิ้น'

4. ตั้งค่า รหัสผ่านรูท ตามที่ระบบจะแจ้งให้ตั้งค่า

5. ปลายทางการติดตั้ง – นี่เป็นขั้นตอนสำคัญที่ต้องระมัดระวัง เราจำเป็นต้องเลือกดิสก์ที่จะติดตั้งระบบปฏิบัติการ ควรเลือกดิสก์เฉพาะสำหรับระบบปฏิบัติการ คลิก 'ปลายทางการติดตั้ง' และเลือกดิสก์ ซึ่งจะมีดิสก์หลายตัวแบบเรียลไทม์ เราต้องเลือก 'sda' จะดีกว่า

6. ตัวเลือกพื้นที่เก็บข้อมูลอื่นๆ – เลือกตัวเลือกที่สอง (ฉันจะกำหนดค่าการแบ่งพาร์ติชัน) เพื่อกำหนดค่าการแบ่งพาร์ติชันที่เกี่ยวข้องกับระบบปฏิบัติการ เช่น /var, / var/log, /home, /tmp, /opt, /swap

7. เมื่อเสร็จแล้ว ให้เริ่มการติดตั้ง

8. เมื่อการติดตั้งเสร็จสิ้น ให้รีบูตเซิร์ฟเวอร์

9. เข้าสู่ระบบเซิร์ฟเวอร์และตั้งชื่อโฮสต์

hostnamectl status
hostnamectl set-hostname tecmint
hostnamectl status

สรุป

ในบทความนี้ เราได้อธิบายขั้นตอนการติดตั้งระบบปฏิบัติการและแนวปฏิบัติที่ดีที่สุดสำหรับการแบ่งพาร์ติชันระบบไฟล์แล้ว ทั้งหมดนี้เป็นแนวทางทั่วไป เราอาจจำเป็นต้องให้ความสำคัญกับความแตกต่างมากขึ้นเพื่อให้บรรลุประสิทธิภาพสูงสุดของคลัสเตอร์ตามลักษณะของปริมาณงาน การวางแผนคลัสเตอร์ถือเป็นศิลปะสำหรับผู้ดูแลระบบ Hadoop เราจะเจาะลึกเกี่ยวกับข้อกำหนดเบื้องต้นระดับ OS และความปลอดภัยที่เพิ่มขึ้นในบทความถัดไป