เงื่อนไข Hadoop ที่สำคัญที่สุด 10 ข้อที่คุณต้องรู้และเข้าใจ

วิดีโอ: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

เนื้อหา

แต่ก่อนอื่นมาดูว่า Hadoop ทำงานอย่างไร
Hadoop สามัญ
Hadoop ระบบไฟล์แบบกระจาย (HDFS)
MapReduce
HBase
รัง
ไม่มีข้อบกพร่องไม่มีความเครียด - คู่มือแบบเป็นขั้นตอนเพื่อสร้างซอฟต์แวร์ที่เปลี่ยนแปลงชีวิตโดยไม่ทำลายชีวิตของคุณ
Apache Pig
Apache Spark
Apache Cassandra
ผู้เจรจาทรัพยากรอื่น (YARN)
ละมั่งอาฟริกา

ที่มา: Trueffelpix / Dreamstime.com

Takeaway:

ในการทำความเข้าใจกับข้อมูลขนาดใหญ่คุณต้องเข้าใจ Hadoop และภาษาที่อยู่รอบ ๆ

ข้อมูลขนาดใหญ่ชื่อที่น่าจับตามองสำหรับข้อมูลจำนวนมากที่มีโครงสร้างไม่มีโครงสร้างหรือกึ่งโครงสร้างนั้นยากที่จะรวบรวมจัดเก็บจัดการแบ่งปันวิเคราะห์และมองเห็นได้อย่างน้อยที่สุดก็ใช้ฐานข้อมูลแบบดั้งเดิมและซอฟต์แวร์ซอฟต์แวร์ เหตุใดเทคโนโลยีข้อมูลขนาดใหญ่จึงมีศักยภาพในการจัดการและประมวลผลข้อมูลจำนวนมหาศาลได้อย่างมีประสิทธิภาพและประสิทธิผล และ Apache Hadoop ที่ให้บริการเฟรมเวิร์กและเทคโนโลยีที่เกี่ยวข้องในการประมวลผลชุดข้อมูลขนาดใหญ่ข้ามกลุ่มคอมพิวเตอร์ในลักษณะกระจาย ดังนั้นเพื่อที่จะเข้าใจข้อมูลขนาดใหญ่จริงๆคุณต้องเข้าใจเกี่ยวกับ Hadoop เล็กน้อย ที่นี่ลองมาดูคำศัพท์ที่คุณจะได้ยินเกี่ยวกับ Hadoop และสิ่งที่พวกเขาหมายถึง

แต่ก่อนอื่นมาดูว่า Hadoop ทำงานอย่างไร

ก่อนเข้าสู่ระบบนิเวศ Hadoop คุณต้องเข้าใจสองสิ่งพื้นฐานอย่างชัดเจน วิธีแรกคือการจัดเก็บไฟล์ใน Hadoop ที่สองคือวิธีการประมวลผลข้อมูลที่เก็บไว้ เทคโนโลยีที่เกี่ยวข้องกับ Hadoop ส่วนใหญ่ทำงานในสองส่วนนี้และทำให้ใช้งานง่ายขึ้น (รับพื้นฐานของการทำงานของ Hadoop ในวิธีที่ Hadoop ช่วยแก้ปัญหาข้อมูลขนาดใหญ่)

ตอนนี้ไปตามข้อกำหนด

Hadoop สามัญ

กรอบงาน Hadoop มีโมดูลที่แตกต่างกันสำหรับฟังก์ชั่นที่แตกต่างกันและโมดูลเหล่านี้สามารถโต้ตอบซึ่งกันและกันด้วยเหตุผลต่างๆ Hadoop Common สามารถกำหนดเป็นไลบรารียูทิลิตี้ทั่วไปเพื่อสนับสนุนโมดูลเหล่านี้ใน Hadoop ระบบนิเวศ ยูทิลิตีเหล่านี้เป็นไฟล์ Java (JARs) ที่เก็บถาวร โปรแกรมอรรถประโยชน์เหล่านี้ส่วนใหญ่จะใช้โดยโปรแกรมเมอร์และนักพัฒนาในช่วงเวลาการพัฒนา

Hadoop ระบบไฟล์แบบกระจาย (HDFS)

ระบบไฟล์กระจาย Hadoop (HDFS) เป็นโครงการย่อยของ Apache Hadoop ภายใต้มูลนิธิซอฟต์แวร์ Apache นี่คือกระดูกสันหลังของการจัดเก็บในกรอบ Hadoop มันเป็นระบบไฟล์แบบกระจายปรับขนาดได้และทนต่อความผิดพลาดซึ่งครอบคลุมทั่วทั้งฮาร์ดแวร์สินค้าโภคภัณฑ์ที่เรียกว่าคลัสเตอร์ Hadoop วัตถุประสงค์ของ HDFS คือการจัดเก็บข้อมูลปริมาณมากได้อย่างน่าเชื่อถือพร้อมการรับส่งข้อมูลปริมาณมากในแอปพลิเคชัน HDFS ตามสถาปัตยกรรม master / slave โดยที่ Master รู้จักในชื่อ NameNode และทาสนั้นรู้จักกันในชื่อ DataNode

MapReduce

Hadoop MapReduce ยังเป็นโครงการย่อยของ Apache Software Foundation MapReduce เป็นกรอบซอฟต์แวร์ที่เขียนด้วยภาษาจาวาอย่างแท้จริง วัตถุประสงค์หลักของมันคือการประมวลผลชุดข้อมูลขนาดใหญ่บนสภาพแวดล้อมแบบกระจาย (ประกอบด้วยฮาร์ดแวร์สินค้า) ในลักษณะคู่ขนานอย่างสมบูรณ์ เฟรมเวิร์กจัดการกิจกรรมทั้งหมดเช่นการกำหนดตารางเวลางานการตรวจสอบการดำเนินการและการดำเนินการอีกครั้ง (ในกรณีของงานที่ล้มเหลว)

HBase

Apache HBase เป็นที่รู้จักในฐานะฐานข้อมูล Hadoop มันคือเสาข้อมูลขนาดใหญ่แบบกระจายและปรับขนาดได้ เป็นที่รู้จักกันว่าเป็นประเภทของฐานข้อมูล NoSQL ที่ไม่ได้เป็นระบบการจัดการฐานข้อมูลเชิงสัมพันธ์ แอพพลิเคชั่น HBase นั้นเขียนด้วยภาษาจาวาที่สร้างขึ้นบน Hadoop และทำงานบน HDFS HBase ใช้เมื่อคุณต้องการอ่าน / เขียนแบบเรียลไทม์และเข้าถึงข้อมูลขนาดใหญ่แบบสุ่ม HBase ได้รับการออกแบบตามแนวคิดของ Google BigTable

รัง

Apache Hive เป็นระบบซอฟต์แวร์คลังข้อมูลโอเพ่นซอร์ส ไฮฟ์ได้รับการพัฒนาโดยก่อนที่จะมาภายใต้มูลนิธิซอฟต์แวร์ Apache และกลายเป็นโอเพนซอร์ส มันอำนวยความสะดวกในการจัดการและการสืบค้นของชุดข้อมูลขนาดใหญ่ในการจัดเก็บที่รองรับ Hadoop Hive ดำเนินการกิจกรรมทั้งหมดโดยใช้ภาษา SQL ที่รู้จักกันในชื่อ HiveQL (เรียนรู้เพิ่มเติมในบทสรุปเบื้องต้นเกี่ยวกับ Apache Hive และ Pig)

ไม่มีข้อบกพร่องไม่มีความเครียด - คู่มือแบบเป็นขั้นตอนเพื่อสร้างซอฟต์แวร์ที่เปลี่ยนแปลงชีวิตโดยไม่ทำลายชีวิตของคุณ

คุณไม่สามารถพัฒนาทักษะการเขียนโปรแกรมของคุณเมื่อไม่มีใครใส่ใจคุณภาพของซอฟต์แวร์

Apache Pig

Pig เริ่มแรกโดย Yahoo สำหรับการพัฒนาและดำเนินงาน MapReduce ในปริมาณมากของข้อมูลกระจาย ตอนนี้มันได้กลายเป็นโครงการโอเพ่นซอร์สภายใต้มูลนิธิซอฟต์แวร์อาปาเช่ Apache Pig สามารถกำหนดเป็นแพลตฟอร์มสำหรับการวิเคราะห์ชุดข้อมูลขนาดใหญ่มากในวิธีที่มีประสิทธิภาพ เลเยอร์โครงสร้างพื้นฐานของ Pigs สร้างลำดับของงาน MapReduce สำหรับทำการประมวลผลจริง เลเยอร์ภาษา Pigs นั้นรู้จักกันในชื่อ Pig Latin และมีคุณสมบัติคล้ายกับ SQL เพื่อดำเนินการสืบค้นในชุดข้อมูลแบบกระจาย

Apache Spark

Spark ได้รับการพัฒนาโดย AMPLab ที่ UC Berkeley มันกลายเป็นโครงการระดับสูงของ Apache ในเดือนกุมภาพันธ์ 2014 Apache Spark สามารถนิยามได้ว่าเป็นโอเพ่นซอร์ส, วัตถุประสงค์ทั่วไป, กรอบการคำนวณคลัสเตอร์ที่ทำให้การวิเคราะห์ข้อมูลเร็วขึ้นมาก มันถูกสร้างขึ้นที่ด้านบนของระบบไฟล์กระจาย Hadoop แต่มันไม่ได้เชื่อมโยงกับกรอบการทำงาน MapReduce ประสิทธิภาพของประกายไฟนั้นเร็วกว่ามากเมื่อเทียบกับ MapReduce มันมี API ระดับสูงใน Scala, Python และ Java

Apache Cassandra

Apache Cassandra เป็นอีกหนึ่งฐานข้อมูล NoSQL แบบโอเพ่นซอร์ส คาสซานดราใช้กันอย่างแพร่หลายในการจัดการปริมาณข้อมูลขนาดใหญ่ที่มีโครงสร้างกึ่งโครงสร้างและไม่มีโครงสร้างครอบคลุมทั่วศูนย์ข้อมูลหลายแห่งและที่เก็บข้อมูลบนคลาวด์ คาสซานดราได้รับการออกแบบตามสถาปัตยกรรม "ไร้ต้นแบบ" ซึ่งหมายความว่ามันไม่รองรับโมเดลต้นแบบ / ทาส ในสถาปัตยกรรมนี้ทุกโหนดเหมือนกันและมีการกระจายข้อมูลโดยอัตโนมัติและเท่าเทียมกันในทุกโหนด คุณสมบัติที่สำคัญที่สุดของคาสซานดราคือความพร้อมใช้งานอย่างต่อเนื่องความสามารถในการขยายเชิงเส้นการจำลองแบบในตัว / ปรับแต่งได้ไม่มีจุดล้มเหลวเดียวและความเรียบง่ายในการปฏิบัติงาน

ผู้เจรจาทรัพยากรอื่น (YARN)

Yet Another Resource Negotiator (YARN) เป็นที่รู้จักกันในชื่อ MapReduce 2.0 แต่จริงๆแล้วมันตกอยู่ภายใต้ Hadoop 2.0 YARN สามารถกำหนดเป็นตารางงานและกรอบการจัดการทรัพยากร แนวคิดพื้นฐานของ YARN คือการแทนที่ฟังก์ชันการทำงานของ JobTracker โดย daemons แยกกันสองตัวที่รับผิดชอบการจัดการทรัพยากรและการกำหนดเวลา / การตรวจสอบ ในกรอบใหม่นี้จะมี ResourceManager ทั่วโลก (RM) และต้นแบบเฉพาะแอปพลิเคชันที่เรียกว่า ApplicationMaster (AM) ResourceManager ทั่วโลก (RM) และ NodeManager (ต่อโหนดทาส) ในรูปแบบกรอบการคำนวณข้อมูลที่แท้จริง แอปพลิเคชั่น MapReduce v1 ที่มีอยู่สามารถรันบน YARN ได้ แต่แอปพลิเคชั่นเหล่านั้นจำเป็นต้องคอมไพล์ใหม่ด้วย Hadoop2.x ไห

ละมั่งอาฟริกา

Impala สามารถถูกกำหนดเป็นเคียวรี SQL ด้วยการประมวลผลแบบขนานขนาดใหญ่ (MPP) มันทำงานโดยกำเนิดบนกรอบ Apache Hadoop Impala ถูกออกแบบมาเป็นส่วนหนึ่งของระบบนิเวศ Hadoop มันแบ่งใช้ระบบไฟล์ที่ยืดหยุ่นเช่นเดียวกัน (HDFS), เมตาดาต้า, การจัดการทรัพยากรและกรอบการรักษาความปลอดภัยที่ใช้โดยคอมโพเนนต์ระบบนิเวศ Hadoop อื่น ๆ จุดที่สำคัญที่สุดคือการสังเกตว่า Impala นั้นเร็วกว่าในการประมวลผลแบบสอบถามเมื่อเปรียบเทียบกับ Hive แต่เราควรจำไว้ว่าอิมพาลานั้นมีความหมายสำหรับการสืบค้น / การวิเคราะห์ในชุดข้อมูลขนาดเล็กและส่วนใหญ่ได้รับการออกแบบเป็นเครื่องมือการวิเคราะห์ที่ทำงานกับข้อมูลที่ประมวลผลและมีโครงสร้าง

Hadoop เป็นหัวข้อสำคัญในไอที แต่มีคนที่สงสัยเกี่ยวกับความมีชีวิตในระยะยาว อ่านเพิ่มเติมใน Hadoop คืออะไร ทฤษฎีการเยาะเย้ยถากถาง