เหตุใด Spark จึงเป็นแพลตฟอร์มข้อมูลขนาดใหญ่ในอนาคต

วิดีโอ: Apache Spark AI Use Case in Telco: Network Quality Analysis and Prediction

เนื้อหา

Apache Spark คืออะไร
เหตุใด Spark จึงมีความสำคัญมากกว่า Hadoop
คุณสมบัติพิเศษของ Sparks คืออะไร
เหตุใด Spark จึงไม่ใช่สิ่งทดแทน Hadoop
บริษัท คิดอย่างไรกับ Spark และ Hadoop
การใช้งานจริง
ข้อสรุป

ที่มา: Snake3d / Dreamstime.com

Takeaway:

Apache Spark เป็นเครื่องมือโอเพ่นซอร์สสำหรับการประมวลผลข้อมูลขนาดใหญ่ที่คลานขึ้นไปบน (และในบางวิธีที่เกินกว่า) Hadoop

Apache Hadoop เป็นรากฐานสำหรับแอปพลิเคชันข้อมูลขนาดใหญ่เป็นเวลานานและถือเป็นแพลตฟอร์มข้อมูลพื้นฐานสำหรับข้อเสนอที่เกี่ยวข้องกับข้อมูลขนาดใหญ่ทั้งหมด อย่างไรก็ตามฐานข้อมูลในหน่วยความจำและการคำนวณกำลังได้รับความนิยมเนื่องจากประสิทธิภาพที่เร็วขึ้นและผลลัพธ์ที่รวดเร็ว Apache Spark เป็นเฟรมเวิร์กใหม่ที่ใช้ความสามารถในหน่วยความจำในการประมวลผลที่รวดเร็ว (เร็วกว่า Hadoop เกือบ 100 เท่า) ดังนั้นผลิตภัณฑ์ Spark จึงถูกนำมาใช้มากขึ้นในโลกของข้อมูลขนาดใหญ่และส่วนใหญ่เพื่อการประมวลผลที่เร็วขึ้น

Apache Spark คืออะไร

Apache Spark เป็นเฟรมเวิร์กโอเพนซอร์สสำหรับการประมวลผลข้อมูลจำนวนมาก (ข้อมูลขนาดใหญ่) ด้วยความเร็วและความเรียบง่าย เหมาะสำหรับแอพพลิเคชั่นการวิเคราะห์โดยใช้ข้อมูลขนาดใหญ่ Spark สามารถใช้กับสภาพแวดล้อม Hadoop แบบสแตนด์อโลนหรือในระบบคลาวด์ ได้รับการพัฒนาที่มหาวิทยาลัยแห่งแคลิฟอร์เนียและต่อมาได้เสนอให้กับมูลนิธิซอฟต์แวร์อาปาเช่ ดังนั้นจึงเป็นของชุมชนโอเพ่นซอร์สและสามารถประหยัดค่าใช้จ่ายได้มากซึ่งช่วยให้นักพัฒนามือสมัครเล่นสามารถทำงานได้อย่างง่ายดาย (หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับโอเพ่นซอร์ส Hadoops ให้ดูที่อิทธิพลของโอเพ่นซอร์สบนระบบนิเวศ Apache Hadoop คืออะไร)

จุดประสงค์หลักของ Spark ก็คือให้นักพัฒนามีกรอบแอปพลิเคชันที่ทำงานรอบ ๆ โครงสร้างข้อมูลที่เป็นศูนย์กลาง Spark ยังมีประสิทธิภาพอย่างมากและมีความสามารถโดยธรรมชาติในการประมวลผลข้อมูลจำนวนมากได้อย่างรวดเร็วในช่วงเวลาสั้น ๆ จึงให้ประสิทธิภาพที่ดีมากทำให้เร็วกว่าที่กล่าวไว้ว่าเป็นคู่แข่งที่ใกล้ที่สุด Hadoop

เหตุใด Spark จึงมีความสำคัญมากกว่า Hadoop

Apache Spark เป็นที่รู้จักกันดีในเรื่องของคุณสมบัติ Hadoop ซึ่งอาจอธิบายได้ว่าทำไมมันถึงมีความสำคัญ หนึ่งในเหตุผลสำคัญสำหรับเรื่องนี้คือการพิจารณาความเร็วในการประมวลผล ในความเป็นจริงตามที่ระบุไว้ข้างต้นแล้ว Spark เสนอการประมวลผลเร็วกว่าประมาณ 100 เท่าของ MapReduce ของ Hadoop สำหรับข้อมูลจำนวนเท่ากัน นอกจากนี้ยังใช้ทรัพยากรน้อยลงอย่างมากเมื่อเทียบกับ Hadoop จึงทำให้ประหยัดค่าใช้จ่าย

อีกแง่มุมสำคัญที่ Spark มีมือบนอยู่ในแง่ของความเข้ากันได้กับตัวจัดการทรัพยากร Apache Spark เป็นที่รู้จักกันในการทำงานกับ Hadoop เช่นเดียวกับ MapReduce แต่ในปัจจุบันสามารถใช้งานร่วมกับ Hadoop ได้เท่านั้น อย่างไรก็ตามสำหรับ Apache Spark นั้นสามารถทำงานร่วมกับผู้จัดการทรัพยากรอื่น ๆ เช่น YARN หรือ Mesos นักวิทยาศาสตร์ด้านข้อมูลมักอ้างถึงสิ่งนี้ว่าเป็นหนึ่งในพื้นที่ที่ใหญ่ที่สุดที่ Spark อยู่เหนือกว่า Hadoop จริงๆ

เมื่อพูดถึงการใช้งานที่ง่าย Spark ก็เกิดขึ้นได้ดีกว่า Hadoop อีกมาก Spark มี APIs สำหรับหลายภาษาเช่น Scala, Java และ Python นอกเหนือจากการมี Spark SQL แล้ว มันค่อนข้างง่ายในการเขียนฟังก์ชั่นที่ผู้ใช้กำหนด นอกจากนี้ยังมีโหมดการโต้ตอบสำหรับเรียกใช้คำสั่ง ในทางตรงกันข้าม Hadoop เขียนด้วยภาษาจาวาและได้รับชื่อเสียงว่าเป็นเรื่องยากที่จะเขียนโปรแกรมแม้ว่ามันจะมีเครื่องมือที่ช่วยในกระบวนการ (หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ Spark ดูที่ Apache Spark ช่วยพัฒนาแอปพลิเคชันอย่างรวดเร็ว)

คุณสมบัติพิเศษของ Sparks คืออะไร

Apache Spark มีคุณสมบัติพิเศษที่แตกต่างจากคู่แข่งในธุรกิจการประมวลผลข้อมูลอย่างแท้จริง บางส่วนของสิ่งเหล่านี้ได้รับการสรุปไว้ด้านล่าง

คุณไม่สามารถพัฒนาทักษะการเขียนโปรแกรมของคุณเมื่อไม่มีใครใส่ใจคุณภาพของซอฟต์แวร์

Spark ยังมีความสามารถโดยธรรมชาติในการโหลดข้อมูลที่จำเป็นไปยังแกนกลางด้วยความช่วยเหลือของอัลกอริทึมการเรียนรู้ของเครื่อง สิ่งนี้ทำให้มันเร็วมาก

Apache Spark มาพร้อมกับความสามารถในการประมวลผลกราฟหรือแม้กระทั่งข้อมูลที่เป็นภาพกราฟิกในธรรมชาติจึงช่วยให้การวิเคราะห์ง่ายด้วยความแม่นยำสูง

Apache Spark มี MLib ซึ่งเป็นกรอบการทำงานสำหรับการเรียนรู้ของเครื่อง มันยังเร็วกว่าในการติดตั้งมากกว่า Hadoop MLib ยังมีความสามารถในการแก้ปัญหาต่าง ๆ เช่นการอ่านสถิติการสุ่มตัวอย่างข้อมูลและการทดสอบสมมติฐานเพื่อชื่อไม่กี่

เหตุใด Spark จึงไม่ใช่สิ่งทดแทน Hadoop

แม้ว่าข้อเท็จจริงที่ว่า Spark จะมีหลายแง่มุมที่มันสามารถเอาชนะ Hadoop ได้ แต่ก็มีหลายสาเหตุที่ยังไม่สามารถแทนที่ Hadoop ได้

ก่อนอื่น Hadoop ให้เครื่องมือที่ใหญ่กว่าเมื่อเทียบกับ Spark นอกจากนี้ยังมีแนวทางปฏิบัติหลายประการที่เป็นที่ยอมรับในอุตสาหกรรม Apache Spark นั้นยังค่อนข้างใหม่อยู่ในโดเมนและจะต้องใช้เวลาพอสมควรในการปรับตัวให้เข้ากับ Hadoop

MapReduce ของ Hadoop ยังกำหนดมาตรฐานอุตสาหกรรมบางอย่างเมื่อต้องดำเนินการเต็มรูปแบบ ในทางกลับกันก็ยังเชื่อว่า Spark ไม่พร้อมใช้งานด้วยความน่าเชื่อถืออย่างสมบูรณ์ บ่อยครั้งที่องค์กรที่ใช้ Spark จำเป็นต้องปรับแต่งเพื่อให้พร้อมสำหรับชุดของข้อกำหนด

MapReduce ของ Hadoop ซึ่งมีมานานกว่า Spark แล้วยังง่ายต่อการกำหนดค่า แม้ว่านี่จะไม่ใช่กรณีของ Spark เนื่องจากว่ามีแพลตฟอร์มใหม่ทั้งหมดที่ไม่ได้ทำการทดสอบแพทช์หยาบ

บริษัท คิดอย่างไรกับ Spark และ Hadoop

บริษัท หลายแห่งเริ่มใช้ Spark เพื่อความต้องการในการประมวลผลข้อมูลแล้ว แต่เรื่องราวยังไม่สิ้นสุด มันมีแง่มุมที่แข็งแกร่งหลายอย่างที่ทำให้เป็นแพลตฟอร์มการประมวลผลข้อมูลที่น่าทึ่ง อย่างไรก็ตามมันยังมาพร้อมกับส่วนแบ่งที่เป็นธรรมของข้อเสียที่ต้องแก้ไข

เป็นความคิดอุตสาหกรรมที่ Apache Spark อยู่ที่นี่และอาจเป็นอนาคตสำหรับการประมวลผลข้อมูล อย่างไรก็ตามยังคงต้องผ่านการพัฒนาและขัดเกลาจำนวนมากซึ่งจะช่วยให้มันสามารถใช้ศักยภาพได้อย่างแท้จริง

การใช้งานจริง

Apache Spark ได้รับและยังถูกว่าจ้างโดย บริษัท จำนวนมากที่เหมาะสมกับความต้องการการประมวลผลข้อมูลของพวกเขา การใช้งานที่ประสบความสำเร็จมากที่สุดอย่างหนึ่งคือการดำเนินการโดย Shopify ซึ่งกำลังมองหาร้านค้าที่มีสิทธิ์สำหรับการร่วมมือทางธุรกิจ อย่างไรก็ตามคลังข้อมูลของมันยังคงหมดเวลาเมื่อต้องการเข้าใจผลิตภัณฑ์ที่ลูกค้ากำลังขาย ด้วยความช่วยเหลือของ Spark บริษัท สามารถประมวลผลข้อมูลหลายล้านระเบียนแล้วประมวลผล 67 ล้านระเบียนในไม่กี่นาที นอกจากนี้ยังพิจารณาว่าร้านค้าใดบ้างที่มีสิทธิ์

การใช้ Spark ทำให้ Pinterest สามารถระบุแนวโน้มการพัฒนาและใช้เพื่อเข้าใจพฤติกรรมของผู้ใช้ สิ่งนี้จะช่วยให้เกิดมูลค่าที่ดีขึ้นในชุมชน Pinterest ทริปยังใช้ Spark เป็นหนึ่งในเว็บไซต์ข้อมูลการเดินทางที่ใหญ่ที่สุดในโลกเพื่อเร่งให้คำแนะนำแก่ผู้เข้าชม

ข้อสรุป

ไม่มีใครสงสัยความกล้าหาญของ Apache Spark แม้กระทั่งในปัจจุบันและชุดคุณสมบัติที่เป็นเอกลักษณ์ที่นำมาสู่ตาราง พลังการประมวลผลและความเร็วพร้อมกับความเข้ากันได้ของมันทำให้เกิดเสียงหลายอย่างที่จะเกิดขึ้นในอนาคต อย่างไรก็ตามมันก็มีหลายด้านที่จำเป็นต้องปรับปรุงหากมันคือการตระหนักถึงศักยภาพอย่างแท้จริง ในขณะที่ Hadoop ยังคงเป็นกฎของการพักอาศัยในปัจจุบัน Apache Spark มีอนาคตที่สดใสอยู่ข้างหน้าและได้รับการพิจารณาจากหลาย ๆ คนว่าเป็นแพลตฟอร์มในอนาคตสำหรับความต้องการการประมวลผลข้อมูล