6 ตำนานใหญ่เกี่ยวกับการจัดการข้อมูลขนาดใหญ่

ผู้เขียน: Eugene Taylor
วันที่สร้าง: 15 สิงหาคม 2021
วันที่อัปเดต: 22 มิถุนายน 2024
Anonim
หน่วยที่1 ความรู้พื้นฐานการจัดการข้อมูลขนาดใหญ่ Big Data
วิดีโอ: หน่วยที่1 ความรู้พื้นฐานการจัดการข้อมูลขนาดใหญ่ Big Data

เนื้อหา


ที่มา: Dwnld777 / Dreamstime.com

Takeaway:

ข้อมูลขนาดใหญ่เป็นธุรกิจขนาดใหญ่ แต่ถ้าใช้อย่างถูกต้อง

ย้อนกลับไปในเดือนพฤษภาคม 2014 งานวิจัยของ Forrester ออกรายงานสองฉบับซึ่งได้ข้อสรุปบางประการเกี่ยวกับ hype ที่ล้อมรอบข้อมูลขนาดใหญ่ บริษัท วิจัยทำการสำรวจผู้บริหารด้านการตลาดและพัฒนาธุรกิจมากกว่า 250 คน ตามที่ผู้เขียนรายงานวาทศาสตร์ข้อมูลขนาดใหญ่อยู่ที่สูงตลอดเวลาและผู้ขายเทคโนโลยีกำลัง touting ผลิตภัณฑ์ที่มีสิ่งที่ดูเหมือนจะเรียกร้องอย่างไม่น่าเชื่อ

การ์ตเนอร์เห็นด้วยกับ Forrester Research; hype มากล้อมรอบข้อมูลขนาดใหญ่ ในรายงานเดือนกันยายน 2014 การ์ตเนอร์ได้เปิดตัวตำนานข้อมูลที่ใหญ่ที่สุดห้าเรื่องและนักวิเคราะห์ของการ์ทเนอร์เสนอความเห็นว่ามีความเข้าใจผิดเกี่ยวกับข้อมูลขนาดใหญ่และการจัดการของมันอย่างไร ดังนั้นสิ่งที่เป็นตำนานที่ยิ่งใหญ่ที่สุดข้อมูลขนาดใหญ่? มาดูกันเถอะ

ความเชื่อ: ทุกคนรออยู่ข้างหน้าเราในการนำข้อมูลขนาดใหญ่มาใช้

การ์ตเนอร์กล่าวว่าความสนใจในข้อมูลขนาดใหญ่อยู่ในระดับสูงสุดตลอดกาล อย่างไรก็ตามเรื่องนี้มีเพียงร้อยละ 13 เท่านั้นที่มีระบบการทำงาน เหตุผล: บริษัท ส่วนใหญ่ยังไม่ได้คิดวิธีการขุดมูลค่าใด ๆ จากที่เก็บข้อมูลขนาดใหญ่ ที่นี่การสำรวจของ Gartner นั้นมองในแง่ดีกว่ารายงานของ Forrester ซึ่งพบว่ามีผู้เข้าร่วมการสำรวจเพียง 9% ที่กล่าวว่าพวกเขาวางแผนที่จะใช้เทคโนโลยีข้อมูลขนาดใหญ่ในปีหน้า (ข้อมูลขนาดใหญ่มีหลายสิ่งที่จะนำเสนอเรียนรู้เพิ่มเติมใน 5 ปัญหาในโลกแห่งความจริงข้อมูลขนาดใหญ่สามารถแก้ไขได้)

ความเชื่อ: เรามีข้อมูลมากมาย เราไม่จำเป็นต้องกังวลเกี่ยวกับข้อบกพร่องของข้อมูลเล็กน้อย

การ์ตเนอร์เป็นห่วงเกี่ยวกับสิ่งที่มนุษย์เรามี: "เรามีมากสิ่งเล็กน้อยที่ไม่ดีจะไม่สำคัญ" Ted Friedman รองประธานและนักวิเคราะห์ที่มีชื่อเสียงของ Gartner เชื่อว่านี่เป็นวิธีที่ผิดในการดูสถานการณ์

"ในความเป็นจริงแม้ว่าข้อบกพร่องของแต่ละคนจะมีผลกระทบน้อยกว่าในชุดข้อมูลทั้งหมดมากกว่าที่เคยทำเมื่อมีข้อมูลน้อยลง แต่ก็มีข้อบกพร่องมากกว่าเดิมเพราะมีข้อมูลมากขึ้น" ฟรีดแมนกล่าว "ดังนั้นผลกระทบโดยรวมของข้อมูลคุณภาพต่ำในชุดข้อมูลทั้งหมดยังคงเหมือนเดิม"

ฟรีดแมนเพิ่มเหตุผลอีกข้อกังวล การจับข้อมูลขนาดใหญ่มักจะรวมข้อมูลจากภายนอกธุรกิจซึ่งเป็นโครงสร้างและต้นกำเนิดที่ไม่รู้จัก สิ่งนี้จะเพิ่มโอกาสเกิดข้อผิดพลาด

ตำนาน: เทคโนโลยีข้อมูลขนาดใหญ่จะขจัดความจำเป็นในการรวมข้อมูล

มีกลยุทธ์การวิเคราะห์ข้อมูลที่สำคัญสองอย่างที่อาจนำไปใช้กับข้อมูลขนาดใหญ่: "schema เมื่อเขียน" หรือ "schema เมื่ออ่าน" จนกระทั่งเมื่อเร็ว ๆ นี้สคีมาในการเขียนเป็นวิธีการเดียวที่ใช้ Schema on read เป็นความนิยมในปัจจุบันในการจัดการฐานข้อมูล ซึ่งแตกต่างจาก schema ที่เขียนซึ่งต้องใช้รูปแบบที่มีโครงสร้างข้อมูลจะถูกโหลดลงในฐานข้อมูล schema-on-read ในรูปแบบ raw จากนั้นผู้พัฒนา - ใช้แพลตฟอร์มฐานข้อมูลที่ไม่มีโครงสร้างเช่น Hadoop ทำให้ข้อมูลที่แตกต่างกันเป็นรูปแบบที่ใช้งานได้ สคีมาในการอ่านมีข้อได้เปรียบที่ชัดเจน แต่เมื่อการ์ทเนอร์กล่าวถึงการรวมข้อมูลจะต้องเกิดขึ้นในบางจุด

ความเชื่อ: การใช้คลังข้อมูลสำหรับการวิเคราะห์ขั้นสูงนั้นไม่มีจุดหมาย

การใช้เวลาในการสร้างคลังข้อมูลดูเหมือนจะไม่มีประโยชน์กับตัวจัดการข้อมูลจำนวนมากโดยเฉพาะอย่างยิ่งเมื่อข้อมูลที่ถูกจับมาใหม่นั้นแตกต่างจากที่อยู่ในคลังข้อมูล อย่างไรก็ตาม Gartner เตือนอีกครั้งแม้การวิเคราะห์ข้อมูลขั้นสูงจะใช้คลังข้อมูลและข้อมูลใหม่ซึ่งหมายความว่าผู้รวบรวมข้อมูลต้อง:
  • ปรับแต่งชนิดข้อมูลใหม่เพื่อให้เหมาะสมสำหรับการวิเคราะห์
  • ตัดสินใจว่าข้อมูลใดเกี่ยวข้องและระดับคุณภาพของข้อมูลที่ต้องการ
  • กำหนดวิธีการรวมข้อมูล
  • ทำความเข้าใจว่าการปรับแต่งข้อมูลสามารถเกิดขึ้นได้ในที่อื่นที่ไม่ใช่คลังข้อมูล

ตำนาน: ทะเลสาบข้อมูลจะแทนที่คลังข้อมูล

ทะเลสาบข้อมูลเป็นที่เก็บข้อมูลที่แตกต่างกันซึ่งตรงข้ามกับคลังข้อมูลที่ข้อมูลอยู่ในรูปแบบที่มีโครงสร้าง การสร้าง data lake นั้นใช้ความพยายามเพียงเล็กน้อย (ไม่จำเป็นต้องจัดรูปแบบข้อมูล) เทียบกับ data data ซึ่งเป็นสาเหตุที่ data lakes เป็นที่สนใจ

การ์ตเนอร์ย้ำว่าการมีข้อมูลไม่ใช่ประเด็น - ความสามารถในการจัดการข้อมูลที่ถูกจับเพื่อการตัดสินใจอย่างชาญฉลาดเป็นประเด็น ยิ่งกว่านั้นการใช้ข้อมูล (ค่อนข้างไม่ได้รับการพิสูจน์) ทะเลสาบเพื่อช่วยในการตัดสินใจเป็นปัญหา

“ คลังข้อมูลมีความสามารถในการรองรับผู้ใช้ที่หลากหลายทั่วทั้งองค์กร” Nick Heudecker ผู้อำนวยการฝ่ายวิจัยของ Gartner กล่าว "ผู้นำด้านการจัดการข้อมูลไม่ต้องรอให้ทะเลสาบข้อมูลทันทัน" (เรียนรู้เพิ่มเติมเกี่ยวกับการใช้ข้อมูลขนาดใหญ่ใน 7 สิ่งที่คุณต้องรู้เกี่ยวกับข้อมูลขนาดใหญ่ก่อนที่จะยอมรับ)

Big Data Works - วิธีการจัดการข้อมูลใหม่อาจไม่

เหตุผลที่การ์ตเนอร์กล่าวว่า "ตำนานข้อมูลที่ใหญ่ที่สุด" แทนที่จะเป็น "ตำนานข้อมูลขนาดใหญ่" จะชัดเจนหลังจากอ่านรายงาน Gartner ไม่ได้เป็นข้อมูลขนาดใหญ่ที่หลอกลวง การ์ตเนอร์เป็นคนที่โกงวิธีการใหม่ในการจัดการข้อมูลขนาดใหญ่ที่พร้อมสำหรับ "ช่วงเวลาสำคัญ"