มีข้อมูลมากเกินไปในข้อมูลขนาดใหญ่หรือไม่?

ผู้เขียน: Laura McKinney
วันที่สร้าง: 4 เมษายน 2021
วันที่อัปเดต: 1 กรกฎาคม 2024
Anonim
สอนวิธี ส่งหรือแชร์ไฟล์ที่มีขนาดใหญ่เกิน 25  MB ให้เพื่อนร่วมงาน ไม่ควรส่งไฟล์ผ่านอีเมล 2021
วิดีโอ: สอนวิธี ส่งหรือแชร์ไฟล์ที่มีขนาดใหญ่เกิน 25 MB ให้เพื่อนร่วมงาน ไม่ควรส่งไฟล์ผ่านอีเมล 2021

เนื้อหา

Q:

มีข้อมูลมากเกินไปในข้อมูลขนาดใหญ่หรือไม่?


A:

คำตอบของคำถามคือใช่ดังก้อง อาจมีข้อมูลมากเกินไปในโครงการข้อมูลขนาดใหญ่

มีหลายวิธีที่สิ่งนี้สามารถเกิดขึ้นได้และเหตุผลต่าง ๆ ที่ผู้เชี่ยวชาญต้องการ จำกัด และดูแลข้อมูลในหลายวิธีเพื่อให้ได้ผลลัพธ์ที่ถูกต้อง (อ่าน 10 Big Myths เกี่ยวกับ Big Data)

โดยทั่วไปผู้เชี่ยวชาญพูดถึงความแตกต่างของ "สัญญาณ" จาก "เสียง" ในรูปแบบ กล่าวอีกนัยหนึ่งในทะเลของข้อมูลขนาดใหญ่ข้อมูลเชิงลึกที่เกี่ยวข้องกลายเป็นเรื่องยากที่จะกำหนดเป้าหมาย ในบางกรณีคุณกำลังมองหาเข็มในกองหญ้า

ตัวอย่างเช่นสมมติว่า บริษัท กำลังพยายามใช้ข้อมูลขนาดใหญ่เพื่อสร้างข้อมูลเชิงลึกเฉพาะในส่วนของฐานลูกค้าและการซื้อของพวกเขาในช่วงเวลาที่กำหนด (อ่านข้อมูลขนาดใหญ่ทำอะไรได้บ้าง)

การมีสินทรัพย์ข้อมูลจำนวนมหาศาลอาจส่งผลให้เกิดการสุ่มข้อมูลที่ไม่เกี่ยวข้องหรืออาจทำให้เกิดอคติที่บิดเบือนข้อมูลในทิศทางเดียวหรืออีกทางหนึ่ง

นอกจากนี้ยังทำให้กระบวนการช้าลงอย่างมากเนื่องจากระบบคอมพิวเตอร์ต้องต่อสู้กับชุดข้อมูลที่ใหญ่ขึ้นและใหญ่ขึ้น

ในโครงการหลายประเภทมีความสำคัญอย่างยิ่งสำหรับวิศวกรข้อมูลในการดูแลข้อมูลในชุดข้อมูลที่ จำกัด และเฉพาะ - ในกรณีข้างต้นซึ่งจะเป็นเพียงข้อมูลสำหรับกลุ่มลูกค้าที่กำลังศึกษาเท่านั้นข้อมูลในเวลานั้น กำลังศึกษากรอบและแนวทางที่กำจัดตัวระบุเพิ่มเติมหรือข้อมูลพื้นหลังที่อาจทำให้เกิดความสับสนหรือทำให้ระบบช้าลง (บทบาทงานอ่าน: ข้อมูลวิศวกร)


สำหรับข้อมูลเพิ่มเติมให้ดูที่วิธีการทำงานในขอบเขตของการเรียนรู้ของเครื่อง (อ่านการเรียนรู้ของเครื่อง 101)

ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรพูดถึงสิ่งที่เรียกว่า "overfitting" ซึ่งรูปแบบที่ซับซ้อนมากเกินไปนำไปสู่ผลลัพธ์ที่มีประสิทธิภาพน้อยลงเมื่อโปรแกรมการเรียนรู้ของเครื่องเปลี่ยนข้อมูลการผลิตใหม่

การเกิด overfitting เกิดขึ้นเมื่อชุดข้อมูลที่ซับซ้อนตรงกับชุดฝึกอบรมเริ่มต้นด้วยและไม่อนุญาตให้โปรแกรมปรับให้เข้ากับข้อมูลใหม่ได้อย่างง่ายดาย

ในทางเทคนิคแล้วการเกิด overfitting นั้นไม่ได้เกิดจากการมีตัวอย่างข้อมูลมากเกินไป แต่จากการที่ coronation ของ data point มากเกินไป แต่คุณอาจยืนยันว่าการมีข้อมูลมากเกินไปอาจเป็นปัจจัยที่เอื้อต่อปัญหาประเภทนี้ได้เช่นกัน การจัดการกับคำสาปของมิติเกี่ยวข้องกับเทคนิคเดียวกับที่ทำในโครงการข้อมูลขนาดใหญ่ก่อนหน้านี้เป็นมืออาชีพพยายามที่จะระบุสิ่งที่พวกเขากำลังป้อนระบบไอที

บรรทัดล่างคือข้อมูลขนาดใหญ่สามารถเป็นประโยชน์อย่างมากกับ บริษัท หรืออาจกลายเป็นความท้าทายที่สำคัญ ด้านหนึ่งคือว่า บริษัท มีข้อมูลที่ถูกต้องในการเล่น ผู้เชี่ยวชาญรู้ว่าไม่แนะนำให้ทิ้งข้อมูลสินทรัพย์ทั้งหมดลงในถังบรรจุและสร้างข้อมูลเชิงลึกในระบบคลาวด์และระบบข้อมูลที่ซับซ้อนใหม่มีความพยายามในการควบคุมและจัดการและดูแลจัดการข้อมูลเพื่อให้มีความแม่นยำและ การใช้สินทรัพย์ข้อมูลอย่างมีประสิทธิภาพ