![สอนวิธี ส่งหรือแชร์ไฟล์ที่มีขนาดใหญ่เกิน 25 MB ให้เพื่อนร่วมงาน ไม่ควรส่งไฟล์ผ่านอีเมล 2021](https://i.ytimg.com/vi/INN8VBjgvb0/hqdefault.jpg)
เนื้อหา
Q:
มีข้อมูลมากเกินไปในข้อมูลขนาดใหญ่หรือไม่?
A:
คำตอบของคำถามคือใช่ดังก้อง อาจมีข้อมูลมากเกินไปในโครงการข้อมูลขนาดใหญ่
มีหลายวิธีที่สิ่งนี้สามารถเกิดขึ้นได้และเหตุผลต่าง ๆ ที่ผู้เชี่ยวชาญต้องการ จำกัด และดูแลข้อมูลในหลายวิธีเพื่อให้ได้ผลลัพธ์ที่ถูกต้อง (อ่าน 10 Big Myths เกี่ยวกับ Big Data)
โดยทั่วไปผู้เชี่ยวชาญพูดถึงความแตกต่างของ "สัญญาณ" จาก "เสียง" ในรูปแบบ กล่าวอีกนัยหนึ่งในทะเลของข้อมูลขนาดใหญ่ข้อมูลเชิงลึกที่เกี่ยวข้องกลายเป็นเรื่องยากที่จะกำหนดเป้าหมาย ในบางกรณีคุณกำลังมองหาเข็มในกองหญ้า
ตัวอย่างเช่นสมมติว่า บริษัท กำลังพยายามใช้ข้อมูลขนาดใหญ่เพื่อสร้างข้อมูลเชิงลึกเฉพาะในส่วนของฐานลูกค้าและการซื้อของพวกเขาในช่วงเวลาที่กำหนด (อ่านข้อมูลขนาดใหญ่ทำอะไรได้บ้าง)
การมีสินทรัพย์ข้อมูลจำนวนมหาศาลอาจส่งผลให้เกิดการสุ่มข้อมูลที่ไม่เกี่ยวข้องหรืออาจทำให้เกิดอคติที่บิดเบือนข้อมูลในทิศทางเดียวหรืออีกทางหนึ่ง
นอกจากนี้ยังทำให้กระบวนการช้าลงอย่างมากเนื่องจากระบบคอมพิวเตอร์ต้องต่อสู้กับชุดข้อมูลที่ใหญ่ขึ้นและใหญ่ขึ้น
ในโครงการหลายประเภทมีความสำคัญอย่างยิ่งสำหรับวิศวกรข้อมูลในการดูแลข้อมูลในชุดข้อมูลที่ จำกัด และเฉพาะ - ในกรณีข้างต้นซึ่งจะเป็นเพียงข้อมูลสำหรับกลุ่มลูกค้าที่กำลังศึกษาเท่านั้นข้อมูลในเวลานั้น กำลังศึกษากรอบและแนวทางที่กำจัดตัวระบุเพิ่มเติมหรือข้อมูลพื้นหลังที่อาจทำให้เกิดความสับสนหรือทำให้ระบบช้าลง (บทบาทงานอ่าน: ข้อมูลวิศวกร)
สำหรับข้อมูลเพิ่มเติมให้ดูที่วิธีการทำงานในขอบเขตของการเรียนรู้ของเครื่อง (อ่านการเรียนรู้ของเครื่อง 101)
ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรพูดถึงสิ่งที่เรียกว่า "overfitting" ซึ่งรูปแบบที่ซับซ้อนมากเกินไปนำไปสู่ผลลัพธ์ที่มีประสิทธิภาพน้อยลงเมื่อโปรแกรมการเรียนรู้ของเครื่องเปลี่ยนข้อมูลการผลิตใหม่
การเกิด overfitting เกิดขึ้นเมื่อชุดข้อมูลที่ซับซ้อนตรงกับชุดฝึกอบรมเริ่มต้นด้วยและไม่อนุญาตให้โปรแกรมปรับให้เข้ากับข้อมูลใหม่ได้อย่างง่ายดาย
ในทางเทคนิคแล้วการเกิด overfitting นั้นไม่ได้เกิดจากการมีตัวอย่างข้อมูลมากเกินไป แต่จากการที่ coronation ของ data point มากเกินไป แต่คุณอาจยืนยันว่าการมีข้อมูลมากเกินไปอาจเป็นปัจจัยที่เอื้อต่อปัญหาประเภทนี้ได้เช่นกัน การจัดการกับคำสาปของมิติเกี่ยวข้องกับเทคนิคเดียวกับที่ทำในโครงการข้อมูลขนาดใหญ่ก่อนหน้านี้เป็นมืออาชีพพยายามที่จะระบุสิ่งที่พวกเขากำลังป้อนระบบไอที
บรรทัดล่างคือข้อมูลขนาดใหญ่สามารถเป็นประโยชน์อย่างมากกับ บริษัท หรืออาจกลายเป็นความท้าทายที่สำคัญ ด้านหนึ่งคือว่า บริษัท มีข้อมูลที่ถูกต้องในการเล่น ผู้เชี่ยวชาญรู้ว่าไม่แนะนำให้ทิ้งข้อมูลสินทรัพย์ทั้งหมดลงในถังบรรจุและสร้างข้อมูลเชิงลึกในระบบคลาวด์และระบบข้อมูลที่ซับซ้อนใหม่มีความพยายามในการควบคุมและจัดการและดูแลจัดการข้อมูลเพื่อให้มีความแม่นยำและ การใช้สินทรัพย์ข้อมูลอย่างมีประสิทธิภาพ