5 ประเด็นสำคัญที่ข้อมูลขนาดใหญ่สร้างผลกระทบที่สำคัญ

วิดีโอ: WEEK 18 | การทดลอง | 5 Stories | TRICK OR CREEP

เนื้อหา

มันเกิดขึ้นได้อย่างไร
ข้อมูลขนาดใหญ่โอกาสที่ยิ่งใหญ่
บางสิ่งบางอย่างที่น่าจับตามอง

ที่มา: Nmedia /Dreamstime.com

Takeaway:

ข้อมูลขนาดใหญ่เป็นธุรกิจขนาดใหญ่ในทุกที่ แต่บางพื้นที่ก็ใช้ประโยชน์จากเทคโนโลยีนี้มากที่สุด

เมื่อฉันเริ่มบทความนี้ฉันวางแผนที่จะแสดงรายการแพลตฟอร์มข้อมูลขนาดใหญ่ประเภทต่างๆ แต่หลังจากสามวันของการพยายามรวบรวมข้อมูลขนาดใหญ่ที่แตกต่างกันทั้งหมด - สัมพันธ์กับที่ไม่ใช่เชิงสัมพันธ์, SQL เทียบกับ NoSQL และฐานข้อมูลกับกรอบ - ในบางส่วนของคำสั่งฉันตัดสินใจหลีกเลี่ยงความยุ่งเหยิงนั้น

เพื่อเพิ่มการดูถูกการบาดเจ็บฉันหวังว่าจะแนะนำคนที่ชื่อว่าคำว่า "ข้อมูลขนาดใหญ่" เป็นส่วนหนึ่งของบทความ แต่ฉันไม่สามารถทำเช่นนั้นได้ ไม่มีคำตอบที่ตกลงกันไว้ อันที่จริงมีโครงการวิจัยแบบเต็มรูปแบบที่กำลังพิจารณาว่าใครเป็นผู้สร้างข้อมูลขนาดใหญ่ ฉันจะดูที่วิธีการบางอย่างที่สำคัญในการใช้ข้อมูลขนาดใหญ่ นั่นสำคัญกว่า และมันน่าสนใจและน่าประหลาดใจกว่าที่คุณคิด

มันเกิดขึ้นได้อย่างไร

นักวิเคราะห์ที่ใช้การขุดดาต้าแบบดั้งเดิมได้ทำการจัดการข้อมูลมานานหลายปี นักวิเคราะห์รายเดียวกันเหล่านี้พบว่ามันยากที่จะรับมือกับปริมาณและความหลากหลายของข้อมูลที่ถูกบันทึกไว้โดยธุรกิจองค์กรเอกชนและหน่วยงานรัฐบาล

ป้อนข้อมูลขนาดใหญ่ซึ่งเป็นขั้นตอนวิวัฒนาการต่อไปในการขุดข้อมูล ข้อมูลขนาดใหญ่ได้รับการออกแบบมาเพื่อจัดการกับฐานข้อมูลขนาดใหญ่และข้อมูลจำนวนมหาศาลที่ถูกสร้างขึ้นในโลกดิจิตอลในปัจจุบัน หากคุณ "ใหญ่" คิดเกี่ยวกับ Google และข้อมูลทั้งหมดที่รวบรวมได้คุณจะอยู่ใน ballpark สิ่งที่อาจทำให้คุณประหลาดใจก็คือ Google เป็นหนึ่งในสี่ที่ติดอันดับหนึ่งในสิบของรายการฐานข้อมูลที่ใหญ่ที่สุดของโลก ตั้งแต่เดือนมกราคม 2014 ศูนย์ข้อมูลโลกเพื่อสภาพภูมิอากาศมีรายชื่ออยู่ในระดับ 220 เทราไบต์และทุกคนคาดเดาว่าขนาดของฐานข้อมูลที่ควบคุมโดยหน่วยงานของรัฐบางแห่ง

แน่นอนว่าข้อมูลขนาดใหญ่ถูกนำออกไปเพราะทำให้สามารถจัดการกับข้อมูลที่แตกต่างกันจำนวนมหาศาลและค้นพบสิ่งที่น่าอัศจรรย์และมีรายละเอียดที่น่าอัศจรรย์และเป็นเรื่องส่วนตัว John Sumser นักวิเคราะห์อุตสาหกรรม HR นำเสนอตัวอย่างต่อไปนี้:

"วันนี้เราสร้างสมมติฐานและเก็บข้อมูลพรุ่งนี้เราจะทำสิ่งกลับกันการสะสมข้อมูลที่สม่ำเสมอและมั่นคงจะทำให้เราสามารถดูข้อมูลก่อนที่เราจะตั้งคำถามซึ่งหมายความว่าเราจะได้รับคำตอบสำหรับคำถามที่เราไม่ได้ทำ" ไม่รู้จะถามเราจะคิดในสิ่งต่าง ๆ ที่เราคิดว่าเป็นข้อเท็จจริง "

แน่นอนเราทุกคนเคยได้ยินเกี่ยวกับวิธีที่น่าขนลุกบางอย่างที่ข้อมูลนี้ถูกนำไปใช้เช่นความสามารถของเป้าหมายในการแยกแยะการตั้งครรภ์ของหญิงสาวก่อนที่ครอบครัวของเธอจะค้นพบ แต่ยังมีการใช้ข้อมูลขนาดใหญ่สำหรับสาเหตุที่น่ากลัวน้อยกว่า นี่คือบางองค์กรที่ใช้ประโยชน์สูงสุด:

คุณไม่สามารถพัฒนาทักษะการเขียนโปรแกรมของคุณเมื่อไม่มีใครใส่ใจคุณภาพของซอฟต์แวร์

ข้อมูลขนาดใหญ่ด้านหนึ่งที่ชัดเจนจะช่วยในการจัดการบันทึกสุขภาพอิเล็กทรอนิกส์อย่างปลอดภัยและถูกต้องทั่วทั้งองค์กรทางการแพทย์ การมีบันทึกที่แม่นยำจะช่วยให้ผู้ป่วยได้รับบริการที่ดีขึ้นและลดข้อผิดพลาด ด้านการดูแลสุขภาพด้วยเหตุผลที่ชัดเจนคือการปรับข้อมูลขนาดใหญ่ในอัตราที่ช้าลงเพื่อให้สอดคล้องกับกฎระเบียบของรัฐบาลเกี่ยวกับการรักษาความลับของผู้ป่วย

ดังที่ได้กล่าวไว้ก่อนหน้านี้ข้อมูลขนาดใหญ่เป็นที่รู้จักกันในการให้คำตอบสำหรับคำถามที่ยังไม่ได้ถาม ในด้านการดูแลสุขภาพนี่อาจหมายถึงการหายาใหม่หรือการรักษาที่ไม่พบเป็นอย่างอื่น จากข้อมูลของ McKinsey & Company ข้อมูลขนาดใหญ่สามารถทำสิ่งต่อไปนี้ได้ในอนาคตอันใกล้

การสร้างแบบจำลองการทำนายกระบวนการทางชีวภาพและยาเสพติดมีความซับซ้อนและแพร่หลายมากขึ้น
ผู้ป่วยถูกระบุให้ลงทะเบียนในการทดลองทางคลินิกโดยอ้างอิงจากแหล่งข้อมูลเพิ่มเติมเช่นสื่อสังคมออนไลน์
มีการติดตามการทดสอบตามเวลาจริงเพื่อระบุปัญหาด้านความปลอดภัยหรือการปฏิบัติงานอย่างรวดเร็ว
แทนที่จะเป็นไซโลข้อมูลที่มีความยืดหยุ่นซึ่งยากต่อการใช้ประโยชน์ข้อมูลจะถูกบันทึกทางอิเล็กทรอนิกส์และไหลอย่างง่ายดายระหว่างหน่วยต่างๆ

ข้อมูลขนาดใหญ่โอกาสที่ยิ่งใหญ่

ในขณะที่ข้อมูลขนาดใหญ่ถูกใช้ประโยชน์ในบางพื้นที่มันให้โอกาสสำหรับทุกองค์กรในพื้นที่ต่อไปนี้:

บันทึกข้อมูลอุปกรณ์คอมพิวเตอร์และเครือข่ายใด ๆ จำนวนข้อมูลที่ถูกบันทึกอย่างรวดเร็วกลายเป็นความไม่สะดวก ข้อมูลขนาดใหญ่สามารถจัดการข้อมูลจำนวนนั้นได้อย่างง่ายดายช่วยให้ผู้ดูแลระบบสามารถตรวจสอบกิจกรรมเครือข่ายวินิจฉัยปัญหาหรือในตัวอย่างที่ Rubin ให้มาฉันมองหารูปแบบการรับส่งข้อมูลเครือข่ายบางอย่างที่จะบ่งบอกถึงกิจกรรมมัลแวร์

หากคุณกำลังอ่านบทความนี้เป็นการพนันที่ค่อนข้างปลอดภัยซึ่งคุณทราบถึงปัญหา Heartbleed รอบ ๆ OpenSSL นอกจากปัญหาด้านเทคนิคแล้วยังมีข้อกังวลว่ามีช่องโหว่อยู่หลายปี รูบินกล่าวว่าข้อมูลขนาดใหญ่ช่วยให้ผู้ดูแลระบบเครือข่ายทำงานร่วมกับนักวิเคราะห์ข้อมูลเพื่อสร้างโปรแกรมที่จะค้นหาบันทึกเครือข่ายทั้งหมดเพื่อค้นหาการเต้นของหัวใจที่เป็นอันตราย โพสต์ EFF นี้กล่าวถึง:

"ผู้ให้บริการเครือข่ายใด ๆ ที่มีการบันทึกแพ็คเก็ตที่กว้างขวางสามารถตรวจสอบหาการเต้นของหัวใจที่เป็นอันตรายซึ่งโดยทั่วไปจะมีอัตราการรับส่งข้อมูล TCP เป็น 18 03 02 00 03 01 หรือ 18 03 01 00 03 01 (หรือแม้แต่ 18 03 03 00 03 01)"

ตัวอย่างต่อไปนี้คือเอาต์พุตตัวอย่างจากคำสั่ง show audit:

เราเตอร์ # แสดงการตรวจสอบ

* 14 ก.ย. 18: 37: 31.535:% AUDIT-1-RUN_VERSION: แฮช:

24D98B13B87D106E7E6A7E5D1B3CE0AD ผู้ใช้:

* 14 ก.ย. 18: 37: 31.583:% AUDIT-1-RUN_CONFIG: แฮช:

4AC2D776AA6FCA8FD7653CEB8969B695 ผู้ใช้:

* 14 กันยายน 18: 37: 31.595:% AUDIT-1-STARTUP_CONFIG: แฮช:

95DD497B1BB61AB33A629124CBFEC0FC ผู้ใช้:

* 14 ก.ย. 18: 37: 32.107:% AUDIT-1-FILESYSTEM: แฮช:

330E7111F2B526F0B850C24ED5774EDE ผู้ใช้:

* 14 ก.ย. 18: 37: 32.107:% AUDIT-1-HARDWARE_CONFIG: แฮช:

32F66463DDA802CC9171AF6386663D20 ผู้ใช้:

หากคุณติดตามการประทับเวลาช่วงเวลาสำหรับรายการเหล่านั้นน้อยกว่าหนึ่งวินาที ฉันไม่ต้องการที่จะคาดการณ์ว่าสำหรับหนึ่งวันให้อยู่คนเดียวสองปี!

บางสิ่งบางอย่างที่น่าจับตามอง

หากคุณตรวจสอบโฆษณางานมีความต้องการอย่างยิ่งสำหรับผู้เชี่ยวชาญด้านข้อมูลขนาดใหญ่ ฉันถามรูบินเกี่ยวกับเรื่องนี้ เขาเห็นด้วยว่าการพูดถึงนักเรียนของเขารู้สึกตื่นเต้นกับโอกาสของพวกเขา จากนั้นฉันก็ตระหนักว่าแพลตฟอร์มข้อมูลขนาดใหญ่โดยเฉพาะอย่างยิ่งสิ่งที่ถือว่าเป็นโอเพ่นซอร์สนั้นทำตามไทม์ไลน์คล้ายกับวิธีที่ลีนุกซ์กลายเป็นกระแสหลัก

มหาวิทยาลัยยอมรับแพลตฟอร์มโอเพ่นซอร์สของแพลตฟอร์มข้อมูลขนาดใหญ่โดยเฉพาะใน Hadoop เพราะไม่มีค่าใช้จ่ายและนักเรียนสามารถจัดการซอร์สโค้ดได้ ดังนั้นผู้สำเร็จการศึกษาที่เติมตำแหน่งงานว่างทั้งหมดจะชอบทำงานกับแพลตฟอร์มโอเพ่นซอร์สเพราะเป็นสิ่งที่พวกเขารู้ดีที่สุด มันจะน่าสนใจที่จะดู