ข้อมูลของคุณมีโครงสร้างอย่างไร? ตรวจสอบข้อมูลที่มีโครงสร้างไม่มีโครงสร้างและกึ่งโครงสร้าง

ผู้เขียน: Roger Morrison
วันที่สร้าง: 25 กันยายน 2021
วันที่อัปเดต: 21 มิถุนายน 2024
Anonim
15. การเขียนรายงานการวิจัย
วิดีโอ: 15. การเขียนรายงานการวิจัย

เนื้อหา



ที่มา: monsitj / iStockphoto

Takeaway:

เรียนรู้เกี่ยวกับข้อมูลที่มีโครงสร้างไม่มีโครงสร้างและกึ่งโครงสร้าง

ในอดีตนักวิเคราะห์ข้อมูลมีความสามารถในการถอดรหัสและแยกข้อมูลจากข้อมูลประเภทเดียวเท่านั้น: ข้อมูลที่มีโครงสร้าง ข้อมูลประเภทนี้สามารถค้นหาได้ง่ายเนื่องจากรูปแบบที่ชัดเจน แต่แสดงถึงเปอร์เซ็นต์เล็กน้อยของข้อมูลทั้งหมดที่มี

ข้อมูลที่ไม่มีโครงสร้างประกอบด้วยวิดีโอเสียง s และข้อมูลที่มาจากโซเชียลมีเดียและอุปกรณ์มือถือเช่นกัน มันเป็นข้อมูลดิบที่ใหญ่ที่สุดที่มีอยู่ แต่ไม่มีใครสามารถแตะทรัพยากรนี้ได้อย่างน่าเชื่อถือ

อย่างไรก็ตามสิ่งต่าง ๆ มีการเปลี่ยนแปลงเนื่องจากความพร้อมในการจัดเก็บที่เพิ่มขึ้นและความสามารถในการประมวลผลที่เหนือกว่าทำให้เกิดการวิเคราะห์ข้อมูลที่ไม่มีโครงสร้างซึ่งเป็นรูปแบบใหม่ของเทคโนโลยีที่ยังไม่สมบูรณ์ ระบบธุรกิจอัจฉริยะที่ดีกว่านั้นใช้ประโยชน์จากโอกาสนี้อย่างเต็มที่และมีการลงทุนจำนวนมากเพื่อรวบรวมการวิเคราะห์ข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างเพื่อเข้าถึงข้อมูลทองคำที่ไม่มีที่สิ้นสุดนี้

ให้ดูที่รูปแบบข้อมูลทั้งสองนี้เพื่อทำความเข้าใจความแตกต่างและสิ่งที่อนาคตมีไว้สำหรับนักวิเคราะห์ข้อมูลทั้งหมด


ข้อมูลที่มีโครงสร้างคืออะไร?

ข้อมูลที่มีโครงสร้างเป็นข้อมูลที่สร้างขึ้นโดยมนุษย์หรือเครื่องจักรและมีการจัดระเบียบสูงซึ่งสามารถจัดเก็บได้อย่างง่ายดายในโครงสร้างฐานข้อมูลแถวที่รู้จักกันในชื่อฐานข้อมูลเชิงสัมพันธ์ (RDB) เป็นสิ่งที่มีอยู่ในรูปแบบที่สามารถบันทึกจัดเก็บและจัดระเบียบในโครงสร้าง RDB ได้อย่างง่ายดายเพื่อวิเคราะห์ในภายหลัง (หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับฐานข้อมูลให้ดูที่บทนำสู่ฐานข้อมูลของเรา)

ตัวอย่างเช่นรหัสไปรษณีย์หมายเลขโทรศัพท์และข้อมูลประชากรของผู้ใช้เช่นอายุหรือเพศ ข้อมูลที่พบในฐานข้อมูลเหล่านี้สามารถสอบถามได้ด้วยฟังก์ชัน Structured Query Language (SQL) หรือ VLOOKUP ภายใน Excel สเปรดชีต อัลกอริทึมยังสามารถทำการค้นหาข้อมูลที่พบในเขตข้อมูลต่าง ๆ ได้อย่างรวดเร็วโดยใช้ดัชนีหรือข้อมูลตัวเลขและตัวอักษร อย่างไรก็ตามข้อมูลทั้งหมดจะถูกกำหนดอย่างเคร่งครัดในแง่ของประเภทเขตข้อมูลและชื่อและความสามารถในการจัดเก็บแบบสอบถามและวิเคราะห์ข้อมูลจึงถูก จำกัด ขอบเขต

แอปพลิเคชันทั่วไปที่ใช้ข้อมูลที่มีโครงสร้าง ได้แก่ ซอฟต์แวร์การจัดการโรงพยาบาลการจัดการลูกค้าสัมพันธ์ (CRM) และระบบการจองสายการบิน เนื่องจากองค์กรที่เป็นระเบียบและเข้าถึงได้ง่ายข้อมูลที่มีโครงสร้างจึงมีประโยชน์และมีประสิทธิภาพเมื่อต้องรับมือกับข้อมูลจำนวนมาก เมื่อขุดเจาะน้ำมันดำที่ซ่อนอยู่ในปริมาณข้อมูลที่ไม่สิ้นสุดที่ผลิตขึ้นทุกวันโดยมนุษย์อย่างไรก็ตามการมองหาข้อมูลที่มีโครงสร้างนั้นไม่มีอะไรนอกจากการเกาบนพื้นผิว


ข้อมูลที่ไม่มีโครงสร้างคืออะไร?

ข้อมูลส่วนใหญ่ที่พบในองค์กรนั้นไม่มีโครงสร้างและบางส่วนคาดการณ์ว่ามากถึง 80 เปอร์เซ็นต์ของข้อมูลทั้งหมดที่มีอยู่ในปัจจุบัน ตามคำจำกัดความข้อมูลที่ไม่มีโครงสร้างคือทุกสิ่งที่ไม่มีโครงสร้างภายในที่สามารถระบุได้ อย่างไรก็ตามข้อมูลบางประเภทอยู่ในหมวดหมู่นี้ มี รูปแบบโครงสร้างภายในที่คลุมเครือบางรูปแบบ แต่ไม่สอดคล้องกับฐานข้อมูลหรือสเปรดชีต

ไม่มีข้อบกพร่องไม่มีความเครียด - คู่มือแบบเป็นขั้นตอนเพื่อสร้างซอฟต์แวร์ที่เปลี่ยนแปลงชีวิตโดยไม่ทำลายชีวิตของคุณ


คุณไม่สามารถพัฒนาทักษะการเขียนโปรแกรมของคุณเมื่อไม่มีใครใส่ใจคุณภาพของซอฟต์แวร์

ข้อมูลทางธุรกิจส่วนใหญ่ไม่มีโครงสร้างตั้งแต่การบริการลูกค้าไฟล์บันทึกการใช้เว็บวิดีโอและเนื้อหามัลติมีเดียอื่น ๆ ระบบขายอัตโนมัติ s และโพสต์โซเชียลมีเดีย ไม่มีความจำเป็นที่จะต้องอธิบายว่าข้อมูลนี้มีค่าเพียงใดหากสามารถขุดจัดระเบียบและวิเคราะห์ได้

ข้อมูลที่ไม่มีโครงสร้างส่วนใหญ่สร้างขึ้นโดยมนุษย์และทำให้มนุษย์อื่นเข้าใจได้ ซึ่งหมายความว่าหน่วยสืบราชการลับคอมพิวเตอร์ยุคสุดท้ายไม่เข้าใจข้อมูลประเภทนี้เนื่องจากอยู่ห่างจากความเป็นเส้นตรงของภาษาเครื่องและฐานข้อมูลที่มีโครงสร้าง

อยู่ระหว่าง: ข้อมูลกึ่งโครงสร้าง

ข้อมูลกึ่งโครงสร้างเป็นข้อมูลประเภทที่สามที่แสดงถึงชิ้นส่วนเล็ก ๆ ของวงกลมทั้งหมด (5-10 เปอร์เซ็นต์) ข้อมูลที่ถูกจัดกึ่งโครงสร้างมีตัวอักษรที่อยู่ในระหว่างทั้งสองโลกซึ่งมีแท็กความหมายภายในและเครื่องหมายที่ระบุองค์ประกอบที่แยกจากกัน แต่ขาดโครงสร้างที่จำเป็นเพื่อให้พอดีกับฐานข้อมูลเชิงสัมพันธ์

ตัวอย่างเช่น s อาจดูเหมือนข้อมูลที่มีโครงสร้างเนื่องจากสามารถจัดประเภทตามวันที่ขนาดไฟล์หรือเวลา อย่างไรก็ตามพวกเขาไม่ได้เนื่องจากข้อมูลที่มีค่าที่สุดคือการพบในพวกเขามากกว่าป้ายกำกับที่ค่อนข้างง่าย ไม่สามารถจัดเรียงตามเนื้อหาและหัวเรื่องได้อย่างแท้จริงเนื่องจากมนุษย์ไม่ได้พูดในรูปแบบที่เข้มงวดเช่นนี้เพื่อให้เครื่องจักรเข้าใจพวกเขาอย่างแจ่มแจ้ง ตัวอย่างอื่น ๆ ของข้อมูลที่มีโครงสร้างกึ่งโครงสร้าง ได้แก่ ฐานข้อมูล NoSQL, JSON มาตรฐานแบบเปิดและ XML ภาษามาร์กอัป

ข้อมูลกึ่งโครงสร้างมักจะถูกสอบถามและจัดทำแคตตาล็อกสำหรับการวิเคราะห์โดยใช้การวิเคราะห์ข้อมูลเมตา ตัวอย่างเช่นการสแกน X-ray ประกอบด้วยจำนวนพิกเซลขนาดใหญ่ที่สร้างภาพ - ซึ่งเป็นข้อมูลที่ไม่มีโครงสร้างโดยเนื้อแท้ซึ่งไม่สามารถเข้าถึงได้ อย่างไรก็ตามไฟล์สแกนจะยังคงมีส่วนข้อมูลเมตาที่ให้ข้อมูลเกี่ยวกับมันเช่นคำอธิบายประกอบและ ID ผู้ใช้

ข้อมูลที่ไม่มีโครงสร้างสามารถแปลงเป็นข้อมูลที่มีโครงสร้างได้หรือไม่

ความท้าทายขั้นพื้นฐานที่นักวิเคราะห์ข้อมูลทุกคนต้องเผชิญคือการจัดระเบียบข้อมูลในมืออย่างเป็นระเบียบเรียบร้อยเพื่อให้สามารถเข้าถึงและเข้าใจได้ เครื่องมือขุดข้อมูลมักจะไม่พร้อมในการแยกวิเคราะห์ข้อมูลซึ่งตามนิยามแล้วคล้ายกับภาษามนุษย์ซึ่งหมายความว่ามีเพียงมนุษย์คนอื่นเท่านั้นที่สามารถรวบรวมและจัดหมวดหมู่ได้

อย่างไรก็ตามปริมาณข้อมูลที่ไม่มีโครงสร้างทำให้ความพยายามในการจัดเก็บหรือจัดระเบียบมันลำบากมากและมีราคาแพง แหล่งข้อมูลที่มาจากเครื่องมือค้นหาบนเว็บมีขนาดใหญ่มากองค์ประกอบส่วนใหญ่ต้องการการลงทุนจำนวนมากทั้งในแง่ของการทำงานและทรัพยากรเพื่อดึงข้อมูลพื้นฐานที่สุดออกมา แม้แต่เทคนิคการขุดข้อมูลที่มีประสิทธิภาพที่สุดยังคงพลาดข้อมูลจำนวนมากที่พบในเว็บและยิ่งแย่ลงไปกว่าในเว็บลึก

แต่เทคนิคมีอยู่จริง และพวกเขากำลังได้รับการพัฒนาด้วยความเร็วที่น่าอัศจรรย์ ตัวอย่างเช่นเมตาดาต้าสามารถใช้เชื่อมต่อข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างเข้าด้วยกัน ข้อมูลที่เก็บเกี่ยวสามารถกรองและจัดทำดัชนีโดยผู้ใช้และอัลกอริทึมเช่นเดียวกับการวิเคราะห์ข้อมูลที่เกี่ยวข้อง โซลูชันอื่น ๆ รวมถึง "data wrangling" ซึ่งเป็นกระบวนการที่ข้อมูลที่ซับซ้อนถูกจัดระเบียบอย่างเป็นขั้นเป็นตอนโดยผู้ใช้ที่ไม่ใช่ด้านเทคนิค (สำหรับข้อมูลเพิ่มเติมเกี่ยวกับผู้ใช้ทั่วไปที่จัดการข้อมูลดูที่ข้อมูลขนาดใหญ่สามารถช่วยในการวิเคราะห์ด้วยตนเองได้)

ในบางจุดเราจะสามารถแปลงจำนวนข้อมูลที่ไม่มีการรวบรวมอย่างหนาแน่นเหล่านี้ให้เป็นรูปแบบที่จัดระเบียบและปรับโครงสร้างได้มากขึ้น อาจไม่ใช่วันนี้อาจไม่ใช่วันพรุ่งนี้ แต่ในไม่ช้าเราจะสามารถค้นพบหลุมฝังศพที่ใหญ่ที่สุดของมนุษย์ที่เคยพบเห็น: ข้อมูลขนาดใหญ่