7 ขั้นตอนสำหรับการเรียนรู้การขุดข้อมูลและวิทยาศาสตร์ข้อมูล

ผู้เขียน: Eugene Taylor
วันที่สร้าง: 12 สิงหาคม 2021
วันที่อัปเดต: 7 พฤษภาคม 2024
Anonim
เรียนรู้อย่างอัจฉริยะ How To ฝึกฝนจนเก่ง ให้ตัวเองเป็นเลิศ | How To | Netflix
วิดีโอ: เรียนรู้อย่างอัจฉริยะ How To ฝึกฝนจนเก่ง ให้ตัวเองเป็นเลิศ | How To | Netflix

เนื้อหา


ที่มา: Paul Fleet / Dreamstime.com

Takeaway:

วิทยาศาสตร์ข้อมูลนั้นเรียนรู้ได้ดีที่สุดจากการทำ แต่พื้นฐานของสถิติและการเรียนรู้ของเครื่องก็เป็นสิ่งสำคัญเช่นกัน

ฉันถูกถามบ่อยครั้งว่าจะเรียนรู้การขุดข้อมูลและวิทยาศาสตร์ข้อมูลได้อย่างไร นี่คือบทสรุปของฉัน

คุณสามารถเรียนรู้การขุดข้อมูลและวิทยาศาสตร์ข้อมูลได้ดีที่สุดโดยเริ่มจากการวิเคราะห์ข้อมูลทันทีที่คุณทำได้! อย่างไรก็ตามอย่าลืมที่จะเรียนรู้ทฤษฎีเนื่องจากคุณจำเป็นต้องมีพื้นฐานการเรียนรู้ทางสถิติและเครื่องจักรที่ดีเพื่อที่จะเข้าใจสิ่งที่คุณกำลังทำและเพื่อหานักเก็ตที่มีคุณค่าในเสียงของข้อมูลขนาดใหญ่

ที่นี่เจ็ดขั้นตอนสำหรับการเรียนรู้การขุดข้อมูลและวิทยาศาสตร์ข้อมูล แม้ว่าจะมีการกำหนดหมายเลขคุณสามารถทำได้ในแบบคู่ขนานหรือในลำดับที่แตกต่างกัน

  1. ภาษา: เรียนรู้ R, Python และ SQL
  2. เครื่องมือ: เรียนรู้วิธีการใช้การขุดและสร้างภาพข้อมูล
  3. หนังสือ: อ่านหนังสือเบื้องต้นเพื่อทำความเข้าใจพื้นฐาน
  4. การศึกษา: ดูการสัมมนาผ่านเว็บใช้หลักสูตรและพิจารณาใบรับรองหรือปริญญาด้านวิทยาศาสตร์ข้อมูล (อ่านเพิ่มเติมใน Ben Loricas วิธีการบำรุงรักษานักวิทยาศาสตร์ข้อมูล)
  5. ข้อมูล: ตรวจสอบแหล่งข้อมูลที่มีอยู่และค้นหาบางสิ่งที่นั่น
  6. การแข่งขัน: เข้าร่วมการแข่งขันขุดข้อมูล
  7. โต้ตอบกับนักวิทยาศาสตร์ข้อมูลอื่น ๆ ผ่านเครือข่ายสังคมออนไลน์กลุ่มและการประชุม

ในบทความนี้ฉันใช้ data mining และ data science แทนกันได้ ดูการนำเสนอภาพรวมอุตสาหกรรมการวิเคราะห์ของฉันที่ฉันดูวิวัฒนาการและความนิยมของคำศัพท์ต่าง ๆ เช่นสถิติการค้นพบความรู้การทำเหมืองข้อมูลการวิเคราะห์เชิงทำนายวิทยาศาสตร์ข้อมูลและข้อมูลขนาดใหญ่


1. การเรียนรู้ภาษา

การสำรวจ KDnuggets ล่าสุดพบว่าภาษาที่นิยมที่สุดสำหรับการขุดข้อมูลคือ R, Python และ SQL มีทรัพยากรมากมายสำหรับแต่ละตัวอย่างเช่น:

  • ฟรี e-book เกี่ยวกับวิทยาศาสตร์ข้อมูลด้วย R
  • เริ่มต้นด้วย Python สำหรับวิทยาศาสตร์ข้อมูล
  • Python สำหรับการวิเคราะห์ข้อมูล: เครื่องมือ Agile สำหรับข้อมูลโลกแห่งความจริง
  • Python ที่ขาดไม่ได้: การจัดหาข้อมูลไปยังวิทยาศาสตร์ข้อมูล
  • W3 โรงเรียนเรียนรู้ SQL

2. เครื่องมือ: การทำเหมืองข้อมูลวิทยาศาสตร์ข้อมูลและซอฟต์แวร์การสร้างภาพ

มีเครื่องมือการทำเหมืองข้อมูลจำนวนมากสำหรับงานที่แตกต่างกัน แต่เป็นการดีที่สุดที่จะเรียนรู้วิธีใช้ชุดการทำเหมืองข้อมูลที่รองรับกระบวนการวิเคราะห์ข้อมูลทั้งหมด คุณสามารถเริ่มต้นด้วยเครื่องมือโอเพ่นซอร์ส (ฟรี) เช่น KNIME, RapidMiner และ Weka

อย่างไรก็ตามสำหรับงานการวิเคราะห์จำนวนมากคุณจำเป็นต้องรู้จัก SAS ซึ่งเป็นเครื่องมือเชิงพาณิชย์ชั้นนำและใช้กันอย่างแพร่หลาย ซอฟต์แวร์การวิเคราะห์และการขุดข้อมูลยอดนิยมอื่น ๆ ได้แก่ MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler และ Rattle


ไม่มีข้อบกพร่องไม่มีความเครียด - คู่มือแบบเป็นขั้นตอนเพื่อสร้างซอฟต์แวร์ที่เปลี่ยนแปลงชีวิตโดยไม่ทำลายชีวิตของคุณ

คุณไม่สามารถพัฒนาทักษะการเขียนโปรแกรมของคุณเมื่อไม่มีใครใส่ใจคุณภาพของซอฟต์แวร์

การมองเห็นเป็นส่วนสำคัญของการวิเคราะห์ข้อมูลใด ๆ เรียนรู้วิธีใช้ Microsoft Excel (เหมาะสำหรับงานที่ง่ายกว่า) กราฟิก R (โดยเฉพาะ ggplot2) และ Tableau - แพ็คเกจที่ยอดเยี่ยมสำหรับการสร้างภาพข้อมูล เครื่องมือสร้างภาพที่ดีอื่น ๆ ได้แก่ TIBCO Spotfire และ Miner3D

3. หนังสือ

มีการขุดข้อมูลและหนังสือวิทยาศาสตร์ข้อมูลมากมาย แต่คุณสามารถตรวจสอบสิ่งเหล่านี้ได้:

  • การขุดและวิเคราะห์ข้อมูล: แนวคิดพื้นฐานและอัลกอริธึมดาวน์โหลด PDF ฟรี (ฉบับร่าง) โดย Mohammed Zaki และ Wagner Meira Jr.
  • การขุดข้อมูล: เครื่องมือและเทคนิคการเรียนรู้เครื่องปฏิบัติโดย Ian Witten, Eibe Frank และ Mark Hall จากผู้แต่ง Weka และใช้ Weka อย่างกว้างขวางในตัวอย่าง
  • องค์ประกอบของการเรียนรู้ทางสถิติการทำเหมืองข้อมูลการอนุมานและการทำนายโดย Trevor Hastie, Robert Tibshirani, Jerome Friedman การแนะนำที่ยอดเยี่ยมสำหรับคณิตศาสตร์
  • LIONbook: การเรียนรู้และการเพิ่มประสิทธิภาพอัจฉริยะโดย Roberto Battiti และ Mauro Brunato มีให้ใช้งานบนเว็บได้อย่างอิสระทุกตอน
  • การขุดหนังสือชุดข้อมูลขนาดใหญ่โดย A. Rajaraman, J. Ullman
  • หนังสือสถิติ StatSoft Electronic (ฟรี) รวมถึงหัวข้อการทำเหมืองข้อมูลจำนวนมาก

4. การศึกษา: การสัมมนาผ่านเว็บหลักสูตรประกาศนียบัตรและองศา

คุณสามารถเริ่มต้นด้วยการดูการสัมมนาผ่านเว็บและการออกอากาศทางเว็บฟรีมากมายในหัวข้อล่าสุดในการวิเคราะห์ข้อมูลขนาดใหญ่การทำเหมืองข้อมูลและวิทยาศาสตร์ข้อมูล

นอกจากนี้ยังมีหลักสูตรออนไลน์อีกมากมายระยะสั้นและระยะยาวส่วนใหญ่ฟรี (ดูไดเรกทอรีการศึกษาออนไลน์ของ KDnuggets)

ตรวจสอบโดยเฉพาะหลักสูตรเหล่านี้:

  • Machine Learning ที่ Coursera สอนโดย Andrew Ng
  • การเรียนรู้จาก Data at edX สอนโดยศาสตราจารย์คาลเทค Yaser Abu-Mostafa
  • เปิดหลักสูตรออนไลน์ในสาขาวิทยาศาสตร์ข้อมูลประยุกต์จาก Syracuse iSchool
  • Data Mining with Weka หลักสูตรออนไลน์ฟรี
  • ตรวจสอบภาพนิ่งออนไลน์ฟรีจากหลักสูตร Data Mining ซึ่งเป็นหลักสูตรเบื้องต้นระยะยาวภาคการศึกษาในการทำเหมืองข้อมูล

สุดท้ายให้พิจารณารับใบรับรองในการขุดข้อมูลและวิทยาศาสตร์ข้อมูลหรือองศาขั้นสูงเช่นปริญญาโทในสาขาวิทยาศาสตร์ข้อมูล

5. ข้อมูล

คุณจะต้องใช้ข้อมูลในการวิเคราะห์ - ดูไดเรกทอรี KDnuggets ของชุดข้อมูลสำหรับ Data Mining รวมถึง:

  • หน่วยงานรัฐบาล, รัฐบาลกลาง, รัฐ, เมือง, ท้องถิ่นและสาธารณะ
  • API ข้อมูลฮับตลาดแพลตฟอร์มพอร์ทัลและเครื่องมือค้นหา
  • ชุดข้อมูลสาธารณะฟรี

6. การแข่งขัน

อีกครั้งคุณจะได้เรียนรู้ที่ดีที่สุดจากการทำดังนั้นเข้าร่วมการแข่งขัน Kaggle เริ่มต้นด้วยการแข่งขันเริ่มต้นเช่นการทำนายการอยู่รอดของไททานิคโดยใช้การเรียนรู้ของเครื่อง

7. โต้ตอบ: การประชุมกลุ่มและเครือข่ายสังคม

คุณสามารถเข้าร่วมกลุ่มเพื่อนมากมาย ดูกลุ่ม LinkedIn 30 อันดับแรกสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่การทำเหมืองข้อมูลและวิทยาศาสตร์ข้อมูล

AnalyticBridge เป็นชุมชนที่ใช้งานสำหรับการวิเคราะห์และวิทยาศาสตร์ข้อมูล

คุณสามารถเข้าร่วมการประชุมและการประชุมมากมายใน Analytics ข้อมูลขนาดใหญ่การทำเหมืองข้อมูลวิทยาศาสตร์ข้อมูลและการค้นหาความรู้

นอกจากนี้ให้พิจารณาเข้าร่วม ACM SIGKDD ซึ่งจัดการประชุม KDD ประจำปีซึ่งเป็นงานประชุมวิจัยชั้นนำในสาขานี้

บทความนี้ได้รับการรีดจาก KDNuggets.com มันถูกใช้โดยได้รับอนุญาตจากผู้เขียน