เนื้อหา
- 1. การเรียนรู้ภาษา
- 2. เครื่องมือ: การทำเหมืองข้อมูลวิทยาศาสตร์ข้อมูลและซอฟต์แวร์การสร้างภาพ
- ไม่มีข้อบกพร่องไม่มีความเครียด - คู่มือแบบเป็นขั้นตอนเพื่อสร้างซอฟต์แวร์ที่เปลี่ยนแปลงชีวิตโดยไม่ทำลายชีวิตของคุณ
- 3. หนังสือ
- 4. การศึกษา: การสัมมนาผ่านเว็บหลักสูตรประกาศนียบัตรและองศา
- 5. ข้อมูล
- 6. การแข่งขัน
- 7. โต้ตอบ: การประชุมกลุ่มและเครือข่ายสังคม
ที่มา: Paul Fleet / Dreamstime.com
Takeaway:
วิทยาศาสตร์ข้อมูลนั้นเรียนรู้ได้ดีที่สุดจากการทำ แต่พื้นฐานของสถิติและการเรียนรู้ของเครื่องก็เป็นสิ่งสำคัญเช่นกัน
ฉันถูกถามบ่อยครั้งว่าจะเรียนรู้การขุดข้อมูลและวิทยาศาสตร์ข้อมูลได้อย่างไร นี่คือบทสรุปของฉัน
คุณสามารถเรียนรู้การขุดข้อมูลและวิทยาศาสตร์ข้อมูลได้ดีที่สุดโดยเริ่มจากการวิเคราะห์ข้อมูลทันทีที่คุณทำได้! อย่างไรก็ตามอย่าลืมที่จะเรียนรู้ทฤษฎีเนื่องจากคุณจำเป็นต้องมีพื้นฐานการเรียนรู้ทางสถิติและเครื่องจักรที่ดีเพื่อที่จะเข้าใจสิ่งที่คุณกำลังทำและเพื่อหานักเก็ตที่มีคุณค่าในเสียงของข้อมูลขนาดใหญ่
ที่นี่เจ็ดขั้นตอนสำหรับการเรียนรู้การขุดข้อมูลและวิทยาศาสตร์ข้อมูล แม้ว่าจะมีการกำหนดหมายเลขคุณสามารถทำได้ในแบบคู่ขนานหรือในลำดับที่แตกต่างกัน
- ภาษา: เรียนรู้ R, Python และ SQL
- เครื่องมือ: เรียนรู้วิธีการใช้การขุดและสร้างภาพข้อมูล
- หนังสือ: อ่านหนังสือเบื้องต้นเพื่อทำความเข้าใจพื้นฐาน
- การศึกษา: ดูการสัมมนาผ่านเว็บใช้หลักสูตรและพิจารณาใบรับรองหรือปริญญาด้านวิทยาศาสตร์ข้อมูล (อ่านเพิ่มเติมใน Ben Loricas วิธีการบำรุงรักษานักวิทยาศาสตร์ข้อมูล)
- ข้อมูล: ตรวจสอบแหล่งข้อมูลที่มีอยู่และค้นหาบางสิ่งที่นั่น
- การแข่งขัน: เข้าร่วมการแข่งขันขุดข้อมูล
- โต้ตอบกับนักวิทยาศาสตร์ข้อมูลอื่น ๆ ผ่านเครือข่ายสังคมออนไลน์กลุ่มและการประชุม
ในบทความนี้ฉันใช้ data mining และ data science แทนกันได้ ดูการนำเสนอภาพรวมอุตสาหกรรมการวิเคราะห์ของฉันที่ฉันดูวิวัฒนาการและความนิยมของคำศัพท์ต่าง ๆ เช่นสถิติการค้นพบความรู้การทำเหมืองข้อมูลการวิเคราะห์เชิงทำนายวิทยาศาสตร์ข้อมูลและข้อมูลขนาดใหญ่
1. การเรียนรู้ภาษา
การสำรวจ KDnuggets ล่าสุดพบว่าภาษาที่นิยมที่สุดสำหรับการขุดข้อมูลคือ R, Python และ SQL มีทรัพยากรมากมายสำหรับแต่ละตัวอย่างเช่น:
- ฟรี e-book เกี่ยวกับวิทยาศาสตร์ข้อมูลด้วย R
- เริ่มต้นด้วย Python สำหรับวิทยาศาสตร์ข้อมูล
- Python สำหรับการวิเคราะห์ข้อมูล: เครื่องมือ Agile สำหรับข้อมูลโลกแห่งความจริง
- Python ที่ขาดไม่ได้: การจัดหาข้อมูลไปยังวิทยาศาสตร์ข้อมูล
- W3 โรงเรียนเรียนรู้ SQL
2. เครื่องมือ: การทำเหมืองข้อมูลวิทยาศาสตร์ข้อมูลและซอฟต์แวร์การสร้างภาพ
มีเครื่องมือการทำเหมืองข้อมูลจำนวนมากสำหรับงานที่แตกต่างกัน แต่เป็นการดีที่สุดที่จะเรียนรู้วิธีใช้ชุดการทำเหมืองข้อมูลที่รองรับกระบวนการวิเคราะห์ข้อมูลทั้งหมด คุณสามารถเริ่มต้นด้วยเครื่องมือโอเพ่นซอร์ส (ฟรี) เช่น KNIME, RapidMiner และ Weka
อย่างไรก็ตามสำหรับงานการวิเคราะห์จำนวนมากคุณจำเป็นต้องรู้จัก SAS ซึ่งเป็นเครื่องมือเชิงพาณิชย์ชั้นนำและใช้กันอย่างแพร่หลาย ซอฟต์แวร์การวิเคราะห์และการขุดข้อมูลยอดนิยมอื่น ๆ ได้แก่ MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler และ Rattle
ไม่มีข้อบกพร่องไม่มีความเครียด - คู่มือแบบเป็นขั้นตอนเพื่อสร้างซอฟต์แวร์ที่เปลี่ยนแปลงชีวิตโดยไม่ทำลายชีวิตของคุณ
คุณไม่สามารถพัฒนาทักษะการเขียนโปรแกรมของคุณเมื่อไม่มีใครใส่ใจคุณภาพของซอฟต์แวร์
การมองเห็นเป็นส่วนสำคัญของการวิเคราะห์ข้อมูลใด ๆ เรียนรู้วิธีใช้ Microsoft Excel (เหมาะสำหรับงานที่ง่ายกว่า) กราฟิก R (โดยเฉพาะ ggplot2) และ Tableau - แพ็คเกจที่ยอดเยี่ยมสำหรับการสร้างภาพข้อมูล เครื่องมือสร้างภาพที่ดีอื่น ๆ ได้แก่ TIBCO Spotfire และ Miner3D
3. หนังสือ
มีการขุดข้อมูลและหนังสือวิทยาศาสตร์ข้อมูลมากมาย แต่คุณสามารถตรวจสอบสิ่งเหล่านี้ได้:
- การขุดและวิเคราะห์ข้อมูล: แนวคิดพื้นฐานและอัลกอริธึมดาวน์โหลด PDF ฟรี (ฉบับร่าง) โดย Mohammed Zaki และ Wagner Meira Jr.
- การขุดข้อมูล: เครื่องมือและเทคนิคการเรียนรู้เครื่องปฏิบัติโดย Ian Witten, Eibe Frank และ Mark Hall จากผู้แต่ง Weka และใช้ Weka อย่างกว้างขวางในตัวอย่าง
- องค์ประกอบของการเรียนรู้ทางสถิติการทำเหมืองข้อมูลการอนุมานและการทำนายโดย Trevor Hastie, Robert Tibshirani, Jerome Friedman การแนะนำที่ยอดเยี่ยมสำหรับคณิตศาสตร์
- LIONbook: การเรียนรู้และการเพิ่มประสิทธิภาพอัจฉริยะโดย Roberto Battiti และ Mauro Brunato มีให้ใช้งานบนเว็บได้อย่างอิสระทุกตอน
- การขุดหนังสือชุดข้อมูลขนาดใหญ่โดย A. Rajaraman, J. Ullman
- หนังสือสถิติ StatSoft Electronic (ฟรี) รวมถึงหัวข้อการทำเหมืองข้อมูลจำนวนมาก
4. การศึกษา: การสัมมนาผ่านเว็บหลักสูตรประกาศนียบัตรและองศา
คุณสามารถเริ่มต้นด้วยการดูการสัมมนาผ่านเว็บและการออกอากาศทางเว็บฟรีมากมายในหัวข้อล่าสุดในการวิเคราะห์ข้อมูลขนาดใหญ่การทำเหมืองข้อมูลและวิทยาศาสตร์ข้อมูล
นอกจากนี้ยังมีหลักสูตรออนไลน์อีกมากมายระยะสั้นและระยะยาวส่วนใหญ่ฟรี (ดูไดเรกทอรีการศึกษาออนไลน์ของ KDnuggets)
ตรวจสอบโดยเฉพาะหลักสูตรเหล่านี้:
- Machine Learning ที่ Coursera สอนโดย Andrew Ng
- การเรียนรู้จาก Data at edX สอนโดยศาสตราจารย์คาลเทค Yaser Abu-Mostafa
- เปิดหลักสูตรออนไลน์ในสาขาวิทยาศาสตร์ข้อมูลประยุกต์จาก Syracuse iSchool
- Data Mining with Weka หลักสูตรออนไลน์ฟรี
- ตรวจสอบภาพนิ่งออนไลน์ฟรีจากหลักสูตร Data Mining ซึ่งเป็นหลักสูตรเบื้องต้นระยะยาวภาคการศึกษาในการทำเหมืองข้อมูล
สุดท้ายให้พิจารณารับใบรับรองในการขุดข้อมูลและวิทยาศาสตร์ข้อมูลหรือองศาขั้นสูงเช่นปริญญาโทในสาขาวิทยาศาสตร์ข้อมูล
5. ข้อมูล
คุณจะต้องใช้ข้อมูลในการวิเคราะห์ - ดูไดเรกทอรี KDnuggets ของชุดข้อมูลสำหรับ Data Mining รวมถึง:
- หน่วยงานรัฐบาล, รัฐบาลกลาง, รัฐ, เมือง, ท้องถิ่นและสาธารณะ
- API ข้อมูลฮับตลาดแพลตฟอร์มพอร์ทัลและเครื่องมือค้นหา
- ชุดข้อมูลสาธารณะฟรี
6. การแข่งขัน
อีกครั้งคุณจะได้เรียนรู้ที่ดีที่สุดจากการทำดังนั้นเข้าร่วมการแข่งขัน Kaggle เริ่มต้นด้วยการแข่งขันเริ่มต้นเช่นการทำนายการอยู่รอดของไททานิคโดยใช้การเรียนรู้ของเครื่อง
7. โต้ตอบ: การประชุมกลุ่มและเครือข่ายสังคม
คุณสามารถเข้าร่วมกลุ่มเพื่อนมากมาย ดูกลุ่ม LinkedIn 30 อันดับแรกสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่การทำเหมืองข้อมูลและวิทยาศาสตร์ข้อมูล
AnalyticBridge เป็นชุมชนที่ใช้งานสำหรับการวิเคราะห์และวิทยาศาสตร์ข้อมูล
คุณสามารถเข้าร่วมการประชุมและการประชุมมากมายใน Analytics ข้อมูลขนาดใหญ่การทำเหมืองข้อมูลวิทยาศาสตร์ข้อมูลและการค้นหาความรู้
นอกจากนี้ให้พิจารณาเข้าร่วม ACM SIGKDD ซึ่งจัดการประชุม KDD ประจำปีซึ่งเป็นงานประชุมวิจัยชั้นนำในสาขานี้
บทความนี้ได้รับการรีดจาก KDNuggets.com มันถูกใช้โดยได้รับอนุญาตจากผู้เขียน