กุญแจสำคัญในการวิเคราะห์ข้อมูลขนาดใหญ่ที่มีคุณภาพ: การทำความเข้าใจที่แตกต่างกัน - การถอดความ TechWise ตอนที่ 4 - เทคโนโลยี

เนื้อหา

ไม่มีข้อบกพร่องไม่มีความเครียด - คู่มือแบบเป็นขั้นตอนเพื่อสร้างซอฟต์แวร์ที่เปลี่ยนแปลงชีวิตโดยไม่ทำลายชีวิตของคุณ

ที่มา: Jakub Jirsak / Dreamstime.com

Takeaway:

โฮสต์ Eric Kavanagh กล่าวถึงการวิเคราะห์ข้อมูลขนาดใหญ่กับผู้เชี่ยวชาญในอุตสาหกรรม

Eric: ท่านสุภาพบุรุษและสุภาพสตรีมันเป็นจุดสิ้นสุดของปี 2014 - อย่างน้อยก็เกือบ นี่เป็นเว็บคาสต์สุดท้ายของปีผู้คน! ยินดีต้อนรับสู่ TechWise! ใช่แน่นอน! ฉันชื่อ Eric Kavanagh ฉันจะเป็นผู้ดูแลของคุณสำหรับการออกอากาศทางเว็บที่ยอดเยี่ยม ฉันตื่นเต้นจริงๆ เรามีนักวิเคราะห์สองคนออนไลน์ที่ยอดเยี่ยมและสอง บริษัท ที่ยอดเยี่ยม - นักประดิษฐ์ที่แท้จริงในระบบนิเวศข้อมูลขนาดใหญ่ทั้งหมดนี้ และเราจะพูดถึงกุญแจสำคัญในการวิเคราะห์ข้อมูลขนาดใหญ่คือการเข้าใจถึงความแตกต่าง ดังนั้นไปข้างหน้าและดำดิ่งเข้าไปในคน

เรามีผู้นำเสนอหลายคน อย่างที่คุณเห็นนั่นเป็นของคุณอย่างแท้จริง ไมค์เฟอร์กูสันกำลังโทรมาจากสหราชอาณาจักรซึ่งเขาต้องได้รับสิทธิพิเศษเพื่ออยู่ในอาคารสำนักงานของเขาในปลายปีนี้ นั่นมันช้าแค่ไหนสำหรับเขา เราได้รับดร. โรบินบลอร์หัวหน้านักวิเคราะห์ของเราเองที่นี่ที่บลอร์กรุ๊ป และเราจะมี George Corugedo, CEO และผู้ร่วมก่อตั้ง RedPoint Global และ Keith Renison สถาปนิกอาวุโสด้านโซลูชั่นจาก SAS Institute นี่คือ บริษัท ที่ยอดเยี่ยม นี่คือ บริษัท ที่สร้างสรรค์สิ่งใหม่ ๆ และเราจะขุดลงไปในสิ่งดีๆบางอย่างที่เกิดขึ้นที่นั่นในโลกทั้งโลกของข้อมูลขนาดใหญ่ และลองดูสิข้อมูลเล็ก ๆ ไม่หายไปไหน และเพื่อให้ฉันให้บทสรุปผู้บริหารของฉันที่นี่

ดังนั้นมีการแสดงออกที่ฝรั่งเศสเก่า: "ยิ่งสิ่งเปลี่ยนแปลงมากขึ้นพวกเขายังคงเหมือนเดิม" และลองมาดูข้อเท็จจริงบางอย่างที่นี่ - ข้อมูลขนาดใหญ่จะไม่แก้ปัญหาของข้อมูลขนาดเล็ก ข้อมูลขนาดเล็กของ บริษัท ยังคงอยู่ที่นั่น ยังคงอยู่ทุกที่ มันเป็นเชื้อเพลิงของการดำเนินงานเพื่อความประหยัดของข้อมูลในปัจจุบัน และข้อมูลขนาดใหญ่เสนอคำชมเชยกับข้อมูลองค์กรขนาดเล็กเหล่านี้ แต่ไม่ได้แทนที่ข้อมูลขนาดเล็ก มันจะยังคงอยู่โดยรอบ ฉันชอบสิ่งต่าง ๆ มากมายเกี่ยวกับข้อมูลขนาดใหญ่โดยเฉพาะอย่างยิ่งข้อมูลที่สร้างจากเครื่อง

และวันนี้เราอาจจะพูดคุยกันเล็กน้อยเกี่ยวกับข้อมูลโซเชียลมีเดียซึ่งเป็นสิ่งที่ทรงพลังมาก และถ้าคุณคิดว่าสังคมเปลี่ยนแปลงธุรกิจอย่างไรลองนึกถึงเว็บไซต์ด่วนสามแห่งที่นี่: LinkedIn และ ลองนึกถึงความจริงที่ว่าเมื่อห้าปีก่อนไม่มีใครทำสิ่งนั้น เป็นผู้นำที่แท้จริงในทุกวันนี้ แน่นอนมีขนาดใหญ่มาก มันช่างใหญ่เหลือเกิน จากนั้น LinkedIn เป็นมาตรฐานความเป็นจริงสำหรับเครือข่ายองค์กรและการสื่อสาร ไซต์เหล่านี้มีขนาดมหึมาและเพื่อให้สามารถใช้ประโยชน์จากข้อมูลที่อยู่ในไซต์พวกเขาจะต้องฟื้นฟังก์ชั่นการเปลี่ยนเกมบางอย่าง มันจะทำสิ่งดี ๆ มากมายให้กับองค์กรจำนวนมาก - อย่างน้อยก็เป็นสิ่งที่ใช้ประโยชน์จากมัน

ไม่มีข้อบกพร่องไม่มีความเครียด - คู่มือแบบเป็นขั้นตอนเพื่อสร้างซอฟต์แวร์ที่เปลี่ยนแปลงชีวิตโดยไม่ทำลายชีวิตของคุณ

คุณไม่สามารถพัฒนาทักษะการเขียนโปรแกรมของคุณเมื่อไม่มีใครใส่ใจคุณภาพของซอฟต์แวร์

ดังนั้นการกำกับดูแล - การกำกับยังคงมีความสำคัญ อีกครั้งข้อมูลขนาดใหญ่ไม่เป็นโมฆะความจำเป็นในการกำกับดูแล ค่อนข้างตรงไปตรงมามีความต้องการใหม่ทั้งหมดที่จะมุ่งเน้นไปที่วิธีการควบคุมโลกของข้อมูลขนาดใหญ่ คุณจะมั่นใจได้อย่างไรว่าคุณมีขั้นตอนและนโยบายอยู่ในตัว คนที่เหมาะสมกำลังเข้าถึงข้อมูลที่ถูกต้อง ว่าคุณมีผู้ติดต่อคุณเคยมีสายเลือดมาแล้วหรือ คุณรู้จริง ๆ แล้วว่าข้อมูลมาจากไหนเกิดอะไรขึ้นกับมัน และนั่นคือการเปลี่ยนแปลงทั้งหมด

ฉันประทับใจจริงๆกับสิ่งที่ฉันเห็นในโลกใหม่นี้ที่ใช้ประโยชน์จากระบบนิเวศ Hadoop ซึ่งแน่นอนว่ามากกว่าการจัดเก็บในแง่ของการใช้งาน Hadoop เป็นเครื่องมือการคำนวณเช่นกัน และ บริษัท ต้องหาวิธีที่จะใช้ประโยชน์จากพลังการคำนวณนั้นความสามารถในการประมวลผลแบบขนานนั้น พวกเขากำลังจะทำสิ่งที่ยอดเยี่ยมจริงๆ เราจะเรียนรู้เกี่ยวกับสิ่งนั้นในวันนี้

อีกสิ่งที่จะกล่าวถึงนี้เป็นสิ่งที่ดร. บลอร์เคยพูดถึงในอดีตที่ผ่านมาคือคลื่นนวัตกรรมไม่จบ ดังนั้นเราเห็นความสนใจรอบตัว Hadoop มากมาย เราเคยเห็น บริษัท ต่าง ๆ เช่น Cloudera และ Hortonworks ทำให้เกิดคลื่น และพวกเขากำลังพัฒนาความร่วมมือกับ บริษัท ที่รับสายในวันนี้ค่อนข้างตรงไปตรงมา และพวกเขากำลังพัฒนาความร่วมมือกับผู้คนจำนวนมาก แต่คลื่นนวัตกรรมยังไม่จบ มีอีกหลายโครงการที่กำลังหมุนออกจากมูลนิธิ Apache ซึ่งกำลังเปลี่ยนแปลงไม่เพียง แต่เป็นจุดสิ้นสุดหากคุณต้องการ - แอปพลิเคชันที่ผู้คนใช้ - แต่เป็นโครงสร้างพื้นฐานเอง

ดังนั้นการพัฒนาทั้งหมดนี้ของ YARN - ยังเป็นนักเจรจาต่อรองทรัพยากรคนอื่น - เป็นเหมือนระบบปฏิบัติการสำหรับข้อมูลขนาดใหญ่ และมันก็เป็นเรื่องใหญ่ ดังนั้นเราจะเรียนรู้วิธีการเปลี่ยนแปลงสิ่งต่างๆเช่นกัน ดังนั้นเพียงไม่กี่คำแนะนำที่ชัดเจนที่นี่ระวังสัญญาที่ยาวไปข้างหน้าคุณรู้ไหมว่าสัญญาห้าปีสิบปีจะเป็นคลื่นเส้นทางที่ดูเหมือนฉัน คุณจะต้องการหลีกเลี่ยงการล็อคอินด้วยค่าใช้จ่ายทั้งหมด เราจะเรียนรู้เกี่ยวกับสิ่งเหล่านี้ในวันนี้

ดังนั้นนักวิเคราะห์คนแรกของเราที่พูดในวันนี้ - วิทยากรคนแรกของเราคือไมค์เฟอร์กูสันเรียกจากสหราชอาณาจักร เมื่อถึงตอนนั้นฉันจะส่งกุญแจให้คุณไมค์และให้คุณถอดมันออก ไมค์เฟอร์กูสันพื้นเป็นของคุณ

ไมค์คุณอยู่เหรอ? คุณอาจจะปิดเสียง ฉันไม่ได้ยินเขา เราอาจต้องเรียกเขากลับมา และเราจะกระโดดขึ้นไปจนถึงสไลด์ของ Robin Bloor โรบินฉันจะดึงอันดับของไมค์เฟอร์กูสันที่น่าสงสารที่นี่ ฉันจะไปอีกสักครู่

นั่นคือคุณไมค์? คุณสามารถได้ยินเรา? Nah ฉันคิดว่าเราจะต้องไปข้างหน้าและไปกับโรบินก่อน ดังนั้นรอสักครู่หนึ่ง ฉันจะดึงลิงก์ไปยังสไลด์ที่นี่ภายในไม่กี่นาทีเช่นกัน ถ้าอย่างนั้นฉันขอมอบกุญแจให้กับ Robin Bloor โรบินคุณสามารถไปก่อนแทนไมค์และฉันจะโทรหาไมค์ในไม่ช้า

Robin: โอเค

Eric: รอต่อไป Rob ให้ฉันไปข้างหน้าและเลื่อนสไลด์ของคุณขึ้นที่นี่ Rob มันจะใช้เวลาไม่กี่วินาที

Robin: โอเค

Eric: ใช่แล้ว คุณสามารถพูดคุยเกี่ยวกับสิ่งที่เรากำลังจัดการกับที่นี่ในแง่ของการกำกับดูแล ฉันรู้ว่าคุณกำลังจะพูดเกี่ยวกับการกำกับดูแล ซึ่งโดยทั่วไปจะคิดเกี่ยวกับข้อมูลขององค์กรขนาดเล็ก ดังนั้นตอนนี้ฉันได้เลื่อนขึ้นไปแล้วโรบิน อย่าย้ายอะไรเลย และที่นี่คุณไป พื้นเป็นของคุณ เอามันออกไป.

Robin: โอเค ใช่. ฉันหมายความว่าอย่างที่เรานัดไว้ล่วงหน้าไมค์จะพูดถึงด้านวิเคราะห์และฉันจะพูดถึงด้านการกำกับดูแล ในระดับหนึ่งการกำกับดูแลจะดำเนินการตามการวิเคราะห์ในแง่ที่ว่าคุณกำลังทำสิ่งที่เป็นข้อมูลขนาดใหญ่และเหตุผลที่คุณรวบรวมซอฟต์แวร์ทั้งหมดเพื่อทำการวิเคราะห์คือที่ซึ่งคุณค่านั้นอยู่ที่

มีปัญหา และปัญหาก็คือคุณต้องรู้ว่าข้อมูลจะต้องถูกลงโทษ ข้อมูลจะต้องมีการ marshaled ข้อมูลจะต้องถูกนำมารวมกันและจัดการในลักษณะที่ช่วยให้การวิเคราะห์เกิดขึ้นอย่างมั่นใจ - ฉันเดาว่าเป็นคำ ดังนั้นฉันคิดว่าฉันพูดถึงเรื่องนี้คือด้านการกำกับดูแลของสมการ ฉันเดาว่าสิ่งที่จะพูดจริง ๆ ก็คือคุณรู้แล้วการกำกับดูแลเป็นปัญหาอยู่แล้ว ธรรมาภิบาลเป็นปัญหาอยู่แล้วและมันก็กลายเป็นปัญหาในเกมคลังข้อมูลทั้งหมด

สิ่งที่เกิดขึ้นจริงคือมันกลายเป็นปัญหาที่ใหญ่กว่ามาก และสาเหตุที่มันกลายเป็นปัญหาที่ใหญ่กว่ารวมทั้งข้อมูลเพิ่มเติม แต่ฉันหมายความว่านี่คือเหตุผลจริงๆ จำนวนแหล่งข้อมูลได้เพิ่มขึ้นอย่างมาก ก่อนหน้านี้แหล่งข้อมูลที่เรามีและกำหนดโดยขนาดใหญ่โดยสิ่งใดก็ตามที่เลี้ยงคลังข้อมูล โดยปกติคลังข้อมูลจะถูกป้อนด้วยระบบ RTP เป็นไปได้ที่จะมีข้อมูลภายนอกเล็กน้อยไม่มาก

ตอนนี้เราได้ไปสู่โลกที่คุณรู้ว่าตลาดข้อมูลกำลังมีอยู่ในขณะนี้ดังนั้นจะมีการซื้อขายข้อมูล คุณมีแหล่งข้อมูลสตรีมมิ่งที่หลากหลายซึ่งคุณสามารถนำเข้ามาในองค์กรได้แล้ว เราได้รับข้อมูลโซเชียลมีเดียที่ถูกนำไปใช้ในบัญชีของตัวเองเพื่อพูด ฉันหมายถึงมีจำนวนมากที่น่ากลัวคุณค่าในเว็บไซต์โซเชียลมีเดียเป็นข้อมูลที่พวกเขารวมเข้าด้วยกัน

นอกจากนี้เรายังได้รับการค้นพบคุณรู้ว่ามันมีอยู่แล้ว เรามีไฟล์บันทึกเหล่านั้นอยู่แล้วในการกำเนิดของ Splunk และในไม่ช้าก็เห็นได้ชัดว่ามีค่าในล็อกไฟล์ ดังนั้นจึงมีข้อมูลภายในองค์กรซึ่งเราสามารถเรียกแหล่งข้อมูลใหม่และแหล่งข้อมูลภายนอกได้ นั่นคือสิ่งหนึ่ง และนั่นหมายความว่าจริงๆแล้วคุณรู้ไหมว่าอะไรก็ตามที่กฎการจัดการข้อมูลที่เราเคยมีมาก่อนพวกเขาจะต้องเป็นไปในทางใดทางหนึ่งหรือขยายออกไปอีกและจะต้องขยายออกไปเพื่อควบคุม ข้อมูล. แต่ตอนนี้เราเริ่มรวมตัวกันไม่ทางใดก็ทางหนึ่ง

และลงรายการนี้เรามีการสตรีมและความเร็วของการมาถึงของข้อมูล หนึ่งในฉันคิดว่าเหตุผลของความนิยมของ Hadoop ก็คือมันสามารถนำไปใช้ในการรับข้อมูลจำนวนมากได้ นอกจากนี้ยังสามารถนำเข้าข้อมูลความเร็วได้หากคุณไม่จำเป็นต้องใช้งานทันทีมันเป็นสภาพแวดล้อมแบบขนานที่ดีและมีขนาดใหญ่มาก แต่คุณก็ยังได้รับความจริงที่ว่ามีการวิเคราะห์สตรีมมิ่งอยู่พอสมควร มันเคยเป็นเพียงภาคธนาคารที่มีความสนใจในการสตรีมแอปพลิเคชัน แต่ตอนนี้มันหายไปทั่วโลก และทุกคนกำลังดูแอพพลิเคชั่นสตรีมมิ่งไม่ทางใดก็ทางหนึ่งซึ่งเป็นวิธีที่มีศักยภาพในการได้มาซึ่งคุณค่าจากข้อมูลและทำการวิเคราะห์สำหรับองค์กร

เราได้รับข้อมูลที่ไม่มีโครงสร้าง สถิติซึ่งมักเป็นส่วนหนึ่งของข้อมูลเพียง 10% ของโลกที่อยู่ในฐานข้อมูลเชิงสัมพันธ์ ตอนนี้หนึ่งในเหตุผลสำคัญที่ทำให้ส่วนใหญ่มันไม่มีโครงสร้างจริงและมันเป็น - มีจำนวนมากอยู่ที่นั่นบนเว็บ แต่ค่อนข้างเกลื่อนกลาดเกี่ยวกับเว็บไซต์ต่างๆ ข้อมูลดังกล่าวได้รับการพิสูจน์แล้วว่าสามารถวิเคราะห์ได้เช่นกันและยังสามารถใช้งานได้ และด้วยการปรากฎตัวของเทคโนโลยีไซแมนเทคซึ่งค่อยๆคืบคลานเข้ามาในสถานการณ์มากขึ้นเรื่อย ๆดังนั้นจึงจำเป็นต้องรวบรวมและจัดการข้อมูลที่ไม่มีโครงสร้างจริง ๆ และนั่นหมายความว่ายิ่งกว่าที่เคยเป็นมาก่อน เราได้รับข้อมูลโซเชียลที่ฉันได้กล่าวไปแล้ว แต่ประเด็นเกี่ยวกับเรื่องนั้นซึ่งเป็นประเด็นหลักเกี่ยวกับเรื่องนั้นคือมันอาจต้องทำความสะอาด

เราได้รับข้อมูล Internet of Things นั่นเป็นสถานการณ์ที่แตกต่าง มีแนวโน้มที่จะเป็นอย่างนั้น แต่มีหลายอย่างที่ต้องกระจายอยู่ที่ไหนสักแห่งใกล้กับที่ที่มันวิ่ง แต่คุณจะต้องการในทางใดทางหนึ่งดึงมันเข้ามาเพื่อทำการวิเคราะห์ภายในองค์กรกับข้อมูล ดังนั้นที่เพิ่มเข้ามาอีกปัจจัย และข้อมูลนั้นจะถูกจัดโครงสร้างในลักษณะที่แตกต่างกันเพราะมันอาจจะเป็น - มันอาจจะถูกจัดรูปแบบใน JSON หรือใน XML ดังนั้นมันจึงประกาศตัวเอง และไม่เพียงแค่วิธีเดียวเท่านั้นที่เรากำลังดึงข้อมูลเข้ามาและสามารถทำสคีมาอ่านบนข้อมูลบางส่วนนั้นได้

เราได้รับปัญหาการให้กำเนิดและนี่คือปัญหาการวิเคราะห์ ผลลัพธ์ในการวิเคราะห์ใด ๆ ที่คุณกำลังทำข้อมูลนั้นไม่สามารถ - ได้รับการอนุมัติถูกต้องถูกต้องเว้นแต่ว่าคุณรู้วิธีการเก็บข้อมูล ฉันหมายความว่านั่นเป็นเพียงความเป็นมืออาชีพในแง่ของกิจกรรมของนักวิทยาศาสตร์ด้านข้อมูล แต่คุณรู้เพื่อที่จะมีแหล่งข้อมูลหมายความว่าเราต้องควบคุมข้อมูลและจดบันทึกเชื้อสายของมัน

เรามีปัญหาเรื่องกำลังไฟและแนวคอมพิวเตอร์และสิ่งที่ทำให้ทุกอย่างเร็วขึ้น ปัญหาคือเห็นได้ชัดว่ากระบวนการบางอย่างที่เราทำอาจจะช้าเกินไปสำหรับทุกอย่าง ดังนั้นอาจมีความไม่ตรงกันในแง่ของความเร็ว

เราได้รับการเรียนรู้ด้วยเครื่อง การเรียนรู้ของเครื่องมีผลจริง ๆ แล้วทำให้การวิเคราะห์เป็นเกมที่แตกต่างจากที่เคยเป็นมาก่อน แต่คุณสามารถใช้งานได้จริงถ้าคุณมีพลัง

เราได้รับข้อเท็จจริงเกี่ยวกับปริมาณงานวิเคราะห์ใหม่ เรามีโลกคู่ขนานและอัลกอริธึมการวิเคราะห์บางอย่างจำเป็นต้องดำเนินการควบคู่กันเพื่อให้ได้ผลสูงสุด และดังนั้นปัญหาที่เกิดขึ้นจริงก็คือการควบคุมวิธีการที่คุณผลักดันข้อมูลในทางใดทางหนึ่งจริง ๆ ทำให้ข้อมูลถ้าพวกเขาสามารถใช้ได้ และที่ที่คุณเรียกใช้งานเวิร์กโหลดการวิเคราะห์เพราะคุณอาจทำเช่นนั้นภายในฐานข้อมูล ดังนั้นคุณอาจจะทำมันในแอปพลิเคชันวิเคราะห์

ดังนั้นจึงมีความท้าทายด้านการกำกับดูแลทั้งชุด สิ่งที่เราทำในปีนี้ - การวิจัยที่เราทำในปีนี้เป็นสถาปัตยกรรมข้อมูลขนาดใหญ่จริงๆ และเมื่อเราพยายามพูดคุยกันจริงข้อสรุปที่เราได้มา - แผนภาพที่เราคิดขึ้นมามีลักษณะเช่นนี้มาก

ฉันจะไม่เข้าไปเกี่ยวข้องกับเรื่องนี้โดยเฉพาะอย่างยิ่งเมื่อ Mike กำลังทำเงินในสถาปัตยกรรมข้อมูลเพื่อการวิเคราะห์ แต่สิ่งที่ฉันชอบให้คนสนใจคือพื้นที่ด้านล่างนี้ที่ซึ่งเราอยู่ไม่ทางใดก็ทางหนึ่งประกอบข้อมูล เรามีบางอย่างที่ฉันต้องการอ้างถึงคือโรงกลั่นข้อมูลหรือศูนย์กลางการประมวลผลข้อมูล และนั่นคือสิ่งที่การกำกับดูแลเกิดขึ้น ดังนั้นคุณรู้ไหมว่าถ้าเรามุ่งเน้นไปที่มันดูเหมือนว่า คุณรู้ว่ามันถูกป้อนโดยข้อมูลจากแหล่งภายในและภายนอก ในทางทฤษฎีฮับควรใช้ข้อมูลทั้งหมดที่ถูกสร้างขึ้น ควรสตรีมและจัดการตามที่สตรีมหากคุณต้องการทำการวิเคราะห์และสตรีมข้อมูลจากนั้นส่งต่อไปยังฮับ มิฉะนั้นมันก็ทั้งหมดเข้ามาในฮับ และมีหลายสิ่งที่เกิดขึ้น - ที่กำลังดำเนินอยู่ในศูนย์กลาง และคุณไม่สามารถทำการวิเคราะห์และ SQL ในฮับได้ แต่คุณต้องมีการจำลองเสมือนข้อมูลในแต่ละเซลล์เพื่อส่งข้อมูลไปยังพื้นที่อื่น แต่ก่อนที่สิ่งนั้นจะเกิดขึ้นคุณจำเป็นต้องมีวิธีใดวิธีหนึ่งในการปรับแต่งการเตรียมข้อมูล คุณสามารถเรียกมันว่าการเตรียมข้อมูล มันใหญ่กว่านั้นมาก นี่คือสิ่งที่ฉันคิดว่ารวมถึง

เรามีการจัดการระบบและการจัดการบริการในแง่หนึ่งว่านี่เป็นส่วนสำคัญของชั้นข้อมูลจากนั้นเราต้องใช้ระบบทั้งหมดที่จัดการความพยายามในการจัดการระบบปฏิบัติการที่เราทำมากับระบบปฏิบัติการเกือบทั้งหมด แต่เราก็จำเป็นต้องมีวิธีใดวิธีหนึ่งในการตรวจสอบสิ่งอื่น ๆ ที่เกิดขึ้นเพื่อให้แน่ใจว่าระดับบริการต่างๆเหล่านี้จะถูกพบเพราะมีขอบเขตที่จะกำหนดระดับการบริการหรือการวิเคราะห์ประเภทใด ๆ ที่กำลังดำเนินการหรือข้อมูล BI คือ กำลังดำเนินการ

เราต้องการการตรวจสอบประสิทธิภาพและการจัดการ หากมีสิ่งอื่นใดเราต้องการสิ่งนั้นเพื่อที่จะทราบว่าทรัพยากรคอมพิวเตอร์เพิ่มเติมใดที่เราอาจต้องจัดสรรในเวลาต่าง ๆ แต่ยังมีภาระงานจำนวนมากที่น่ากลัวอยู่ที่นี่ในความเป็นจริงจริง ๆ แล้วค่อนข้างซับซ้อนและแข่งขันกันเพื่อหาทรัพยากร มีบางสิ่งที่ค่อนข้างซับซ้อนที่ต้องทำในพื้นที่นั้น

ตอนนี้เรามีวงจรข้อมูลในลักษณะที่เราไม่เคยมีมาก่อน ข้อตกลงที่นี่จริง ๆ แล้วเหนือสิ่งอื่นใดที่เราไม่ได้รวบรวมข้อมูลและทิ้งมันไปก่อน เรามักจะรวบรวมข้อมูลที่เราต้องการและอาจเก็บไว้และจากนั้นเราเก็บถาวร แต่สิ่งที่น่ากลัวที่เราจะทำต่อจากนี้คือการสำรวจข้อมูล และหากคุณไม่ต้องการข้อมูลลองมาลบทิ้ง ดังนั้นวัฏจักรชีวิตของข้อมูลจะแตกต่างกันไปตามสถานการณ์ แต่จะเป็นการรวมข้อมูลที่น่ากลัวยิ่งขึ้น ดังนั้นคุณรู้ว่าการรวมกันนั้นมาจากอะไร ... แหล่งที่มาของการรวมตัวเป็นเช่นไรเป็นต้นไปเรื่อย ๆ นั่นคือทั้งหมดที่จำเป็น

เชื้อสายข้อมูลให้ยืมโดยธรรมชาติ ถ้าไม่มีคุณก็ต้องรู้ปัญหาดังนั้นข้อมูล ... เราต้องรู้ว่าข้อมูลนั้นถูกต้อง แต่ด้วยความน่าเชื่อถือที่แท้จริง

นอกจากนี้เรายังได้รับการแมปข้อมูลด้วยเนื่องจากข้อมูลจำนวนมากจะเป็นไปในทางใดทางหนึ่ง และนี่คือถ้าคุณต้องการสิ่งนี้เกี่ยวข้องกับ MDM ระดับหนึ่ง มันเป็นเพียงตอนนี้มันซับซ้อนกว่านี้มากเพราะเมื่อคุณมีข้อมูลจำนวนมากที่กำหนดโดย JSON หรือตาม XML schema ของเราบนอ่านแล้วคุณจะต้องมีอย่างใดอย่างหนึ่งไม่ได้ใช้งาน กิจกรรมการแมปข้อมูลเกิดขึ้น

มีสถานการณ์การจัดการข้อมูลเมตาซึ่งเป็นมากกว่า MDM เนื่องจากมีความต้องการไม่ทางใดก็ทางหนึ่งในการสร้างสิ่งที่ฉันคิดว่าตอนนี้เป็นคลังสินค้าเมตาดาต้าของทุกสิ่งที่คุณมีความสนใจ การค้นพบเนื่องจากข้อมูลบางส่วนไม่จำเป็นต้องประกาศเมตาดาต้าและเราต้องการใช้งานทันที จากนั้นก็มีการล้างข้อมูลซึ่งเป็นเรื่องใหญ่เช่นเดียวกับวิธีการทำสิ่งต่างๆที่ทำได้ และก็มีความปลอดภัยของข้อมูลเช่นกัน ข้อมูลทั้งหมดนี้จะต้องปลอดภัยในระดับที่ยอมรับได้และนั่นอาจหมายถึงในบางกรณีเช่นการเข้ารหัสค่าจำนวนมาก

ดังนั้นภาระงานทั้งหมดนี้จึงเป็นอาณาจักรการปกครอง ทั้งหมดนี้ไม่ทางใดก็ทางหนึ่งเกิดขึ้นในเวลาเดียวกันหรือก่อนหน้านี้กิจกรรมการวิเคราะห์ทั้งหมดของเรา นี่เป็นแอปพลิเคชั่นประสานงานจำนวนมาก เป็นระบบที่ถูกต้อง และจากนั้นผู้ที่ไม่ได้ทำตามจุดต่าง ๆ ในเวลาจะประสบกับการขาดมันในขณะที่พวกเขาไปข้างหน้าเพราะสิ่งเหล่านี้จำนวนมากที่น่ากลัวไม่ได้เลือก คุณท้ายด้วยเอนโทรปีเพิ่มขึ้นถ้าคุณไม่ทำ

ดังนั้นในแง่ของการวิเคราะห์ข้อมูลและการกำกับดูแลสิ่งที่ฉันพูดก็คือจริงๆแล้วมือข้างหนึ่งล้างอีกมือหนึ่ง หากปราศจากการควบคุมดูแลการวิเคราะห์และ BI จะไม่ดิ้นรนในเวลา และหากไม่มีการวิเคราะห์และ BI ก็ไม่จำเป็นต้องควบคุมดูแลข้อมูลมากนัก ดังนั้นสองสิ่งที่เดินเคียงข้างกันจริงๆ ดังที่พวกเขาพูดในตะวันออกกลาง "มือข้างหนึ่งล้างอีกด้าน" และนั่นคือทั้งหมดที่ฉันต้องพูด ฉันหวังว่า - หวังว่าตอนนี้เราได้รับไมค์กลับมาแล้ว

Eric: เราทำ ไมค์ฉันเข้าใจว่าคุณอยู่ที่นั่น ฉันจะผลักดันสไลด์ของคุณขึ้น

Mike: ฉันเป็น ตกลงคุณได้ยินฉันไหม

Eric: ใช่ฉันได้ยินคุณ คุณฟังดูยอดเยี่ยม ดังนั้นฉันขอแนะนำ ... ไปแล้ว และตอนนี้คุณก็เป็นพรีเซนเตอร์ เอามันออกไป.

Mike: เอาล่ะขอบคุณ! สวัสดีตอนเช้าสวัสดีตอนบ่ายสวัสดีตอนเย็นทุกท่าน ให้อภัยการสะอึกที่จุดเริ่มต้น ด้วยเหตุผลบางอย่างฉันทำให้ตัวเองเงียบลงและเห็นทุกคน แต่พวกเขาไม่ได้ยินฉัน

Alright ดังนั้นสิ่งที่ฉันต้องการทำอย่างรวดเร็วคือการพูดคุยเกี่ยวกับระบบนิเวศการวิเคราะห์ข้อมูลขนาดใหญ่ หากคุณต้องการถามคำถามกับฉันฉันจะพูดว่าในช่วงนี้หรือหลังจากนั้นคุณสามารถติดต่อฉันได้ที่รายละเอียดการติดต่อของฉันที่นี่ อย่างที่ฉันบอกตอนกลางดึกที่นี่ในสหราชอาณาจักร

ขอให้ฉันไปถึงสิ่งที่ฉันต้องการจะพูด เห็นได้ชัดว่าในช่วงไม่กี่ปีที่ผ่านมาเราได้เห็นการเกิดขึ้นของข้อมูลทุกชนิดที่ค้นพบใหม่ที่ธุรกิจต้องการวิเคราะห์ตอนนี้ทุกอย่างจากข้อมูลคลิกสตรีมเพื่อทำความเข้าใจพฤติกรรมออนไลน์ข้อมูลสื่อสังคมออนไลน์ที่เอริคพูดถึง จุดเริ่มต้นของโปรแกรมที่นี่ ฉันคิดว่าโรบินพูดถึง JSON, BSON, XML ดังนั้นข้อมูลกึ่งโครงสร้างที่อธิบายตัวเองได้ แน่นอนว่าเรามีสิ่งอื่นอีกมากมายเช่นทุกอย่างจากข้อมูลที่ไม่มีโครงสร้างบันทึกโครงสร้างพื้นฐานด้านไอทีข้อมูลเซ็นเซอร์ แหล่งข้อมูลที่ค่อนข้างใหม่ทั้งหมดที่ธุรกิจได้ให้ความสนใจเนื่องจากมีข้อมูลเชิงลึกที่มีค่าซึ่งอาจทำให้สิ่งที่เรารู้ลึกซึ้งยิ่งขึ้น

ดังนั้นโดยทั่วไปหมายถึงภูมิทัศน์การวิเคราะห์ได้ย้ายเกินคลังข้อมูลแบบดั้งเดิม เรายังคงจัดโครงสร้างข้อมูลสู่โลกของการรวมกันของข้อมูลที่มีโครงสร้างและหลายโครงสร้างซึ่งข้อมูลหลายโครงสร้างสามารถมาจากภายในหรือภายนอกองค์กรในหลายกรณี และจากผลของชนิดข้อมูลใหม่เหล่านี้และความต้องการใหม่ในการวิเคราะห์เราได้เห็นการเกิดขึ้นของปริมาณงานวิเคราะห์ใหม่ - ทุกอย่างจากการวิเคราะห์ข้อมูลในการเคลื่อนไหวซึ่งจะเปลี่ยนสถาปัตยกรรมคลังข้อมูลแบบเดิมบนหัวของมันค่อนข้างที่เรา ในแวดวงดั้งเดิมให้รวมข้อมูลทำความสะอาดเปลี่ยนจัดเก็บและวิเคราะห์ แต่การวิเคราะห์ข้อมูลที่เคลื่อนไหวเรากำลังรวบรวมข้อมูลรวมเข้าด้วยกันเตรียมข้อมูลผ่านการวิเคราะห์แล้วจัดเก็บข้อมูล ดังนั้นจึงมีการวิเคราะห์ที่เกิดขึ้นกับข้อมูลก่อนที่จะถูกเก็บไว้ที่ใดก็ได้

เราทำการวิเคราะห์ข้อมูลที่มีโครงสร้างอย่างซับซ้อนอาจจะเป็นการพัฒนาแบบจำลองการพัฒนาแบบจำลองเชิงสถิติและการคาดการณ์ซึ่งไม่มีอะไรใหม่สำหรับคนบางคนในพื้นที่จัดเก็บข้อมูลแบบดั้งเดิม เราได้รับการวิเคราะห์เชิงสำรวจข้อมูลในแบบจำลอง นั่นคือปริมาณของข้อมูลที่มีโครงสร้างที่นั่น เราได้รับภาระงานใหม่ในรูปแบบของการวิเคราะห์กราฟสำหรับลูกค้าของฉันในบริการทางการเงินรวมถึงสิ่งต่าง ๆ เช่นการฉ้อโกง นอกจากนี้ยังมีการรักษาความปลอดภัยไซเบอร์ แน่นอนว่ามันรวมถึงเครือข่ายสังคมออนไลน์การทำความเข้าใจกับผู้มีอิทธิพลและสิ่งต่างๆเช่นนั้น ฉันเชี่ยวชาญในการจัดการมีการวิเคราะห์กราฟเป็นเวลาหลายปี

เราได้รับการเพิ่มประสิทธิภาพคลังข้อมูลหรือลดการประมวลผล ETL ซึ่งเป็นกรณีการใช้งานไอทีมากกว่าประเภท CIO อาจให้เงินสนับสนุน และแม้แต่การเก็บถาวรข้อมูลและคลังข้อมูลเพื่อให้ออนไลน์ในสิ่งต่าง ๆ เช่น Hadoop ดังนั้นเวิร์กโหลดการวิเคราะห์ใหม่ทั้งหมดเหล่านี้ได้เพิ่มแพลตฟอร์มใหม่แพลตฟอร์มการจัดเก็บใหม่ลงในแนวการวิเคราะห์ ดังนั้นแทนที่จะมีคลังข้อมูลดั้งเดิมดาต้ามาร์ทสิ่งที่เราได้รับคือ Hadoop เรามีฐานข้อมูล NoSQL เช่นฐานข้อมูลกราฟที่มักใช้ในการวิเคราะห์ปริมาณงาน แน่นอนว่าเราสามารถทำการวิเคราะห์กราฟบน Hadoop ได้เช่นเดียวกับใน DBMSs ของกราฟ NoSQL เราได้รับการวิเคราะห์สตรีมมิ่งที่โรบินกล่าวถึง และเราได้รับ - ถ้าคุณต้องการ - การสร้างแบบจำลองอาจใช้กับอุปกรณ์คลังข้อมูลเชิงวิเคราะห์เช่นกัน แต่ทั้งหมดนี้มีความซับซ้อนของแนวการวิเคราะห์ทำให้ตอนนี้มีหลายแพลตฟอร์มที่ต้องการ และฉันเดาว่าความท้าทายจากสำหรับธุรกิจใด ๆ ที่มีสำนักงานด้านหน้าหรือสำนักงานหลังหรือการเงินการจัดซื้อทรัพยากรบุคคลและการดำเนินงานบางประเภทคือการพิจารณาว่าโครงการวิเคราะห์ใดที่เกี่ยวข้องกับฉากการจัดเก็บข้อมูลแบบดั้งเดิม และเมื่อคุณทราบว่าโครงการการวิเคราะห์นั้นเชื่อมโยงกับแพลตฟอร์มข้อมูลขนาดใหญ่ใหม่เหล่านี้และสถานที่ที่จะทำงานคุณจะรู้ว่าภาระงานเชิงวิเคราะห์แบบใด แต่ไม่ต้องมองข้ามธุรกิจในแง่ที่ว่า - คุณจะเห็นว่ามันเป็นการรวมกันของขนาดใหญ่ โครงการวิเคราะห์ข้อมูลและโครงการคลังข้อมูลขนาดใหญ่แบบดั้งเดิมที่จำเป็นต่อการสร้างความแข็งแกร่งให้กับลูกค้าหรือการปฏิบัติงาน, ความเสี่ยง, การเงินหรือความยั่งยืน ดังนั้นเราจึงต้องการให้สิ่งเหล่านี้สอดคล้องกับลำดับความสำคัญทางธุรกิจเชิงกลยุทธ์ของเราที่เรายังคงเดินหน้าต่อไปผลักดันเข็มที่จำเป็นต้องผลักดันคุณรู้ปรับปรุงประสิทธิภาพทางธุรกิจลดต้นทุน เพื่อลดความเสี่ยง ฯลฯ คุณรู้จัก บริษัท ของเราโดยรวม ดังนั้นไม่ใช่ว่าจะแทนที่อันอื่นด้วยข้อมูลขนาดใหญ่และแบบดั้งเดิม มันถูกใช้ร่วมกัน และนั่นเป็นการเปลี่ยนแปลงสถาปัตยกรรมอย่างมากคุณรู้ไหม

ดังนั้นสิ่งที่ฉันมีที่นี่คือสถาปัตยกรรมที่ค่อนข้างใหม่ที่ฉันจะใช้กับลูกค้าของฉัน อย่างที่คุณเห็นในตอนนี้ที่ด้านล่างแหล่งข้อมูลที่หลากหลายไม่ใช่แค่โครงสร้างอีกต่อไป บางคนกำลังสตรีมข้อมูลสดเช่นเซ็นเซอร์เช่นข้อมูลการตลาดสิ่งนั้น มันอาจเป็นข้อมูลคลิกสตรีมสด อาจเป็นข้อมูลวิดีโอสตรีมสด ดังนั้นจึงไม่จำเป็นต้องมีโครงสร้าง ดังนั้นเราสามารถทำการสตรีมการประมวลผลข้อมูลนั้นเพื่อดำเนินการอัตโนมัติแบบเรียลไทม์และข้อมูลที่น่าสนใจใด ๆ สามารถถูกกรองและส่งผ่านไปยังเครื่องมือการจัดการข้อมูลองค์กรที่สามารถใช้เพื่อเติมข้อมูลร้านค้าวิเคราะห์ นอกจากคุณจะเห็นการผสมผสานที่นี่ตอนนี้เรามีคลังข้อมูลแบบดั้งเดิมฐานข้อมูล Hadoop และ NoSQL เราได้รับการจัดการข้อมูลหลักในการผสมผสานเช่นกัน และนั่นทำให้เกิดแรงกดดันมากขึ้นในชุดเครื่องมือการจัดการข้อมูลทั้งหมดไม่เพียง แต่จะเติมที่เก็บข้อมูลเหล่านี้เท่านั้น แต่เพื่อย้ายข้อมูลระหว่างกัน

ยิ่งไปกว่านั้นเราต้องทำให้เครื่องมือการเข้าถึงง่ายขึ้น เราไม่สามารถหันไปหาผู้ใช้และพูดว่า "รับที่เก็บข้อมูลเหล่านี้เก็บ API เหล่านี้ - ปัญหาของคุณ" สิ่งที่คุณต้องทำคือทำให้การเข้าถึงง่ายขึ้น ดังนั้นในแนวประที่คุณจะเห็นว่าการจำลองเสมือนข้อมูลและการเพิ่มประสิทธิภาพเป็นการซ่อนความซับซ้อนของการจัดเก็บข้อมูลหลาย ๆ แบบลองและทำให้ผู้ใช้ปลายทางเข้าถึงสิ่งนี้ได้ง่ายขึ้น และแน่นอนว่ามีเครื่องมือมากมายอยู่ด้านบนทุกอย่างตั้งแต่เครื่องมือ BI แบบดั้งเดิมที่เริ่มต้นที่ด้านบนของคลังข้อมูลค่อย ๆ เคลื่อนไปทางซ้ายของแผนภูมิเพื่อเชื่อมต่อเข้าสู่ Hadoops จากนั้นฐานข้อมูล NoSQL ของโลก

เราได้รับการค้นหาสัญญาเช่าใหม่ในชีวิตโดยเฉพาะอย่างยิ่งรอบ ๆ โครงสร้างของร่างกายข้อมูลที่ไม่มีโครงสร้างที่มักเก็บไว้ใน Hadoop เรามีแอปพลิเคชันการวิเคราะห์ที่กำหนดเองที่ต้องทำบนแพลตฟอร์ม Hadoop ด้วย MapReduce ดังนั้น Spark framework เป็นต้น เราได้รับเครื่องมือวิเคราะห์กราฟมาให้คุณโดยเน้นที่ปริมาณงานเฉพาะที่นั่น ดังนั้นช่วงของเครื่องมือและกระแสข้อมูลจึงมีความซับซ้อนมากขึ้น มันไม่ได้เป็นเพียงถนนเดินรถทางเดียวในคลังข้อมูลอีกต่อไป แน่นอนว่าตอนนี้เป็นข้อมูลหลักแล้ว

เราได้แหล่งข้อมูลใหม่ ๆ เข้ามาไม่ว่าจะถูกจับใน NoSQL ร้านค้าข้อมูลอย่าง MongoDB เช่น Cassandra เช่น HBase เราได้รับข้อมูลที่ถูกนำเข้าสู่ Hadoop โดยตรงเพื่อการวิเคราะห์และเตรียมข้อมูลที่นั่น เรามีข้อมูลเชิงลึกใหม่ ๆ ออกมาจาก Hadoop และคลังข้อมูล เราได้เก็บถาวรออกมาจากคลังข้อมูลลงใน Hadoop ตอนนี้เราได้รับฟีดข้อมูลแล้วคุณก็รู้ว่าฐานข้อมูล NoSQL และดาต้ามาร์ททั้งหมดก็เช่นกัน ดังนั้นสิ่งที่คุณจะเห็นได้จากที่นี่คือมีกิจกรรมมากมายในการจัดการข้อมูล และนั่นหมายถึงการวางซอฟต์แวร์การจัดการข้อมูลภายใต้แรงกดดันอย่างมาก มันไม่ใช่แค่ถนนเดินรถทางเดียวอีกต่อไป เป็นการเคลื่อนย้ายข้อมูลแบบสองทาง มันมีกิจกรรมมากขึ้นเรื่อย ๆ ดังนั้นความสามารถในการปรับขนาดจึงมีความสำคัญในส่วนหน้าเครื่องมือการจัดการข้อมูลและแหล่งข้อมูล

ดังนั้นแผนภูมินี้กลับไปที่สถาปัตยกรรมที่ฉันพูดถึงเมื่อครู่ก่อน มันแสดงให้คุณเห็นปริมาณงานวิเคราะห์ที่แตกต่างกันที่ทำงานในส่วนต่าง ๆ ของสถาปัตยกรรมนี้ เรียงลำดับจากด้านล่างซ้ายมือคุณมีการสตรีมแบบเรียลไทม์การประมวลผลสตรีมที่เกิดขึ้นจากข้อมูลที่คุณทราบ เราได้รับการวิเคราะห์ชั้นเรียนในฐานข้อมูลกราฟ NoSQL มันสามารถเกิดขึ้นได้กับ Hadoop ตัวอย่างเช่นกรอบ Spark และ GraphX เราได้รับการวิเคราะห์เชิงสืบสวนและโรงกลั่นข้อมูลที่ Robin กำลังพูดถึงเกี่ยวกับสิ่งที่เกิดขึ้นบน Hadoop เราได้รับภาระงานดั้งเดิมที่ยังดำเนินต่อไปและคลังข้อมูลคุณรู้ว่าผู้ใช้ที่มีอำนาจในการสร้างแบบจำลองทางสถิติและการคาดการณ์บางทีในอุปกรณ์คลังข้อมูล และเรายังคงพยายามทำให้การเข้าถึงทั้งหมดนี้ง่ายขึ้นเพื่อให้ผู้ใช้ปลายทางง่ายขึ้น

ดังนั้นความสำเร็จในการตั้งค่าทั้งหมดนี้เป็นมากกว่าแค่ด้านการวิเคราะห์ คุณก็รู้ว่าเราสามารถวางแพลตฟอร์มการวิเคราะห์ให้เข้าที่ แต่ถ้าเราไม่สามารถรวบรวมและนำเข้ามาได้คุณรู้ว่าข้อมูลความเร็วสูงและปริมาณสูงในระดับนั้นมีจุดไม่มากนัก คุณก็รู้ว่าฉันไม่ได้วิเคราะห์อะไรเลย ดังนั้นความสำเร็จของการวิเคราะห์ข้อมูลขนาดใหญ่จึงจำเป็นต้องมีระบบปฏิบัติการเพื่อขยายขนาด นั่นหมายความว่าเพื่อให้สามารถรองรับธุรกรรมใหม่ได้ คุณรู้หรือไม่ว่าข้อมูลที่ไม่ได้ทำธุรกรรมใด ๆ นั้นอาจมีอัตราการมาถึงใหม่อัตราการมาถึงที่สูงมากของข้อมูลความเร็วสูงเช่นเซ็นเซอร์หรือการบริโภคใด ๆ เราต้องสามารถรองรับสิ่งเหล่านี้ทั้งหมด - เพื่อให้สามารถเก็บข้อมูลประเภทนี้และนำมาวิเคราะห์ เราต้องปรับขนาดการวิเคราะห์เองให้ง่ายขึ้นในการเข้าถึงข้อมูลที่ฉันได้กล่าวไปแล้ว จากนั้นให้มัดตัวเอง คุณรู้ไหมเราต้องสามารถปรับแต่งระบบปฏิบัติการเหล่านั้นกลับคืนมาเพื่อให้มันเป็นวงปิด

ดังนั้นการปรับขนาดด้านการดำเนินงานของบ้านเพื่อเก็บข้อมูลคุณจะต้องเข้าสู่โลกของฐานข้อมูล NoSQL ฉันหมายความว่าที่นี่คุณเห็นห้าประเภทของฐานข้อมูล NoSQL หมวดหมู่นี้จะถูกสร้างแบบจำลองโดยเป็นการรวมกันของอีกสี่รายการข้างต้น โดยทั่วไปแล้วคุณรู้หรือไม่ว่าคุณค่าที่สำคัญเอกสารที่เก็บไว้และฐานข้อมูลตระกูลคอลัมน์ - สามรายการแรก - ซึ่งมีการใช้งานสำหรับข้อมูลประเภทธุรกรรมและไม่ใช่ธุรกรรมเพิ่มเติม

ฐานข้อมูลบางส่วนที่สนับสนุนเป็นคุณสมบัติ บางคนไม่ แต่อย่างไรก็ตามคุณรู้ไหมเรากำลังเห็นการเปิดตัวแอปพลิเคชันเหล่านั้นเพื่อปรับขนาดแอปพลิเคชันเหล่านั้น ตัวอย่างเช่นเมื่อเราย้ายจากพนักงานเพียงแค่ป้อนธุรกรรมที่แป้นพิมพ์ไปยังลูกค้าและผู้คนจำนวนมากโดยใช้อุปกรณ์ใหม่เพื่อให้สามารถทำเช่นนั้นได้ เราเห็นจำนวนธุรกรรมที่เพิ่มขึ้นอย่างมากในธุรกิจ ดังนั้นเราจำเป็นต้องปรับขนาดแอปพลิเคชันธุรกรรมให้ทำ

ตอนนี้พูดโดยทั่วไปที่สามารถทำได้บนฐานข้อมูล NewSQL เป็นฐานข้อมูลเชิงสัมพันธ์เช่น NuoDB และ VoltDB แสดงที่นี่ หรือฐานข้อมูล NoSQL บางตัวที่อาจสนับสนุนคุณสมบัติ ACID ที่สามารถรับประกันการประมวลผลธุรกรรมได้ นอกจากนี้ยังใช้กับข้อมูลที่ไม่ทำธุรกรรมเช่นข้อมูลตะกร้าสินค้าก่อนทำธุรกรรมคุณรู้ไหมก่อนที่ผู้คนจะซื้อสิ่งของข้อมูลเซ็นเซอร์คุณรู้ไหมว่าฉันสูญเสียการอ่านเซ็นเซอร์ในการอ่านเซ็นเซอร์หลายร้อยล้านครั้ง มันไม่ใช่เรื่องใหญ่. การคลิกในโลกแห่งการคลิก - ถ้าฉันใช้การคลิกมันก็ไม่ใช่เรื่องใหญ่อะไรดังนั้นคุณรู้หรือไม่ว่าเราไม่จำเป็นต้องมีคุณสมบัติของกรดในนั้นและนั่นก็เป็นจุดที่ฐานข้อมูล NoSQL เข้ามามีอยู่นั่นคือความสามารถในการประมวลผลที่ถูกต้องในระดับสูงเพื่อรับข้อมูลชนิดใหม่เหล่านี้

ในขณะเดียวกันเราต้องการให้การวิเคราะห์ขยาย ดังนั้นการดึงข้อมูลจากแหล่งข้อมูลไปยังแพลตฟอร์มการวิเคราะห์จะไม่ถูกแฮ็กอีกต่อไปเพราะข้อมูลมีขนาดใหญ่เกินไป สิ่งที่เราต้องการคือการผลักดันการวิเคราะห์ด้วยวิธีอื่น ๆ ลงไปในคลังข้อมูลองค์กรลงใน Hadoop สู่การประมวลผลสตรีมเพื่อให้สามารถผลักดันการวิเคราะห์ไปยังข้อมูล อย่างไรก็ตามเพียงเพราะมีคนบอกว่ามันอยู่ในการวิเคราะห์ฐานข้อมูลหรือในการวิเคราะห์ Hadoop ไม่ได้หมายความว่าการวิเคราะห์จะทำงานแบบขนาน และค่อนข้างตรงไปตรงมาหากคุณจะลงทุนในเทคโนโลยีที่ปรับขนาดได้แบบขนานขนาดใหญ่เช่น Hadoop เช่นอุปกรณ์คลังข้อมูลและอะไรก็ตามเช่นเครื่องมือประมวลผลสตรีมแบบคลัสเตอร์เราต้องการการวิเคราะห์เพื่อทำงานแบบขนาน

นั่นเป็นเพียงการชำระเงินเท่านั้น คุณรู้ไหมว่าหากเรามีการวิเคราะห์เพื่อช่วยทำนายสิ่งต่าง ๆ สำหรับลูกค้าสำหรับการดำเนินงานเพื่อความเสี่ยง ฯลฯ เราต้องการให้พวกเขาทำงานพร้อมกันไม่ใช่แค่ทำงานในแพลตฟอร์ม เราต้องการทั้ง และนั่นก็เป็นเพราะคุณรู้ว่าเทคโนโลยีเป็นเหมือนเครื่องมือค้นพบภาพใหม่ ๆ เหล่านี้เช่น SAS เช่นกัน จริงๆแล้วมันเป็นหนึ่งในผู้สนับสนุนของเราที่นี่

สิ่งหนึ่งที่คนต้องการอย่างน้อยก็เพื่อเอาเปรียบคนใน Hadoop และจากนั้นในการวิเคราะห์ฐานข้อมูล และเราต้องการให้มันทำงานแบบขนานเพื่อให้สามารถส่งมอบประสิทธิภาพที่จำเป็นสำหรับปริมาณข้อมูลที่สูงเช่นนั้น ในขณะเดียวกันเราพยายามทำให้การเข้าถึงทั้งหมดนี้ง่ายขึ้น ดังนั้นตอนนี้ SQL ก็กลับเข้าวาระการประชุม คุณรู้ไหมว่า SQL คือ - SQL บน Hadoop ร้อนแรงตอนนี้ ฉันกำลังติดตามอยู่ใน 19 SQL และ Hadoop ตอนนี้ นอกจากนี้คุณสามารถเห็นได้ว่าเราสามารถรับข้อมูลนี้ได้หลายวิธีเพื่อให้สามารถเข้าถึง SQL บน Hadoop ได้โดยตรงเราสามารถไปที่ SQL เพื่อดัชนีการค้นหา ด้วยวิธีนี้เช่นผู้ขายการค้นหาบางรายในพื้นที่นั้นเราสามารถเข้าถึง SQL ไปยังฐานข้อมูลเชิงสัมพันธ์เชิงวิเคราะห์ซึ่งมีตาราง Excel ไปที่ Hadoop

ตอนนี้เราสามารถเข้าถึง SQL ไปยังเซิร์ฟเวอร์การจำลองเสมือนข้อมูลซึ่งสามารถเชื่อมต่อกับคลังข้อมูลบน Hadoop ได้ ฉันยังเริ่มเห็นการเกิดขึ้นของการเข้าถึง SQL ไปยังข้อมูลสตรีมสด ดังนั้นการเข้าถึง SQL ทั้งหมดนี้กำลังเติบโตอย่างรวดเร็ว และส่วนหนึ่งของความท้าทายคือเพียงเพราะการเข้าถึง SQL กำลังทำตลาดอยู่ที่นั่น คำถามคือ SQL สามารถจัดการกับข้อมูลที่ซับซ้อนได้หรือไม่ และนั่นไม่จำเป็นต้องตรงไปตรงมา มีความยุ่งยากทุกชนิดที่นี่รวมถึงข้อเท็จจริงที่ว่าข้อมูล JSON สามารถซ้อนกันได้ เราสามารถมีเร็กคอร์ดตัวแปรสกีมา ดังนั้นบันทึกแรกจึงมีหนึ่งสคีมา ระเบียนที่สองมีสคีมาที่แตกต่างกัน สิ่งเหล่านี้แตกต่างจากสิ่งที่เกิดขึ้นในโลกแห่งความสัมพันธ์

ดังนั้นเราต้องตั้งคำถามเกี่ยวกับประเภทของข้อมูลที่เราพยายามวิเคราะห์และลักษณะของการวิเคราะห์คืออะไร คุณรู้หรือไม่ว่าแผงที่คุณต้องการจะทำ? มันเป็นเครื่องเรียนรู้หรือไม่? มันคือการวิเคราะห์กราฟ? คุณสามารถทำสิ่งนั้นจาก SQL ได้หรือไม่ คุณรู้หรือไม่ว่า invocable จาก SQL นั้น เรามีผู้ใช้งานพร้อมกันกี่คนที่ทำสิ่งนี้? คุณก็รู้เรามีผู้ใช้พร้อมกันหลายร้อยคน เป็นไปได้หรือไม่ที่ข้อมูลที่ซับซ้อน? คุณรู้ไหมว่าสิ่งเหล่านี้ล้วนเป็นคำถามสำคัญ ดังนั้นฉันทำรายการของที่นี่ที่ฉันคิดว่าคุณควรพิจารณา คุณรู้ไหมว่าไฟล์ประเภทใด เรากำลังพูดถึงประเภทข้อมูลประเภทใด? ฟังก์ชันการวิเคราะห์ประเภทใดที่เราสามารถเรียกใช้จาก SQL เพื่อรับข้อมูลที่ซับซ้อน และฟังก์ชั่นแบบขนาน ฉันหมายความว่าพวกเขาจะต้องทำงานพร้อมกันหากเราต้องสามารถขยายขนาดได้ และฉันสามารถเข้าร่วมข้อมูลใน Hadoop ได้วันนี้นอกเหนือจากนั้นคุณรู้หรือไม่ และฉันจะทำอย่างไรกับปริมาณงานแบบสอบถามประเภทต่างๆเหล่านี้ทั้งหมด

และอย่างที่เราเห็นคุณรู้จากสิ่งที่ฉันเห็นมีความแตกต่างมากมายระหว่างการกระจาย SQL และ Hadoop นี่คือทั้งหมดที่ฉันติดตาม และนั่นก็คือ SQL บริสุทธิ์บน Hadoop นั่นไม่รวมถึงการจำลองเสมือนข้อมูล ณ จุดนี้ และมีที่ว่างมากมายสำหรับการรวมกิจการซึ่งฉันคิดว่าจะเกิดขึ้นในปีหน้าสิบแปดเดือนหรือมากกว่านั้น แต่มันยังเปิดขึ้นอีกสิ่งหนึ่งซึ่งฉันสามารถมีเอนจิน SQL จำนวนมากที่อาจเกิดขึ้นกับข้อมูลเดียวกันใน Hadoop และนั่นคือสิ่งที่คุณไม่สามารถทำได้ในเชิงสัมพันธ์

แน่นอนนั่นหมายความว่าคุณต้องรู้ฉันรู้ว่าฉันกำลังใช้งานปริมาณงานสืบค้นประเภทใด ฉันควรจะใช้มันในแบทช์บน SQL ที่เฉพาะเจาะจงในการริเริ่ม Hadoop หรือไม่? ฉันควรเรียกใช้เวิร์กโหลดเคียวรีแบบโต้ตอบผ่าน SQL อื่นในการริเริ่ม Hadoop เป็นต้นเพื่อให้ฉันรู้ว่าควรเชื่อมต่ออันไหน แน่นอนว่าเราไม่ควรทำเช่นนั้น เราควรจะมีคุณถามคำถามกับมัน คุณจะรู้ว่าเครื่องมือเพิ่มประสิทธิภาพบางอย่างนั้นหาวิธีที่ดีที่สุด แต่ในความคิดของฉันยังไม่ครบถ้วน

แต่ถึงกระนั้นฉันก็กล่าวถึงก่อนหน้านี้ว่าการจำลองเสมือนข้อมูลมีบทบาทสำคัญอย่างยิ่งในการทำให้การเข้าถึงที่เก็บข้อมูลหลายแห่งง่ายขึ้น และถ้าเราสร้างข้อมูลเชิงลึกใหม่บน Hadoop แน่นอนว่าเป็นไปได้ที่เราจะเข้าร่วม data-to-data และ data data ดั้งเดิมผ่าน data virtualization ตัวอย่างเช่นโดยไม่จำเป็นต้องย้ายข้อมูลจาก Hadoop ไปยัง data data ดั้งเดิม แน่นอนคุณสามารถทำได้เช่นกัน นอกจากนี้ยังเป็นไปได้ถ้าฉันเก็บข้อมูลจากคลังข้อมูลดั้งเดิมลงใน Hadoop ฉันยังสามารถเข้าถึงและกลับไปยังสิ่งที่อยู่ในคลังข้อมูลของเราไปยังการจำลองเสมือนข้อมูล ดังนั้นสำหรับฉันฉันคิดว่า data virtualization นั้นมีอนาคตที่ยิ่งใหญ่ในสถาปัตยกรรมโดยรวมและทำให้การเข้าถึงแหล่งข้อมูลเหล่านี้ง่ายขึ้น

และอย่าลืมว่าเมื่อเราสร้างข้อมูลเชิงลึกใหม่ ๆ เหล่านี้ไม่ว่าจะเป็นในเชิงสัมพันธ์หรือระบบ NoSQL เรายังคงต้องการผลักดันข้อมูลเชิงลึกเหล่านั้นกลับคืนสู่การดำเนินการของเราเพื่อให้เราสามารถเพิ่มมูลค่าของสิ่งที่เราพบได้สูงสุด ใช้ประโยชน์จากการตัดสินใจที่มีประสิทธิภาพมากขึ้นและทันเวลามากขึ้นในสภาพแวดล้อมนั้นเพื่อเพิ่มประสิทธิภาพทางธุรกิจของเรา

ดังนั้นเพื่อสรุปสิ่งที่ฉันเห็นในตอนนั้นเราต้องการแหล่งข้อมูลใหม่ ๆ เกิดขึ้นหรือไม่ เราได้รับแพลตฟอร์มใหม่ในสถาปัตยกรรมที่ซับซ้อนยิ่งขึ้นหากคุณต้องการจัดการสิ่งนั้น และ Hadoop กลายเป็นสิ่งที่สำคัญมากอย่างมากเพียงพอสำหรับการเตรียมข้อมูลสำหรับ sandbox เหลวของเราสำหรับการค้นหาการเก็บถาวรการเก็บถาวรจากคลังข้อมูลการจัดการข้อมูลที่ขยายปีกของมันให้เหนือกว่าคลังข้อมูลในการจัดการข้อมูลในแพลตฟอร์มเหล่านี้ทั้งหมด สามารถวิเคราะห์และเข้าถึงข้อมูลในสภาพแวดล้อมเหล่านี้เพื่อให้สามารถปรับขนาดเทคโนโลยีเพื่อทำการส่งข้อมูลได้ดีขึ้นและปรับขนาดการวิเคราะห์โดยการผลักพวกเขาลงในแพลตฟอร์มเพื่อให้พวกเขาขนานกันมากขึ้น และหวังว่าจะช่วยให้การเข้าถึงทั้งหมดง่ายขึ้นผ่าน SQL ฉุกเฉินที่เกิดขึ้นด้านบน ดังนั้นมันจะช่วยให้คุณรู้ว่าเรากำลังมุ่งหน้าไปทางไหน ดังนั้นด้วยเหตุนี้ฉันจะส่งกลับไปฉันเดาว่า Eric ตอนนี้ใช่ไหม

Eric: โอเคเยี่ยมเลย และฉันต้องบอกว่าระหว่างสิ่งที่คุณเพิ่งได้รับจากโรบินกับไมค์มันอาจจะเกี่ยวกับภาพรวมที่ครอบคลุมและรัดกุมของภูมิทัศน์ทั้งหมดจากการดูว่าคุณกำลังจะไปหาที่ไหน ให้ฉันไปข้างหน้าและต่อคิว George Corugedo ก่อน และนั่นก็คือ ขอผมใช้อันนี้สักครู่ เอาล่ะจอร์จฉันจะส่งมอบกุญแจให้คุณแล้วเอาไป พื้นเป็นของคุณ

จอร์จ: ยอดเยี่ยม! ขอบคุณมาก Eric และขอบคุณ Rob และ Mike นั่นเป็นข้อมูลที่ยอดเยี่ยมและมากมายที่เราเห็นพ้อง ดังนั้นกลับไปที่การอภิปรายของ Robin เพราะคุณรู้ว่าไม่ใช่เรื่องบังเอิญที่ RedPoint อยู่ที่นี่และ SAS อยู่ที่นี่ เนื่องจาก RedPoint เราให้ความสำคัญกับด้านข้อมูลของการกำกับดูแลการประมวลผลข้อมูลและการเตรียมการสำหรับใช้ในการวิเคราะห์ ขอผมเลื่อนผ่านสไลด์สองแผ่นนี้ และพูดถึงและเลือกประเด็นของ MDM ของ Robin และคิดว่ามันสำคัญแค่ไหนและมีประโยชน์อย่างไรฉันคิดว่า - และเราคิดว่า - Hadoop สามารถอยู่ในโลกของ MDM และคุณภาพของข้อมูล

คุณรู้ไหมโรบินกำลังพูดถึงนิดหน่อยคุณรู้ไหมว่าเรื่องนี้เกี่ยวข้องกับโลกของคลังข้อมูลองค์กรและฉันเข้ามา - คุณรู้ไหมฉันใช้เวลาหลายปีกับ Accenture และสิ่งที่น่าสนใจคือมีกี่ครั้งที่เราต้องเข้า บริษัท และพยายามหาว่าจะทำอย่างไรกับคลังข้อมูลที่ถูกทิ้งร้างโดยทั่วไป และหลายสิ่งเกิดขึ้นเพราะทีมคลังข้อมูลไม่ได้ปรับแนวการสร้างของพวกเขาให้ตรงกับผู้ใช้ทางธุรกิจหรือผู้บริโภคของข้อมูล หรือมันใช้เวลายืนนานจนเมื่อถึงเวลาที่พวกเขาสร้างสิ่งนั้นการใช้งานทางธุรกิจหรือเหตุผลทางธุรกิจที่มันมีวิวัฒนาการ

และสิ่งหนึ่งที่ฉันคิดว่าฉันตื่นเต้นมากเกี่ยวกับความคิดในการใช้ Hadoop สำหรับการจัดการข้อมูลหลักเพื่อคุณภาพของข้อมูลและการเตรียมข้อมูลคือความจริงที่ว่าคุณสามารถกลับไปที่ข้อมูลอะตอมใน Hadoop data lake หรือ data reservoir หรือ data repository หรือฮับหรืออะไรก็ตามที่คุณต้องการใช้ แต่เนื่องจากคุณเก็บข้อมูลอะตอมไว้เสมอคุณจึงมีโอกาสได้ปรับใช้กับผู้ใช้ทางธุรกิจ เพราะในฐานะนักวิเคราะห์ - เพราะจริง ๆ แล้วฉันเริ่มอาชีพของฉันในฐานะนักสถิติคุณรู้ว่าไม่มีอะไรเลวร้ายไปกว่าคุณคลังข้อมูลขององค์กรนั้นยอดเยี่ยมมากสำหรับการขับเคลื่อนรายงาน แต่ถ้าคุณต้องการทำการวิเคราะห์เชิงทำนายจริงๆ ไม่มีประโยชน์จริง ๆ เพราะสิ่งที่คุณต้องการคือข้อมูลพฤติกรรมแบบละเอียดที่สรุปและรวบรวมไว้ในคลังข้อมูล ดังนั้นฉันคิดว่ามันเป็นคุณสมบัติที่สำคัญจริง ๆ และนั่นก็เป็นสิ่งหนึ่งที่ฉันคิดว่าฉันอาจไม่เห็นด้วยกับโรบินคือฉันจะทิ้งข้อมูลไว้ในดาต้าเลกหรือดาต้าเซ็นเตอร์ให้นานที่สุดเพราะตราบใดที่ ข้อมูลอยู่ที่นั่นและสะอาดคุณสามารถดูได้จากทิศทางหนึ่งทิศทางอื่น คุณสามารถรวมเข้ากับข้อมูลอื่น ๆ คุณมีโอกาสนั้นเสมอที่จะกลับมาหามันและปรับโครงสร้างใหม่จากนั้นปรับตำแหน่งของคุณเองด้วยหน่วยธุรกิจและความต้องการที่หน่วยนี้อาจมี

อีกสิ่งหนึ่งที่น่าสนใจเกี่ยวกับเรื่องนี้ก็คือเพราะมันเป็นแพลตฟอร์มการคำนวณที่ทรงพลังภาระงานมากมายที่เรากำลังพูดถึงเราจึงเห็นว่ามันทั้งหมดมาที่ Hadoop และในขณะที่ฉันคิดว่าไมค์กำลังพูดถึงเทคโนโลยีที่แตกต่างกันทั้งหมดที่มีอยู่ในโลกของ - ในระบบนิเวศของข้อมูลขนาดใหญ่ประเภทนี้เราคิดว่า Hadoop เป็นงานที่ต้องทำในการประมวลผลแบบเข้มข้นขนาดใหญ่ ข้อมูลหลักและคุณภาพของข้อมูลต้องการ เพราะถ้าคุณสามารถทำที่นั่นได้คุณก็รู้เพียงแค่เศรษฐศาสตร์ที่แท้จริงของการย้ายข้อมูลออกจากฐานข้อมูลราคาแพงของคุณและไปสู่ฐานข้อมูลที่ประหยัดนี่เป็นแรงผลักดันให้เกิดการดูดซับมากในองค์กรขนาดใหญ่

แน่นอนว่ามีความท้าทายอยู่ใช่ไหม มีความท้าทายเกี่ยวกับเทคโนโลยี หลายคนยังไม่บรรลุนิติภาวะ ฉันว่าคุณรู้หรือไม่ฉันไม่รู้ว่ามีกี่เทคโนโลยี แต่มีเทคโนโลยีจำนวนมากที่ไมค์กล่าวถึงยังคงมีอยู่ในรุ่นที่ไม่มีข้อผิดพลาดใช่ไหม ดังนั้นเทคโนโลยีเหล่านี้ยังเด็กมากอายุน้อยมากยังใช้รหัส และนั่นสร้างความท้าทายสำหรับองค์กร และเรามุ่งเน้นที่การแก้ปัญหาระดับองค์กร ดังนั้นเราคิดว่าจะต้องมีวิธีที่แตกต่างกันและนั่นคือสิ่งที่เราเสนอให้เป็นวิธีที่แตกต่างกันในการใช้เทคโนโลยีที่เพิ่งเกิดขึ้นเหล่านี้

ดังนั้นแล้วปัญหาที่น่าสนใจอื่น ๆ ที่นี่ซึ่งได้รับการกล่าวถึงก่อนหน้านี้คือเมื่อคุณมีข้อมูลที่คุณจับภาพในสภาพแวดล้อม Hadoop ไม่ว่าคุณจะพิมพ์แบบใดคุณรู้ว่ามันมักจะเป็นแบบแผนในการอ่านมากกว่าแบบแผนการเขียน มีข้อยกเว้นบางประการ และการอ่านนั้นนักสถิติหลายคนกำลังทำอยู่ ดังนั้นนักสถิติจึงต้องมีเครื่องมือที่ช่วยให้พวกเขาสามารถจัดโครงสร้างข้อมูลเพื่อการวิเคราะห์ได้อย่างถูกต้องเพราะในตอนท้ายของวันเพื่อให้ข้อมูลมีประโยชน์มันจะต้องมีโครงสร้างในบางรูปแบบเพื่อดูคำถามหรือตอบคำถามหรือ ธุรกิจธุรกิจบางประเภทสร้างมูลค่าทางธุรกิจ

ดังนั้นที่เราเข้ามาก็คือเรามีคีย์หลักที่มีคุณภาพในวงกว้างและเป็นผู้ใหญ่ EPL, ELT ข้อมูลและการประยุกต์ใช้การจัดการ อยู่ในตลาดมานานหลายปี และมันมีฟังก์ชั่นทั้งหมดหรือฟังก์ชั่นส่วนใหญ่ที่ Robin แสดงไว้ในกราฟวงกลมนั้น - ทุกอย่างตั้งแต่การจับข้อมูลดิบที่บริสุทธิ์ในรูปแบบและโครงสร้าง XML และสิ่งต่าง ๆ ไปจนถึงความสามารถในการทำความสะอาดทั้งหมด ความสมบูรณ์ของข้อมูล, การแก้ไขข้อมูล, แกนกลางเชิงพื้นที่ของข้อมูล นั่นคือสิ่งที่ทวีความสำคัญมากขึ้นในทุกวันนี้ด้วย Internet of Things คุณรู้ไหมว่ามีภูมิศาสตร์เชื่อมโยงกับสิ่งที่เราทำหรือข้อมูลส่วนใหญ่ ดังนั้นการแยกวิเคราะห์ทั้งหมดการทำโทเค็นการล้างการแก้ไขการจัดรูปแบบโครงสร้าง ฯลฯ ทั้งหมดนี้ทำในแพลตฟอร์มของเรา

และจากนั้นและบางทีเราคิดว่าสิ่งที่สำคัญที่สุดคือความคิดในเรื่องการขจัดข้อมูลซ้ำซ้อน คุณรู้ไหมว่าถ้าคุณดูคำจำกัดความของการจัดการข้อมูลหลักแกนหลักของมันคือการขจัดข้อมูลซ้ำซ้อน มันสามารถระบุเอนทิตีข้ามแหล่งข้อมูลที่แตกต่างกันแล้วสร้างเรคคอร์ดหลักสำหรับเอนทิตีนั้น และนิติบุคคลนั้นอาจเป็นบุคคล ตัวอย่างเช่นกิจการอาจเป็นส่วนหนึ่งของเครื่องบิน กิจการนั้นอาจเป็นอาหารอย่างที่เราทำเพื่อลูกค้าเฮลท์คลับของเรา เราได้สร้างฐานข้อมูลอาหารหลักสำหรับพวกเขา ดังนั้นสิ่งที่หน่วยงานที่เรากำลังทำงานกับ - และแน่นอนมากขึ้นมีผู้คนและผู้รับมอบฉันทะสำหรับตัวตนของพวกเขาซึ่งเป็นสิ่งที่จัดการสังคมหรือบัญชีอุปกรณ์ใด ๆ ที่เกี่ยวข้องกับคนบางสิ่งเช่นรถยนต์และ โทรศัพท์และสิ่งอื่นที่คุณอาจจินตนาการ

คุณรู้ไหมว่าเรากำลังทำงานร่วมกับลูกค้าที่ใส่เซ็นเซอร์ทุกประเภทไว้ในชุดกีฬา ดังนั้นข้อมูลมาจากทุกทิศทาง และในทางใดทางหนึ่งมันเป็นภาพสะท้อนหรือการเป็นตัวแทนของหน่วยงานหลัก และยิ่งเพิ่มมากขึ้นนั่นคือผู้คนและความสามารถในการระบุความสัมพันธ์ระหว่างแหล่งข้อมูลเหล่านี้ทั้งหมดและวิธีการที่เกี่ยวข้องกับเอนทิตีหลักนั้นและจากนั้นสามารถติดตามเอนทิตีหลักนั้นตลอดเวลาเพื่อให้คุณสามารถวิเคราะห์และทำความเข้าใจการเปลี่ยนแปลงระหว่างเอนทิตี และองค์ประกอบอื่น ๆ ทั้งหมดที่อยู่ในการเป็นตัวแทนของเอนทิตีนั้นเป็นสิ่งสำคัญอย่างยิ่งต่อการวิเคราะห์ในระยะยาวและระยะยาวของคน และนั่นเป็นหนึ่งในผลประโยชน์ที่สำคัญอย่างแท้จริงที่ฉันคิดว่าข้อมูลขนาดใหญ่สามารถนำเรามาเป็นความเข้าใจที่ดีขึ้นของผู้คนและในระยะยาวและเข้าใจข้อเสียและพฤติกรรมของผู้คนเมื่อพวกเขาปฏิบัติงานผ่านอุปกรณ์อะไร ฯลฯ .

ขอผมย้ายที่นี่อย่างรวดเร็ว Eric พูดถึงเส้นด้าย คุณรู้ไหมฉันโยนมันทิ้งไปสักครู่เพราะในขณะที่ YARN คนพูดถึง YARN ฉันคิดว่ายังมีความไม่รู้มากมายเกี่ยวกับ YARN และไม่ใช่ผู้คนจำนวนมากจริง ๆ - ยังมีความเข้าใจผิดมากมายเกี่ยวกับเส้นด้าย และความจริงก็คือถ้าแอปพลิเคชันของคุณได้รับการออกแบบอย่างถูกต้องและคุณมีระดับที่เหมาะสมหรือมีความขนานในสถาปัตยกรรมแอปพลิเคชันของคุณคุณสามารถใช้ YARN เพื่อใช้ Hadoop เป็นแพลตฟอร์มการปรับขนาดของคุณ และนั่นคือสิ่งที่เราทำ

คุณรู้อีกครั้งเพียงเพื่อชี้ให้เห็นคำจำกัดความบางอย่างรอบ ๆ เส้นด้าย สำหรับเราแล้วสิ่งที่ YARN ทำให้เราและองค์กรอื่น ๆ สามารถเป็นเพื่อนร่วมงานกับ MapReduce และ Spark และเครื่องมืออื่น ๆ ทั้งหมดที่อยู่ข้างนอก แต่ความจริงก็คือแอปพลิเคชันของเราจะนำโค้ดที่ได้รับการปรับปรุงมาสู่ YARN ไปยัง Hadoop โดยตรง และมีความคิดเห็นที่น่าสนใจจริง ๆ ที่ไมค์พูดถึงเพราะคุณรู้ว่าคำถามเกี่ยวกับการวิเคราะห์และการวิเคราะห์ของเราเพียงเพราะพวกเขาอยู่ในกลุ่มพวกเขาทำงานแบบขนานกันจริง ๆ หรือไม่ คุณสามารถถามคำถามเดียวกันเกี่ยวกับเครื่องมือคุณภาพข้อมูลจำนวนมากที่อยู่ข้างนอกได้

เกือบทุกวันเครื่องมือคุณภาพที่อยู่ข้างนอกนั้นจำเป็นต้องนำข้อมูลออกมาหรือพวกเขากำลังกดรหัสในและในหลาย ๆ กรณีมันเป็นกระแสข้อมูลเดียวที่ได้รับการประมวลผลเนื่องจากวิธีที่คุณต้องทำ เปรียบเทียบบันทึกบางครั้งในประเภทของกิจกรรมคุณภาพข้อมูล และความจริงก็คือเพราะเราใช้ YARN เราจึงสามารถใช้ประโยชน์จากการขนานได้อย่างแท้จริง

และเพื่อให้คุณเห็นภาพรวมอย่างรวดเร็วเนื่องจากมีความคิดเห็นอื่นเกี่ยวกับความสำคัญของความสามารถในการขยายฐานข้อมูลดั้งเดิมฐานข้อมูลใหม่ ฯลฯ เรานำไปใช้หรือติดตั้งนอกคลัสเตอร์ และเราผลักไบนารีของเราลงในตัวจัดการทรัพยากรโดยตรง YARN และจากนั้น YARN จะกระจายข้ามโหนดในคลัสเตอร์ และสิ่งที่ทำคือคือ YARN - เราอนุญาตให้ YARN จัดการและทำงานของมันซึ่งก็คือการหาว่าข้อมูลอยู่ที่ไหนและนำงานไปใช้กับข้อมูลรหัสไปยังข้อมูลและไม่ย้ายข้อมูลไปรอบ ๆ เมื่อคุณได้ยินเครื่องมือคุณภาพข้อมูลและพวกเขากำลังบอกวิธีปฏิบัติที่ดีที่สุดคือการย้ายข้อมูลออกจาก Hadoop วิ่งเพื่อชีวิตของคุณเพราะนั่นไม่ใช่วิธีที่เป็นอยู่ คุณต้องการนำงานไปใช้กับข้อมูล และนั่นคือสิ่งที่ YARN ทำก่อน มันจะนำไบนารีของเราออกไปยังโหนดที่มีข้อมูลอยู่

และเนื่องจากเราอยู่นอกคลัสเตอร์เรายังสามารถเข้าถึงฐานข้อมูลดั้งเดิมและฐานข้อมูลเชิงสัมพันธ์ทั้งหมดเพื่อให้เราสามารถมีงานที่เป็นไคลเอนต์เซิร์ฟเวอร์ 100% บนฐานข้อมูลดั้งเดิมงาน Hadoop หรืองานไฮบริด 100% ที่ข้ามเซิร์ฟเวอร์ไคลเอนต์ Hadoop , Oracle, Teradata - ทุกสิ่งที่คุณต้องการและอยู่ในงานเดียวกันเพราะการติดตั้งเพียงครั้งเดียวสามารถเข้าถึงทั้งสองด้านของโลก

จากนั้นย้อนกลับไปที่ความคิดทั้งหมดเกี่ยวกับความสุภาพของเครื่องมือคุณเห็นตรงนี้นี่เป็นเพียงการนำเสนอง่าย ๆ และสิ่งที่เราพยายามทำก็คือทำให้โลกง่ายขึ้น และวิธีที่เราทำก็คือการนำชุดการทำงานที่หลากหลายรอบ HDFS มาทำ ... และไม่ใช่เพราะเราพยายามกำจัดเทคโนโลยีที่เป็นนวัตกรรมทั้งหมดออกไป เป็นเพียงองค์กรที่ต้องการความเสถียรและพวกเขาไม่ชอบโซลูชันที่ใช้รหัส ดังนั้นสิ่งที่เราพยายามทำคือให้สภาพแวดล้อมของแอปพลิเคชันที่คุ้นเคยทำซ้ำและสอดคล้องกันซึ่งทำให้พวกเขามีความสามารถในการสร้างและประมวลผลข้อมูลในแบบที่คาดเดาได้มาก

นี่คือผลกระทบที่เราได้รับจากแอปพลิเคชันของเรา คุณเห็น MapReduce vs. Pig vs. RedPoint - ไม่มีบรรทัดของโค้ดใน RedPoint การพัฒนาหกชั่วโมงที่ MapReduce การพัฒนาสามชั่วโมงในหมูและ 15 นาทีในการพัฒนา RedPoint และนั่นคือสิ่งที่เรามีผลกระทบอย่างมาก เวลาในการประมวลผลก็เร็วขึ้น แต่เวลาคนเวลาในการผลิตของคนเพิ่มขึ้นอย่างมีนัยสำคัญ

และสไลด์สุดท้ายของฉันที่นี่ฉันต้องการกลับไปที่ความคิดนี้เพราะนี่คือสิ่งที่เราใช้ในการดาต้าดาต้าหรือฮับข้อมูลหรือโรงกลั่นข้อมูลเป็นจุดศูนย์กลางของการบริโภค ไม่เห็นด้วยกับแนวคิดนี้มากขึ้น และขณะนี้เรากำลังหารือกับหัวหน้าเจ้าหน้าที่ข้อมูลจำนวนมากของธนาคารใหญ่ทั่วโลกและนี่คือโครงสร้างของทางเลือกการนำเข้าข้อมูลจากแหล่งที่มาทั้งหมดทำการประมวลผลคุณภาพข้อมูลและการจัดการข้อมูลหลักภายใน data lake จากนั้นพุชข้อมูลที่จำเป็นต้องใช้เพื่อสนับสนุนแอปพลิเคชันเพื่อสนับสนุน BI ไม่ว่ามันจะเป็นอะไรก็ตาม จากนั้นหากคุณมีการวิเคราะห์ใน BI พวกเขาสามารถทำงานได้โดยตรงภายในดาต้าเลกซึ่งทั้งหมดที่ดีกว่าสามารถเริ่มต้นได้ทันที แต่อย่างมากกับความคิดนี้บนกระดาน โทโพโลยีนี้คือสิ่งที่เป็น - ที่เรากำลังค้นหากำลังดึงตลาดออกมามากมาย และนั่นคือมัน

Eric: โอเคดี ไปกันที่นี่กัน ฉันจะไปข้างหน้าและมอบมันให้กับคี ธ และคี ธ คุณมีเวลา 10, 12 นาทีในการเขย่าบ้านที่นี่ เราใช้เวลาไปนานในการแสดงเหล่านี้ และเราโฆษณา 70 นาทีสำหรับอันนี้ ดังนั้นเพียงแค่ไปข้างหน้าและคลิกที่ใดก็ได้บนสไลด์นั้นและใช้ลูกศรลงและนำออกไป

Keith: แน่นอน ไม่มีปัญหา Eric ฉันรู้สึกทราบซึ้ง. ฉันจะไปข้างหน้าและกดปุ่มเพียงไม่กี่ชิ้นเกี่ยวกับ SAS จากนั้นฉันจะเข้าสู่สถาปัตยกรรมด้านเทคโนโลยีที่ซึ่ง SAS ตัดกับโลกข้อมูลขนาดใหญ่ มีหลายสิ่งที่ต้องอธิบายในทุกสิ่งนี้ เราสามารถใช้เวลาเป็นชั่วโมง ๆ ในการลงรายละเอียดมาก แต่สิบนาที - คุณควรจะสามารถเดินไปได้ด้วยความเข้าใจสั้น ๆ ว่า SAS นำการวิเคราะห์การจัดการข้อมูลและเทคโนโลยีทางธุรกิจมาสู่โลกข้อมูลขนาดใหญ่นี้ได้อย่างไร

ก่อนอื่นเพียงเล็กน้อยเกี่ยวกับ SAS หากคุณไม่คุ้นเคยกับองค์กรนี้มาตลอด 38 ปีที่ผ่านมาเราได้ทำการวิเคราะห์ขั้นสูงระบบธุรกิจอัจฉริยะและการจัดการข้อมูลที่ไม่เพียง แต่เป็นข้อมูลขนาดใหญ่ แต่เป็นข้อมูลขนาดเล็กและความมั่งคั่งของข้อมูลในช่วง 38 ปีที่ผ่านมา เรามีฐานลูกค้าขนาดใหญ่ที่มีอยู่ประมาณ 75,000 แห่งทั่วโลกทำงานร่วมกับองค์กรชั้นนำบางแห่ง เราเป็นองค์กรเอกชนที่มีพนักงานประมาณ 13,000 คนและมีรายได้ 3 พันล้านดอลลาร์ และที่จริงแล้วฉันเดาว่าส่วนสำคัญคือเรามีประวัติอันยาวนานในการลงทุนรายได้จำนวนมากกลับสู่องค์กร R&D ของเราซึ่งได้นำเทคโนโลยีและแพลตฟอร์มที่น่าทึ่งเหล่านี้มามากมาย กำลังจะไปดูวันนี้

ดังนั้นฉันจะกระโดดลงในไดอะแกรมสถาปัตยกรรมที่น่ากลัวจริงๆ เราจะทำงานจากซ้ายไปขวาในสไลด์ของฉัน ดังนั้นมีสิ่งที่คุ้นเคยที่คุณจะเห็นในแพลตฟอร์มนี้ ทางด้านซ้ายแหล่งข้อมูลทั้งหมดที่เรากำลังพูดถึงเกี่ยวกับการนำเข้าไปยังแพลตฟอร์มข้อมูลขนาดใหญ่เหล่านี้ จากนั้นคุณจะได้รับแพลตฟอร์มข้อมูลขนาดใหญ่นี้

ฉันไม่ได้ใส่คำว่า Hadoop ไว้ที่ด้านบนเพราะในท้ายที่สุดตัวอย่างที่ฉันจะให้ในวันนี้นั้นเป็นเทคโนโลยีเฉพาะรอบด้านที่เราตัดกับแพลตฟอร์มข้อมูลขนาดใหญ่เหล่านี้ Hadoop เพิ่งเกิดขึ้นเป็นหนึ่งในตัวเลือกที่เรามีตัวเลือกการปรับใช้ที่มีประสิทธิภาพมากที่สุด แต่เราก็ตัดกันบ้างและได้พัฒนาเทคโนโลยีเหล่านี้จำนวนมากในบางครั้งกับพันธมิตรคลังข้อมูลองค์กรอื่น ๆ เช่น Teradata Oracle, Pivotal และอื่น ๆ ดังนั้นฉันไม่สามารถไปลงรายละเอียดที่ยอดเยี่ยมเกี่ยวกับเทคโนโลยีที่แตกต่างกันทั้งหมดได้รับการสนับสนุนบนแพลตฟอร์มใด แต่เพียงแค่มั่นใจได้ว่าสิ่งที่ฉันอธิบายวันนี้ส่วนใหญ่เป็นสิ่งที่ Hadoop และพวกเขาจำนวนมากตัดกับพันธมิตรเทคโนโลยีอื่น ๆ เรามี. ดังนั้นเรามีแท่นขนาดใหญ่ที่นั่งอยู่ตรงนั้น

ถัดไปทางขวาเรามี SAS LASR Analytic Server ของเรา ตอนนี้สิ่งสำคัญคือแอพพลิเคชั่นเซิร์ฟเวอร์วิเคราะห์หน่วยความจำขนานใหญ่อย่างหนาแน่น เราชัดเจนว่าไม่ใช่ฐานข้อมูลในหน่วยความจำ มันถูกออกแบบมาจากพื้นดินขึ้นมาจริงๆ ไม่ใช่เครื่องมือค้นหา แต่ได้รับการออกแบบมาเพื่อให้บริการคำขอการวิเคราะห์ในระดับสูงในแบบคู่ขนานขนาดใหญ่ นั่นคือแอปพลิเคชันคีย์บริการที่คุณเห็นทางด้านขวามือ

เราจะได้รับความชอบมากกว่านี้เล็กน้อยคุณรู้ว่าผู้คนปรับใช้สิ่งเหล่านี้อย่างไร แต่ที่สำคัญที่สุดคือแอปพลิเคชั่นที่คุณเห็นนั่นคืออันแรกคือ SAS การวิเคราะห์ประสิทธิภาพสูงของเรา ฉันจะใช้เทคโนโลยีและแพลตฟอร์มที่มีอยู่มากมายของเราเช่น Enterprise Miner หรือเพียง SAS และไม่เพียงแค่ทำมัลติเธรดกับอัลกอริทึมเหล่านั้นที่เราได้สร้างไว้ในเครื่องมือเหล่านั้นที่เราได้ทำเพื่อ ปี แต่ยังรวมถึงขนานเหล่านั้นอย่างหนาแน่น ดังนั้นในการย้ายข้อมูลจากแพลตฟอร์มข้อมูลขนาดใหญ่นั้นไปยังพื้นที่หน่วยความจำไปยังเซิร์ฟเวอร์ LASR Analytic นั้นเพื่อให้เราสามารถดำเนินการอัลกอริธึมการวิเคราะห์ได้ - คุณรู้ไหมว่าการเรียนรู้ของเครื่องใหม่จำนวนมากระบบประสาทแบบวนป่า สิ่ง - อีกครั้งข้อมูลนั่งอยู่ในหน่วยความจำ ดังนั้นการกำจัดคอขวดกระบวนทัศน์บางอย่างของ MapReduce ที่ซึ่งเราได้ยื่นไปยังแพลตฟอร์มเหล่านั้นไม่ใช่วิธีที่คุณต้องการทำงานวิเคราะห์ ดังนั้นเราต้องการที่จะสามารถยกข้อมูลหนึ่งครั้งในพื้นที่หน่วยความจำและวนซ้ำมันบางครั้งหลายพันครั้ง ดังนั้นนี่คือแนวคิดของการใช้ Analytic LASR Server ประสิทธิภาพสูง

นอกจากนี้เรายัง - แอปพลิเคชั่นอื่น ๆ ด้านล่างซึ่งเป็นการวิเคราะห์ด้วยภาพซึ่งช่วยให้เรายืนยันข้อมูลนั้นในหน่วยความจำและรองรับจำนวนประชากรที่มากขึ้นในข้อมูลเดียวกัน ดังนั้นช่วยให้ผู้คนทำการสำรวจข้อมูลขนาดใหญ่ ดังนั้นก่อนที่จะทำแบบจำลองการพัฒนาของเราเรากำลังสำรวจข้อมูลทำความเข้าใจกับมันใช้ความสัมพันธ์ทำการพยากรณ์หรือแนวโน้มต้นไม้ตัดสินใจ - สิ่งต่าง ๆ เหล่านั้น - แต่ในลักษณะที่เป็นภาพโต้ตอบบนข้อมูลที่อยู่ในหน่วยความจำ เวที นอกจากนี้ยังให้บริการชุมชน BI ของเราเท่าที่มีฐานผู้ใช้ที่กว้างขวางซึ่งสามารถเข้าถึงแพลตฟอร์มนั้นเพื่อทำการบันทึกแบบมาตรฐานที่คุณเห็น - ผู้ขาย BI รายใดที่คุณรู้จัก

ขั้นตอนต่อไปเราย้ายบริการ และเพื่อช่วยให้นักสถิติและนักวิเคราะห์ของเราสามารถทำแบบจำลองเฉพาะกิจด้วยข้อมูลที่อยู่ในหน่วยความจำลบออกจากการวิเคราะห์ด้วยภาพและการสำรวจลงในแอปพลิเคชันสถิติเชิงวิชวลของเรา นี่เป็นโอกาสสำหรับคนที่จะไม่เรียกใช้สถิติเป็นชุดที่เคยทำซ้ำเรียกใช้แบบจำลองดูผลลัพธ์ ดังนั้นที่สามารถเรียกใช้แบบจำลองให้ดูผลลัพธ์ นี่คือการลากและวางในการสร้างแบบจำลองทางสถิติเชิงโต้ตอบ ดังนั้นบริการนี้นักสถิติของเราและนักวิทยาศาสตร์ด้านข้อมูลของเราที่จะทำงานเกี่ยวกับสถิติเชิงทัศนศาสตร์เชิงสำรวจระยะแรก

จากนั้นเรายังไม่ลืม coders ของเรา - คนที่ต้องการจริงๆสามารถลอกเลเยอร์ของอินเตอร์เฟซตรงข้ามได้คือการเขียนแอปพลิเคชันและเขียนฐานรหัสของตนเองใน SAS และนั่นคือสถิติในหน่วยความจำของเราสำหรับ Hadoop และนั่นคือ - เลเยอร์โค้ดที่ทำให้เราสามารถโต้ตอบกับ Analytic LASR Server เพื่อออกคำสั่งโดยตรงและปรับแต่งแอปพลิเคชันเหล่านั้นตามคำขอของเรา นั่นคือส่วนวิเคราะห์

วิธีการตั้งค่าสิ่งเหล่านี้…โอ๊ะฉันขอโทษนะ เราจะไปที่นั่น.

ดังนั้นมีสองสามวิธีที่เราทำสิ่งนี้ หนึ่งคือการทำกับข้อมูลขนาดใหญ่ - ในกรณีนี้กับ Hadoop และนั่นคือสิ่งที่เรามีเซิร์ฟเวอร์ SAS LASR Analytic ที่ทำงานในกลุ่มของเครื่องที่ได้รับการปรับแต่งสำหรับการวิเคราะห์ที่ไม่ยอมใครง่ายๆ นี่คือการวางที่ดีและใกล้กับแพลตฟอร์มข้อมูลขนาดใหญ่ช่วยให้เราสามารถปรับขนาดแยกต่างหากจากแพลตฟอร์มข้อมูลขนาดใหญ่ ดังนั้นเราเห็นผู้คนทำเช่นนี้เมื่อพวกเขาไม่ต้องการมีลักษณะเหมือนซอฟต์แวร์แวมไพร์ที่กินในแต่ละโหนดในคลัสเตอร์ Hadoop และไม่จำเป็นต้องปรับขนาดแพลตฟอร์มข้อมูลขนาดใหญ่ที่เหมาะสมสำหรับการวิเคราะห์ในหน่วยความจำ ดังนั้นคุณอาจมี 120 โหนดของคลัสเตอร์ Hadoop ของพวกเขา แต่พวกเขาอาจมี 16 โหนดของเซิร์ฟเวอร์วิเคราะห์ที่ออกแบบมาเพื่อทำงานประเภทนั้น

เรายังคงได้รับอนุญาตให้รักษาความเท่าเทียมจากดาต้าแพลตฟอร์มขนาดใหญ่เพื่อดึงข้อมูลเข้าสู่หน่วยความจำ ดังนั้นมันจึงเป็นการใช้งาน SAS กับแพลตฟอร์ม Hadoop รูปแบบการนัดหมายที่แตกต่างกันนั้นก็คือการพูดว่าเราสามารถใช้แพลตฟอร์มสินค้านั้นเช่นกันและผลักดันให้ - เรียกใช้ Analytic LASR Server บนแพลตฟอร์ม Hadoop นั่นคือที่เราอยู่ ... คุณกำลังดำเนินการภายในแพลตฟอร์มข้อมูลขนาดใหญ่ นั่นก็เป็นผู้จำหน่ายเครื่องใช้ไฟฟ้าอื่น ๆ ของเราเช่นกัน ดังนั้นสิ่งนี้จึงทำให้เราสามารถใช้แพลตฟอร์มสินค้านั้นในการทำงาน

เราเห็นว่าบ่อยครั้งกับสิ่งต่าง ๆ เช่นการวิเคราะห์ที่มีประสิทธิภาพสูงซึ่งเป็นประเภทของการดำเนินการวิเคราะห์แบบใช้ครั้งเดียวหรือแบบใช้ครั้งเดียวและมีแบตช์ที่มุ่งเน้นที่คุณ - คุณไม่ต้องการกินพื้นที่หน่วยความจำที่ Hadoop เวที เรามีความยืดหยุ่นอย่างมากในรูปแบบการใช้งานประเภทนี้ในการทำงานกับ YARN ในหลายกรณีอย่างแน่นอนเพื่อให้แน่ใจว่าเรากำลังเล่นกลุ่มที่ดี

โอเคนั่นคือโลกแห่งการวิเคราะห์เพื่อให้ชัดเจนด้วยแอปพลิเคชันการวิเคราะห์ แต่ฉันบอกว่า SAS ในตอนแรกนั้นเป็นแพลตฟอร์มการจัดการข้อมูลด้วยเช่นกัน และมีสิ่งที่เหมาะสมในการผลักตรรกะลงในแพลตฟอร์มนั้นตามความเหมาะสม ดังนั้นมีสองวิธีที่เราทำเช่นนั้น หนึ่งในโลกของการรวมข้อมูลการทำการแปลงข้อมูลทำงานกับข้อมูลอาจไม่เหมาะสมที่จะดึงข้อมูลกลับมาดังที่เราเคยได้ยินมาก่อนการเรียกใช้รูทีนคุณภาพข้อมูลที่เป็นงานใหญ่ เราต้องการผลักดันสิ่งต่าง ๆ เช่นคุณภาพของข้อมูลตามปกติลงในแพลตฟอร์มนั้น แล้วสิ่งต่าง ๆ เช่นการให้คะแนนแบบจำลอง ดังนั้นฉันได้พัฒนาแบบจำลองของฉันแล้ว ฉันไม่ต้องการเขียนสิ่งนั้นใน MapReduce และทำให้มันยากและเสียเวลาสำหรับฉันที่จะทำซ้ำที่ทำงานในแพลตฟอร์มฐานข้อมูลดั้งเดิม

ตัวอย่างเช่นถ้าคุณดูตัวเร่งการให้คะแนนของเราสำหรับ Hadoop ที่ช่วยให้เราสามารถใช้แบบจำลองและผลักดันตรรกะทางคณิตศาสตร์ SAS ลงในแพลตฟอร์ม Hadoop นั้นและดำเนินการที่นั่นโดยใช้ความขนานที่อยู่ภายในแพลตฟอร์มข้อมูลขนาดใหญ่นั้น จากนั้นเรามีตัวเร่งรหัสของเราสำหรับแพลตฟอร์มต่าง ๆ รวมถึง Hadoop และที่ช่วยให้เราสามารถเรียกใช้รหัสขั้นตอนข้อมูล SAS ภายในแพลตฟอร์มในแบบขนานอย่างหนาแน่น - ดังนั้นทำการแปลงข้อมูลชนิดต่าง ๆ ในแพลตฟอร์ม จากนั้นเครื่องเร่งคุณภาพข้อมูล SAS ของเราที่ช่วยให้เรามีฐานความรู้คุณภาพอยู่ที่นั่นซึ่งสามารถทำสิ่งต่าง ๆ เช่นการจับคู่เพศรหัสการจับคู่มาตรฐาน - สิ่งต่าง ๆ คุณภาพของข้อมูลที่คุณเคยได้ยินมาแล้วในวันนี้

จากนั้นชิ้นส่วนสุดท้ายคือ Data Loader เรารู้ว่าผู้ใช้ทางธุรกิจของเราจะต้องไม่ต้องเขียนโค้ดทำงานแปลงข้อมูลในแพลตฟอร์มข้อมูลขนาดใหญ่เหล่านี้ Data Loader เป็น GUI WYSIWYG ที่ดีที่ช่วยให้เรารวมเทคโนโลยีอื่น ๆ เข้าด้วยกัน มันเหมือนกับตัวช่วยสร้างการเดินพูดเรียกใช้แบบสอบถามแบบไฮฟ์หรือเรียกใช้ชุดคำสั่งคุณภาพข้อมูลและไม่ต้องเขียนโค้ดในกรณีนั้น

สิ่งสุดท้ายที่ฉันจะพูดถึงคือส่วนหน้านี้ เรามี - ดังที่ฉันได้กล่าวไว้ก่อนหน้านี้ - บริษัท SAS ที่มีขนาดใหญ่ที่สุดในโลก และนี่เราไม่สามารถทำทุกแพลตฟอร์มที่อยู่ในพื้นที่นี้ได้ทันที ดังนั้นเรามีผู้ใช้ที่มีอยู่เดิมที่ต้องการรับข้อมูลในแพลตฟอร์มข้อมูลขนาดใหญ่เหล่านี้เช่นการนำข้อมูลออกจาก Teradata และนำกลับไปใช้ใน Hadoop และในทางกลับกัน การใช้งานแบบจำลองที่ฉันรู้แล้วว่าจะทำงานบนเซิร์ฟเวอร์ SAS ของฉันได้อย่างไร แต่ฉันต้องได้รับข้อมูลที่วางอยู่ในแพลตฟอร์ม Hadoop ดังนั้นมีไอคอนเล็ก ๆ อื่น ๆ ที่เรียกว่า "จาก" และนั่นทำให้เราสามารถเชื่อมต่อโดยใช้เครื่องมือเข้าถึง SAS ของเรา - เข้าถึงเอ็นจิ้น Hadoop ถึง Cloudera ใน Pola, Teradata, Greenplum to …และรายการต่อไป สิ่งนี้ช่วยให้เราสามารถใช้แพลตฟอร์ม SAS ที่มีอยู่แล้วของเราที่มีอยู่แล้วในการรับข้อมูลจากแพลตฟอร์มเหล่านี้ทำงานที่เราต้องทำเสร็จแล้วส่งผลลัพธ์กลับเข้าไปในพื้นที่เหล่านี้

สิ่งสุดท้ายที่ฉันจะพูดถึงคือเทคโนโลยีทั้งหมดที่คุณเห็นอยู่ภายใต้มาตรฐานทั่วไปแบบเดียวกัน ดังนั้นเราจึงพูดถึงการเปลี่ยนแปลงงานกฎคุณภาพข้อมูลในที่ทำงานย้ายไปไว้ในหน่วยความจำเพื่อให้สามารถทำการวิเคราะห์พัฒนาแบบจำลองในการให้คะแนน เราได้รับวิถีการวิเคราะห์ทั้งหมดวงจรชีวิตที่ควบคุมโดยข้อมูลเมตาดาต้าโดยการปกครองการรักษาความปลอดภัยโดยทุกสิ่งที่เราพูดถึงในวันนี้

ดังนั้นสรุปแล้วมีสามสิ่งที่ยิ่งใหญ่จริงๆที่จะไปที่นั่น หนึ่งคือเราสามารถรักษาแพลตฟอร์มข้อมูลเหมือนกับแหล่งข้อมูลอื่นดึงจากพวกเขาผลักดันพวกเขาเมื่อมันเหมาะสมและสะดวก เราสามารถทำงานกับแพลตฟอร์มข้อมูลขนาดใหญ่เหล่านั้นแสดงข้อมูลลงในการวิเคราะห์ขั้นสูงที่สร้างขึ้นในแพลตฟอร์มหน่วยความจำ นั่นคือเซิร์ฟเวอร์ LASR

และสุดท้ายเราสามารถทำงานได้โดยตรงในแพลตฟอร์มข้อมูลขนาดใหญ่เหล่านั้นยกระดับความสามารถในการประมวลผลแบบกระจายโดยไม่ต้องย้ายข้อมูลไปรอบ ๆ

Eric: เอ่อนั่นคือสิ่งที่มหัศจรรย์ ใช่มันเยี่ยมมาก! ดังนั้นขอให้ดำน้ำในบางคำถาม โดยทั่วไปเราใช้เวลาประมาณ 70 นาทีหรือนานกว่านั้นสำหรับกิจกรรมเหล่านี้ ดังนั้นฉันเห็นว่าเรายังมีผู้ชมมากมายนั่งอยู่ตรงนั้น จอร์จฉันเดาว่าฉันจะส่งคำถามแรกให้กับคุณ หากคุณพูดถึงการผลักดันเสียงไบนารีของคุณไปที่ Hadoop ฉันคิดว่าเสียงสำหรับฉันเหมือนว่าคุณได้ปรับเวิร์กโฟลว์การคำนวณให้เหมาะสมที่สุด และนั่นคือกุญแจสำคัญทั้งหมดที่จะทำให้การควบคุมข้อมูลตามเวลาจริงความสำเร็จของรูปแบบคุณภาพของข้อมูลเหล่านี้เป็นจริงเพราะนั่นคือคุณค่าที่คุณต้องการรับใช่ไหม? หากคุณไม่ต้องการกลับไปสู่โลกเก่าของ MDM ซึ่งมันยุ่งยากและใช้เวลานานและคุณต้องบังคับให้ผู้คนแสดงในบางวิธีซึ่งแทบจะไม่ได้ผลเลย ดังนั้นสิ่งที่คุณทำคือคุณย่อวงจรของสิ่งที่เคยทำ ลองเรียกมันว่าวันสัปดาห์สัปดาห์บางครั้งอาจเป็นเดือนเป็นวินาทีใช่ไหม นั่นคือสิ่งที่เกิดขึ้น?

จอร์จ: ถูกต้องเพราะขนาดที่เราได้รับและประสิทธิภาพที่เราได้รับจากกลุ่มนั้นส่ายไปมาในแง่ของเพียงคุณรู้ฉันมักลังเลเกี่ยวกับเกณฑ์มาตรฐานเล็กน้อย แต่สำหรับลำดับความสำคัญเมื่อเราเรียกใช้เร็กคอร์ดหนึ่งพันล้าน 1.2 พันล้านรายการและทำมาตรฐานที่อยู่ให้สมบูรณ์ - ฉันกำลังบอกว่าเครื่อง HP ระดับกลาง - มันต้องใช้เครื่องประมวลผลแปดเครื่องคุณรู้ไหม คุณรู้ว่า RAM 2 กิ๊กต่อคอร์นั้นใช้เวลา 20 ชั่วโมงในการทำงาน เราสามารถทำเช่นนั้นได้ในเวลาประมาณแปดนาทีในขณะนี้ในคลัสเตอร์แบบ 12 โหนด ดังนั้นขนาดของการประมวลผลที่เราสามารถทำได้ในตอนนี้นั้นแตกต่างกันอย่างมาก - และมันก็เป็นไปได้อย่างมากกับแนวคิดที่ว่าคุณมีข้อมูลทั้งหมดนี้ในการกำจัดของคุณ ดังนั้นจึงไม่เสี่ยงที่จะทำการประมวลผล หากคุณทำผิดคุณสามารถทำซ้ำได้ คุณมีเวลาคุณรู้ มันเปลี่ยนขนาดของสถานที่ที่คุณรู้ว่าความเสี่ยงเหล่านั้นกลายเป็นปัญหาทางธุรกิจจริง ๆ สำหรับผู้คนเมื่อพวกเขาพยายามใช้โซลูชัน MDM คุณต้องมีคน 30 คนที่ทำงานด้านการกำกับดูแลข้อมูลและทุกอย่าง และดังนั้นคุณยังคงต้องมีบางอย่าง แต่ความเร็วและขนาดที่คุณสามารถประมวลผลได้ตอนนี้จะช่วยให้คุณมีห้องหายใจมากขึ้น

Eric: ใช่นั่นเป็นจุดที่ดีจริงๆ ฉันชอบความคิดเห็นนั้น ดังนั้นคุณมีเวลาที่จะทำซ้ำอีกครั้ง มันอัศจรรย์มาก.

จอร์จ: ใช่

เอริค: มันเปลี่ยนพลวัตใช่มั้ย มันเปลี่ยนวิธีที่คุณคิดเกี่ยวกับสิ่งที่คุณกำลังจะลอง ฉันหมายถึงฉันจำได้เมื่อ 18 ปีก่อนในอุตสาหกรรมการทำเอฟเฟกต์พิเศษเพราะฉันมีลูกค้าที่อยู่ในพื้นที่นั้น และคุณจะกดปุ่มเพื่อแสดงผลและคุณจะกลับบ้าน และคุณจะกลับมาบางทีในบ่ายวันเสาร์เพื่อดูว่ามันเป็นอย่างไร แต่ถ้าคุณเข้าใจผิดนั่นมันเจ็บปวดมากจริงๆ และตอนนี้ก็เกือบจะไม่ - มันไม่ได้ใกล้เคียงกับความเจ็บปวดดังนั้นคุณจึงมีโอกาสลองทำสิ่งต่าง ๆ เพิ่มเติม ฉันต้องบอกว่าฉันคิดว่ามันเป็นจุดที่ดีจริงๆ

จอร์จ: ถูกต้องแน่นอน ใช่แล้วคุณจะเพิ่มขาของคุณ คุณรู้ไหมคุณได้งานครึ่งวันในสมัยก่อนและล้มเหลวคุณได้เป่า SOS ของคุณ แค่นั้นแหละ.

Eric: ใช่ และคุณมีปัญหาใหญ่ใช่มั้ย ถูกตัอง.

จอร์จ: ถูกต้อง ถูกตัอง.

Eric: Keith ให้ฉันโยนไปให้คุณ ฉันจำได้ว่าเคยให้สัมภาษณ์กับ CIL ของคุณ Keith Collins ฉันเชื่อว่าบางทีฉันอาจคิดว่าปี 2011 และเขาได้พูดคุยอย่างถี่ถ้วนเกี่ยวกับทิศทางที่ SAS ใช้โดยเฉพาะเกี่ยวกับการทำงานกับลูกค้าเพื่อฝังการวิเคราะห์ที่ได้จาก SAS ลงในระบบปฏิบัติการ และแน่นอนเราได้ยินไมค์เฟอร์กูสันพูดถึงความสำคัญของการจดจำ ความคิดทั้งหมดที่นี่คือคุณต้องการที่จะสามารถผูกสิ่งนี้ในการดำเนินงานของคุณ คุณไม่ต้องการการวิเคราะห์ในสุญญากาศซึ่งถูกตัดการเชื่อมต่อจากองค์กร มันไม่มีค่าอะไรเลย

หากคุณต้องการวิเคราะห์ที่สามารถส่งผลกระทบโดยตรงและเพิ่มประสิทธิภาพการดำเนินงาน และถ้าฉันมองย้อนกลับไป - และฉันต้องบอกว่าฉันคิดว่ามันเป็นความคิดที่ดีในตอนนั้น - มันดูเหมือนว่าเป็นความคิดที่ชาญฉลาดจริงๆในการหวนกลับ และฉันเดาว่านี่เป็นข้อได้เปรียบที่แท้จริงที่พวกคุณมี และแน่นอนมรดกที่ยอดเยี่ยมฐานการติดตั้งขนาดใหญ่นี้และความจริงที่ว่าคุณได้มุ่งเน้นไปที่การฝังการวิเคราะห์เหล่านี้ในระบบปฏิบัติการซึ่งหมายความว่าตอนนี้และที่ได้รับมันจะต้องใช้งานได้ - ฉันแน่ใจว่าคุณ ฉันทำงานหนักมาก แต่ตอนนี้คุณสามารถใช้ประโยชน์จากนวัตกรรมใหม่ ๆ เหล่านี้ทั้งหมดและในแง่ของความสามารถในการดำเนินการทุกอย่างกับลูกค้าของคุณ นั่นเป็นการประเมินที่ยุติธรรมหรือไม่?

Keith: ใช่แล้ว แนวคิดคือคุณจะได้รับแนวคิดของการออกแบบการตัดสินใจหรือวิทยาศาสตร์การตัดสินใจซึ่งเป็นที่ทราบกันดีในระดับหนึ่ง ถ้าคุณไม่สามารถทำวิศวกรรมเกี่ยวกับกระบวนการจริงๆ ... ถ้าคุณคิดเกี่ยวกับการพัฒนารถยนต์คุณมีนักออกแบบที่ทำให้รถคันนี้สวยงาม แต่ก็ไม่ใช่จนกระทั่งวิศวกรวางแผนนั้นไว้แล้วสร้างผลิตภัณฑ์ที่ใช้งานได้จริงก่อนคุณ สามารถวางสิ่งต่าง ๆ ในสถานที่จริงและนั่นคือสิ่งที่ SAS ทำ มันรวมการตัดสินใจเข้าด้วยกัน - กระบวนการออกแบบการตัดสินใจกับกระบวนการตัดสินใจร่วมกันดังนั้นเมื่อคุณพูดถึงตัวเร่งความเร็ว, ตัวเร่งการให้คะแนนโดยเฉพาะคุณรู้ว่าถ้าคุณใช้แบบจำลองที่คุณพัฒนาขึ้นและสามารถผลักดันมันออกมาได้ เพื่อ Teradata หรือผลักดันออกไปยัง Oracle หรือไปที่ Hadoop โดยไม่มีเวลาหยุดทำงานสำหรับการพัฒนาแบบจำลองไปสู่การปรับใช้แบบจำลอง นั่นคือกุญแจสำคัญเนื่องจากแบบจำลองลดลงเมื่อเวลาผ่านไปความแม่นยำของแบบจำลองเหล่านั้น ดังนั้นยิ่งใช้เวลานานขึ้นเท่านั้นที่คุณจะนำสิ่งนั้นมาใช้ในการผลิตนั่นคือการสูญเสียความแม่นยำของโมเดล

จากนั้นอีกชิ้นหนึ่งก็คือคุณต้องการที่จะสามารถตรวจสอบและจัดการกระบวนการนั้นเมื่อเวลาผ่านไป คุณต้องการเลิกใช้โมเดลเมื่อรุ่นเก่าและไม่ถูกต้อง คุณต้องการดูตรวจสอบความถูกต้องของพวกเขาเมื่อเวลาผ่านไปและสร้างใหม่ ดังนั้นเราจึงมีเครื่องมือการจัดการแบบจำลองที่วางอยู่บนนั้นเช่นกันที่ติดตามข้อมูลเมตารอบกระบวนการที่เป็นแบบจำลอง และผู้คนต่างก็บอกว่าการสร้างแบบจำลองคุณรู้ไหมแนวคิดแบบนั้นเหมือนโรงงานต้นแบบหรืออะไรก็ตามที่คุณต้องการเรียกมัน สิ่งนี้คือมันทำให้เมตาดาต้าและการจัดการอยู่ในระหว่างดำเนินการและนั่นคือสิ่งที่เราตีสามสิ่งใหญ่ - เราช่วยให้ผู้คนทำเงินประหยัดเงินและทำให้พวกเขาออกจากคุก

Eric: อันสุดท้ายมีขนาดใหญ่เช่นกัน ฉันต้องการหลีกเลี่ยงสิ่งเหล่านั้นทั้งหมด งั้นมาพูดถึง ...ฉันกำลังให้คำถามสุดท้ายข้อหนึ่งบางทีคุณทั้งคู่ก็สามารถกระโดดได้ ความหลากหลายของโลกของเราจะเพิ่มขึ้นดูเหมือนว่าฉัน ฉันคิดว่าเราจะเห็นการตกผลึกรอบ ๆ สภาพแวดล้อมคลาวด์ไฮบริด แต่อย่างไรก็ตามคุณจะเห็นผู้เล่นหลักจำนวนมากติดอยู่รอบ ๆ IBM ไม่ได้ไปทุกที่ Oracle ไม่ไปไหนทั้งนั้น SAP ไม่ได้ไปทุกที่ และมีผู้ค้าอื่น ๆ มากมายที่เกี่ยวข้องกับเกมนี้

นอกจากนี้ในด้านการปฏิบัติงานคุณได้รับแอปพลิเคชันหลายพันรายการ และฉันได้ยิน - คุณส่วนใหญ่พูดถึงเรื่องนี้ แต่ฉันคิดว่าคุณทั้งคู่จะเห็นด้วยกับสิ่งที่ฉันพูด เราได้เห็นแนวโน้มนี้แล้วในแง่ของพลังการคำนวณในเครื่องมือวิเคราะห์สถาปัตยกรรม บริษัท ต่างๆได้พูดคุยกันมาหลายปีแล้วเกี่ยวกับความสามารถในการเข้าถึงเอนจิ้นอื่น ๆ และให้บริการจุดประสาน และฉันเดาว่าจอร์จฉันจะโยนมันให้คุณก่อน สำหรับฉันแล้วมันเป็นสิ่งที่จะไม่เปลี่ยนแปลง เราจะมีสภาพแวดล้อมที่แตกต่างกันซึ่งหมายความว่ามีสิ่งต่างๆเช่น CRM แบบเรียลไทม์คุณภาพข้อมูลและการกำกับดูแลข้อมูล คุณจะต้องเป็นผู้ขายเพื่อเชื่อมต่อกับเครื่องมือต่าง ๆ เหล่านั้นทั้งหมด และนั่นคือสิ่งที่ลูกค้าต้องการ พวกเขาจะไม่ต้องการสิ่งที่ไม่เป็นไรกับเครื่องมือเหล่านี้และไม่เป็นไรกับเครื่องมือเหล่านั้น พวกเขาต้องการสวิตเซอร์แลนด์ของ MDM และ CRM ใช่ไหม

จอร์จ: ถูกต้อง และมันน่าสนใจเพราะเรายอมรับว่า ส่วนหนึ่งของมันคือประวัติศาสตร์ที่เรามีในอวกาศ และแน่นอนว่าเรากำลังทำงานกับฐานข้อมูลอื่น ๆ ทั้งหมด Teradatas และส่วนอื่น ๆ ของโลก และจากนั้นทำ - ในกระบวนการดำเนินการโดยเฉพาะอย่างยิ่งวิธีการที่เราทำเพื่อให้มัน - คุณมีที่ครอบคลุมทั่วฐานข้อมูลต่างๆเหล่านี้ สิ่งหนึ่งที่ฉันคิดว่าน่าสนใจคือเรามีลูกค้าบางรายที่กำจัดการฐานข้อมูลเชิงสัมพันธ์ทั้งหมด และนั่นก็น่าสนใจ คุณก็รู้ฉันหมายถึงมันไม่เป็นไร มันน่าสนใจ แต่ฉันไม่เห็นว่ามันเกิดขึ้นจริงในระดับองค์กรขนาดใหญ่ ฉันไม่เห็นว่ามันเกิดขึ้นเป็นเวลานาน ดังนั้นฉันคิดว่าไฮบริดอยู่ที่นี่เป็นเวลานานและในอีกด้านหนึ่งของแอปพลิเคชันของเราที่เรามีแพลตฟอร์มการส่งข้อความของเราในแพลตฟอร์มการจัดการแคมเปญของเรา เราออกแบบมาโดยเฉพาะ ตอนนี้เราได้เปิดตัวรุ่นที่สามารถทำได้และสามารถเชื่อมต่อกับสภาพแวดล้อมข้อมูลแบบไฮบริดและแบบสอบถาม Hadoop หรือสอบถามฐานข้อมูลใด ๆ ฐานข้อมูลการวิเคราะห์ใด ๆ ดังนั้นฉันคิดว่าเป็นเพียงคลื่นของอนาคต และฉันเห็นด้วยว่าการทำเวอร์ชวลไลเซชันจะมีบทบาทสำคัญในเรื่องนี้อย่างแน่นอน แต่เราเป็นเพียงแค่ - เรากำลังออกไปหาข้อมูลในแอปพลิเคชันทั้งหมดของเรา

Eric: โอเคเยี่ยม และคี ธ ฉันจะส่งต่อไปให้คุณ คุณคิดอย่างไรเกี่ยวกับโลกที่แตกต่างที่เรากำลังเผชิญอยู่ในการทำตัวแปลก ๆ ?

Keith: ใช่มันช่างน่าทึ่งจริงๆ ฉันคิดว่าสิ่งที่เราพบเพิ่มเติม - ไม่เพียง แต่ในด้านการจัดการข้อมูล - แต่ตอนนี้สิ่งที่น่าสนใจจริงๆคือธรรมชาติของโอเพ่นซอร์สของฐานการวิเคราะห์ ดังนั้นเราเห็นองค์กรเช่นหรือเทคโนโลยีเช่น Spark มาในคณะกรรมการและผู้ใช้ Python และ R และเทคโนโลยีโอเพ่นซอร์สอื่น ๆ ทั้งหมด ฉันคิดว่ามันสามารถตีความได้ว่าเป็นความขัดแย้งหรือเป็นภัยคุกคามในระดับหนึ่ง แต่ความจริงก็คือเรามีคำชมเชยที่ยอดเยี่ยมจริง ๆ กับเทคโนโลยีโอเพนซอร์สทั้งหมด ฉันหมายความว่าอย่างใดอย่างหนึ่งเรากำลังทำงานบนแพลตฟอร์มโอเพนซอร์สเพื่อประโยชน์ของพระเจ้า

แต่อย่างเช่นความสามารถในการรวมตัวอย่างเช่นโมเดล R ในกระบวนทัศน์ SAS ช่วยให้คุณใช้สิ่งที่ดีที่สุดของทั้งสองโลกใช่ไหม เช่นเดียวกับเราจึงรู้ว่าสิ่งทดลองบางอย่างในโลกวิชาการและงานพัฒนาแบบจำลองบางอย่างนั้นพิเศษและมีประโยชน์อย่างมากในกระบวนการพัฒนาแบบจำลอง แต่ถ้าคุณสามารถจับคู่กับเครื่องมือประเภทการผลิตมันจะทำความสะอาดและคุณภาพและการตรวจสอบและทำให้แน่ใจว่าข้อมูลที่ให้ในรูปแบบนั้นได้รับการเตรียมการอย่างถูกต้องจึงไม่ล้มเหลว ในการดำเนินการ จากนั้นสามารถทำสิ่งต่างๆเช่นนางแบบผู้ท้าชิงแชมป์ด้วยโมเดลโอเพ่นซอร์ส สิ่งเหล่านี้คือสิ่งที่เรากำลังมองหาเพื่อเปิดใช้งานและเป็นส่วนหนึ่งของระบบนิเวศที่แตกต่างกันอย่างแท้จริงของเทคโนโลยีเหล่านี้ทั้งหมด ใช่แล้วมันก็ยิ่ง - สำหรับเราแล้วมันเป็นเรื่องของการกอดเทคโนโลยีเหล่านั้นและมองหาคำชม

Eric: เอาละมันเป็นเรื่องที่มหัศจรรย์มาก เราไปที่นี่ค่อนข้างนาน แต่เราอยากจะตอบคำถามให้ได้มากที่สุด เราจะส่งต่อไฟล์คำถามและคำตอบไปยังผู้นำเสนอของเราวันนี้ ดังนั้นหากคำถามที่คุณถามไม่ได้รับคำตอบเราจะตรวจสอบให้แน่ใจว่าได้รับคำตอบแล้ว และหลาย ๆ คนสิ่งนี้จะรวมตัวคุณในปี 2014 ขอแสดงความนับถือที่ DM Radio ในวันพรุ่งนี้และสัปดาห์หน้าจากนั้นทุกอย่างก็เสร็จสิ้นและเป็นวันหยุดพักผ่อน

ขอขอบคุณทุกท่านที่ให้เวลาและความสนใจในการชมเว็บคาสต์ที่ยอดเยี่ยมเหล่านี้ทั้งหมด เรามีปีที่ยอดเยี่ยมสำหรับปี 2558 และเราจะคุยกับคุณเร็ว ๆ นี้ ขอบคุณอีกครั้ง. เราจะดูแล ลาก่อน.