พลังของข้อเสนอแนะ: วิธีที่แคตตาล็อกข้อมูลช่วยให้นักวิเคราะห์

ผู้เขียน: Lewis Jackson
วันที่สร้าง: 11 พฤษภาคม 2021
วันที่อัปเดต: 1 กรกฎาคม 2024
Anonim
💰DEMเสนอเก็บภาษี🛢ผู้ผลิตน้ำมันจ่ายคืน💲240💲360ให้ชาวอเมริกัน‼WHOแนะทำลายเชื้อ🚨ผลวิจัยPfizerUpdateใหม่
วิดีโอ: 💰DEMเสนอเก็บภาษี🛢ผู้ผลิตน้ำมันจ่ายคืน💲240💲360ให้ชาวอเมริกัน‼WHOแนะทำลายเชื้อ🚨ผลวิจัยPfizerUpdateใหม่

Takeaway: Host Rebecca Jozwiak กล่าวถึงข้อดีของ Data catalogues กับ Dez Blanchfield, Robin Bloor และ David Crawford




คุณต้องลงทะเบียนสำหรับกิจกรรมนี้เพื่อดูวิดีโอ ลงทะเบียนเพื่อดูวิดีโอ

รีเบคก้า Jozwiak: ท่านสุภาพบุรุษและสุภาพสตรีสวัสดีและยินดีต้อนรับสู่ Hot Technologies ประจำปี 2559 ในวันนี้เราได้รับแล้ว "พลังแห่งคำแนะนำ: วิธีที่ Data Catalog ให้อำนาจแก่นักวิเคราะห์" ฉันเป็นเจ้าภาพของคุณ Rebecca Jozwiak และเป็นเจ้าภาพประจำ Eric Kavanagh ของเราในวันนี้ กำลังเดินทางไปทั่วโลกดังนั้นขอขอบคุณที่เข้าร่วมกับเรา ปีนี้อากาศร้อนไม่เพียง แต่ร้อนในเท็กซัสที่ฉัน แต่มันร้อนทั่วทุกที่ มีการระเบิดของเทคโนโลยีใหม่ ๆ ทุกชนิดที่ออกมา เราได้รับ IoT ข้อมูลสตรีมมิ่งการปรับใช้ระบบคลาวด์ Hadoop ยังคงเติบโตและได้รับการรับรอง เรามีระบบอัตโนมัติการเรียนรู้ของเครื่องและสิ่งนี้ทั้งหมดถูกขีดเส้นใต้ด้วยข้อมูล และองค์กรต่างๆก็ยิ่งขับเคลื่อนข้อมูลมากขึ้นในแต่ละวัน และแน่นอนว่าเป็นสิ่งที่นำไปสู่ความรู้และการค้นพบและทำให้คุณตัดสินใจได้ดีขึ้น แต่เพื่อให้ได้รับประโยชน์สูงสุดจากข้อมูลมันจะต้องง่ายต่อการเข้าถึง หากคุณทำให้มันถูกล็อคหรือถูกฝังหรืออยู่ในสมองของคนไม่กี่คนภายในองค์กรมันจะไม่ทำผลดีมากสำหรับองค์กรโดยรวม


และฉันก็คิดเกี่ยวกับการทำแคตตาล็อกข้อมูลและคิดถึงห้องสมุดเมื่อนานมาแล้วนั่นคือที่ที่คุณไปถ้าคุณต้องการค้นหาบางอย่างถ้าคุณต้องการค้นคว้าหัวข้อหรือค้นหาข้อมูลคุณไปที่ห้องสมุด และแน่นอนคุณไปที่แคตตาล็อกการ์ดหรือหญิงสาวที่ทำงานที่นั่น แต่มันก็สนุกที่จะเดินไปรอบ ๆ ถ้าคุณแค่อยากจะดูและแน่ใจว่าคุณจะค้นพบบางสิ่งที่เรียบร้อยคุณอาจพบข้อเท็จจริงที่น่าสนใจบางอย่างที่คุณไม่รู้ แต่ถ้าคุณต้องการหาอะไรและ คุณรู้ว่าคุณกำลังมองหาอะไรคุณต้องการแคตตาล็อกการ์ดและแน่นอนว่าองค์กรที่เทียบเท่าคือแคตตาล็อกข้อมูลซึ่งสามารถช่วยส่องแสงข้อมูลทั้งหมดให้ผู้ใช้ของเราเพิ่มคุณค่าค้นพบแบ่งปันบริโภคและช่วยให้ผู้คนได้รับ ข้อมูลได้เร็วขึ้นและง่ายขึ้น

ดังนั้นวันนี้เราได้ Dez Blanchfield นักวิทยาศาสตร์ด้านข้อมูลของเราเองและเรามี Doctor Robin Bloor หัวหน้านักวิเคราะห์ของเราเราได้ David Crawford จาก Alation ผู้ซึ่งกำลังจะพูดถึงเรื่องการทำรายการข้อมูล บริษัท ของเขา แต่ก่อนอื่นเราจะไป เพื่อนำไปสู่ด้วย Dez ฉันกำลังส่งลูกบอลให้คุณและพื้นเป็นของคุณ

Dez Blanchfield: ขอบคุณขอบคุณที่มีฉันในวันนี้ นี่เป็นเรื่องที่ฉันสนใจเป็นอย่างยิ่งเพราะเกือบทุกองค์กรที่ฉันเจอในงานประจำวันฉันพบปัญหาเดียวกันกับที่เราพูดสั้น ๆ เกี่ยวกับการแสดงก่อนการแสดงและนั่นก็คือ องค์กรส่วนใหญ่ที่ดำเนินธุรกิจมานานกว่าสองสามปีมีข้อมูลมากมายฝังอยู่ในองค์กรรูปแบบที่แตกต่างกันและในความเป็นจริงฉันมีลูกค้าที่มีชุดข้อมูลที่ย้อนกลับไปยัง Lotus Notes ฐานข้อมูลที่ยังคงทำงานอยู่ในบางแห่ง กรณีที่เป็นของปลอมอินเทอร์เน็ตและพวกเขาทั้งหมดกำลังเผชิญกับความท้าทายในการค้นหาว่าข้อมูลของพวกเขาอยู่ที่ไหนและทำอย่างไรจึงจะเข้าถึงมันใครจะให้เข้าถึงมันเมื่อไหร่ที่จะให้เข้าถึงพวกเขาและวิธีการเพียงแค่ แคตตาล็อกและวิธีการไปยังสถานที่ที่ทุกคนสามารถทำได้: A) ระวังสิ่งที่อยู่ในนั้นและสิ่งที่อยู่ในนั้นและ B) วิธีเข้าถึงและใช้งาน และหนึ่งในความท้าทายที่ยิ่งใหญ่ที่สุดคือการค้นพบสิ่งที่ท้าทายอีกอย่างหนึ่งคือการรู้ว่ามีอะไรอยู่ในนั้นและวิธีเข้าถึงมัน


ฉันอาจจะรู้ว่าฉันมีฐานข้อมูลหลายสิบ แต่ฉันไม่รู้จริง ๆ ว่ามีอะไรอยู่ในนั้นหรือจะค้นหาว่ามีอะไรอยู่ในนั้นบ้างและในขณะที่เรากำลังค้นพบข้อมูล pre-show คุณมักจะเดินไป รอบสำนักงานและถามคำถามและตะโกนข้ามกำแพงลูกบาศก์และลองคิดออกมาบ่อยครั้งที่ประสบการณ์ของฉันคือคุณอาจพบว่าคุณกำลังเดินไปที่แผนกต้อนรับแผนกต้อนรับส่วนหน้าและถามว่าใครรู้ว่าคุณเป็นใคร กำลังจะไปคุยกับ บ่อยครั้งที่มันไม่ใช่กลุ่มไอทีเสมอไปเพราะพวกเขาไม่รู้ชุดข้อมูลเพราะมีใครบางคนเพิ่งสร้างมันขึ้นมาและมันอาจจะเป็นอะไรที่เรียบง่ายเหมือน - บ่อยครั้งเราจะพบโครงการบางประเภทที่ยืนอยู่ในสภาพแวดล้อมไอทีและ ผู้จัดการโครงการใช้สเปรดชีตทุกสิ่งและได้รับข้อมูลที่มีค่าจำนวนมากรอบ ๆ สินทรัพย์และการต่อต้านและชื่อและถ้าคุณไม่ทราบว่าโครงการนั้นและคุณรู้จักคนนั้นคุณก็ไม่สามารถหาข้อมูลนั้นได้ ไม่สามารถใช้งานได้และคุณต้องได้รับไฟล์ต้นฉบับนั้น

มีวลีหนึ่งที่เกี่ยวกับข้อมูลและฉันไม่จำเป็นต้องเห็นด้วยกับมัน แต่ฉันคิดว่ามันเป็นเรื่องเล็ก ๆ น้อย ๆ ที่น่ารักและนั่นก็คือผู้คนจำนวนหนึ่งคิดว่าข้อมูลนั้นเป็นน้ำมันตัวใหม่และฉันแน่ใจว่าเรา กำลังจะกล่าวถึงในบางแง่มุมเช่นกันในวันนี้ แต่สิ่งที่ฉันสังเกตเห็นได้อย่างแน่นอนว่าเป็นส่วนหนึ่งของการเปลี่ยนแปลงนั้นคือองค์กรธุรกิจที่เรียนรู้ที่จะให้ความสำคัญกับข้อมูลของพวกเขาได้รับประโยชน์อย่างมากจากคู่แข่ง

มีบทความที่น่าสนใจจาก IBM เมื่อประมาณห้าหรือหกปีที่แล้วและพวกเขาสำรวจ บริษัท ประมาณ 4,000 แห่งในออสเตรเลียและพวกเขาเอาข้อมูลทั้งหมดข้อมูลประสิทธิภาพทั้งหมดข้อมูลทางการเงินทั้งหมดมารวมกันในหม้อต้มจากนั้น ส่งไปยังคณะวิชาเศรษฐศาสตร์ของออสเตรเลียและพวกเขาก็เริ่มมีแนวโน้มร่วมกันที่นี่และนั่นคือ บริษัท ที่ใช้ประโยชน์จากเทคโนโลยีได้รับความได้เปรียบในการแข่งขันเหนือคู่แข่งและคู่แข่งของพวกเขาต่อไปซึ่งคู่แข่งของพวกเขาแทบจะไม่ทัน ในกรณีนี้มีข้อมูลที่เราได้เห็นสิ่งที่ผู้คนเรียกว่าการแปลงระบบดิจิตอลซึ่งองค์กรต่างๆได้คิดอย่างชัดเจนถึงวิธีการค้นหาข้อมูลที่พวกเขามีเพื่อทำให้ข้อมูลนั้นพร้อมใช้งานและทำให้สามารถใช้งานได้ง่าย แฟชั่นให้กับองค์กรโดยไม่จำเป็นต้องรู้อยู่เสมอว่าทำไมองค์กรถึงต้องการมันและได้รับความได้เปรียบเหนือคู่แข่ง

ฉันมีตัวอย่างสองสามตัวอย่างในสไลด์นี้ซึ่งคุณสามารถดูได้ บรรทัดเดียวของฉันคือคือการหยุดชะงักขนาดใหญ่ในเกือบทุกภาคอุตสาหกรรมในมุมมองของฉันถูกขับเคลื่อนด้วยข้อมูลและหากแนวโน้มปัจจุบันเป็นอะไรไปตามมุมมองของฉันคือเราเพิ่งจะได้รับจริง ๆ เริ่มต้นเพราะเมื่อแบรนด์ที่มีชื่อเสียงมายาวนานตื่นขึ้นมาในความหมายของสิ่งนี้และเข้าสู่เกมพวกเขาจะเข้าสู่เกมในราคาขายส่ง เมื่อผู้ค้าปลีกรายใหญ่ที่มีเทือกเขาข้อมูลเริ่มใช้การวิเคราะห์ข้อมูลในอดีตหากพวกเขารู้ว่ามีอยู่จริงผู้เล่นออนไลน์บางคนจะได้รับการโทรปลุก

แต่ด้วยแบรนด์ส่วนใหญ่เหล่านี้ฉันหมายความว่าเรามี Uber ที่เป็น บริษัท รถแท็กซี่ที่ใหญ่ที่สุดในโลก พวกเขาไม่ได้เป็นเจ้าของรถแท็กซี่ดังนั้นอะไรที่ทำให้พวกเขามหัศจรรย์ข้อมูลของพวกเขาคืออะไร? Airbnb ผู้ให้บริการที่พักรายใหญ่ที่สุดเราได้รับ WeChat บริษัท โทรศัพท์ที่ใหญ่ที่สุดในโลก แต่ไม่มีโครงสร้างพื้นฐานที่แท้จริงและไม่มีโทรศัพท์มือถือไม่มีสายโทรศัพท์ Alibaba ผู้ค้าปลีกรายใหญ่ที่สุดในโลก แต่พวกเขาไม่ได้เป็นเจ้าของสินค้าคงคลังเลย บริษัท สื่อที่ใหญ่ที่สุดในคำว่า ฉันคิดว่าในที่สุดนับว่าพวกเขามีผู้ใช้ข้อมูลที่ใช้งานอยู่ 1.4 พันล้านคนในขณะนี้ซึ่งเป็นตัวเลขที่เหลือเชื่อ มันไม่ได้อยู่ใกล้ - ฉันคิดว่ามีคนอ้างว่าหนึ่งในสี่ของโลกอยู่ที่นั่นทุกวันและนี่คือผู้ให้บริการเนื้อหาที่ไม่ได้สร้างเนื้อหาจริง ๆ ข้อมูลทั้งหมดที่พวกเขาให้บริการไม่ได้ถูกสร้างขึ้นโดยพวกเขา สมาชิกและเราทุกคนรู้แบบนี้

SocietyOne ซึ่งคุณอาจเคยได้ยินหรือเคยได้ยินมันเป็นแบรนด์ท้องถิ่นฉันคิดว่าในหลาย ๆ ประเทศที่เป็นธนาคารที่ให้กู้ยืมแบบเพื่อนกับเพื่อนดังนั้นในคำอื่น ๆ มันไม่มีเงิน สิ่งที่มันทำคือจัดการธุรกรรมและข้อมูลตั้งอยู่ข้างใต้ Netflix เราทุกคนคุ้นเคยกับมันมาก มีซับในที่น่าสนใจอยู่ที่นี่ เมื่อ Netflix สามารถใช้งานได้อย่างถูกกฎหมายในออสเตรเลียเมื่อมีการประกาศอย่างเป็นทางการคุณไม่จำเป็นต้องใช้ VPN เพื่อเข้าถึงผู้คนจำนวนมากทั่วโลกมักจะ - ถ้าคุณไม่สามารถไปถึงได้ในพื้นที่ของคุณ - เมื่อ Netfix เปิดตัวในออสเตรเลียมันเพิ่มแบนด์วิดท์ระหว่างประเทศในการเชื่อมโยงอินเทอร์เน็ตของเรา 40% ดังนั้นจึงเพิ่มการใช้อินเทอร์เน็ตในออสเตรเลียเกือบสองเท่าในชั่วข้ามคืนโดยใช้เพียงแอปพลิเคชั่นเดียวแอปพลิเคชั่นที่โฮสต์บนคลาวด์ มันเป็นเพียงสถิติที่เหลือเชื่อ

และแน่นอนเราทุกคนคุ้นเคยกับ Apple และ Google แต่ธุรกิจซอฟต์แวร์เหล่านี้เป็นธุรกิจซอฟต์แวร์ที่ใหญ่ที่สุดในโลก แต่พวกเขาก็ไม่ได้เขียนแอปจริงๆ องค์กรเหล่านี้มีความสอดคล้องกันอย่างไร นั่นคือข้อมูลและพวกเขาไม่ได้ไปที่นั่นเพราะพวกเขาไม่รู้ว่าข้อมูลของพวกเขาอยู่ที่ไหนและพวกเขาไม่รู้วิธีการจัดทำแคตตาล็อก

สิ่งที่เรากำลังค้นหาในขณะนี้คือมีหมวดสินทรัพย์ใหม่ทั้งหมดที่เรียกว่าข้อมูลและ บริษัท ต่างๆกำลังตื่นขึ้นมา แต่พวกเขาไม่มีเครื่องมือและความรู้และข้อมูลแผนที่ทั้งหมดในแคตตาล็อกข้อมูลทั้งหมดและทำให้พร้อมใช้งานเสมอ แต่เราพบว่า บริษัท ที่ไม่มีสินทรัพย์ทางกายภาพได้รับมูลค่าตลาดสูงในเวลาที่บันทึก ผ่านหมวดสินทรัพย์ข้อมูลใหม่นี้ ดังที่ฉันได้กล่าวไปแล้วผู้เล่นเก่าบางคนกำลังตื่นขึ้นมาแล้วและนำมันออกมาอย่างแน่นอน

ฉันเป็นแฟนตัวยงของการเดินทางในการเดินทางเล็ก ๆ น้อย ๆ ดังนั้นในศตวรรษที่สิบแปดและสิบแปดปลายและคุณจะคุ้นเคยกับสิ่งนี้ในตลาดสหรัฐอเมริกามันกลายเป็นว่าการสำรวจสำมะโนประชากร ในแต่ละปีฉันคิดว่าพวกเขาวิ่งไปทุก ๆ สิบปี ณ จุดนั้น แต่ถ้าคุณจะทำการสำรวจสำมะโนประชากรทุกปีคุณอาจต้องใช้เวลาถึงแปดหรือเก้าปีในการวิเคราะห์ข้อมูล ปรากฎว่าชุดข้อมูลนั้นถูกทิ้งไว้ในกล่องในสถานที่ในกระดาษและเกือบจะไม่มีใครสามารถหาได้ พวกเขาเก็บรายงานเหล่านี้เอาไว้ แต่ข้อมูลจริงยากมากที่เราจะได้รับเรามีสถานการณ์ที่คล้ายกันกับช่วงเวลาสำคัญอื่น ๆ ของโลกในช่วงปี 1940 กับสงครามโลกครั้งที่สองและสิ่งนี้คือ Bletchley Park Bombe สะกด BOMBE และมันเป็นเครื่องมือวิเคราะห์จำนวนมหาศาลที่ต้องผ่านชุดข้อมูลขนาดเล็กและค้นหาสัญญาณในนั้นและนำมาใช้เพื่อช่วยถอดรหัสรหัสผ่านปริศนา

สิ่งนี้อีกครั้งเป็นอุปกรณ์ที่ได้รับการออกแบบไม่มากในแคตตาล็อก แต่เพื่อติดแท็กและข้อมูลแผนที่และทำให้สามารถใช้รูปแบบและค้นหาภายในชุดข้อมูลในกรณีนี้รหัสที่ผิดค้นหาคีย์และวลีและค้นหา พวกมันเป็นประจำในชุดข้อมูลและเราได้ผ่านการเดินทางครั้งนี้เพื่อค้นหาสิ่งต่าง ๆ ในข้อมูลและนำไปสู่การทำรายการข้อมูล

และจากนั้นสิ่งเหล่านี้ก็มาพร้อมกับชั้นวางเครื่องจักรขนาดใหญ่ราคาถูกเหล่านี้ และเราได้ทำสิ่งที่น่าสนใจและหนึ่งในสิ่งที่เราทำกับพวกเขาคือเราสร้างกลุ่มที่มีต้นทุนต่ำมากที่สามารถเริ่มต้นสร้างดัชนีดาวเคราะห์และมีชื่อเสียงมากแบรนด์ใหญ่เหล่านี้ที่มาและไป แต่ Google อาจเป็นบ้านที่พบบ่อยที่สุด แบรนด์ที่เราทุกคนเคยได้ยิน - มันกลายเป็นคำกริยาจริงและคุณรู้ว่าคุณประสบความสำเร็จเมื่อแบรนด์ของคุณกลายเป็นคำกริยา แต่สิ่งที่ Google สอนเราโดยไม่ทราบว่าอาจเป็นไปได้ในโลกธุรกิจคือพวกเขาสามารถสร้างดัชนีดาวเคราะห์ทั้งโลกในระดับหนึ่งและจัดทำแคตาล็อกข้อมูลที่อยู่รอบโลกและทำให้มันง่ายมาก รูปแบบที่สะดวกสบายในสูตรบรรทัดเดียวเล็ก ๆ หน้าเว็บที่แทบไม่มีอะไรเลยและคุณพิมพ์ลงในคิวรีของคุณมันจะไปและค้นหาเพราะพวกเขาคลานดาวเคราะห์แล้วจัดทำดัชนีและทำให้มันใช้งานได้ง่าย

และสิ่งที่เราสังเกตเห็นคือ“ เอาล่ะเราไม่ได้ทำแบบนี้ในองค์กร - ทำไมล่ะ? เหตุใดเราจึงมีองค์กรที่สามารถทำแผนที่โลกทั้งโลกและจัดทำดัชนีรวบรวมข้อมูลและจัดทำดัชนีและทำให้พร้อมใช้งานเราสามารถค้นหาได้จากนั้นคลิกที่สิ่งที่จะไปหามันมาทำไม ยังไม่ได้ทำแบบนี้เลยเหรอ?” มีตู้เล็ก ๆ จำนวนมากทั่วโลกที่ทำเช่นนั้นเพื่ออินทราเน็ตและค้นหาสิ่งต่าง ๆ แต่พวกเขาก็ยังคงเข้ามาจับกับความคิดที่จะไปไกลกว่าหน้าเว็บดั้งเดิม หรือไฟล์เซิร์ฟเวอร์

แทนที่จะเข้าสู่แคตาล็อกข้อมูลรุ่นต่อไปในหลาย ๆ ทางการค้นพบการเข้าถึงข้อมูลผ่านโพสต์ - อิทโน้ตและการสนทนาด้วยน้ำเย็นไม่ใช่วิธีที่เหมาะสมสำหรับการค้นพบข้อมูลและทำแคตตาล็อกอีกต่อไปและในความเป็นจริง . เราไม่สามารถนำไปสู่ความท้าทายทั้งหมดต่อผู้คนที่เพิ่งผ่านบันทึกย่อและโพสต์บันทึกย่อและสนทนากับมัน ตอนนี้เราอยู่ไกลเกินกว่าที่จะเป็นไปได้แล้วสำหรับการทำรายการข้อมูลในอนาคต เราต้องเอาแขนโอบรอบมัน หากนี่เป็นปัญหาที่ง่ายเราจะแก้ไขมันได้หลายวิธีก่อนหน้านี้ แต่ฉันคิดว่ามันไม่ใช่ปัญหาง่ายเพียงแค่การสร้างดัชนีและการเรียกข้อมูลเป็นเพียงส่วนหนึ่งของการรู้ว่ามีอะไรอยู่ในข้อมูลและการสร้างข้อมูลเมตา รอบสิ่งที่เราค้นพบจากนั้นทำให้พร้อมใช้งานในรูปแบบที่ง่ายและสิ้นเปลืองโดยเฉพาะการบริการตนเองและการวิเคราะห์ มันยังคงเป็นปัญหาที่แก้ไขได้ แต่ปริศนาหลายส่วนในห้าปีนั้นดีและแก้ไขได้จริงและพร้อมใช้งาน

อย่างที่เราทราบกันดีว่าการบันทึกข้อมูลมนุษย์เป็นสูตรสำหรับความล้มเหลวเพราะความผิดพลาดของมนุษย์เป็นหนึ่งในฝันร้ายที่ยิ่งใหญ่ที่สุดที่เราจัดการในการประมวลผลข้อมูลและฉันพูดถึงหัวข้อนี้เป็นประจำในมุมมองของฉัน เราจัดการกับข้อมูลขนาดใหญ่และการวิเคราะห์เพื่อแก้ไขสิ่งที่พวกเขาทำอย่างต่อเนื่องแม้กระทั่งสิ่งที่ง่าย ๆ เช่นวันที่และฟิลด์ผู้คนใส่มันในรูปแบบที่ไม่ถูกต้อง

แต่อย่างที่ฉันได้กล่าวไปแล้วเราได้เห็นเครื่องมือค้นหาทางอินเทอร์เน็ตจัดทำดัชนีโลกทุกวันดังนั้นตอนนี้เราจึงทำตามแนวคิดที่สามารถทำได้ในชุดข้อมูลธุรกิจในกระบวนการค้นหาและเครื่องมือและระบบต่าง ๆ ในตอนนี้ มีให้พร้อมในขณะที่คุณกำลังจะเรียนรู้วันนี้ ดังนั้นเคล็ดลับในมุมมองของฉันคือการเลือกเครื่องมือที่เหมาะสมซึ่งเป็นเครื่องมือที่ดีที่สุดสำหรับงาน และยิ่งไปกว่านั้นการค้นหาส่วนที่เหมาะสมเพื่อช่วยให้คุณเริ่มต้นเส้นทางนี้ และฉันเชื่อว่าเราจะได้ยินเกี่ยวกับเรื่องนี้ในวันนี้ แต่ก่อนที่เราจะทำอย่างนั้นฉันจะต้องไปเรียนต่อที่วิทยาลัยของฉันคือ Robin Bloor และได้ยินเรื่องของเขา Robin ฉันจะส่งผ่านไปให้คุณได้ไหม?

Robin Bloor: ใช่แน่นอนคุณสามารถ ให้ดูว่ามันใช้งานได้หรือไม่ใช่ โอเคฉันมาจากทิศทางที่แตกต่างจาก Dez จริง ๆ แต่ฉันจะอยู่ในที่เดียวกัน นี่เป็นเรื่องเกี่ยวกับการเชื่อมต่อข้อมูลดังนั้นฉันแค่คิดว่าฉันจะต้องผ่านความเป็นจริงของการเชื่อมต่อข้อมูลแบบจุดต่อจุดจริงๆ

มีข้อเท็จจริงที่ว่าข้อมูลมีการแยกส่วนมากกว่าที่เคยเป็นมา ปริมาณของข้อมูลเพิ่มขึ้นอย่างน่าอัศจรรย์ แต่ในความเป็นจริงแหล่งข้อมูลที่แตกต่างก็เติบโตในอัตราที่ไม่น่าเชื่อและทำให้ข้อมูลมีการแยกส่วนมากขึ้นตลอดเวลา แต่โดยเฉพาะแอพพลิเคชั่นการวิเคราะห์ - แต่มันไม่ได้เป็นเพียงแอพพลิเคชั่นเท่านั้น - เรามีเหตุผลที่ดีที่จะเชื่อมต่อกับข้อมูลทั้งหมดนี้ดังนั้นเราจึงติดอยู่ในที่ที่ยากเราติดอยู่ในโลกของข้อมูลที่กระจัดกระจาย และมีโอกาสในข้อมูลเมื่อ Dez เรียกมันว่าน้ำมันตัวใหม่

เกี่ยวกับข้อมูลก็เคยอาศัยอยู่บนดิสก์หมุนทั้งในระบบไฟล์หรือฐานข้อมูล ตอนนี้มันอาศัยอยู่ในสภาพแวดล้อมที่หลากหลายมากขึ้นมันอาศัยอยู่ในระบบไฟล์ แต่มันก็ยังมีชีวิตอยู่ในอินสแตนซ์ของ Hadoop ทุกวันนี้หรือแม้แต่อินสแตนซ์ของ Spark มันอาศัยอยู่ในฐานข้อมูลหลายชนิด เมื่อไม่นานมานี้เราได้สร้างฐานข้อมูลเชิงสัมพันธ์บางส่วนให้คุณรู้ว่ามันออกไปนอกหน้าต่างในห้าปีที่ผ่านมาเพราะมีความต้องการฐานข้อมูลเอกสารและมีความต้องการฐานข้อมูลกราฟดังนั้นคุณรู้ว่าเกมมี การเปลี่ยนแปลง ดังนั้นมันจึงอาศัยอยู่ในดิสก์หมุน แต่ตอนนี้ใช้งานบน SSD แล้ว จำนวน SSD ล่าสุด - หน่วย SSD ล่าสุดออกมาจากซัมซุง - ยี่สิบกิกะไบต์ซึ่งมีขนาดใหญ่มาก ตอนนี้มันอาศัยอยู่ในหน่วยความจำในแง่ที่ว่าสำเนาที่สำคัญของข้อมูลสามารถอยู่ในหน่วยความจำมากกว่าบนดิสก์เราไม่ได้ใช้ในการสร้างระบบเช่นนั้น เราทำแล้ว และมันอาศัยอยู่ในก้อนเมฆ ซึ่งหมายความว่ามันสามารถอยู่ในสิ่งเหล่านี้ได้ในระบบคลาวด์คุณไม่จำเป็นต้องรู้ว่ามันอยู่ที่ไหนในคลาวด์คุณจะมีที่อยู่ของมันเท่านั้น

Hadoop มีจุดประสงค์ที่จะส่งกลับบ้านและล้มเหลวในการเป็นแหล่งข้อมูลที่สามารถขยายได้ เราหวังว่ามันจะกลายเป็นแหล่งเก็บข้อมูลขนาดใหญ่ที่ขยายออกไปและมันก็จะกลายเป็นระบบไฟล์เดียวสำหรับทุกสิ่งและมัน - สายรุ้งจะปรากฏขึ้นบนท้องฟ้าโดยทั่วไปแล้วยูนิคอร์นจะเต้นไปรอบ ๆ และไม่มีสิ่งใดเกิดขึ้น ซึ่งหมายความว่าเราจบลงด้วยปัญหาการส่งข้อมูลและไม่มีความจำเป็นในการรับส่งข้อมูลในบางครั้ง แต่ก็เป็นปัญหาเช่นกัน ข้อมูลมีแรงดึงดูดจริงๆในปัจจุบันเมื่อคุณได้รับข้อมูลหลายเทราไบต์ยกขึ้นแล้วขว้างมันไปรอบ ๆ สาเหตุของเวลาแฝงที่จะปรากฏบนเครือข่ายของคุณหรือปรากฏในที่ต่าง ๆ หากคุณต้องการขนส่งข้อมูลรอบระยะเวลาเป็นปัจจัย ทุกวันนี้มีข้อ จำกัด บางประการเกี่ยวกับเวลาที่คุณได้รับสิ่งหนึ่งข้อมูลหนึ่งจากที่หนึ่งไปอีกที่หนึ่ง เคยเป็นสิ่งที่เราเคยคิดว่าเป็นหน้าต่างแบตช์เมื่อเครื่องไม่ได้ใช้งานและไม่ว่าคุณจะมีข้อมูลมากแค่ไหนคุณก็สามารถโยนมันไปได้ ถ้าอย่างนั้นเราไปใช้ชีวิตอยู่ในโลกแห่งเวลาจริง ดังนั้นเวลาจึงเป็นปัจจัย ทันทีที่คุณต้องการย้ายข้อมูลไปรอบ ๆ ดังนั้นหากข้อมูลมีแรงโน้มถ่วงคุณอาจไม่สามารถย้ายได้

การจัดการข้อมูลเป็นปัจจัยในแง่ที่ว่าคุณต้องจัดการข้อมูลทั้งหมดนี้คุณไม่ได้รับข้อมูลนั้นฟรีและการจำลองแบบอาจจำเป็นเพื่อให้ได้รับข้อมูลจริงเพื่อทำงานที่ต้องทำเพราะอาจ ไม่ว่าจะอยู่ที่ไหนก็ตาม อาจมีทรัพยากรไม่เพียงพอที่จะทำการประมวลผลข้อมูลตามปกติ ดังนั้นข้อมูลจึงได้รับการทำซ้ำและข้อมูลจะถูกทำซ้ำมากกว่าที่คุณจินตนาการ ฉันคิดว่ามีคนบอกฉันเมื่อนานมาแล้วว่ามีการจำลองข้อมูลเฉลี่ยอย่างน้อยสองครั้งครึ่ง ESB หรือ Kafka นำเสนอตัวเลือกสำหรับการรับส่งข้อมูล แต่ทุกวันนี้มันต้องการสถาปัตยกรรม ทุกวันนี้คุณต้องคิดอย่างใดอย่างหนึ่งเกี่ยวกับความหมายของการโยนข้อมูล ดังนั้นในการเข้าถึงข้อมูลที่เป็นปกติมักจะดีกว่าตราบใดที่คุณสามารถรับประสิทธิภาพที่คุณต้องการเมื่อคุณไปหาข้อมูลและขึ้นอยู่กับการควบคุม ดังนั้นจึงเป็นสถานการณ์ที่ยากลำบากอยู่ดี ในแง่ของการสืบค้นข้อมูลเราเคยคิดในแง่ของ SQL เราได้เกิดขึ้นจริง ๆ ตอนนี้คุณรู้แล้วว่ารูปแบบต่างๆของแบบสอบถาม SQL ใช่ แต่ที่อยู่ติดกันและแบบสอบถามกราฟ Spark เป็นเพียงตัวอย่างหนึ่งของการทำกราฟ เพราะเราต้องทำการค้นหามากกว่าที่เราเคยทำเช่นเดียวกันการค้นหาประเภท regex ซึ่งเป็นการค้นหารูปแบบที่ซับซ้อนและการจับคู่รูปแบบของแท้สิ่งเหล่านี้ทั้งหมดต่างก็เดือดร้อนจริง ๆ และพวกเขาทั้งหมดมีประโยชน์เพราะพวกเขาได้รับสิ่งที่คุณกำลังมองหาหรือพวกเขาจะได้รับสิ่งที่คุณกำลังมองหา

การค้นหาวันนี้ขยายข้อมูลหลาย ๆ ครั้งดังนั้นจึงไม่ได้ทำเช่นนั้นเสมอไปและบ่อยครั้งที่ประสิทธิภาพนั้นน่ากลัวหากคุณทำเช่นนั้น ดังนั้นมันขึ้นอยู่กับสถานการณ์ แต่ผู้คนคาดหวังว่าจะสามารถสืบค้นข้อมูลจากแหล่งข้อมูลหลาย ๆ แหล่งได้ดังนั้นการรวมข้อมูลประเภทหนึ่งหรืออีกประเภทหนึ่งกลายเป็นกระแสมากขึ้นเรื่อย ๆ การจำลองเสมือนข้อมูลซึ่งเป็นวิธีที่แตกต่างกันในการดำเนินการขึ้นอยู่กับประสิทธิภาพนั้นเป็นเรื่องปกติเช่นกัน แบบสอบถามข้อมูลจริง ๆ แล้วเป็นส่วนหนึ่งของกระบวนการไม่ใช่กระบวนการทั้งหมด เป็นเพียงการชี้ให้เห็นว่าถ้าคุณกำลังดูประสิทธิภาพของการวิเคราะห์จริงการวิเคราะห์ที่เกิดขึ้นจริงอาจใช้เวลานานกว่าการรวบรวมข้อมูลที่น่ากลัวเพราะมันขึ้นอยู่กับสถานการณ์ แต่แบบสอบถามข้อมูลเป็นสิ่งจำเป็นอย่างยิ่งหากคุณต้องการ ชนิดของการวิเคราะห์ในแหล่งข้อมูลหลาย ๆ อันและจริง ๆ แล้วคุณต้องมีความสามารถที่ครอบคลุมจริงๆ

ดังนั้นเกี่ยวกับแคตตาล็อกแคตตาล็อกมีอยู่ด้วยเหตุผลอย่างน้อยเรากำลังบอกว่าคุณรู้ว่ามันมีไดเรกทอรีและเรามี schemas ในฐานข้อมูลและเรามีแคตตาล็อกแต่ละรายการและเรามีทุกที่ที่คุณไปคุณจะพบที่เดียวแล้วคุณจะ พบว่ามีแค็ตตาล็อกบางประเภทและแค็ตตาล็อกส่วนกลางที่รวมเป็นความคิดที่ดีอย่างเห็นได้ชัด แต่มีเพียงไม่กี่ บริษัท ที่มีเรื่องแบบนี้ ฉันจำได้ว่าย้อนกลับไปในปีสองพัน - ปีสองพันตื่นตระหนก - ฉันจำได้ว่าคอมมิวนิสต์ไม่สามารถระบุจำนวนปฏิบัติการที่พวกเขามีได้ไม่เคยสนใจว่ามีแหล่งเก็บข้อมูลที่แตกต่างกันจำนวนเท่าใดและเป็นกรณีนี้คุณ รู้ว่า บริษัท ส่วนใหญ่ไม่รู้จักอย่างแข็งขันในความหมายระดับโลกว่ามีข้อมูลใดบ้าง แต่เห็นได้ชัดว่ามีความจำเป็นมากขึ้นเรื่อย ๆ ที่จะมีแคตตาล็อกทั่วโลกหรืออย่างน้อยก็มีภาพระดับโลกของสิ่งที่เกิดขึ้นเนื่องจากการเติบโตของแหล่งข้อมูลและการเติบโตอย่างต่อเนื่องของแอปพลิเคชันและเป็นสิ่งจำเป็นอย่างยิ่งสำหรับการวิเคราะห์ เพราะคุณเป็นหนึ่งในวิธีการและมีปัญหาอื่น ๆ ที่นี่เช่นเชื้อสายและปัญหาเกี่ยวกับข้อมูลและมันเป็นสิ่งจำเป็นสำหรับความปลอดภัยด้านต่าง ๆ ของการกำกับดูแลข้อมูลถ้าคุณไม่รู้ว่าข้อมูลที่คุณมีความคิดที่คุณ กำลังจะปกครองมันเป็นเรื่องไร้สาระ ดังนั้นข้อมูลทั้งหมดจะถูกจัดหมวดหมู่อย่างใดเป็นความจริง คำถามคือแคตตาล็อกมีความสอดคล้องกันหรือไม่และที่จริงแล้วคุณสามารถทำอะไรกับมันได้บ้าง ดังนั้นฉันจะกลับไปที่รีเบคก้า

รีเบคก้า Jozwiak: โอเคขอบคุณโรบิน ต่อไปเราจะได้ David Crawford จาก Alation, David ฉันจะไปข้างหน้าและส่งบอลให้คุณและคุณสามารถนำมันออกไปได้

David Crawford: ขอบคุณมาก. ฉันขอขอบคุณพวกคุณที่มีฉันในรายการนี้ ฉันคิดว่าฉันกำลังจะเริ่มต้นสิ่งนี้ดังนั้นฉันคิดว่าบทบาทของฉันที่นี่คือการใช้ทฤษฎีนั้นและดูว่ามันถูกนำไปใช้จริงอย่างไรและผลลัพธ์ที่เราสามารถขับไปที่ลูกค้าจริงและเพื่อให้คุณเห็น ไม่กี่บนสไลด์ฉันต้องการพูดคุยเกี่ยวกับผลลัพธ์ที่เราจะสามารถเห็นในการวิเคราะห์อาจปรับปรุง ดังนั้นเพื่อกระตุ้นการสนทนาเราจะพูดคุยเกี่ยวกับวิธีการที่พวกเขามาถึงที่นั่น ดังนั้นฉันโชคดีที่ได้ทำงานอย่างใกล้ชิดกับคนฉลาดจริง ๆ จำนวนมากลูกค้าเหล่านี้และฉันต้องการชี้ให้คนจำนวนน้อยที่สามารถวัดได้จริงและพูดคุยว่าการมีแค็ตตาล็อกข้อมูลส่งผลกระทบต่อนักวิเคราะห์อย่างไร ขั้นตอนการทำงาน และเพื่ออยู่ข้างหน้าชั่วครู่หนึ่งฉันคิดว่าหนึ่งในสิ่งที่เราเห็นการเปลี่ยนแปลงด้วยแค็ตตาล็อกข้อมูลข้อแก้ปัญหาสื่อกลางก่อนหน้านี้และหนึ่งในวิธีการที่ความสัมพันธ์คิดเกี่ยวกับการแก้ปัญหาที่เราใส่กันคือการเริ่มต้นจากนักวิเคราะห์ และทำงานย้อนหลัง หากต้องการพูดให้ทำสิ่งนี้เกี่ยวกับการเปิดใช้งานผลผลิตของนักวิเคราะห์ เมื่อเทียบกับการปฏิบัติตามกฎระเบียบหรือเมื่อเทียบกับการมีสินค้าคงคลังเรากำลังทำเครื่องมือที่ทำให้นักวิเคราะห์มีประสิทธิผลมากขึ้น

ดังนั้นเมื่อฉันพูดคุยกับนักวิทยาศาสตร์ข้อมูลที่ บริษัท ให้บริการด้านการเงิน Square มี Nick คนหนึ่งที่บอกเราเกี่ยวกับวิธีการของเขาเขาเคยใช้เวลาหลายชั่วโมงในการค้นหาชุดข้อมูลที่ถูกต้องเพื่อเริ่มรายงานตอนนี้เขาสามารถ ทำในไม่กี่วินาทีโดยใช้การค้นหาที่ส่วนแบ่งการตลาดเราได้พูดคุยกับ CTO ของพวกเขาที่ดึงนักวิเคราะห์ของเขาที่ใช้ Square มาขอโทษฉันใช้ Alation เพื่อค้นหาสิ่งที่พวกเขาเห็นประโยชน์อะไรและพวกเขารายงาน 50 เปอร์เซ็นต์การเพิ่มผลผลิตและนั่นเป็นหนึ่งในผู้ค้าปลีกชั้นนำของโลกอย่าง eBay พวกเขามีคนมากกว่าหนึ่งพันคนที่ทำการวิเคราะห์ SQL เป็นประจำและฉันก็ทำงานอย่างใกล้ชิดกับ Deb Says ที่นั่นซึ่งเป็นโครงการ ผู้จัดการในทีมเครื่องมือข้อมูลของพวกเขาและเธอพบว่าเมื่อ Queriers นำ Alation มาใช้แคตตาล็อกพวกเขาจะเห็นความเร็วในการเขียนแบบสอบถามใหม่สองเท่ากับฐานข้อมูล

ดังนั้นนี่คือผลลัพธ์ที่แท้จริงคนเหล่านี้ใช้แคตตาล็อกในองค์กรของพวกเขาจริง ๆ และฉันต้องการที่จะนำคุณผ่านสิ่งที่ต้องใช้ในการตั้งค่า วิธีสร้างแคตาล็อกใน บริษัท และสิ่งที่สำคัญที่สุดในการพูดคือว่ามีหลายสิ่งที่เกิดขึ้นโดยอัตโนมัติดังนั้น Dez จึงพูดคุยเกี่ยวกับระบบเรียนรู้เกี่ยวกับระบบและนั่นคือสิ่งที่แคตาล็อกข้อมูลสมัยใหม่ทำ ดังนั้นพวกเขาจึงติดตั้ง Alation ในศูนย์ข้อมูลแล้วเชื่อมต่อกับแหล่งข้อมูลเมตาต่างๆในสภาพแวดล้อมข้อมูลของพวกเขา ฉันจะมุ่งเน้นไปที่ฐานข้อมูลและเครื่องมือ BI เล็กน้อยจากทั้งสองอย่างนี้เราจะแยกข้อมูลเมตาทางเทคนิคเกี่ยวกับสิ่งที่มีอยู่โดยทั่วไป ใช่แล้วตารางอะไร รายงานอะไร คำจำกัดความของรายงานคืออะไร ดังนั้นพวกเขาจึงแยกเมทาดาทาเชิงเทคนิคนั้นออกและหน้าแคตาล็อกจะถูกสร้างขึ้นโดยอัตโนมัติสำหรับทุก ๆ วัตถุภายในระบบเหล่านั้นจากนั้นพวกมันก็จะแยกและเลเยอร์ที่ด้านบนของเมทาดาทาทางเทคนิคนั้น ส่วนใหญ่จะทำโดยการอ่านบันทึกข้อความค้นหาจากฐานข้อมูลและนี่เป็นแหล่งข้อมูลที่น่าสนใจจริงๆ ดังนั้นเมื่อใดก็ตามที่นักวิเคราะห์เขียนแบบสอบถามเมื่อใดก็ตามที่เครื่องมือการรายงานไม่ว่ามันจะเป็นบ้านหรือนอกชั้นวางไม่ว่าจะเป็นเครื่องมือการรายงานเรียกใช้แบบสอบถามเพื่อปรับปรุงแดชบอร์ดเมื่อแอปพลิเคชันรันแบบสอบถามเพื่อแทรกข้อมูลเพื่อดำเนินการ ชุดข้อมูล - สิ่งเหล่านั้นทั้งหมดถูกจับในบันทึกแบบสอบถามฐานข้อมูล ไม่ว่าคุณจะมีแคตตาล็อกหรือไม่แคตตาล็อกเหล่านี้จะถูกบันทึกไว้ในบันทึกการสืบค้นด้วยฐานข้อมูล สิ่งที่แคตาล็อกข้อมูลสามารถทำได้และโดยเฉพาะอย่างยิ่งสิ่งที่แคตตาล็อก Alations สามารถทำได้คืออ่านบันทึกเหล่านั้นถามคำถามภายในและสร้างกราฟการใช้งานที่น่าสนใจตามบันทึกเหล่านั้นและเรานำสิ่งนั้นมาเล่นเพื่อแจ้งผู้ใช้ในอนาคต ของข้อมูลเกี่ยวกับวิธีที่ผู้ใช้ข้อมูลในอดีตใช้

ดังนั้นเรานำความรู้ทั้งหมดนั้นมารวมกันเป็นแคตตาล็อกและเพื่อทำให้เป็นจริงสิ่งเหล่านี้คือการรวมระบบที่ลูกค้าได้ใช้งานไปแล้วดังนั้นเราจึงได้เห็น Oracle, Teradata, Redshift, Vertica และอีกมากมาย ฐานข้อมูลเชิงสัมพันธ์ ในโลก Hadoop มีช่วงของ SQL บน Hadoop เรียงลำดับเชิงสัมพันธ์ meta เก็บอยู่ด้านบนของระบบไฟล์ Hadoop, Impala, Tez, Presto และ Hive เราได้เห็นความสำเร็จกับคลาวด์ Hadoop ผู้ให้บริการส่วนตัวเช่น Altiscale และเรา ยังสามารถเชื่อมต่อกับเซิร์ฟเวอร์ Tableau เซิร์ฟเวอร์ MicroStrategy และจัดทำดัชนีแดชบอร์ดที่นั่นรวมถึงการผสานรวมกับเครื่องมือสร้างแผนภูมิข้อมูลวิทยาศาสตร์เช่น Plotly

ดังนั้นเราเชื่อมต่อกับระบบเหล่านี้ทั้งหมดเราเชื่อมต่อระบบเหล่านี้กับลูกค้าเราได้ดึงข้อมูลเมตาทางเทคนิคเราได้ดึงข้อมูลการใช้งานและเราจัดเรียงแคตตาล็อกข้อมูลโดยอัตโนมัติ แต่ด้วยวิธีนี้เรา รวบรวมความรู้ แต่เพียงรวบรวมสิ่งต่างๆลงในแคตตาล็อกข้อมูลไม่ได้จัดเตรียมประสิทธิภาพการผลิตที่ยอดเยี่ยมจริงๆที่เราได้พูดถึงด้วย eBay, Square และส่วนแบ่งการตลาด ในการทำเช่นนั้นเราจำเป็นต้องเปลี่ยนวิธีที่เราคิดเกี่ยวกับการส่งมอบความรู้ให้กับนักวิเคราะห์ หนึ่งในคำถามที่พวกเขาขอให้เตรียมสำหรับเรื่องนี้คือ“ แคตตาล็อกส่งผลกระทบต่อกระบวนการทำงานของนักวิเคราะห์อย่างไรจริง ๆ ”

นั่นคือสิ่งที่เราใช้เวลาทั้งวันในการคิดและเพื่อพูดคุยเกี่ยวกับการเปลี่ยนแปลงในความคิดของแบบจำลองการผลักดันฉันต้องการที่จะเปรียบเทียบอย่างรวดเร็วกับสิ่งที่โลกเป็นเหมือนก่อนและหลังการอ่านบน Kindle ดังนั้นมันเป็นเพียงประสบการณ์บางอย่างที่คุณอาจมีเมื่อคุณกำลังอ่านหนังสือทางกายภาพคุณเจอคำคุณไม่แน่ใจว่าคุณรู้คำจำกัดความของคำว่าดีมากคุณอาจเดาได้จากการต่อต้านไม่ใช่ว่าคุณ กำลังจะลุกจากที่นอนเดินไปที่ชั้นหนังสือของคุณค้นหาพจนานุกรมของคุณปัดฝุ่นและพลิกไปยังตำแหน่งที่ถูกต้องในรายชื่อเรียงตามตัวอักษรของคำเพื่อให้แน่ใจว่าใช่คุณมีความหมายที่ถูกต้องและคุณรู้ ความแตกต่างของมัน ดังนั้นมันไม่ได้เกิดขึ้นจริง ดังนั้นคุณจึงซื้อแอพ Kindle และเริ่มอ่านหนังสือที่นั่นและคุณเห็นคำศัพท์ที่คุณไม่แน่ใจทั้งหมดและคุณสัมผัสคำนั้น ทั้งหมดในทันทีในหน้าจอเดียวกันนั้นคือคำจำกัดความพจนานุกรมของคำที่มีความแตกต่างของมันตัวอย่างการใช้งานที่แตกต่างกันและคุณกวาดนิ้วไปนิดหน่อยและคุณได้รับบทความ Wikipedia ในหัวข้อนั้นคุณปัดอีกครั้ง คุณได้รับเครื่องมือแปลภาษาที่สามารถแปลเป็นภาษาอื่นหรือจากภาษาอื่น ๆ และความรู้ภาษาของคุณนั้นก็ยิ่งดีขึ้นและมันก็เกิดขึ้นอย่างน่าประหลาดใจเมื่อเทียบกับจำนวนครั้งที่คุณต้องไปและ ดึงทรัพยากรนั้นสำหรับตัวคุณเอง

และสิ่งที่ฉันจะโต้แย้งก็คือขั้นตอนการทำงานของนักวิเคราะห์และวิธีที่นักวิเคราะห์จะจัดการกับเอกสารข้อมูลนั้นคล้ายกับวิธีที่ผู้อ่านโต้ตอบกับพจนานุกรมไม่ว่าจะเป็นทางกายภาพหรือ Kindle และสิ่งที่เราเห็นจริง ๆ ว่าการเพิ่มประสิทธิภาพการผลิตนี้ไม่ใช่การกระจายแคตตาล็อก แต่เป็นการเชื่อมต่อกับเวิร์กโฟลว์ของนักวิเคราะห์ดังนั้นพวกเขาจึงขอให้ฉันสาธิตที่นี่และฉันต้องการ เพื่อให้จุดเน้นของงานนำเสนอนี้ แต่ฉันแค่ต้องการตั้งค่าการสาธิตสำหรับการสาธิต เมื่อเราคิดเกี่ยวกับการผลักดันความรู้ข้อมูลไปยังผู้ใช้เมื่อพวกเขาต้องการเราคิดว่าสถานที่ที่เหมาะสมในการทำเช่นนั้นสถานที่ที่พวกเขาใช้เวลาและสถานที่ที่พวกเขากำลังทำการวิเคราะห์เป็นเครื่องมือแบบสอบถาม SQL สถานที่ที่คุณเขียนและเรียกใช้แบบสอบถาม SQL ดังนั้นเราจึงสร้างมันขึ้นมาและสร้างมันขึ้นมาและสิ่งที่แตกต่างจากเครื่องมือการสืบค้นอื่น ๆ ก็คือการรวมเข้ากับแค็ตตาล็อกข้อมูลอย่างลึกซึ้ง

ดังนั้นเครื่องมือสืบค้นของเราจึงเรียกว่า Alation Compose มันเป็นเครื่องมือสืบค้นบนเว็บและแสดงให้คุณเห็นในไม่กี่วินาที เครื่องมือสืบค้นบนเว็บที่ทำงานกับโลโก้ฐานข้อมูลทั้งหมดที่คุณเห็นในสไลด์ก่อนหน้า สิ่งที่ฉันจะลองสาธิตเป็นพิเศษคือวิธีที่ข้อมูลแค็ตตาล็อกมาถึงผู้ใช้ และมันผ่านสามวิธีที่แตกต่างกันเหล่านี้ มันทำผ่านการแทรกแซงและนั่นคือสิ่งที่ใครบางคนเรียกผู้ว่าการข้อมูลหรือผู้ดูแลข้อมูลหรือผู้ดูแลระบบหรือผู้จัดการอาจพูดว่า "ฉันต้องการเรียงลำดับข้อความด้วยคำเตือนหรือคำเตือนใน เวิร์กโฟลว์และตรวจสอบให้แน่ใจว่ามันถูกส่งมอบให้กับผู้ใช้ในเวลาที่เหมาะสม” ดังนั้นการแทรกแซงและแสดงให้เห็นว่า

การแนะนำที่ชาญฉลาดเป็นวิธีที่เครื่องมือใช้ความรู้รวมทั้งหมดของแคตตาล็อกเพื่อแนะนำวัตถุและชิ้นส่วนของแบบสอบถามเมื่อคุณเขียน สิ่งที่สำคัญที่สุดที่ควรทราบคือมีการใช้ประโยชน์จากบันทึกการสืบค้นเพื่อแนะนำสิ่งต่าง ๆ ตามการใช้งานและการค้นหาแม้แต่บางส่วนของข้อความค้นหาที่เขียนไว้ก่อนหน้านี้ และแสดงให้เห็นว่า

จากนั้นดูตัวอย่าง ตัวอย่างคือเมื่อคุณพิมพ์ชื่อของวัตถุเราจะแสดงทุกอย่างที่แคตตาล็อกรู้หรืออย่างน้อยก็เป็นสิ่งที่เกี่ยวข้องที่สุดที่แคตตาล็อกรู้เกี่ยวกับวัตถุนั้น ดังนั้นตัวอย่างของข้อมูลที่เคยใช้มาก่อนชื่อตรรกะและคำอธิบายของวัตถุนั้นขึ้นอยู่กับคุณในขณะที่คุณกำลังเขียนมันโดยไม่ต้องไปขอมัน

ดังนั้นโดยไม่มีการพูดคุยใด ๆ ป่วยจะได้รับการสาธิตและฉันแค่รอให้มันปรากฏขึ้น สิ่งที่ฉันจะแสดงให้คุณเห็นที่นี่คือเครื่องมือสืบค้น มันเป็นส่วนต่อประสานการเขียน SQL โดยเฉพาะ มันเป็นอินเทอร์เฟซที่แยกต่างหากจากแคตตาล็อกในแง่หนึ่ง Dez และ Robin พูดคุยเกี่ยวกับแคตตาล็อกและฉันก็กระโดดข้ามอินเทอร์เฟซแคตตาล็อกเล็กน้อยไปยังวิธีที่นำเข้ามาโดยตรงเพื่อให้บริการเวิร์กโฟลว์

ฉันแค่แสดงที่นี่ที่ซึ่งฉันสามารถพิมพ์ SQL และที่ด้านล่างคุณจะเห็นว่าเราเรียงลำดับมีข้อมูลบางอย่างที่ปรากฏเกี่ยวกับวัตถุที่อ้างอิง ฉันจะเริ่มพิมพ์ข้อความค้นหาและหยุดไม่ได้เมื่อฉันไปที่การแทรกแซงข้อใดข้อหนึ่งเหล่านี้ ฉันพิมพ์“ เลือก” และฉันต้องการปี ฉันต้องการชื่อ และฉันจะค้นหาข้อมูลเงินเดือนบางอย่าง นี่คือชุดข้อมูลการศึกษา มันมีข้อมูลเกี่ยวกับสถาบันการศึกษาระดับสูงและฉันกำลังดูเงินเดือนคณะโดยเฉลี่ยที่อยู่ในตารางใดตารางหนึ่งเหล่านี้

ดังนั้นฉันจึงพิมพ์คำว่า“ เงินเดือน” จริงๆแล้วมันไม่ได้อยู่ในชื่อของคอลัมน์อย่างนั้น เราใช้ทั้งเมตาดาต้าแบบลอจิคัลและเมทาดาทาทางกายภาพเพื่อทำข้อเสนอแนะ และสิ่งที่ฉันต้องการชี้ที่นี่คือกล่องสีเหลืองที่ปรากฏที่นี่ มันบอกว่ามีคำเตือนในคอลัมน์นี้ ฉันไม่ได้มองหาสิ่งนั้นฉันไม่ได้เรียนวิธีใช้ข้อมูลนี้อย่างถูกต้อง มันมาถึงฉันและมันเป็นคำเตือนเกี่ยวกับข้อตกลงการรักษาความลับที่เกี่ยวข้องกับข้อมูลนี้ ดังนั้นจึงมีกฎการเปิดเผยข้อมูลบางอย่าง หากฉันจะสอบถามข้อมูลนี้ฉันจะนำข้อมูลออกจากตารางนี้ฉันควรระมัดระวังเกี่ยวกับวิธีเปิดเผยข้อมูล ดังนั้นคุณมีนโยบายการกำกับดูแลที่นี่ มีความท้าทายด้านการปฏิบัติตามกฎระเบียบบางอย่างที่ทำให้การปฏิบัติตามนโยบายนี้ง่ายขึ้นมากเมื่อฉันรู้เกี่ยวกับมันในเวลาที่ฉันกำลังดูข้อมูล

ดังนั้นฉันจึงได้สิ่งนั้นมาถึงฉันแล้วฉันก็จะดูค่าเล่าเรียนด้วย และที่นี่เราเห็นตัวอย่างมาเล่น ในคอลัมน์ค่าเล่าเรียนฉันเห็น - มีคอลัมน์ค่าเล่าเรียนบนตารางสถาบันและฉันเห็นโปรไฟล์ของสิ่งนั้น Alation ไปและดึงข้อมูลตัวอย่างจากตารางและในกรณีนี้มันแสดงให้ฉันเห็นสิ่งที่น่าสนใจทีเดียว มันแสดงให้ฉันเห็นการกระจายตัวของค่า, และมันแสดงให้ฉันเห็นว่าค่าศูนย์ปรากฏขึ้น 45 เท่าในตัวอย่าง, และมากกว่าค่าอื่น ๆ ดังนั้นฉันจึงรู้สึกว่าเราอาจจะพลาดข้อมูลบางอย่าง

หากฉันเป็นนักวิเคราะห์ขั้นสูงนี่อาจเป็นส่วนหนึ่งของเวิร์กโฟลว์ของฉันอยู่แล้ว โดยเฉพาะอย่างยิ่งถ้าฉันเป็นคนที่พิถีพิถันเป็นพิเศษโดยที่ฉันจะทำแบบสอบถามแบบละเอียดก่อนเวลา เมื่อใดก็ตามที่ฉันเข้าใกล้ข้อมูลใหม่ฉันมักจะคิดถึงความครอบคลุมของข้อมูลของเรา แต่ถ้าฉันยังใหม่กับการวิเคราะห์ข้อมูลถ้าฉันใหม่กับชุดข้อมูลนี้ฉันอาจคิดว่าถ้ามีคอลัมน์มันจะเต็มไปด้วยตลอดเวลา หรือฉันอาจคิดว่าถ้ามันไม่ได้เติมเต็มมันไม่ใช่ศูนย์มันว่างเปล่าหรืออะไรทำนองนั้น แต่ในกรณีนี้เรามีศูนย์เป็นจำนวนมากและถ้าฉันทำค่าเฉลี่ยพวกเขาอาจจะผิดถ้าฉันแค่คิดว่าศูนย์เหล่านั้นจริง ๆ แล้วเป็นศูนย์แทนที่จะเป็นข้อมูลที่หายไป

แต่ Alation โดยการนำตัวอย่างนี้เข้าสู่เวิร์กโฟลว์ของคุณขอให้คุณดูข้อมูลนี้และให้โอกาสนักวิเคราะห์มือใหม่ได้เห็นว่ามีบางสิ่งที่จะสังเกตเห็นได้ที่นี่เกี่ยวกับข้อมูลนั้น ดังนั้นเราจึงมีตัวอย่าง

สิ่งต่อไปที่ฉันจะทำคือฉันจะพยายามค้นหาว่าจะรับข้อมูลนี้จากตารางใด ดังนั้นที่นี่เราเห็นคำแนะนำที่ชาญฉลาด มันเกิดขึ้นตลอดเวลา แต่โดยเฉพาะอย่างยิ่งที่นี่ฉันยังไม่ได้พิมพ์อะไรเลย แต่มันจะแนะนำให้ฉันทราบว่าตารางใดที่ฉันอาจต้องการใช้สำหรับการค้นหานี้ และสิ่งที่สำคัญที่สุดที่ควรทราบเกี่ยวกับสิ่งนี้คือการใช้ประโยชน์จากสถิติการใช้งาน ดังนั้นในสภาพแวดล้อมเช่น eBay ที่คุณมีหลายแสนตารางในฐานข้อมูลเดียวมีเครื่องมือที่สามารถตีข้าวสาลีจากแกลบและใช้สถิติการใช้งานเหล่านี้เป็นสิ่งสำคัญมากสำหรับการทำสิ่งเหล่านี้ ข้อเสนอแนะที่คุ้มค่าบางอย่าง

ดังนั้นจะแนะนำตารางนี้ เมื่อฉันดูตัวอย่างเราจริง ๆ แล้วเน้นคอลัมน์สามคอลัมน์ที่ฉันพูดถึงแล้วในแบบสอบถามของฉัน ดังนั้นฉันรู้ว่ามันมีสาม แต่ไม่มีชื่อ ฉันต้องได้รับชื่อดังนั้นฉันจะเข้าร่วม เมื่อฉันเข้าร่วมตอนนี้อีกครั้งฉันมีตัวอย่างเหล่านี้เพื่อช่วยฉันค้นหาตารางที่มีชื่ออยู่ที่ไหน ดังนั้นฉันจึงเห็นว่าอันนี้มีรูปแบบชื่อที่พิมพ์ใหญ่อย่างเหมาะสม ดูเหมือนว่าจะมีหนึ่งแถวที่มีชื่อสำหรับแต่ละสถาบันดังนั้นฉันจะคว้ามันมาและตอนนี้ฉันต้องการเงื่อนไขการเข้าร่วม

ดังนั้นสิ่งที่ Alation กำลังทำอยู่ก็คือมองย้อนกลับไปที่บันทึกคิวรีอีกครั้งโดยดูครั้งก่อนหน้าว่าทั้งสองตารางได้เข้าร่วมและแนะนำวิธีต่างๆในการเข้าร่วม มีการแทรกแซงอีกครั้ง ถ้าฉันดูที่หนึ่งในนั้นมันมีคำเตือนที่แสดงให้ฉันเห็นว่าสิ่งนี้ควรใช้สำหรับการวิเคราะห์แบบรวมเท่านั้น มันอาจจะสร้างสิ่งผิดถ้าคุณพยายามทำบางอย่างผ่านสถาบันโดยสถาบัน ในขณะที่อันนี้ด้วยรหัส OPE ได้รับการรับรองว่าเป็นวิธีที่เหมาะสมในการเข้าร่วมสองตารางนี้หากคุณต้องการข้อมูลระดับมหาวิทยาลัย ดังนั้นฉันจึงทำเช่นนั้นและเป็นข้อความสั้น ๆ แต่ฉันได้เขียนข้อความค้นหาของฉันโดยไม่จำเป็นต้องมีข้อมูลเชิงลึกใด ๆ ฉันไม่เคยดูไดอะแกรม ER ของชุดข้อมูลนี้ แต่ฉันรู้มากเกี่ยวกับข้อมูลนี้อยู่แล้วเพราะข้อมูลที่เกี่ยวข้องกำลังมาถึงฉัน

ดังนั้นสิ่งเหล่านี้เป็นสามวิธีที่แคตตาล็อกสามารถทำได้โดยใช้เครื่องมือคิวรีแบบรวมซึ่งส่งผลโดยตรงต่อเวิร์กโฟลว์เมื่อคุณกำลังเขียนคิวรี แต่ข้อดีอย่างหนึ่งของการมีเครื่องมือสืบค้นที่รวมเข้ากับแคตตาล็อกก็คือเมื่อฉันทำแบบสอบถามเสร็จและบันทึกฉันสามารถใส่ชื่อเช่น“ ค่าเล่าเรียนของสถาบันและเงินเดือนคณะ” จากนั้นฉันมีปุ่มที่นี่ อนุญาตให้ฉันเพียงแค่เผยแพร่ลงในแคตตาล็อก มันกลายเป็นเรื่องง่ายมากสำหรับฉันที่จะป้อนกลับ แม้ว่าฉันจะไม่เผยแพร่มันจะถูกบันทึกเป็นส่วนหนึ่งของบันทึกการสืบค้น แต่เมื่อฉันเผยแพร่มันจริง ๆ แล้วจะกลายเป็นส่วนหนึ่งของวิธีการที่ศูนย์กลางรวมที่ความรู้ข้อมูลทั้งหมดมีชีวิตอยู่

ดังนั้นถ้าฉันคลิกค้นหาสำหรับการค้นหาทั้งหมดใน Alation ฉันจะต้องดำเนินการ - และที่นี่คุณจะเห็นอินเทอร์เฟซแคตตาล็อกเพิ่มเติม - ฉันนำไปที่การค้นหาข้อความค้นหาเฉพาะที่แสดงให้ฉันเห็นวิธีการค้นหาทั่วทั้งองค์กร และคุณเห็นว่าข้อความค้นหาที่เผยแพร่ใหม่ของฉันอยู่ด้านบนสุด และบางคนอาจสังเกตเห็นที่นี่เมื่อเราจับการสืบค้นเราก็จับผู้เขียนและเราจัดเรียงความสัมพันธ์นี้ระหว่างฉันในฐานะผู้เขียนและวัตถุข้อมูลเหล่านี้ที่ฉันรู้ตอนนี้ และฉันถูกจัดตั้งขึ้นเป็นผู้เชี่ยวชาญในแบบสอบถามนี้และวัตถุข้อมูลเหล่านี้ มีประโยชน์จริง ๆ เมื่อผู้คนต้องการเรียนรู้เกี่ยวกับข้อมูลจากนั้นพวกเขาสามารถไปหาคนที่เหมาะสมที่จะเรียนรู้ และถ้าฉันยังใหม่กับข้อมูลไม่ว่าฉันจะเป็นนักวิเคราะห์ขั้นสูง - ในฐานะนักวิเคราะห์ขั้นสูงฉันอาจมองไปที่สิ่งนี้และดูตัวอย่างมากมายที่จะให้ฉันเริ่มชุดข้อมูลใหม่ ในฐานะคนที่อาจไม่เข้าใจ SQL เป็นพิเศษฉันสามารถค้นหาข้อความค้นหาที่สร้างไว้ล่วงหน้าซึ่งเป็นรายงานที่ฉันสามารถใช้ประโยชน์ได้

นี่คือหนึ่งโดย Phil Mazanett เกี่ยวกับคะแนน SAT ปานกลาง คลิกที่นี่และฉันจะได้รับการเรียงลำดับของหน้าแคตตาล็อกสำหรับแบบสอบถามตัวเอง มันพูดเกี่ยวกับบทความที่เขียนขึ้นที่อ้างอิงแบบสอบถามนี้ดังนั้นมีเอกสารบางอย่างสำหรับฉันที่จะอ่านถ้าฉันต้องการเรียนรู้วิธีการใช้ และฉันสามารถเปิดมันขึ้นมาในเครื่องมือการสืบค้นโดยคลิกที่ปุ่มเขียนและฉันก็สามารถเรียกใช้ตัวเองได้ที่นี่โดยไม่ต้องแก้ไข และที่จริงแล้วคุณจะได้เห็นความสามารถในการรายงานที่มีน้ำหนักเบาของเราเล็กน้อยซึ่งเมื่อคุณเขียนแบบสอบถามคุณสามารถวางตัวแปรเทมเพลตในลักษณะนี้และสร้างวิธีง่ายๆในการสร้างฟอร์มเพื่อเรียกใช้แบบสอบถามโดยยึดตาม คู่ของพารามิเตอร์

นั่นคือสิ่งที่ฉันมีสำหรับการสาธิต ฉันจะเปลี่ยนกลับไปเป็นสไลด์เราจะแสดงให้เห็นว่าผู้ดูแลระบบผู้ดูแลข้อมูลสามารถแทรกแซงโดยการวางคำเตือนบนวัตถุที่ปรากฏในเครื่องมือสืบค้นวิธี Alation ใช้ความรู้ในการใช้วัตถุข้อมูลเพื่อทำคำแนะนำที่ชาญฉลาดอย่างไร ในการทำโปรไฟล์และเคล็ดลับอื่น ๆ เพื่อปรับปรุงเวิร์กโฟลว์ของนักวิเคราะห์เมื่อพวกเขาสัมผัสวัตถุบางอย่างและวิธีการป้อนกลับทั้งหมดในแคตตาล็อกเมื่อมีการเขียนแบบสอบถามใหม่

เห็นได้ชัดว่าฉันเป็นโฆษกในนามของ บริษัท ฉันจะบอกว่าสิ่งที่ดีเกี่ยวกับแคตตาล็อกข้อมูล หากคุณต้องการได้ยินโดยตรงจากลูกค้าของเรา Kristie Allen ที่ Safeway มีทีมงานของนักวิเคราะห์และมีเรื่องราวเจ๋ง ๆ เกี่ยวกับเวลาที่เธอต้องเอาชนะนาฬิกาเพื่อทำการทดลองการตลาดและวิธีการทั้งหมดของเธอ ทีมใช้ Alation เพื่อทำงานร่วมกันและพลิกกลับโครงการได้อย่างรวดเร็ว ดังนั้นคุณสามารถไปที่ลิงค์ bit.ly นี้เพื่อตรวจสอบเรื่องราวนั้นหรือหากคุณต้องการฟังนิดหน่อยเกี่ยวกับวิธีที่ Alation นำแคตตาล็อกข้อมูลมาไว้ในองค์กรของคุณเรายินดีที่จะตั้งค่าการสาธิตส่วนตัว ขอบคุณมาก.

รีเบคก้า Jozwiak: ขอบคุณมากเดวิด ฉันแน่ใจว่า Dez และ Robin มีคำถามสองสามข้อก่อนที่ฉันจะตอบคำถามผู้ชม ดังนั้นคุณต้องการไปก่อนหรือไม่

Dez Blanchfield: อย่างแน่นอน ฉันชอบความคิดของแนวคิดของการสืบค้นที่เผยแพร่และเชื่อมโยงกลับไปยังแหล่งที่มาของการเขียน ฉันเคยเป็นแชมป์มายาวนานของไอเดียนี้ของแอพสโตร์ภายในและฉันคิดว่านี่เป็นรากฐานที่ยอดเยี่ยมที่จะสร้างมันขึ้นมา

ฉันได้รับข้อมูลเชิงลึกเกี่ยวกับองค์กรที่คุณเห็นการทำเช่นนี้และเรื่องราวความสำเร็จที่พวกเขาอาจมีกับการเดินทางทั้งหมดนี้ไม่เพียง แต่ใช้ประโยชน์จากเครื่องมือและแพลตฟอร์มของคุณในการค้นหาข้อมูล แต่ยังรวมถึง เปลี่ยนลักษณะทางวัฒนธรรมและพฤติกรรมภายในของพวกเขา ตอนนี้มีแอพในบ้านที่คุณดาวน์โหลดเพียงแค่แนวความคิดที่พวกเขาไม่เพียงแค่ค้นหา แต่พวกเขาสามารถเริ่มพัฒนาชุมชนเล็ก ๆ ได้โดยใช้ผู้ดูแลความรู้นั้น

David Crawford: ใช่ฉันคิดว่าเรารู้สึกประหลาดใจ เราเชื่อในคุณค่าของการแบ่งปันการสืบค้นทั้งจากในอดีตของฉันในฐานะผู้จัดการผลิตภัณฑ์ใน Adtech และจากลูกค้าทั้งหมดที่เราเคยพูดคุยด้วย แต่ฉันก็ยังรู้สึกประหลาดใจที่บ่อยครั้งที่มันเป็นหนึ่งในสิ่งแรกที่ลูกค้าพูดถึง คุณค่าที่พวกเขาได้รับจาก Alation

ฉันกำลังทำการทดสอบผู้ใช้ของเครื่องมือสืบค้นที่ลูกค้าของเราชื่อ Invoice2go และพวกเขามีผู้จัดการผลิตภัณฑ์ที่ค่อนข้างใหม่และพวกเขาบอกว่า - เขาบอกฉันจริง ๆ โดยไม่แจ้งให้ทราบในระหว่างการทดสอบผู้ใช้“ ฉันจะไม่เขียน SQL เลยยกเว้นว่ามันทำได้ง่ายโดย Alation” และแน่นอนในฐานะ PM ฉันก็ไปแบบว่า“ คุณหมายถึงอะไรเราทำอย่างนั้นได้อย่างไร” และเขาก็พูดว่า“ ก็เพราะฉัน สามารถเข้าสู่ระบบและฉันสามารถดูข้อความค้นหาที่มีอยู่ทั้งหมดเหล่านี้ได้” การเริ่มต้นด้วยกระดานชนวนว่างเปล่ากับ SQL เป็นสิ่งที่ทำยากอย่างเหลือเชื่อ แต่การปรับเปลี่ยนแบบสอบถามที่มีอยู่ซึ่งคุณสามารถเห็นผลลัพธ์ที่ออกมาและคุณสามารถพูดว่า ฉันแค่ต้องการคอลัมน์พิเศษนี้” หรือ“ ฉันต้องการกรองให้เป็นช่วงวันที่เฉพาะเจาะจง” นั่นเป็นสิ่งที่ง่ายกว่ามากที่จะทำ

เราเคยเห็นบทบาทเสริมเหล่านี้เช่นผู้จัดการผลิตภัณฑ์บางทีผู้คนในแผนกขายผู้เริ่มรับสินค้าและผู้ที่ต้องการเรียนรู้ SQL และเริ่มรับสินค้าด้วยการใช้แคตตาล็อกนี้ เรายังได้เห็นอีกด้วยว่ามี บริษัท มากมายที่พยายามทำโอเพนซอร์ส ฉันพยายามสร้างสิ่งต่าง ๆ เหล่านี้ภายในซึ่งพวกเขาติดตามการสืบค้นและทำให้มันพร้อมใช้งานและมีความท้าทายการออกแบบที่ยุ่งยากบางอย่างเพื่อทำให้มีประโยชน์ มีเครื่องมือภายในที่พวกเขาเรียกว่า HiPal ซึ่งเป็นประเภทของการสืบค้นทั้งหมดที่เขียนบน Hive แต่สิ่งที่คุณค้นพบคือถ้าคุณไม่ดุนผู้ใช้อย่างถูกวิธีคุณก็จบลงด้วยรายการที่ยาวมาก ของคำสั่งที่เลือก และในฐานะผู้ใช้ที่พยายามคิดออกว่าการสืบค้นนั้นมีประโยชน์กับฉันหรือไม่ถ้ามันดีถ้าฉันลองดูรายการคำสั่งที่เลือกนาน ๆ ฉันจะต้องใช้เวลานานกว่าจะได้อะไรที่มีคุณค่ามากกว่า เริ่มจากศูนย์ เราคิดอย่างถี่ถ้วนเกี่ยวกับวิธีสร้างแคตตาล็อกแบบสอบถามที่นำสิ่งที่ถูกต้องมาไว้ข้างหน้าและจัดทำในวิธีที่มีประโยชน์

Dez Blanchfield: ฉันคิดว่าเราทุกคนต้องผ่านการเดินทางนี้ตั้งแต่อายุยังน้อยจนถึงผู้ใหญ่ในหลาย ๆ ด้าน พวงของเทคโนโลยี ฉันเองโดยส่วนตัวฉันได้ผ่านสิ่งที่เหมือนกันจริง ๆ เช่นการเรียนรู้ที่จะตัดรหัส ฉันจะอ่านนิตยสารและหนังสือแล้วฉันจะเรียนในระดับหนึ่งและจากนั้นฉันต้องไปและได้รับการฝึกอบรมและการศึกษาเพิ่มเติม

แต่โดยไม่ได้ตั้งใจฉันพบว่าแม้ตอนที่ฉันจะไปจากการสอนตัวเองและอ่านนิตยสารและอ่านหนังสือและตัดโปรแกรมคนอื่น ๆ และไปเรียนหลักสูตรนั้นฉันก็ยังคงเรียนรู้มากจากการทำหลักสูตรตามที่ฉันเพิ่งพูดคุยกับคนอื่น คนที่มีประสบการณ์ และฉันคิดว่าการค้นพบที่น่าสนใจซึ่งตอนนี้คุณนำมาวิเคราะห์ข้อมูลนั้นโดยทั่วไปแล้วเห็นว่าขนานกันว่ามนุษย์นั้นฉลาดเสมอ

อีกสิ่งหนึ่งที่ฉันอยากเข้าใจจริงๆคือในระดับสูงมากหลายองค์กรกำลังถามว่า "ใช้เวลานานแค่ไหนในการไปถึงจุดนั้น?" อะไรคือจุดเปลี่ยนเวลา - กรอบ - ฉลาด - เมื่อผู้คนรับแพลตฟอร์มของคุณ ติดตั้งแล้วพวกเขาเริ่มค้นพบเครื่องมือประเภทใด? เร็วแค่ไหนที่ผู้คนมองเห็นสิ่งนี้กลายเป็นช่วงเวลา "a-ha" ทันทีที่พวกเขารู้ว่าพวกเขาไม่ได้กังวลเกี่ยวกับ ROI อีกต่อไปเพราะมันอยู่ที่นั่น แต่ตอนนี้พวกเขากำลังเปลี่ยนวิธีการทำธุรกิจจริง ๆ ? และพวกเขาค้นพบศิลปะที่หายไปและพวกเขาคาดหวังว่าพวกเขาจะทำอะไรได้จริงๆสนุกกับมันจริงๆ

David Crawford: ใช่ฉันสามารถสัมผัสมันเล็กน้อย ฉันคิดว่าเมื่อเราติดตั้งหนึ่งในสิ่งที่ดีหนึ่งในสิ่งที่คนชอบเกี่ยวกับแคตตาล็อกที่เชื่อมต่อโดยตรงกับระบบข้อมูลคือคุณไม่ได้เริ่มว่างที่คุณต้องกรอกในหน้าโดย หน้า. และนี่เป็นความจริงของโซลูชันข้อมูลก่อนหน้านี้ที่คุณเริ่มต้นด้วยเครื่องมือเปล่าและคุณต้องเริ่มสร้างหน้าสำหรับทุกสิ่งที่คุณต้องการเอกสาร

เนื่องจากเราจัดทำเอกสารหลายอย่างโดยอัตโนมัติโดยแยกข้อมูลเมตาโดยหลักแล้วภายในสองสามวันหลังจากติดตั้งซอฟต์แวร์คุณสามารถมีภาพของสภาพแวดล้อมข้อมูลของคุณที่มีอย่างน้อย 80 เปอร์เซ็นต์ในเครื่องมือ แล้วฉันคิดว่าทันทีที่ผู้คนเริ่มเขียนคำสั่งด้วยเครื่องมือพวกเขาจะบันทึกกลับเข้าไปในแคตตาล็อกโดยอัตโนมัติและพวกเขาก็จะเริ่มปรากฏเช่นกัน

ฉันไม่อยากแสดงความกระตือรือร้นมากเกินไป ฉันคิดว่าสองสัปดาห์เป็นการประมาณการที่ค่อนข้างอนุรักษ์นิยมถึงหนึ่งเดือน สองสัปดาห์ถึงหนึ่งเดือนการประมาณการแบบอนุรักษ์นิยมหันกลับมาและรู้สึกว่าคุณได้รับประโยชน์จากมันเช่นคุณเริ่มแบ่งปันความรู้และสามารถไปที่นั่นและค้นหาสิ่งต่าง ๆ เกี่ยวกับข้อมูลของคุณ

Dez Blanchfield: มันช่างน่าประหลาดใจจริงๆเมื่อคุณคิดถึงมัน ความจริงที่ว่าบางส่วนของแพลตฟอร์มข้อมูลขนาดใหญ่ที่คุณกำลังทำดัชนีและจัดทำแคตตาล็อกอย่างมีประสิทธิภาพนั้นบางครั้งอาจใช้เวลาถึงปีในการติดตั้งและใช้งาน

คำถามสุดท้ายที่ฉันได้รับสำหรับคุณก่อนที่ฉันจะมอบให้กับ Robin Bloor คือตัวเชื่อมต่อ หนึ่งในสิ่งที่กระโดดออกมาทันทีที่ฉันคือคุณเห็นได้ชัดว่าความท้าทายทั้งหมดที่แยกออก ดังนั้นมีคำถามสองสามข้อในเวลาอันรวดเร็ว หนึ่งการเชื่อมต่อทำได้รวดเร็วเพียงใด? เห็นได้ชัดว่าคุณเริ่มต้นด้วยแพลตฟอร์มที่ใหญ่ที่สุดเช่น Oracles และ Teradatas เป็นต้นไปและ DB2 แต่คุณเห็นการเชื่อมต่อใหม่เป็นประจำแค่ไหนและพวกเขาใช้เวลาตอบสนองอย่างไร ฉันคิดว่าคุณมีกรอบมาตรฐานสำหรับพวกเขา และคุณเข้าไปลึกแค่ไหน ตัวอย่างเช่น Oracles และ IBMs ของโลกและแม้กระทั่ง Tereadata และจากนั้นบางส่วนของแพลตฟอร์มโอเพ่นซอร์สปลายที่ได้รับความนิยมมากขึ้น พวกเขาทำงานโดยตรงกับคุณ? คุณค้นพบตัวมันเองหรือ คุณต้องมีความรู้เกี่ยวกับแพลตฟอร์มเหล่านั้นหรือไม่

การพัฒนาตัวเชื่อมต่อมีลักษณะอย่างไรและคุณมีส่วนเกี่ยวข้องกับพันธมิตรมากเพียงใดเพื่อให้แน่ใจว่าตัวเชื่อมต่อเหล่านั้นค้นพบทุกสิ่งที่คุณสามารถทำได้

David Crawford: ใช่แน่นอนมันเป็นคำถามที่ดี ฉันคิดว่าส่วนใหญ่เราสามารถพัฒนาตัวเชื่อมต่อได้ เราทำอย่างแน่นอนเมื่อเราเป็นเด็กที่เพิ่งเริ่มต้นและไม่มีลูกค้า เราสามารถพัฒนาการเชื่อมต่อได้อย่างแน่นอนโดยไม่จำเป็นต้องมีการเข้าถึงภายใน เราไม่เคยได้รับการเข้าถึงเป็นพิเศษกับระบบข้อมูลที่ไม่เปิดเผยต่อสาธารณะและบ่อยครั้งที่ไม่จำเป็นต้องใช้ข้อมูลภายใน เราใช้ประโยชน์จากบริการข้อมูลเมตาที่มีอยู่ในระบบข้อมูลด้วยตนเอง บ่อยครั้งที่สิ่งเหล่านี้ค่อนข้างซับซ้อนและยากต่อการทำงาน ฉันรู้ว่าเซิร์ฟเวอร์ SQL โดยเฉพาะอย่างยิ่งวิธีที่พวกเขาจัดการบันทึกแบบสอบถามมีการกำหนดค่าที่แตกต่างกันหลายอย่างและสิ่งที่คุณต้องทำงานจริงๆ คุณต้องเข้าใจความแตกต่างและลูกบิดและหมุนเพื่อตั้งค่าอย่างถูกต้องและนั่นคือสิ่งที่เราทำงานกับลูกค้าตั้งแต่เราเคยทำมาหลายครั้งแล้ว

แต่ในระดับหนึ่งแล้ว API ประเภทสาธารณะที่มีอยู่หรือส่วนต่อประสานสาธารณะที่มีอยู่ที่เราใช้ประโยชน์ เรามีความร่วมมือกับ บริษัท เหล่านี้หลายแห่งซึ่งส่วนใหญ่เป็นพื้นที่รับรองเพื่อให้พวกเขารู้สึกสบายใจที่บอกว่าเราทำงานและพวกเขาสามารถจัดหาทรัพยากรให้เราสำหรับการทดสอบบางครั้งการเข้าถึงในช่วงแรกอาจจะเป็นแพลตฟอร์มที่ออกมาเพื่อให้แน่ใจว่า เราทำงานกับเวอร์ชันใหม่

หากต้องการเปิดการเชื่อมต่อใหม่ฉันจะพูดอีกครั้งพยายามอนุรักษ์ให้พูดได้หกสัปดาห์ถึงสองเดือน มันขึ้นอยู่กับว่ามันคล้ายกันแค่ไหน ดังนั้น Postgre บางตัวก็ทำงานคล้ายกับ Redshift Redshift และ Vertica แบ่งปันรายละเอียดมากมาย ดังนั้นเราสามารถใช้ประโยชน์จากสิ่งเหล่านั้น แต่ใช่หกสัปดาห์ถึงสองเดือนจะยุติธรรม

เรายังมี API ดังนั้น - เราคิดว่า Alation เป็นแพลตฟอร์มข้อมูลเมตาเช่นกันดังนั้นหากสิ่งใดที่เราไม่สามารถเข้าถึงและคว้าโดยอัตโนมัติมีวิธีที่คุณสามารถเขียนตัวเชื่อมต่อด้วยตนเองและผลักดันมันเข้าไปในระบบของเราดังนั้น ว่าทุกอย่างยังคงรวมอยู่ในเครื่องมือค้นหาเดียว

Dez Blanchfield: น่าอัศจรรย์ ฉันขอขอบคุณที่. ดังนั้นจะส่งมอบให้โรบินเพราะฉันแน่ใจว่าเขามีคำถามมากมายเหลือเฟือเช่นกัน โรบิน?

รีเบคก้า Jozwiak: โรบินอาจเป็นคนใบ้

Dez Blanchfield: คุณปิดเสียงได้เอง

Robin Bloor: ช่ายยย. ขออภัยฉันปิดเสียงตัวเอง เมื่อคุณใช้สิ่งนี้กระบวนการคืออะไร? ฉันอยากรู้อยากเห็นเพราะมีข้อมูลจำนวนมากในหลาย ๆ ที่ แล้วมันทำงานอย่างไร

David Crawford: ใช่แน่นอน. ก่อนอื่นเราเข้าสู่กระบวนการไอทีเพื่อให้แน่ใจว่าเซิร์ฟเวอร์ของเราได้รับการจัดสรรตรวจสอบให้แน่ใจว่าการเชื่อมต่อเครือข่ายพร้อมใช้งานแล้วพอร์ตเปิดอยู่เพื่อให้เราสามารถเข้าถึงระบบได้จริง พวกเขามักจะรู้ว่าระบบใดที่พวกเขาต้องการเริ่มต้นด้วย รู้ภายในระบบข้อมูลซึ่ง - และบางครั้งเราจะช่วยพวกเขา ช่วยให้พวกเขาเริ่มต้นดูบันทึกการสืบค้นเพื่อทำความเข้าใจกับผู้ใช้ว่ามีอะไรและมีผู้ใช้จำนวนเท่าใดในระบบ ดังนั้นช่วยในการค้นหาว่าพวกเขาอยู่ที่ไหนบ่อยครั้งถ้าพวกเขามีหลายร้อยหรือหลายพันคนที่อาจเข้าสู่ระบบฐานข้อมูลพวกเขาไม่รู้จริง ๆ ว่าพวกเขากำลังเข้าสู่ระบบที่ใดดังนั้นเราจึงสามารถค้นหาได้จากบันทึกการสืบค้น คุณได้เข้าสู่ระบบและดำเนินการแบบสอบถามที่นี่จริงในเดือนหรือดังนั้น

ดังนั้นเราสามารถใช้ประโยชน์จากสิ่งนั้นได้ แต่มักจะเป็นสิ่งที่สำคัญที่สุดเท่านั้น เราให้พวกเขาตั้งค่าแล้วมีกระบวนการพูดว่า "จัดลำดับความสำคัญให้" มีช่วงของกิจกรรมที่สามารถเกิดขึ้นได้ในแบบคู่ขนาน ฉันจะมุ่งเน้นไปที่การฝึกอบรมการใช้เครื่องมือแบบสอบถาม เมื่อผู้คนเริ่มใช้เครื่องมือการสืบค้นก่อนอื่นผู้คนจำนวนมากชอบความจริงที่ว่ามันเป็นเพียงอินเทอร์เฟซเดียวกับทุกระบบที่แตกต่างกัน พวกเขายังชอบความจริงที่ว่าเว็บนั้นไม่เกี่ยวข้องกับการติดตั้งใด ๆ หากพวกเขาไม่ต้องการ จากมุมมองด้านความปลอดภัยพวกเขาชอบมีจุดเข้าจุดเดียวจากจุดยืนเครือข่ายระหว่างเครือข่ายไอทีคอร์ปกับศูนย์ข้อมูลที่แหล่งข้อมูลการผลิตอยู่ ดังนั้นพวกเขาจะตั้งค่า Alation เป็นเครื่องมือสืบค้นและเริ่มใช้ Compose เป็นจุดเข้าถึงสำหรับระบบทั้งหมดเหล่านี้

ดังนั้นเมื่อสิ่งนั้นเกิดขึ้นสิ่งที่เรามุ่งเน้นไปที่การฝึกอบรมคือการทำความเข้าใจความแตกต่างระหว่างเครื่องมือสืบค้นข้อมูลบนเว็บหรือเครื่องมือเซิร์ฟเวอร์เปรียบเทียบกับที่คุณใช้บนเดสก์ท็อปของคุณและความแตกต่างของการใช้งาน และในเวลาเดียวกันสิ่งที่ดีที่ต้องทำคือการระบุข้อมูลที่มีค่าที่สุดใช้ประโยชน์จากข้อมูลบันทึกการสืบค้นอีกครั้งและพูดว่า“ เฮ้คุณอาจต้องการเข้าไปข้างในและช่วยให้ผู้คนเข้าใจสิ่งเหล่านี้ ให้เริ่มต้นการเผยแพร่คิวรีตัวแทนในตารางเหล่านี้” บางครั้งนั่นเป็นวิธีที่มีประสิทธิภาพมากที่สุดในการทำให้ผู้คนปั่นป่วนอย่างรวดเร็ว ให้ดูประวัติแบบสอบถามของคุณเองเผยแพร่สิ่งเหล่านี้เพื่อให้ปรากฏเป็นคิวรีแรก เมื่อผู้คนดูที่หน้าโต๊ะพวกเขาสามารถเห็นข้อความค้นหาทั้งหมดที่แตะตารางนั้นและพวกเขาสามารถเริ่มจากที่นั่น จากนั้นให้เริ่มเพิ่มชื่อเรื่องและคำอธิบายลงในวัตถุเหล่านี้เพื่อให้พวกเขาค้นหาและค้นหาได้ง่ายขึ้นเพื่อให้คุณทราบถึงความแตกต่างของวิธีใช้งาน

เราตรวจสอบให้แน่ใจว่าเราได้ดูบันทึกการสืบค้นอย่างละเอียดเพื่อให้เราสามารถสร้างสายเลือด หนึ่งในสิ่งที่เราทำคือเรามองผ่านบันทึกการสืบค้นเวลาที่ข้อมูลย้ายจากตารางหนึ่งไปยังอีกตารางหนึ่งและนั่นทำให้เราสามารถตั้งคำถามที่พบบ่อยที่สุดเกี่ยวกับตารางของข้อมูลได้ซึ่งมาจากไหน ฉันจะเชื่อถือได้อย่างไร และสิ่งที่เราสามารถแสดงได้ไม่เพียง แต่มันมาจากโต๊ะอื่น ๆ แต่มันถูกเปลี่ยนไปตามทาง อีกครั้งนี้เป็นประเภทขับเคลื่อนโดยบันทึกแบบสอบถาม

ดังนั้นเราจึงตรวจสอบให้แน่ใจว่าสิ่งเหล่านั้นได้รับการติดตั้งและที่ได้รับเชื้อสายเข้าสู่ระบบและกำหนดเป้าหมายที่มีค่ามากที่สุดและมีประโยชน์มากที่สุดของเมทาดาทาที่เราสามารถสร้างได้บนหน้าตารางดังนั้นเมื่อคุณค้นหา คุณพบบางสิ่งที่มีประโยชน์

Robin Bloor: ถูก คำถามอื่น ๆ - มีคำถามมากมายจากผู้ชมดังนั้นฉันไม่ต้องการที่จะใช้เวลามากเกินไปที่นี่ - คำถามอื่น ๆ ที่นึกถึงคือเพียงแค่จุดปวด ซอฟแวร์ที่ซื้อจำนวนมากเพราะผู้คนไม่ทางใดก็ทางหนึ่งมีปัญหากับบางสิ่ง ดังนั้นจุดปวดทั่วไปที่นำผู้คนไปสู่ ​​Alation คืออะไร?

David Crawford: ใช่. ฉันคิดว่ามีบางอย่าง แต่ฉันคิดว่าหนึ่งในสิ่งที่เราได้ยินค่อนข้างบ่อยคือนักวิเคราะห์ที่อยู่บนเครื่อง “ ฉันจะต้องจ้างคน 10, 20, 30 คนในระยะเวลาอันใกล้ที่จะต้องสร้างความเข้าใจใหม่ ๆ จากข้อมูลนี้พวกเขาจะเพิ่มความเร็วได้อย่างไร? "ดังนั้นนักวิเคราะห์การขึ้นเครื่องบินเป็นสิ่งที่เราต้องรับมืออย่างแน่นอน Theres ยังช่วยบรรเทานักวิเคราะห์อาวุโสจากการใช้เวลาตอบคำถามจากคนอื่น ๆ เกี่ยวกับข้อมูล นั่นเป็นเรื่องที่บ่อยมากเช่นกัน และทั้งคู่เป็นปัญหาการศึกษาเป็นหลัก

แล้วฉันจะพูดอีกสถานที่ที่เราเห็นคนใช้ Alation คือเมื่อพวกเขาต้องการตั้งค่าสภาพแวดล้อมข้อมูลใหม่สำหรับคนทำงานพวกเขาต้องการโฆษณาและทำตลาดภายในเพื่อให้ผู้คนได้ใช้ประโยชน์ จากนั้นทำให้ Alation เป็นส่วนหน้าของสภาพแวดล้อมการวิเคราะห์ใหม่ที่น่าสนใจมาก มันมีเอกสารประกอบมันเป็นเพียงจุดเดียวในการแนะนำ - จุดเดียวในการเข้าถึงระบบและนั่นคืออีกที่ที่ผู้คนจะมาหาเรา

Robin Bloor: โอเคฉันจะส่งต่อคุณไปยังรีเบคก้าเพราะผู้ชมพยายามมาหาคุณ

รีเบคก้า Jozwiak: ใช่เรามีคำถามผู้ชมที่ดีมากมายที่นี่ และเดวิดสิ่งนี้ถูกโพสต์ถึงคุณโดยเฉพาะ มาจากคนที่เห็นได้ชัดว่ามีประสบการณ์บางอย่างกับคนที่ใช้ข้อความค้นหาในทางที่ผิดและเขาก็บอกว่ายิ่งเราให้อำนาจผู้ใช้มากเท่าไหร่ก็ยิ่งยากที่จะควบคุมการใช้ทรัพยากรคอมพิวเตอร์อย่างรับผิดชอบ ดังนั้นคุณสามารถป้องกันการเผยแพร่วลีค้นหาที่เข้าใจผิด แต่เป็นเรื่องธรรมดาได้หรือไม่?

David Crawford: ใช่ฉันเห็นคำถามนี้ เป็นคำถามที่ยอดเยี่ยม - เราได้รับบ่อยมาก ฉันเคยเห็นความเจ็บปวดของฉันที่ บริษัท ก่อนหน้านี้ซึ่งคุณต้องฝึกผู้ใช้ ตัวอย่างเช่น“ นี่คือตารางบันทึกมันมีบันทึกกลับไปเป็นเวลาหลายปี หากคุณกำลังจะเขียนแบบสอบถามในตารางนี้คุณจะต้อง จำกัด ตามวันที่” ดังนั้นตัวอย่างเช่นการฝึกอบรมที่ฉันได้ผ่านที่ บริษัท ก่อนหน้านี้ก่อนที่ฉันจะได้รับการเข้าถึงฐานข้อมูล

เรามีสองวิธีที่เราพยายามจะแก้ปัญหานี้ ฉันจะบอกว่าฉันคิดว่าข้อมูลบันทึกการสืบค้นนั้นมีประโยชน์มากสำหรับการแก้ไข มันให้ข้อมูลเชิงลึกอื่นกับสิ่งที่ฐานข้อมูลดำเนินการภายในด้วยการวางแผนแบบสอบถาม และสิ่งที่เราทำคือหนึ่งในการแทรกแซงเหล่านั้น - เรามีการแทรกแซงด้วยตนเองที่ฉันแสดงให้เห็นและนั่นมีประโยชน์ใช่มั้ย ตัวอย่างเช่นในการเข้าร่วมบางอย่างคุณสามารถพูดว่า "ให้เลิกใช้สิ่งนี้" มันจะมีธงสีแดงขนาดใหญ่เมื่อมันปรากฏขึ้นในการแนะนำอย่างชาญฉลาด นั่นเป็นวิธีหนึ่งในการพยายามเข้าถึงผู้คน

อีกสิ่งหนึ่งที่เราทำคือการดำเนินการอัตโนมัติตามเวลาดำเนินการ ที่จริงแล้วจะใช้แผนภูมิการแยกวิเคราะห์ของแบบสอบถามก่อนที่เราจะเรียกใช้เพื่อดูรวมถึงตัวกรองบางอย่างหรือสิ่งอื่น ๆ ที่เราทำด้วยเช่นกัน แต่หนึ่งในสิ่งที่มีค่าที่สุดและง่ายที่สุดที่จะอธิบายคือมันมีตัวกรองหรือไม่? เช่นเดียวกับตัวอย่างที่ฉันเพิ่งให้ตารางบันทึกนี้ถ้าคุณกำลังจะค้นหาต้องมีช่วงวันที่คุณสามารถระบุในหน้าตารางที่คุณกำหนดให้ใช้ตัวกรองช่วงวันที่ หากมีคนพยายามเรียกใช้แบบสอบถามที่ไม่มีตัวกรองนั้นจริง ๆ แล้วจะหยุดพวกเขาด้วยคำเตือนขนาดใหญ่และจะพูดว่า "คุณควรเพิ่ม SQL บางอย่างที่มีลักษณะเช่นนี้ในแบบสอบถามของคุณ" พวกเขาสามารถดำเนินการต่อได้หากต้องการ . จะไม่ห้ามไม่ให้ใช้พวกเขาอย่างสมบูรณ์จริง ๆ - แบบสอบถามของมันด้วยเช่นกันมันก็ต้องเรียกใช้แบบสอบถามเมื่อสิ้นสุดวัน แต่เราวางสิ่งกีดขวางที่ค่อนข้างใหญ่ไว้ข้างหน้าพวกเขาและเราให้คำแนะนำแก่พวกเขาซึ่งเป็นข้อเสนอแนะที่เป็นรูปธรรมในการแก้ไขแบบสอบถามเพื่อปรับปรุงประสิทธิภาพของพวกเขา

ที่จริงแล้วเราทำเช่นนั้นโดยอัตโนมัติในบางกรณีอีกครั้งโดยการสังเกตบันทึกการสืบค้น หากเราเห็นว่ามีการค้นหาจำนวนมากที่มีขนาดใหญ่มากในตารางนี้ใช้ประโยชน์จากตัวกรองที่เฉพาะเจาะจงหรือการรวมส่วนคำสั่งที่เฉพาะเจาะจงจากนั้นก็ปรากฏขึ้นที่จริง ส่งเสริมให้มีการแทรกแซง จริงๆแล้วมันเกิดขึ้นกับฉันในชุดข้อมูลภายใน เรามีข้อมูลลูกค้าและเรามี ID ผู้ใช้ แต่ชุด ID ผู้ใช้เนื่องจากเป็นประเภท - เรามี ID ผู้ใช้ที่ลูกค้าทุกคน มันไม่ซ้ำกันดังนั้นคุณต้องจับคู่กับรหัสลูกค้าเพื่อรับคีย์เข้าร่วมที่ไม่ซ้ำกันและฉันกำลังเขียนแบบสอบถามและฉันพยายามวิเคราะห์บางสิ่งและมันก็โผล่ขึ้นมาแล้วพูดว่า“ เฮ้คนอื่น ๆ ดูเหมือนว่าจะเข้าร่วมตารางเหล่านี้กับทั้งรหัสลูกค้าและรหัสผู้ใช้ คุณแน่ใจหรือว่าคุณไม่ต้องการทำสิ่งนั้น” และจริง ๆ แล้วมันทำให้ฉันไม่สามารถทำการวิเคราะห์ที่ผิดพลาดได้ ดังนั้นจึงใช้ได้ทั้งความแม่นยำของการวิเคราะห์เช่นเดียวกับประสิทธิภาพ นั่นเป็นวิธีที่เราจัดการกับปัญหานั้น

รีเบคก้า Jozwiak: ที่ดูเหมือนว่าฉันจะมีประสิทธิภาพ คุณบอกว่าคุณไม่จำเป็นต้องปิดกั้นผู้คนจากการเดินโซเซทรัพยากร แต่เรียงลำดับของการสอนพวกเขาว่าสิ่งที่พวกเขากำลังทำอาจจะไม่ดีที่สุดใช่ไหม?

David Crawford: เราคาดว่าผู้ใช้จะไม่เป็นอันตราย - มอบเจตจำนงที่ดีที่สุดให้กับพวกเขาและเราพยายามที่จะเปิดใจในทางนั้น

รีเบคก้า Jozwiak: ถูก คำถามอื่น:“ ความแตกต่างระหว่างผู้จัดการแคตตาล็อกเช่นเดียวกับโซลูชันของคุณและเครื่องมือ MDM คืออะไร? หรือว่ามันจะใช้หลักการที่แตกต่างกันโดยการขยายตัวเลือกของตารางแบบสอบถามในขณะที่ MDM จะทำมันโดยอัตโนมัติ แต่ด้วยหลักการพื้นฐานเดียวกันของการรวบรวมข้อมูลเมตา "

David Crawford: ใช่ฉันคิดว่าเมื่อฉันดูโซลูชัน MDM แบบดั้งเดิมความแตกต่างหลักคือปรัชญา มันคือทั้งหมดที่เกี่ยวกับผู้ใช้ที่เป็น อย่างที่ฉันพูดตอนเริ่มต้นการนำเสนอของฉัน Alation ฉันคิดว่าเมื่อเราก่อตั้งขึ้นเราได้ก่อตั้งขึ้นโดยมีจุดประสงค์เพื่อให้นักวิเคราะห์สร้างความเข้าใจที่ลึกซึ้งยิ่งขึ้นทำให้พวกเขาผลิตได้เร็วขึ้นและแม่นยำยิ่งขึ้น การผลิต ฉันไม่คิดว่าเป็นเป้าหมายของโซลูชัน MDM แบบดั้งเดิมมาก่อน โซลูชั่นเหล่านั้นมีแนวโน้มที่จะถูกกำหนดเป้าหมายไปยังผู้ที่ต้องการจัดทำรายงานว่าข้อมูลใดที่ถูกจับไปยัง SCC หรือภายในเพื่อจุดประสงค์ในการตรวจสอบประเภทอื่น บางครั้งมันสามารถเปิดใช้งานนักวิเคราะห์ แต่บ่อยครั้งกว่าถ้าหากมันจะเปิดใช้งานผู้ปฏิบัติงานของพวกเขามีแนวโน้มที่จะเปิดใช้งานสถาปนิกข้อมูลเช่น DBA

เมื่อคุณคิดถึงสิ่งต่าง ๆ จากจุดยืนของนักวิเคราะห์นั่นคือเมื่อคุณเริ่มสร้างเครื่องมือคิวรีที่เครื่องมือ MDM จะไม่ทำ นั่นคือเมื่อคุณเริ่มคิดเกี่ยวกับประสิทธิภาพและความแม่นยำรวมทั้งทำความเข้าใจกับข้อมูลที่เกี่ยวข้องกับความต้องการทางธุรกิจของฉัน ทุกสิ่งเหล่านี้เป็นสิ่งที่ป๊อปอัพในใจของเราเมื่อเราออกแบบเครื่องมือ มันเข้าสู่อัลกอริทึมการค้นหาของเรามันจะเข้าไปในเลย์เอาต์ของหน้าแคตตาล็อกและความสามารถในการมีส่วนร่วมในความรู้จากทั่วทั้งองค์กร มันเป็นความจริงที่ว่าเราสร้างเครื่องมือสืบค้นข้อมูลและเราสร้างแคตตาล็อกลงในนั้นโดยตรงดังนั้นฉันคิดว่ามันมาจากที่จริง คุณคำนึงถึงผู้ใช้คนใดเป็นอันดับแรก

Rebecca Jozwiak: โอเคดี นั่นช่วยอธิบายได้จริงๆ ใครกำลังจะตายที่จะได้รับจดหมายเหตุเพราะเขาต้องจากไป แต่เขาต้องการตอบคำถามของเขา เขาบอกว่ามันถูกกล่าวถึงในตอนแรกว่ามีหลายภาษา แต่ SQL เป็นภาษาเดียวที่ใช้ประโยชน์จากส่วนประกอบในการเขียนหรือไม่

David Crawford: ใช่มันเป็นเรื่องจริง และสิ่งหนึ่งที่ฉันสังเกตเห็นเมื่อฉันเห็นการระเบิดของฐานข้อมูลประเภทต่าง ๆ ของฐานข้อมูลเอกสารของฐานข้อมูลกราฟของที่เก็บค่าสำคัญคือพวกเขามีประสิทธิภาพมากสำหรับการพัฒนาแอปพลิเคชัน พวกเขาสามารถตอบสนองความต้องการเฉพาะที่นั่นได้ดีจริงๆในวิธีที่ดีกว่าฐานข้อมูลเชิงสัมพันธ์ได้

แต่เมื่อคุณนำมันกลับไปวิเคราะห์ข้อมูลเมื่อคุณนำมันกลับมาที่ - เมื่อคุณต้องการให้ข้อมูลนั้นแก่ผู้ที่จะทำการรายงานแบบเฉพาะกิจหรือเฉพาะกิจการขุดเข้าไปในข้อมูลพวกเขามักจะกลับไปที่ความสัมพันธ์ อย่างน้อยก็อินเตอร์เฟสสำหรับมนุษย์ ส่วนหนึ่งเป็นเพราะ SQL เป็นภาษากลางของการวิเคราะห์ข้อมูลดังนั้นสำหรับมนุษย์ก็หมายถึงเครื่องมือที่รวมเข้าด้วยกัน ฉันคิดว่านี่เป็นเหตุผลที่ SQL บน Hadoop นั้นเป็นที่นิยมและมีความพยายามมากมายในการแก้ปัญหานี้เพราะในตอนท้ายของวันนั้นเป็นสิ่งที่ผู้คนรู้ อาจมีผู้คนหลายล้านคนที่รู้วิธีการเขียน SQL และฉันจะร่วมทุนกับคนหลายล้านคนที่ไม่ทราบวิธีการเขียนแบบสอบถามเฟรมเวิร์กไปป์ไลน์ Mongo และนั่นเป็นภาษามาตรฐานที่ใช้สำหรับการรวมข้ามแพลตฟอร์มที่หลากหลายอย่างแท้จริง ดังนั้นสิ่งที่กล่าวมาทั้งหมดไม่ค่อยได้รับการขอร้องให้ออกไปข้างนอกเพราะนี่เป็นอินเทอร์เฟซที่นักวิเคราะห์ส่วนใหญ่ใช้และเป็นสถานที่ที่เรามุ่งเน้นโดยเฉพาะอย่างยิ่งในการเขียนเราเน้นการเขียน SQL

ฉันจะบอกว่าวิทยาศาสตร์ข้อมูลเป็นสถานที่ที่พวกเขามีส่วนร่วมนอกมากที่สุดดังนั้นเราจึงได้รับคำถามเกี่ยวกับการใช้ Pig หรือ SAS เป็นครั้งคราว นี่คือสิ่งที่เราไม่ได้จัดการใน Compose และเราต้องการรวบรวมในแคตตาล็อก และฉันก็เห็น R และ Python ด้วย เรามีสองวิธีที่เราได้สร้างอินเทอร์เฟซที่คุณสามารถใช้แบบสอบถามที่เขียนใน Alation ภายในสคริปต์ R และ Python ดังนั้นเนื่องจากบ่อยครั้งที่คุณเป็นนักวิทยาศาสตร์ด้านข้อมูลและคุณกำลังทำงานในภาษาสคริปต์ข้อมูลต้นฉบับของคุณอยู่ในเชิงสัมพันธ์ ฐานข้อมูล คุณเริ่มต้นด้วยแบบสอบถาม SQL จากนั้นดำเนินการเพิ่มเติมและสร้างกราฟภายในของ R และ Python และเราได้ทำแพคเกจที่คุณสามารถนำเข้าสู่สคริปต์เหล่านั้นที่ดึงแบบสอบถามหรือผลลัพธ์แบบสอบถามจาก Alation เพื่อให้คุณสามารถมีเวิร์กโฟลว์แบบผสมผสานได้ที่นั่น

รีเบคก้า Jozwiak: โอเคเยี่ยม ฉันรู้ว่าเราวิ่งผ่านจุดสูงสุดของชั่วโมงไปเล็กน้อยฉันแค่ถามคำถามอีกหนึ่งหรือสองข้อ ฉันรู้ว่าคุณได้พูดคุยเกี่ยวกับระบบต่าง ๆ ทั้งหมดที่คุณสามารถเชื่อมต่อได้ แต่เท่าที่ข้อมูลโฮสต์ภายนอกและข้อมูลโฮสต์ภายในสามารถค้นหาร่วมกันในมุมมองเดียวของคุณในแพลตฟอร์มเดียวของคุณได้หรือไม่?

David Crawford: แน่ใจ มีสองสามวิธีที่จะทำเช่นนั้น ฉันหมายถึงโฮสต์ภายนอกฉันจะจินตนาการว่าฉันกำลังพยายามคิดอย่างชัดเจนว่าอาจหมายถึงอะไร อาจหมายถึงฐานข้อมูลที่มีคนโฮสต์ใน AWS ให้คุณ อาจหมายถึงแหล่งข้อมูลสาธารณะจาก data.gov เราเชื่อมต่อโดยตรงกับฐานข้อมูลโดยลงชื่อเข้าใช้เหมือนกับแอปพลิเคชันอื่นด้วยบัญชีฐานข้อมูลและนั่นคือวิธีที่เราแยกข้อมูลเมตา ดังนั้นหากเรามีบัญชีและเราเปิดพอร์ตเครือข่ายเราก็สามารถไปได้ และเมื่อเราไม่มีสิ่งเหล่านั้นเรามีสิ่งที่เรียกว่าแหล่งข้อมูลเสมือนจริงที่ช่วยให้คุณสามารถผลักดันเอกสารไม่ว่าจะโดยอัตโนมัติโดยการเขียนตัวเชื่อมต่อของคุณเองหรือโดยการกรอกข้อมูลด้วยการทำเช่นการอัพโหลด CSV ไปยังเอกสาร ข้อมูลข้างข้อมูลภายในของคุณ ที่ได้รับทั้งหมดไว้ในเครื่องมือค้นหา มันสามารถอ้างอิงได้ภายในบทความและเอกสารประกอบอื่น ๆ และการสนทนาภายในระบบ นั่นคือวิธีที่เราจัดการเมื่อเราไม่สามารถเชื่อมต่อกับระบบได้โดยตรง

รีเบคก้า Jozwiak: โอเคนั่นสมเหตุสมผลแล้ว อย่าเพิ่งยิงคำถามอีกหนึ่งข้อให้กับคุณ หนึ่งผู้เข้าร่วมคือ ถามว่า“ เนื้อหาของแค็ตตาล็อกข้อมูลควรได้รับการตรวจสอบความถูกต้องตรวจสอบหรือดูแลรักษาอย่างไรในขณะที่ข้อมูลต้นฉบับได้รับการปรับปรุงขณะที่มีการแก้ไขข้อมูลต้นฉบับเป็นต้น”

David Crawford: ใช่มันเป็นคำถามที่เราได้รับมากมายและฉันคิดว่าหนึ่งในสิ่งที่เรา - หนึ่งในปรัชญาของเราอย่างที่ฉันพูดเราไม่เชื่อว่าผู้ใช้จะเป็นอันตราย เราคิดว่าพวกเขากำลังพยายามให้ความรู้ที่ดีที่สุด พวกเขาจะไม่เข้ามาและทำให้ผู้อื่นเข้าใจผิดเกี่ยวกับข้อมูล หากนั่นเป็นปัญหาที่องค์กรของคุณบางที Alations ไม่ใช่เครื่องมือที่เหมาะสมสำหรับคุณ แต่ถ้าคุณถือว่าผู้ใช้มีเจตนาที่ดีเราก็คิดว่ามันเป็นสิ่งที่มีการอัพเดทเข้ามาและโดยทั่วไปแล้วสิ่งที่เราทำก็คือเราใส่ผู้ดูแลในแต่ละวัตถุข้อมูลหรือแต่ละส่วนของข้อมูล และเราสามารถแจ้งผู้ดูแลเหล่านั้นได้เมื่อมีการเปลี่ยนแปลงข้อมูลเมตาและพวกเขาสามารถจัดการได้ด้วยวิธีดังกล่าว พวกเขาเห็นการปรับปรุงเข้ามาพวกเขาตรวจสอบพวกเขา หากพวกเขาไม่ถูกต้องพวกเขาสามารถย้อนกลับและแก้ไขและแจ้งและหวังว่าจะสามารถเข้าถึงผู้ใช้ที่สนับสนุนข้อมูลและช่วยให้พวกเขาเรียนรู้

นั่นคือวิธีหลักที่เราคิดกัน ข้อเสนอแนะประเภทนี้โดยผู้ชมและผู้บริหารโดยผู้ดูแลดังนั้นเราจึงมีความสามารถรอบข้าง

รีเบคก้า Jozwiak: ตกลงดี. และถ้าคุณเพียงแค่ให้คนรู้ว่าพวกเขาสามารถเริ่มต้นด้วย Alation ได้ดีที่สุดและพวกเขาสามารถไปที่ไหนโดยเฉพาะเพื่อรับข้อมูลเพิ่มเติม ฉันรู้ว่าคุณแบ่งปันหนึ่ง bit.ly นั่นคือสถานที่ที่ดีที่สุด?

David Crawford: Alation.com/learnmore ฉันคิดว่าเป็นวิธีที่ยอดเยี่ยม หากต้องการลงทะเบียนเพื่อสาธิตเว็บไซต์ Alation.com มีแหล่งข้อมูลที่ดีมากมายเอกสารข้อมูลลูกค้าและข่าวสารเกี่ยวกับโซลูชันของเรา ดังนั้นฉันคิดว่านั่นเป็นสถานที่ที่ดีในการเริ่มต้น นอกจากนี้คุณยังสามารถ .

รีเบคก้า Jozwiak: โอเคเยี่ยม และฉันรู้ว่าผู้เข้าร่วมขออภัยถ้าฉันไม่ได้ไปทุกคำถามในวันนี้ แต่ถ้าไม่พวกเขาจะถูกส่งต่อไปยังเดวิดหรือทีมขายของเขาหรือใครบางคนที่ Alation เพื่อให้พวกเขาสามารถช่วยตอบคำถามของคุณได้อย่างแน่นอน ทำหรือสิ่งที่พวกเขาทำดีที่สุด

และด้วยสิ่งนั้นฉันจะไปข้างหน้าและลงชื่อเรา คุณสามารถค้นหาคลังเก็บได้ตลอดเวลาที่ InsideAnalysis.com คุณสามารถค้นหาได้ที่ Techopedia.com พวกเขามักจะอัปเดตเร็วขึ้นเล็กน้อยดังนั้นลองตรวจสอบดู และขอบคุณมากสำหรับ David Crawford, Dez Blanchfield และ Robin Boor วันนี้ มันเป็นเว็บคาสต์ที่ยอดเยี่ยม และด้วยสิ่งนั้นคุณจะต้องอำลาคุณ ขอบคุณครับ ลาก่อน.

David Crawford: ขอขอบคุณ.