5 สัญญาณเตือนของความล้มเหลวของอุปกรณ์ที่สำคัญ

ผู้เขียน: Judy Howell
วันที่สร้าง: 25 กรกฎาคม 2021
วันที่อัปเดต: 23 มิถุนายน 2024
Anonim
บทเรียนความล้มเหลวจาก Startup ชื่อดังทั่วโลก | เจ็ดโมงครึ่ง
วิดีโอ: บทเรียนความล้มเหลวจาก Startup ชื่อดังทั่วโลก | เจ็ดโมงครึ่ง

เนื้อหา


Takeaway:

การลดเวลาหยุดทำงานด้วยการวางแผนล่วงหน้าที่พิถีพิถันอาจหมายถึงความแตกต่างระหว่างการเติบโตของธุรกิจและการลดลง นั่นคือเวลาเฉลี่ยระหว่างความล้มเหลวเข้ามา

อย่าดูถูกดูแคลนว่า บริษัท ในปัจจุบันต้องพึ่งพาระบบที่สำคัญมากเพียงใดในแต่ละวัน เหตุใดจึงเป็นเพียงสามัญสำนึกที่องค์กรสามารถวัดความเสี่ยงของความล้มเหลวของอุปกรณ์ เมื่อไม่มีการรับประกันว่าอุปกรณ์ชิ้นใดจะล้มเหลวอย่างน้อยที่สุดจะต้องมีการประมาณการที่ถูกต้องว่าเมื่อใดจึงไม่สามารถเชื่อถือได้อีกต่อไป

ชิ้นส่วนที่มองไม่เห็นอาจดูเหมือนไม่สำคัญต่อธุรกิจ แต่เมื่อพัดลมระบายความร้อนหนึ่งตัวล้มเหลวทำให้เครื่องกำเนิดไฟฟ้าล้มเหลวและทำให้ผู้ใช้หลายสิบหรือหลายแสนคนมีปัญหาค่าใช้จ่ายเป็นระยะเวลานานคุณสามารถ ดูว่าการประเมินส่วนประกอบของโครงสร้างพื้นฐานของคุณอาจล้มเหลว - และเมื่อใด - มีความสำคัญอย่างยิ่ง นั่นคือเวลาเฉลี่ยระหว่างความล้มเหลว (MTBF) เข้ามาวิธีการที่ผู้เชี่ยวชาญด้านไอทีพึ่งพาต้องให้ความแม่นยำ ประมาณการ เกี่ยวกับเวลาที่อุปกรณ์สำคัญจะล้มเหลว ที่นี่เรามาดูสิ่งที่ในที่สุดก็ฆ่าอุปกรณ์ทั่วไปบางประเภทที่สำคัญและวิธีที่ MTBF สามารถช่วยได้ทั้งวัน


MTBF คืออะไร

อุปกรณ์ไอทีทุกชิ้นที่ผลิตขึ้นจะได้รับหมายเลขรุ่นเฉพาะ ผู้ที่มีส่วนร่วมในโครงสร้างพื้นฐานที่สำคัญบางอย่างนั้นมอบให้กับลูกค้าด้วยการประเมิน MTBF การคำนวณที่ซับซ้อนในการคำนวณ MTBF สำหรับชิ้นส่วนของอุปกรณ์เกิดขึ้นในช่วงการทดสอบที่ยาวนานในการวิจัยและพัฒนาผลิตภัณฑ์และมีความเฉพาะเจาะจงกับรุ่นใดรุ่นหนึ่งโดยเฉพาะ

หากคุณกำลังมองหา MTBF สำหรับอุปกรณ์ชิ้นใดชิ้นหนึ่งคุณจะพบมันได้ในเอกสารข้อกำหนดรายละเอียดที่จัดทำโดยผู้ผลิต คุณยังสามารถติดต่อผู้ผลิตโดยตรง

เส้นทาง

เราเตอร์ระดับองค์กรประกอบด้วยชิ้นส่วนหลายชิ้นบางชิ้นเคลื่อนที่และชิ้นส่วนอื่น ๆ คงที่ หน่วยจ่ายไฟ (PSU) และพัดลมระบายความร้อนทั้งคู่มีชิ้นส่วนที่เคลื่อนไหวและองค์ประกอบเหล่านั้นมีแนวโน้มที่จะเป็นจุดที่เกิดความล้มเหลวโดยเฉพาะอย่างยิ่งหากหน่วยไม่ได้อยู่ในศูนย์ข้อมูลที่ค่อนข้างปราศจากฝุ่น โชคดีที่มีการป้อนข้อมูลของผู้ดูแลระบบเราเตอร์ส่วนใหญ่จะรายงานไปที่ SysLog สิ่งอำนวยความสะดวกเพื่อให้สามารถทำเครื่องหมายส่วนประกอบที่ล้มเหลวได้

สวิทช์

เลเวลที่คล้ายกันระดับถัดไปภายในเครือข่ายองค์กรคือฮาร์ดแวร์สวิตชิ่ง ถึงแม้ว่าสวิตช์ระดับองค์กรจะพึ่งพาแฟน ๆ แต่มักจะน้อยกว่าสวิตช์ที่พบในแชสซีเราเตอร์ หากแฟน ๆ กำลังส่งเสียงวิพากษ์วิจารณ์กลไกเหมือนเดิมสวิตช์ผิดปกติจะทำงานผิดปกติในระดับซอฟท์แวร์ไม่ว่าจะโดยการปิดสวิตช์พอร์ตโดยไม่คาดหมายหรือมากกว่าปกติแสดงพฤติกรรมที่ผิดปกติเช่นแพ็คเก็ตทิ้งทำให้ระดับการจราจรติดขัดหรือไม่ถูกต้อง การตั้งค่าที่ผู้ใช้กำหนดโดยไม่ต้องขอให้ทำ


ระบบเครือข่ายนั้น Cisco โฆษณาเราเตอร์หนึ่งในนั้นว่ามี MTBF ที่ 188,574 ชั่วโมงสำหรับรุ่น Cisco Catalyst 3750G-24TS หากเราหารด้วย 8,765.81277 (จำนวนชั่วโมงในหนึ่งปี) จากนั้นเราจะเห็นว่าแบบจำลองนี้มีการประเมิน MTBF ประมาณ 21.5 ปี รูปนั้นมีความมั่นใจเมื่อคุณพิจารณาว่าอุปกรณ์นี้จำเป็นต้องทำงานได้ดีตลอด 24/7 โดยไม่มีข้อผิดพลาดแม้ว่าแน่นอนว่าในความเป็นจริงแล้วมันเป็นเพียงตัวบ่งชี้ความน่าเชื่อถือของมัน ถึงกระนั้นก็ตามมันยังช่วยให้ผู้ใช้คาดเดาได้อย่างมีความรู้ว่าอุปกรณ์ชิ้นนั้นสามารถใช้งานได้นานเท่าไหร่

พลังความยืดหยุ่น

แหล่งจ่ายไฟสำรอง (UPS) ที่ต่อกับแบตเตอรี่จำนวนมากสามารถให้พลังงานสำรองภายในองค์กรได้ในช่วงเวลาสั้น ๆ ก่อนที่เครื่องปั่นไฟจะปั่นไฟในช่วงที่ไฟฟ้าดับ ความผิดพลาดของซอฟต์แวร์บางอย่างสามารถเกิดขึ้นได้ใน UPS เช่นเดียวกับอุปกรณ์ใด ๆ แต่โดยทั่วไปแล้วแบตเตอรี่ที่พวกเขาใช้พลังงานมักจะทำให้เกิดความกังวลมากที่สุด หากแบตเตอรี่ของ UPS มีการปิดและชาร์จใหม่บ่อยครั้งความจุของแบตเตอรี่จะลดลงเร็วขึ้นและเวลาในการทำงานจะสั้นลงอย่างมาก ไม่น่าแปลกใจที่อาจเป็นไปได้สำหรับแบตเตอรี่ UPS ที่จะล้มเหลวอย่างสิ้นเชิง UPS สามารถรายงานผ่านโมเด็มและเครือข่ายเมื่อเกิดข้อผิดพลาด แต่บ่อยครั้งที่ UPS ที่มีอายุมากกว่าจะแจ้งเตือนเมื่อมีปัญหาเกิดขึ้น

ไม่มีข้อบกพร่องไม่มีความเครียด - คู่มือแบบเป็นขั้นตอนเพื่อสร้างซอฟต์แวร์ที่เปลี่ยนแปลงชีวิตโดยไม่ทำลายชีวิตของคุณ

คุณไม่สามารถพัฒนาทักษะการเขียนโปรแกรมของคุณเมื่อไม่มีใครใส่ใจคุณภาพของซอฟต์แวร์

การจัดเก็บที่มีการป้องกัน

ฮาร์ดดิสก์ที่เราใช้ในปัจจุบันและใช้ในระดับสูงได้กลายเป็นที่น่าเชื่อถือมากขึ้นกว่าทศวรรษที่ผ่านมาหรือดังนั้น อย่างไรก็ตามพวกเขาอยู่ไกลจากความผิดพลาดและขึ้นอยู่กับการศึกษาที่คุณอาจเชื่อว่าพวกเขาดูเหมือนจะทำงานได้อย่างถูกต้องเป็นระยะเวลานานขึ้นอยู่กับปัจจัยหลายประการ (ส่วนความเห็นที่ดีเกี่ยวกับเรื่องนี้สามารถพบได้ที่นี่ใน The Remarketer) หากเปิดใช้งานการรายงานโดยละเอียดและไดรฟ์กำลังให้ข้อเสนอแนะเกี่ยวกับข้อผิดพลาดภาคที่เสียหายและการอ่าน / เขียนล้มเหลวเป็นกุญแจสำคัญในการตรวจสอบเมื่อดิสก์ภายในอาร์เรย์เก็บข้อมูล ล้มเหลว ปัญหาที่พบบ่อยอื่นภายในเซิร์ฟเวอร์ที่ใช้ดิสก์หลายแผ่นที่เชื่อมต่อกับตัวควบคุม RAID คือตัวควบคุมจะล้มเหลว แต่น่าเสียดายที่บางครั้งฮาร์ดดิสก์ก็หยุดทำงานโดยไม่มีการเตือนใด ๆ ปัญหาที่ยากที่จะป้องกันได้อย่างน่าเชื่อถือ

เซิร์ฟเวอร์

นอกเหนือจากไดรฟ์ที่ติดตั้งไว้ในเซิร์ฟเวอร์และชิ้นส่วนที่เคลื่อนไหวเช่นพัดลมระบายความร้อนและ PSU แล้วปัญหายังสามารถเกิดขึ้นได้ภายในส่วนประกอบฮาร์ดแวร์ของเซิร์ฟเวอร์ การรายงานในระดับซอฟต์แวร์ (ซึ่งโดยปกติจะอ้างถึง BIOS หรือการวิเคราะห์ส่วนประกอบฮาร์ดแวร์ระดับต่ำอื่น ๆ ) เป็นกุญแจสำคัญในการตรวจสอบเมื่อสิ่งที่ล้มเหลวหรือที่สำคัญกว่านั้นคือแสดงสัญญาณของความล้มเหลว ปัญหาหนึ่งที่อาจไม่ชัดเจนในทันทีคือสิ่งที่มีผลต่อมาเธอร์บอร์ด มันทำให้รู้สึกที่สมบูรณ์แบบที่เครื่องจักรไม่ชอบความร้อนมากเกินไป แต่แม้กระทั่งทุกวันนี้หากแผงวงจรที่ทันสมัยมีการสูญเสียความร้อนอย่างรวดเร็วหรือจากการวิ่งร้อนมากจนกลายเป็นเย็น - รอยร้าวสามารถปรากฏขึ้นทำให้กระดานล้มเหลวอย่างรุนแรง เป็นเรื่องที่ควรคำนึงถึงโดยเฉพาะอย่างยิ่งหากคุณกำลังเคลื่อนย้ายอุปกรณ์ระหว่างอาคารภายในกรอบเวลาการบำรุงรักษา

MTBF: มันล้มเหลวได้เช่นกัน

มีประโยชน์เช่นเดียวกับการคาดการณ์ MTBF เป็นสิ่งสำคัญในการคำนวณระดับความเสี่ยงที่ยอมรับได้ด้วยอุปกรณ์ใด ๆ ที่ธุรกิจต้องพึ่งพา น่าเสียดายที่แม้จะมีการรับรองทางสถิติทั้งหมดที่ได้รับจากผู้ผลิตวิธีเดียวที่เป็นรูปธรรมในการรับประกันความพร้อมใช้งานของอุปกรณ์ที่ใช้งานระบบที่สำคัญคือการเพิ่มเป็นสองเท่าเพื่อเปิดใช้งานการล้มเหลวหมดเวลา

ฮาร์ดแวร์แต่ละชิ้นทุกชิ้นที่ใช้ในองค์กรนั้นประกอบด้วยส่วนประกอบที่แตกต่างกันมากมายดังนั้น MTBF ที่แท้จริงจึงอยู่ไกลจากการคำนวณเล็กน้อย เห็นได้ชัดว่าเป็นเรื่องสำคัญที่จะไม่หยุดพักธุรกิจในอนาคตด้วยการวัดความเป็นไปได้เหล่านี้ แต่ใช้พวกมันเป็นเครื่องมือวัดในการตัดสินใจอย่างชาญฉลาดเกี่ยวกับความต่อเนื่องทางธุรกิจและกระบวนการกู้คืนความเสียหาย ท้ายที่สุดการลดการหยุดทำงานด้วยการวางแผนล่วงหน้าที่พิถีพิถันอาจหมายถึงความแตกต่างระหว่างความสำเร็จของธุรกิจและความล้มเหลวทางธุรกิจ