ทำไม Hadoop เป็นคู่ที่สมบูรณ์แบบสำหรับการหาลำดับจีโนม

ผู้เขียน: Roger Morrison
วันที่สร้าง: 19 กันยายน 2021
วันที่อัปเดต: 5 พฤษภาคม 2024
Anonim
How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox
วิดีโอ: How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox

เนื้อหา


ที่มา: A3701027 / Dreamstime.com

Takeaway:

การหาลำดับจีโนมต้องการเครื่องมือเทคโนโลยีที่มีประสิทธิภาพในการจัดการข้อมูลทั้งหมดและ Hadoop ขึ้นอยู่กับภารกิจ

จีโนมคลินิกเป็นเรื่องที่น่าสนใจซึ่งผู้คนกำลังทำงานกับเทคโนโลยีที่ทันสมัยเพื่อประมวลผลผลลัพธ์ที่รวดเร็วและแม่นยำ มีซีเควนของจีโนมจำนวนมากที่มีอยู่ในท้องตลาดและพวกเขากำลังผลิตข้อมูลลำดับเพตาไบต์และการเติบโตของลำดับนั้นจะทำให้เกิดข้อมูลจำนวนมากในอนาคตอันใกล้ ที่นี่ Hadoop เป็นแพลตฟอร์มที่สมบูรณ์แบบสำหรับกระบวนการทำงานของฟังก์ชั่นจีโนมที่ซับซ้อน Hadoop สามารถจัดเก็บและเรียงลำดับข้อมูลจำนวนมหาศาลและสามารถทำการวิเคราะห์ที่มีความหมาย (หากต้องการทราบว่าข้อมูลนี้เกี่ยวข้องกับข้อมูลเท่าใดโปรดอ่านการทำความเข้าใจบิตไบต์และหลายรายการ)

ปัจจุบันและอนาคตของจีโนม

วันนี้การทำแผนที่จีโนมได้ถึงจุดสูงสุดของการพัฒนา ผู้คนจำนวนมากที่เกี่ยวข้องกับอุตสาหกรรมจีโนมิกส์นั้นเต็มไปด้วยความอยากรู้อยากเห็นและเมื่อมีโอกาสใหม่ ๆ ที่จะนำเสนอตัวเองเทคโนโลยีที่ดีกว่าคือความต้องการของชั่วโมง การหาลำดับจีโนมเป็นงานที่ทำซ้ำ ๆ และใช้ทรัพยากรมาก ในปี 2013 เพียงอย่างเดียวมีการผลิตข้อมูลประมาณ 15 เพตาไบต์และมีเพียง 2,000 ซีเควนเท่านั้น จำนวนขากรรไกรล่างนี้รวมถึงข้อมูลลำดับจีโนมของมนุษย์ที่มีการเรียงลำดับ 300 KB ในอัตราการผลิตข้อมูลนี้สามารถประมาณได้ว่าภายในปี 2561 จะมีการผลิตข้อมูลประมาณหนึ่งไบต์ นี้จะเกิดจากการเติบโตของ sequencers ซึ่งจะสร้างข้อมูลมากขึ้นต่อการทำงาน อีกเหตุผลหนึ่งก็คือการมีเครื่องหาลำดับจีโนมที่ทรงพลังและราคาไม่แพง ตั้งแต่ปี 2008 ราคาของเครื่องจักรเหล่านี้ได้ลดลงอย่างต่อเนื่อง นี่เป็นเพราะเครื่องจักรรุ่นต่อไปที่ทรงพลังที่เข้าสู่ตลาด


ความต้องการของอุตสาหกรรมการทำแผนที่จีโนม

อัลกอริทึมที่ซับซ้อนใช้สำหรับการประมวลผลข้อมูลที่รวบรวมจากจีโนมมนุษย์ จากนั้นข้อมูลนี้จะต้องถูกจัดเก็บ มันอาจถูกตรวจสอบในอนาคตเพื่อเปรียบเทียบกับข้อมูลต้นฉบับ งานการประมวลผลและการจัดเก็บข้อมูล 100 GB นั้นไม่ยากเกินไปโดยเฉพาะเมื่อคุณกำลังทำกับเครื่องที่ทรงพลังที่ใช้ในศูนย์ลำดับ การศึกษาแสดงให้เห็นว่าข้อมูลจำนวนนี้สามารถประมวลผลได้ในเวลาเพียงประมาณ 1,000 ชั่วโมงของ CPU ดังนั้นมันจึงง่ายมาก ในอัตราความก้าวหน้าทางเทคนิคนี้เห็นได้ชัดว่าอุตสาหกรรมจีโนมจะประมวลผลเร็ว ๆ นี้หลายพันกิกะไบต์ในเวลาเพียงไม่กี่วินาที

อย่างไรก็ตามเทคนิคการจัดการข้อมูลและการจัดเก็บข้อมูลนั้นไม่ได้พัฒนาอย่างรวดเร็วเนื่องจากคาดว่าจะมีการสูญเสียข้อมูลอันมีค่าจำนวนมาก สิ่งนี้ไม่เป็นที่พึงปรารถนาจริงๆเพราะจะเป็นอุปสรรคต่อการดำเนินการในจีโนมิกของมนุษย์อย่างจริงจัง ดังนั้นความต้องการเทคนิคการจัดการข้อมูลที่มีประสิทธิภาพซึ่งสามารถอัปเดตได้ง่ายนั้นมีค่าสูงมาก สิ่งนี้จะมีประสิทธิภาพโดยเฉพาะอย่างยิ่งในอนาคตอันใกล้นี้ที่การทำแผนที่จีโนมจะย้ายจากห้องทดลองขนาดใหญ่ที่มีคอมพิวเตอร์ที่มีประสิทธิภาพไปยังโรงพยาบาลขนาดเล็กและห้องปฏิบัติการ


คาดว่าจะมีอะไรในการแก้ปัญหา?

ก้าวที่เทคนิคการหาลำดับจีโนมใหม่ถูกค้นพบและพัฒนาขึ้นสูงมาก ก้าวนี้จะเป็นประโยชน์อย่างมากกับวิทยาศาสตร์การแพทย์ในรูปแบบของขั้นตอนที่มีประสิทธิภาพในการกำจัดโรคที่สำคัญ อย่างไรก็ตามการก้าวนี้อาจเป็นสิ่งที่ท้าทายเช่นกัน

ความท้าทายมาในรูปแบบของการจัดการข้อมูลจำนวนมากที่ผลิตโดยโครงการลำดับ ดังนั้นจึงจำเป็นต้องใช้โซลูชันที่มีประสิทธิภาพซึ่งจะช่วยในการจัดเก็บและประมวลผลข้อมูลขนาดใหญ่ วิธีการแก้ปัญหานี้จะต้องมีราคาถูกและรวดเร็วในขณะที่ปรับตัวด้วย การวิเคราะห์ที่ได้จากโซลูชันนี้จะต้องแม่นยำและคงที่เช่นกัน ดังนั้นทางออกของปัญหาคืออะไร ไม่ต้องสงสัยเลยว่ามันคือ Hadoop (สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้ Hadoop ให้ดู 5 ข้อมูลเชิงลึกเกี่ยวกับ Big Data (Hadoop) เป็นบริการ)

ทำไม Hadoop เป็นทางออกที่ดีที่สุดสำหรับการหาลำดับจีโนม

สิ่งที่อุตสาหกรรมจีโนมต้องการคือโซลูชั่นที่เหนือกว่าที่สามารถช่วยให้พวกเขาจัดการข้อมูลได้อย่างมีประสิทธิภาพประมวลผลและจัดเก็บไว้เพื่อใช้ในอนาคต วิธีนี้ดูเหมือนจะตรงกับซอฟต์แวร์ Hadoop อย่างสมบูรณ์แบบ ดังนั้น Hadoop ถือได้ว่าเป็นซอฟต์แวร์การจัดการข้อมูลขนาดใหญ่ที่สมบูรณ์แบบซึ่งสามารถปรับปรุงเทคนิคการจัดเก็บข้อมูลปัจจุบันของอุตสาหกรรมจีโนมได้อย่างมาก

ความสามารถของ Hadoop ในแบบเรียลไทม์ทำให้ซีเควนจีโนมสามารถวิเคราะห์และจัดเก็บข้อมูลจำนวนมากได้พร้อมกันแบบเรียลไทม์ นอกจากนี้ยังช่วยให้การใช้ข้อมูลในอนาคต Hadoop สามารถเอาชนะระบบดั้งเดิมได้มากมายเนื่องจากเร็วกว่าและเชื่อถือได้มากกว่าระบบอื่น

ไม่มีข้อบกพร่องไม่มีความเครียด - คู่มือแบบเป็นขั้นตอนเพื่อสร้างซอฟต์แวร์ที่เปลี่ยนแปลงชีวิตโดยไม่ทำลายชีวิตของคุณ

คุณไม่สามารถพัฒนาทักษะการเขียนโปรแกรมของคุณเมื่อไม่มีใครใส่ใจคุณภาพของซอฟต์แวร์

Hadoop ทำอะไรได้อีก

เนื่องจาก Hadoop ความเป็นไปได้และโอกาสจำนวนมากได้เปิดขึ้นในสาขาจีโนมและลำดับของยีน Hadoop เสนอตัวเลือกการคำนวณแบบขนานเนื่องจากสามารถจัดลำดับได้เร็วขึ้น นอกจากนี้การใช้ฟังก์ชั่น MapReduce ของ Hadoop ทำให้สามารถแมปยีนจำนวนมากได้อย่างง่ายดาย ด้วยเหตุนี้การเรียงลำดับกับ Hadoop จะกลายเป็น "รุ่นต่อไป" อย่างแท้จริงและจะมีความซับซ้อนน้อยกว่ามาก

โอกาสสำหรับ Hadoop

Hadoop มีโอกาสมากมายในอุตสาหกรรมจีโนม แต่สิ่งที่ดีที่สุดนั้นมาจากบทความของ Lynda Chin ที่ว่า "การทำความเข้าใจกับข้อมูลจีโนมมะเร็ง" ในวารสาร Genes & Development ในบทความนี้เธอกล่าวถึงวิธีการฟังก์ชั่นที่ทันสมัยได้เปิดประตูใหม่และสิ่งนี้นำไปสู่ผลลัพธ์ในเชิงบวกมากมายเช่นการค้นพบข้อมูลจีโนมเกี่ยวกับโรคมะเร็ง ด้วยเหตุนี้เราจึงใกล้ชิดกับการค้นพบวิธีรักษาโรคมะเร็งด้วยตนเอง อย่างไรก็ตามสิ่งนี้ต้องการความสนใจเพิ่มขึ้นเล็กน้อยและแอพพลิเคชั่นการจัดการข้อมูลที่ทรงพลังเพื่อความสามารถในการวิจัยที่ดีขึ้นในสาขานี้ นี่เป็นโอกาสที่ดีที่สุดสำหรับ Hadoop ในการพิสูจน์ความเร็วพลังและความแม่นยำ

Crossbow: แพลตฟอร์มการจัดการข้อมูลยุคใหม่

Crossbow ซึ่งเป็นซอฟแวร์ที่มีไว้สำหรับการวิเคราะห์ลำดับจีโนมเป็นหนึ่งในโซลูชั่นที่ดีที่สุด มันเป็นผลมาจากการรวมภายใน Hadoop ระหว่างอัลกอริทึมแบบรวดเร็วสำหรับการจัดเรียงข้อมูลตามลำดับซึ่งเรียกว่า Bowtie และอัลกอริทึมที่มีประสิทธิภาพที่เปรียบเทียบและตรวจสอบข้อมูลลำดับเช่นจีโนไทป์ชื่อ SoapSNP มันถูกสร้างขึ้นบน Apache Hadoop และขึ้นอยู่กับการดำเนินการตามกรอบ MapReduce หน้าไม้เป็นแบบพกพาปรับขนาดได้และยังเหมาะสำหรับเป็นเครื่องมือคำนวณแบบคลาวด์

ด้วยการรวมอันทรงพลังนี้ทำให้สามารถตรวจสอบจีโนมที่สมบูรณ์ได้ในหนึ่งวันบนคลัสเตอร์โลคัลที่มี 10 โหนด ด้วยคลัสเตอร์ 40 โหนดกระบวนการนี้จะเร็วขึ้นและเสร็จสมบูรณ์ในเวลาเพียงสามชั่วโมงด้วยค่าใช้จ่ายรวมน้อยกว่า $ 100! การศึกษาที่ดำเนินการเพื่อทดสอบความถูกต้องของหน้าไม้แสดงให้เห็นว่าสามารถเปรียบเทียบแต่ละจีโนมได้อย่างแม่นยำ 99 เปอร์เซ็นต์ คุณสมบัติที่เป็นประโยชน์อีกประการของ Crossbow ก็คือมันทำงานบนคลาวด์ ดังนั้น Crossbow จะช่วยให้ศูนย์ลำดับในอนาคตหลายพันแห่งเช่นโรงพยาบาลสามารถจัดลำดับข้อมูลจีโนมจำนวนมากโดยไม่ต้องใช้คอมพิวเตอร์และเทคโนโลยีที่ทรงพลังและมีราคาแพง

ซอฟต์แวร์จีโนมอื่น ๆ ที่ใช้ Hadoop

บริษัท หลายแห่งตระหนักถึงพลังของ Hadoop ในการเปลี่ยนแปลงโลกของจีโนม พวกเขาได้ดัดแปลง Hadoop อย่างเหมาะสมเพื่อเจาะศักยภาพของการหาลำดับจีโนมขั้นสูง ตัวอย่างของการหาลำดับเบสจีโนมที่มีชื่อเสียงของ Hadoop มีดังต่อไปนี้:

  • Hadoop-BAM: นี่เป็นเครื่องมือการจัดการข้อมูลที่ทรงพลังซึ่งใช้ฟังก์ชั่น MapReduce ของ Hadoop สำหรับกิจกรรมต่าง ๆ ที่เกี่ยวข้องกับฟังก์ชั่นจีโนมเช่นจีโนไทป์ สามารถใช้งานได้ในรูปแบบ Binary Alignment / Map
  • Cloudburst: โซลูชั่นที่ใช้ Hadoop นี้สร้างขึ้นในปี 2009 มันมีประสิทธิภาพอย่างมากในการเปรียบเทียบลำดับจีโนมและการทำแผนที่ยีนแต่ละตัว นี่เป็นหนึ่งในแอปพลิเคชั่นที่ใช้ Hadoop ตัวแรกที่ออกแบบมาเพื่อจุดประสงค์นี้

ข้อสรุป

การรวมตัวกันระหว่างข้อมูลขนาดใหญ่และอุตสาหกรรมจีโนมิกส์พิสูจน์ได้ว่าเป็นประโยชน์ในยุคปัจจุบัน แพลตฟอร์มเหล่านี้มีประสิทธิภาพในการค้นพบการรักษาโรคต่าง ๆ เช่นโรคมะเร็ง ข้อมูลที่ถูกค้นพบโดยการทำแผนที่จีโนมสามารถใช้ในการกำหนดข้อมูลการป้องกันของโรคดังกล่าว การถือกำเนิดของข้อมูลขนาดใหญ่ถือได้ว่าเป็นจุดเปลี่ยนในโลกของจีโนมิกส์และหากมีการใช้ข้อมูลอย่างชาญฉลาดอาจเป็นไปได้ในด้านการดูแลสุขภาพที่กว้างขึ้นเช่นกัน วิธีเดียวสำหรับฟิลด์นี้เพื่อล่วงหน้าคือการใช้เครื่องมือการจัดการข้อมูลที่เหมาะสมเช่น Hadoop