LINWARE | Blog | Cómo la informática de alto rendimiento está impulsando la era del Big Data genómico

BLOG

Cómo la informática de alto rendimiento está impulsando la era del Big Data genómico

Publicada el 19/02/2020

A nivel celular, todos utilizan la misma excelente base de datos genéticos para controlar su apariencia, así como también cómo se desarrollan, funcionan y se comportan.

Este conjunto de información increíblemente complejo está codificado en la molécula de ADN existente en cada célula de cada organismo. El ADN es efectivamente el manual o modelo que contiene toda la información esencial e instrucciones en forma química para construir, hacer crecer y mantener un ser vivo.

En este momento, estamos en un viaje de descubrimiento para descubrir más de los secretos guardados dentro de la estructura microscópica del ADN. Es un área de investigación que tiene enormes posibilidades potenciales para todos nosotros; todo, desde aumentar la producción de alimentos hasta ayudarnos a comprender, diagnosticar, tratar y curar una serie de enfermedades.

¿Por qué estoy particularmente interesado? Porque Linux y High Performance Computing (HPC) son tecnologías habilitadoras clave detrás de todas las investigaciones y avances en este campo.

La era de la investigación genómica.

Toda nuestra información genética se transporta en dos cadenas de ADN (ácido desoxirribonucleico) que se enrollan entre sí en forma de doble hélice. Francis Crick y James Watson identificaron por primera vez correctamente esta estructura molecular en 1953. Pero no fue hasta la finalización del Proyecto del Genoma Humano en abril de 2003 que toda la información genética en el genoma humano (una palabra técnica para todo nuestro ADN) fue identificada, secuenciada y mapeada con éxito.

Este vasto proyecto de investigación científica internacional tomó un total de 13 años y costó aproximadamente $ 2.7 mil millones para completar. Eso no es sorprendente, porque el ADN es una sustancia sorprendente y complicada.

Han pasado solo 17 años desde que se completó el Proyecto Genoma Humano inicial. En ese tiempo, el costo y el tiempo necesarios para secuenciar un genoma humano parcial o completo se han reducido. Hoy en día, las pruebas genéticas se han convertido en algo común y a menudo se pueden completar en cuestión de semanas.

Esto significa que ahora podemos mapear fácilmente el genoma de cualquier individuo para permitir un tratamiento médico más preciso. También hace posible construir y mantener bases de datos profundas y amplias de información genética del mundo real. Con este nivel de big data, podemos comenzar a automatizar el análisis a gran escala de información genética que ayuda a mejorar la atención médica para poblaciones enteras.

Mis claves para llevar

No hay duda al respecto. Estamos viviendo tiempos increíbles. Aquí hay algunos pensamientos de despedida con los que me gustaría dejarte:

Los beneficios de la investigación de código abierto
El Proyecto Genoma Humano es un excelente ejemplo de cooperación internacional a gran escala. Se requirió un esfuerzo de equipo estrechamente coordinado y colaborativo para completar. Una vez que el genoma humano se había secuenciado y decodificado con éxito, se puso a disposición del público de inmediato. Desde entonces, se ha publicado regularmente nueva información y se ha puesto a disposición gratuitamente. Aquí en SUSE, estamos totalmente comprometidos con este ideal de "código abierto" impulsado por la comunidad. Permea todo lo que hacemos.

El ADN es sorprendente para el almacenamiento de datos
Este año, se estima que por cada persona en el planeta, se producirán 1,7 MB de datos por segundo. Esa es una cantidad asombrosa de datos nuevos que se generan cada año. También significa que tenemos un problema de almacenamiento de datos que se avecina en el horizonte. Afortunadamente, el ADN hace posible almacenar con precisión grandes cantidades de datos a una densidad mucho más allá de cualquier dispositivo electrónico que estemos usando actualmente. También es estable e increíblemente eficiente energéticamente. Puede sonar a ciencia ficción en este momento, pero el año pasado toda la información en Wikipedia fue codificada con éxito en ADN sintético. Entonces, mira este espacio ...

Mejoras económicas y de rendimiento de las soluciones HPC
El Proyecto Genoma Humano inicial entre 1990 y 2003 fue un triunfo bioinformático . Este es un campo de ciencia multidisciplinar que combina biología, informática, herramientas de software, ingeniería de la información, matemáticas y estadística. Por razones obvias, el proyecto requirió el uso de supercomputadoras para manejar todos los cálculos numéricos involucrados. Como puede ver en el gráfico a continuación, el costo de secuenciar genomas humanos ha disminuido drásticamente a lo largo de los años.

Fuente de la imagen: Instituto Nacional de Investigación del Genoma Humano

Hay dos razones para esto. Uno se debe a los avances en los métodos de secuenciación de genes, con más automatización y mayores rendimientos. El otro se debe al rendimiento y la economía enormemente mejorados de las supercomputadoras. La opción más rápida de hoy es rendir 85 veces más rápido que cualquier opción disponible hace una década. Y cada uno de los 500 principales ahora se ejecuta en Linux, lo que garantiza que sea mucho más rentable.

SUSE lidera el camino en la adaptación de Linux para entornos HPC. ¿Por qué no tomarse un momento para consultar la información disponible en cualquiera de estos enlaces?

Ir al Blog