bioinformatica: concepto y aplicaciones

OBJETIVO DEL TEMA

- Mostrar que el campo de la bioinformatica y sus aplicaciones son importantes en la sociedad.

PREGUNTAS DE INVESTIGACION

1.- Que se entiende por bioinformatica?

2.-Por que es importante desarrollar el campo de la bioinformatica?

3.- Cuales son los principales campos de la bioinformatica?

4.- Que herramientas se utilizan y son útiles en la bioinformatica?

5.- La informática de que manera ayuda a este campo?

5.- De que manera ayudo hasta ahora la bioinformatica?

6.-Cuel es el beneficio de la bioinformatica en la sociedad?

8.- Que proyectos existen para el futuro respecto a bioinformatica?

ESQUEMA

1. Bioinformatica

a. Concepto de bioinformatica

b. Importancia de la bioinformatica

c. Herramientas que utiliza

i. Campos de la bioinformatica

ii. La importancia de la informatica

d. Beneficios de la bioinformatica

i. Linea de tiempo de la bioinformatica

ii. Los proyectos que ayudaron hasta ahora

e. El futuro de la bioinformatica

Una definición generalmente aceptada sería: "Una disciplina científica que se interesa por todos los aspectos relacionados con la adquisición, almacenamiento, procesamiento, distribución, análisis e interpretación de información biológica, mediante la aplicación de técnicas y herramientas de las matemáticas, de la biología y de la informática, con el propósito de comprender el significado biológico de una gran variedad de datos".

Es el campo interdisciplinar que se encuentra en la intersección entre las Ciencias de la Vida y de la Información. Es útil para llegar a entender el flujo de información desde los genes a las estructuras moleculares, a su función bioquímica, a su conducta biológica y, finalmente, a su influencia en las enfermedades y características agronomicas.

La bioinformática es en la actualidad uno de los campos de la ciencia más dinámicos y con más proyección. Es una disciplina entre la biología molecular, la informática y la estadística, que permite usar los ordenadores para investigar la biología de nuestras moléculas.

Aparte de las definiciones formales de organismos o instituciones de referencia, los manuales de esta materia aportan sus propias definiciones operativas, lógicamente vinculadas en mayor o menor medida con las ya vistas.

Como ejemplo, David W. Mount, en su difundido texto sobre bioinformática,^[] precisa que:

…la bioinformática se centra más en el desarrollo de herramientas prácticas para la gestión de datos y el análisis (por ejemplo, la presentación de información genómica y análisis secuencial), pero con menor énfasis en la eficiencia y en la precisión.

Por otra parte, y según el mismo autor:

…la biología computacional generalmente se relaciona con el desarrollo de algoritmos nuevos y eficientes, que se puede demostrar funcionan sobre un problema difícil, tales como el alineamiento múltiple de secuencias o el montaje (o ensamblado) de fragmentos de genoma.

Por último, se encuentra en ocasiones una categorización explícita de estos conceptos según la cual la bioinformática es una subcategoría de la biología computacional. Por ejemplo, la bióloga Cynthia Gibas anota que:^[]

La bioinformática es la ciencia del uso de la información para entender la biología. Hablando estrictamente, la bioinformática es un subconjunto del campo mayor de la biología computacional, (siendo esta última) la aplicación de técnicas analíticas cuantitativas en el modelado de sistemas biológicos.

IMPORTANCIA DE LA BIOINFORMATICA

Importancia de la bioinformatica

Las principales aplicaciones de la bioinformática son la simulación, la minería de datos (data mining) y el análisis de los datos obtenidos en los proyectos genoma (Proyecto de Genoma Humano) o proteoma.

Entre los principales factores que han favorecido el desarrollo de esta disciplina, se encuentra el impresionante volumen de datos sobre secuencias generadas por los distintos proyectos genoma (tanto el humano como el de otros organismos); los nuevos enfoques experimentales, basados en biochips que permiten obtener datos genéticos a gran velocidad, bien de genomas individuales (mutaciones, polimorfismos), o de enfoques celulares (expresión génica); así como el desarrollo de Internet y la World Wide Web, que permite el acceso mundial a las bases de datos de información biológica.

A su vez la ayuda que brindo para el desarrollo de nuevas formas de tratamientos para los distintos males congénitos que se presentan por variaciones genéticas, asido una ayuda inmensa en el área de la medicina.

HERRAMIENTAS QUE UTILIZA

Herramientas que utiliza

Campos de aplicación de la bioinformatica

Gestión de datos en el laboratorio

Automatización de experimentos

Ensamblaje de secuencias contiguas

Predicción de dominios funcionales en secuencias génicas

Alineación de secuencias

Búsquedas en las bases de datos de estructuras

Determinación de la estructura de macromoléculas

Predicción de la estructura de macromoléculas

Evolución molecular.

Árboles filogenéticos

La importancia de la informatica

Básicamente, los sistemas informáticos se emplean en este campo para:

Adquisición de datos

Software para visualización

Programas para control de reactivos, geles y otros materiales

Generación y ensamblaje de secuencias

Análisis de datos

Programas para análisis de secuencias

Predicción de estructura de proteínas

Paquetes de integración y ensamblaje de mapas genéticos

Software para clasificación y comparación

Técnicas de Inteligencia Artificial

Gestión de datos

Bases de datos locales o accesibles mediante redes de comunicaciones.

Distribución de datos

Redes de comunicaciones

ENLACES INTERSANTES

Software para bioinformatica

BENEFICIOS DE LA BIOINFORMATICA

Linea de tiempo de la bioinformatica

Las primeras décadas: años 60 y 70 del siglo XX

En 1970 se publica el algoritmo Needleman-Wunsch para alineamiento de secuencias; se establece el Brookhaven Protein Data Bank (1971),se crea la primera molécula de ADN recombinante (Paul Berg, 1972), E. M. Southern desarrolla la técnica Southern blot de localización de secuencias específicas de ADN (1976), comienza la secuenciación de ADN y el desarrollo de software para analizarlo (F. Sanger, software de R. Staden, 1977), y se publica en 1978 la primera secuencia de genes completa de un organismo, el fago Φ-X174 (5.386 pares de bases que codifican 9 proteínas).

años 80

En la década de los 80 se asiste, en diversas áreas, a importantes avances:

Niveles de estructura de las proteínas. En los primeros ochenta se publica cómo investigar la estructura terciaria mediante RMN; en la siguiente década se desarrollarán métodos para predecir de novo algunas estructuras secundarias.

Científicos: tras la secuenciación del fago Φ-X174 a finales de la década de los 70, en 1982 F. Sanger consigue la secuenciación del genoma del fago λ (fago lambda) utilizando una nueva técnica, la secuenciación shotgun (secuenciación por perdigonada), desarrollada por él mismo; también entre 1981 y 1982 K. Wüthrich publica el método de utilización de la RMN (Resonancia Magnética Nuclear) para determinar estructuras de proteínas;

Bioinformáticos: por lo que se refiere al desarrollo de algoritmos, métodos y programas, aparece el algoritmo Smith-Waterman (1981), el algoritmo de búsqueda en bases de datos de secuencias (Wilbur-Lipman, 1983), y comienzan a utilizarse modelos ocultos de Márkov para analizar patrones y composición de las secuencias (Churchill, 1989), lo que permitirá más adelante localizar genes y predecir estructuras protéicas;[48] aparecen importantes bases de datos biológicas (GenBank en 1982, Swiss-Prot en 1986), redes que las interconectan (EMBnet en 1988; en 1987 el NIH (National Institutes of Health, institutos nacionales de la salud de EE.UU.) comienza aportar fondos a proyectos genoma, mientras que en 1988 arranca la Human Genome Initiative, más conocida finalmente como Human Genome Project (Proyecto Genoma Humano).

en 1987 Larry Wall desarrolla el lenguaje de programación PERL, de amplio uso posterior en bioinformática; y a finales de la década se verán las primeras compañías privadas importantes con actividades vinculadas al genoma, proteínas, bioquímica, etc.

Años 90

En los años 90 asistimos a los siguientes eventos:

Científicos: en 1991 comienza la secuenciación con EST (Expressed Sequence Tags, marcaje de secuencias expresadas); al año siguiente es publicado el mapa de ligamiento genético (en baja resolución) del genoma humano completo; en 1995 se consigue secuenciar completamente los primeros genomas de bacterias (Haemophilus influenzae, Mycoplasma genitalium, de 1,8 millones de pares de bases -Mbps- y 0,58 Mbps, respectivamente); en 1996, y en diferentes pasos (por cromosoma), se hace lo propio con el primer genoma eucariota, el de la levadura (Saccharomyces cerevisiae, con 12 Mbps), así como en 1997 con el genoma de Escherichia coli (4,7 Mbps), en 1998 con el primer genoma de un organismo multicelular (97 Mbp del Caenorhabditis elegans), para terminar la década con el primer cromosoma humano (el 22) completamente secuenciado en 1999 (33,4 Mbps).

Bioinformáticos: búsqueda rápida de similitudes entre secuencias con BLAST (1990); base de datos de huellas de proteínas PRINTS, de Attwood y Beck (1994); ClustalW, orientado al alineamiento múltiple de secuencias, en 1994, y PSI-BLAST en 1997; a finales de la década se desarrolla T-Coffee, que se publica en 2000. Por lo que se refiere a actividades institucionales y nuevos organismos, tenemos la presentación por parte del DoE y NIH al Congreso de los EE.UU., en 1990, de un plan de esfuerzos conjuntos en el Human Genome Project para cinco años; se crean el Sanger Centre (Hinxton, UK, 1993; ahora Sanger Institute) y el European Bioinformatics Institute (EBI, Hinxton, UK, 1992-1995).

Primeros años del siglo XXI

Poco después, en 2003, y con dos años de adelanto sobre lo previsto, se completa el Human Genome Project.Por mencionar algunos de los genomas analizados en los años siguientes, anotaremos que en 2004 aparece el borrador del genoma de Rattus norvegicus (rata), en 2005 el del chimpancé, en 2006 el del macaco rhesus,en 2007 el del gato doméstico, y en 2008 se secuencia por primera vez el genoma de una mujer. Gracias al desarrollo de las técnicas adecuadas, asistimos actualmente a un aluvión de secuenciaciones de genomas de todo tipo de organismos.

En 2004, la estadounidense FDA (Food and Drug Administration, agencia para la administración de alimentos y fármacos) autoriza el uso de un chip de ADN por primera vez. En 2005 se completa el proyecto HapMap (catalogación de variaciones genéticas en el ser humano). En 2008 UniProt presenta el primer borrador del proteoma completo del ser humano, con más de veinte mil entradas.

Poco a poco, los primeros programas bioinformáticos se van perfeccionando, y vemos versiones más completas como la 2.0 de ClustalW (reescrito en C++ en 2007).

Los proyectos que ayudaron hasta ahora

Desarrollo de sistemas bioinformáticos

El INB ha desarrollado una serie de herramientas tecnológicas de amplio empleo en el campo genómico y proteómico en el ámbito nacional e internacional; entre ellas podemos mencionar las siguientes:

– GENEID–. Sistema bioinformático empleado en la predicción de genes en secuencias genómicas anónimas.

– CARGO –.Sistema Web para el análisis de cáncer y genes relacionados, donde la información es extraída de una forma dinámica de bases de datos distribuidas empleado una tecnología similar a uno de los buscadores más empleados: Google.

– GEPAS–. Es una “Suite” de herramientas Web que emplea un “pipeline” para el análisis de expresiones génicas, que incluye etapas como normalización, clusterización, expresión diferencial, predictores, arreglos de CGH y anotaciones funcionales.

– MODEL–.Bases de datos de simulaciones en proteínas.

– SNPator–.Es un set de herramientas y bases de datos asociadas para el análisis estadístico en la variación genómica. Esta herramienta es una de las más importante en el análisis de resultados experimentales proporcionados por la Plataforma de CeGen (Centro Nacional de Genotipado).

– MADAS–. es un sistema para la anotación manual de secuencias dirigido especialmente a experimentalistas, que permite a los usuarios crear sus propios proyectos e incluir en ellos las anotaciones correspondientes. Estas anotaciones son añadidas a través de un formulario Web, utilizando un vocabulario controlado y un sistema de versiones que garantizan la integridad de los datos.

Proyecto Genoma

El progresivo desarrollo de métodos automatizados de preparación de muestras de DNA, su secuenciación y posterior lectura ha permitido afrontar, a lo largo de la ultima década, diversos proyectos de secuenciación a gran escala.

Algunos datos para entender la magnitud del proyecto:

· El Genoma Humano contiene unos 3.000 millones de pares de bases

· Contiene unos 100.000 genes

· Sólo un 10 % del genoma codifica proteínas

· Se conoce la localización de unos 3000 genes

· Hay 24 pares de cromosomas; el menor tiene unos 50 millones de pares de bases, el mayor unos 250 millones.

· Si se reunieran, los datos del genoma ocuparían 1000 libros de 200 páginas

· La diversidad genética humana: 5.000 millones de personas que se diferencian en un 0,1% de su material genético. Esto genera un catálogo de diferencias en secuencias teórico de 5000 billones de registros.

· EE.UU. ha dedicado 3.000 millones de dólares a lo largo de los 15 años que dura el proyecto.