Powered By Blogger

miércoles, 1 de diciembre de 2010

BENEFICIOS DE LA BIOINFORMATICA

Linea de tiempo de la bioinformatica

Las primeras décadas: años 60 y 70 del siglo XX

En 1970 se publica el algoritmo Needleman-Wunsch para alineamiento de secuencias; se establece el Brookhaven Protein Data Bank (1971),se crea la primera molécula de ADN recombinante (Paul Berg, 1972), E. M. Southern desarrolla la técnica Southern blot de localización de secuencias específicas de ADN (1976), comienza la secuenciación de ADN y el desarrollo de software para analizarlo (F. Sanger, software de R. Staden, 1977), y se publica en 1978 la primera secuencia de genes completa de un organismo, el fago Φ-X174 (5.386 pares de bases que codifican 9 proteínas).
años 80
En la década de los 80 se asiste, en diversas áreas, a importantes avances:
Niveles de estructura de las proteínas. En los primeros ochenta se publica cómo investigar la estructura terciaria mediante RMN; en la siguiente década se desarrollarán métodos para predecir de novo algunas estructuras secundarias.
Científicos: tras la secuenciación del fago Φ-X174 a finales de la década de los 70, en 1982 F. Sanger consigue la secuenciación del genoma del fago λ (fago lambda) utilizando una nueva técnica, la secuenciación shotgun (secuenciación por perdigonada), desarrollada por él mismo; también entre 1981 y 1982 K. Wüthrich publica el método de utilización de la RMN (Resonancia Magnética Nuclear) para determinar estructuras de proteínas;

Bioinformáticos: por lo que se refiere al desarrollo de algoritmos, métodos y programas, aparece el algoritmo Smith-Waterman (1981), el algoritmo de búsqueda en bases de datos de secuencias (Wilbur-Lipman, 1983), y comienzan a utilizarse modelos ocultos de Márkov para analizar patrones y composición de las secuencias (Churchill, 1989), lo que permitirá más adelante localizar genes y predecir estructuras protéicas;[48] aparecen importantes bases de datos biológicas (GenBank en 1982, Swiss-Prot en 1986), redes que las interconectan (EMBnet en 1988; en 1987 el NIH (National Institutes of Health, institutos nacionales de la salud de EE.UU.) comienza aportar fondos a proyectos genoma, mientras que en 1988 arranca la Human Genome Initiative, más conocida finalmente como Human Genome Project (Proyecto Genoma Humano).

en 1987 Larry Wall desarrolla el lenguaje de programación PERL, de amplio uso posterior en bioinformática; y a finales de la década se verán las primeras compañías privadas importantes con actividades vinculadas al genoma, proteínas, bioquímica, etc.
Años 90
En los años 90 asistimos a los siguientes eventos:
Científicos: en 1991 comienza la secuenciación con EST (Expressed Sequence Tags, marcaje de secuencias expresadas); al año siguiente es publicado el mapa de ligamiento genético (en baja resolución) del genoma humano completo; en 1995 se consigue secuenciar completamente los primeros genomas de bacterias (Haemophilus influenzae, Mycoplasma genitalium, de 1,8 millones de pares de bases -Mbps- y 0,58 Mbps, respectivamente); en 1996, y en diferentes pasos (por cromosoma), se hace lo propio con el primer genoma eucariota, el de la levadura (Saccharomyces cerevisiae, con 12 Mbps), así como en 1997 con el genoma de Escherichia coli (4,7 Mbps), en 1998 con el primer genoma de un organismo multicelular (97 Mbp del Caenorhabditis elegans), para terminar la década con el primer cromosoma humano (el 22) completamente secuenciado en 1999 (33,4 Mbps).
Bioinformáticos: búsqueda rápida de similitudes entre secuencias con BLAST (1990); base de datos de huellas de proteínas PRINTS, de Attwood y Beck (1994); ClustalW, orientado al alineamiento múltiple de secuencias, en 1994, y PSI-BLAST en 1997; a finales de la década se desarrolla T-Coffee, que se publica en 2000. Por lo que se refiere a actividades institucionales y nuevos organismos, tenemos la presentación por parte del DoE y NIH al Congreso de los EE.UU., en 1990, de un plan de esfuerzos conjuntos en el Human Genome Project para cinco años; se crean el Sanger Centre (Hinxton, UK, 1993; ahora Sanger Institute) y el European Bioinformatics Institute (EBI, Hinxton, UK, 1992-1995).

Primeros años del siglo XXI
Poco después, en 2003, y con dos años de adelanto sobre lo previsto, se completa el Human Genome Project.Por mencionar algunos de los genomas analizados en los años siguientes, anotaremos que en 2004 aparece el borrador del genoma de Rattus norvegicus (rata), en 2005 el del chimpancé, en 2006 el del macaco rhesus,en 2007 el del gato doméstico, y en 2008 se secuencia por primera vez el genoma de una mujer. Gracias al desarrollo de las técnicas adecuadas, asistimos actualmente a un aluvión de secuenciaciones de genomas de todo tipo de organismos.
En 2004, la estadounidense FDA (Food and Drug Administration, agencia para la administración de alimentos y fármacos) autoriza el uso de un chip de ADN por primera vez. En 2005 se completa el proyecto HapMap (catalogación de variaciones genéticas en el ser humano). En 2008 UniProt presenta el primer borrador del proteoma completo del ser humano, con más de veinte mil entradas.
Poco a poco, los primeros programas bioinformáticos se van perfeccionando, y vemos versiones más completas como la 2.0 de ClustalW (reescrito en C++ en 2007).

Los proyectos que ayudaron hasta ahora
Desarrollo de sistemas bioinformáticos
El INB ha desarrollado una serie de herramientas tecnológicas de amplio empleo en el campo genómico y proteómico en el ámbito nacional e internacional; entre ellas podemos mencionar las siguientes:
– GENEID–. Sistema bioinformático empleado en la predicción de genes en secuencias genómicas anónimas.
– CARGO –.Sistema Web para el análisis de cáncer y genes relacionados, donde la información es extraída de una forma dinámica de bases de datos distribuidas empleado una tecnología similar a uno de los buscadores más empleados: Google.
– GEPAS–. Es una “Suite” de herramientas Web que emplea un “pipeline” para el análisis de expresiones génicas, que incluye etapas como normalización, clusterización, expresión diferencial, predictores, arreglos de CGH y anotaciones funcionales.
– MODEL–.Bases de datos de simulaciones en proteínas.
– SNPator–.Es un set de herramientas y bases de datos asociadas para el análisis estadístico en la variación genómica. Esta herramienta es una de las más importante en el análisis de resultados experimentales proporcionados por la Plataforma de CeGen (Centro Nacional de Genotipado).
– MADAS–. es un sistema para la anotación manual de secuencias dirigido especialmente a experimentalistas, que permite a los usuarios crear sus propios proyectos e incluir en ellos las anotaciones correspondientes. Estas anotaciones son añadidas a través de un formulario Web, utilizando un vocabulario controlado y un sistema de versiones que garantizan la integridad de los datos.
 Proyecto Genoma 
El progresivo desarrollo de métodos automatizados de preparación de muestras de DNA, su secuenciación y posterior lectura ha permitido afrontar, a lo largo de la ultima década, diversos proyectos de secuenciación a gran escala.  
Algunos datos para entender la magnitud del proyecto: 
·         El Genoma Humano contiene unos 3.000 millones de pares de bases
·         Contiene unos 100.000 genes
·         Sólo un 10 % del genoma codifica proteínas
·         Se conoce la localización de unos 3000 genes 
·         Hay 24 pares de cromosomas; el menor tiene unos 50 millones de pares de bases, el mayor unos 250 millones.
·         Si se reunieran, los datos del genoma ocuparían 1000 libros de 200 páginas
·         La diversidad genética humana: 5.000 millones de personas que se diferencian en un 0,1% de su material genético. Esto genera un catálogo de diferencias en secuencias teórico de 5000 billones de registros.
·         EE.UU. ha dedicado 3.000 millones de dólares a lo largo de los 15 años que dura el proyecto.

No hay comentarios:

Publicar un comentario