Analyse des séquences nucléiques et des génomes
Bioinformatique

BIO7050 v1 Article de référence

Analyse des séquences nucléiques et des génomes
Bioinformatique

Auteur(s) : Jean-Michel CLAVERIE

Date de publication : 10 nov. 2007 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Bioinformatique, des pionniers à aujourd'hui

1.1 - Historique

Tableau 2
1.2 - Traitement de l'information biologique
1.3 - Grands domaines de la bioinformatique

2 - Analyse des séquences de protéines

2.1 - Alignement optimal de deux séquences
2.2 - Matrices d'échange entre acides aminés
2.3 - Recherche de similarités locales entre séquences
2.4 - Recherche de similarité dans les bases de données

3 - Analyse des séquences nucléiques et des génomes

3.1 - Alignement optimal de deux séquences nucléiques
3.2 - Recherche de similarités dans les bases de données
3.3 - Mise en évidence de motifs
3.4 - Identification des gènes, annotation des génomes

4 - Alignement multiple et phylogénie moléculaire

4.1 - Séquence des macromolécules comme document de leur histoire évolutive
4.2 - Mise en évidence de motifs conservés
4.3 - Phylogénomique

Figure 13 - Analyse phylogénomique

5 - Bioinformatique structurale

5.1 - Prédiction de la structure de l'ARN
5.2 - Prédiction de la structure des protéines
5.3 - Recherche d'homologues par similarité structurale

6 - Analyse de données massivement parallèles

6.1 - Puces à ADN
6.2 - Bioinformatique et biologie des systèmes

RÉSUMÉ

Cet article s’intéresse à la bioinformatique dans son intégralité, de ses débuts à aujourd’hui. Cette discipline, visant à analyser l’information biologique, a pour principal objectif l’identification de l’information contenue dans la séquence des macromolécules et leur structure. L’analyse poussée des séquences de protéines, des séquences nucléiques et des génomes (comme l’alignement optimal de deux séquences, la recherche de similarités, etc) est détaillée dans cet article. Liée aux objets d’études de la biologie moléculaire et de la génomique, la bioinformatique a vécu récemment l’arrivée de nouvelles techniques parallèles, comme les puces à ADN.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Jean-Michel CLAVERIE : Professeur, faculté de Médecine de l'université de la Méditerranée et laboratoire « Information génomique et structurale », CNRS (Marseille)

INTRODUCTION

La bioinformatique est la discipline de l'analyse de l'information biologique, principalement contenue dans la séquence des macromolécules (acides nucléiques et protéines) et leur structure tridimensionnelle. C'est une branche théorique de la biologie, largement antérieure à la « révolution génomique » des années 1990.

La bioinformatique n'est pas une simple application des concepts et des outils de l'informatique traditionnelle aux données biologiques. Elle recouvre un ensemble de techniques très spécifiques, intimement liées aux objets d'étude de la biologie moléculaire et de la génomique.

Plus récemment, l'introduction de techniques expérimentales massivement parallèles (exemple : les puces à ADN), produisant une masse de données numériques, a amené les bioinformaticiens à s'approprier des méthodes mathématiques et statistiques plus générales, développées dans d'autres domaines scientifiques confrontés à un grand volume de données (« data mining »).

Enfin, la bioinformatique est indissociable de l'existence de grandes bases de données internationales publiques, de la mise en place de nombreux serveurs internet, et de l'attitude « open access » de ses développeurs.

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-bio7050

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil > Ressources documentaires > Biomédical - Pharma > Technologies pour la santé > Santé numérique et connectée > Bioinformatique > Analyse des séquences nucléiques et des génomes

Lecture en cours
Présentation

Page
suivante

Alignement multiple et phylogénie moléculaire

Article inclus dans l'offre

"Bioprocédés et bioproductions"

(155 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

3. Analyse des séquences nucléiques et des génomes

Rappelons, qu'historiquement, les premières séquences de macromolécules obtenues furent celle de protéines. Ce n'est qu'à partir du début des années 1980 qu'il est devenu plus facile de déterminer la séquence des gènes, plutôt que la séquence des protéines pour lesquels ils codent. Il y a à cela 3 raisons principales :

l'ADN est une molécule beaucoup plus simple à extraire et purifier que les protéines, chaque protéine ayant un comportement physico-chimique différent, alors qu'un même protocole peut être utilisé pour des ADN provenant d'organismes très différents ;
l'ADN est extrêmement solide et stable ;
enfin, l'ADN est formé de l'enchaînement de 4 types de briques élémentaires, les nucléotides (aussi appelés « bases nucléotidiques », ou simplement « bases »).

Ces différentes propriétés ont permis l'automatisation des opérations de séquençage de l'ADN et la démocratisation de la technologie dans les laboratoires.

À partir des années 1985, le séquençage des gènes a totalement pris le pas sur celui des protéines correspondantes et, à l'heure actuelle, une écrasante majorité des séquences de protéines, contenues dans les bases de données d'ADN, a été déduite de la séquence de leurs gènes par « traduction » bioinformatique.

3.1 Alignement optimal de deux séquences nucléiques

Tous les algorithmes et les programmes d'alignement décrits (§ ) sont également adaptés à l'analyse des séquences d'acides nucléiques.

Simplement, l'alphabet utilisé est différent.

Pour l'ADN, les symboles utilisés sont (A : adénine, C : cytosine, G : guanine, T : thymine). Pour l'ARN, le symbole U (pour Uracile) remplace T, mais dans la plupart des programmes d'analyse de séquences, les deux symboles sont traités d'une manière équivalente. Le symbole N (n'importe quel nucléotide) remplace le symbole X, utilisé comme « jocker »...

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.