Contactez-nous
Prototype RDISK
RDISK : une architecture reconfigurable pour l'exploration des banques génomiques
IN89 v1 RECHERCHE ET INNOVATION

Prototype RDISK
RDISK : une architecture reconfigurable pour l'exploration des banques génomiques

Auteur(s) : Dominique LAVENIER

Date de publication : 10 août 2008 | Read in English

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Sommaire

Présentation

Auteur(s)

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

L'architecture RDISK est un système prototype composé d'un cluster de 48 nœuds spécialisés comprenant chacun un disque dur étroitement connecté à un composant FPGA. L'objectif est de filtrer les banques de données génomiques à la volée, c'est-à-dire sans ralentir la lecture d'information en provenance des disques. En fonction de la nature des requêtes, le système se reconfigure automatiquement.

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-in89

Lecture en cours
Présentation

Article inclus dans l'offre

"Bioprocédés et bioproductions"

(157 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

2. Prototype RDISK

2.1 Motivations

Le système RDISK peut être vu comme un cluster spécialisé pour la recherche d'information dans les grandes masses de données. Il a été développé en priorité pour l'extraction d'information génomique, mais d'autres types de données peuvent être manipulés, sans aucune restriction. L'idée maîtresse est d'être capable de parcourir rapidement des banques de données volumineuses, et d'extraire au vol toute information utile pour un traitement ultérieur plus complexe. Les deux exemples suivants illustrent notre propos : la recherche d'alignements et la recherche de motifs.

Comme nous l'avons esquissé précédemment, un alignement peut être recherché sur la base d'un point d'ancrage qui correspond à un mot de W caractères présent à la fois dans la séquence requête et dans les séquences de la banque. Cette détection peut être très rapide et faite à mesure que l'on lit les données en provenance du support de stockage. Toutes les séquences des banques qui ne présenteront pas de tels mots communs avec la séquence requête pourront être éliminées.

La recherche de motifs correspond à une recherche d'expression régulière symbolisant, par exemple, un site protéique actif ou une empreinte particulière dans une famille de gènes. On peut vouloir détecter tous les endroits, sur un génome, où un tel pattern apparaît, et ne transmettre que le voisinage de ces zones pour réaliser ensuite un traitement plus approfondi.

Partant du constat que le temps de traitement ne peut être inférieur à celui pour lire les données stockées sur disque, l'architecture RDISK repose sur la capacité à accéder en parallèle aux données et à les filtrer au vol, c'est-à-dire sans ralentir le débit des disques. Ainsi, si la taille d'une banque est de P Méga octets et que l'on dispose de N nœuds connectés à un disque dur dont la bande passante est de K Méga octets/seconde, le temps de traitement sera borné par : P/NK. Le concept de l'architecture RDISK vise à être le plus près possible de ce temps.

HAUT DE PAGE

2.2 Architecture générale

La figure 4 représente l'architecture globale du système RDISK. Elle est composée...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Lecture en cours
Prototype RDISK

Article inclus dans l'offre

"Bioprocédés et bioproductions"

(157 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - GENBANK, BENSON (D.A.), KARSCH-MIZRACHI (I.), LIPMAN (D.J.), OSTELL (J.), WHEELER (D.L.) -   *  -  Nucleic Acids Res., 35, (Database issue), D21-5, janv. 2007.

  • (2) - LIOLIOS (K.), TAVERNARAKIS (N.), HUGENHOLTZ (P.), KYRPIDES (N.C.) -   The Genomes On Line Database (GOLD) v.2 : a monitor of genome projects worldwide.  -  Nucleic Acids Res., 34, (Database issue), D332-4, 1 janv. 2006.

  • (3) - NEEDLEMAN (S.), WUNSCH (C.) -   A general method applicable to the search for similarities in the amino acid sequence of two proteins.  -  J. Mol. Biol., 48(3), p. 443-53 (1970).

  • (4) - SMITH (T.F.), WATERMAN (M.S.) -   Identification of common molecular subsequences.  -  J. Mol. Biol., 147(1), p. 195-7, 25 mars 1981.

  • (5) - LAVENIER (D.), GIRAUD (M.) -   Bioinformatics Applications. In Reconfigurable Computing : Accelerating Computation with Field-Programmable Gate Arrays.  -  GOKHALE (M.B.), GRAHAM (P.S.) editor, chapter 9, Springer (2005).

  • ...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Article inclus dans l'offre

"Bioprocédés et bioproductions"

(157 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Ressources documentaires

Reconnaissance des formes

Discipline à la fois ancienne de par son histoire et très jeune de par ses multiples évolutions au cours ...

Microprocesseurs - Approche générale

Les microprocesseurs sont au cœur des systèmes numériques. Ils permettent le développement de logiciels ...

Introduction à l'architecture des ordinateurs

L'article commence par une brève histoire des machines informatiques et introduit ensuite les principes ...

Hiérarchie mémoire : mémoire virtuelle

Cet article décrit les principes et les implémentations de la mémoire virtuelle. Cette dernière offre à ...