Prototype RDISK
RDISK : une architecture reconfigurable pour l'exploration des banques génomiques

IN89 v1 RECHERCHE ET INNOVATION

Prototype RDISK
RDISK : une architecture reconfigurable pour l'exploration des banques génomiques

Auteur(s) : Dominique LAVENIER

Date de publication : 10 août 2008 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Contexte

1.1 - Données génomiques
1.2 - Recherche d'information dans les banques
1.3 - Ressources informatiques

2 - Prototype RDISK

2.1 - Motivations
2.2 - Architecture générale

3 - Nœud RDISK

4 - Applications

4.1 - Recherche de similarités dans les banques
4.2 - Découverte de gènes olfactifs chez le chien

5 - Conclusion - Perspectives

Bibliographie & annexes

Présentation

Auteur(s)

Dominique LAVENIER

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

L'architecture RDISK est un système prototype composé d'un cluster de 48 nœuds spécialisés comprenant chacun un disque dur étroitement connecté à un composant FPGA. L'objectif est de filtrer les banques de données génomiques à la volée, c'est-à-dire sans ralentir la lecture d'information en provenance des disques. En fonction de la nature des requêtes, le système se reconfigure automatiquement.

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-in89

Lecture en cours
Présentation

Page
suivante

Nœud RDISK

Article inclus dans l'offre

"Bioprocédés et bioproductions"

(157 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

2. Prototype RDISK

2.1 Motivations

Le système RDISK peut être vu comme un cluster spécialisé pour la recherche d'information dans les grandes masses de données. Il a été développé en priorité pour l'extraction d'information génomique, mais d'autres types de données peuvent être manipulés, sans aucune restriction. L'idée maîtresse est d'être capable de parcourir rapidement des banques de données volumineuses, et d'extraire au vol toute information utile pour un traitement ultérieur plus complexe. Les deux exemples suivants illustrent notre propos : la recherche d'alignements et la recherche de motifs.

Comme nous l'avons esquissé précédemment, un alignement peut être recherché sur la base d'un point d'ancrage qui correspond à un mot de W caractères présent à la fois dans la séquence requête et dans les séquences de la banque. Cette détection peut être très rapide et faite à mesure que l'on lit les données en provenance du support de stockage. Toutes les séquences des banques qui ne présenteront pas de tels mots communs avec la séquence requête pourront être éliminées.

La recherche de motifs correspond à une recherche d'expression régulière symbolisant, par exemple, un site protéique actif ou une empreinte particulière dans une famille de gènes. On peut vouloir détecter tous les endroits, sur un génome, où un tel pattern apparaît, et ne transmettre que le voisinage de ces zones pour réaliser ensuite un traitement plus approfondi.

Partant du constat que le temps de traitement ne peut être inférieur à celui pour lire les données stockées sur disque, l'architecture RDISK repose sur la capacité à accéder en parallèle aux données et à les filtrer au vol, c'est-à-dire sans ralentir le débit des disques. Ainsi, si la taille d'une banque est de P Méga octets et que l'on dispose de N nœuds connectés à un disque dur dont la bande passante est de K Méga octets/seconde, le temps de traitement sera borné par : P/NK. Le concept de l'architecture RDISK vise à être le plus près possible de ce temps.

HAUT DE PAGE

2.2 Architecture générale

La figure 4 représente l'architecture globale du système RDISK. Elle est composée...

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.