1.1 - Données génomiques
1.2 - Recherche d'information dans les banques
1.3 - Ressources informatiques

2.1 - Motivations
2.2 - Architecture générale

4 - APPLICATIONS

4.1 - Recherche de similarités dans les banques
4.2 - Découverte de gènes olfactifs chez le chien

5 - CONCLUSION - PERSPECTIVES

Bibliographie & annexes

Article de référence | Réf : IN89 v1

Conclusion - Perspectives
RDISK : une architecture reconfigurable pour l'exploration des banques génomiques

Auteur(s) : Dominique LAVENIER

Date de publication : 10 août 2008

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Présentation

Auteur(s)

Dominique LAVENIER

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

L'architecture RDISK est un système prototype composé d'un cluster de 48 nœuds spécialisés comprenant chacun un disque dur étroitement connecté à un composant FPGA. L'objectif est de filtrer les banques de données génomiques à la volée, c'est-à-dire sans ralentir la lecture d'information en provenance des disques. En fonction de la nature des requêtes, le système se reconfigure automatiquement.

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-in89

Cet article fait partie de l’offre

Bioprocédés et bioproductions

(158 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Contexte

5. Conclusion - Perspectives

RDISK est un prototype original dont une version à 48 nœuds a été développée à l'IRISA (figure 8). Sa principale caractéristique est de pouvoir filtrer rapidement de grandes masses de données, comme les banques de données génomiques. Les traitements sont en général relativement simples et réguliers ; ils se prêtent donc bien à une mise en œuvre matérielle et, plus particulièrement, par le biais d'architectures reconfigurables.

Les performances de RDISK rivalisent avec les systèmes plus traditionnels à base de cluster de PCs. Elles peuvent également être évaluées sur la base du coût. Un nœud RDISK est essentiellement composé d'éléments standards et peu onéreux : un disque dur et quelques composants électroniques courants. Une estimation grossière évalue à 250 Euros le coût d'un nœud pour une production en petite quantité.

Les diverses implémentations algorithmiques ont cependant pointé quelques limitations du prototype:
- la bande passante Disque/FPGA est d'environ 15 Mo/s. C'est bien plus faible que ce qu'on obtient habituellement (50-80 Mo/s). En fait, dans la version développée, le contrôleur IDE ne gère que le mode PIO. L'usage de mode DMA est possible, mais demande une quantité de ressource trop importante au regard du composant FPGA utilisé ;
- l'emploi d'un Spartan II, bon marché, limite fortement la capacité des filtres. À l'usage, ce choix initial s'est avéré trop restrictif. Heureusement, les composants disponibles actuellement offrent, pour un coût similaire, des ressources beaucoup plus importantes. Un nœud RDISK réalisé aujourd'hui – et à coût identique – serait bien plus performant.
Au-delà de ces aspects techniques, une limitation beaucoup plus contraignante provient de l'usage de la technologie « disque dur » elle-même. En effet, l'accès aux données demande quelques millisecondes, ce qui interdit une interrogation de type indexation, méthode qui évite le parcours systématique des masses de données. Dans ce schéma, plutôt que de scanner l'ensemble des données, on les classifie en petits groupes suivant certaines propriétés. Une requête choisira de ne traiter qu'un sous-ensemble de ces groupes. Le temps d'accès à ces petites entités devient alors prépondérant par rapport...

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Bioprocédés et bioproductions

(158 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Conclusion - Perspectives

Page
précédenteApplications

BIBLIOGRAPHIE

(1) - GENBANK, BENSON (D.A.), KARSCH-MIZRACHI (I.), LIPMAN (D.J.), OSTELL (J.), WHEELER (D.L.) - * - Nucleic Acids Res., 35, (Database issue), D21-5, janv. 2007.
(2) - LIOLIOS (K.), TAVERNARAKIS (N.), HUGENHOLTZ (P.), KYRPIDES (N.C.) - The Genomes On Line Database (GOLD) v.2 : a monitor of genome projects worldwide. - Nucleic Acids Res., 34, (Database issue), D332-4, 1 janv. 2006.
(3) - NEEDLEMAN (S.), WUNSCH (C.) - A general method applicable to the search for similarities in the amino acid sequence of two proteins. - J. Mol. Biol., 48(3), p. 443-53 (1970).
(4) - SMITH (T.F.), WATERMAN (M.S.) - Identification of common molecular subsequences. - J. Mol. Biol., 147(1), p. 195-7, 25 mars 1981.
(5) - LAVENIER (D.), GIRAUD (M.) - Bioinformatics Applications. In Reconfigurable Computing : Accelerating Computation with Field-Programmable Gate Arrays. - GOKHALE (M.B.), GRAHAM (P.S.) editor, chapter 9, Springer (2005).

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Bioprocédés et bioproductions

(158 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Un Parcours Pratique

Opérationnel et didactique, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS