2. Prototype RDISK
Le système RDISK peut être vu comme un cluster spécialisé pour la recherche d'information dans les grandes masses de données. Il a été développé en priorité pour l'extraction d'information génomique, mais d'autres types de données peuvent être manipulés, sans aucune restriction. L'idée maîtresse est d'être capable de parcourir rapidement des banques de données volumineuses, et d'extraire au vol toute information utile pour un traitement ultérieur plus complexe. Les deux exemples suivants illustrent notre propos : la recherche d'alignements et la recherche de motifs.
Comme nous l'avons esquissé précédemment, un alignement peut être recherché sur la base d'un point d'ancrage qui correspond à un mot de W caractères présent à la fois dans la séquence requête et dans les séquences de la banque. Cette détection peut être très rapide et faite à mesure que l'on lit les données en provenance du support de stockage. Toutes les séquences des banques qui ne présenteront pas de tels mots communs avec la séquence requête pourront être éliminées.
La recherche de motifs correspond...
La suite de cet article est réservée aux abonnés
Vous n'êtes pas abonné ?
Consultez gratuitement cet article.
votre période de consultation gratuite
Découvrez le plus important corpus scientifique et technique francophone
Plus de 8 000 articles, 13 univers, 400 bases documentaires, les plus grands auteurs, un enrichissement permanent et un éventail de services associés.
