Comment atteindre la haute disponibilité d'un service online ?

[Tribune] Thomas Lopez et Frédéric Favelin - Céleste

Dans de plus en plus d'entreprises, Internet ce situe au cœur de l'activité. Le besoin de disponibilité des services Web est donc constant et multiple. Comment fournir des services Web hautement disponibles ? Quelles mesures et quels dispositifs informatiques mettre en place. Les points essentiels.

Dans de plus en plus d’entreprises, Internet ce situe au cœur de l’activité. En effet, ce média est utilisé tout autant pour communiquer vers l’extérieur, que comme support à de nombreuses applications de l’entreprise (CRM, ERP, etc.) ou encore pour la téléphonie. Le besoin de disponibilité des services Web est donc constant et multiple. D’où l’apparition de la notion de haute disponibilité qui se matérialise par la mise en place de systèmes permettant d’assurer la continuité opérationnelle d’un service sur une période donnée. Pour mesurer la disponibilité, on utilise une échelle qui est composée de 9. Un service hautement disponible est à 99 % disponible, c’est-à-dire que la rupture de service est inférieure à 3,65 jours par an. Afin de calculer la disponibilité, on utilise les métriques suivantes :1. MTBF (Mean Time Between Failure) : mesure du temps estimé entre 2 défaillances d’un système ;2. MTTR (Mean Time to Resolution) : mesure du temps estimé pour restaurer la fonctionnalité.La formule de calcul de la disponibilité est : Disponibilité = MTBF / (MTBF + MTTR)

Internet et la haute disponibilité

Cette démarche nécessite toutefois de distinguer deux types d’exigences :

le besoin de l’entreprise de garder ses services disponibles pour ses clients ;

et celui de préserver les besoins internes de l’entreprise.

Examinons successivement chacun de ces cas de figure et ce qu’ils impliquent en terme d’équipement.

La disponibilité des services vers les clients

L’un des exemples les plus parlant à ce niveau est un site Web d’entreprise, car il est au centre de la communication et du métier de celle-ci.La haute disponibilité des sites Web est organisée autour de différents axes qui peuvent être primordiaux :

la redondance des matériels,

les localisations des matériels,

la sécurisation du réseau de l’entreprise,

la disponibilité permanente de solution de sauvegarde/secours/reprise sur incident,

le dimensionnement en puissance des matériels.

La redondance…

Revenons sur la notion de redondance. Il s’agit d’un mécanisme qui permet de dupliquer un ou plusieurs composants d’une architecture par un ou plusieurs éléments identiques. Avoir n serveur sur x site permettra une redondance de l’information, avec un risque de panne divisé par x+n…Toutefois, il faut des systèmes qui permettent de basculer automatiquement d’un site à l’autre. Les systèmes les plus couramment mis en œuvre afin d’assurer cette redondance sont les clusters.Les clusters peuvent être actif/passif ou actif/actif. Le premier cas représente un groupe de machines de secours sur lequel on basculera l’infrastructure, alors qu’un système actif/actif permettra d’avoir deux systèmes qui fonctionnent en parallèle, sachant qu’un seul des deux systèmes peut fonctionner en solo.

Le maintien des applications

Passons maintenant au deuxième cas de figure cité plus haut : préserver les besoins internes de l’entreprise. A ce niveau, les défaillances sont souvent dues aux bugs des applications. La mise à jour régulière de celles-ci permet de corriger leurs défauts et ainsi d’éviter que des personnes malveillantes explorent une faille qui permettrait l’accès aux informations de l’entreprise. Mais cette mesure ne suffit pas. Elle doit être accompagnée d’autres dispositifs.

La reprise sur incident

Il s’agit d’un plan qui permet de reprendre une activité totale ou partielle suite à un sinistre survenu sur le système d’information. Le but de ce plan est de minimiser l’impact du sinistre sur l’activité de l’entreprise. Les points essentiels d’un plan de reprise sont :

la sauvegarde des équipements ;

la disponibilité de machines de secours

des solutions de secours, avec un mode dégradé (en qualité de service) ex.: un lien de backup avec un débit plus petit.

Mise en application

Plus concrètement, quel dispositif faut-il mettre en place ?

Avoir n connections Internet

Avoir deux connections Internet passant par deux localisations terrestre différentes peut permettre de sécuriser les connexions Web. En cas de panne d’une des lignes, le trafic est routé/redirigé automatiquement sur la seconde. La présence de deux routeurs en mode actif/passif est un plus pour la redondance du système.

Avoir un plan de secours

En cas de panne du matériel, le fait que celui-ci soit redondé dans l’infrastructure de l’opérateur permet de maintenir le service de manière transparent. Comme précédemment, la présence de deux routeurs est un plus pour la redondance du système.

Mettre en place une GTR

La GTR est la » garantie du temps de rétablissement » d’un lien de données suite à une interruption de service. Cette GTR doit garantir le temps de rétablissement optimum pour que l’interruption de service soit la moins pénalisante pour l’entreprise. Une GTR de 4 heures sera l’option idéale pour de la téléphonie ou un VPN d’entreprise qui servira de support pour un ERP/CRM.

Avoir un débit garanti

Même si le service Internet n’est pas totalement interrompu, mais se trouve très fortement altéré, il faut s’assurer auprès de son fournisseur de service d’avoir un débit garanti. Cela est d’autant plus important en cas de téléphonie IP. Une altération de la qualité du lien aura comme conséquence directe une baisse de la qualité de la communication téléphonique.Même s’il est évident d’avoir un débit garanti pour une lien fibre ou SDSL, pour un lien ADSL, un canal prioritaire peut être configuré afin de s’assurer d’avoir un minimum de bande passante pour une application telle que la téléphonie.Afin de fournir un service hautement disponible, il faut enfin s’assurer que l’infrastructure permettant la fourniture de ce service soit fonctionnelle 100 % du temps. Dans cet article nous nous sommes essentiellement concentré sur les liens Internet, mais il ne faut pas oublier l’énergie, la climatisation, les serveurs, etc.In fine, la criticité ou le taux de disponibilité nécessaire d’une application ou d’un service guide le choix de la stratégie pour la mise en œuvre de la solution haute disponibilité. A ce titre, il n’y a pas de norme en ce qui concerne la durée d’une interruption de service. Cela dépend du contexte et de la criticité de l’application. Un système de navigation embarqué dans un avion sera conçu pour avoir une période d’indisponibilité de 5 minutes par an, alors que le site de l’application de facturation d’une entreprise sera conçu pour une période d’indisponibilité d’une journée par an.Par Thomas Lopez, Ingénieur Systèmes et Frédéric Favelin Responsable R&D chez Céleste