Retour à la liste
4/6/2025
Data center

Pourquoi le plan de reprise d'activité (PRA) est essentiel ?

La continuité des activités est cruciale pour toute entreprise, quelle que soit sa taille et quel que soit l’endroit où les données de l’entreprise sont hébergées. Des risques plus diversifiés telles que des cyberattaques, des pannes de systèmes ou toute autre situation qui perturbe les opérations normales des infrastructures IT qu’elles soient hébergées dans un data center ou pas. Le PRA est un rempart pour toute entreprise de sa résilience numérique. Ce dispositif n'est pas qu'une formalité technique, c'est un bouclier anti-incidents qui peut potentiellement paralyser les activités d'une entreprise.

Bien comprendre le PRA

Qu'est-ce qu'un plan de reprise d'activité ?

Le plan de reprise d'activité, plus connu par son acronyme PRA, est essentiel pour un hébergeur et exploitant de data center comme UltraEdge car il constitut la garantie ultime pour rassurer nos clients de notre capacité à leur fournir des environnements avec une continuité de service. Le PRA inclut l'ensemble des procédures techniques, organisationnelles qui permet en cas d'incident critique, à rétablir le système d'information.

Les data centers UltraEdge hébergent des services critiques pour des clients d’entreprises, des administrations, des hôpitaux, des opérateurs cloud, etc. Une interruption de service non maîtrisée peut entrainer des pertes financières, juridiques, de données ou d’images considérables.

Le plan de reprise d'activité informatique prend généralement la forme d'un document détaillé qui cartographie l'architecture technique, identifie les composants critiques, et formalise les procédures de bascule vers les environnements de secours. Il s'agit d'un instrument vivant qui doit évoluer constamment pour refléter les transformations du système d'information et les évolutions des besoins métiers tels que l’IoT et l’Intelligence Artificielle.

Objectifs principaux du PRA

Le principal objectif d’un PRA est d’assurer la continuité des opérations d’une organisation après un indicent perturbateur. Cela signifie minimiser les interruptions, une minute d'interruption peut potentiellement représenter des pertes financières très conséquentes, maintenir la confiance des clients et des partenaires de UltraEdge, ainsi que préserver notre réputation et aussi des pénalités si prévues par le contrat. Le plan de reprise d'activité inclut une réponse ciblée pour chaque objectif des dirigeants et responsables informatiques.

Le PRA établit des procédures précises qui réduisent cette période de vulnérabilité à son strict minimum.

La préservation de l'intégrité des données constitue son deuxième objectif majeur. Au-delà de la disponibilité technique des systèmes, la qualité et la cohérence des informations recouvrées déterminent la capacité réelle de l'entreprise à reprendre son activité normalement.

Le PRA contribue à établir une relation de confiance entre le client et l'hébergeur ou le data center.

A UltraEdge, la robustesse, la viabilité ainsi que la fréquence des tests que nous menons sont des arguments supplémentaire dans des environnements de plus en plus concurrentiels.

Enfin, avec la complexité des données et l’évolution croissante de la demande, le réglementaire demande le respect d'exigence toujours plus strictes. Un PRA n'est pas qu'une bonne pratique, mais une obligation légale soumise à des contrôles fréquents pour être en conformité avec les normes et certification ISO 27001 / ISO 22301 (normes pour les systèmes de management de la continuité d’activité).

Scénarios de déclenchement

Dans l’exploitation d’un data center comme ceux gérés par UltraEdge, chaque situation est susceptible d'affecter la viabilité des infrastructures. Il nous est nécessaire en tant que leader dans l’hébergement de données, d'anticiper, d’analyser, et de prioriser la prévalence et les impacts potentiels avec des scénarios.

Nous pouvons citer le scénario le plus fréquent des cyberattaques : Elles sont les menaces les plus préoccupantes. Avec l'essor de l'IA, des menaces plus sophistiquées sont observées. Les rançongiciels, ou attaques par déni de services peuvent engendrer une paralysie de pans entiers de l'infra.

Selon une étude publiée en 2023 de l'agence de l’union européenne ENISA , plusieurs tendances à fort impact seraient relevées d'ici à 2030:

- Popularité croissante de "tout en tant que service" (XaaS), tant au niveau de la demande que de l'offre.

- Les systèmes basés sur l'IA sont de plus en plus déployés avec des biais cognitifs ou des problèmes avec des impacts sur l'inclusivité, la sécurité, l'éthique, la vie privée, la fiabilité et l'explicabilité.

- Les véhicules étant de plus en plus connectés entre eux et avec le monde extérieur, ils sont de moins en moins dépendants de l'intervention humaine.

Les erreurs humaines restent néanmoins source d'incident important. Suppression accidentelle de data, ou mots de passe peu ou pas sécurisés, voire des manipulations malencontreuses peuvent influer sur l'intégrité du système d'information.

Le PRA doit inclure de fait des mécanismes anti-intrusions et de détection, avec des procédures de correction adaptées aux différents scénarios.

Structurer un PRA efficace

Le PRA permet le redémarrage des activités après un incident. Il vise à retrouver un fonctionnement classique. Une structuration efficace d’un PRA devient nécessaire pour tout hébergeur pour garder la confiance de ses clients.  

Chez UltraEdge, nous identifions un certain nombre de de paramètres à considérer pour assurer un PRA efficace :

• Cartographie des services.

En tant hébergeur responsable UltraEdge s’est donné les moyens d’une maitrise de ses environnements et du statut continu de ses services.

• Analyse d’impact (BIA).

Particulièrement critique dans le cadre d’un hébergement de données diverses et variées

• Définition des RTO et RPO.

Ces 2 paramètres sont des gages de résilience et permet à nos clients d’adapter leurs services aux solutions d’hébergement proposées.

• Procédures de bascules et restauration des systèmes et données vers un site de secours. UltraEdge dispose d’un réseau de Data center qui permet de répondre aux besoins de bascules et ou de restauration de données des clients avec des procédures régulièrement mis à jour.

Pour assurer le bon fonctionnement des ses sites, UltraEdge organise régulièrement des tests sur ses data centers.

Avec nos data centers dotés d’infrastructures de dernière génération (N+1, 2N, etc..) qui répondent aux attentes de résilience, nous donnons comme objectif de toujours mieux répondre aux besoins des clients en leur offrant des sites de PRA adaptés à leurs besoins.

Identification des risques & priorités

1ère étape ; réaliser une analyse des risques approfondie de l'écosystème IT de l'entreprise.

Cela consiste à identifier les menaces potentielles et de jauger leur impact sur les activités les plus critiques. Pour ce faire, les responsables IT sont en relation étroite avec les directions métiers pour appréhender le caractère critique ou non de chaque élément au sein de la chaîne de valeur.

2ème étape ; prioriser en fonction de l'importance stratégique et d'allouer en fonction les ressources adéquates. Typiquement, un paiement en ligne ou un virement instantané pour un service bancaire nécessite une reprise quasi immédiate, ce ne sera pas le cas pour un outil de reporting.

Cette priorisation est enfin alignée avec les objectifs stratégiques et validée par la direction IT.

3ème étape ; évaluer financièrement les impacts dans la structuration du plan de reprise.

Quels couts directs (restauration de data) et quels couts indirects (perte du CA, pénalités prévues par le contrat...) ? Toutes ces estimations justifient ensuite le montant alloué à chaque investissement lié à la sécurité des infrastructures.

Architecture tech et points de bascule

L'architecture tech est un pilier du PRA. Est défini les infras de secours, les mécanismes de réplication des données et les procédures de bascule permettent la restauration de services critiques dans les délais.

Différents modèles d'architecture sont à envisager, tels que :

● Le cold standby ou modèle de secours à froid

Il implique une reconstruction intégrale de l'infra suite au sinistre, à partir des derniers backups. Néanmoins, cette approche présente un délai de reprise trop conséquent et alors incompatible pour les applications les plus critiques.

● Le warm standby ou modèle de secours à tiède

Il s'appuie sur une infra préétablie, et configurée partiellement, qui a l'avantage d'être activée rapidement en cas de panne. Une réplication de la data est périodiquement effectuée, limitant une perte trop massive. C'est un bon compromis coût - efficacité pour beaucoup d'applications de taille moyenne.

● Le hot standby ou modèle de secours à chaud

Il s'appuie sur une infra préétablie, et configurée partiellement, qui a l'avantage d'être activée rapidement en cas de panne. Une réplication de la data est périodiquement effectuée, limitant une perte trop massive. C'est un bon compromis coût - efficacité pour beaucoup d'applications de taille moyenne. Bien plus qu'onéreux, cette solution se justifie pour des applications dont l'indisponibilité engendrerait des conséquences problématiques.

Si pertinent, une décision d'activation d'un environnement de secours peut être actée notamment pour faire face à une intrusion potentielle sur un service critique.

L'architecture résiliente est un must-have pour les data centers de UltraEdge. Une infrastructure de secours suffisamment distante peut être protégée plus efficacement contre un sinistre local, et d'offrir une performance réseau conforme.

En cela, les points de bascule jouent un rôle pivot pour le plan de reprise d'activité informatique.

Tests de reprise et fréquence de mise à jour

Dans les data centers de UltraEdge, plusieurs niveaux de tests en fonction de l'ampleur et de la complexité du test.

Un test documentaire révise la procédure de reprise pour s'assurer la cohérence

Un test de restauration partiel permet de s'assurer de la récupération d'éléments les plus critiques, telle la BDD. Enfin, un test complet, simule par exemple une bascule complète vers l'environnement de secours.

La fréquence est déterminée en fonction des systèmes concernés et la dynamique d'évolution de l'infra. Si une périodicité annuelle est le minimum conseillé, la plupart des applications justifient des contrôles plus réguliers ; chaque trimestre ou chaque mois. Avec l’hébergement en data center chez UltraEdge, nous mettons en place une infrastructure qui en plus de la PRA renforce les capacités de reprise d’activité des infras hébergées.

Point de vigilance à retenir : tout changement profond de l'architecture tech et tout déploiement d'une application critique, ainsi qu'un changement d'organisation entraîne la révision du plan.

PRA ou PCA : comment les différencier ?

Plan de continuité d'activité : rôles et périmètre d'intervention

Le plan de continuité d'activité (PCA) constitue une approche plus globale de la résilience liée à l'organisation. A l'inverse du PRA (Plan de reprise d’activité), il inclut la totalité des processus métiers, au-delà des aspects IT. Maintenir les fonctions essentielles pour l’entreprise, si un incident critique survient, et ce quelle que soit sa nature.

Le périmètre du PCA est ainsi plus large et comprend toutes les activités de l’entreprise ; chaîne d'approvisionnement, équipements, locaux, RH ou relations entre clients et partenaires. Les problématiques diverses sont abordées comme le distanciel, la relocalisation temporaire ou partielle de personnel, la communication de crise ou encore la gestion des relations avec les gouvernements, officiels et médias.

La gouvernance induite par le PCA implique un comité transverse avec des représentants de chaque direction concernée. Ce comité définit alors les priorités, alloue les ressources et arbitre les décisions stratégiques en période de crise. Un responsable du PCA, souvent en lien avec la DG, coordonne la gouvernance et est le garant des composantes clés du plan.

PRA et PCA : différences majeures

Le PRA agit spécifiquement sur la restauration de l'infrastructure réseau et services IT, à la suite d’un incident ou sinistre. Son périmètre, plus technique, est fondamental dans un contexte ou la dépendance aux systèmes IT progresse.

Le PCA, beaucoup plus large dans son champ d'applications, couvre tous les processus métiers, et ce quelles que soient les ressources impactées par l'incident. Les data centers UltraEdge offrent des environnements qui facilitent la mise en place de PCA avec par exemple - la redondance active-actif ou le failover instantané entre différents centres délocalisés - permettant aux clients de mieux asseoir une bonne politique de continuité d’activité.

Les objectifs sont différents. Quand la PRA s'inscrit dans une logique de reprise de service, le PCA est dans la continuité, cherchant à éviter une rupture dans les process métiers essentiels, même s'il s'agit d'adopter un modèle dégradé tout en reposant sur des infrastructures de data center modernes.

Sans rentrer dans le détail, PRA se base sur les deux indicateurs RTO (Réduction du temps d’interruption) et RPO (Protection des données ou période de perte de données tolérable) qui définissent respectivement le délai maximum pour la reprise du service et la perte de données "supportable".

Alors que le PCA va mesurer les impacts métier, comme le maintien d'un service minimal ou la préservation de services clés ou fonctions organisationnelles majeures.

Mise en œuvre du PRA : Quelles étapes ?

La mise en œuvre d’un PRA pour UltraEdge est une démarche stratégique qui vise à garantir la restauration rapide et maitrisée des services IT critiques de nos data centers après un incident majeur.  

Cartographie des systèmes

Un PRA efficace et sa mise en œuvre est conditionnée par une cartographie complète du système d'information. Identifier tous les composants qui sont liés au fonctionnement services critiques et de formaliser les interdépendances.

Plusieurs couches technologiques sont visibles par exemple, les infras physiques (réseau, serveurs et stockage), plateformes virtualisées, entrepôts de données (data centers), middleware, apps métiers et interfaces externes. Chaque composant doit avoir sa documentation technique, les configurations associées et les prérequis fonctionnels pour le backup.

Sans oublier, les flux de data entre les composants, ceux-ci révèlent des dépendances parfois cachées qui peuvent ralentir voire annihiler la reprise par manque d'anticipation. Un schéma détaillé expliquant les points de synchro critiques est nécessaire afin d'optimiser les séquences de restauration.

Évaluation des impacts en cas de panne

Toute élaboration de PRA est combinée à une analyse d'impact pour identifier les activités critiques et leurs besoins IT. Est quantifié les conséquences d'une interruption de service pour chaque service critique. Et, de déterminer les priorités de restauration et la justification préalable des investissements.

Plusieurs dimensions sont adressées : financière, opérationnelle, réglementaire et réputationnelle.

L'impact financier direct résulte de la baisse de chiffre d'affaires durant l'interruption, ce qui est significatif pour des services générant des revenus en temps, par exemple le service de paiement d'un site e-commerce mais aussi les infrastructures IT côté hébergeurs.

L'impact opérationnel correspond à la désorganisation des processus internes et à la baisse de productivité. Et provoque généralement des moments de creux dans la productivité des entreprises.

L'impact réglementaire peut impliquer des violations d'obligations légales, sources de sanctions.

Enfin, pour UltraEdge l’impact sur la réputation, plus difficile à mesurer, conditionne la confiance entre l'hébergé et l'opérateur de data center que nous sommes.

Définition de procédures de bascule et de sauvegarde

Les procédures de PRA sont des instructions précises, détaillées et opérationnelles permettant de :

- Déclencher et piloter la reprise d’activité après un incident

- Restaurer les services critiques hébergés chez UltraEdge

- Réduire les délais de reprise (RTO) et minimiser la perte de données (RPO)

- Assurer la coordination entre toutes les parties prenantes

La bascule et les procédures liées décrivent toutes les démarches pour activer l'environnement de secours dédié.

Si la séquence de démarrage des composants, les vérifications à effectuer à chaque niveau et les critères de validations remplis, alors la bascule est complétée ! Ce qui implique des procédures suffisamment détaillées et claires pour être assimilées et exécutées par les équipes, en cas d'incident.

Documentation et maintenance

La documentation se doit d'être exhaustive, accessible et actualisée fréquemment, notamment pour préserver la pertinence du plan de reprise du data center !

Chaque documentation inclut des niveaux adaptés pour les différents publics.

Par exemple, les documents stratégiques sont destinés aux directions, et présentent les objectifs au global et l'allocation des ressources.

Des procédures pour les opérationnels sont plus détaillées, et guident les techniciens dans l'exécution de taches.

Il existe des fiches réflexes, beaucoup plus concises, qui donnent les instructions clés pour effectuer les bonnes premières actions en cas d'urgence.

Enjeux du PRA pour les data centers

Les enjeux du PRA pour UltraEdge sont stratégiques, techniques, économiques et réglementaires. Un PRA bien conçu permet de limiter les impacts des incidents majeurs sur les activités hébergées, en assurant une reprise rapide et maîtrisée.

Disponibilité et engagements de service (SLA)

Un engagement de service (SLA) définit la relation entre UltraEdge avec ses clients.

La disponibilité accrue des sites opérés par les centres de données favorisent ainsi la continuité des services numériques hébergés.

UltraEdge vise au niveau de ces data centers des disponibilités supérieure à 99% afin de limiter les interruption à moins d'une heure annuellement, pour les secteurs les plus exigeants comme des systèmes hospitaliers ou des plateformes ultraspécialisées (FinTech par exemple), quelques minutes d'interruption sont tolérées.

L'architecture redondante est un investissement constant pour UltraEdge, et surtout indispensable pour nous prémunir de toute indisponibilité.

Réduction du RTO/RPO

Les 2 indicateurs clés RTO (Recovery Time Objective) et RPO (Recovery Point Objective) peuvent être un casse-tête pour les décideurs IT et responsables informatiques.

Le RTO établit le temps requis pour restaurer un service à la suite d’un incident, et peut être optimisé grâce à des leviers tech puissants. Par exemple, l'infrastructure virtuelle facilite la mobilité de la charge de travail inter-sites, et une bascule rapide peut avoir lieu pour pallier toute défaillance.

Le RPO définit une perte de données acceptable, et bénéficie des technologies avancées de réplication. La réplication synchrone garantit qu'aucune transaction n'est perdue ; chaque opération étant validée simultanément sur les infrastructures principales et secondaires.

La réplication asynchrone peut s'avérer plus souple mais elle requiert des distances plus importantes entre les sites afin d'obtenir un RPO non nul. Avec notre maillage de data centers en Europe,  nous offrons aujourd’hui ces possibilités à tous nos clients.

Interruption majeure : quelle continuité opérationnelle ?

En cas de panne ou interruption critique, la continuité opérationnelle regroupe la préparation technique, une organisation humaine et des procédures éprouvées. Même dans des conditions dégradées, l'impératif de poursuivre les services essentiels est maintenu. La particularité des data centers UltraEdge est qu’ils sont équipés d’infrastructures permettant d’assurer une haute disponibilité technologique en conformité aux normes de redondances en vigueur sur le marché des data centers.

Néanmoins, la redondance multisite est une réponse pour répartir une infra critique entre les sites de data centers. Et limitent de fait l'impact potentiel si un sinistre intervient localement.

Comment UltraEdge accompagne la mise en place d'un PRA ?

L'approche UltraEdge combine expertise technique, infrastructure de pointe et méthodologie éprouvée. Notre réseau très dense de 250 data centers et 7 IX data centers (Aubervilliers, Bordeaux, Courbevoie, Lille, Rennes, Strasbourg et Vénissieux), stratégiquement répartis sur le territoire français, offre des conditions idéales pour déployer des architectures de reprise performantes.

Cela permet d'accompagner les acteurs IT, quel que soit le profil d'entreprises des PME jusqu'aux grands groupes, et de s'adapter à leur niveau d'exigence.

Notre réseau bénéficie d'une connectivité optimale, facilitant la mise en place de mécanismes de réplication efficaces inter-sites.