Coupure réseau : à qui la faute ?

Ce matin, nous avons eu, au support de notre boite, plusieurs coup de fil de clients ne pouvant accéder à leur site.
Nous testons de notre côté, pas de problème : les serveurs fonctionnent correctement, pas de charge particulière, la connexion est bonne. Après un peu de recherche, la piste d’un défaut entre certains réseau de nos clients et celui de notre hébergeur, OVH, est confirmé, sur le site des incidents et maintenances en cours, nous découvrons qu’un problème de peering chez SFINX est à l’origine de ces problèmes.

SFINX est un noeud d’échange (peering) géré par RENATER un groupement d’intérêt public regroupant de grands nom de la recherche en France. C’est lui qui gère l’infrastructure réseau des campus français notamment.
En fonction de l’opérateur Internet le trafic qui arrive chez OVH passe par différents noeuds, soit OVH dispose d’un lien avec cet opérateur soit le trafic peut passer par un noeud de connexion comme SFINX. Or ce matin, il se trouve qu’un souci chez SFINX a provoqué des problèmes de trafic réseau chez eux d’où l’inaccessiblité pour ces clients qui provenaient de SFINX de nos serveurs.

Au-delà de blâmer tel ou tel opérateur pour une panne, dont on sait qu’elle peut arriver (et pour laquelle il est pertinent de mesurer les procédures permettant de réduire l’indisponibilité), se pose pour moi deux questions.

La première est : quelle est la responsabilité des différents acteurs pour ce type de panne ?

En effet, OVH garantit sur les serveurs que nous possédons une disponibilité de 99,9 %, de notre côté, nous avons des choses similaires auprès de nos clients. Mais dans ce cas, le serveur n’est pas indisponible, le problème provient d’un souci qui n’est même pas du ressort d’OVH mais de l’un de ses prestataires.
Je n’ai pas mené de recherche plus poussée que ça (je commence à le faire) mais c’est là une question intéressante à se poser.

L’autre point est la structure même d’Internet.

A l’origine Internet a été conçu par l’armée américaine pour structurer les réseaux des ordinateurs militaires dans un maillage complet de telle manière qu’en cas de guerre atomique (c’était la guerre froide à l’époque), si jamais l’un des noeuds était détruit, que le trafic réseau puisse continuer à se faire en passant par d’autres noeuds.
Aujourd’hui on se rend compte que si de plus en plus de monde est connecté à Internet, sa structure n’est plus du tout maillée, pour passer entre les réseaux des différents opérateurs, il faut passer par ces noeuds… et forcément quand il y a un problème… ça coince (heureusement que le risque de conflit atomique à grande échelle s’est éloigné 🙂 ).
Et je ne parle pas ici, des motivations commerciales qui peuvent apparaître entre deux opérateurs pour la mise en place du peering…

Laisser un commentaire