Bug #283: Augmentation de l'usage CPU du site - [GP] Anomalies & Évolutions - Redmine

Bug #283

Mis à jour par ggallais il y a plus de 2 ans

Depuis mardi 25 OU le mercredi 26 avril 2025, on a des problèmes sur le site : 

 * Uusage CPU du site anormalement élevé (toujours pas réglé) 
 * Indisponibilités aléatoires (erreur connexion DB)  

 Mardi 25 avril 2023 : 

 * 12h29 Guillaume installe Really Simple SSL via un script lancé depuis le site web de RS SSL (fonctionnalité d'installation automatique) 
 * Immédiatement, on perd l'accès au BO du site, mais le front reste fonctionnel 
 * 13h01 (selon Slack) Guillaume prévient l'équipe fonctionnelle 
 * 14h13 (selon Teams) Guillaume prévient l'équipe ATOS 
 * 14h48 (selon Teams) Medhy annonce avoir désactivé le plugin et reseté le .htaccess (source Teams). 
 * Tout revient à la normale 

 Simple History a logué en BO une partie des actions, mais l'heure du site est décalée. Ça dit que le plugin a été installé à 11h29 et désintallé à 13h40, au lieu de 12h29 et 14h40. Grafana monte bien l'impact CPU, Apache, Apache CNX, Load entre 12h30 et 15h voir PJ. 

 Mercredi 26 avril 2023 (selon Teams) : 

 * 9h30 annonce de la fin de MEP du #275 
 * 10h28 annonce de la perte de la connexion à la BDD en front 
 * On envisage que ça soit une panne Google (incident ce jour), mais le site de la presse lui est OK 
 * 12h04 Eddy envoie des infos qui montrent que notre serveur Google n'est PAS affecté par la panne Google 
 * 15h50 on a encore des erreurs bdd ne prod 

 Grafana montre que le site décroche à partir de 9h20, on retrouve aussi un problème vers 16h et un pendant la nuit (voir PJ). Le load montre que l'incident n'a aucune mesure avec la veille : on est à 250 le 26 avril alors qu'on était à 8 au pic du problème du 25 avril. 

 Jeudi 27 avril 2023 : 

 * 10h18 Patrice constate que le site va toujours mal (selon grafana) 
 * 11h07 Medhy annonce avoir rollbacké la MEP de la veille 
 * 12h36 reboot OP1 OP2 et BDD 

 Dans Grafana, on voit le CPU, Apache, Apache CNX, et le load réagir au moment du reboot 

 Vendredi 28 avril 2023 : 

 * On constate que le CPU continue de prendr plus cher qu'avant. 
 * Le.htaccess semble hors de cause 
 * Un pic Apache/ load vers 16h 

 Depuis :  

 * le CPU est toujours pas revenu à la normale 
 * l'usage disque du CPU n'est pas descendu à son niveau d'avant le 26 avril 
 * l'usage disque de la BDD est tombé depuis le 26 avril sans remonter 
 * pour le reste ça semble OK 
 * 5 mai RE-un pic avec effondrement RPS Apache, explosion CPU et RPS Apache CNX, et load 
 * 9 mai RE-indispo du site 
 * 9 mai 10h15 Patrice va dans Site Health en BO WP, lance l'action pour corriger un problème SSL 
 * plus de problème depuis

Retour

Projet

Général

Profil

[GP] Anomalies & Évolutions

Bug #283