Bug #283
Mis à jour par ggallais il y a plus de 2 ans
Depuis mardi 25 OU le mercredi 26 avril 2025, on a des problèmes sur le site :
* Uusage CPU du site anormalement élevé (toujours pas réglé)
* Indisponibilités aléatoires (erreur connexion DB)
Mardi 25 avril 2023 :
* 12h29 Guillaume installe Really Simple SSL via un script lancé depuis le site web de RS SSL (fonctionnalité d'installation automatique)
* Immédiatement, on perd l'accès au BO du site, mais le front reste fonctionnel
* 13h01 (selon Slack) Guillaume prévient l'équipe fonctionnelle
* 14h13 (selon Teams) Guillaume prévient l'équipe ATOS
* 14h48 (selon Teams) Medhy annonce avoir désactivé le plugin et reseté le .htaccess (source Teams).
* Tout revient à la normale
Simple History a logué en BO une partie des actions, mais l'heure du site est décalée. Ça dit que le plugin a été installé à 11h29 et désintallé à 13h40, au lieu de 12h29 et 14h40. Grafana monte bien l'impact CPU, Apache, Apache CNX, Load entre 12h30 et 15h voir PJ.
Mercredi 26 avril 2023 (selon Teams) :
* 9h30 annonce de la fin de MEP du #275
* 10h28 annonce de la perte de la connexion à la BDD en front
* On envisage que ça soit une panne Google (incident ce jour), mais le site de la presse lui est OK
* 12h04 Eddy envoie des infos qui montrent que notre serveur Google n'est PAS affecté par la panne Google
* 15h50 on a encore des erreurs bdd ne prod
Grafana montre que le site décroche à partir de 9h20, on retrouve aussi un problème vers 16h et un pendant la nuit (voir PJ). Le load montre que l'incident n'a aucune mesure avec la veille : on est à 250 le 26 avril alors qu'on était à 8 au pic du problème du 25 avril.
Jeudi 27 avril 2023 :
* 10h18 Patrice constate que le site va toujours mal (selon grafana)
* 11h07 Medhy annonce avoir rollbacké la MEP de la veille
* 12h36 reboot OP1 OP2 et BDD
Dans Grafana, on voit le CPU, Apache, Apache CNX, et le load réagir au moment du reboot
Vendredi 28 avril 2023 :
* On constate que le CPU continue de prendr plus cher qu'avant.
* Le.htaccess semble hors de cause
* Un pic Apache/ load vers 16h
Depuis :
* le CPU est toujours pas revenu à la normale
* l'usage disque du CPU n'est pas descendu à son niveau d'avant le 26 avril
* l'usage disque de la BDD est tombé depuis le 26 avril sans remonter
* pour le reste ça semble OK
* 5 mai RE-un pic avec effondrement RPS Apache, explosion CPU et RPS Apache CNX, et load
* 9 mai RE-indispo du site
* 9 mai 10h15 Patrice va dans Site Health en BO WP, lance l'action pour corriger un problème SSL
* plus de problème depuis