<div dir="ltr"><div class="gmail_default" style="font-size:small">Hello All,</div><div class="gmail_default" style="font-size:small"><br></div><div class="gmail_default" style="font-size:small">During the CI meeting, there was a request to provide the post mortem review of the recent unplanned downtime.</div><div class="gmail_default" style="font-size:small"><br></div><div class="gmail_default" style="font-size:small">Timeline: </div><div class="gmail_default" style="font-size:small">* September 27, 8:30am - WHat should have been a routine upgrade to the Jenkins server failed, triggering the down time.</div><div class="gmail_default" style="font-size:small">* September 27, 8:40am - Failed upgrade detected through combination of automated notifications and job failures in Jenkins.</div><div class="gmail_default" style="font-size:small">* September 27 - October 3 - UNH Team worked to restore the system to the original configuration.</div><div class="gmail_default" style="font-size:small">* October 3, 4pm - Server functionality restored</div><div class="gmail_default" style="font-size:small">* October 4, 11:30am - Jenkins pipelines re-enabled for compile and unit testing</div><div class="gmail_default" style="font-size:small">* October 5, 11am - Jenkins pipeline for bare-metal performance and functional testing re-enabled, after nominal debug / trial run.</div><div class="gmail_default" style="font-size:small"><br></div><div class="gmail_default" style="font-size:small">Root Cause:</div><div class="gmail_default" style="font-size:small">The ansible script / playbook used to maintain the lab (including the Jenkins server) caused a trust failure of kerberos (between the server and the IPA domain controller) used to secure the NFS mounts hosting the Jenkins databases, configuration, log output, etc.  This prevented Jenkins from starting properly and complicated the restoration of the Jenkins service.</div><div class="gmail_default" style="font-size:small"><br></div><div class="gmail_default" style="font-size:small">Changes:</div><div class="gmail_default" style="font-size:small">1. Per the community request, UNH will provide notice to the CI email list prior to upgrades, even for routine maintenance upgrades.</div><div class="gmail_default" style="font-size:small">2. The UNH-IOL notification / monitoring server will be configured to also send notifications to the CI email list.  Note, you will see all notifications, including routine maintenance, i.e. host reboots, etc.  This was indicated as acceptable during the CI meeting.</div><div class="gmail_default" style="font-size:small">3. This email summary.</div><div class="gmail_default" style="font-size:small"><br></div><div class="gmail_default" style="font-size:small">As of Friday afternoon, Jenkins has "caught up" and has a queue of about 20'ish jobs, which is about 1 patch worth of testing.  Please let me know if there are any questions or if anything else looks incorrect in the test results.  We apologize for the inconvenience this caused, while waiting for the automated testing to be restored.</div><div class="gmail_default" style="font-size:small"><br></div><div class="gmail_default" style="font-size:small">Cheers,<br>Lincoln</div>-- <br><div dir="ltr" data-smartmail="gmail_signature"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div><b>Lincoln Lavoie</b><br></div><div>Principal Engineer, Broadband Technologies</div><div>21 Madbury Rd., Ste. 100, Durham, NH 03824</div><div><a href="mailto:lylavoie@iol.unh.edu" target="_blank">lylavoie@iol.unh.edu</a></div><div><a href="https://www.iol.unh.edu" target="_blank">https://www.iol.unh.edu</a></div><div>+1-603-674-2755 (m)</div><div><a href="https://www.iol.unh.edu" target="_blank"><img src="https://docs.google.com/uc?export=download&id=1j_iI6anwrnbQWNpTyuvukMLSNJJ8_8QU&revid=0B_0ujwABDnFZTmJiR3EzK0d1VjFKTjQvMENBWVM0QnA4ajhjPQ" width="200" height="43"></a><br></div></div></div></div></div></div></div></div></div></div></div></div>