<div dir="ltr">My best parsing of that ticket, with some guesses :<br><div><br></div><div>- Infinera management card goes Really Bad, knocks out local waves, and starts spewing garbage out onto the management network</div><div>- Management network propagates the garbage , other Infinera management cards get it and fall into the same state, knocking down local waves and re-spewing garbage. </div><div>- Backup tunnels in place to ensure management network connectivity works all the time help propagate the garbage.</div><div>- They start getting into some devices via OOB, probably rebooting. Devices come up ok, then this garbage traffic knocks them over again. </div><div>- They start pulling down the backup tunnels to stop the virus from spreading, bouncing stuff again, putting filters on each device to drop the garbage traffic. </div><div>- This starts to work, but then they hit other problems with linecards from devices that were bounced. </div><div>- They also start hitting sites that they don't have functional OOB for, and have to get someone driving out to manually get access into. </div></div><br><div class="gmail_quote"><div dir="ltr">On Sun, Dec 30, 2018 at 8:45 AM Saku Ytti <<a href="mailto:saku@ytti.fi">saku@ytti.fi</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Apologies for the URL, I do not know official source and I do not<br>
share the URLs sentiment.<br>
<a href="https://fuckingcenturylink.com/" rel="noreferrer" target="_blank">https://fuckingcenturylink.com/</a><br>
<br>
Can someone translate this to IP engineer? What did actually happen?<br>
>From my own history, I rarely recognise the problem I fixed from<br>
reading the public RCA. I hope CenturyLink will do better.<br>
<br>
Best guess so far that I've heard is<br>
<br>
a) CenturyLink runs global L2 DCN/OOB<br>
b) there was HW fault which caused L2 loop (perhaps HW dropped BPDU,<br>
I've had this failure mode)<br>
c) DCN had direct access to control-plane, and L2 congested<br>
control-plane resources causing it to deprovision waves<br>
<br>
Now of course this is entirely speculation, but intended to show what<br>
type of explanation is acceptable and can be used to fix things.<br>
Hopefully CenturyLink does come out with IP-engineering readable<br>
explanation, so that we may use it as leverage to support work in our<br>
own domains to remove such risks.<br>
<br>
a) do not run L2 DCN/OOB<br>
b) do not connect MGMT ETH (it is unprotected access to control-plane,<br>
it  cannot be protected by CoPP/lo0 filter/LPTS ec)<br>
c) do add in your RFP scoring item for proper OOB port (Like Cisco CMP)<br>
d) do fail optical network up<br>
<br>
-- <br>
  ++ytti<br>
</blockquote></div>