<div dir="auto">Facebook stopped announcing the vast majority of their IP space to the DFZ during this. <br></div><div dir="auto"><br></div><div dir="auto">This is where I would like to learn more about the outage. Direct Peering FB connections saw a drop in a networks (about a dozen) and one the networks covered their C and D Nameservers but the block for A and B name servers remained advertised but simply not responsive . </div><div dir="auto">I imagine the dropped blocks could have prevented internal responses but an suprise all of these issue would stem from the perspective I have . </div><div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Oct 5, 2021 at 8:48 AM Tom Beecher <<a href="mailto:beecher@beecher.cc">beecher@beecher.cc</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Maybe withdrawing those routes to their NS could have been mitigated by having NS in separate entities.<br></blockquote><div><br></div><div>Assuming they had such a thing in place , it would not have helped. </div><div><br></div><div>Facebook stopped announcing the vast majority of their IP space to the DFZ during this. So even they did have an offnet DNS server that could have provided answers to clients, those same clients probably wouldn't have been able to connect to the IPs returned anyways. </div><div><br></div><div>If you are running your own auths like they are, you likely view your public network reachability as almost bulletproof and that it will never disappear. Which is probably true most of the time. Until yesterday happens and the 9's in your reliability percentage change to 7's. </div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Oct 5, 2021 at 8:10 AM Jean St-Laurent via NANOG <<a href="mailto:nanog@nanog.org" target="_blank">nanog@nanog.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Maybe withdrawing those routes to their NS could have been mitigated by having NS in separate entities.<br>
<br>
Let's check how these big companies are spreading their NS's.<br>
<br>
$ dig +short <a href="http://facebook.com" rel="noreferrer" target="_blank">facebook.com</a> NS<br>
<a href="http://d.ns.facebook.com" rel="noreferrer" target="_blank">d.ns.facebook.com</a>.<br>
<a href="http://b.ns.facebook.com" rel="noreferrer" target="_blank">b.ns.facebook.com</a>.<br>
<a href="http://c.ns.facebook.com" rel="noreferrer" target="_blank">c.ns.facebook.com</a>.<br>
<a href="http://a.ns.facebook.com" rel="noreferrer" target="_blank">a.ns.facebook.com</a>.<br>
<br>
$ dig +short <a href="http://google.com" rel="noreferrer" target="_blank">google.com</a> NS<br>
<a href="http://ns1.google.com" rel="noreferrer" target="_blank">ns1.google.com</a>.<br>
<a href="http://ns4.google.com" rel="noreferrer" target="_blank">ns4.google.com</a>.<br>
<a href="http://ns2.google.com" rel="noreferrer" target="_blank">ns2.google.com</a>.<br>
<a href="http://ns3.google.com" rel="noreferrer" target="_blank">ns3.google.com</a>.<br>
<br>
$ dig +short <a href="http://apple.com" rel="noreferrer" target="_blank">apple.com</a> NS<br>
<a href="http://a.ns.apple.com" rel="noreferrer" target="_blank">a.ns.apple.com</a>.<br>
<a href="http://b.ns.apple.com" rel="noreferrer" target="_blank">b.ns.apple.com</a>.<br>
<a href="http://c.ns.apple.com" rel="noreferrer" target="_blank">c.ns.apple.com</a>.<br>
<a href="http://d.ns.apple.com" rel="noreferrer" target="_blank">d.ns.apple.com</a>.<br>
<br>
$ dig +short <a href="http://amazon.com" rel="noreferrer" target="_blank">amazon.com</a> NS<br>
<a href="http://ns4.p31.dynect.net" rel="noreferrer" target="_blank">ns4.p31.dynect.net</a>.<br>
<a href="http://ns3.p31.dynect.net" rel="noreferrer" target="_blank">ns3.p31.dynect.net</a>.<br>
<a href="http://ns1.p31.dynect.net" rel="noreferrer" target="_blank">ns1.p31.dynect.net</a>.<br>
<a href="http://ns2.p31.dynect.net" rel="noreferrer" target="_blank">ns2.p31.dynect.net</a>.<br>
<a href="http://pdns6.ultradns.co.uk" rel="noreferrer" target="_blank">pdns6.ultradns.co.uk</a>.<br>
<a href="http://pdns1.ultradns.net" rel="noreferrer" target="_blank">pdns1.ultradns.net</a>.<br>
<br>
$ dig +short <a href="http://netflix.com" rel="noreferrer" target="_blank">netflix.com</a> NS<br>
<a href="http://ns-1372.awsdns-43.org" rel="noreferrer" target="_blank">ns-1372.awsdns-43.org</a>.<br>
<a href="http://ns-1984.awsdns-56.co.uk" rel="noreferrer" target="_blank">ns-1984.awsdns-56.co.uk</a>.<br>
<a href="http://ns-659.awsdns-18.net" rel="noreferrer" target="_blank">ns-659.awsdns-18.net</a>.<br>
<a href="http://ns-81.awsdns-10.com" rel="noreferrer" target="_blank">ns-81.awsdns-10.com</a>.<br>
<br>
Amnazon and Netflix seem to not keep their eggs in the same basket. From a first look, they seem more resilient than <a href="http://facebook.com" rel="noreferrer" target="_blank">facebook.com</a>, <a href="http://google.com" rel="noreferrer" target="_blank">google.com</a> and <a href="http://apple.com" rel="noreferrer" target="_blank">apple.com</a><br>
<br>
Jean<br>
<br>
-----Original Message-----<br>
From: NANOG <nanog-bounces+jean=<a href="mailto:ddostest.me@nanog.org" target="_blank">ddostest.me@nanog.org</a>> On Behalf Of Jeff Tantsura<br>
Sent: October 5, 2021 2:18 AM<br>
To: William Herrin <<a href="mailto:bill@herrin.us" target="_blank">bill@herrin.us</a>><br>
Cc: <a href="mailto:nanog@nanog.org" target="_blank">nanog@nanog.org</a><br>
Subject: Re: Facebook post-mortems...<br>
<br>
<a href="http://129.134.30.0/23" rel="noreferrer" target="_blank">129.134.30.0/23</a>, <a href="http://129.134.30.0/24" rel="noreferrer" target="_blank">129.134.30.0/24</a>, <a href="http://129.134.31.0/24" rel="noreferrer" target="_blank">129.134.31.0/24</a>. The specific routes covering all 4 nameservers (a-d) were withdrawn from all FB peering at approximately 15:40 UTC.<br>
<br>
Cheers,<br>
Jeff<br>
<br>
> On Oct 4, 2021, at 22:45, William Herrin <<a href="mailto:bill@herrin.us" target="_blank">bill@herrin.us</a>> wrote:<br>
> <br>
> On Mon, Oct 4, 2021 at 6:15 PM Michael Thomas <<a href="mailto:mike@mtcc.com" target="_blank">mike@mtcc.com</a>> wrote:<br>
>> They have a monkey patch subsystem. Lol.<br>
> <br>
> Yes, actually, they do. They use Chef extensively to configure <br>
> operating systems. Chef is written in Ruby. Ruby has something called <br>
> Monkey Patches. This is where at an arbitrary location in the code you <br>
> re-open an object defined elsewhere and change its methods.<br>
> <br>
> Chef doesn't always do the right thing. You tell Chef to remove an RPM <br>
> and it does. Even if it has to remove half the operating system to <br>
> satisfy the dependencies. If you want it to do something reasonable, <br>
> say throw an error because you didn't actually tell it to remove half <br>
> the operating system, you have a choice: spin up a fork of chef with a <br>
> couple patches to the chef-rpm interaction or just monkey-patch it in <br>
> one of your chef recipes.<br>
> <br>
> Regards,<br>
> Bill Herrin<br>
> <br>
> --<br>
> William Herrin<br>
> <a href="mailto:bill@herrin.us" target="_blank">bill@herrin.us</a><br>
> <a href="https://bill.herrin.us/" rel="noreferrer" target="_blank">https://bill.herrin.us/</a><br>
<br>
</blockquote></div>
</blockquote></div></div>