<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  </head>
  <body>
    <br>
    <br>
    <div class="moz-cite-prefix">On 8/19/23 00:22, Matthew Petach wrote:<br>
      <br>
    </div>
    <blockquote type="cite"
cite="mid:CAEmG1=obLS7BJtpW_KuWdKs4_38uJYiS582FCSqPBDM6-PJeXA@mail.gmail.com">
      <meta http-equiv="content-type" content="text/html; charset=UTF-8">
      <div dir="ltr">
        <div class="gmail_quote">
          <div>Hi Mark,</div>
          <div><br>
          </div>
          <div>I know it's annoying that I won't mention specifics.</div>
          <div>Unfortunately, the last time I mentioned $vendor-specific
            information on NANOG, it was picked up by the press, and
            turned into a multimillion dollar kerfuffle with me at the
            center of the cross-hairs:</div>
          <div><a
href="https://www.google.com/search?q=petach+kablooie&sca_esv=558180114&nirf=petah+kablooie&filter=0&biw=1580&bih=1008&dpr=2"
              moz-do-not-send="true">https://www.google.com/search?q=petach+kablooie&sca_esv=558180114&nirf=petah+kablooie&filter=0&biw=1580&bih=1008&dpr=2</a></div>
          <div><br>
          </div>
          <div>After that, I've learned it's best to not name specific
            very-big-name vendors on NANOG posts.</div>
          <div><br>
          </div>
          <div>What I *can* say is that this was one of the primary
            vendors in the Internet backbone space, running mainstream
            code.</div>
          <div>The only reason it didn't affect more networks was a
            function of the particular cluster of signalling communities
            being applied to all inbound prefixes, and how they
            interacted with the vendor's hash algorithm.  </div>
          <div><br>
          </div>
          <blockquote class="gmail_quote" style="margin:0px 0px 0px
            0.8ex;border-left:1px solid
            rgb(204,204,204);padding-left:1ex">
            <div> Corner cases, while valid, do not speak to the
              majority. If this was a major issue, there would have been
              more noise about it by now.<br>
            </div>
          </blockquote>
          <div><br>
          </div>
          <div>I prefer to look at it the other way; the reason you
            didn't hear more noise about it, is that we stubbed our toes
            on it early, and had relatively fast, direct access to the
            development engineers to get it fixed within two days.  It's
            precisely *bcause* people trip over corner cases and get
            them fixed that they don't end up causing more widespread
            pain across the rest of the Internet.</div>
          <div> </div>
          <blockquote class="gmail_quote" style="margin:0px 0px 0px
            0.8ex;border-left:1px solid
            rgb(204,204,204);padding-left:1ex">
            <div> There has been quite some noise about lengthy AS_PATH
              updates that bring some routers down, which has usually
              been fixed with improved BGP code. But even those are not
              too common, if one considers a 365-day period.<br>
            </div>
          </blockquote>
          <div><br>
          </div>
          <div>Oh, absolutely.  Bugs in implementations that either
            crash the router or reset the BGP session are much more
            immediately visible than "that's odd, it's taking my routers
            longer to converge than it should".</div>
          <div><br>
          </div>
          <div>How many networks actually track their convergence time
            in a time series database, and look at unusual trends, and
            then diagnose why the convergence time is increasing, versus
            how many networks just note an increasing number of "hey,
            your network seems to be slowing down" and throw more
            hardware at the problem, while grumbling about why their big
            expensive routers seem to be less powerful than a *nix box
            running gated?</div>
          <div><br>
          </div>
          <div>I suspect there's more of these type of "corner cases"
            out there than you recognize.  </div>
          <div>It's just that most networks don't dig into routing
            performance issues unless it actually breaks the router, or
            kills BGP adjacencies.</div>
          <div><br>
          </div>
          <div>If you *are* one of the few networks that tracks your
            router's convergence time over time, and identifies and
            resolves unexpected increases in convergence time, then yes,
            you absolutely have standing to tell me to pipe down and go
            back into my corner again.  ;D</div>
        </div>
      </div>
    </blockquote>
    <br>
    So, while this all sounds good, without any specifics on vendor,
    box, code, code revision number, fix, year it happened, current
    status, e.t.c., I can't offer any meaningful engagement.<br>
    <br>
    We all run into odd stuff as we operate this Internet, but the point
    of a list like this is to share those details so we can learn, fix
    and move forward.<br>
    <br>
    Your ambiguity does not lend itself to a helpful discussion,
    notwithstanding my understanding of your caution.<br>
    <br>
    I am less concerned about keeping smiles on vendors' faces. I tell
    them in public and private if they are great or not. But since
    you've been burned, I get. It's just not moving the needle on this
    thread, though.<br>
    <br>
    Mark.<br>
  </body>
</html>