#21 Re: AWS问题找到了
这都没法算single point failure,无法避免,俩program打架,两边看,其实都不算failure
这都没法算single point failure,无法避免,俩program打架,两边看,其实都不算failure
然后造成了更大的崩塌。
AWS一个release test就要跑几个小时吧。
老领导写的程序,负责管理所有犯人的放风时间。
嗯,所以老领导方方面面都可以chime in,都懂一点
YouHi 写了: 昨天 13:21At a high level, the issue stemmed from two programs competing to write the same DNS entry – essentially a record in the internet’s phonebook – at the same time, which resulted in an empty entry. That threw multiple AWS services into disarray.
https://www.cnn.com/2025/10/25/tech/aws-outage-cause
LOL
race condition可以理解,但是也不该是空白啊。
route 53 这么挫?
牛河梁 写了: 昨天 13:49你的机器不是每次都去DNS拿IP。拿回来缓存一段时间过期以后再去拿。所以即使DNS记录更新了。你的机器用的IP还是错的。除非手动刷新。但问题是十万百万计的(中间)服务器谁去手动刷新啊。
一个DNS改错了,会影响这么多服务?
只能说马鬃的Micro Services吃饱了撑的
别吹牛逼,这个找起来不容易。
这有啥。我的并行计算程序测试出MPI库的一个严重bug,用了三个月。本来一个月就足够了,但DOE不信,那么多牛人开发测试的通用MPI怎么可能有那样的bug,应该是我的代码有bug...
最终,当时DOE所有超算都打补丁。
浪费我很多时间。
ai写code,也就一些固定算法吧。那种复杂的顶层设计,ai根本不可能理解。