这都没法算single point failure,无法避免,俩program打架,两边看,其实都不算failure
AWS问题找到了
版主: Jack12345
#25 Re: AWS问题找到了
YouHi 写了: 昨天 13:21At a high level, the issue stemmed from two programs competing to write the same DNS entry – essentially a record in the internet’s phonebook – at the same time, which resulted in an empty entry. That threw multiple AWS services into disarray.
https://www.cnn.com/2025/10/25/tech/aws-outage-cause
LOL
race condition可以理解,但是也不该是空白啊。
#27 Re: AWS问题找到了
牛河梁 写了: 昨天 13:49你的机器不是每次都去DNS拿IP。拿回来缓存一段时间过期以后再去拿。所以即使DNS记录更新了。你的机器用的IP还是错的。除非手动刷新。但问题是十万百万计的(中间)服务器谁去手动刷新啊。
一个DNS改错了,会影响这么多服务?
#29 Re: AWS问题找到了
别吹牛逼,这个找起来不容易。
只谈逻辑,不谈政治
我来这不是教育廊庑的,而是提醒傻博士不要上当受骗的。
中国有历史,中国人没有,一周记忆而已。
#30 Re: AWS问题找到了
这有啥。我的并行计算程序测试出MPI库的一个严重bug,用了三个月。本来一个月就足够了,但DOE不信,那么多牛人开发测试的通用MPI怎么可能有那样的bug,应该是我的代码有bug...
最终,当时DOE所有超算都打补丁。
浪费我很多时间。






