分页: 2 / 2

#21 Re: AWS问题找到了

发表于 : 2025年 10月 25日 16:26
tiantian2000
苍井吱 写了: 昨天 13:40

24小时,按照它自己标榜的99.99% availability

一下子把3年的quota梭哈光了

这都没法算single point failure,无法避免,俩program打架,两边看,其实都不算failure


#22 Re: AWS问题找到了

发表于 : 2025年 10月 25日 17:46
altopalo
tiantian2000 写了: 昨天 16:22

你们小作坊用料就是猛,修的也快,老领导亲自改代码,亲自QA,亲自release,亲自指挥,亲自部署,一条龙

然后造成了更大的崩塌。
AWS一个release test就要跑几个小时吧。


#23 Re: AWS问题找到了

发表于 : 2025年 10月 25日 18:02
YouHi
tiantian2000 写了: 昨天 16:22

你们小作坊用料就是猛,修的也快,老领导亲自改代码,亲自QA,亲自release,亲自指挥,亲自部署,一条龙

老领导写的程序,负责管理所有犯人的放风时间。


#24 Re: AWS问题找到了

发表于 : 2025年 10月 25日 18:14
tiantian2000
YouHi 写了: 昨天 18:02

老领导写的程序,负责管理所有犯人的放风时间。

嗯,所以老领导方方面面都可以chime in,都懂一点


#25 Re: AWS问题找到了

发表于 : 2025年 10月 25日 20:31
newIdRobot
YouHi 写了: 昨天 13:21

At a high level, the issue stemmed from two programs competing to write the same DNS entry – essentially a record in the internet’s phonebook – at the same time, which resulted in an empty entry. That threw multiple AWS services into disarray.

https://www.cnn.com/2025/10/25/tech/aws-outage-cause

LOL

race condition可以理解,但是也不该是空白啊。


#26 Re: AWS问题找到了

发表于 : 2025年 10月 25日 20:31
newIdRobot

route 53 这么挫?


#27 Re: AWS问题找到了

发表于 : 2025年 10月 25日 20:33
newIdRobot
牛河梁 写了: 昨天 13:49

你的机器不是每次都去DNS拿IP。拿回来缓存一段时间过期以后再去拿。所以即使DNS记录更新了。你的机器用的IP还是错的。除非手动刷新。但问题是十万百万计的(中间)服务器谁去手动刷新啊。

一个DNS改错了,会影响这么多服务?


#28 Re: AWS问题找到了

发表于 : 2025年 10月 25日 20:52
牛河梁
newIdRobot 写了: 昨天 20:33

一个DNS改错了,会影响这么多服务?

只能说马鬃的Micro Services吃饱了撑的


#29 Re: AWS问题找到了

发表于 : 2025年 10月 26日 12:00
noid2
赖美豪中 写了: 昨天 13:33

这就是ai写code的水平,但是三锅fix这种问题居然要花24小时才是奇迹

别吹牛逼,这个找起来不容易。


#30 Re: AWS问题找到了

发表于 : 2025年 10月 26日 12:58
yanb
赖美豪中 写了: 昨天 13:33

这就是ai写code的水平,但是三锅fix这种问题居然要花24小时才是奇迹

这有啥。我的并行计算程序测试出MPI库的一个严重bug,用了三个月。本来一个月就足够了,但DOE不信,那么多牛人开发测试的通用MPI怎么可能有那样的bug,应该是我的代码有bug...

最终,当时DOE所有超算都打补丁。

浪费我很多时间。


#31 Re: AWS问题找到了

发表于 : 2025年 10月 26日 13:06
yanb

ai写code,也就一些固定算法吧。那种复杂的顶层设计,ai根本不可能理解。