你想太多了。你就没训练过Ai模型。一开口就露馅。magagop 写了: 2025年 6月 23日 01:14 你知道短浮點數計算現在還沒有IEEE標準嗎?你知道這意味什麼嗎?紅綠藍廠的浮點數計算結果就是不一樣的,沒有誰對誰錯,但是普通用戶就傻眼了。
Ai训练不在乎你所谓这些误差。甚至根本不在乎你的所谓万卡集群出现计算差错。
训练重要的是能收敛。只要能收敛。你说这些都不是个事。
版主: hci
你想太多了。你就没训练过Ai模型。一开口就露馅。magagop 写了: 2025年 6月 23日 01:14 你知道短浮點數計算現在還沒有IEEE標準嗎?你知道這意味什麼嗎?紅綠藍廠的浮點數計算結果就是不一樣的,沒有誰對誰錯,但是普通用戶就傻眼了。
你也是键盘Ai。就算没训练过模型,屁股想想就知道,“精度”要真那么重要,为什么用短浮点不用双精度。就不怕你说的累积误差。别说几十层,迭代个10000次“误差”得有多大。fantasist 写了: 2025年 6月 23日 02:09 跟他们说这些没什么用,真搞过ai的不用说也懂。
别说浮点精度了,计算图稍微差一点,矩阵相乘顺序不一样,结果就有误差。一个几十层的神经网络,误差累积起来很可观。所以amd华为之类做的训练卡虽然便宜,没什么人愿意去趟雷,因为数值都无法跟n卡对齐。家是自己养了一大批硬件到infra到算法的牛人,才把TPU搞成实际可用的状态。

如果随机出错。WideAnimals 写了: 2025年 6月 23日 19:17 倾向老牛说的。硬件计算精度在训练中的影响不是没有,但是和数据质量,收敛快慢相比影响较小。Magagop所说的精度对backpropagation造成的underflow可以用loss scaling等成熟的方法来弥补。另外现在出来新的训练方法可以只用4 bits(google Q-GaLore), 对硬件的要求更低。
什么问题?乘法器?乘加器?乘法累加器?以前DSP里面就是乘法然后累加,累加的时候可以不用全加器,只用半加器。反正下一次接着用。矩阵乘法也有优化减少乘法次数。好在没有除法。除法我也写过,循环减法。做了一个wafer的芯片。