21、 [单选] BatchNorm 层对于 input batch 会统计出 mean 和 variance 用于计算 EMA。如果 input batch 的 shape 为(B,C,H,W),统计出的 mean 和 variance的 shape 为:()
• A:B*1*1*1
• B:1*C*1*1
• C:B*C*1*1
• D:1*1*1*1
正确答案:B
解析:答案解析:BatchNorm 层对于 input batch 会统计出每个 channel 的 mean 和
variance,因此统计出的 mean 和 variance 的 shape 为 1*C*1*1,即选项 B。
22、 [单选] 已经为所有隐藏单元使用 tanh 激活建立了一个网络。使用np.random.randn(..,..)*1000 将权重初始化为相对较大的值。会发生什么?
• A:这没关系。只要随机初始化权重,梯度下降不受权重大小的影响。
• B:这将导致 tanh 的输入也非常大