神经网络前向传播入门 - 在线免费体验 | 必学必会演示

前向传播：$a^{(l)} = \sigma(W^{(l)} a^{(l-1)} + b^{(l)})$，$\sigma$ 为激活函数（此处用 Sigmoid）。

输入 x₁, x₂

x₁ = 0.5 x₂ = 0.8

W₁ (隐层) W₂

输出: —

下一步：知识蒸馏——用大网络（教师）的软标签训练小网络（学生）。