🧠 神经网络前向传播

两层 MLP:从输入到输出的数据流

前向传播:$a^{(l)} = \sigma(W^{(l)} a^{(l-1)} + b^{(l)})$,$\sigma$ 为激活函数(此处用 Sigmoid)。

输入 x₁, x₂


输出: —

下一步:知识蒸馏——用大网络(教师)的软标签训练小网络(学生)。