前向传播:$a^{(l)} = \sigma(W^{(l)} a^{(l-1)} + b^{(l)})$,$\sigma$ 为激活函数(此处用 Sigmoid)。
输入 x₁, x₂
输出: —
下一步:知识蒸馏——用大网络(教师)的软标签训练小网络(学生)。
两层 MLP:从输入到输出的数据流
前向传播:$a^{(l)} = \sigma(W^{(l)} a^{(l-1)} + b^{(l)})$,$\sigma$ 为激活函数(此处用 Sigmoid)。
下一步:知识蒸馏——用大网络(教师)的软标签训练小网络(学生)。