上海交大:基于近似随机Dropout的LSTM训练加速

在这篇文章中,作者利用Dropout方法在神经网络训练过程中产生大量的稀疏性进行神经网络的训练加速。该论文已经 … Continue reading “上海交大:基于近似随机Dropout的LSTM训练加速”

全局最优解?为什么 SGD 能令神经网络的损失降到零

昨日,reddit 上一篇帖子引发热议,该帖介绍了一篇关于梯度下降对过参数化神经网络影响的论文,该论文只用单个 … Continue reading “全局最优解?为什么 SGD 能令神经网络的损失降到零”