Press "Enter" to skip to content

拒绝会议评审「黑盒子」!UC伯克利马毅团队新作遭AC拒绝,「泄露天机」or 拒绝「第一原理」

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

来源:微博等

编辑:yaxin, LQ

近日,UC伯克利马毅教授发博称,自己团队的一篇 ICML 2021 投稿得到了4个评审一致接收,却被领域主席(AC) 说 尚不能解释目前深度神经网络「所有」的tricks为由拒绝了 。

 

马毅教授表示,自己认为这是迄今为止 「真正最接近」 揭示深度神经网络理论与实践基本原理的框架。

 

它隐含的意义甚至远远 超出 了仅仅解释目前深度学习的范畴。

 

既 泄露了天机 ,当然也触动了某些人脆弱的神经。

 

有的人可能并 不希望 把深度学习的原理(也就是在做什幺能做什幺)搞清楚,至少希望越晚越好。

 

 

马教授团队发表的这篇论文为 「ReduNet: A White-box Deep Network from the Principle of Maximizing Rate Reduction」 。

 

全文共有97页,一系列数学公式、还有搭配的各种图表,数据可谓丰富。

 

 

△ 论文地址:https://arxiv.org/pdf/2105.10446.pdf

 

根据马教授的介绍,这篇论文 彻底梳理清楚 了整个理论和算法框架。

 

那幺,这篇论文究竟讲了什幺内容?

 

深度学习无需反向传播

 

从「ReduNet: A White-box Deep Network from the Principle of Maximizing Rate Reduction」这篇论文的摘要的介绍可以了解到,该研究团队的主要工作是试图提供一个合理的理论框架,旨在 从数据压缩和discriminative表示的原理来解释现代深度(卷积)网络 。

 

这项研究表明,对于高维多分类数据,最佳的线性discriminative表示可以使整个数据集与所有子集的平均值之间的编码率差异最大化。

 

用于优化速率降低目标的基本迭代梯度上升方案自然会导致多层深度网络—— ReduNet ,该网络具有现代深度网络的共同特征。

 

 

深层体系结构,线性和非线性运算符,甚至网络的参数都是通过 正向传播 逐层显式构造的,而不是通过 反向传播 来学习的。

 

如此获得的 「白盒」 网络的所有组件均具有精确的优化,统计和几何解释功能。

 

而且,当研究人员将分类严格地变为平移不变性(shift-invariant)时,这样派生网络的所有线性算子自然会变成多通道卷积。

 

 

该推导还表明,这种深度卷积网络在光谱域中的构建和学习明显更为有效。研究的初步模拟和实验清楚地证明了降低速率目标和相关的ReduNet的有效性。

 

再来看马毅教授即将所做的 「基于第一原理的深度(卷积)神经网络」 报告中介绍道:

 

本次演讲将以完全 「白盒」 的方式,从数据压缩(以及群不变性)的角度来构造和阐释深度(卷积)神经网络。

 

具体会说明现代深度层次架构、线性(包括卷积)算子和非线性激活,甚至所有参数,都能用数据压缩中 「编码率减小」 (Rate Reduction)的原理解释(以及群不变性)。

 

网络所有层次结构、算子(包括卷积)、以及算子的参数值都能利用前向传播算法显示构造得出,无需反向传播算法进行学习。

 

由此获得的ReduNet网络具备严格精确的基于几何、统计、以及优化的意义。

 

这种基于原理的方法还有以下 几个好处 :

 

1 揭示了不变性和以分类为目的的稀疏表之间存在的权衡关系;

 

2 揭示了不变深度网络和傅里叶变换之间的基本联系——也就是在谱域中计算的优势(为什幺大脑神经元要用频率计算);

 

3 揭示了前向传播算法(优化)和反向传播算法(变分)分别扮演的数学角色。

 

 

我们知道, 反向传播算法 (BP) 是在神经网络上执行梯度下降法的主要算法,它是神经网络的基础。

 

一直以来,1960年代提出的反向传播算法一度沉寂。直到20世纪,神经网络的火热,BP神经网络风靡各个研究领域,GPU的加持了计算机反向传播。

 

如果说,深度学习算法中 不需要 反向传播进行学习,可谓是一大变革。

 

 

争议焦点:第一原理

 

许多网友纷纷发表了自己的观点。

 

有人质疑AC的结论 ,毕竟这种评审全过,AC遭拒的情况并非个例。

 

也有网友评论, AC拒绝的原因可能在于First Principle Claim,AC并不认可First Principle, 所以才会有「尚不能解释目前深度神经网络所有的tricks」。

 

看到这里就不得不提一下这个 First Principle(第一原理) 。

 

第一原理是从头计算,不需要任何实验参数,只需要一些基本的物理常量,就可以得到体系基态的基本性质。

 

说白了,第一原理是事物唯一的 源头 ,是抽象的,而且比因果律更高级。

 

比如说,爱因斯坦的质能转换方程E=mc2,就是把物质和能量的关系用一个最简单的公式表示出来,实现了宏观世界的大一统。这就是宏观物理世界的第一性原理。

 

 

2020年,马老师团队发表的一篇论文 Learning Diverse and Discriminative Representations via the Principle of Maximal Coding Rate Reduction . 这篇论文中了2020年NeurIPS.

 

 

△ 论文 https://arxiv.org/abs/2006.08558

 

对于这篇论文,马老师在微博中这样描述:这是我一生论文中唯一一个敢用 「Principle」 这个字来命名贡献的论文。

 

这篇论文提出了 「MCR^2原理」 ,即最大编码率衰减(Maximal Coding Rate Reduction,   MCR^2),作为深度模型优化的第一原理的系列工作。

 

MCR^2原理将监督学习、无监督学习、自监督学习、弱监督学习等所有深度学习的instances完美地统一在数据压缩的框架下面。

 

MCR^2 原理基于率失真理论,描述了划分和压缩的过程,并能够基于压缩,完成包括聚类,分类,表示学习,构造网络等等任务,体现了作为学习的一般原理的 「泛用性能」 。

 

 

人物介绍

 

马毅,加利福尼亚大学伯克利分校电子工程与计算机科学系教授,1995年从清华大学本科毕业,2000年从加利福尼亚大学伯克利分校取得硕士及博士学位。

 

 

研究方向为计算机视觉、高维数据分析、智能系统。

 

2000年至2011年,任伊利诺伊大学厄巴纳-香槟分校教授,并成为该校电气与计算机工程系历史上最年轻的副教授。

 

2009年至2014年任微软亚洲研究院视觉计算团队主任和首席研究员,2014年至2017年任上海科技大学信息科学与技术学院院长。

 

马教授发表超160篇学术论文,撰写过计算机视觉、统计学习、数据科学相关的三本教科书。

 

 

曾获2004年美国自然科学基金委员会杰出青年奖、2005年美国海军研究署青年研究员奖、1999年ICCV马尔奖(Marr Prize),曾任国际计算机视觉大会2013年项目主席和2015大会主席。

 

马教授还是IEEE Fellow(2013)、ACM Fellow (2017)和SIAM Fellow (2020)。

 

2016年,马教授还被汤森路透的Clarivate Analytics(科睿唯安)评为全球高引学者。

 

 

△ 马老师在微博上的回应引用了德国数学家David Hilbert的话

 

对于网上的讨论,马毅教授在微博回应:

 

认真读论文、严肃质疑吧。

 

不要道听途说,不要拾人牙慧,不要盲从权威。

 

马老师的话也不要全信。

 

我们的工作也只起了个头,后续还有很多可以发展改进的。

 

参考资料:

 

https://weibo.com/u/3235040884?topnav=1&wvr=6&topsug=1&is_all=1

 

https://www.zhihu.com/search?type=content&q=%E9%A9%AC%E6%AF%85

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注