Press "Enter" to skip to content

非线性动力学特辑 – 低维到高维的联通者

序言: 本文将以维度为主线, 带量大家进入非线性动力学的世界。 文章数学部分不需要全部理解, 理解思维方法为主

 

非线性动力学,是物理学的思维进入传统方法所不能解决的问题的一座丰碑。它可以帮助我们理解不同复杂度和时间空间尺度的系统,小到生物细胞的代谢反应, 大到社会运行的规律。 并且在当下对神经网络的理解中起到越来越重要的作用。

 

从牛顿开始, 所有动力学的核心使命是预测系统的变化,非线性动力学在这点上也是一样的。 一个经典的非线性动力学系统具有标准的表述形式:

 

 

预测一个系统的未来,你需要知道它在微小时间尺度里的性质并列出动力学方程(上图)。

 

此处X是一个向量(vector),它所具有的分量个数即系统的维度。 维度是动力学系统的最基本属性 。它决定系统的复杂性,及其可能具有的基本性质。 还有,我们有多大把握预测系统的未来。

 

最简单的系统是一维系统,也就是x只包含一个变量的情况。 预测一个一维的非线性系统,往往只需抓住一个关键性信息-定点。

 

I 一维系统与定点(Fix Point) “反馈导致平衡”

 

一维的系统, 往往抓住反馈即可。 反馈导致平衡, 非线性动力学用定点fix point来描述这种现象。 为什幺fix point 普遍存在? 因为负反馈的普遍存在。 当一个事物像一个方向走的太远,就往往有一种反方向的作用力把它拉回,有点像我们所说的物极必反或阴阳相抵。

 

一个典型的一维系统模型就是人口模型。这其实符合一个叫做Logistic Model的经典一维动力学模型, 它也因它那美妙绝伦的S曲线而闻名。 这个模型说的是,在没有环境压力的时候(人人吃饱饭)人口的增长率是恒定的,所以如果第一年是2,那幺第N+1年即使2的N次方(几何增长),但是一旦人口接近环境的阈值,就会有人开始饿死,而这个饿死的比例随着人口的增长而增大(负反馈)。这样,当饿死的人等于出生的人,两个此消彼长的要素就在某个点上平衡了。 所谓定点。

 

反映在数学上,就是这样一个微分方程 :

 

 

人口的变化取决于两个相乘的因子,一个描述增长 (rN),一个描述饥饿(1-K/N)。 定点,就是使微分(人口变化率)为0的点,当人口数恰好处在这个点上,就会不增不减。

 

这个定点具有一个更深刻的性质,无论你的人口一开始是多少,只要K给定,系统都会趋于一个相同的值。这个值由环境本身的容量所确定。

 

 

这个微分方程的解是一条优美的S型曲线(Sigmoid Function),它的身影在自然界中比比皆是,反映了自然生长的一般规律。

 

理解动力学系统最重要的工具是 相图:所谓相图, 是以 系统的变量为坐标轴, 概括了系统从任何初始状态(x0)开始演化, 它的未来发展轨迹。每个箭头对应该点的dx(变化量,衡量系统在该点运动趋势)。相图告诉我们系统在任何情况下的发展走势, 是对世界的高度概括性表达。

 

 

 

注: 上图为系统N随时间的变化, 不同的曲线代表从不同初始位置出发的结果。箭头带表N变化的趋势。 下图是N的导数和N的关系图,可以看到使得N导为0的N值即系统的定点,这里是0和K 。

 

定点的稳定性:

 

动力学里最重要的概念-定点(fix point),但是定点本身却只具有系统很少的信息,更关键的性质来自于对定点周围区域的分析。 或者说定点的稳定性。

 

那在一些情况里,定点好想是系统变化的宿命。起点还是什幺都不重要,你不需要担心输在起跑线上,只要你起跑了,就会到一个地方-定点。 而在另一些情况里,定点虽然存在,但是你只有在极特殊的条件下才能达到,类似于屌丝逆袭,屌丝的逆袭是有的,但是要有极好的运气+相当高的智慧才行。即使你达到了这样的定点,稍有风吹草动也会失去它。

 

我们用一个叫做稳定性的概念来描述这一特性。稳定性是描述当系统处在定点周边的状态,它是比较容易进到定点还是离开它。

 

一个典型的例子是单摆, 单摆的微分方程有两个取零的点,但是你通常看到摆处在最低点却极少有机会看到一个处在顶点的单摆。原因很简单,单摆的低谷是稳定定点而高点是不稳定的。 除非你一开始就静止在最高点而且排除任何外力,否则最轻微的偏离就可以导致单摆回到稳定的最低点。

 

在物理的角度很容易理解一个定点是稳定的还是不稳定的,只需要稍微的离开定点,看一下系统的运动情况,看看系统在定点的相邻区域里的运动趋势怎幺随位置变化。 而这翻译成动力学语言就是在定点周围进行泰勒展开,并取一阶线性近似(在一维得到一个线性的斜率,高维就是雅可比矩阵的特征值)。如果在定点周围的运动趋势指向定点(线性的斜率为负,雅可比矩阵特征值为负),则定点在局域内稳定,反之则局域不稳定。

 

 

注:定点的稳定性,取决于泰勒展开的不为零的第一项的正负。左图为稳定平衡,右图为不稳定平衡,虽然均为定点,但周边性质迥异。

 

稳定性,换一个词叫吸引力 。一个稳定性定点,就像一个区域的主人,它能把进入其辖区内的所有人都吸收到它的点上。它所管辖的区域,称为-Basin of Attraction。它是强韧性的代表,无论你怎幺干扰它,迫害它,结局都将归于它。找到Basin of attraction 是利用定点预测系统的必备条件,给定一个系统,如果它的初始位置处在basin of attraction,那幺它必归于定点。

 

不稳定性呢,就是脆弱性的代表了。任何环境的风吹草动都能结束她表面的美丽。如同得了艾滋病的人,今天看着好好的,随便一个病毒就可以摧毁他。

 

最强的定点具有全局稳定性,即无论任何初始条件,系统都将趋于这样的定点,这样的系统就是高度可预测系统。

 

很多系统往往具备一个稳定点和一个不稳定点成对出现。比如刚才的人口模型,人口为0就是一个不稳定平衡点。当人口为0的时候,它可以永远为0,但只要系统的人口增长了1,它就会趋于定点K,掌控系统除0之外所有区域的稳定点。

 

算命先生往往就是掌握动力学定点理论的人,它们往往根据一些片段的细节,做出一些“大胆”的预测,比如看到一个20岁左右打扮漂亮的女士,就会说你会有一个有钱的老公,漂亮的房子一类,看到满手老茧的老妈子就会说你一定一切为丈夫和孩子操心了一辈子一类。 它们往往知道系统有一个稳定点和一个不稳定点,美丽的大姑娘找到幸福美满的婚姻呢是稳定点,跟了一个穷二代是不稳定。沧桑的老妪为家庭奔波一生是稳定点,风流一生是不稳定点,所以有50%以上概率命中就不足为奇了。

 

判断简单系统,抓住定点就是抓住了命门。

 

II. 二维动力学系统 – 众妙之门

 

请先看下面几个问题,

 

为什幺从自然到经济现象, 振动(周期)普遍存在?

 

为什幺物理中的变化往往是线性的,而生命和经济社会现象里,变化经常是突变的形式?

 

为什幺看似随机的神经网络可以具有非常复杂的认知功能?

 

所有这些,我们都可以用非线性动力学来了解, 而这一切理解的基础是二维的动力学系统。 二维可以描述比一维丰富多的现象,正如通物理学从描述两个物体的相互作用开始描述了世界。

 

这里, 我们从最简单的系统-二维的线性动力学系统开始, 定义为:

 

dx= ax+by

 

dy = cx + dy

 

可以由一个a,b,c,d组成的二维矩阵(雅可比矩阵A)刻画(dX/dt = AX)。 这个两两作用的系统在自然界比比皆是, 比如着名的猎手-猎物方程。

 

对于任何动力学系统, 我们都要先抓住它的定点, 而整个系统的性质, 由定点向外周扩散迎刃而解。 那幺这个简单的线性系统有一个显而易见的定点就是x=0, y=0.

 

定点的作用就像一个巨大的吸引中心, 系统的演化无论多幺复杂, 都是以某种形式围绕它展开。 有了定点后, 系统具体的演化方法则由它的雅可比矩阵决定。 在这里雅可比矩阵也就是abcd所确定的连接矩阵A 为 这个矩阵里的各个元素,它将确定,随着时间,系统将去向何方。 我们可以按照特征矩阵的行列式det A = ad -bc 以及迹(traceA) a +d 作为坐标轴对系统分类。为什幺是这两个东西, 你想一下, 矩阵本身由特征值决定, 在特征分解后,A代表特征值的乘积,trace是特征值的和, 这两个量体现了特征值的性质。 矩阵的特征值是一个复数, 对应复平面上的两个点。 这两个点的几何性质由刚刚说的行列式和迹决定。

 

数 学的好处在于一次得到所有的可能性。 一切可能皆由定点展开, 这些情况按照定点稳定与否(演化是趋紧还是远离它), 以及趋于(或远离)定点的方式展开。 那幺二维系统围绕定点有多少变化形式?

 

我们通常用poincare diagram 来表达所有情况。 从左向右, 定点从稳定到不稳定(特征值由负到正),从下到上, 趋于或离开定点的方式由线性变换到旋转(特征值由实入虚, 此处以delta=traceA**2 – 4* detA为界)。方程你可以把整个解析解写出来 X=(x,y)

 

由如上的两个坐标轴和一个抛物线,我们把平面分割成了6个区域。 你只需要记住临界态的性质, 中间区域及其过渡。 抓住这个平面,就抓住了所有的二维线性动力系统。 而这里的每个趋于,都代表系统的一个变化形式。

 

y轴上半此处特征值为纯虚数, 实部为0, 我们既不趋近也不远离, 这也就是周期运动, 或被称为极限环。 系统围绕定点做圆周运动,是稳定和不稳定的过度状态。 典型例子如二维谐振子 – 理解各种复杂的物理系统的毕达哥拉斯之剑。 加入一定非线性形式我们得到猎手-猎物方程, 狼和羊, 资本和劳动力矛盾下的振动平衡。 自然界还是人类现象中振动如此普遍, 背后正是这类动力关系的体现。

 

 

振动是伴随二维系统最重要的现象预测, 同时它的出现往往寓意了系统的背后有两个作为主要矛盾的变量。

 

为什幺振动的形式这幺广泛的存在? 其实依然是因为定点的广泛存在, 所谓振动,无非围绕一个却确定的状态的上下波动。  就好像那希腊神话痛苦的西西弗斯,把石头推上山,可它却滚下去,然后他又推上山, 他想叫石头停在山上不动,可他就是达不到。

 

X轴下半和det中间区域  稳定定点, 代表趋势所致, 稳定定点可以预测事物的一般走势(稳定不变的平衡态,任何远离它的阴谋都将破灭),因为在它的管辖区域里, 无论如何折腾, 都回回到它, 因此稳定定点也可以用来存储信息。 此处同一维系统。

Y轴下半及整个下半平面:鞍点(Saddle)与上半的区别在于运动方式, 刚刚说的转动变成线性, 然而依然是从稳定到不稳定的临界,此处的效果是从一个特征向量方向你趋于定点(稳定),而另一个方向则远离(不稳定)。 这样的系统可以表示神经网络的决策或分类: 从一个方向得到的结果是A, 从另一些方向得到的结果是B,这就是天然的分类器。鞍点也用来介导一个动力系统的相变, 从一个方向你达到定点, 再在另外一个方向分离, 例如所有的热恋到失恋的过程。

X轴: 刚刚那个图一个更加特殊的情况是X轴上(det 为0)的那些解,这条线的数学含义是我们某个特征值为0的情况(此时矩阵的迹为0), 啥叫特征值为0? 它意味着只要我们在这个为0的特征值所对应的特征向量,我们就有

 

 

,也就是特征向量方向的所有解都是定点! 而它导致的结果是所谓的线性吸引子, 定点不在是一点而是一条线(line attractor)。 我们会看到这个解在众多的问题里意义重大,比如神经编码 。 这是因为线性吸引子是路径依赖的代言人 , 你从不同的起点出发, 会停留在不同的位置上, 这就好像把初刻的历史凝固了下来,因为可以比单个稳定定点编码更复杂的信息-甚至是某种抽象关系。

 

 

非线性的作用:

 

刚刚求解的是一个二维线性系统,我们 而一旦加入非线性,就成为非线性系统, 如:

 

dx= f(x,y)

 

dy =g(x,y)

 

f和g包含非线性, 那幺这个时候可能性就更多 , 而事实上我们依然是利用我们在线性系统的知识来研究这样的系统。 最典型的方法就是先找定点, 然后在定点周围线性化。

 

对于非线性的二维系统, 最大的变化是定点不再只有一个, 你去求解f(x,y)=0   ; g(x,y)=0 的连锁方程即可。

 

对于非线性的世界, 几何与拓扑的思维有时候比代数更迅速的帮我找到系统的本性,及大趋势。

 

此处引入一个体现这一思维的经典理论。 庞加莱定理: Poincare-Bendixson Theorem:

 

条件:

 

1.2D – 你有一个二维的动力学系统

 

2.Continous – 系统连续可微

 

3. Confined – 动力学流在一个区域内封闭

 

4. No Fix point- 在此区域内定点不可达到

 

结论:

 

该区域内的动力学流将收敛于一条闭合轨道(等价于圆)。

 

翻译一下,相平面的闭合轨道=周期性运动=振动。 这个定理告诉我们, 有限二维系统里的运动形式只有有两种: 1. 平衡态(归于定点) 2. 周期运动。 不存在其它情况。 有限只得是系统不会无限取值或发散。由于自然中负反馈的普遍存在这一条一般是满足的。 这条定律解释了振动普遍存在的根本原因,因为它是二维运动的范式。

 

 

图为相平面上的闭合轨道,庞加莱引理告诉我们,如果整个系统是收敛的,二维动力学流非流向定点即指向闭合轨道。

 

狩猎者- 猎物系统:

 

二维非线性系统一个最典型的例子依然是延续我们关于物种数量的故事,刚才讲到一维的人口模型里人口将达到定值,而事实自然界中的物种数量却是震荡变化的,为什幺?

 

解答这个问题,就需要讨论两个物种共存的情况(二维),试问下面的问题, 在一片草原里生活着狮子和羚羊,狮子吃羚羊,羚羊吃草(假设无限),假设一开始物种数量是均等的,那幺后来两个物种的数量变化会是怎幺样的? 显然,两种物种间有相互作用, 狮子的存在依赖于羊(简单的想法是羊肉变成了狮子),而羊的数量因为狮子而减少,如果没有狮子,羊的数量增长就符合之前的S曲线:

 

这样一个系统可以被一个Lotka-Volterra 方程的经典二维动力学系统表述:

 

 

这个方程极为容易理解。系统的两个变量一个是羊的数量(x),一个是狮子的数量(y)。 第一项描述羊的自然生长率。 第二项描述羊被吃的数量,x和y的乘积决定两个物种相遇的机会, 所以羊被吃的速率正比于xy。相应的,狮子可以理解为由羊肉转化出来的,所以其增长率正比于捕获的羊数量(方程二第一项),方程二最后一项描述狮子的死亡率。

 

那幺,如何预测两种物种数量变化?首先进入相平面, 我们看到系统的流形(每一点的微分(dx,dy)构成一个向量,画出箭头犹如流体力学的流速线)。 然后我们分析定点,二维系统里含有两个微分方程,如果一个微分方程为0,例如dx=0,我们得到一个代数关系 x=k*xy. 在相平面里这对应一条线-Nullcline,在这条线上,第一个变量处于平衡态。 同样的我们可以找到变量y的Nullcline, 对应相平面的另一条线,这两条线如果有交点,即二维系统的定点,或者说系统的平衡态。

 

但是至关重要的是讨论定点的稳定性而非平衡态本身。

 

这个问题可以很容易的找到四条Nullcline和两个定点: 一个是(0,0),另一个第一象限中的(a,b), (0,0)代表的两个物种都灭绝了。 这种情况除非是羊死光了才可能出现,而假如是狮子死光了,羊就会无限增长(远离定点)。 在相平面上,就表现为动力学流沿着y轴(对应羊死光的情况)收敛为0,而沿着x轴(对应狮子死光的情况)发散。这一现象的隐含含义是(0,0)点在x方向上是不稳定性定点,而在y方向上是稳定性定点。 这种在一定方向上收敛,而在另一些方向上发散的定点,被我们称为Saddle Point(鞍点),就是刚刚在线性系统介绍过的那个。

 

 

相平面的动力学流

 

在看看第一象限内的定点(a,b),它描述两个物种数量互相制约的平衡状态, 看似这是一个合理的结局。狮子和羊的数量打到平衡,这不就是那啥生态平衡吗? 那你停留在初中生物课本了。在这个定点周围找几个点,画画(dx,dy)的箭头你就知,它们都不是朝向这一点,而是围着这点转圈。 利用我们神一样的庞加莱大法可知。 系统将永不能陷入这个点(除非它一开始别上帝设定好就在那个位置)。而是围绕这个点形成闭合轨道-即振荡。 系统的两个物种的初始数量只要不是有一个灭绝或恰好开始就匹配平衡, 都将行成一个振动变化关系。

 

 

 

狮子和羊在固定系统里的数量成周期震荡。上图为相平面,下图为两个物种数量随时间变化关系。

 

整个生态学可以用动力学语言描述。其核心议题,生态系统的稳定性正是动力学最拿手的分析内容。

 

Lotka-Volterra 系统在经济学中也有重要应用。凯恩斯学派用以解释劳动雇用率和资本的周期震荡。这一理论把资本对应为狮子,而劳动雇用率是猎物,两者总是不能自发的处于定点(100%雇用率)而是进入周而复始的震荡状态。

 

III 高维系统与RNN

 

理解了二维系统, 你可以抓住它内在本质的东西, 然后一级级向高维延申。 我们将在此处开启一个在人工智能和脑科学都极为重要的模型-RNN,

 

它的线性形式

 

 

非线性形式:

 

 

事实上RNN可以理解为一个通用的高维非线性系统,它代表了各种自然界的复杂网络的一般形式,从人脑神经元网络, 到生态网络, 到社会经济网络。

 

RNN最重要的东西就是网络连接A, 刻画神经元和神经元的连接, 它的最一般形式被称为随机矩阵。

 

 

随机矩阵刻画一个高维动力系统, 其不同单元间的连接是随机的。 如果我们假定高维系统依然是线性的, 那幺它一般写成:

 

 

A是一个nxn的方阵, 由刚刚说的随机数确定。

 

这个矩阵A如何决定系统性质呢? 首先, 寻找定点, 这样的解有一个是肯定的,就是 X=0

 

其余性质将由矩阵的特征值和特征向量决定。 我们对连接矩阵A进行特征分解, 得到一系列的特征值和特征向量, 我首先让你猜一下如果你把它的特征值和特征向量在复平面上展开, 它们会长成什幺样呢?

 

你依然从二维线性系统, 一个2×2的方阵入手。 这个矩阵的特征值如果你画在复平面上长什幺样呢? 这一类矩阵有两个最特别的情形, 一个对角线为0实对称

 

 

 

一个对角线为0的反对称

 

 

假定矩阵元素为a, 对于情况一我们得到的两个特征值是-a和a的两个实数, 对于情况2我们有-ai和ai也就是把它们换到虚轴上(这正是刚刚说的谐振子解)。 由此你进行一个类推, 如果我的矩阵的元素不在是这两个特殊情况而是随机的, 我只保证这些矩阵元素每个的期望均是0, 然后你要求出特征值的分布会是什幺样的? 刚刚的解一个是沿着实轴相对原点对称, 一个是沿着虚轴相对原点对称。 如果综合起来呢? 在实轴和虚轴组成的复平面上, 我们会得到任意方向沿着原点对称的一组点, 从而组成最完美的一个图形- 也就是, 一个圆! 具体求解请见论文(Introduction to Random Matrices-Theory and Practice)。

 

好了, 那幺维度增加呢? 当你的矩阵元素越来越多, 这个时候我的高维矩阵的特征值个数将等于我们的矩阵维数, 当这个数字达到一定程度, 我们任意一个矩阵的特征值都将逼近刚刚说的那个所有可能二维矩阵的特征分布, 也就是一个圆,至少非常接近!

好了, 从这里我们可以立刻领悟到的是什幺? 首先, 高维系统围绕定点的变化形式更加多变, 因为每个特征值都对应了一种模式, 而特征值的数量是无限的。 再有, 特征向量和特征值携带所有矩阵的信息, 那幺所有的随机矩阵的性质是类似的。这里只有一个东西是变化的, 就是圆的半径。 这个量有什幺意义呢?还回到二维情况进行对比, 在我们刚刚的情况里 , 矩阵的trace从小于0到大于0引起整个系统从稳定定点过度到一个不稳定定点, 而此处, 这个圆的半径, 正是起到类似的作用。

 

那幺矩阵A-I的特征值正负将决定整个系统的稳定性, 这里的情况是如何呢? 记得刚刚说的我的矩阵A元素都符合是一个平均值为0的高斯分布吗? A-I这个矩阵就是一个以-1为中心,以A的特征圆为半径的圆形区域, 如果这个圆的半径小于1, 那个特征值整体在负半平面, 系统会趋于稳定的解0。 而一旦半径大于1,这种稳定性就被打破,在高维的系统里, 当你无法回到定点(或闭合轨迹), 那幺登场的正是我们众所周知的混沌, 高维系统的演化进行永不停止的无序运动。 那幺1呢? 我们说, 这就是混沌和稳定的边缘, 记得在二维的系统里, 这个地方会催生非常多的有趣现象, 比如二维谐振子, 比如线性吸引子, 而这些在高维系统里依然正确, 我们会得到各种各样的复杂多解型, 比如-振动解。 而这正是和网络有关的众多有趣现象, 甚至生命本身, 产生的地点。

 

注:所谓混沌, 事实上是一大类不同动力学现象的统称, 它们的共同特点是从某个无限接近的初始点出发, 未来的轨迹是发散的,也就是在某个初始位置上改变一点,未来完全改变, 这是一种极致的路径依赖的体现。 混沌的最简单形式是三维非线性方程的洛伦兹吸引子, 在此情况下事实上我们的轨迹围绕这两个定点做某种“周期”运动, 只是这个周期无限复杂, 因此混沌并非等于失控, 而可以是非常复杂的信息载体。 而混沌也可以普遍的存在于高维的线性系统里。 混沌可以简单, 也可以复杂, 取决于背后的动力系统。

我们说, 这个特征谱一来决定稳定性, 而来决定趋于定点的方式。 实数代表线性的推进, 虚数代表振动,具体是哪种方式推进, 则决定于你是否在某个特征值对应的特征向量方向上。 我们知道, 我们是一个高维的线性系统,在这个高维王国里, 光坐标轴就可以建立维数N个, 那幺对应的就是N个特征向量方向。 由此决定了我们以不同的初始状态趋近定点, 可能的结果会非常复杂多变,运动模式趋于无限。

 

基于这种理解我们可以做什幺呢?

 

1, 预测高维网络的一些基本性质: 虽然我们比较难完全预测高维系统的未来, 但是我们预测其稳定性, 我们看到, 当改变一个网络的一个基本属性, 比如连接强度, 就会让网络从稳定到不稳定,从稳定平衡趋于混沌, 那幺对于生态系统和社会这意味着什幺呢? 有人说当系统的元素增加连接增强会使得系统更脆弱 ,更容易失衡, 但这仅是理解之一。 一个趋于稳定平衡的系统也通常没有什幺功能。 而混沌本身, 确可以是秩序的载体。

 

2, 在混沌和稳定边缘的高维随机动力系统具有某种全能可塑性, 如果加上一定的非线性, 则可以包含极为丰富的动力学模式, 稳定定点,周期解, 不稳定定点, 混沌, 各类复杂的吸引子, 都可以在这个区域周围出现。这个区域动力学形式已经开始丰富, 又不像完全混沌那样难以控制, 因此是各类学习的最佳区域。

 

3,作为机器学习工具 预测其它混沌系统!我们说大型的随机网络本身就具备一定的学习能力, 而且在很多学习任务里可以匹配其它特定设计的机器学习模型。 这里一个比较着名的例子就是蓄水池网络。刚刚开始说的预测火焰的例子正是来自这里。

 

蓄水池网络基于如下事实, 真实的复杂系统就是我们刚刚将的各种简单系统的组成, 当你的高维混沌系统RNN包含的模式足够多样,它就可以像多项式拟合一样, 通过自身的复杂模式组合逼近真实系统。

 

蓄水池网络的根基,正是2提到的混沌和稳定的边缘, 再加上非线性的激活函数, 以及外界环境的输入I。这个微小的非线性将把系统的复杂性再推一个高度, 事实上, 一个非线性的二维系统就可以表达多于一个的定点, 而非线性的三维系统就已经可以产生混沌。 一个非线性的高维混沌系统, 其数学复杂度已经接近解析的极限。

 

 

-这也就是循环神经网络RNN。

 

制作一个蓄水池网络最重要的就是控制刚刚说的特征值的谱半径, 我们要让它处于稳定到混沌的临界状态,也就似乎那个谱半径接近1的状态。 在这个时候, 系统的动力学属性最为复杂,最为丰富。

 

蓄水池网络具有的一种能力是, 如果你给它一个复杂的时间序列输入(I), 比如股市的变化, 它可以自动的抽取出这种变化背后的独立性因子,并在一定程度模拟出真实过程的动力关系(因为其自身存在足够丰富的动力关系, 以至于非常容易和真实的系统进行匹配)。 听着有点像PCA,但是PCA是线性的不包含时间, 而这里是一个非线性时间依赖的系统, 复杂性不可同日而语。

比如上面这个图, 我们的输入是真实世界一个很复杂的波动曲线(周期解和混沌间的过度), 事实上多幺复杂的波动背后催生它的因素不一定很复杂, 比如洛伦茨吸引子背后就仅仅是一个三维系统。

 

当这个波动输入到蓄水池网络里以后,蓄水池网络可以找寻到这种复杂背后的根基,并对这个信号的发展走势进行预测。

 

蓄水池运算的好处是不需要改变内在连接矩阵A, 我们唯一需要求解的是一个读出, 也就是

 

 

就可以对时间序列进行预测, 比如文中开头提到的预测火焰形状的网络, 如下图, 这个过程包含两个阶段,一个是训练,一个是预测, 在训练阶段, RNN的作用事实上相当于一个auto-encoder-自编码器, 它得到一个火焰变化的输入, 通过网络重现这个输入。 而在预测阶段,我们不再有火焰变化的数据,我们直接把RNN输出的结果输入回网络,假设这个网络已经学好了, 那幺这个输出就是正确的预测(下图为实际信号(上)于预测信号的比对(下))。 这种预测能力的背后, 正是在训练阶段,RNN高维网络里的某些成分, 抓住了真实系统变化背后的那些核心动因(自编码器的本质即压缩寻找主成分)。

Model-Free Prediction of Large Spatiotemporally Chaotic Systems from Data: A Reservoir Computing Approach

 

更深刻的学习(对A进行改变): 我们还可以做什幺呢? 在刚刚讲到的各类复杂的动力学形式里, 我们看到,无论是稳定定点, 极限环,鞍点,还是线性吸引子事实上都是对世界普遍存在的信息流动形式的通用表达。 我们可以用它表达信息的提取和加工, 甚至某种程度的逻辑推理(决策),那幺只要我们能够掌握一种学习形式有效的改变这个随机网络的连接,我们就有可能得到我们所需要的任何一种信息加工过程, 用几何语言说就是,在随机网络的周围, 存在着从毫无意义的运动到通用智能的几乎所有可能性, 打开这些可能的过程如同对随机网络进行一个微扰, 而这个微扰通常代表了某种网络和外在环境的耦合过程(学习), 当网络的动力学在低维映射里包含了真实世界的动力学本身, 通常学习就成功了。

 

无论当下红极一时的鏖战星际争霸的网络,还是从脑电波中解码语言的网络, 无非是一种特殊的RNN(LSTM)加上一定的这种学习的结果。

 

高维的非线性系统,可以用来描述真实世界的各种复杂网络, 从生物基因网络到神经网络,到生态网络或经济关系网络, 而这些网络的惊人之处在于内在的随机性和作为整体的强大功能。 随机连接的市场可以极为有效的调控生产资源, 生态网络导致微妙的生态平衡。 脑网络产生伟大的智能, 而不同的脑网络, 一点点连接差距确可以导致属性的天壤之别,如人和猩猩基因差异没有大的情况下智力确是天壤之别, 以及类似人组成的社会受到地理条件影响的微小差异后引起的社会演化巨大差异。

 

这些都是看似混沌的高维系统研究可以告诉我们的,同时, 这种复杂的网络本身也可以帮助我们来研究其它和它类似的系统, 这正是当下深度学习背后的根本, 也就是以混沌克服混沌, 对复杂对抗复杂的极好例子。

 

从低维到高维, 越来越精彩。

 

参考文献:

 

1 Sompolinsky H, Crisanti A, Sommers H J. Chaos in random neural networks[J]. Physical review letters, 1988, 61(3): 259

 

2 Pathak J, Hunt B, Girvan M, et al. Model-free prediction of large spatiotemporally chaotic systems from data: A reservoir computing approach[J]. Physical review letters, 2018, 120(2): 024102.

 

3 Maass W, Natschläger T, Markram H. Real-time computing without stable states: A new framework for neural computation based on perturbations[J]. Neural computation, 2002, 14(11): 2531-2560.

 

4 Schrauwen B, Verstraeten D, Van Campenhout J. An overview of reservoir computing: theory, applications and implementations[C]//Proceedings of the 15th european symposium on artificial neural networks. p. 471-482 2007. 2007: 471-482.

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注