基于神经网络和格兰杰因果分析的人工智能与数据挖掘摘要:神经元信息计算是当代的热点研究和科学前沿之一现今,计算神经科学在两方面发展迅速一方面,有助于推进人工智能的发展,包括机器学习甚至是人工生命它们都以脑科学以及认知神经科学为基础,模拟并运用了相关的电生理知识来开发软件集人工智能机械,进而最终以辅助工具的形式,为相关的交叉科学领域提供帮助另一方面,协同数学,物理,计算机科学等基础科学,对大脑和认知神经科学的研究已经不只是机理的解释和诠释了,更在于结合生物解剖系统,包括复杂网络,神经网络等通过信息编码等复制相关机理,并运用于其他系统在人工智能中,相关内容涉及阐明并在机器上模拟人类的“选择,成功以及智能”等当然,在相关研究过程中,统计知识始终是十分重要的基础,无论是人工算法的研究或是数据挖掘的数据分析过程中,都对其基础知识和多样的方法有一定要求 在本论文中,以matlab为工具,对一些人工智能算法进行了介绍,并结合一些实际问题进行了计算,包括了拓扑网络和人工神经网络等另外,还结合了数据挖掘中的一些基础的方法,对神经动力学的一个问题进行了研究研究开始前,我们在统计学基础上仔细涉及了实验比方说,实验是在对象与记录员都是双盲的情况下进行的。
对数据样本的估计,也选取了无偏估计来估计总体为了保持数据处理的科学性,在格兰杰因果检验前,也先进行了去除事件相关电位,平稳化和正态化处理在具体分析过程中,运用了大量数据分析的方法,包括T检验,ks检验,方差检验,jackknife抽样,格兰杰检验,相干分析等当然,我们在最后对分析结果进行了检验和评估由此可见,DKK确实是实用的数据分析进程,在本文最后的关于神经细胞信息编码的探索以及脑区(前额叶皮层以及纹状体)间关系的研究方面起到了重要作用关键词:神经网络,数据挖掘,格兰杰预测, matlab第1章 人工智能与神经网络人工智能(AI)由Poole,Mackworth和Goebel在1998年提出,是一门关于智能实体[1]的研究和设计,其智能实体是一个考虑环境并采取实际行动来最大化成功可能的系统,这是由Norvig和Russell在2003年提出的[2]AI也被定义为制造智能机械的科学和工程[3]一般来说,推理,知识,计划,学习,自然语言处理(沟通)都是AI的中心,还包括物品操作及移动能力等机制与过程的解读及模拟随着科技的发展,越来越多的人工智能技术及产品问世了,近来最大的热点就是Google公司推出的AlphaGo。
大量基于离散数学,最优化理论,数理统计,信息技术,神经科学等学科的知识,都为人工智能软件的开发,技术的发展提供了基础然而,广义的智能仍是AI领域的长期目标[4],人工神经网络是作为一门交叉学科的产物,是人工智能十分热门的一个分支,融合了统计方法和传统的符号AI,不仅用于模拟人类的各种大脑的学习与记忆过程,编写为算法,开发为软件或是网络平台,还有不少被用于开发计算与解析非线性系统的辅助软件其中,典型神经网络:有:霍普菲尔德神经网络,支持向量机,朴素贝叶斯分类,最优森林等1.1神经网络定义:图1 神经元模型 不同于一般在数据挖掘(DM)中常见的方法,例如分类与机器学习等,神经网络由Nilsson等人在1998年提出, 仅开始于AI研究开始成立的十多年前其中,前馈神经网络(不接受反馈)和递归神经网络(其中信号在两个)是最主要的非循环神经网络在递归网络中,霍普菲尔德网络尤其为人所熟悉,包括由John Hopfield在1982的吸引子网络以及赫布学习理论赫布学习(Hebb理论)是一个被广泛用于辅助神经网络的科技,解决在智能控制(机器人)或是学习中遇到的问题和信息存储有关的神经网络被称为人工神经网络。
1.1.1 赫布定理:赫布理论[5]于1951年,由Donald Hebb提出,描述了突触可塑性的基本原理,即突触前神经元向突触后神经元的持续重复的刺激可以导致突触传递效能的增加当神经元A的轴突与神经元B很近并参与了对B的重复持续的兴奋时,这两个神经元或其中一个便会发生某些生长过程或代谢变化,致使A作为能使B兴奋的细胞之一,它的效能增强了这一理论经常会被总结为“一起发射的神经元连在一起”这可以用于解释“联合学习”,在这种学习中通过对神经元的刺激使得神经元间的突触强度增加这样的学习方法被称为赫布型学习1.1.2 电生理学的突触分类以及基本特征:长时程电位(LTP)是一种存在于两信号间传递的现象这是和突触可塑性相关的(也和突触改变能力相关的)现象之一因为记忆被认为是通过在突触强度的改变进行编码的,然而LTP普遍被认为是分子机制之一,由学习和记忆构成人类大脑通过突触调整了输入频率频率越高,记忆越清晰反之亦然,频率越低,记忆越清晰正是大量突触使得大脑高效工作大约有100,000,000,000神经细胞(每个有大约10,000,000连接)尽管每个神经元仅在100Hz频带上工作但是因为每个神经元细胞作为一个独立单元,使得大脑伴随以下特征工作[6]:(1)能实现无监督的学习。
有关我们的大脑的难以置信的事实之一,就是它们能够自己进行学习,而不需要导师的监督教导如果一个神经细胞在一段时间内受到高频率的刺激,则它和输入信号的神经细胞之间的连接强度就会按某种过程改变,使得该神经细胞下一次受到激励时更容易兴奋这一机制是50多年以前由Donard Hebb在他写的Organination of Behavior一书中阐述的他写道: “当神经细胞A的一个轴突重复地或持久地激励另一个神经细胞B后,则其中的一个或同时两个神经细胞就会发生一种生长过程或新陈代谢式的变化,使得激励B细胞之一的A细胞的效能会增加”与此相反的是,如果一个神经细胞在一段时间内不受到激励,那么它的连接的有效性就会慢慢地衰减 (2)对损伤有冗余性(tolerance) 大脑即使有很大一部分受到了损伤,它仍然能够执行复杂的工作一个著名的试验就是训练老鼠在一个迷宫中行走然后,科学家们将其大脑一部分一部分地、越来越大地加以切除他们发现,即使老鼠的很大一部份大脑被切除,它们仍然能在迷宫中找到行走路径这一事实证明了,在大脑中,知识并不是保存在一个局部地方另外所作的一些试验则表明,如果大脑的一小部分受到损伤,则神经细胞能把损伤的连接重新生长出来(3)处理信息的效率极高。
神经细胞之间电-化学信号的传递,与一台数字计算机中CPU的数据传输相比,速度是非常慢的,但因神经细胞采用了并行的工作方式,使得大脑能够同时处理大量的数据例如,大脑视觉皮层在处理通过我们的视网膜输入的一幅图象信号时,大约只要100ms的时间就能完成考虑到你的神经细胞的平均工作频率只有100Hz,100ms的时间就意味只能完成10个计算步骤!想一想通过我们眼睛的数据量有多大,你就可以看到这真是一个难以置信的伟大工程了 (4)善于归纳推广大脑和数字计算机不同,它极擅长的事情之一就是模式识别,并能根据已熟悉信息进行归纳推广例如,我们能够阅读他人所写的手稿上的文字,即使我们以前从来没见过他所写的东西 (5)它是有意识的意识是神经学家和人工智能的研究者广泛而又热烈地在辩论的一个话题有关这一论题已有大量的文献出版了,但对于意识实际究竟是什么,至今尚未取得实质性的统一看法因此,一个人工神经网络( Artificial neural network, 简称ANN ) 就是要在当代数字计算机现有规模的约束下,来模拟这种大量的并行性, 并在实现这一工作时,使它能显示许多和人或动物大脑相类似的特性1.1.3人工神经细胞模型:图2 一个人工神经细胞模型一个人工神经细胞模型左边几个w是浮点数,称为权重。
进入人工神经细胞每一个输入都与一个权重w相联系,这些权重将决定神经网络的整体活跃性暂时设想所有这些权重都被设置到了-1和1之间的一个随机小数权重可正可负,能对与它关联的输入施加不同的影响:权重为正,就会有激发作用;权重为负,则会有抑制作用当输入信号进入神经细胞时,它们的值将与它们对应的权重相乘,作为图中大圆的输入大圆的’核’是一个函数,叫激励函数,它把所有新的,经过权重调整后的输入求和,形成单个的激励值激励值也是一浮点数,也同样可正可负然后,再根据激励值来产生函数的输出(也即神经细胞的输出): 如果激励值超过某个阀值(作为例子我们假设阀值为1.0,最为简单的类型),就会产生1个值为1的信号输出;如果激励值小于阀值(1.0),则输出一个0在这里,从激励值产生输出值是一个阶跃函数:图3 激跃激励函数阶跃函数是一元的,而激励函数(把多个输入相加)是多元的一个神经细胞可以有n个输入,n代表总数可以用下面的数学表达式来代表所有n个输入:同样 n 个权重可表达为:激励值就是所有输入与它们对应权重的之乘积之总和,因此,现在就可以写为:以这种方式写下的求和式,可以用希腊字母Σ来简化:注:神经网络的各个输入,以及为各个神经细胞的权重设置,都可以看作一个n维的向量。
如果激励值超过了阀值,神经细胞就输出1; 如果激活小于阀值,则神经细胞的输出为0这和一个生物神经细胞的兴奋和抑制是等价的图4 一个人工神经细胞求和模型算例:假设一个神经细胞有5个输入,他们的权重w都初始化成正负1之间的随机值(-1 < w < 1) ,说明了激励值的求和计算过程输入权重输入*权重的乘积运行后总和 输 入 权 重 输入*权重的乘积 运行后总和 1 0.5 0.5 0.5 0-0.2 0 0.51-0.3 -0.3 0.2 10.9 0.9 1.1 00.1 0 1.1 图5 左图是激励函数计算结果,右图是激活函数激活函数是一个神经元及网络的核心网络解决问题的能力与功效除了与网络结构有关,在很大程度上取决于网络所采用的激活函数激活函数的基本作用有以下几方面1)控制输入对输出的激活作用2)对输入、输出进行函数转换将可能无限域的输入变换成指定的有限范围内的输入下面是几种常用的激活函数阈值型(Threshold硬限制性)这种激活函数将任意输入转化为0或1的输出函数f(.)为单位阶跃函数,具有此函数的神经元的输入/输出关系为:注:即之前举例的激励函数,为激活函数的一特例图6 左图是没有偏差的阈值型激活函数,右图有偏差的阈值型激活函数 (1) 线性型。
线性型激活函数是网络的输出等于加权输入和加上偏差,此函数的输入/输出关系为:A=f(WxP+b)=WxP+b(2) S型(Sigmoid)S型激活函数将任意输入值压缩到(0,1)的范围内此种激活函数通常用对数或双曲正切等一类S形状的曲线来表示,如对数S型激活函数关系为:图7 左图是没有偏差的线性激活函数,右图有偏差的线性激活函数双曲正切S型曲线的输入/输出函数关系为:图8 左图是对数S型激活函数,右图是双曲正切S型激活函数S型激活函数具有非线性放大增益,对任意输入的增益等于在输入/输出曲线中该输入点处的曲线斜率值当输入由-∞到0时,其增益由0增至最大;当输入由0增大至+∞时,其增益又由最大逐渐降低至0,并总为正值,利用该函数可以使同一神经网络既能处理小信号,也能处理大信号因为该函数的中间高增益区解决了处理小信号的问题,而在伸向两边的低增益区正好适用于处理大信号的输入一般地,称一个神经网络是线性或非线性是由网络神经元中所具有的激活函数的线性或非线性来决定的1.2人工神经网络分类1.根据连接方式的不同,人工神经网络的网络神经元之间的连接有如下两种形式[6]图9 左图为无反馈的前向网络,右图为有反馈的前向网络无反馈的前向网络前向网络结构神经元分层排列,分别组成输入层、中间层(也称为隐含层,可以由若干层组成)和输出层。
每一层的神经元只接受来自前一层神经元的输入后面的层对前面层没有信号反馈输入模式经过各层次的顺序传播,最后在输出层得到输出有反馈的前向网络其结构:从输出层对输入层由信息反馈,这种网络可用于存储某种模式序列神经认知机和回归BP网络都属于这种类型相应的,大脑网络可分下面的三种类型,结构性网络是基于神经解剖学原理,由神经元突触之间的电连接或化学连接构成的,一般通过实体解剖或通过核磁影像等方法确定功能性网络描述神经元集群(例如皮层区域)各节点之间的统计性连接关系所产生的信息结果,为无向网络 效用性网络描述皮层神经网络各节点非线性动力学行为之间的相互影响或信息流向,为有向网络2. 根据学习环境不同,神经网络的学习方式可分为监督学习和非监督学习(和大脑类似)[7]监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类 非监督学习:直接对输入数据集进行建模,例如聚类 半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数1.3 Holpfield神经网络和应用:有一些模型,虽然做了简化,但它的几乎所有前提假设都有充分的神经生物学根据,这类模型我们把它们叫做现实性简化模型。
1.3.1霍普菲尔德神经网络特性:1.有两类突触:兴奋性突触和抑制性突触2.神经细胞的细胞膜有电容阻性3.有空间综合能力4.神经元冲击的发放率以及细胞膜当前有着S曲线关系5.单神经发放的递质释放是有着量子属性的因此它会导致两极特有的跨膜电流变化6.感觉细胞能将刺激从外部传递至相关的细胞膜内7.当神经元触发区域达到其阈值时,会释放出全或无的发放,并恢复到静息电位它通常被用于图形识别1.3.2公式:在霍普菲尔德的模型中,输入变量是跨膜电流,而输出变量则是神经脉冲的发放率因此在他的模型中隐含了频率编码的假设,即假定神经元输出的信息是由神经脉冲的发放率携带的由于神经脉冲是全或无的,因此可用一个狄拉克 函数来表示由于每一个神经脉冲都引起突触后膜的跨膜电流变化的时间过程为:(1)若tt0,则ikj(t)=Skjexp[-(t-t0)/] 式中,ikj(t)是第k个神经元在接受第j个神经元的神经末梢所形成的突触处的突触后膜的跨膜电流,Skj是其最大值,t0是第j个神经元的神经末梢有神经末梢有神经脉冲到达的时刻,是突触后膜的时间常数。
如果该突触是兴奋性突触,则Skj为正;如果该突触是抑制性突触,则Skj为负如果第k个神经元在时刻(n=1,2,3...)发放神经脉冲,那么它的瞬时发放率为 fk(t)= (3)这是因为如果我们把上式在某个时段内积分,那么得到的就是在这段时间内发放的神经脉冲数,因此它有瞬时脉冲发放率的含义将ikj(t)关于t微分,就得到下式: (4)如果把上式所有的下标j和n相加,那么久得到第k个神经元在触发区的跨膜电流,如下式: (5)式中,Ik(t)是由外界注入的电流,包括第感觉神经元来说的由外界刺激所产生的感受器电流 由于假定脉冲发放率和跨膜电流之间服从S形曲线的关系,因此可以得到另一个方程 (6)式中,V[ij(t)]是表示S形曲线的函数关系方程(5)和(6)就是霍普菲尔德的神经网络模型。
可以把这两个式子合并成下式: (7)对于上面很一般的动力学系统,要讨论它们的性质是很困难的现在我们再加两个假定:(1)外界刺激所引起的感受器电流Ik(t)的时间变化比起神经元内部的变化要慢得多,也就是可以假定它是常数;(2)Skj=Sjk,虽然一般说来生物神经回路并满足这条性质,但是对下面的数学分析是必要地构造下列函数: (8)式中,V-1(f)是f=V(i)的逆函数由于f=V(i)是单调增函数,可以证明上这函数是非负的,而且它对时间的导数大于或等于0,并且只有当系统达到平衡点,也就是它的固定点吸引子时才等于0所以这样的系统演化过程是使E不断减小,最后达到系统的某一个平衡点系统可以有好多个不同的平衡点(也就是所有满足的解),系统最后演化到哪个平衡点取决于初始条件如果我们把这个系统的高维状态空间中任一点所代表的状态向量理解为某个信息,把平衡点有关的信息(在该平衡点吸引域内任意一点的坐标),这个系统就会自动演化到这个平衡点,也就是提取出原先的记忆而且决定这种记忆内容的是神经元间的联系系数Skj的分布,而不像传统的数字计算机靠地址提取记忆内容那样。
在这里,Skj的生物学意义是突触权重也就是说,在这个模型中记忆的内容分布在突触权重之中1.3.3 算法与应用 Holpfield网络是一种具有全互联结构的地柜神经网络,其具有反馈机制的非线性动力学系统,反映了生物神经系统的复杂性该网络一般分为离散型(DHNN)和连续型(CHNN)两种,其标准的网络能量函数可以表示为:式中:Tij是神经元i 和神经元j的连接权值;Ii是神经元i的输入阈值;Vi和,Vj分别是神经元i和神经元j 的输出值[8]在满足一定条件下,能量函数的能量在网络运行过程中不断减小,最后趋于稳定的平衡状态Hopfield网络自提出以来,已成功应用于多个方面1. DHHN图像识别网络算法与应用A.符号与表示:一个n阶的Hopfiled网络是一个五元组:DHN(n)= 其中:(1)GF:规定DHN(n)拓扑结构的扩展模糊图:其中,是非空神经元集合,每一个神经元Ni附有阈值θi;是边的集合,eij是Ni→Nj的边;是联系矩阵,wij是Ni→Nj的联系效率2) 输入域3) 输出域4) WA:工作算法,令为Vi在t时刻的状态,其中,(5) OA:自组织算法对Holpfield网络而言,一般情况下,IF=OF=N(GF),即:oI=oO=o。
实际上,给定神经元的阈值和神经元之间的联系效率即可唯一地确定一个Hopfield网络,给定神经元的阈值和神经元之间的联系效率即可唯一地确定一个Hopfield网络因此,一个n阶的Hopfield网络可简记为:DHN(n)=其中:(1) W=A(GF):DHN(n)联系矩阵2) Θ=(θ1,θ2,...θn)T:DHN(n)阈值向量图10 N阶DHN拓扑结构B.工作算法[8]:Hopfield网络的工作模式:设N为n 阶Hopfield网络DHN(n)每一时刻需要调整其状态的神经元的数量,则按N的数量:a.串行模式:N=1b.并行模式:N≧2部分并行模式和全并行模式)按每一时刻选择DHN(n)需要调整其状态的神经元的方式的不同,又可分为:a.确定模式b.随机模式如果在给定的离散时刻t∈{0,1,2,...},NSk(k∈{1,2,...,m})的选择则是随机地,则WA为随机工作模式,否则,为确定性工作模式[9] C.Hopfield网络记忆和学习:Hopfield网络的运行过程是将初始状态转移至稳定状态的过程Hopfield网络有初始状态运行至稳定状态的过程可以被理解为神经系统的联想记忆过程。
稳定状态就是Hopfield网络记忆的内容外积法(Outer Production Method)是Hopfield网络综合设计方法之一该方法源于Hebb学习律[10]Hebb学习律:设有一个n 维的Holpfield网络DHN(n),对任意i,j∈{1,2,...n},若DHN(n)的状态值oi和oj符号相同,即DHN(n)的神经元Ni和Nj同处于兴奋或抑制,则它们的联系效率wij应该得意加强,反之,wij应该减弱外积法(1): (i,j∈{1,2,...,n})向量形式为:外积法(2):相应的向量形式为:D应用holpfield网络识别数字步骤(代码见附录)a.编码数字0-9:b.编制网络:c.无噪声识别网络的训练d.有噪声的输入矢量识别网络的训练e.测试所训练的网络性能f.结果分析(以有噪声的结果为例)Test图11 有效性评估,上图为误差平方和,下图为学习率从图11的上图可以看到在经过三次网络训练后(有噪声,无噪声,有噪声),在测试集1中(由于两次测试集的结果相近,仅以第一次为例),误差的平方和在0-20次迭代快速下降后,在20-120次内平稳下降,最后在120-153次迭代时下降的最快,最后到达设定目标0.1后就停止迭代了。
也就是说经过迭代153步后,我们的计算机完全学会了识别数字而这个神经网络运用的学习规律就是上面提到的Hebb学习律和外积法相对应地,从图11的下图可以看到,学习率在迭代120次迭代内也较低,在120-153次迭代中迅速提高,最后在迭代了153次后达到了17.46另外,可以看到学习率并没有经过再降低的过程,也就是并没有出现过拟合的问题2 DHHN联想与记忆功能反馈网络算法与应用A DHNN网络结构[11]图12 联想与记忆反馈网络特点:1)单层的反馈网络2)所有神经元的输出延时一个单位时间作为输入3)网络的外部输入为作为初始状态,对外输出为稳定状态B神经元的模型为:或:C工作方式为:(1) 异步方式或串行工作方式在某一时刻只有一个神经元改变状态,而其余神经元的输出保持不变,这一变化的神经元可以按照随机方式或预定的顺序来选择例如,若选定的神经元为第i个,则有(2) 同步方式或并行工作方式 在某一时刻所有神经元同时改变状态D 稳定性定理与吸引子如果网络从任一初始状态开始变化,存在某一有限时刻,从此以后网络状态不再变化,即则称网络是稳定的若网络的状态x满足则称为网络的稳定点或吸引子。
定理1 对于DHNN,若按异步方式调整状态,且连接权矩阵W对称且对角线矩阵W的要求更高了,若不满足W为非负定对称阵的要求,则网络可能出现自持震荡,即极限环由于异步工作方式比同步工作方式有更好的稳定性能,实现时较多采用异步工作方式异步工作方式的主要缺点是失去了神经网络并行处理的优点E.DHNN的联想记忆功能与权值设计 联想记忆功能是DHNN的一个重要应用 在Hopfield网络的拓扑结构及权值矩阵均一定的情况下,网络的稳定状态将与其初始状态有关也就是说,Hopfield网络是一种能储存若干个预先设置的稳定状态的网络若将稳态视为一个记忆样本,那么初态朝稳态的收敛过程便是寻找记忆样本的过程初态可认为是给定样本的部分信息,网络改变的过程可认为是从部分信息找到全部信息,从而实现了联想记忆的功能Hopfield网络没有与之相关的学习规则它的权值不被训练,也不会自己学习它的权值矩阵是事前计算出来的在这种网络中,不断更新的不是权值,而是网络中各神经元的状态,网络演变到稳定时各神经元的状态便是问题的解权值设计的目的:使任意输入矢量经过网络循环最终收敛到网络所记忆的某个样本上i.权值设计:[12]假设需要存储的记忆样本有:海布(Hebb)学习规则其中:m为样本数; α为学习速率;I为单位对角矩阵。
向量形式:当 α=1时:采用Hebb规则设计的权值,可以满足: 且 从而可以保证网络在异步工作时收敛若按同步工作时,网络或收敛或出现极限环缺点:给定样本不一定是网络的吸引子,需要样本满足一定的条件设样本维数为n,样本个数为m,则根据Hebb规则设计的DHNN,实现样本均为吸引子的充分条件(样本应满足的条件)为:(1) 若m个样本两两正交,则充分条件为:n>m(2)若m个样本不是两两正交,则为: 其中ii.正交化的权值设计1)保证系统在异步工作时的稳定性;2)保证所有要求记忆的稳定平衡点都能收敛到自己;3)使伪稳定点(网络最终稳定到一个渐近稳定点上,但这个稳定点不是网络设计所要求的解)的数目尽可能的少;4)使稳定点的吸引域尽可能的大设给定m个样本向量 x(k)(k=1,2,…,m) ,首先组成如下的n × (m-1) 阶矩阵对A进行奇异值分解U是n×n正交阵,V是(m-1)× (m-1) 正交阵U可表示成:则 u1,u2,…,ur 是对应于非零奇异值σ1, σ2,…, σr 的左奇异向量,且组成了A的值域空间的正交基;ur+1,…,un 是 A的值域的正交补空间的正交基 按如下方法组成连接权矩阵W和阈值向量b。
虽然正交化设计方法的数学设计较为复杂,但与外积和法相比较,所设计出的平衡稳定点能够保证收敛到自己并且有较大的稳定域E.样本计算:采用Hebb规则,设计离散Hopfield网络,判断样本是否均为吸引子现有两个样本为步骤1:求连接权矩阵步骤2:判断样本是否为吸引子由于两个样本不正交,根据第二种情况计算判断:不满足充分条件,是否为吸引子需进一步计算检验:所以,两个样本都是吸引子进一步:显然它比较接近x(1),用异步方式按1,2,3,4的调整次序来演变网络:元素非负,即wij=wji ,wii>=0,则对于任意初态,网络都最终收敛到一个吸引子定理2 对于DHNN ,若按同步方式调整状态,且连接权矩阵W为非负定对称阵,则对于任意初态,网络都最终收敛到一个吸引子可见对于同步方式,它对连接权即可见,只需异步方式调整一步就收敛到x(1)又:显然它比较接近x(2),用异步方式按1,2,3,4的调整次序来演变网络:即可见,只需异步方式调整一步就收敛到 x(2) 最后:它与 x(1) 和x(2) 的海明距离(两个向量不相同元素的个数)均为2若按1,2,3,4的调整次序调整网络可得:即:即:此时,x(5)收敛到 x(2) 。
若按3,4,1,2的调整次序调整网络可得即:即:此时,x(5)收敛到 x(1) 经计算,对于所有的调整次序,都可以从x演变到吸引子,所以x强吸引到x(1)接下来对两个样本应用同步方式进行计算,仍取x(0)为x(3), x(4), x(5) 三种情况首先:所以, x(3)收敛到 x(1) 又:此时, x(4)收敛到 x(2) 最后:可见,它将在两个状态间跳跃,产生极限环为2的自持振荡若根据前面的稳定性分析,由于此时连接权矩阵W不是非负定阵,所以出现了振荡另外,对于同步方式,由于无调整次序问题,所以吸引域无强弱之分因为网络有四个节点,所以有24=16个状态(阈值取0),其中只有以上两个状态 x(1) 和x(2)是稳定的,其余状态都会收敛到与之邻近的稳定状态上,所以说这种网络具有一定的纠错能力3. 连续Hopfield网络与优化算法与应用A CHNN网络结构[12]B神经元模型[13]: 这里,假定wij=wji ,它与离散的Hopfield网络相比,这里多了中间一个式子,该式是一阶微分方程,相当于一阶惯性环节,si是该环节的输入,yi是该环节的输出f(·)函数一般取S形函数:,有: ,有:它们都是连续的单调上升的函数。
利用模拟电路设计了一个连续Hopfield网络的电路模型下图表示了其中由运算放大器电路实现的一个节点的模型图13 Hopfield电路模型的运算放大器节点模型可以列出如下的电路方程:即:其中:若令:则上式化为:式中 f(.)常用Sigmoid函数:可以看出,连续Hopfield网络实质上是一个连续的非线性动力学系统,它可用一组非线性微分方程来描述当给定初始状态 , 通过求解非线性微分方程组可求的网络状态的运动轨迹若系统是稳定的,则它可最终可收敛到一个稳定状态若用图示的硬件来实现,则这个求解非线性微分方程的过程将由该电路自动完成,其求解速度是非常快的 运算放大器构造的连续型Hopfield网络:图14 CHNN运算放大器C 稳定性分析:[14]定义连续Hopfield网络能量函数为:由于 或 ,因此上述定义的能量函数E是有界的,因此只需证得 ,即可说明系统是稳定的当 前面已假设 是单调上升函数,显然它的反函数 为单调上升函数,即有因而有(所有xi均为常数时才取等号) 根据李雅普诺夫稳定性理论,该网络一定是渐近稳定的即随着时间的演变,网络状态总是朝E减小的方向运动,一直到E取得极小值,这时所有的xi变为常数,也即网络收敛到稳定状态。
D CHNN应用于TSP问题: 推销员要到n个城市去推销产品,要求推销员每个城市都要去到,且只能去一次,如何规划路线才能使所走的路程最短对于n个城市的TSP问题,可以使用n2个神经元,用神经元的状态表示某一城市在某条路径中被访问的顺序第αi个神经元的状态用xαi表示,其中,表示α城市名称,i表示访问顺序 xαi =1表示城市α在该路径中第i个被访问, xαi =0表示城市α在该路径中第i个没有被访问以n=5的TSP问题为例:A、 B、C、D、E表示城市名称;l、2、3、4、5表示路径顺序神经元采用如下的S形变换函数:这里取较大的λ,以使S形函数比较陡峭,从而稳态时,能够趋于1或趋于0 5城市TSP问题的一条有效路径的关联矩阵12345A01000B00010C10000D00001E00100其相应的路径顺序为:所走路径的总长度为:为了保证每个城市只去一次,方阵每行只能有一个元素为1,其余为零为了保证在某一时刻只能经一个城市,方阵中每列也只能有一个元素为l为使每个城市必须经一次,方阵中1的总个数必须为n对于任意路径,所走路程的总长度可以表示为表示城市α到城市β的距离根据路径最短的要求,并考虑约束条件,可以写出总的能量函数为:其中,第一项为优化目标,第二项为列约束条件,保证每次只访问一个城市,满足条件时,值为0,第三项为行约束条件,保证每个城市只访问一次,第四项为全局约束条件,保证方阵中1的总和为n,第五项为Hopfield网络本身的要求。
CHNN: 用于TSP 的CHNN 其中δαβ,δij是离散δ函数,即从而可将TSP问题表示成连续的Hopfield网络1.4 其他典型神经网络的算法与比较1.4.1 支持向量机(SVM)1.4.1.1 SVM算法支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳平衡,以求获得最好的推广能力[15]我们通常希望分类的过程是一个机器学习的过程这些数据点是n维实空间中的点我们希望能够把这些点通过一个n-1维的超平面分开通常这个被称为线性分类器有很多分类器都符合这个要求,但是我们还希望找到分类最佳的平面,即使得属于两个不同类的数据点间隔最大的那个面,该面亦称为最大间隔超平面如果我们能够找到这个面,那么这个分类器就成为最大间隔分类器通俗来说,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解图15 SVM原理图1.4.1.2 SVM优缺点:支持向量机有一定的通用性,能够各种函数集中构造函数,有较强的鲁棒性,不需要进行微调。
其基于VC推广的理论框架完善,计算简单,与传统的统计理论相比,统计学习理论基本不涉及概率测定的定义和大数定律另外,支持向量机避免了神经网络的网络结构选择、过学习、欠学习以及局部最小值问题但是,支持向量机对确实数据较敏感而且对非线性问题没有通用解决方案1.4.2 朴素贝叶斯分类算法1.4.2.1 NBYs算法[16]:朴素贝叶斯分类的正式定义如下:1、设为一个待分类项,而每个a为x的一个特征属性2、有类别集合3、计算4、如果,则那么现在的关键就是如何计算第3步中的各个条件概率我们可以这么做:1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集2、统计得到在各类别下各个特征属性的条件概率估计即3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导: 因为分母对于所有类别为常数,因为我们只要将分子最大化皆可又因为各特征属性是条件独立的,所以有: 根据上述分析,朴素贝叶斯分类的流程可以由下图表示(暂时不考虑验证):图16 NBYs流程图可以看到,整个朴素贝叶斯分类分为三个阶段[17]: 第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。
这一阶段的输入是所有待分类数据,输出是特征属性和训练样本这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定 第二阶段——分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录其输入是特征属性和训练样本,输出是分类器这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成 第三阶段——应用阶段这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系这一阶段也是机械性阶段,由程序完成1.4.2.2 朴素贝叶斯分类的优缺点:朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率而且,朴素贝叶斯模型所需的参数很少,对缺失数据不太敏感,算法也比较简单理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的(可以考虑用聚类算法线将相关性较大的属性聚类),这给模型的正确分类带来了一定影响。
在属性个数比较多或者属性这件相关性较大时,朴素贝叶斯模型的分类效率并没有决策树模型高,而在属性相关性较小时,朴树贝叶斯模型的效率最高1.4.3 随机森林算法1.4.3.1 随机森林算法原理:随机森林算法是结合了Breimans的提升想法和Ho的随机子空间方法来建造决策树的集合随机森林是一类专门为决策树分类器设计的组合方法,它组合多棵决策树做出预测,其中每棵树都是基于随机向量的一个独立集合的值产生的(随机森林采用一个固定的概率分布来产生随机向量)随机森林算法在构建决策树的时候,采用了随机选取分裂属性集的方法,详细的随机森林算法流程如下所示:(1)利用提升方法重采样,随机产生了T个训练集S1,S2,...,ST2)利用每个训练集,生成对应的决策树C1,c2,...,Cr:在每个非叶子节点(内部节点)上选择属性前,从M个属性中随机抽取m个属性作为当前节点的分裂属性集,并以这m个属性中最好的分裂方式对该节点进行分裂(一般而言,在整个森林的生长过程中,m的值维持不变)3)对于测试集样本X,利用每个决策树进行测试,得到相应的类别C1(X),C2(X),...,CT(X)4)采用投票的方法,将T个决策树中输出最多的类别作为测试集样本X所属的类别。
已经从理论上证明,当树的数目足够大,随机森林的泛化误差的商界收敛于下面的表达式:泛化误差 ≤ 其中,是树之间的平均相关系数S是度量树型分类器的“强度”的量,一组分类器的强度是指分类器的平均性能[17]随着树的相关性增加或者组合分类器的强度降低,泛化误差的上界接趋于增加随机化有助于减少决策之间的相关性,从而改善组合分类器的泛化误差随机森林的三种输入:随机输入:随机选择F个输入特征来对决策树的节点进行分裂,然后让树完全增长为不进行任何修剪,有助于减少结果树的偏倚随机组合:创建输入特征的线性组合,这些输入用区间[-1,1]上均匀分布产生的系数进行线性组合,并且从中选择最好的来分裂节点第三种:在决策树的每个节点,从线性组合中随机选择一个除非组合足够大,否则比前两个方法产生相关性更强的树1.4.3.2 随机森林的优缺点 :对于很多资料,随机森林可以产生高准确度的分类器[18],也就是说它可以处理大量的输入变量随机森林在决定类别时,会对变量的重要性进行评估在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计它包含一个好方法来估计缺失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度。
对于不平衡的分类资料集来说,它可以平衡误差它计算各例中的亲近度,对于数据挖掘、侦测偏离者和将资料视觉化非常有用总的来说,随机森林的学习过程是很快速的但是,随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合对于有不同级别的属性的数据,级别划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产生的属性权值是不可信的第2章 数据挖掘数据挖掘过程的总体目标是从一组数据集中提取信息并将其转换到一个可理解的结构中为了未来使用[19]数据挖掘是(数据库中知识挖掘)KDD过程中数据分析的步骤[20]在现实中,尽管有时人工智能方法和机器学习更为适合一些,数据处理方法仍然包含了很多交叉领域的知识;统计(抽样,估计,假设检验),人工智能(搜索算法),模式辨认(建模)以及机器学习(学习理论)等一般来说,有六类常见的任务[21]:异常探测(异常值,改变或是离群值探测),关联规则学习(依赖性建模),聚类,分类,回归以及求和和人工智能不同,更多统计理论被包括在数据分析过程以及分析中然而,一些工具由相关的AI领域内的知识以及算法发展而来2.1 KDD过程 根据数据挖掘的定义,数据库知识挖掘过程通常包含以下过程:选择->预处理->变换->数据挖解决->模型诠释/评估。
在以下部分中,我们严格依照KDD过程分析了LFP数据2.2猴子T脑电LFP实验数据的格兰杰预测格兰杰预测由格兰杰C.W.J在1989提出的用于决定一时间序列是否有助于预测另一时间序列的统计假设检验过程通常来说,回归反应的“仅仅”是相关性,但是Clive Granger认为经济领域中,因果性能计量通过运用滞后时间项对未来一时间序列的预测能力[22]本论文描述了格兰杰预测以及其用途,预测了前额叶皮层及纹状体间的因果关联关于神经机制的理解更在于对方向性功能连接定义的要求一个有效的用于从数据中提取该连接性的方法就是格兰杰预测一个关于上式方法的验证在图17中体现数据被根据例1中的模型在图示中体现,见上左图图172.2.1格兰杰预测理论我们的实验包括两个任务,两项相关的序列以及双重扫描任务在这两项系列中,猴子学习了刺激-奖励相关的任务在向他们展示了不同图片后,他们奖励相关的预测被记录在第二项任务,双重扫描任务中这个结果阐明了大水奖励下,纹状体与LPFC的格兰杰预测与小水奖励下是显著不同的,尽管这两个值都很小更甚者,如果奖励类型是大水,格兰杰预测和小水奖励下的大[23]另外,更多记录在SPAT模块下的实验数据有显著的统计量而RIT模块下的却没有。
近期,一些证据已经显示了LPFC神经元抽象的行为规则[23]-[25],代表了分类信息[23][24]以及在动态决定中设计的[31][31]一起考虑后,研究暗示了LPFC参与了和感觉刺激相关的行为意义的形成,忽视了他们的物理性质LPFC也被了解到参与了奖励过程[25]-[29]有研究认为LPFC整合了认知及目的的信息来中和目标导向的决定[30][31]一些单度单元对LPFC进行了和猴子相关的研究,已经暗示了LPFC神经元的电极奖励信息和奖励类型相关,数量[33][34]和可成率与视觉刺激条件相关,LPFC至纹状体的格兰杰因果关系显著大于纹状体至LPFC的结果,即LPFC至纹状体的基底节传递效能高于纹状体至LPFC的反馈结果2.2.2 LFP实验记录的格兰杰预测应用 我们结合KDD过程对LTP数据应用了格兰杰预测(以纹状体第一轨道和LPFC第一轨道为例):A.目标数据选择 为了得到更好的结果,我们将被给与小水奖励的猴子作为控制组,并将那些被给与大水奖励的作为对立组这一随机双盲实验是有意设计的这一猴子被分派至不同刺激及随机奖励(各占50%的概率)这一数据被不同的研究者在没有先知的情况下记录下来通过对比双盲随即实验,我们发现在ABC序列中的主要细胞是刺激-奖励类型的。
也就是目标选择和奖励类型都和预测相关B.数据预处理 时间序列数据或是平稳的或是不平稳的这取决于统计属性例如均值和方差是否随时间改变;也就是,时间序列是否良好对于格兰杰预测来说,平稳性是十分重要的,因为自回归模型需要时间序列数据是平稳的在非平稳过程中,世界序列不能被用于格兰杰预测,e=random)这意味着如果数据是非平稳的,格兰杰分析可能会产生偏的结果比方说,在一个100-400ms的后刺激时间窗中,当有一个ERP时,稳定性可能会被违反Wang,Chen和Ding在2008年提出了这里有一些简单的帮助平稳化数据的方法降噪和z-标准化(减去平均值并除以标准差)都是有效的使用更短的时间窗也会增加得到平稳数据的可能,特别是在结合了降噪和z-标准化之后Wang,Chen和Ding在2008提出假设ERP在每个轨道上都存在的情况下,从单独的轨道数据中减去了ERP(如同对计算非锁相的时间-频率能量,见第20章)可能也提升了稳定性谨记,由于减去ERP可能对单独轨道的动力特征仅产生微弱的影响另一选项是将Granger Prediction应用到时间序列的导数上,也就是在每个时间点以及之前的时间点间的活跃性的差。
图18 左图是减去ERP后的LFP,右图是经过差分的LPFC在图19的左图中,纹状体轨道1以及LPFC轨道1都是非平稳的(在蓝色的点和线上)因为ERP都太小(接近等于0),那些减去ERP信号的信号基本保持和原始数据相近的状态相对比的,通过做差分(((X(n)=X(n)-X(n-1)),我们得到了两列平稳时间序列(详见右图红色的点线图所示)我们随后能将处理后的数据应用于格兰杰预测ERP去除优缺点:不易丢失有效信息,一般对于锁时的信号效果较好,但是对于锁相的信号效果明显较差差分法优缺点:差分阶数可根据实际效果改变,且速度更快,保证达到平稳状态,但可能丢失信息C.变换图19 基线标准化后的格兰杰预测结果因为我们选择了一个相对较短的时间窗(100ms),格兰及预测的结果相对比较平稳但是,仍有一些关于是否在序列中剩有任务相关的动力学特征担心因此,我们仍在预处理后进行了去基线标准化以便于解释结果特别地,在我们的实验里,纹状体里的细胞是对奖励和刺激都敏感的,导致了从纹状体到LPFC的非对称的直接有向连接根据原始的格兰杰预测结果,当在随基线变化的图中(图21)代表的结果有一个微弱的任务相关的增加出现在250到600ms间时,由于在0到200ms附近的刺激的预计和准备,会产生一个格兰杰因果的增加。
另外,百分比的改变结果明显和这里的时间域结果更一致(和图19相比)去基线处理优缺点:保证所有的数据都在可比的尺度上,统一了量纲,但是对于有的数据(例如经过log处理的),不能选取0作为基线D.数据挖掘a.时间域上的格兰杰预测a1单变量自回归拟合经过处理后,时间序列是平稳的单变量自回归涉及的是其上的只含有一个变量的对原变量进行回归的过程在我们的实验中,我们运用BIC来决定阶数并最终得到结果:运用单变量自回归模型,我们得到了如上的等式X代表了在轨道1的数据(纹状体信号),Y代表了在轨道9的数据(LPFC信号)由于阶数是3,因此我们的自回归方程的时间滞后项为3,X信号(纹状体信号)的系数和Y信号(LPFC信号)的系数都没有统一的符号,可见随时间的增加,两个脑区的LFP值都不是单调变化的同时,纹状体信号的每一项对应的回归系数都要略大于纹状体上的回归系数,同时误差要略小于LPFC上的a2双变量自回归拟合双变量自回归同样要求使用预处理后的平稳序列,同时方程包含两个变量2.8224*10^(-5)Y(t)=-0.2643*X(t-1)+3.3389*X(t-2)+0.8532*X(t-3)-5.1981*Y(t-1)-1。