概述
分布估计算法的概念最初在1996年由H. Muhlenbein提出,主要思想就是把自然进化算法和构造性数学分析方法相结合,以指导对问题空间的有效搜索。
分布估计算法本质上是一种基于概率模型的新型进化算法,遗传算法与统计学习相结合,是自然计算的又一典型实现模式。它通过对当前找到的较优个体集合建立概率模型来引导算法下一步的搜索范围,并从所获得的较优解的概率分布函数中抽样产生出新的个体。
个体:模拟生物个体而对问题中对象的一种称呼。种群:由若干个个体组成。概率模型:用于描述取值域中优秀个体分布情况的一系列函数或其他数学工具(包括概率密度函数、条件概率、边缘概率等等)。
遗传算法的不足
构造块:群体中高于平均适应度的低阶、短距离的模式,它们是构成问题解的基本部分。
连锁问题:构造块中的确定位之间存在连锁依赖关系,而简单遗传算法在进行交叉操作时不具备分辨和学习构造块中这种关系的能力,因此不可避免的造成构造块的损坏,把这种损坏称之为连锁问题。
结论:由于高阶、长距离构造块在交叉操作时的损坏概率较大,简单遗传算法在求高阶、长距离构造块的问题时,容易陷入局部最优或发生早熟。
对比
遗传算法是对于个体进行遗传操作(交叉、变异等),“微观”层面模拟生物的进化。
分布估计算法是对于整个群体的分布建立一个概率模型,通过这个概率模型来描述进化的方向,是“宏观”层面的模拟。
分布估计算法基本流程
步骤1:初始群体,并对每一个个体进行估值(适应度值计算);
步骤2:根据个体估值,按照一定的选择策略从群体中选择较优的个 体;
步骤3:根据选择的个体估计概率分布,建立相应的概率模型;
步骤4:根据上一步估计得出的概率分布,采样产生新一代个体,并重新对每一个新个体进行适应度估值;
步骤5:如果某准则满足,则算法停止;否则,返回步骤2.
分布估计算法的优点与不足
优点:
为人们解决复杂的优化问题提供了工具。分布估计算法能更加有效的解决高维问题,降低时间复杂性。
不足:
1、随着待解决问题的复杂化和概率模型的复杂化,EDA中概率模型的学习占用了大部分的时间和空间开销。
2、对于复杂的多峰的、强耦合的、非线性连续优化问题,目前采用的简单的高斯分布、线性关系的高斯图模型仍有不足。