特征选择方法

特征选择方法

特征选择法,相信只有少部分人听说过,究竟是什么呢?下面是给大家整理的关于特征选择方法,欢迎阅读!

特征选择方法 1

特征选择之所以要引起重视的原因,那就是随着科技发展,很多领域能采集到的特征变量数以万计,而能作为训练集的样本量却往往远小于特征数量(如基因测序、文本分类)。特征选择的好处包括:便于理解和可视化数据,降低计算及存储压力,对抗维度灾难以提高模型预测准确率等等。特征选择的三类主流方法为:过滤式、包裹式、嵌入式。

一、过滤式

变量排序就是一种典型的过滤式方法,该方法***于后续要使用的模型。这种方法的关键就是找到一种能度量特征重要性的方法,比如pearson相关系数,信息论理论中的互信息等。

二、包裹式

这类方法的核心思想在于,给定了某种模型,及预测效果评价的方法,然后针对特征空间中的不同子集,计算每个子集的预测效果,效果最好的,即作为最终被挑选出来的特征子集。注意集合的子集是一个指数的量级,故此类方法计算量较大。故而针对如何高效搜索特征空间子集,就产生了不同的算法。其中有一种简单有效的方法叫贪婪搜索策略,包括前向选择与后向删除。在前向选择方法中,初始化一个空的特征集合,逐步向其中添加新的特征,如果该特征能提高预测效果,即得以保留,否则就扔掉。后向删除即是说从所有特征构成的集合开始,逐步删除特征,只要删除后模型预测效果提升,即说明删除动作有效,否则就还是保留原特征。要注意到,包裹式方法要求针对每一个特征子集重新训练模型,因此计算量还是较大的。

三、嵌入式

嵌入式方法将特征选择融合在模型训练的过程中,比如决策树在分枝的过程中,就是使用的嵌入式特征选择方法,其内在还是根据某个度量指标对特征进行排序。

除了直接从原始特征中进行选择,我们还可以对特征进行变换、组合,这种思路称为特征构造。其中主要的方法总结如下。

一、聚类

可以使用kmeas、层次聚类后的聚类中心点来代替相应簇中的一组特征。

二、线性组合

SVD(singular value decomposition) 、PCA均可视为此类方法,核心思想就是对原有特征进行线性组合,使用组合后的特征作为新的特征输入到训练模型中。这类方法的好处是,考虑到了变量之间可能存在的互补作用,进行组合后,有可能生成了一个更有效的新特征。

总体上,笔者今日所阅读的文章或书本仍偏于理论,较少介绍在某个实践项目中具体是如何开展的。希望市面上再多一些工程师写的书,少一些大学教授的书。

特征选择方法 2

搜索策略

一、完全搜索

1、BestFirst(最佳优先)

最佳优先搜索时宽度优先搜索的扩展,基本思想是将节点表按据目标的距离进行排序,再以节点的估计距离为标准选择待扩展的节点。

算法步骤:

1. 用N表示已经排序的初始结点表(从小到大)

2. 如果N为空集,则退出并给出失败信号

3. n取为N的首结点,并在N中删除结点n,放入已访问结点列表

4. 如果n为目标结点,则退出并给出成功信号

5. 否则,将n的后继结点加到N中,记为N’,对N’中的结点按距目标的估计距离排序,并返回2步

在搜索的过程中一般会用到评估函数f(n),表示从初始节点S经过n到达目的节点t的最佳路径代价f*(n)的估计:

从S到n的最佳代价g*(n)的估计g(n),g(n) ≥ g*(n),即局部最小≥ 全局最小

从n到t 的最佳代价h*(n)的估计h(n),若对所有结点n,都有h(n)≤h*(n),则算法A一定能找到一条到达目标结点的最佳路径,此时算法A 称为算法A*。

f(n) = g(n) + h(n)作为f*(n) = g*(n) + h*(n)的估计,估计值越小的点希望越高,应该优先扩展。

2,ExhaustiveSearch(穷举搜索);

枚举了所有的特征组合,属于穷举搜索,时间复杂度是O(2n),实用性不高。

二、随机搜索方法。

1、RandomSearch(随机搜索):

算法描述:随机产生一个特征子集,然后在该子集上执行SFS与SBS算法。

算法评价:可作为SFS与SBS的补充,用于跳出局部最优值。

2、ScatterSearchV1(离散搜索):

三、序列搜索方法

a.单独最优组合:RankSearch(评估器计算属性判据值并排序),Ranker(属性判据值排序);

b.向前搜索:LinearForwardSelection(线性向前搜索);

算法描述:特征子集X从空集开始,每次选择一个特征x加入特征子集X,使得特征函数J( X)最优。简单说就是,每次都选择一个使得评价函数的取值达到最优的特征加入,其实就是一种简单的贪心算法。

算法评价:缺点是只能加入特征而不能去除特征。例如:特征A完全依赖于特征B与C,可以认为如果加入了特征B与C则A就是多余的。假设序列前向选择算法首先将A加入特征集,然后又将B与C加入,那么特征子集中就包含了多余的特征A。

c.向后搜索:FCBFSearch(基于相关性分析的特征选择方法);

算法描述:从特征全集O开始,每次从特征集O中剔除一个特征x,使得剔除特征x后评价函数值达到最优。

算法评价:序列后向选择与序列前向选择正好相反,它的缺点是特征只能去除不能加入。另外,SFS与SBS都属于贪心算法,容易陷入局部最优值。

d. 增l去r选择方法:RaceSearch(比较特征子集的交叉验证错误情况),GreedyStepwise(向前或向后的单步搜索);

该算法有两种形式:

<1>算法从空集开始,每轮先加入L个特征,然后从中去除R个特征,使得评价函数值最优。( L > R )

<2>算法从全集开始,每轮先去除R个特征,然后加入L个特征,使得评价函数值最优。( L < R )

算法评价:增L去R选择算法结合了序列前向选择与序列后向选择思想, L与R的选择是算法的关键。

e. 浮动搜索方法:SubsetSizeForwardSelection(按照特征子集大小向前线性搜索,这是线性搜索的扩展);

f.启发式搜索:GeneticSearch(基于Goldberg提出的简单遗传算法),TabuSearch(禁忌搜索)。

按照评价策略的两大方法,这两大方法基于是否使用后续的分类方法来区别,且Filter方法注重对单个属性进行评价,Wrapper方法侧重对特征子集进行评价。

这里列举各个分类的几种方法:

1)Filter方法:

ChiSquaredAttributeEval——根据与分类有关的每一个属性的卡方值(统计学词汇)进行评估;

FilteresAttributeEval——运行在任意过滤器之后的数据上的任意属性评估;

GainRatioAttributeEva——根据与分类有关的每一个属性的增益比进行评估;

InfoGainAttributeEval——根据与分类有关的每一个属性的信息增益进行评估;

SignificanceAttributeEva——计算双向功能的概率意义评估属性值。

2)Wrapper方法:

CfsSubsetEval——根据属性子集中每一个特征的预测能力以及它们之间的关联性进行评估;

ClassifierSubsetEval——根据训练集或测试集之外的数据评估属性子集;

WrapperSubsetEval——使用一种学习模式对属性集进行评估;

ConsistencySubsetEval——根据利用属性子集进行分类时得到的分类值的一致性进行评价。

3)Filter与Wrapper结合:

OneRAttributeEval——根据OneR分类器评估属性。

特征选择方法 3

01高相关变量

高相关变量给模型提供了相同的信息,因此在我们的分析中没有必要包括所有的变量。例如:如果一个数据集包含一个特征“浏览时间”,另一个特征称为“浏览时使用的数据”,那么你可以想象这两个变量在某种程度上是相关的,即使我们选取一个无偏的数据样本,我们也会看到这种高度的相关性。在这种情况下,我们只需要这两个变量中的一个在此模型中作为预测因子,因为如果我们同时使用这两个变量,那么模型将会过拟合并偏向于这个特定的特征。

02P值

在像线性回归这样的算法中,初始统计模型总是个不错的选择,因为它通过使用该模型获得的P值,有助于可视化特征的重要性。在设置显著性水平时,我们检查得到的P值,如果P值小于显著性水平,说明特征显著,即该值的变化很可能表示目标值的变化。

03正向选择

正向选择是一种使用逐步回归的技术。因此,模型从零起点开始构建,即一个空模型,然后每次迭代都添加一个变量,以便在构建的模型中有一个改进。在每次迭代中加入的变量是通过其显著水平与设置的显著阈值进行比较来确定的,小于则加入,否则不加入。它可以通过各种度量来计算。一个共同的度量是通过所有变量建立的初始统计模型得到的P值。有时,正向选择会导致过拟合,因为它会向模型中添加高相关变量,即使它们向模型提供了相同的数据(但模型显示出了改进)。

04逆向消除

逆向消除也包括逐步回归的'特征选择,其方式类似于正向选择的逆过程。在这种情况下,初始模型从所有的自变量开始,如果这些变量不能在每次迭代中为新形成的回归模型提供价值,那么这些变量将被一个接一个地消除(每次迭代一次)。这也是利用初始统计模型获得的P值,并基于这些P值,从模型中消除特征。同时,使用这种方法,在去除高相关变量方面存在不确定性。

05递归式特征消除

RFE是一种广泛使用的技术/算法——给每一个特征指定一个权重,接着采用预测模型在这些原始的特征上进行训练。在获取到特征的权重值后,对这些权重值取绝对值,把最小绝对值剔除掉。按照这样做,不断循环递归,直至剩余的特征数量达到所需的特征数量。

这个过程中特征被消除的次序就是特征的排序。基于它们之间的共线性,这些排序用来在递归循环中消除特征,当然,还有这些特征在模型中的重要性。除了对特征进行排序外,RFE还可以显示这些特征是否重要,即使是选定的特征数量(因为我们选择的指定数量很可能不代表重要特征的最佳数量,并且,最佳特征数量可以大于或小于用户选择的这个数量)。

06*表化特征重要度

当我们讨论机器学习算法的可解释性时,通常讨论线性回归(可以使用P值分析功能重要性)和决策树(这实际上显示了树形式的特征重要度,同时也显示了重要度的层次结构),但另一方面,在随机森林分类器、LGBM、XG Boost等算法中,我们常常使用变量重要度*表绘制变量。当需要向正做分析的业务展示构建好的特征重要度时,这个方法特别有用。

07正则化

正则化是为了监测偏差和方差之间的权衡。偏差告诉我们模型在多大程度上对训练数据集过拟合。方差告诉我们在训练数据集和测试数据集上做出的预测是否稳定。理想情况下,偏差和方差都需要减少。正则化技术主要有两种:

01 L1正则化 lasso回归

Lasso回归又称为套索回归,是Robert Tibshirani于1996年提出的一种新的变量选择技术。Lasso是一种收缩估计方法,其基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,进一步得到可以解释的模型。Lasso会惩罚模型的β系数,以改变它们在模型中的重要性,甚至可能会将其固定(将它们变成0,即基本上从最终模型中删除这些变量)。通常,当你观察到你的数据集有大量变量时,使用lasso,你需要删除其中一些变量,以便更好地了解重要特征如何影响模型(即最终由lasso选择的特征,并分配其重要性)。

02 L2 正则化 ridge回归

Ridge回归是一种专用于共线性数据分析的有偏估计回归方法。Ridge的作用是保持所有变量,例如使用所有变量来建立模型,同时赋予它们重要度,从而提高模型的性能。当数据集中变量数量较少时,岭是一个很好的选择,因此需要所有这些变量来解释得到的“洞察力”和预测目标结果。

由于Ridge保持了所有变量的完整性,并且lasso在分配变量的重要度方面做得更好,因此,结合Ridge和Lasso的最佳特性,组合出了“弹性网络”,作为开发算法。弹性网络是更理想的选择。

特征选择方法分哪三种

转载请注明出处记得学习 » 特征选择方法

学习

创意广告设计师个人简历范文

阅读(62)

本文为您介绍创意广告设计师个人简历范文,内容包括广告设计师简历怎么写,广告设计类个人简历范文,平面广告设计个人简历模板。创意广告设计师个人简历范文时间真是转瞬即逝,没想到也到了自己找工作的时间,这时候需要提前写好简历了哦。你

学习

预算员实习日记

阅读(65)

预算员实习日记(精选10篇)预算员实习过程中要非常细心。下面就是跟大家分享预算员实习日记(精选10篇),欢迎大家阅读!预算员实习日记1今天来到公司都迟到了,公交车错过了几趟,好在也没迟到好久,通过

学习

现代教育技术在物理教学中的应用论文

阅读(69)

本文为您介绍信息技术在物理教学中的应用,内容包括现代教育技术在物理教学中的应用,现代教育媒体在物理教学中的优点,物理教学中的技术应用方法。现代教育技术在物理教学中的应用论文在各领域中,大家一定都接触过论文吧,论文的类型很多,包

学习

广告设计中的情感表达艺术

阅读(68)

本文为您介绍广告设计与情感表达有什么关系,内容包括广告设计中的情感表现,广告设计的诉求心理,广告设计中的情感设计。广告设计中的情感表达艺术广告是为了某种目的和需要、通过媒体公开而广泛地向公众传播信息的宣传手段。广告设计依

学习

动画设计中的色彩运用

阅读(53)

本文为您介绍动画设计中的色彩运用,内容包括动画设计中的色彩,最后的色彩手绘动画,动画场景中的色彩运用。动画设计中的色彩运用在动画作品中色彩表达具有情感影响力。动画设计中出色的运用色彩效果,可以为角色、场景、内容、形象等增添

学习

环境艺术设计中的人性空间

阅读(53)

本文为您介绍环境艺术设计的正空间与负空间,内容包括环境艺术设计是否需要设计灵感,环境艺术设计是空间与时间的结合,居住空间的生态环境艺术设计。环境艺术设计中的人性空间21世纪,环境不仅仅是为人类行为和文明的承载之洲而存在的,它与

学习

法律专业实习日记

阅读(64)

本文为您介绍,内容包括法律专业实习日记怎么写。法律专业实习日记实习是在经过一段时间的学习之后,或者说当学习告一段落的时候,将所学的应用在实践中。下面带来法律专业实习日记,欢迎阅览!法律专业实习日记篇1法律专业实习日记一今天是正式

学习

求矩阵的特征值和特征向量的变换方法

阅读(75)

本文为您介绍求矩阵的特征值和特征向量,内容包括求矩阵的特征值和特征向量的过程,求矩阵的特征值与特征向量步骤,求矩阵的特征值和特征向量的公式。求矩阵的特征值和特征向量的变换方法在数学中,矩阵(Matrix)是一个按照长方阵列排列的复数

学习

如何突出简历的个人亮点

阅读(67)

本文为您介绍如何突出简历的个人亮点,内容包括简历如何突出自己的亮点,研究生简历怎么写有亮点,简历如何突出亮点。如何突出简历的个人亮点简历,顾名思义,一定要去繁从简,但又要吸引人眼球突出个人简历的“魅力”才能获得高薪就业机会。如

学习

说明文的说明方法

阅读(65)

本文为您介绍说明文的说明方法,内容包括说明文的说明方法有哪些,说明文的说明方法及作用,说明文的说明方法是。说明文的说明方法说明文的说明方法,就是把需要说明的事务的前因后果通过文字来描述。以下是精心整理的说明文的说明方法,仅供

学习

武汉技能提升补贴工种目录

阅读(71)

本文为您介绍武汉技能提升补贴工种目录,内容包括技能提升补贴申领武汉,武汉技能补贴申报成功后多久到账,武汉技能补贴最新规定。武汉技能提升补贴工种目录技能提升补贴是对取得相关职业资格证书或职业技能等级证书的职工的一项补贴,等级

学习

技能培训总结

阅读(53)

本文为您介绍技能培训总结万能模板,内容包括业务技能提升培训总结,技能培训总结语,技能培训总结简短精辟。技能培训总结(通用7篇)总结是事后对某一时期、某一项目或某些工作进行回顾和分析,从而做出带有规律性的结论,它可以提升我们发现问题

学习

专业知识技能自我评价

阅读(95)

本文为您介绍专业知识技能自我评价,内容包括专业技能方面自我评价简短,知识技能自我评价,专业技能方面自我评价。专业知识技能自我评价(通用6篇)在日复一日的学习、工作或生活中,我们都可能会使用到自我评价,自我评价是人的自我概念的重要内

学习

忍耐的近义词有哪些

阅读(70)

本文为您介绍忍耐的近义词有哪些,内容包括忍耐的近义词是什么,忍受和忍耐是不是近义词,忍耐的近义词最佳答案。忍耐的近义词有哪些善良的人永远是受苦的,那忧苦的重担似乎是与生俱来的,因此只有忍耐。下面是帮大家整理的忍耐的近义词有哪

学习

BIM产业发展现状及未来发展趋势

阅读(62)

本文为您介绍bim技术在国外发展现状及发展趋势,内容包括bim产业发展,bim技术在我国的发展现状以及前景,bim的现状及发展趋势论文。BIM产业发展现状及未来发展趋势随着技术、理论的发展、政策的推进,全球工程行业人士普遍认识到BIM技术将

学习

电子信息工程发展现状与未来展望论文

阅读(61)

本文为您介绍电子信息工程发展现状及未来展望,内容包括电子信息工程的未来发展趋势文献,电子信息工程对未来的规划论文,电子信息工程技术论文题目大全。电子信息工程发展现状与未来展望论文随着经济的发展、社会的进步,我国网络信息技术

学习

广告设计突出特征的方法

阅读(80)

本文为您介绍广告设计的主要特征,内容包括广告设计与制作的主要特征,广告设计中的独特形式,广告设计的艺术特征有哪些。广告设计突出特征的方法突出特征是对物象本身与众不同的特征鲜明地表现及强调,并将这些特征置于画面的主要视觉部位

学习

空调制热使用方法

阅读(59)

本文为您介绍空调制热使用方法,内容包括空调制热使用方法说明,空调制热怎么使用的,空调制热的正确使用方法。空调制热使用方法导语:空调是一个能制冷又能制热的电器,夏天的时候我们会用到空调的制冷能力,通过空调来散热、降低室内温度;冬天

学习

正确的跳绳方法

阅读(82)

本文为您介绍正确的跳绳方法,内容包括正确的跳绳方法和技巧,正确的跳绳方法孩子,正确的跳绳方法减肥。正确的跳绳方法相信大家在日常生活中很多人都喜欢跳绳,那么你知道跳绳应该怎么跳才正确,下面是为大家收集整理的正确的跳绳方法,希望对

学习

正确退烧的方法

阅读(73)

本文为您介绍正确退烧的方法,内容包括正确退烧的方法有,正确的退烧方法和技巧,正确的退烧方法。正确退烧的方法在我们感冒的时候偶尔会出现发烧的状况,其实发烧并不是疾病,而是一种症状。以下是整理的正确退烧的方法,希望对大家有所帮助。

学习

吸烟的正确方法

阅读(72)

本文为您介绍吸烟最佳的方式,内容包括吸烟的基本常识,吸烟的最佳方式,吸烟的三种方式。吸烟的正确方法吸烟的方式正确,能够降低吸烟对身体的伤害,下面是精心整理的吸烟的正确方法,仅供参考,大家一起来看看吧。一、吸烟前要先补充足够水分吸

学习

正确的恋爱方法

阅读(80)

本文为您介绍正确的恋爱方法,内容包括正确恋爱流程,正确的恋爱方式,正确的恋爱开始方法。正确的恋爱方法欢迎阅读正确的恋爱方法,下面这些内容,男女都需做到。方法一:诚实以对诚实交往是恋人们最基本的守则,不管自己的学历程度高低,也不管自