支持向量机(2)
简单来说,支持向量机通过寻找结构化风险最小化来提升学习算法的泛化能力,从而减小经验风险和置信区间。这使得在样本量较小的情况下也能获得有效的统计规律。通俗的理解是,它是一种二分类模型,其基本模型是特征空间上间隔最大的线性分类器,这意味着支持向量机的学习策略是最大化间隔,最终可以转化为解决一个凸二次规划问题。
假设我们有一个训练数据集。假定我们已找到样本空间中的分割平面,其划分公式可以用以下线性方程表示。在处理线性可分数据集的分类时,这样的直线可能有很多条。
对于线性可分的正负样本点,位于虚线外的样本点是正样本,而位于虚线另一侧的样本点则是负样本。正好位于两条虚线上方的样本点称为“支持向量”,这也是支持向量机名称的来源。
对于线性可分数据,几何间隔最大的分离超平面是唯一的,这里的间隔称为“硬间隔”,而间隔最大化也称为硬间隔最大化。最大间隔分离超平面的目标是最大化超平面与训练数据集的几何间隔,同时满足约束条件,即每个训练样本点到超平面的几何间隔至少为一定阈值。这可以转化为以下约束最优化问题。
实际上,目标值的具体取值不会影响最优化问题的解。根据数学对偶性原则,我们可以得到支持向量机的最优解的问题。
我们通常使用拉格朗日乘子法来求解最优化问题,将原始问题转化为对偶问题,从而求解原问题。通过拉格朗日乘子法,我们可以得到对偶问题,具体而言,我们为每条约束添加拉格朗日乘子。
经过偏导并代入原式后,可以消去部分变量,得到公式的对偶问题。通过求得最优解之后,我们可以得出分离超平面,进而得出分类决策函数。
当数据集变成严格意义上的线性不可分,通常因为存在噪声数据,支持向量机会把最大间隔称为最大“软间隔”,即允许噪声数据的误分类。
为了解决线性不可分的情况,可以引入松弛变量,使得函数间隔加上松弛变量,同时为每个松弛变量设置惩罚参数。目标将被修改为最小化的目标函数。
通过拉格朗日乘子法,我们可以将其转换为对偶问题进行求解,并得出最优解,进而得出分离超平面及分类决策函数。
对于线性不可分的数据集,我们需要通过方法如“核技巧”将数据转换为线性可分,核函数则是实现这一过程的函数。
核技巧的关键在于将低维数据映射到高维空间,使得数据集变得线性可分。简单来说,如果我们能够将复杂的低维数据映射到高维,数据就可能变得可分。
核函数的实现大大减少了计算复杂度,使得应用支持向量机于非线性分类问题变得可行。引入核函数后,对偶问题的形式可以简化,从而继续求得最优解和分类决策函数。
主要参数说明:
《潇宝的随笔》
(此篇文章,是我家潇宝的随笔,有关她幼年及少年的片段记录)
一、关于吃
我发现我对于第一次接触有些食物的记忆是很清晰的,好像有一个点,在那个点之后我才开始吃那些食物。
1.蘑菇
我讨厌蘑菇,但由于去同学徐乐苒家时她妈妈做了蘑菇汤,我最终勉强喝下了。之后我开始尝试并最终喜欢上了蘑菇。
2.胡萝卜
我非常讨厌胡萝卜,直到有一天我妈做的手抓饭中加入了胡萝卜,意外地好吃,从此我觉得胡萝卜还有救。
3.奇奇怪怪馅的面包
我一直认为面包应该简单,带馅的面包让我十分反感。但在好朋友的影响下,我开始尝试,并爱上了豆沙馅的面包。
二、关于饿
还记得小时候的一次经历,我跟随母亲在吉普车上忙了一整天,直到深夜饿得胃痛才明白什么是真正的饥饿。
三、我好像一直都没有写下过这个故事。
我当年看过的第一部小说是《兽王》,这让我对玄幻文学产生了浓厚的兴趣。某天我在学校的操场上与一个同样爱看这系列小说的女孩相遇,我们成了好友。
四、我的小学很神奇。
我记得很多老师。包括严格但有趣的数学老师、温柔的英语老师,以及有趣的美术老师,他们在我的成长中留下了深刻的印象。
五、关于脸盲
不脸盲的人永远不知道脸盲的世界是什么样的。小时候我常因认错人而被困扰,在很多场合都感到迷茫。
美的集团董事长是谁?
姓名:何享健
性别:男
出生日期:1942年7月
籍贯:广东省
工作单位:美的企业集团
职务:CEO
他在1968年创办了北街办塑料生产组,随后进入家电行业并推动了美的集团的股份制改造和上市。如今美的集团已成为一个跨国公司,产品涵盖多个领域,业绩斐然。
新津是否有一个老君山,有什么特色
老君山位于四川省新津县,是一处以美丽山色和道教文化著称的旅游胜地。传
支持向量机(2)
支持向量机通过最小化结构风险来提高学习机的泛化能力,以减少经验风险和置信范围。这使得在较少的统计样本情况下也能获得良好的统计规律。简单来说,支持向量机是一种二类分类模型,其基本模型是特征空间中间隔最大的线性分类器,即它的学习策略是间隔最大化,这可以转化为一个凸二次规划的问题求解(引自刘知行)。
假设我们给定一个训练数据集。假设已经找到了样本空间中的分割平面,其划分可以用以下线性方程来表示: 为了分类线性可分的数据集,我们知道这样的直线有很多条。
对于线性可分的正负样本点而言,位于虚线外的点为正样本,而位于虚线内的点为负样本。正好位于两条虚线上方的样本点则被称为“支持向量”,这也是支持向量机名称的由来。
在线性可分的数据情况下,几何间隔最大的分离超平面是唯一的,这里的“间隔”被称为“硬间隔”,而间隔的最大化称为硬间隔最大化。上述图示就是硬间隔的一个典型例子。
对于最大间隔的分离超平面,我们希望最大化超平面关于训练数据集的几何间隔,满足的约束条件是:每个训练样本点到超平面的几何间隔至少为。这样,我们可以将问题转化为约束最优化问题:
实际上, 的取值对最优化问题的解没有影响,根据数学对偶性原则,我们可以得到针对硬间隔的支持向量机最优化问题:
通常我们会使用拉格朗日乘子法求解最优化问题,将原始问题转化为对偶问题,通过解对偶问题来获得原始问题的解。对于公式(3),应用拉格朗日乘子法可得其对偶问题。这意味着对每个约束添加拉格朗日乘子 ,可得该问题的拉格朗日函数:
通过将公式(4)分别对 和 求偏导数为 0 并代入原式,可以消去 和 ,最终得到公式(3)的对偶问题:
在求得最优解 后,我们可以根据此求得最优解 和 ,从而得到分离超平面:
使用符号函数计算正负类之间的分类决策函数为:
当数据集变成严格意义上的线性不可分时,空心点和实心点中会混入一些不同类别的“噪声”数据,造成线性不可分的主要原因往往是噪声数据。此时,支持向量机的最大间隔称为最大“软间隔”,这意味着可以容许零星的噪声数据被误分类。
当出现样本点不严格线性可分的情况时,某些样本点就无法满足函数间隔的约束条件。为了解决这个问题,可以为每个样本点引入松弛变量 ,使得函数间隔加上松弛变量后,约束条件转化为:
同时,对每个松弛变量支付代价 ,目标函数由原来的变为:
这里, 称为惩罚参数,根据实际情况决定其值。值越大,误分类的惩罚越重,最优化问题为:
这就是软间隔支持向量机的表示过程。同样的,我们可以使用拉格朗日乘子法将其转换为对偶问题进行求解:
求得最优解 后,根据此可以求得最优解 和 ,从而得到分离超平面:
使用符号函数求得正负类之间的分类决策函数为:
对于线性不可分的数据集,我们依然可以通过支持向量机完成分类。不过,需要一些方法将线性不可分的数据转换为线性可分的数据后,才能完成分类。
我们称这种数据转换的方法为“核技巧”,实现数据转换的函数称为“核函数”。
核技巧的关键在于空间映射,即将低维数据映射到高维空间,使得数据集在高维空间中能够线性可分。
例如,假设在二维空间中有蓝色和红色两类数据点,这显然不能用一条直线将它们分开。如果应用核技巧将其映射到三维空间,就变成了可以被平面线性分开的状态。
对于“映射”过程,可以这样理解:分布在一个平面上的小球不能线性分开,但拍手将它们带到三维空间中,就是一个直观的映射过程。
映射过程也是通过核函数转换的过程。需要说明的是,虽然将数据点从低维空间转换到高维空间的方法有很多,但通常会涉及到庞大的计算量。为此,数学家们发现了几种特殊的函数,极大地降低了计算复杂度,这些函数被称为“核函数”。因此,核技巧是一种特殊的“映射”技巧,而核函数是核技巧的实现方法。
此外,核函数还能够通过函数组合得到。例如,若 和 是核函数,对任意正数 进行线性组合可得:
我们可以直接引入核函数 ,而无需显式定义高维特征空间和映射函数,从而利用解线性分类问题的方法来求解非线性分类问题的支持向量机。引入核函数后,对偶问题变为:
同样地,求得最优解 后,基于此我们可以推导出最优解 和 ,从而得到分离超平面:
使用符号函数得出的正负类之间分类决策函数为:
《潇宝的随笔》
(本文是我家潇宝的随笔,记录她幼年和少年的片段)
一、关于吃
我发现我对第一次接触一些食物的记忆非常清晰,从那之后我才开始吃这些食物。
1.蘑菇
我曾讨厌吃蘑菇。小学同学徐乐苒家是厦门人,视菌类为珍馐。第一次去她家的时候,她妈妈做了蘑菇汤,我虽不想吃,但出于礼节强迫自己喝下。不过她们家的口味有些奇怪,鸡蛋羹里加海藻丝很咸,徐乐苒却说淡。之后,我习惯性开始吃蘑菇,后来甚至喜欢上它。
2.胡萝卜
我以前超级讨厌胡萝卜。但有一次,我妈做了手抓饭,糯米和红烧鸡腿加胡萝卜,非常好吃,最后连胡萝卜也吃了。从此我觉得自己对胡萝卜是有救的。
3.奇奇怪怪馅的面包
一直以来,我觉得面包应该简简单单,带馅的面包简直玷污了面包的名字,因而我超级讨厌带馅的面包。初中时,曹炜天坐我左边,某天他在旁边啃面包,竟然让我不禁尝了一口,之后我每天的早餐多了一份豆沙馅的面包,但黄桃馅依旧是异类。
二、关于饿
我小时候的认知非常简单,2008年或2009年,我和妈妈在吉普车上四处奔波。从早晨吃完早饭开始,就没再吃东西。直到晚上十一点多,我妈才办完事找到地方吃饭。久饿后的食物我已经没有印象,但我记得那次真切的饥饿感,那是我第一次感受到饿。
那时的我只知道肚子痛,对于吃东西这件事,感觉自己被抛弃,也算童真。那时候,我告诉自己,要记住这次经历的日子。
三、我好像一直没写过这个故事。
什么是缘分?我小学五年级时读的第一本书叫《兽王》。从那时起,我便沉迷于玄幻世界。
那天午饭后,我想找个空桌子看书,在南区操场新摆的大桌椅下,看到一位也在看小说的同学,于是坐到她对面。我们愉快地交流,快要上课时互换信息,才发现她也是五二班的我的同学。我们因一本小说相识,这或许就是所说的缘分。
四、我的小学很神奇。
老师们都是我印象深刻的人,按时间顺序来说:王老师是严肃的英语老师,一年级班主任。后来教我们一位胖胖、和蔼的英语老师,也对我印象深刻。吴老师,是让我记忆犹新的体育老师,带了我们六年级。还有其他老师,各有不同的印记。
水星班的同学也十分有趣,关系密切;后转到木星班时又有了新的朋友。虽然时间过得快,彼此间的情谊却一直扎根心中。
关于脸盲,我时常会把人认错。我一度对人脸失去辨识能力,分不清谁是谁。这种情况让我遇到许多尴尬,也让我情感逐渐加深。
美的集团董事长是谁?
姓名:何享健 性别:男
出生日期:1942年7月 籍贯:广东省
工作单位:美的企业集团 职务:CEO
1942年出生于广东顺德。1968年他与23位居民集资5000元,创办“北街办塑料生产组”。后转入家电行业,建立美的集团并在1993年上市。何享健曾获得很多荣誉称号,现在美的集团产品遍布海内外,具有较高品牌价值并积极参与慈善事业,捐款超过8000万元。
新津是否有一个老君山,有什么特色
老君山位于四川省新津县城,山高617米,以俊秀的山色和悠久的历史而著称。传说老子在此隐居,被视为道教信徒的拜谒圣地。老君庙兴建于唐代,经过多次修建,现已形成道观格局,每年在老君圣诞期,前来祭祀的人络绎不绝。
老君山的登顶可俯瞰壮丽的山川景观,令人心旷神怡。山内有许多道教文化景观,是难得的旅游胜地。
爸爸姓刘,妈妈姓王。男孩生于2010年6月24日,农历5月13日出生。想起三个字的名字
刘家富(寓意创业富家)
刘安国(寓意不出国, 安邦定国)
我老公姓刘请帮我们起个名字
刘俊轩 刘新治 刘棋柏 刘文海 刘俊瀚 刘风临 刘文华 刘智材 刘诚石 刘风轻
山边小老君庙是阴山吗
不是
老君山被称为教始祖老子李耳的隐居之地,是北方道教信徒的圣地。它以雄伟、奇特的自然景观以及两千多年的道教历史而闻名。
老君山是伏牛山主峰,名胜风景如画,有多处道教文化遗址,尤其是老君庙,不容错过。