最小二乘法,又叫做最小平方法,外文名叫做ordinary least squares,是一种在误差估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用的数学工具。提出时间1806年,提出者是马里·勒让德。
示例
数据点(红色)、使用最小二乘法求得的最佳解(蓝色)、误差(绿色)。
某次实验得到了四个数据点 ( x , y ) {⁄displaystyle (x,y)} : ( 1 , 6 ) {⁄displaystyle (1,6)} 、 ( 2 , 5 ) {⁄displaystyle (2,5)} 、 ( 3 , 7 ) {⁄displaystyle (3,7)} 、 ( 4 , 10 ) {⁄displaystyle (4,10)} (右图中红色的点)。我们希望找出一条和这四个点最匹配的直线 y = β β --> 1 + β β --> 2 x {⁄displaystyle y=⁄beta _{1}+⁄beta _{2}x} ,即找出在某种“最佳情况”下能够大致符合如下超定线性方程组的 β β --> 1 {⁄displaystyle ⁄beta _{1}} 和 β β --> 2 {⁄displaystyle ⁄beta _{2}} :
最小二乘法采用的手段是尽量使得等号两边的方差最小,也就是找出这个函数的最小值:
最小值可以通过对 S ( β β --> 1 , β β --> 2 ) {⁄displaystyle S(⁄beta _{1},⁄beta _{2})} 分别求 β β --> 1 {⁄displaystyle ⁄beta _{1}} 和 β β --> 2 {⁄displaystyle ⁄beta _{2}} 的偏导数,然后使它们等于零得到。
如此就得到了一个只有两个未知数的方程组,很容易就可以解出:
也就是说直线 y = 3.5 + 1.4 x {⁄displaystyle y=3.5+1.4x} 是最佳的。
简介
历史背景
最小二乘法发展于天文学和大地测量学领域,科学家和数学家尝试为大航海探索时期的海洋航行挑战提供解决方案。准确描述天体的行为是船舰在大海洋上航行的关键,水手不能再依靠陆上目标导航作航行。
这个方法是在十八世纪期间一些进步的集大成:
不同观测值的组合是真实值的最佳估计;多次观测会减少误差而不是增加,也许在1722年由Roger Cotes首先阐明。
在相同条件下采取的不同观察结果,与只尝试记录一次最精确的观察结果是对立的。这个方法被称为平均值方法。托马斯·马耶尔(Tobias Mayer)在1750年研究月球的天平动时,特别使用这种方法,而拉普拉斯(Pierre-Simon Laplace)在1788年他的工作成果中以此解释木星和土星的运动差异。
在不同条件下进行的不同观测值组合。该方法被称为最小绝对偏差法,出现在Roger Joseph Boscovich在1757年他对地球形体的著名作品,而拉普拉斯在1799年也表示了同样的问题。
评定对误差达到最小的解决方案标准,拉普拉斯指明了误差的概率密度的数学形式,并定义了误差最小化的估计方法。为此,拉普拉斯使用了一双边对称的指数分布,现在称为拉普拉斯分布作为误差分布的模型,并将绝对偏差之和作为估计误差。他认为这是他最简单的假设,他期待得出算术平均值而成为最佳的估计。可相反地,他的估计是后验中位数。
最小二乘法
高斯
1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥伯斯根据高斯计算出来的轨道重新发现了谷神星。
高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中,而法国科学家勒让德于1806年独立发现“最小二乘法”,但因不为世人所知而默默无闻。两人曾为谁最早创立最小二乘法原理发生争执。
1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,见高斯-马尔可夫定理。
方法
人们对由某一变量 t {⁄displaystyle t} 或多个变量 t 1 {⁄displaystyle t_{1}} …… t n {⁄displaystyle t_{n}} 构成的相关变量 y {⁄displaystyle y} 感兴趣。如弹簧的形变与所用的力相关,一个企业的盈利与其营业额,投资收益和原始资本有关。为了得到这些变量同 y {⁄displaystyle y} 之间的关系,便用不相关变量去构建 y {⁄displaystyle y} ,使用如下函数模型
q {⁄displaystyle q} 个独立变量或 p {⁄displaystyle p} 个系数去拟合。
通常人们将一个可能的、对不相关变量t的构成都无困难的函数类型称作函数模型(如抛物线函数或指数函数)。参数b是为了使所选择的函数模型同观测值y相匹配。(如在测量弹簧形变时,必须将所用的力与弹簧的膨胀系数联系起来)。其目标是合适地选择参数,使函数模型最好的拟合观测值。一般情况下,观测值远多于所选择的参数。
其次的问题是怎样判断不同拟合的质量。高斯和勒让德的方法是,假设测量误差的平均值为0。令每一个测量误差对应一个变量并与其它测量误差不相关(随机无关)。人们假设,在测量误差中绝对不含系统误差,它们应该是纯偶然误差(有固定的变异数),围绕真值波动。除此之外,测量误差符合正态分布,这保证了偏差值在最后的结果y上忽略不计。
确定拟合的标准应该被重视,并小心选择,较大误差的测量值应被赋予较小的权。并建立如下规则:被选择的参数,应该使算出的函数曲线与观测值之差的平方和最小。用函数表示为:
min b → → --> ∑ ∑ --> i = 1 n ( y m − − --> y i ) 2 . {⁄displaystyle ⁄min _{⁄vec {b}}{⁄sum _{i=1}^{n}(y_{m}-y_{i})^{2}}.}
用欧几里得度量表达为:
min b → → --> ∥ ∥ --> y → → --> m ( b → → --> ) − − --> y → → --> ∥ ∥ --> 2 . {⁄displaystyle ⁄min _{⁄vec {b}}⁄|{⁄vec {y}}_{m}({⁄vec {b}})-{⁄vec {y}}⁄|_{2}⁄ .}
最小化问题的精度,依赖于所选择的函数模型。
线性函数模型
典型的一类函数模型是线性函数模型。最简单的线性式是 y = b 0 + b 1 t {⁄displaystyle y=b_{0}+b_{1}t} ,写成矩阵式,为
直接给出该式的参数解:
其中 t ¯ ¯ --> = 1 n ∑ ∑ --> i = 1 n t i {⁄displaystyle {⁄bar {t}}={⁄frac {1}{n}}⁄sum _{i=1}^{n}t_{i}} ,为t值的算术平均值。也可解得如下形式:
简单线性模型 y = b0 + b1t 的例子
随机选定10艘战舰,并分析它们的长度与宽度,寻找它们长度与宽度之间的关系。由下面的描点图可以直观地看出,一艘战舰的长度(t)与宽度(y)基本呈线性关系。散点图如下:
以下图表列出了各战舰的数据,随后步骤是采用最小二乘法确定两变量间的线性关系。
仿照上面给出的例子
t ¯ ¯ --> = ∑ ∑ --> i = 1 n t i n = 1678 10 = 167 . 8 {⁄displaystyle {⁄bar {t}}={⁄frac {⁄sum _{i=1}^{n}t_{i}}{n}}={⁄frac {1678}{10}}=167{.}8} 并得到相应的 y ¯ ¯ --> = 18 . 41 {⁄displaystyle {⁄bar {y}}=18{.}41} .
然后确定b1
可以看出,战舰的长度每变化1m,相对应的宽度便要变化16cm。并由下式得到常数项b0:
在这里随机理论不加阐述。可以看出点的拟合非常好,长度和宽度的相关性大约为96.03%。 利用Matlab得到拟合直线:
一般线性情况
若含有更多不相关模型变量 t 1 , . . . , t q {⁄displaystyle t_{1},...,t_{q}} ,可如组成线性函数的形式
即线性方程组
通常人们将tij记作数据矩阵 A,参数bj记做参数向量b,观测值yi记作Y,则线性方程组又可写成:
上述方程运用最小二乘法导出为线性平方差计算的形式为:
最小二乘法的解
min b ∥ A b − − --> Y ∥ 2 , A ∈ ∈ --> C n × × --> m , Y ∈ ∈ --> C n {⁄displaystyle ⁄min _{b}⁄left⁄|{⁄boldsymbol {Ab}}-{⁄boldsymbol {Y}}⁄right⁄|_{2},{⁄boldsymbol {A}}⁄in ⁄mathbf {C} ^{n⁄times m},{⁄boldsymbol {Y}}⁄in ⁄mathbf {C} ^{n}}
的特解为A的广义逆矩阵与Y的乘积,这同时也是二范数极小的解,其通解为特解加上A的零空间。证明如下:
先将Y拆成A的值域及其正交补两部分
所以 A b − − --> Y 1 ∈ ∈ --> R ( A ) {⁄displaystyle {⁄boldsymbol {Ab}}-{⁄boldsymbol {Y}}_{1}⁄in R⁄left({⁄boldsymbol {A}}⁄right)} ,可得
故当且仅当 b {⁄displaystyle {⁄boldsymbol {b}}} 是 A b = Y 1 = A A † † --> Y {⁄displaystyle {⁄boldsymbol {Ab}}={⁄boldsymbol {Y}}_{1}={⁄boldsymbol {A}}{⁄boldsymbol {A}}^{⁄dagger }{⁄boldsymbol {Y}}} 解时, b {⁄displaystyle {⁄boldsymbol {b}}} 即为最小二乘解,即 b = A † † --> Y = ( A H A ) − − --> 1 A H Y {⁄displaystyle {⁄boldsymbol {b}}={⁄boldsymbol {A}}^{⁄dagger }{⁄boldsymbol {Y}}={⁄left({{{⁄mathbf {A} }^{H}}{⁄mathbf {A} }}⁄right)^{-1}}{{⁄mathbf {A} }^{H}}{⁄mathbf {Y} }} 。
又因为
故 A b = A A † † --> Y {⁄displaystyle {⁄boldsymbol {Ab}}={⁄boldsymbol {A}}{⁄boldsymbol {A}}^{⁄dagger }{⁄boldsymbol {Y}}} 的通解为
因为
所以 A † † --> Y {⁄displaystyle {⁄boldsymbol {A}}^{⁄dagger }{⁄boldsymbol {Y}}} 又是二范数极小的最小二乘解。
参考文献
书籍
Wang Guorong; Wei Yimin; Qiao SanZheng. Equation Solving Generalized Inverses. Generalized Inverses:Theory and Computations. Beijing: Science Press. 2004: 第6页. ISBN 7-03-012437-5 (英语).
在影视剧《铁齿铜牙纪晓岚》中,纪晓岚与和珅被塑造成一对欢喜冤家:纪晓岚以铁齿铜牙拆穿和珅的贪腐,详情
乾隆六十年(1795年),85岁的乾隆将皇位禅让于嘉庆,自己退居太上皇。三年后,乾隆以89岁高龄详情
公元225年,诸葛亮平定南中叛乱后,向蜀汉后主刘禅上表:永昌郡功曹吕凯、府丞王伉,执忠绝域,十有详情
公元219年,刘备在汉中之战中击败曹操,夺取战略要地汉中,同年秋自称汉中王。这一称号的选择,绝非详情
北宋文坛曾有这样一位人物:他出身官宦世家,与兄长同榜进士却因皇权干预错失状元;他主修史书十七载,详情
在隋唐交替的烽火岁月中,史大奈的名字如同一颗流星划过天际——这位出身西突厥阿史那氏的特勤,从草原详情
在东晋风云变幻的历史舞台上,谢安以其超凡的智慧、从容的气度与卓越的才能,书写了一段传奇人生。他既详情
在中国科举史上,潮州府海阳县东莆都仙都村(今潮州市潮安区金石镇仙都村)走出了一位惊才绝艳的状元—详情
公元前203年,齐国临淄城内,一口沸腾的大鼎被架在街头。齐王田广的怒吼声中,刘邦麾下著名谋士郦食详情
在东汉末年的历史长卷中,"夏恽"作为十常侍集团的核心成员,其姓名读音常因&q详情
东汉王朝(公元25年—220年)作为中国历史上承前启后的大一统王朝,其官制体系以三公九卿为核心,详情
公元1645年,湖北九宫山的一场伏击战中,农民起义领袖李自成死于地方武装之手。这位曾推翻明王朝、详情
公元619年,唐高祖李渊面对盘踞河西的李轨政权陷入两难:若派大军征讨,需跨越险要地形与吐谷浑、突详情
1630年9月22日,北京城西市刑场,明末抗清名将袁崇焕被凌迟处死。这位曾以宁远大捷宁锦大捷威震详情
公元254年,曹魏嘉平六年,一场改变曹魏政权走向的政变在洛阳城悄然酝酿。这场被称为嘉平之变的政变详情
公元705年的神龙政变,将80岁的宰相张柬之推上历史风口浪尖。这位由狄仁杰举荐、历经武周与李唐两详情
在中国古代帝王谱系中,北魏孝庄帝元子攸(507—531年)是一个极具传奇色彩的悲剧人物。他不仅以详情
在中国历史的长河中,娘子军一词承载着非凡的意义,它不仅是一支女性武装力量的象征,更是女性在乱世中详情
在中国书法史上,欧阳父子是两个熠熠生辉的名字,他们以卓越的书法成就和深厚的家学渊源,共同书写了一详情
在中国古代军事思想史上,《孙子兵法》与《孙膑兵法》犹如双子星般璀璨,但前者始终占据着兵学圣典的至详情
燕云十六州,这片涵盖今北京、天津北部及河北、山西东部地区的战略要地,自五代十国时期被割让给契丹后详情
陈夷行(?—844年),字周道,颍川(今河南许昌)人,唐朝中期宰相,牛李党争中李党的核心人物。他详情
公元222年,三国时期规模最大的战役之一——夷陵之战爆发。蜀汉昭烈帝刘备亲率五万大军东征,意图为详情
在华夏文明起源的宏大叙事中,阪泉之战与涿鹿之战犹如两枚关键拼图,共同构建起炎黄部落联盟的崛起图景详情
公元前273年,战国中期的中原大地战火纷飞。在韩国华阳(今河南新郑北)的战场上,一场改变战国格局详情
在中国历史的长河中,三国鼎立的局面持续了数十年,魏、蜀、吴三国相互征伐,战火纷飞。而最终打破这一详情
1521年,明朝广东海道副使汪鋐指挥的屯门海战,是中国与西方殖民者的首次军事对抗。这场战役虽以明详情
在云南西部高黎贡山南麓的崇山峻岭间,一座名为磨盘山的险峻山岭静默矗立。这座海拔2600余米的山峰详情
公元215年的合肥城下,一场被后世神话为"八百破十万"的战役,实则是三国时期详情
在探讨中国古代军事史时,"淝水之战"作为以少胜多的经典战例广为人知,但&qu详情
《左传》作为一部叙事详实的史书,以其高超的叙事技巧和深刻的历史洞察力,为后人展现了春秋时期诸多重详情
在历史的长河中,北方草原上的游牧民族乌桓,曾是汉朝边疆的重要力量。然而,随着东汉末年的局势动荡,详情
在中国古代历史的长河中,秦朝的统一战争无疑是一段波澜壮阔的篇章。然而,在这场规模空前的征服之战中详情
在科学的世界里,有一种细胞被赋予了不死的名号,这就是海拉细胞。这种细胞源自于一位名叫亨丽埃塔·拉详情
在中国古代的神话传说中,姜子牙和鬼谷子都是极具智慧和能力的传奇人物。他们分别代表了道家和兵家的智详情
一、背景介绍 秦始皇陵兵马俑是中国历史上最著名的考古发现之一,被誉为世界第八大奇迹。然而,这些详情
标题:秦始皇10大诡异事件 一、陵墓之谜 1. 兵马俑:秦始皇陵的兵马俑被认为是世界上最大的详情
虞姬,中国历史上著名的女性人物,她与项羽的爱情故事被后人传颂不衰。而刘邦,作为项羽的对手和汉朝的详情
胤祥没有遭到雍正的清洗,但他在年轻时去世,这一点对于一些历史学家来说存在着一些争议。 一些人质详情
满清十二帝内没有溥仪的画像,只有照片,是什么原因呢? 在满清十二帝中,没有任何一位皇帝画过溥仪详情
溥仪的文化水平不仅仅是初中程度,尽管他的户口本上写着初中,但这并不是他真实的文化水平。 作为大详情
古人常说不孝有三,无后为大,而在皇权社会,皇帝不具备生育能力,可不仅仅是不孝的问题,毕竟古代历来详情
息肌丸是什么东西?真的有这种药存在吗?息肌丸是一种有催情作用的美容香精,塞到肚脐眼里融化到体内,详情
赵飞燕服用息肌丸保持美貌,息肌丸是什么东西呢?感兴趣的读者可以跟着趣历史小编一起往下看。 据说详情
古印度文明,作为人类文明的摇篮之一,承载着丰富的文化遗产和深邃的哲学思想。其影响力不仅深远地渗透到了详情
彼岸花,又称曼珠沙华,是一种充满神秘色彩的花卉。这种花通常盛开在秋季,其鲜红的花瓣和细长的花蕊形详情
在现代社会,我们依赖于各种产品来完成日常生活的各个方面。从智能手机到笔记本电脑,从家用电器到汽车详情
在我们的日常生活中,我们常常会忽视地球上的一些奇妙之处。然而,当我们从太空中俯瞰地球时,这些事物详情
在生物多样性的广阔领域中,每一次新的物种发现都像是打开了一扇通向未知世界的窗户。最近,科学家们在详情
在这个世界上,有些物品的价值超越了我们的想象。它们不仅仅是物质的存在,更是艺术、历史和文化的象征详情
在世界的每一个角落,无论是热血沸腾的球场,还是电视机前的粉丝,都被一位女性棒球选手的魅力所吸引。详情
位于中国云南的九龙河瀑布群,被誉为中国的尼亚加拉,是中国最大的瀑布群。这里的瀑布高低错落,气势磅详情
北仑河口,位于中国浙江省宁波市北仑区,是中国大陆海岸线的最南点。这里既有美丽的海滨风光,也有丰富详情
鸭绿江口,位于中国东北地区,是中国大陆海岸线的最北点。这里既有壮丽的山川河流,也有悠久的历史文化详情
湖北省,位于中国中部,素有千湖之省的美誉。全省湖泊众多,水域面积占总面积的四分之一。今天,就让我详情
在武侠文化的语境中,实力往往与武功修为、江湖地位、智谋韬略紧密相连,而当我们将虚构角色殷野王与现详情
在唐代诗坛的苍茫雪原中,刘长卿以五言绝句《逢雪宿芙蓉山主人》凿出一眼温热的清泉。这首诞生于贬谪途详情
在《红楼梦》这部文学巨著中,妙玉无疑是一个极具神秘色彩和独特魅力的人物。她以超凡脱俗的才情、孤傲详情
在中国悠久的历史长河中,涌现出了无数才华横溢的诗人,他们用优美的诗句抒发了对人生、爱情、自然和社详情
在中国古代文学的璀璨星河中,《诗经》犹如一颗耀眼的明珠,汇聚了无数文人墨客的才情与智慧。而在《诗详情
王勃,唐代初期的杰出诗人,以其才华横溢和短暂而传奇的一生著称。在他的众多诗作中,《晚留凤州》以其详情
《射雕英雄传》作为金庸先生的经典武侠小说,自问世以来便受到了广大读者的喜爱。在这部小说中,丘处机详情
在中国古代文化的历史长河中,《世说新语》以其独特的魅力记录了一个个鲜明的人物与故事。这部作品不仅详情
在道教传奇与神话故事中,赤脚大仙这一角色的形象虽短暂却极为鲜明,他在《西游记》中的出场更是令人印详情
在浩瀚的中华文化宝库中,斯斯文文这个词汇常被人们所提及。但是,它究竟是不是一个成语?它背后蕴含的详情
你知道时时刻刻这个成语吗?它不仅仅是描述时间的连续,更是一种对生活态度的诠释!那么,这个成语究竟详情
在影视剧《铁齿铜牙纪晓岚》中,纪晓岚与和珅被塑造成一对欢喜冤家:纪晓岚以铁齿铜牙拆穿和珅的贪腐,和珅则以权谋手段反制纪晓岚,两人斗智斗勇的情节成为观众津津乐道的经典。然而,真实历史中的这对乾隆朝重臣,既非针锋相对的死对头,也非频繁争吵的政