最小二乘法,又叫做最小平方法,外文名叫做ordinary least squares,是一种在误差估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用的数学工具。提出时间1806年,提出者是马里·勒让德。
示例
数据点(红色)、使用最小二乘法求得的最佳解(蓝色)、误差(绿色)。
某次实验得到了四个数据点 ( x , y ) {\displaystyle (x,y)} : ( 1 , 6 ) {\displaystyle (1,6)} 、 ( 2 , 5 ) {\displaystyle (2,5)} 、 ( 3 , 7 ) {\displaystyle (3,7)} 、 ( 4 , 10 ) {\displaystyle (4,10)} (右图中红色的点)。我们希望找出一条和这四个点最匹配的直线 y = β β --> 1 + β β --> 2 x {\displaystyle y=\beta _{1}+\beta _{2}x} ,即找出在某种“最佳情况”下能够大致符合如下超定线性方程组的 β β --> 1 {\displaystyle \beta _{1}} 和 β β --> 2 {\displaystyle \beta _{2}} :
最小二乘法采用的手段是尽量使得等号两边的方差最小,也就是找出这个函数的最小值:
最小值可以通过对 S ( β β --> 1 , β β --> 2 ) {\displaystyle S(\beta _{1},\beta _{2})} 分别求 β β --> 1 {\displaystyle \beta _{1}} 和 β β --> 2 {\displaystyle \beta _{2}} 的偏导数,然后使它们等于零得到。
如此就得到了一个只有两个未知数的方程组,很容易就可以解出:
也就是说直线 y = 3.5 + 1.4 x {\displaystyle y=3.5+1.4x} 是最佳的。
简介
历史背景
最小二乘法发展于天文学和大地测量学领域,科学家和数学家尝试为大航海探索时期的海洋航行挑战提供解决方案。准确描述天体的行为是船舰在大海洋上航行的关键,水手不能再依靠陆上目标导航作航行。
这个方法是在十八世纪期间一些进步的集大成:
不同观测值的组合是真实值的最佳估计;多次观测会减少误差而不是增加,也许在1722年由Roger Cotes首先阐明。
在相同条件下采取的不同观察结果,与只尝试记录一次最精确的观察结果是对立的。这个方法被称为平均值方法。托马斯·马耶尔(Tobias Mayer)在1750年研究月球的天平动时,特别使用这种方法,而拉普拉斯(Pierre-Simon Laplace)在1788年他的工作成果中以此解释木星和土星的运动差异。
在不同条件下进行的不同观测值组合。该方法被称为最小绝对偏差法,出现在Roger Joseph Boscovich在1757年他对地球形体的著名作品,而拉普拉斯在1799年也表示了同样的问题。
评定对误差达到最小的解决方案标准,拉普拉斯指明了误差的概率密度的数学形式,并定义了误差最小化的估计方法。为此,拉普拉斯使用了一双边对称的指数分布,现在称为拉普拉斯分布作为误差分布的模型,并将绝对偏差之和作为估计误差。他认为这是他最简单的假设,他期待得出算术平均值而成为最佳的估计。可相反地,他的估计是后验中位数。
最小二乘法
高斯
1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥伯斯根据高斯计算出来的轨道重新发现了谷神星。
高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中,而法国科学家勒让德于1806年独立发现“最小二乘法”,但因不为世人所知而默默无闻。两人曾为谁最早创立最小二乘法原理发生争执。
1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,见高斯-马尔可夫定理。
方法
人们对由某一变量 t {\displaystyle t} 或多个变量 t 1 {\displaystyle t_{1}} …… t n {\displaystyle t_{n}} 构成的相关变量 y {\displaystyle y} 感兴趣。如弹簧的形变与所用的力相关,一个企业的盈利与其营业额,投资收益和原始资本有关。为了得到这些变量同 y {\displaystyle y} 之间的关系,便用不相关变量去构建 y {\displaystyle y} ,使用如下函数模型
q {\displaystyle q} 个独立变量或 p {\displaystyle p} 个系数去拟合。
通常人们将一个可能的、对不相关变量t的构成都无困难的函数类型称作函数模型(如抛物线函数或指数函数)。参数b是为了使所选择的函数模型同观测值y相匹配。(如在测量弹簧形变时,必须将所用的力与弹簧的膨胀系数联系起来)。其目标是合适地选择参数,使函数模型最好的拟合观测值。一般情况下,观测值远多于所选择的参数。
其次的问题是怎样判断不同拟合的质量。高斯和勒让德的方法是,假设测量误差的平均值为0。令每一个测量误差对应一个变量并与其它测量误差不相关(随机无关)。人们假设,在测量误差中绝对不含系统误差,它们应该是纯偶然误差(有固定的变异数),围绕真值波动。除此之外,测量误差符合正态分布,这保证了偏差值在最后的结果y上忽略不计。
确定拟合的标准应该被重视,并小心选择,较大误差的测量值应被赋予较小的权。并建立如下规则:被选择的参数,应该使算出的函数曲线与观测值之差的平方和最小。用函数表示为:
min b → → --> ∑ ∑ --> i = 1 n ( y m − − --> y i ) 2 . {\displaystyle \min _{ec {b}}{\sum _{i=1}^{n}(y_{m}-y_{i})^{2}}.}
用欧几里得度量表达为:
min b → → --> ∥ ∥ --> y → → --> m ( b → → --> ) − − --> y → → --> ∥ ∥ --> 2 . {\displaystyle \min _{ec {b}}\|{ec {y}}_{m}({ec {b}})-{ec {y}}\|_{2}\ .}
最小化问题的精度,依赖于所选择的函数模型。
线性函数模型
典型的一类函数模型是线性函数模型。最简单的线性式是 y = b 0 + b 1 t {\displaystyle y=b_{0}+b_{1}t} ,写成矩阵式,为
直接给出该式的参数解:
其中 t ¯ ¯ --> = 1 n ∑ ∑ --> i = 1 n t i {\displaystyle {\bar {t}}={rac {1}{n}}\sum _{i=1}^{n}t_{i}} ,为t值的算术平均值。也可解得如下形式:
简单线性模型 y = b0 + b1t 的例子
随机选定10艘战舰,并分析它们的长度与宽度,寻找它们长度与宽度之间的关系。由下面的描点图可以直观地看出,一艘战舰的长度(t)与宽度(y)基本呈线性关系。散点图如下:
以下图表列出了各战舰的数据,随后步骤是采用最小二乘法确定两变量间的线性关系。
仿照上面给出的例子
t ¯ ¯ --> = ∑ ∑ --> i = 1 n t i n = 1678 10 = 167 . 8 {\displaystyle {\bar {t}}={rac {\sum _{i=1}^{n}t_{i}}{n}}={rac {1678}{10}}=167{.}8} 并得到相应的 y ¯ ¯ --> = 18 . 41 {\displaystyle {\bar {y}}=18{.}41} .
然后确定b1
可以看出,战舰的长度每变化1m,相对应的宽度便要变化16cm。并由下式得到常数项b0:
在这里随机理论不加阐述。可以看出点的拟合非常好,长度和宽度的相关性大约为96.03%。 利用Matlab得到拟合直线:
一般线性情况
若含有更多不相关模型变量 t 1 , . . . , t q {\displaystyle t_{1},...,t_{q}} ,可如组成线性函数的形式
即线性方程组
通常人们将tij记作数据矩阵 A,参数bj记做参数向量b,观测值yi记作Y,则线性方程组又可写成:
上述方程运用最小二乘法导出为线性平方差计算的形式为:
最小二乘法的解
min b ∥ A b − − --> Y ∥ 2 , A ∈ ∈ --> C n × × --> m , Y ∈ ∈ --> C n {\displaystyle \min _{b}\left\|{\boldsymbol {Ab}}-{\boldsymbol {Y}} ight\|_{2},{\boldsymbol {A}}\in \mathbf {C} ^{n imes m},{\boldsymbol {Y}}\in \mathbf {C} ^{n}}
的特解为A的广义逆矩阵与Y的乘积,这同时也是二范数极小的解,其通解为特解加上A的零空间。证明如下:
先将Y拆成A的值域及其正交补两部分
所以 A b − − --> Y 1 ∈ ∈ --> R ( A ) {\displaystyle {\boldsymbol {Ab}}-{\boldsymbol {Y}}_{1}\in R\left({\boldsymbol {A}} ight)} ,可得
故当且仅当 b {\displaystyle {\boldsymbol {b}}} 是 A b = Y 1 = A A † † --> Y {\displaystyle {\boldsymbol {Ab}}={\boldsymbol {Y}}_{1}={\boldsymbol {A}}{\boldsymbol {A}}^{\dagger }{\boldsymbol {Y}}} 解时, b {\displaystyle {\boldsymbol {b}}} 即为最小二乘解,即 b = A † † --> Y = ( A H A ) − − --> 1 A H Y {\displaystyle {\boldsymbol {b}}={\boldsymbol {A}}^{\dagger }{\boldsymbol {Y}}={\left({{{\mathbf {A} }^{H}}{\mathbf {A} }} ight)^{-1}}{{\mathbf {A} }^{H}}{\mathbf {Y} }} 。
又因为
故 A b = A A † † --> Y {\displaystyle {\boldsymbol {Ab}}={\boldsymbol {A}}{\boldsymbol {A}}^{\dagger }{\boldsymbol {Y}}} 的通解为
因为
所以 A † † --> Y {\displaystyle {\boldsymbol {A}}^{\dagger }{\boldsymbol {Y}}} 又是二范数极小的最小二乘解。
参考文献
书籍
Wang Guorong; Wei Yimin; Qiao SanZheng. Equation Solving Generalized Inverses. Generalized Inverses:Theory and Computations. Beijing: Science Press. 2004: 第6页. ISBN 7-03-012437-5 (英语).
在中国历史上,杨贵妃作为唐代著名的美女之一,其传奇的一生总是让人们津津乐道。她的爱情故事尤为引人详情
在历史记载中,曹丕对待曹操的妻妾的方式引起了诸多争议和非议。曹操逝世后,根据史料记载,曹丕并没有详情
在中国古代历史和文学中,孙尚香这个名字往往与英雄、战争和爱情紧密相连。她是东汉末年东吴君主孙权的详情
在三国历史的浩瀚长河中,诸多英雄人物以其非凡的武艺和智谋成为了后人传颂的对象。其中,马岱和马超这详情
在宋朝的历史长河中,宋仁宗作为一位显赫的帝王,他的家庭生活同样备受瞩目。尤其是公主们的婚嫁及封号详情
在唐朝历史上,唐玄宗李隆基是一个极具影响力的皇帝。他在位期间,创造了辉煌的开元盛世,但晚年却发生详情
在三国历史的长河中,曹魏作为曹操建立的政权,经历了多位皇帝的统治。其中,曹髦之后的继承者是曹操的详情
在中国古代历史长河中,两位杰出的谋士以他们的睿智和远见卓识成为后人津津乐道的焦点。他们就是东汉末详情
战国四大名将,他们是白起、王翦、廉颇和李牧。这四位将领以其卓越的军事才能和在战场上的杰出表现,被详情
曹冲,这位三国时期的聪明神童,他的早逝一直是历史上的一个遗憾。在历史的长河中,曹冲虽然生命短暂,详情
在中国历史的长河中,刘娥以其非凡的身份和传奇的一生留下了深刻的印记。她是宋朝的一位皇后,更确切地详情
秦朝,中国历史上首个统一的多民族中央集权国家,其崛起与覆灭都伴随着剧烈的社会动荡。秦始皇统一六国详情
在中国艺术史上,绘画作品以其独特的风格和深远的文化内涵吸引着世人的目光。其中,纸本中国画作为国画详情
范蠡,春秋末期的著名政治家、军事家和商人,以其卓越的智慧和远见卓识而闻名于世。他在中国历史上留下详情
袁崇焕被凌迟处死,而他的平反主要是由于**后人对其忠诚和功绩的认可**。 袁崇焕是明朝末期的著详情
在中国历史上,秦国的统一大业是一个极为重要的转折点。在秦始皇的铁蹄下,六个独立的国家被陆续灭亡,详情
在中国的传统节日中,端午节以其独特的历史背景和丰富的文化内涵而著称。这个节日与古代伟大的爱国诗人详情
在中国悠久的历史长河中,姓氏文化承载着丰富的家族历史和文化传承。薛姓,作为华夏古老的姓氏之一,其详情
在世界文学史上,列夫·尼古拉耶维奇·托尔斯泰以其深刻的思想、独特的艺术风格和对现实的批判性描绘而详情
在中国古代历史中,三国时期以其英雄辈出和战争频繁而闻名。其中,张飞作为刘备的义弟和蜀汉的重要将领详情
在中国古代科技史上,指南车作为一种能够指示方向的神秘装置,其发明者的身份一直是学术界争论的焦点。详情
当我们在夜晚打开开关,瞬间驱散黑暗的那一刻,很少有人会思考这背后的伟大发明。电灯,作为人类历史上详情
在历史长河中,有许多战役以其出人意料的结果而闻名于世。其中,以少胜多的战役尤为人们所津津乐道,它详情
在历史的长河中,有一场战争以惨烈著称,却在最绝望的时刻上演了逆转的奇迹——那就是发生在16世纪末详情
在中国古代历史上,长平之战是一场影响深远的军事冲突,它不仅改变了战国时期的国家力量对比,也对后世详情
在历史长河中,蒙古铁骑和八旗都是以勇猛善战而著称的军队。然而,谁才是更厉害的战争之王呢?这是一个详情
野狼坡之战,是唐朝历史上一场具有重要意义的战役。这场战役不仅对唐朝的边疆安全产生了深远的影响,而详情
在历史的长河中,战争往往是国家之间力量对比、文化碰撞和利益争夺的直接体现。公元前14世纪至公元前详情
在中国的历史长河中,有一场战役以其激烈的战斗和深远的影响而闻名于世,那就是明朝末年的车厢峡之战。详情
在中国的历史长河中,有许多重要的战役都以其独特的战术和深远的影响而被人们铭记。其中,车厢峡之战就详情
好水川之战是一场发生在1038年北宋与辽国之间的战役。这场战役发生在今天的四川省南部,因为当时的详情
浅水原之战是中国历史上著名的战役之一,发生在公元755年。这场战争是唐朝与安史之乱叛军之间的一场详情
雅克萨之战是中俄两国之间的一场重要战役,发生在1858年。在这场战役中,清朝军队和俄罗斯帝国军队详情
在中国古代的神话传说中,姜子牙和鬼谷子都是极具智慧和能力的传奇人物。他们分别代表了道家和兵家的智详情
一、背景介绍 秦始皇陵兵马俑是中国历史上最著名的考古发现之一,被誉为世界第八大奇迹。然而,这些详情
标题:秦始皇10大诡异事件 一、陵墓之谜 1. 兵马俑:秦始皇陵的兵马俑被认为是世界上最大的详情
虞姬,中国历史上著名的女性人物,她与项羽的爱情故事被后人传颂不衰。而刘邦,作为项羽的对手和汉朝的详情
胤祥没有遭到雍正的清洗,但他在年轻时去世,这一点对于一些历史学家来说存在着一些争议。 一些人质详情
满清十二帝内没有溥仪的画像,只有照片,是什么原因呢? 在满清十二帝中,没有任何一位皇帝画过溥仪详情
溥仪的文化水平不仅仅是初中程度,尽管他的户口本上写着初中,但这并不是他真实的文化水平。 作为大详情
古人常说不孝有三,无后为大,而在皇权社会,皇帝不具备生育能力,可不仅仅是不孝的问题,毕竟古代历来详情
息肌丸是什么东西?真的有这种药存在吗?息肌丸是一种有催情作用的美容香精,塞到肚脐眼里融化到体内,详情
赵飞燕服用息肌丸保持美貌,息肌丸是什么东西呢?感兴趣的读者可以跟着趣历史小编一起往下看。 据说详情
历史上绵亿是荣亲王永琪与侧福晋索绰罗氏所生育的王府中的第五子,但其他的孩子都早早过世了,所以绵亿详情
彼岸花,又称曼珠沙华,是一种充满神秘色彩的花卉。这种花通常盛开在秋季,其鲜红的花瓣和细长的花蕊形详情
在现代社会,我们依赖于各种产品来完成日常生活的各个方面。从智能手机到笔记本电脑,从家用电器到汽车详情
在我们的日常生活中,我们常常会忽视地球上的一些奇妙之处。然而,当我们从太空中俯瞰地球时,这些事物详情
在生物多样性的广阔领域中,每一次新的物种发现都像是打开了一扇通向未知世界的窗户。最近,科学家们在详情
在这个世界上,有些物品的价值超越了我们的想象。它们不仅仅是物质的存在,更是艺术、历史和文化的象征详情
在世界的每一个角落,无论是热血沸腾的球场,还是电视机前的粉丝,都被一位女性棒球选手的魅力所吸引。详情
位于中国云南的九龙河瀑布群,被誉为中国的尼亚加拉,是中国最大的瀑布群。这里的瀑布高低错落,气势磅详情
北仑河口,位于中国浙江省宁波市北仑区,是中国大陆海岸线的最南点。这里既有美丽的海滨风光,也有丰富详情
鸭绿江口,位于中国东北地区,是中国大陆海岸线的最北点。这里既有壮丽的山川河流,也有悠久的历史文化详情
湖北省,位于中国中部,素有千湖之省的美誉。全省湖泊众多,水域面积占总面积的四分之一。今天,就让我详情
京九铁路,这条连接北京、上海、香港、澳门等9个省市的铁路干线,被誉为中国跨省市最多的铁路。今天,详情
在中国的神话传说中,众多的神仙人物构建了一个庞大而复杂的天界体系。其中,东王公这一角色常常出现在详情
《红楼梦》作为中国古典文学的巅峰之作,其中充满了丰富的象征和暗示。许多看似琐碎的细节都蕴含着深远详情
在中国古典名著《水浒传》中,孙二娘是一个独特的人物。她是梁山泊唯一的女英雄,同时也是一个开黑店的详情
在中国古代的神话传说中,有许多奇特而神秘的生物。其中,最为引人瞩目的莫过于《山海经》中的神兽烛龙详情
在道教神话中,真武大帝是一位备受崇敬的神灵,他不仅是北方的守护神,更是掌管北天门、管理三界妖魔的详情
成语兔死狗烹是一个充满故事性的成语,它的意思在于表达一种过河拆桥、忘恩负义的行为。具体来说,这个详情
《全唐诗》是在清代康熙年间编撰的。 《全唐诗》的编纂工作始于清代,由彭定求、杨中讷、沈三曾、潘详情
中国的传统俗语承载着丰富的文化遗产和历史智慧,其中男不拜月,女不拜灶是一句流传甚广的老话。这句俗详情
在中国的古代神话传说中,有四只凶猛无比的神兽,它们被称为四凶。这四只神兽分别是饕餮、混沌、穷奇和详情
在中国古代的神话与民间传说中,判官是地府中的司法官员,负责审判阴间亡魂的善恶与罪责。传说中的判官详情
《资治通鉴》是中国历史上一部极具影响力的编年体史书,它诞生于宋朝,由著名的历史学家司马光主编。这详情
在中国历史上,杨贵妃作为唐代著名的美女之一,其传奇的一生总是让人们津津乐道。她的爱情故事尤为引人注目,尤其是与两位王者的情感纠葛。杨贵妃的丈夫究竟是唐玄宗李隆基还是寿王李瑁?这段历史背后的真相和情感细节,至今仍是人们探讨的焦点。 杨贵妃原名杨玉