核心概念
最佳拟合线 (Line of Best Fit)
穿过一组成对散点的直线,它尽最大可能地捕捉这组数据的整体趋势,而不是生硬地连结每一个点。
残差 (Residuals)
每个数据点的真实坐标与回归线在此处的预测坐标之间的垂直距离。正残差代表在线上方,负残差代表在线下方。
最小二乘法 (Least Squares)
通过寻找一条直线,使得所有数据点的残差“平方”之和 (SSR) 达到最小的方法。在这里,你可以直接看到这些平方化身的几何面积。
为什么叫“最小二乘法”?
面对一张散落着实验数据的图纸,我们总希望能画出一条直线来总结规律。很多学生最初都只凭肉眼去比划,认为“穿过的点越多越好”,或是“上边和下边的点一样多就好”。
然而统计学要求绝对的精确标准。为了避免正负误差相互抵消,数学家计算了每一点到直线的垂直距离(也就是残差),并将它平方。换作直观的几何图形看,就是每个数据点向外生长出了一个正方形。
所谓的“最小二乘(Least Squares)”,其实就是要找一条神仙直线,让这些所有正方形的面积总和达到全世界最小。你可以亲自切换到第二个模式,拉扯着那条红色拟合线,看着面积“怪兽”们在你的失误下疯狂膨胀,并在正确的位置集体收缩坍塌。