为什么最后那个“异常点”能把直线扯倒？

因为误差是以平方计算的！一个距离直线很远的孤立点，它的平方残差面积大得惊人。为了抑制这一块爆炸般的总面积，算法只得选择妥协，将整条回归线拉长扭歪来弥补。

提示：在图纸上点击以生成异常点

\hat{y} = 1.00x + 0.00

拟合平方和误差 (SSR)

18.0

系统运算极小值

9.8

数据分布与最小二乘法

不再死记硬背枯燥的统计公式，亲自动手调整截距和斜率，让“误差正方形”在眼前自然扩张与收缩。

分享到

穿过一组成对散点的直线，它尽最大可能地捕捉这组数据的整体趋势，而不是生硬地连结每一个点。

每个数据点的真实坐标与回归线在此处的预测坐标之间的垂直距离。正残差代表在线上方，负残差代表在线下方。

通过寻找一条直线，使得所有数据点的残差“平方”之和 (SSR) 达到最小的方法。在这里，你可以直接看到这些平方化身的几何面积。

面对一张散落着实验数据的图纸，我们总希望能画出一条直线来总结规律。很多学生最初都只凭肉眼去比划，认为“穿过的点越多越好”，或是“上边和下边的点一样多就好”。

然而统计学要求绝对的精确标准。为了避免正负误差相互抵消，数学家计算了每一点到直线的垂直距离（也就是残差），并将它平方。换作直观的几何图形看，就是每个数据点向外生长出了一个正方形。

所谓的“最小二乘（Least Squares）”，其实就是要找一条神仙直线，让这些所有正方形的面积总和达到全世界最小。你可以亲自切换到第二个模式，拉扯着那条红色拟合线，看着面积“怪兽”们在你的失误下疯狂膨胀，并在正确的位置集体收缩坍塌。