期望描述了随机变量的平均情况,衡量了随机变量 $X$ 的均值,它是概率分布的泛函。离散型随机变量 $X$ 的期望如下:
$$ \mathbb{E}[X]=\sum{i=1}^{\infty} x{i} p_{i} $$
若右侧级数不收敛,则期望不存在。连续性随机变量 $X$ 的期望如下:
$$ \mathbb{E}[X]=\int_{-\infty}^{\infty} x p(x) d x $$
若右侧极限不收敛,则期望不存在。
常数的期望就是常数本身,对常数 $C$ 有:
$$ \mathbb{E}[C X]=C \mathbb{E}[X] $$
对两个随机变量 $X,Y$,存在:
$$ \mathbb{E}[X+Y]=\mathbb{E}[X]+\mathbb{E}[Y] $$
该结论可以推广到任意有限个随机变量之和的情况。对两个相互独立的随机变量,有:
$$ \mathbb{E}[X Y]=\mathbb{E}[X] \mathbb{E}[Y] $$
该结论可以推广到任意有限个相互独立的随机变量之积的情况。这里以离散型随机变量为例,设二元随机变量 $X,Y$ 的联合分布 $P\left(X=x{i}, Y=y{j}\right)$ 已知,则 $P\left(X=x{i}, Y=y{j}\right)=P\left(X=x{i}\right) \cdot P\left(Y=y{j}\right), \quad(i=1,2, \cdots, m ; j=1,2, \cdots, n)$:
$$ \begin{aligned} E(X Y) &=\sum{i=1}^{m} \sum{j=1}^{n} x{i} y{j} P\left(X=x{i}, Y=y{j}\right)=\sum{i=1}^{m} \sum{j=1}^{n} x{i} y{j} P\left(X=x{i}\right) P\left(Y=y{j}\right) \ &=\sum{i=1}^{m} x{i} P\left(X=x{i}\right) \sum{j=1}^{n} y{j} P\left(Y=y{j}\right)=E(X) E(Y) \end{aligned} $$
对于随机变量 $X$ ,设 $Y=g(X)$ 也为随机变量,$g(\cdot)$ 是连续函数。
若 $X$ 为离散型随机变量,且 $Y$ 的期望存在,则:
$$ \mathbb{E}[Y]=\mathbb{E}[g(X)]=\sum{i=1}^{\infty} g\left(x{i}\right) p_{i} $$
也记作:
$$ \mathbb{E}{X \sim P(X)}[g(X)]=\sum{x} g(x) p(x) $$
同样,若 $X$ 为连续型随机变量,且 $Y$ 的期望存在,则:
$$ \mathbb{E}[Y]=\mathbb{E}[g(X)]=\int_{-\infty}^{\infty} g(x) p(x) d x $$
也记作:
$$ \mathbb{E}_{X \sim P(X)}[g(X)]=\int g(x) p(x) d x $$
该定理的意义在于:当求 $\mathbb{E}(Y)$ 时,不必计算出 $Y$ 的分布,只需要利用 $X$ 的分布即可。该定理可以推广至两个或两个以上随机变量的情况,对于随机变量 $X, Y$,假设 $Z=g(X, Y)$ 也是随机变量,$g(\cdot)$ 是连续函数,则有:
$$ \mathbb{E}[Z]=\mathbb{E}[g(X, Y)]=\int{-\infty}^{\infty} \int{-\infty}^{\infty} g(x, y) p(x, y) d x d y $$
也记作:
$$ \mathbb{E}_{X, Y \sim P(X, Y)}\left[g(X, Y) \int g(x, y) p(x, y) d x d y\right. $$
对随机变量 $X$,若 $\mathbb{E}\left[(X-\mathbb{E}[X])^{2}\right]$ 存在,则称它为 $X$ 的方差,记作 $\operatorname{Var}[X]$。$X$ 的标准差为方差的开平方,即:
$$ \begin{aligned} \operatorname{Var}[X] &=\mathbb{E}\left[(X-\mathbb{E}[X])^{2}\right] \ \sigma &=\sqrt{\operatorname{Var}[X]} \end{aligned} $$
方差度量了随机变量 $X$ 与期望值偏离的程度,衡量了 $X$ 取值分散程度的一个尺度。由于绝对值 $|X-\mathbb{E}[X]|$ 带有绝对值,不方便运算,因此采用平方来计算。又因为 $|X-\mathbb{E}[X]|^{2}$ 是一个随机变量,因此对它取期望,即得 $X$ 与期望值偏离的均值。
根据定义可知:
$$ \begin{array}{c}{\operatorname{Var}[X]=\mathbb{E}\left[(X-\mathbb{E}[X])^{2}\right]=\mathbb{E}\left[X^{2}\right]-(\mathbb{E}[X])^{2}} \ {\operatorname{Var}[f(X)]=\mathbb{E}\left[(f(X)-\mathbb{E}[f(X)])^{2}\right]}\end{array} $$
常数的方差恒为 0,且 $\operatorname{Var}[X]=0$ 的充要条件是 $X$ 以概率 1 取常数。对常数 $C$,存在 $\operatorname{Var}[C X]=C^{2} \operatorname{Var}[X]$。对两个随机变量 $X,Y$,存在有:
$$ \operatorname{Var}[X+Y]=\operatorname{Var}[X]+\operatorname{Var}[Y]+2 \mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])] $$
当 $X$ 和 $Y$ 相互独立时,有:
$$ \operatorname{Var}[X+Y]=\operatorname{Var}[X]+\operatorname{Var}[Y] $$
证明如下:
$$ \begin{aligned} \operatorname{Var}(X+Y) &=E\left[(X+Y)^{2}\right]-E(X+Y)^{2} \ &=E\left(X^{2}+2 X Y+Y^{2}\right)-\left[E(X)^{2}+2 E(X) E(Y)+E(Y)^{2}\right] \ &=E\left(X^{2}\right)-E(X)^{2}+E\left(Y^{2}\right)-E(Y)^{2}+2 E(X Y)-2 E(X) E(Y) \ &=E\left(X^{2}\right)-E(X)^{2}+E\left(Y^{2}\right)-E(Y)^{2}=\operatorname{Var}(X)+\operatorname{Var}(Y) \end{aligned} $$
这可以推广至任意有限多个相互独立的随机变量之和的情况。若 $X{1}, X{2}, \cdots, X_{n}$ 相互独立,且都存在方差,则:
$$ \operatorname{Var}\left(X{1}+X{2}+\cdots+X{m}\right)=\sum{k=1}^{n} \operatorname{Var}\left(X_{k}\right) $$
对于一个期望为 $\mu$,方差为 $\sigma^{2}, \sigma \neq 0$ 的随机变量 $X$,随机变量 $X^{}=\frac{X-\mu}{\sigma}$ 的数学期望为 0,方差为 1,则称 $X^{}$ 为 $X$ 的标准化变量。
对于二维随机变量 $(X, Y)$,可以讨论描述 $X$ 与 $Y$ 之间相互关系的数字特征。定义 $\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])]$ 为随机变量 $X$ 和 $Y$ 的协方差,记作:
$$ \operatorname{Cov}[X, Y]=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])] $$
在有协方差定义的情况下,我们可以将前文方差的定义修改为:
$$ \begin{array}{c}{\operatorname{Cov}[X, Y]=\operatorname{Cov}[Y, X]} \ {\operatorname{Cov}[X, X]=\operatorname{Var}[X]} \ {\operatorname{Var}[X+Y]=\operatorname{Var}[X]+\operatorname{Var}[Y]+2 \operatorname{Cov}[X, Y]}\end{array} $$
$$ \begin{array}{l}{\circ \operatorname{Cov}[a X, b Y]=a b \operatorname{Cov}[X, Y]} \ {\circ \operatorname{Cov}\left[X{1}+X{2}, Y\right]=\operatorname{Cov}\left[X{1}, Y\right]+\operatorname{Cov}\left[X{2}, Y\right]} \ {\circ \operatorname{Cov}[f(X), g(Y)]=\mathbb{E}[(f(X)-\mathbb{E}[f(X)])(g(Y)-\mathbb{E}[g(Y)])]} \ {\circ \rho[f(X), g(Y)]=\frac{\operatorname{Covlf}(X), g(Y) ]}{\sqrt{\operatorname{Var}[f(X)] \sqrt{\operatorname{Var}[g(Y)]}}}}\end{array} $$
协方差的绝对值越大,说明两个随机变量都远离它们的均值。协方差如果为正,则说明两个随机变量同时趋向于取较大的值或者同时趋向于取较小的值;如果为负,则说明一个随变量趋向于取较大的值,另一个随机变量趋向于取较小的值。
两个随机变量的独立性可以导出协方差为零。但是两个随机变量的协方差为零无法导出独立性。因为独立性也包括:没有非线性关系。有可能两个随机变量是非独立的,但是协方差为零。如:假设随机变量 $X \sim U[-1,1]$,定义随机变量 $S$ 的概率分布函数为:
$$ P(S=1)=\frac{1}{2} P(S=-1)=\frac{1}{2} $$
定义随机变量 $Y=SX$,则随机变量 $X,Y$ 是非独立的,但是有:$\operatorname{Cov}[X, Y]=0$。
随机变量 $X$ 与 $Y$ 的相关系数,定义为:
$$ \rho_{X Y}=\frac{\operatorname{Cov}[X, Y]}{\sqrt{\operatorname{Var}[X]} \sqrt{\operatorname{Var}[Y]}} $$
它可以看做协方差的归一化。其物理意义在于,如果考虑以随机变量 $X$ 的线性函数 $a+bX$ 来近似表示 $Y$,以均方误差:
$$ e=\mathbb{E}\left[(Y-(a+b X))^{2}\right]=\mathbb{E}\left[Y^{2}\right]+b^{2} \mathbb{E}\left[X^{2}\right]+a^{2}-2 b \mathbb{E}[X Y]+2 a b \mathbb{E}[X]-2 a \mathbb{E}[Y] $$
来衡量以 $a+bX$ 近似表达 $Y$ 的好坏程度,$e$ 越小则表示近似程度越高。为求得最好的近似,则对 $a,b$ 分别取偏导数,得到:
$$ \begin{array}{c}{a{0}=\mathbb{E}[Y]-b{0} \mathbb{E}[X]=\mathbb{E}[Y]-\mathbb{E}[X] \frac{\operatorname{Cov}[X, Y]}{\operatorname{Var}[X]}} \ {b{0}=\frac{\operatorname{Cov}[X, Y]}{\operatorname{Var}[X]}} \ {\min (e)=\mathbb{E}\left[\left(Y-\left(a{0}+b{0} X\right)\right)^{2}\right]=\left(1-\rho{X Y}^{2}\right) \operatorname{Var}[Y]}\end{array} $$
因此可以得到如下定理:
当 $\left|\rho{X Y}\right|$ 较大时,$e$ 较小,意味着随机变量 $X$ 和 $Y$ 联系较为紧密,于是 $\left|\rho{X Y}\right|$ 是一个表征 $X, Y$ 之间线性关系紧密程度的量。
当 $\rho_{X Y}=0$ 时,称 $X,Y$ 不相关,不相关是就线性关系来讲的,而相互独立是一般关系而言的;相互独立一定不相关,不相关则未必独立。
假设 $X$ 和 $Y$ 是随机变量:
假如 $\mathbb{E}\left[X^{k}\right], k=1,2, \cdots$ 存在,则称它为 $X$ 的 $k$ 阶原点矩,简称 $k$ 阶矩。
假如 $\mathbb{E}\left[(X-\mathbb{E}[X])^{k}\right], k=2,3, \cdots$ 存在,则称它为 $X$ 的 $k$ 阶中心矩。
假如 $\mathbb{E}\left[X^{k} Y^{l}\right], k, l=1,2, \cdots$ 存在,则称它为 $X$ 和 $Y$ 的 $k+l$ 阶混合矩。
假如 $\mathbb{E}\left[(X-\mathbb{E}[X])^{k}(Y-\mathbb{E}[Y])^{l}\right], k, l=1,2, \cdots$ 存在,则称它为 $X$ 和 $Y$ 的 $k+l$ 阶混合中心矩。
因此期望是一阶原点矩,方差是二阶中心矩,协方差是二阶混合中心矩。而协方差矩阵,就定义为二维随机变量 $X_1,X_2$ 的四个二阶中心矩:
$$ \begin{array}{c}{c{11}=\mathbb{E}\left[\left(X{1}-\mathbb{E}\left[X{1}\right]\right)^{2}\right]} \ {c{12}=\mathbb{E}\left[\left(X{1}-\mathbb{E}\left[X{1}\right]\right)\left(X{2}-\mathbb{E}\left[X{2}\right]\right)\right]} \ {c{21}=\mathbb{E}\left[\left(X{2}-\mathbb{E}\left[X{2}\right]\right)\left(X{1}-\mathbb{E}\left[X{1}\right]\right)\right]} \ {c{22}=\mathbb{E}\left[\left(X{2}-\mathbb{E}\left[X{2}\right]\right)^{2}\right]}\end{array} $$
称矩阵:
$$ \mathbf{C}=\left[\begin{array}{ll}{c{11}} & {c{12}} \ {c{21}} & {c{22}}\end{array}\right] $$
为随机变量 $X_1,X2$ 的协方差矩阵。设 $n$ 维随机变量 $\left(X{1}, X{2}, \cdots, X{n}\right)$ 的二阶混合中心矩 $c{i j}=\operatorname{Cov}\left[X{i}, X{j}\right]=\mathbb{E}\left[\left(X{i}-\mathbb{E}\left[X{i}\right]\right)\left(X{j}-\mathbb{E}\left[X_{j}\right]\right)\right]$ 存在,则矩阵:
$$ \mathbf{C}=\left[\begin{array}{cccc}{c{11}} & {c{12}} & {\cdots} & {c{1 n}} \ {c{21}} & {c{22}} & {\cdots} & {c{2 n}} \ {\vdots} & {\vdots} & {\ddots} & {\vdots} \ {c{n 1}} & {c{n 2}} & {\cdots} & {c_{n n}}\end{array}\right] $$
为 $\left(X{1}, X{2}, \cdots, X{n}\right)$ 的协方差矩阵。鉴于 $c{i j}=c_{j i}, i \neq j, i, j=1,2, \cdots, n$,协方差矩阵是对称阵。通常 $n$ 维随机变量的分布是不知道的,或者太复杂以致数学上不容易处理,因此实际中协方差矩阵非常重要。