农村居民人均可支配收入的分析

doi:10.12677/SA.2020.93044

期刊菜单

农村居民人均可支配收入的分析
Analysis of Per Capita Disposable Income of Rural Residents

DOI: 10.12677/SA.2020.93044, PDF, HTML, XML, 下载: 566 浏览: 3,779
作者: 赵冉：曲阜师范大学，山东曲阜
关键词: 线性回归；主成分回归；岭回归；ARMA(p‚q)模型；Linear Regression； Principal Component Regression； Ridge Regression；ARMA(p‚q) Model

摘要: 通过分析，找到影响农村居民人均可支配收入的因素，利用逐步回归法建立线性模型，通过回归系数的显著性检验，可以找到影响农村居民人均可支配收入的显著因素。对于自变量之间的多重共线性，利用主成分回归或者岭回归消除自变量之间的共线性，建立岭回归的回归方程y=49.504+0.432x₁+0.142x₂-0.549x₃。绘制农村居民人均可支配收入与时间的序列图，发现农村居民人均可支配收入呈上升趋势，根据差分后的数据建立ARMA(p,q)模型，将趋势提取出来。

Abstract: Through the analysis, the factors affecting the per capita disposable income of rural residents are found, and a linear model is established by using the stepwise regression method. Through the significance test of the regression coefficient, the significant factors affecting the per capita disposable income of rural residents can be found. For multicollinearity among independent variables, principal component regression or ridge regression is used to eliminate the collinearity among independent variables, and the regression equation of ridge regression is established y=49.504+0.432x₁+0.142x₂-0.549x₃. Draw a sequence diagram of the per capita disposable income and time of rural residents, and find that the per capita disposable income of rural residents is on the rise. Build a model ARMA(p,q) based on the data after the difference and extract the trend.

文章引用：赵冉. 农村居民人均可支配收入的分析[J]. 统计学与应用, 2020, 9(3): 412-421. https://doi.org/10.12677/SA.2020.93044

1. 引言

通过分析找到影响农村居民人均可支配收入的显著性因素并建立线性回归模型，检查自变量之间的多重共线性并消除，在使用主成分分析消除多重共线性建立模型时，农业各税回归系数的符号不符合实际，尝试使用岭回归建立模型后，回归系数的正负号得到解决，多重共线性也已消除；农村居民人均可支配收入随时间的变化呈上升趋势，可建立模型，将趋势项提取出来。

2. 材料与方法

2.1. 线性回归模型的介绍 [1]

根据搜集的数据，建立线性回归模型，进行回归方程以及回归系数的检验，分析影响农村居民人均可支配收入的因素有哪些；若模型存在共线性，则使用主成分分析方法消除共线性进一步建立模型。根据时间发生的顺序将农村居民人均可支配收入在多个时刻的数值记录下来，以得到一时间序列，建立时间序列的模型，分析农民收入的变化趋势。

2.1.1. 线性回归模型的确立

设随机变量y与一般变量 $x_{1}, x_{2}, \dots, x_{p}$ 的线性回归模型为

$y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + \dots + β_{p} x_{p} + ε$

式中， $β_{0}, β_{1}, \dots, β_{p}$ 是 $p + 1$ 个未知参数， $β_{0}$ 称为回归常数， $β_{1}, \dots, β_{p}$ 称为回归系数。y称为解释变量(因变量)， $x_{1}, x_{2}, \dots, x_{p}$ 是p个可以精确测量并控制的一般变量，称为解释变量(自变量)。

$ε$ 是随机误差，并且假定

${\begin{array}{l} E (ε) = 0 \\ var (ε) = σ^{2} \end{array}$

2.1.2. 回归参数的普通最小二乘估计

即寻找参数 $β_{0}, β_{1}, \dots, β_{p}$ 的估计值，使离差平方和 $Q (β_{0}, β_{1}, \dots, β_{p}) = \sum_{i = 1}^{n} {(y_{i} - β_{0} - β_{1} x_{i 1} - \dots - β_{p} x_{i p})}^{2}$ 达到极小。

当 ${(X^{'} X)}^{- 1}$ 存在时，即得回归参数的最小二乘估计为：

$\hat{β} = {(X^{'} X)}^{- 1} X^{'} y$

2.1.3. 回归方程、回归系数的检验

对多元线性回归方程的显著性检验就是要看自变量 $x_{1}, x_{2}, \dots, x_{p}$ 从整体上对随机变量y是否有明显的影响。

原假设 $H_{0} : β_{1} = β_{2} = \dots = β_{p} = 0$

构造F检验统计量如下：

当原假设成立时，F服从自由度为 $(p, n - p - 1)$ 的F分布。

当 $F > F_{α} (p, n - p - 1)$ 时，拒绝原假设 $H_{0}$ ，否则认为在显著性水平 $α$ 下，y与有显著的线性关系，即回归方程是显著的。

检验 $x_{j}$ 是否显著等价于检验

$H_{0 j} : β_{j} = 0, j = 1, 2, \dots, p$

如果接受原假设，则 $x_{j}$ 不显著；如果拒绝原假设，则 $x_{j}$ 是显著的。

据此可以构造t统计量

$t_{j} = \frac{\hat{β}}{\sqrt{c_{j j}} \hat{σ}}$

式中

$\hat{σ} = \sqrt{\frac{1}{n - p - 1} \sum_{i = 1}^{n} e_{i}^{2}}$

2.1.4. 共线性诊断

① 方差扩大因子法

$c_{j j} = \frac{1}{1 - R_{j}^{2}}$ 作为方差扩大因子的定义，证明见参考文献 [2]，当 $V I F_{j} \geq 10$ 时，说明自变量 $x_{j}$ 与其余自变量之间有严重的多重共线性。(注意：有些教材认为 $V I F_{j} \geq 4$ 存在多重共线性。详见参考文献 [3])。

② 条件数

记 $X^{'} X$ 的最大特征根为 $λ_{m}$ ，称

$k_{i} = \sqrt{\frac{λ_{m}}{λ_{i}}}, i = 0, 1, \dots, p$

为特征根 $λ_{i}$ 的条件数。

通常认为时，设计矩阵X没有多重共线性； $10 \leq k < 100$ 时，存在较强的多重共线性； $k \geq 100$ 时，存在严重的多重共线性。

2.1.5. 主成分的定义与导出 [4]

设X是p维随机变量，并假设 $μ = E (X)$ ， $\sum = var (X)$ 。考虑如下线性变换

${\begin{cases} Z_{1} = a_{1}^{T} X \\ Z_{2} = a_{2}^{T} X \\ ⋮ \\ Z_{p} = a_{p}^{T} X \end{cases}$

易见

$var (Z_{i}) = a_{i}^{T} \sum a_{i}, i = 1, 2, \dots, p$

$cov (Z_{i}, Z_{j}) = a_{i}^{T} \sum a_{j}, i, j = 1, 2, \dots, p, i \neq j$

我们希望 $Z_{1}$ 的方差达到最大，即是约束优化问题

$\max a^{T} \sum a$

$s .t . a^{T} a = 1$

的解。因此， $a_{1}$ 是 $\sum$ 最大特征值(不妨设为 $λ_{1}$ )的特征向量。此时，称 $Z_{1} = a_{1}^{T} X$ 为第一主成分。类似地，希望 $Z_{2}$ 的方差达到最大，并且要求 $cov (Z_{1}, Z_{2}) = a_{1}^{T} \sum a_{2} = 0$ 。由于 $a_{1}$ 是 $λ_{1}$ 的特征向量，所以，选择的 $a_{2}$ 应与 $a_{1}$ 正交。类似于前面的推导， $a_{2}$ 是 $\sum$ 第二大特征值(不妨设为 $λ_{2}$ )的特征向量。称 $Z_{2} = a_{2}^{T} X$ 为第二主成分。

一般情况下对于协方差阵 $\sum$ ，存在正交阵Q，将它化为对角阵，即

$Q^{T} \sum Q = Λ = d i a g (λ_{1}, λ_{2}, \dots, λ_{p})$

且 $λ_{1} \geq λ_{2} \geq \dots \geq λ_{p}$ ，则矩阵Q的第i列就对应于 $a_{i}$ ，相应的 $Z_{i}$ 为第i主成分。

2.2. ARMA模型

设 ${ε_{t} : t = 0 \pm 1, \pm 2, \dots} ~ W N (0, σ_{ε}^{2})$ ，则序列 ${X_{t} : t = 0 \pm 1, \pm 2, \dots}$ 满足的p阶常系数线性差分方程

$X_{t} = ϕ_{0} + ϕ_{1} X_{t - 1} + \dots + ϕ_{p} X_{t - p} + ε_{t} - θ_{1} ε_{t - 1} - \dots - θ_{q} ε_{t - q}, t = 0 \pm 1, \pm 2, \dots$

为p阶自回归q阶移动平均模型，记为 $ARMA (p, q)$ 模型。其中 $ϕ_{p}, θ_{q} \neq 0$ ，关于 $λ$ 的代数方程 $λ^{p} - ϕ_{1} λ^{p - 1} - \dots - ϕ_{p - 1} λ - ϕ_{p} = 0$ 与 $λ^{q} - θ_{1} λ^{q - 1} - \dots - θ_{q - 1} λ - θ_{p} = 0$ 无公共根。称 $ϕ_{0} = 0$ 的模型为中心化 $ARMA (p, q)$ 模型。

利用延迟算子B可将模型表示为

$Φ (B) X_{t} = ϕ_{0} + Θ (B) ε_{t}, t = 0, \pm 1, \pm 2, \dots$

其中 $Φ (B) = 1 - ϕ_{1} B - ϕ_{2} B^{2} - \dots - ϕ_{p} B^{p}$ 和 $Θ (B) = 1 - θ_{1} B - θ_{2} B^{2} - \dots - θ_{q} B^{q}$ 分别为B的p和q次多项式。

$AR (p)$ 序列的偏自相关系数是p阶截尾的； $MA (q)$ 序列的自相关系数是q阶截尾的。

3. 结果与分析

3.1. 回归方程的建立

根据统计年鉴搜集能够影响农村居民人均可支配收入的因素的数据。其中农村居民人均可支配收入作为因变量，农产品生产价格指数、受灾面积、耕地面积、支农支出、农业各税、农业机械总动力、农用化肥施用量、乡村就业人数、农业产值作为自变量。

3.1.1. 建立回归方程

使用SPSS软件建立回归方程。由于自变量个数较多，我们采用逐步回归法建立线性回归方程，进行回归方程、回归系数的检验以及共线性诊断等。回归方程的检验见图1~3。

若记y为农村居民人均可支配收入， $x_{1}$ 为支农支出， $x_{2}$ 为农业产值， $x_{3}$ 为农业各税，由图3可以建立回归方程

$y = 20.213 + 0.450 x_{1} + 0.146 x_{2} - 0.627 x_{3}$

Figure 1. Summary of each model of stepwise regression method

图1. 逐步回归法的各模型摘要

Figure 2. Analysis of variance of each model by stepwise regression method

图2. 逐步回归法的各模型方差分析

Figure 3. Coefficient value, test and collinearity diagnosis of regression equation

图3. 回归方程的系数取值、检验及共线性诊断

由图1可知：回归方程的 $R^{2} = 0.994$ ，回归方程的p值小于 $α (0.05)$ ，回归方程是显著的；回归系数也都小于 $α$ ，因此回归系数也是显著的，显然使用线性回归方程去拟合模型是较好的。

但上图也可以看到，自变量 $x_{1}, x_{2}, x_{3}$ 之间存在共线性，若能够消除共线性，则模型将会进一步改善。

3.1.2. 主成分分析消除共线性

由图4可知，第一个主成分的累计贡献率以达到99%，另外两个主成分可以舍去，达到降维的目的。

Figure 4. Cumulative contribution rate of variance

图4. 方差的累计贡献率

为获得因变量y与自变量 $x_{1}, x_{2}, x_{3}$ 的回归方程，可以使用spss分两次进行线性回归得到；也可使用R软件编程一步得到。

下面为简化过程，我们利用R软件进行求解。

Table 1. The regression coefficients solved by using R

表1. 利用R求解的回归系数

因此，由表1可知，还原后的主成分回归方程为

$y = 558.468 + 0.203 x_{1} + 0.077 x_{2} + 0.566 x_{3}$

通过分析可以发现，农业各税与农村居民人均可支配收入是负相关的，因此，回归系数应该为负，但由回归方程可知，各自变量对因变量的影响都是正的，这显然与实际不符。

3.1.3. 岭回归

尝试使用岭回归进行回归方程系数的估计。绘制的岭迹图见图5。

Figure 5. Ridge trace

图5. 岭迹图

Figure 6. Estimation of ridge regression coefficient

图6. 岭回归系数估计

由图6可知岭回归的回归系数，建立的回归方程为

$y = 49.504 + 0.432 x_{1} + 0.142 x_{2} - 0.549 x_{3}$

显然，此问题使用岭回归能较好的建立回归方程。

从以上结果可知，影响农村居民人均可支配收入的因素有三个，分别是支农支出、农业产值、农业各税。其中，支农支出、农业产值对农村居民人均可支配收入的影响是正相关的，农业各税对农村居民人均可支配收入的影响是负相关的。

3.2. 农民收入的变化趋势

3.2.1. 描述性时序分析

从图7上来看，农村居民人均可支配收入呈上升趋势，可根据自相关以及偏自相关图确定模型。

Figure 7. Time series of per capita disposable income of rural residents

图7. 农村居民人均可支配收入的时序图

3.2.2. ARMA模型

二阶差分后的时序图(图8)平稳，根据差分后的自相关图以及偏自相关图，可以建立差分后 $AR (1)$ 模型(见图9)。

Figure 8. Sequence diagram after second-order difference

图8. 二阶差分后的时序图

Figure 9. Model parameters in $ARIMA (1, 2, 0)$

图9. $ARIMA (1, 2, 0)$ 的模型参数

因此，可建立方程

$\nabla^{2} X_{t} = 23.204 + 0.130 \nabla^{2} X_{t - 1} + ε_{t}$

根据图10，可以看到模型的拟合效果。进而也可以进行数据的预测。

4. 讨论

4.1. 回归方程的参数解释

支农支出是指国家对农业、农村、农民的财政支持，显然，财政支出越大，农民的收入也越高；

农业产值能够反映农民一年的生产规模，农业产值越大，农民收入越高；

Figure 10. Fitting effect of the model

图10. 模型的拟合效果

农业各税包括耕地占用税、契税等，是国家对从事农业生产、有农业收入的单位和个人征收的一种税，农业各税越高，农民收入越低。

以上分析可以发现，国家加大对农业的支出、提高农业产值以及降低农业税可以有效地提高农民的收入。

4.2. 预测

通过建立线性回归模型、 $ARIMA (1, 2, 0)$ ，可对农村居民人均可支配收入进行预测，求解置信区间等等。

4.3. 模型分析

不同时期影响农村居民人均可支配收入的因素是不太相同的，不同国家、不同地区也是不同的，要想对一个地区影响农民收入的因素进行分析，需要重新获取数据，重新分析，但分析的基本想法是不变的。

附录：R程序代码

install.packages(car)

install.packages(MASS)

install.packages(lars)

library(foreign)

library(car)

library(MASS)

library(lars)

data <- read.csv(数据.CSV)

data<-na.omit(data)

data1<-data[c(6,7,11,12)]

lm.sol <- lm(y~x1+x2+x3,data=data1)

summary(lm.sol)

student.pr <- princomp(~x1+x2+x3,data=data1,cor=T)

summary(student.pr,loadings=TRUE)

pre <-predict(student.pr)

data1$z<-pre[,1]

lm.sol <- lm(y~z,data=data1)

summary(lm.sol)

data1$z <-pre[,1]

student.pr <- princomp(~x1+x2+x3,data=data1,cor=T)

summary(student.pr,loadings=TRUE)

beta <-coef(lm.sol)

A<-loadings(student.pr)

x.bar <-student.pr$center

x.sd <- student.pr$scale

coef <- (beta[2]*A[,1])/x.sd

beta0 <- beta[1]-sum(x.bar*coef)

c(beta0,coef)

#绘制岭迹图

plot(lm.ridge(y~x1+x2+x3,

data=data1,lambda=seq(0,3,0.001)))

select(lm.ridge(y~x1+x2+x3,

data=data1,lambda=seq(0,0.3,0.001)))

#利用select 函数找出最优岭参数lambda,会有三个值，任选一个即可。

lm.ridge(y~x1+x2+x3,data=data1,lambda=0.013)

#把选取的lmbda参数写到岭回归函数中去，在这里lambda=0.013。

参考文献

[1]	何晓群, 刘文卿. 应用回归分析[M]. 第5版. 北京: 中国人民大学出版社, 2019.
[2]	国家统计局农村社会经济调查司, 编. 中国农村统计年鉴-2019 [Z]. 北京: 中国统计出版社, 2019.
[3]	国家统计局, 编. 中国统计年鉴-2019 [Z]. 北京: 中国统计出版社, 2019.
[4]	薛毅, 陈立萍. 统计建模与R软件[M]. 北京: 清华大学出版社, 2007.

为你推荐

友情链接