主成分分析题我们通常看到各种各样的排行榜,诸如综合国力排名、省市经济发展水平排名、大学综合排名等。这些排行榜不可能仅采用单个指标衡量,往往需要综合考虑各方面的因素,运用多方面的指标进行分析得到结果。根据调查,影响我国地区农村居民人均可支配收入的四项指标分别是工资性收入、经营净收入、财产净收入、转移净收入,并将调查结果数据存放于Excel文件“农村居民人均可支配收入来源2016.xlsx”中。部分数据如下表所示:
(含图)
现要求对影响可支配收入的四项指标进行主成分分析。
# 导入包并获取数据。
import pandas as pd
data=pd.read_excel('农村居民人均可支配收入来源2016.xlsx')
# 数据切片取出四项指标的值,并赋值给X变量。
__________________________________________
# 求四项指标的相关系数矩阵,并赋值给R变量。
__________________________________________
# 假设工资性收入和财产净收入呈显著的正相关关系。
# 数据规范化处理,导入均值-方差规范化处理模块。
__________________________________________
# 创建均值-方差规范化对象scaler。
scaler=StandardScaler()
# 调用scaler对象中的方法对待处理的数据X进行拟合训练。
scaler.fit(X)
# 调用对象scaler中的方法返回规范化后的数据集X(覆盖原未规范化的X)。
X=scaler.transform(X)
# 对标准化后的数据X做主成分分析,导入主成分分析模块。
__________________________________________
# 创建主成分分析对象pca,设置累计贡献率为0.9。
pca=PCA(n_components=0.9)
# 调用pca对象的方法对待分析的数据进行拟合训练。
pca.fit(X)
# 调用pca对象中的方法返回提取的主成分,并赋值给Y变量。
Y=pca.transform(X)
# 通过pca对象中的相应属性返回主成分方差百分比(贡献率),并赋值给变量gxl。
__________________________________________