数据挖掘2-Geely

更新时间: 试题数量: 购买人数: 提供作者:

有效期: 个月

章节介绍: 共有个章节

收藏
搜索
题库预览
主成分分析题

我们通常看到各种各样的排行榜,诸如综合国力排名、省市经济发展水平排名、大学综合排名等。这些排行榜不可能仅采用单个指标衡量,往往需要综合考虑各方面的因素,运用多方面的指标进行分析得到结果。根据调查,影响我国地区农村居民人均可支配收入的四项指标分别是工资性收入、经营净收入、财产净收入、转移净收入,并将调查结果数据存放于Excel文件“农村居民人均可支配收入来源2016.xlsx”中。部分数据如下表所示:

(含图)

现要求对影响可支配收入的四项指标进行主成分分析。

# 导入包并获取数据。

import pandas as pd

data=pd.read_excel('农村居民人均可支配收入来源2016.xlsx')

# 数据切片取出四项指标的值,并赋值给X变量。

__________________________________________

# 求四项指标的相关系数矩阵,并赋值给R变量。

__________________________________________

# 假设工资性收入和财产净收入呈显著的正相关关系。

# 数据规范化处理,导入均值-方差规范化处理模块。

__________________________________________

# 创建均值-方差规范化对象scaler。

scaler=StandardScaler()

# 调用scaler对象中的方法对待处理的数据X进行拟合训练。

scaler.fit(X)

# 调用对象scaler中的方法返回规范化后的数据集X(覆盖原未规范化的X)。

X=scaler.transform(X)

# 对标准化后的数据X做主成分分析,导入主成分分析模块。

__________________________________________

# 创建主成分分析对象pca,设置累计贡献率为0.9。

pca=PCA(n_components=0.9)

# 调用pca对象的方法对待分析的数据进行拟合训练。

pca.fit(X)

# 调用pca对象中的方法返回提取的主成分,并赋值给Y变量。

Y=pca.transform(X)

# 通过pca对象中的相应属性返回主成分方差百分比(贡献率),并赋值给变量gxl。

__________________________________________

回归分析题

        根据研究,加利福利亚街区组房价(MedHouseVal)与以下8种影响因素有关。每个影响因素的含义如下:MedInc:街区组收入中位数;HouseAge:街区组房屋年龄中位数;AveRooms:每户平均房间数;AveBedrms:每户平均卧室数量;Population:人口数量;AveOccup:家庭成员平均人数;Latitude:纬度;Longitude:经度

经调查获得该街区组房价数据总共有20640条记录,并存放于Excel文件“California_housing.xlsx”中,部分数据如下表所示:

(含图)

        现要求利用线性回归分析命令,求出房价(MedHouseVal)与8种影响因素之间的线性回归关系式系数向量(包括常数项)和拟合优度,在下面程序代码中下划线处补全核心代码。

# 获取加利福利亚房价数据。

import pandas as pd

data=pd.read_excel('california_housing.xlsx')

# 取前20000条数据作为训练数据(x,y)并提取出值属性。

___________________________________________________________

y=data.iloc[:20000,8].values

# 导入线性回归模块,设简称为LR。

___________________________________________________________

# 利用LR创建线性回归对象lr。

lr=LR()

# 调用lr对象中的相应方法,对训练数据进行拟合训练。

lr.fit(x,y)

# 调用lr对象中的相应方法,返回其拟合优度赋值给变量slr,观察线性关系是否显著(假设为显著)。

___________________________________________________________

# 取lr对象中的相应属性,返回x对应的回归系数(赋值给变量c_x)和回归系数常数项(赋值给变量c_b)。

___________________________________________________________

___________________________________________________________

1