数据挖掘2-Geely

更新时间：试题数量：购买人数：提供作者：

有效期：个月

章节介绍：共有个章节

我的练习

我的错题
(0道)

我的收藏
(0道)

我的斩题
(0道)

我的笔记
(0道)

专项练习

顺序练习 练习进度 0 / 0

随机练习 自定义设置练习量

模拟考试 仿真模拟

题型练习 按题型分类练习

易错题 精选高频易错题

学习资料 考试学习相关信息

搜索

题库预览

以下哪个方法不能创建一个Pandas(pd)的序列？（）

定义一个数据框类型变量df，那么对df.fillna(1)理解正确的是（）。

利用数据框中的iloc属性可以实现下标值或逻辑值定位索引并进行切片操作。下列代码运行后C1的值是（）。
Data = {‘a’:[2,2,3,5,6], ‘b’:[ ‘k1’, ‘k1’, ‘k1’,0, ‘k1’],
‘c’:[4,6,5,1,6], ‘d’:[7,9,2,5,8]}
Df = pd.DataFrame(Data)
C1 = df.iloc[1:3，2]

Matplotlib中哪个函数用于绘制饼图（ )。

Matplotlib中绘制子图时，不同子图之间可能存在重叠现象。为解决这个问题，可通过下列哪个命令来布局？（ )

Python里的基础数据类型有数值、字符串、元组、_________、字典、集合。

创建数组有两种方法，一种是利用NumPy中的 _________ 函数将特定的数据类型转换为数组，另一种是利用内置函数创建指定尺寸的数组。

NumPy包提供了 _________ 函数用于改变数组的形状。只改变原始数据的形状，不改变原始数据的值。

数据框对象具有3个属性，分别为 _________ 、索引和值。

Matplotlib中对横坐标轴进行字符刻度标注是通过 _________ 函数来实现。

关联规则学习是一种在大量数据中发现变量之间的相关关系的方法，分为一对一关联规则和多对一关联规则。请回答以下相关问题：(1)支持度（Support）和置信度（Confidence）是关联规则中的重要衡量指标，请简要给出一对一关联规则前提下其定义和计算公式。

布尔关联规则挖掘是指将事务数据集转换为布尔值（0或1）数据集，并在布尔数据集基础上挖掘关联规则的一种方法。假设有如下数据，每行代表一个顾客在超市的购买记录，请画出该记录对应的布尔值数据集。

I1: 西红柿、排骨、鸡蛋

I2: 西红柿、茄子、土豆

I3: 鸡蛋、袜子、土豆

I4: 西红柿、排骨、茄子

I5: 西红柿、排骨、袜子、酸奶

I6: 鸡蛋、茄子、酸奶

人工神经网络是一种模拟大脑神经突触连接结构处理信息的数学模型，在工业界和学术界常直接将其简称为神经网络。神经网络可用于分类问题、也可用于预测问题，特别是非线性关系预测。请回答以下问题：(1)画出神经网络结构及数学模型图。

简要介绍Python神经网络分类模型应用的处理流程。

绘制散点图 | 汽车的制动距离主要取决于车速。若车速增加1倍，则汽车的制动距离将增大至近4倍。某汽车生产公司对一批吉利汽车进行抽样测试，并分别记录了不同的车速对应的制动距离，具体如下表：

（含图）

现要求根据上表数据，将“车速（km/h）”一列的数据作为x轴的数据，将“制动距离（m）”一列的数据作为y轴的数据，使用Matplotlib包的pyplot模块中相应函数绘制汽车速度与制动距离关系的散点图，请在下面程序代码中下划线处补全核心代码。

# 导入numpy包和matplotlib包相关模块并设置通用别名。

import numpy as np

_____________________________________________

# 修改参数使pyplot能显示中文字符为黑体。

_____________________________________________

plt.rcParams[‘axes.unicode_minus’]=False

# 设置x轴名称为“汽车速度”，设置y轴名称为“制动距离”。

plt.xlabel(‘汽车速度’)

plt.ylabel(‘制动距离’)

# 准备x轴和y轴的数据。

x_speed=np.arange(10,210,10)

_____________________________________________

# 设置图表标题为“汽车速度与制动距离关系的散点图”。

_____________________________________________

# 绘制散点图。

_____________________________________________

# 保存图像为png格式，图像名为“汽车速度与制动距离关系的散点图”。

plt.savefig(‘汽车速度与制动距离关系的散点图.png’)

主成分分析题

我们通常看到各种各样的排行榜，诸如综合国力排名、省市经济发展水平排名、大学综合排名等。这些排行榜不可能仅采用单个指标衡量，往往需要综合考虑各方面的因素，运用多方面的指标进行分析得到结果。根据调查，影响我国地区农村居民人均可支配收入的四项指标分别是工资性收入、经营净收入、财产净收入、转移净收入，并将调查结果数据存放于Excel文件“农村居民人均可支配收入来源2016.xlsx”中。部分数据如下表所示：

（含图）

现要求对影响可支配收入的四项指标进行主成分分析。

# 导入包并获取数据。

import pandas as pd

data=pd.read_excel('农村居民人均可支配收入来源2016.xlsx')

# 数据切片取出四项指标的值，并赋值给X变量。

__________________________________________

# 求四项指标的相关系数矩阵，并赋值给R变量。

__________________________________________

# 假设工资性收入和财产净收入呈显著的正相关关系。

# 数据规范化处理，导入均值-方差规范化处理模块。

__________________________________________

# 创建均值-方差规范化对象scaler。

scaler=StandardScaler()

# 调用scaler对象中的方法对待处理的数据X进行拟合训练。

scaler.fit(X)

# 调用对象scaler中的方法返回规范化后的数据集X（覆盖原未规范化的X）。

X=scaler.transform(X)

# 对标准化后的数据X做主成分分析，导入主成分分析模块。

__________________________________________

# 创建主成分分析对象pca，设置累计贡献率为0.9。

pca=PCA(n_components=0.9)

# 调用pca对象的方法对待分析的数据进行拟合训练。

pca.fit(X)

# 调用pca对象中的方法返回提取的主成分，并赋值给Y变量。

Y=pca.transform(X)

# 通过pca对象中的相应属性返回主成分方差百分比（贡献率），并赋值给变量gxl。

__________________________________________

回归分析题

根据研究，加利福利亚街区组房价（MedHouseVal）与以下8种影响因素有关。每个影响因素的含义如下：MedInc：街区组收入中位数；HouseAge：街区组房屋年龄中位数；AveRooms：每户平均房间数；AveBedrms：每户平均卧室数量；Population：人口数量；AveOccup：家庭成员平均人数；Latitude：纬度；Longitude：经度

经调查获得该街区组房价数据总共有20640条记录，并存放于Excel文件“California_housing.xlsx”中，部分数据如下表所示：

（含图）

现要求利用线性回归分析命令，求出房价（MedHouseVal）与8种影响因素之间的线性回归关系式系数向量（包括常数项）和拟合优度，在下面程序代码中下划线处补全核心代码。

# 获取加利福利亚房价数据。

import pandas as pd

data=pd.read_excel('california_housing.xlsx')

# 取前20000条数据作为训练数据（x,y）并提取出值属性。

___________________________________________________________

y=data.iloc[:20000,8].values

# 导入线性回归模块，设简称为LR。

___________________________________________________________

# 利用LR创建线性回归对象lr。

lr=LR()

# 调用lr对象中的相应方法，对训练数据进行拟合训练。

lr.fit(x,y)

# 调用lr对象中的相应方法，返回其拟合优度赋值给变量slr，观察线性关系是否显著（假设为显著）。

___________________________________________________________

# 取lr对象中的相应属性，返回x对应的回归系数（赋值给变量c_x）和回归系数常数项(赋值给变量c_b)。

___________________________________________________________

聚类分析题

鸢尾花一般通过花萼长度（sepal length）、花萼宽度（sepal width）、花瓣长度（petal length）与花瓣宽度（petal width）区分出不同种类。现根据观测，得到一组鸢尾花的花萼、花瓣的长度和宽度数据，并将数据存放在CSV文件（iris.csv）中。部分数据如下表所示：

（含图）

现要求利用K-Means算法对鸢尾花进行聚类，在下面程序代码中下划线处补全核心代码。

# 获取鸢尾花数据。

import pandas as pd

data=_____________________________________________________________

# 导入K-均值聚类模块KMeans。

___________________________________________________________________

# 利用KMeans创建K-均值聚类对象model，设置聚类个数为3，随机初始状态为0，最大迭代次数为600。

___________________________________________________________________

# 调用model对象的相应方法进行拟合训练。

___________________________________________________________________

# 获取model对象中的相应属性，返回其聚类的标签，并赋值给变量c。

___________________________________________________________________

更多题库