数据处理与分析技术-题库 (2)

更新时间：试题数量：购买人数：提供作者：

有效期：个月

章节介绍：共有个章节

我的练习

我的错题
(0道)

我的收藏
(0道)

我的斩题
(0道)

我的笔记
(0道)

专项练习

顺序练习 练习进度 0 / 0

随机练习 自定义设置练习量

模拟考试 仿真模拟

题型练习 按题型分类练习

易错题 精选高频易错题

学习资料 考试学习相关信息

搜索

题库预览

请补充完整使用 Pandas 创建 DataFrame 并读取指定列、行的代码，要求:创建包含数据[[1,2,3],[4,5,6],[7,8,9]] 的 DataFrame，指定表头为 ['A','B','C']，读取 'A' 列、第 1-2 行(含第 2 行)、第 1-2 行第 2 列的数据。 import pandas as pd # 1. 创建DataFrame对象，指定数据和表头 df = pd.DataFrame(____, columns=____) # 2. 读取DataFrame中的'A'列 col_a = df[____] # 3. 读取DataFrame中的第1到2行（包含第2行） rows___2 = df[____] # 4. 读取DataFrame中第1到2行，第2列的数据（使用iloc方法） data = df.iloc[____, ____] print(col_a) print(rows___2) print(data)

请补充完整使用 Numpy 创建 ndarray 对象并获取其基本属性、计算元素和的代码，要求:创建3行3列数据为 [[1,2,3],[4,5,6],[7,8,9]] 的 ndarray，获取维数、形状、元素个数，计算所有元素的和。 import numpy as np # 1. 创建3行3列的ndarray对象 a = np.array(____) # 2. 获取ndarray对象的维数 dim = a.____ # 3. 获取ndarray对象的形状 shape = a.____ # 4. 获取ndarray对象的元素个数 size = a.____ # 5. 计算ndarray对象中所有元素的和 sum_a = np.____(a) print(dim) print(shape) print(size) print(sum_a)

在生成回归数据后，欲标准化特征并训练线性回归，补全缺失部分： from sklearn.preprocessing import StandardScalerfrom sklearn.linear_model import LinearRegression scaler = StandardScaler() X_train_scaled = scaler.fit_transform(____①____) X_test_scaled = scaler.transform(____②____) model = LinearRegression() model.fit(____③____, y_train)

以下代码使用线性SVM对生成的二维数据进行分类，并可视化结果。请补全缺失的代码片段。 import numpy as np import seaborn as sns import matplotlib.pyplot as plt from sklearn.datasets import make_classification from sklearn.preprocessing import StandardScaler from sklearn.svm import SVC # 1. 生成线性可分数据 X, y = make_classification( n_samples=100, n_features=2, n_redundant=0, n_informative=2, random_state=1, n_clusters_per_class=1 ) # 2. 数据标准化 X_ = ____________.fit_transform(X) # 填空①: 标准化器 data = X_, y # 3. 训练线性SVM模型（硬间隔） clf = SVC(C=1e10, ____________, random_state=3) # 填空②: clf.__________(X_, y) # 填空③: 训练模型 # 4. 可视化决策边界 def plot_boundary(data, clf, h=0.02): X, y = data x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .! y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .! xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h)) Z = clf.predict(np.c_[xx.ravel(), yy.ravel()]) Z = Z.reshape(xx.shape) plt.figure(figsize=(5, 5)) plt.contourf(xx, yy, Z, cmap=plt.cm.RdBu, alpha=.8) sns.scatterplot(x=X[:, 0], y=X[:, 1], hue=y, legend= plt.xlim(x_min, x_max) plt.ylim(y_min, y_max) plt.show() plot_boundary(data, clf)

以下代码使用非线性SVM处理环形数据，请补全关键步骤。
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import make_circles
from sklearn.preprocessing import StandardScaler
from ____________ import SVC # 填空①: 导入SVM分类器模块

# 1. 生成环形数据（线性不可分）
X, y = make_circles(
n_samples=100,
noise=0.2, factor=0.5,
random_state=1
)

# 2. 数据标准化
X_scaled = StandardScaler().____________(X) # 填空②: 执
data = X_scaled, y

# 3. 创建并训练RBF核SVM
# 参数C=1，RBF核
clf = SVC(C=1, kernel='____________', random_state=3)

clf.______________

用鸢尾花数据集训练决策树并评估准确率，补全缺失代码。

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeClassifier

from sklearn.metrics import accuracy_score

iris = load_iris()

X, y = iris.data, iris.target

X_train, X_test, y_train, y_test = train_test_split(

X, y, train_size=0.8, random_state=0)

clf = DecisionTreeClassifier(criterion=________)

clf.fit( ________, ________ )

y_pred = clf.predict(X_test)

print(accuracy_score(y_test, y_pred))

导出决策树可视化dot并生成PNG，补全关键参数。

from sklearn.tree import export_graphviz

import pydotplus

dot_data = export_graphviz(

model,

out_file=____,

feature_names=['aveSpeed','stopNum'],

class_names=['畅通','缓行','拥堵'],

filled=True, rounded=True)

graph = pydotplus.____(dot_data)

graph.write_png('tree.png')

使用K-Means 将标准化后的交通数据聚成 3 类，并输出结果 CSV。

import pandas as pd

from sklearn.cluster import KMeans

from sklearn.preprocessing import StandardScaler

data = pd.read_csv('traffic.csv')

X = data[['aveSpeed', 'stopNum']]

scaler = StandardScaler()

X_std = scaler.【_______】(X) # 训练并转换

labels = KMeans(n_clusters=【______】, random_state=0).fit(X_std).【______】

out = pd.concat([data, pd.Series(labels, name='label')], axis=1)

out.to_csv('kmeans_result.csv', index=False)

用 DBSCAN 识别高密度拥堵区域，要求 eps=0.5、min_samples=5。

from sklearn.cluster import DBSCAN

db = DBSCAN(eps=【_____】, min_samples=【______】)

labels = db.fit_predict(X_std)

# 统计噪声点数量

noise_num = sum(labels == 【______】)

请补全以下基于随机森林的交通数据分类任务代码中的缺失部分，完成数据预处理、模型训练与评估流程：

# 1. 导入数据处理库

import (1) ______ as pd

# 2. 读取数据集（csv名为DATASET-B.csv）

data = pd.read_csv( (2) ______ )

# 3. 转换特定列的数据类型为整数

for c in ['rowid', 'colid', 'time_id']:

data[c] = data[c].astype(int)

# 4. 按指定字段排序并重置索引

data = data. (3) ______ (['date', 'rowid', 'colid', 'time_id']).reset_index(drop=True)

# 5. 转换日期格式并提取星期信息

data['datetime'] = pd.to_datetime(data.date, format='%Y%m%d')

data['dayofweek'] = data.datetime.dt. (4) ______

# 6. 随机抽样5000条数据

data = data. (5) ______ (5000, random_state=233)

# 7. 导入数据集划分工具

from sklearn. (6) ______ import train_test_split

# 8. 划分训练集（70%）和测试集（30%）

train, test = train_test_split(data, test_size=0.3, random_state=233)

# 9. 导入随机森林分类器

from sklearn. (7) ______ import RandomForestClassifier

# 10. 初始化随机森林模型

rf = RandomForestClassifier(

n_estimators=256,

max_depth=9,

min_samples_leaf=30,

n_jobs=-1,

random_state=233

)

# 11. 指定特征列

features = [

'rowid', 'colid', 'time_id', 'dayofweek',

'aveSpeed', 'gridAcc', 'volume', 'speed_std', 'stopNum'

]

# 12. 训练模型

rf.fit(train[features], train['labels'])

# 13. 计算训练集精度

rf_train_score = rf.score( (8) ______ , train['labels'])

# 14. 计算测试集精度

rf_test_score = rf.score( (9) ______ , test['labels'])

# 15. 打印模型精度结果

print(f'随机森林模型精度：训练集：{rf_train_score:.3f}；测试集：{rf_test_score:.3f}')

补全代码：导入train_test_split的模块，语句为`from sklearn.______ import train_test_split`

补全代码：导入RandomForestClassifier的模块，语句为`from sklearn.______ import RandomForestClassifier`

补全代码：计算训练集精度时score方法的第一个参数，语句为`rf_train_score = rf.score(______, train['labels'])`

补全代码：计算测试集精度时score方法的第一个参数，语句为`rf_test_score = rf.score(______, test['labels'])`

Python 被广泛用于交通数据分析，其最主要的优势是( )

使用 lambda 快速定义函数，求两数之和，正确写法是 ( )

下列哪条语句可以正确画出一条折线图(已导入 matplotlib.pyplot as plt)( )

Windows 系统下，使用 pip 安装 pandas 模块的正确命令是?

math 模块中，用于求 x 向上取整的函数是?

numpy 中，ndarray 对象的哪个属性用于获取数组的维数(阶)?

使用 Pandas 读取 csv 格式文件，且指定表头为 ['A','B','C']，正确的代码是?

在 Pandas 中，要基于已有列

Pandas 中，按列 A 进行分组，正确的代码是?

在计算机系统中，机器学习所依赖的“经验”通常以什么形式存在()

下列哪句话最符合 Herbert Simon 对“学习”的定义()

下列关于“同类数据具有规律性”这一假设，描述正确的是()

监督学习与无监督学习的根本区别在于()

输出变量为连续值的学习任务称为()

1 2 3 4 5 6 10