数据分析与可视化-实验报告七

更新时间: 试题数量: 购买人数: 提供作者:

有效期: 个月

章节介绍: 共有个章节

收藏
搜索
题库预览
泰坦尼克号生存预测与特征重要性分析 【问题描述】 请根据课堂PPT中关于“泰坦尼克号乘客生存预测”的项目流程,编写Python代码完成以下任务: 1.数据预处理:严格按照PPT要求,删除唯一标识列(name, ticket),处理缺失值(age用均值填充,embarked删除缺失行)。 2.特征编码:将文本特征(sex, embarked)转换为数值型。 3.模型构建:使用RandomForestClassifier进行训练,要求显式设置PPT中提到的关键参数n_estimators=100和random_state=42。 4.特征重要性:输出模型训练后各特征的“重要性”排序,分析哪些因素最影响生存率。 【输入形式】 1. 读取当前目录下的titanic.csv文件。 2.注意:根据你上传的文档,数据包含pclass, name, sex, age, embarked, ticket, room, survived等列。 【输出形式】 1.预处理后的数据形状:输出处理后数据集的行数和列数。 2.特征重要性排序:输出一个包含特征名称和对应重要性分数的Series,按重要性降序排列。 3.预测准确率:输出模型在测试集上的准确率(保留4位小数)。 【样例输出】 数据预处理完成,数据形状: (821, 5) 特征重要性排序: sex 0.437590 age 0.416050 pclass 0.111343 embarked 0.035017 dtype: float64 模型预测准确率: 0.8303 【样例说明】 1.数据清洗:原始数据中如果有缺失值未处理,模型会报错。必须先清洗。 2.参数一致性:n_estimators=100是PPT中随机森林的标准配置,random_state=42保证结果可复现。 3.特征重要性:RandomForestClassifier训练后,通过.feature_importances_属性获取重要性,并需与特征名对齐。
1