学生成绩表现数据集

⏱ 2026年3月24日▣ 数据集机器学习◔ 454

详情介绍

“

这是一份适合做学生成绩预测和学习行为分析的教育数据集，包含 649 条样本和 33 个字段，适合做回归建模、分层分析和教育数据挖掘展示。

这是一份围绕行业业务问题整理的结构化数据集，适合用于数据分析、机器学习建模和业务洞察提炼。当前文件共包含 649 条记录和 33 个字段，字段覆盖范围清晰，适合直接进入建模与可视化阶段。

从数据组织方式看，这份数据集既能支持核心预测任务，也能支持面向业务解释的分析工作。样本中的主要字段包括 school, sex, age, address, famsize, Pstatus, Medu, Fedu 等，能够围绕目标变量展开风险识别、行为分析或价值评估。

1. 数据集概览

这份数据集是一份适合做学生成绩预测和学习行为分析的教育数据集，包含 649 条样本和 33 个字段，适合做回归建模、分层分析和教育数据挖掘展示。

这类数据集的优势在于问题边界清晰，既适合做完整的数据清洗、特征工程和模型比较，也适合整理为图表驱动的分析报告。对于课程设计、项目作品集和论文型展示，它都具备较好的可用性。

当前使用的数据文件包含 649 行、33 列。按字段作用可大致划分为以下几组：

字段分组	代表字段	说明
学生基础背景	school, sex, age, address, famsize, Pstatus	描述学生所在学校、性别、年龄和家庭结构
家庭与学习支持	Medu, Fedu, schoolsup, famsup, paid, internet	反映家庭教育背景和学习资源支持情况
行为习惯与成绩表现	studytime, failures, absences, G1, G2, G3	描述学习投入、缺勤情况和阶段性成绩

其中，目标字段 G3 是当前最适合优先关注的分析对象。整体没有明显缺失值。

这份数据集可以直接支撑以下任务方向：

如果用于课程设计或作品集展示，这类数据的优势在于既能完成清洗、分析、建模和可视化的全流程，又容易把业务问题讲清楚，不会只剩模型指标而缺乏应用背景。

这份数据没有显著缺失，字段结构完整，包含较多类别变量和行为变量，适合做教育数据挖掘练习。目标字段 G3 为最终成绩，取值范围明确，也可以与 G1、G2 联合分析阶段成绩变化。

如果用于成绩预测，需要注意 G1 和 G2 与 G3 高度相关，既能提升效果，也可能掩盖其他因素影响。若强调教育干预分析，可以尝试剔除阶段成绩字段再建模。

下列图表使用 matplotlib 基于真实数据样本自动生成，重点展示数据宏观概览、缺失值初筛和探索性分析结果。

适合做学生成绩预测、学习行为分析、辍学风险预警前置研究，也适合用于展示特征重要性和变量影响。

在展示层面，这类数据集也适合做列表页摘要、详情页图文介绍和管理看板式分析内容，能够同时满足建模展示和业务说明两种需求。