机器学习第十二讲:特征选择 → 选最重要的考试科目做录取判断
资料取自《零基础学机器学习》。
查看总目录:学习大纲
关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南
一、学霸选科法则 📚(特征选择基础逻辑,材料2的3.章节[2-3]
比喻:某大学要从200科成绩中选出关键指标:
通过计算发现:数学与录取结果相关系数0.85(强相关),书法课仅0.07(可忽略)[2]
二、教务主任三把尺 📏(特征选择方法,材料2+6综合2-3
相关性筛选 → 用成绩关联表
科目 与录取的相关系数 数学 ▶▶▶ 0.92 语文 ▶▶ 0.78 生物 ▶ 0.32 保留前30%高关联科目(材料6的4.6.2优化思路)[6-4.6.2]
决策树评估 → 看科目权重
美术科信息增益≤5%可剔除(材料2的特征工程原则)[2-3]
- 主成分萃取 → 提炼超级科目
数学→逻辑能力因子
语文→理解能力因子
合并相关科目降维(类似材料6的MNIST像素压缩)[6-4载入MNIST数据集]
三、典型陷阱警示 ⚠️(材料4的过拟合问题[4-4.6.2]
某中学过分关注奥林匹克竞赛得分导致:
这就是典型的过拟合(材料4的过拟合图示)[4-4.6.2],需平衡特征数量
四、招生办实操手册 📋(材料5混淆矩阵应用[5]
经过特征选择后的录取模型验证:
from sklearn.feature_selection import SelectKBest
from sklearn.metrics import confusion_matrix
# 选择数学语文两科(k=2)
selector = SelectKBest(k=2)
X_new = selector.fit_transform(X_scores, y_admission)
# 混淆矩阵显示效果提升
print(confusion_matrix(y_true, y_pred))
"""
标准化前:[[70 30]
[25 75]]
精选后: [[85 15]
[10 90]]
"""
准确率从72.5%→87.5%(材料5的评估方法)[5]
五、知识验证小测试 ✅
Q: 某模型用身高+星座预测成绩是否合理?
A: ❌ 星座属于无关特征应删除(材料2的特征提取原则)[2-3]
目录:总目录
上篇文章:机器学习第十一讲:标准化 → 把厘米和公斤单位统一成标准值
下篇文章:机器学习第十三讲:独热编码 → 把红黄蓝颜色变成001等的数字格式
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。