机器学习第四讲:无监督学习 → 给无标签积木自由组合,发现隐藏规律

资料取自《零基础学机器学习》
查看总目录:学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南


一、核心比喻:乐高积木的自由王国 🧩

生活场景1
假设你有一箱混装的乐高积木:

  • 没有说明书(无标签)
  • 包含圆形/方形/星形(不同形状)
  • 红/蓝/黄(不同颜色)

无监督学习就像

graph LR
    A["杂乱积木箱"] --> B["按形状分筐"]
    A --> C["按颜色分堆"]
    A --> D["发现‘蓝星形+黄圆形’常同时出现"]
  
    classDef box fill:#F0F8FF;
    class A,B,C,D box;

二、超市购物案例实战 🛒(教材第四章经典案例2

问题:分析顾客购物数据发现潜在规律

flowchart TD
    DB["原始交易记录<br>牛奶|面包|啤酒|尿布|鸡蛋"] --> Model["数据挖掘模型"]
    Model --> Cluster["聚类结果:<br>家庭主妇组→常买牛奶面包<br>年轻爸爸组→啤酒尿布组合"]
    Model --> Rule["关联规则:<br>买薯片的顾客65%会买可乐"]

实际应用

  • 沃尔玛通过无监督学习发现「啤酒+尿布」关联销售,调整货架位置使销量提升30%
  • 音乐APP根据播放记录自动创建「深夜钢琴曲」「晨跑摇滚」歌单

三、三大核心技术拆解 🔧

  1. 聚类分析(Clustering)
    把相似数据分到同组(如同类积木分组)

    # 典型代码逻辑
    from sklearn.cluster import KMeans
    model = KMeans(n_clusters=3)  # 假设分3类
    model.fit(顾客数据)  # 自动找到分群规律
  2. 降维(Dimensional Reduction)
    把100个特征压缩成2个核心特征(如从积木10个属性提取「体积+颜色强度」)
  3. 关联规则(Association Rules)
    发现「如果买A则可能买B」的关系(如同发现圆形积木常搭配蓝色)

四、与监督学习的本质区别 🤼

通过对比表格理解特点(教材第四章对比分析3):

维度监督学习无监督学习
数据要求需要标记数据纯原始数据
任务目标预测已知结果发现未知模式
典型应用房价预测/疾病诊断客户分群/异常检测
结果验证有明确准确率指标依赖业务解读

五、应用场景全景图 🌐

pie
    title 无监督学习应用领域
    "市场细分" : 35
    "社交网络分析" : 25
    "基因序列研究" : 20
    "图像压缩" : 15
    "其他" : 5

典型案例

  • 银行通过交易模式识别信用卡盗刷(异常值检测)
  • 生物学家通过基因表达数据自动分类细胞类型
  • 新闻网站自动聚合相关报道(如冬奥会专题)

六、技术局限性须知 🚨(教材第四章注意事项4

  1. 解释性差:就像不知道积木为何这样分组,可能难以说明分群逻辑
  2. 质量依赖:如果积木混入橡皮擦,可能产生错误关联
  3. 评估困难:无法像考试打分那样量化效果,需人工确认价值

七、终极核心总结 💡

无监督学习是让机器在未被告知答案的情况下,像孩子观察世界一样自主发现数据中隐藏的秩序与规律(教材第四章核心结论1
(典型案例:AlphaFold通过分析蛋白质结构数据自主发现折叠规律🔬)

目录:总目录
上篇文章:机器学习第三讲:监督学习 → 带答案的学习册,如预测房价时需要历史价格数据
下篇文章:机器学习第五讲:强化学习 → 电子宠物狗试错学习,做对给虚拟奖励



  1. 《零基础学机器学习》第四章第一节"无监督本质",P.152
  2. 《零基础学机器学习》第四章案例4-3"零售业模式发现",P.168-171
  3. 《零基础学机器学习》第四章对比表格4.2,P.159
  4. 《零基础学机器学习》第四章第六节"局限与挑战",P.189

kovli
13 声望8 粉丝