使机器学习模型工作:关于规模和不平衡的真实世界观点

主要观点:在 NLP 分类任务中常遇模型大小和数据集不平衡两大难题,需减少模型大小并提高准确率。
关键信息

  • 初始有近 40000 条记录的数据集,初始随机森林模型虽准确率约 70%但大小达 11GB,参数调优致准确率骤降至 14%。
  • 解决方法包括处理类不平衡(如 SMOTE、ADASYN、成本敏感学习、阈值调整)、提高模型准确率(特征工程、降低模型复杂度与正则化、模型选择、超参数优化)、减少模型大小(减少词汇量、量化)。
    重要细节
  • SMOTE 会遇ValueError: Expected n_neighbors <= n_samples_fit错误,且可能导致模型准确率降低、过拟合。
  • 特征工程可创建 TF-IDF、词嵌入等特征,模型复杂度可通过减少树数量、限制树深度等降低。
  • 最终通过去除不频繁类、合并文本信息、使用特定 TF-IDF 参数等实现较小模型规模和可接受准确率,同时学到数据清理、类不平衡处理、特征工程等重要经验。
阅读 7
0 条评论