使机器学习模型工作：关于规模和不平衡的真实世界观点

发布于 2025-03-25

主要观点：在 NLP 分类任务中常遇模型大小和数据集不平衡两大难题，需减少模型大小并提高准确率。
关键信息：

初始有近 40000 条记录的数据集，初始随机森林模型虽准确率约 70%但大小达 11GB，参数调优致准确率骤降至 14%。
解决方法包括处理类不平衡（如 SMOTE、ADASYN、成本敏感学习、阈值调整）、提高模型准确率（特征工程、降低模型复杂度与正则化、模型选择、超参数优化）、减少模型大小（减少词汇量、量化）。
重要细节：
SMOTE 会遇ValueError: Expected n_neighbors <= n_samples_fit错误，且可能导致模型准确率降低、过拟合。
特征工程可创建 TF-IDF、词嵌入等特征，模型复杂度可通过减少树数量、限制树深度等降低。
最终通过去除不频繁类、合并文本信息、使用特定 TF-IDF 参数等实现较小模型规模和可接受准确率，同时学到数据清理、类不平衡处理、特征工程等重要经验。

阅读 28