主要观点:在 NLP 分类任务中常遇模型大小和数据集不平衡两大难题,需减少模型大小并提高准确率。
关键信息:
- 初始有近 40000 条记录的数据集,初始随机森林模型虽准确率约 70%但大小达 11GB,参数调优致准确率骤降至 14%。
- 解决方法包括处理类不平衡(如 SMOTE、ADASYN、成本敏感学习、阈值调整)、提高模型准确率(特征工程、降低模型复杂度与正则化、模型选择、超参数优化)、减少模型大小(减少词汇量、量化)。
重要细节: - SMOTE 会遇
ValueError: Expected n_neighbors <= n_samples_fit
错误,且可能导致模型准确率降低、过拟合。 - 特征工程可创建 TF-IDF、词嵌入等特征,模型复杂度可通过减少树数量、限制树深度等降低。
- 最终通过去除不频繁类、合并文本信息、使用特定 TF-IDF 参数等实现较小模型规模和可接受准确率,同时学到数据清理、类不平衡处理、特征工程等重要经验。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。