主要观点:自然语言处理(NLP)模型依赖数据,获取大规模高质量标注数据是最大障碍,标注数据能推动模型改进,主动学习和人在环方法很有价值。
关键信息:
- NLP 中数据标注挑战,收集大量文本数据易但标注难且贵,需识别并标注能提升模型的数据。
- 主动学习是数据中心的机器学习方法,算法选下一个学习的数据点,让人类参与标注关键数据以提升模型。
- 人在环指让人类直接参与模型训练和改进,有多种好处,如提高效率、准确性等。
- NLP 中主动学习策略包括不确定性采样、多样性采样、随机采样、委员会查询等,常组合使用。
- 实现主动学习循环需训练模型、计算不确定性、选最不确定数据让人类标注等步骤,有相关库和工具支持。
- 主动学习不仅用于训练,还用于模型部署后的维护,可捕捉偏差等。
重要细节: - 不确定性采样通过模型对预测最没信心的例子进行标注,先解决最弱区域以快速提升。
- 多样性采样选不同的数据以避免模型只从窄数据切片学习。
- 随机采样易实现可与其他方法结合,避免偏差。
- 委员会查询训练多个模型让其对未标注实例投票,选分歧大的标注。
- 实施主动学习时要先有好模型,选合适不确定性度量,分批标注,支持标注者,权衡自动化与人的努力。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。