阅读了一些论文,目前依旧似懂非懂.
远程监督:通过将知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。
所以远程监督的过程仅仅是数据集自动化构建的过程? 并不涉及到模型的训练及预测?
另,似乎在远程监督中,提出了bag的概念,但凡在bag中出现关系对,则标记为正例;否则,标记为负例,这样做的目的是什么?
请求前辈们的指点,谢谢.
阅读了一些论文,目前依旧似懂非懂.
远程监督:通过将知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。
所以远程监督的过程仅仅是数据集自动化构建的过程? 并不涉及到模型的训练及预测?
另,似乎在远程监督中,提出了bag的概念,但凡在bag中出现关系对,则标记为正例;否则,标记为负例,这样做的目的是什么?
请求前辈们的指点,谢谢.
4 回答4.4k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
1 回答3k 阅读✓ 已解决
3 回答2.1k 阅读✓ 已解决
1 回答4.5k 阅读✓ 已解决
1 回答3.8k 阅读✓ 已解决
1 回答2.8k 阅读✓ 已解决
最近也看了相关的东西,远程监督确实主要用于从知识库中自动构建数据集。另外,你所说的bag应该是多示例学习中的概念,并不是与远程监督相绑定的,但是远程监督应用于关系抽取中时,经常会使用多示例学习来降低远程监督构建的数据集中的噪音(即错误标注的样本)。