文本特征词提取算法

特征值提取，没有样本库情况下。

比如：
我带客户亲自看过本房，房子是部长楼，此房位置闹中取静，建筑质量过硬，正规的三居室带大客厅。主卧室朝南，次卧室朝东，小卧室朝西，客厅朝南，整体布局合理，没有任何浪费面积，房子建于1992年，总共3层高，此房在中间楼层（黄金楼层），卫生间很大，能做干湿分离。

从这段文本中提取特征值：
提取出：部长楼、闹中取静、建筑质量过硬，大客厅、主卧朝南、次卧朝西，布局合理、黄金楼层、干湿分离

大家有好的思路没。

阅读 6.5k

题主的这个问题，其实是中文处理。首先说一下，我不是什么大牛哈，不过倒是做过这方面调查，在这里给题主分享一下思路吧：
1 文字处理，需要词库，没有词库是无法分词、词干化的，但是词库这种东西，不是个人、小团体能造出来得
2 词库： http://www.afenxi.com/post/9700
3 有了词库，你可能还要针对你要处理的业务去“划一些界限”和“规则”，要让机器自己知道遇到多个选择、矛盾的选择应该如何处理，这就有点儿“机器学习”的意思了
4 机器学习，怎么教呢？得有教科书、题库，让机器做，那就是对应的前面的词库和N多篇文章
5 巴拉巴拉说了好几句，具体工具没说几个呵呵~~~
6 最直接的办法：去智联，搜中文处理职位，看他们的技能要求，基本上就OK了

文本特征词提取算法

效果

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何实现一个深拷贝函数？

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？