1

1、词频

词在文档中出现的频度是多少? 频度越高,权重 _越高_;修改为词频对得分没有影响:
tf(t in d) = √frequency 词 t 在文档 d 的词频( tf )是该词在文档中出现次数的平方根。
index
{
"mappings": {
"doc": {

"properties": {
  "text": {
    "type":          "string",
    "index_options": "docs" 
  }
}

}
}
}
设置为 docs 可以禁用词频统计及词频位置,这个映射的字段不会计算词的出现次数,对于短语或近似查询也不可用。要求精确查询的 not_analyzed 字符串字段会默认使用该设置。
2、文档长度归一
字段越短,字段的权重 越高 。如果词出现在类似标题 title 这样的字段,要比它出现在内容 body 这样的字段中的相关度更高。字段长度的归一值公式如下:
norm(d) = 1 / √numTerms
index
{
"mappings": {
"doc": {

"properties": {
  "text": {
    "type": "string",
    "norms": { "enabled": false } 
  }
}

}
}


Steven
21 声望3 粉丝

对酒当歌,人生几何,美景之中,举杯畅饮,放下心中的执念,醉一回,痛快一回;一本樱花酒,醉了春风醉了酒。