为什么重复值高的列（比如性别）不能作为索引？

（1）看到一个关于索引的面试题：为什么重复值高的列（比如性别）不能作为索引？
我觉得是因为以这种列作为二级索引的话，那么这颗B+树会以该列的值作为节点的排序标准，如果列值相同就以主键作为排序标准。如果该列重复值低，就可以根据该节点下的列值找到下一层节点。否则若重复值高，难以找到下一层的节点。不知道这么解释对不对？
（2）在二级索引的B+树中，叶子节点存储的是该列值和主键值，非叶子节点存储的是该列值，主键值以及到下一层节点的页号。如果在遍历到非叶子节点时，查询条件中的该列值与该节点记录的列值都相同，那么此时比较的依据是什么呢？主键值吗？如果查询条件中没有加上主键值该怎么办？
（3）在聚簇索引B+树的叶子节点中，每一个节点记录的是同一数据页下的全部记录数吗？还是说是部分记录？

索引数据库

mysql

阅读 4.8k

4 个回答

得票最新

小燃儿

11015

发布于
2020-08-28

✓ 已被采纳

维护索引会消耗资源，二级索引查询需要进行回表操作，那么重复性高的数据效率就无法获取索引带来的好处（因为大家都一样，也就不需要寻找了），还不如一行一行扫描的效率高
没怎么看懂。主键信息应该只存在叶子节点上。你说的是可能是多个条件查询语句？有主键条件就直接通过聚簇索引获取行信息再对比条件，如果只有二级就回表查询行再对比条件
聚簇索引的叶子节点包含该行的数据，而你说的数据页大小是固定的，为管理磁盘最小size,数据页中存储会包含多行数据（节点）。