归一化-处理连续特征和离散特征并存情况

尹某某

image.png

别人答的已经很漂亮了,我就简单复述一下。
1、重新规划连续特征边界:就是将连续值缩放到[-1,1],注意既可以缩也可以放大。
2、标准化连续特征:这个就套公式就行,计算平均值和方差,但是如果方差小还是不大行。
3、是针对离散变量而言,更像是skearn里面的哑变量处理,所有离散变量不论多大全部改为01。

另外:
我自己补充,如果是机器特征学习上述就行。深度学习可以不改哑变量,现在万物皆可embedding,用嵌入层将离散变量压缩变得稠密,将连续变量rescale bound 就行。

阅读 1.5k

机器学习爱好者

1 声望
1 粉丝
0 条评论

机器学习爱好者

1 声望
1 粉丝
文章目录
宣传栏