Python 3.5,来自 sklearn 的预处理
df = quandl.get('WIKI/GOOGL')
X = np.array(df)
X = preprocessing.scale(X)
原文由 0x Tps 发布,翻译遵循 CC BY-SA 4.0 许可协议
Python 3.5,来自 sklearn 的预处理
df = quandl.get('WIKI/GOOGL')
X = np.array(df)
X = preprocessing.scale(X)
原文由 0x Tps 发布,翻译遵循 CC BY-SA 4.0 许可协议
缩放数据将所有值都放在一个尺度上,消除了稀疏性,它遵循相同的规范化和标准化概念。要查看效果,可以在处理前后对dataframe调用describe:
df.describe()
#with X is already pre-proccessed
df2 = pandas.DataFrame(X)
df2.describe()
您会看到 df2 在每个字段中 均值为 0 ,标准 差为 1 。
原文由 T D Nguyen 发布,翻译遵循 CC BY-SA 4.0 许可协议
4 回答4.4k 阅读✓ 已解决
1 回答3.1k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
3 回答2.1k 阅读✓ 已解决
1 回答4.4k 阅读✓ 已解决
1 回答3.9k 阅读✓ 已解决
1 回答2.8k 阅读✓ 已解决
preprocessing.scale() 算法将您的数据放在一个尺度上。这对于大量稀疏的数据集很有帮助。简而言之,您的数据分布广泛。例如 X 的值可能是这样的:
X = [1, 4, 400, 10000, 100000]
稀疏性的问题在于它非常有偏见或在统计术语中存在偏差。因此,因此,缩放数据会将您的所有值都集中在一个尺度上,从而消除了稀疏性。关于了解它在数学细节上的工作原理,这遵循相同的规范化和标准化概念。您可以对这些进行研究,以详细了解其工作原理。但为了让生活更简单,sklearn 算法会为你做一切!