使用 fancyimpute 和 pandas 进行数据插补

我有一个大熊猫数据成名 df 。它有很多缺失。删除 row/or col-wise 不是一种选择。估算中位数、均值或最频繁的值也不是一个选项（因此估算 pandas 和/或 scikit 不幸的是没有做到这一点）。

我遇到了一个看起来很简洁的包，叫做 fancyimpute （你可以在这里找到它）。但是我有一些问题。

这是我所做的：

 #the neccesary imports
import pandas as pd
import numpy as np
from fancyimpute import KNN

# df is my data frame with the missings. I keep only floats
df_numeric = = df.select_dtypes(include=[np.float])

# I now run fancyimpute KNN,
# it returns a np.array which I store as a pandas dataframe
df_filled = pd.DataFrame(KNN(3).complete(df_numeric))

但是， df_filled 是一个单一的矢量，而不是填充的数据框。我如何通过插补获得数据框？

更新

我意识到， fancyimpute 需要一个 numpay array 。因此，我使用 as_matrix() 将 df_numeric 转换为数组。

 # df is my data frame with the missings. I keep only floats
df_numeric = df.select_dtypes(include=[np.float]).as_matrix()

# I now run fancyimpute KNN,
# it returns a np.array which I store as a pandas dataframe
df_filled = pd.DataFrame(KNN(3).complete(df_numeric))

输出是一个缺少列标签的数据框。有什么方法可以检索标签？

原文由 Rachel 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 961

使用 fancyimpute 和 pandas 进行数据插补

更新

你尚未登录，登录后可以

Qt中布局是否只有5种呢？

这段代码为什么不能获取到数据？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

请问一下，如何理解reduce函数呢？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

如何使用 python 代码实现迅雷磁力链接资源的下载？

在PyCharm开发不同python项目，如果每个项目使用自己的venv环境，是不是每次切换项目都需要修改python interpreter？

Stack Overflow 翻译