新手上路，请多包涵

我有一个数据框，其中大部分列都是 varchar/object 类型。列的长度变化很大，可以是 3 - 1000+ 范围内的任何值。现在，对于每一列，我想测量最大长度。

我知道如何计算列的最大长度。如果是 varchar 那么：

 max(df.char_col.apply(len))

如果它的编号（float8 或 int64）则：

 max(df.num_col.map(str).apply(len))

但是我的数据框有数百列，我想同时计算所有列的最大长度。问题是，有不同的数据类型，我不知道如何一次完成。

所以问题 1：如何获取数据框中每列的最大列长度

现在我尝试使用以下代码仅对 varchar/object 类型的列执行此操作：

 xx = df.select_dtypes(include = ['object'])
for col in [xx.columns.values]:
   maxlength = [max(xx.col.apply(len))]

我只选择了对象类型列并尝试编写一个 for 循环。但它不起作用。在 for 循环中使用 apply() 可能不是一个好主意。

问题2：如何只获取对象类型列的每列的最大长度

示例数据框：

 d1 = {'name': ['john', 'tom', 'bob', 'rock', 'jimy'], 'DoB': ['01/02/2010', '01/02/2012', '11/22/2014', '11/22/2014', '09/25/2016'], 'Address': ['NY', 'NJ', 'PA', 'NY', 'CA'], 'comment1': ['Very good performance', 'N/A', 'Need to work hard', 'No Comment', 'Not satisfactory'], 'comment2': ['good', 'Meets Expectation', 'N', 'N/A', 'Incompetence']}
df1 = pd.DataFrame(data = d1)
df1['month'] = pd.DatetimeIndex(df1['DoB']).month
df1['year'] = pd.DatetimeIndex(df1['DoB']).year

原文由 singularity2047 发布，翻译遵循 CC BY-SA 4.0 许可协议

python python-3.x pandas dataframe series

阅读 1.6k

2 个回答

得票最新

社区维基

发布于
2022-11-15

✓ 已被采纳

一种解决方案是使用 numpy.vectorize 。这可能比基于 pandas 的解决方案更有效。

您可以使用 pd.DataFrame.select_dtypes 选择 object 列。

 import pandas as pd
import numpy as np

df = pd.DataFrame({'A': ['abc', 'de', 'abcd'],
                   'B': ['a', 'abcde', 'abc'],
                   'C': [1, 2.5, 1.5]})

measurer = np.vectorize(len)

所有列的最大长度

res1 = measurer(df.values.astype(str)).max(axis=0)

array([4, 5, 3])

对象列的最大长度

res2 = measurer(df.select_dtypes(include=[object]).values.astype(str)).max(axis=0)

array([4, 5])

或者，如果您需要将输出作为字典：

 res1 = dict(zip(df, measurer(df.values.astype(str)).max(axis=0)))

{'A': 4, 'B': 5, 'C': 3}

df_object = df.select_dtypes(include=[object])
res2 = dict(zip(df_object, measurer(df_object.values.astype(str)).max(axis=0)))

{'A': 4, 'B': 5}

原文由 jpp 发布，翻译遵循 CC BY-SA 4.0 许可协议

社区维基

发布于
2022-11-15

你可以在使用 str 和 len 方法后使用 min max

 df["A"].str.len().max()
df["A"].str.len().min()

df["Column Name"].str.len().max()
df["Column Name"].str.len().min()

原文由 MSallal 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

如何使用pandas python获取数据框中每列的最大长度

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何实现一个深拷贝函数？

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译