【数据清洗秘籍】一键搞定Excel数据去重！CodeBuddy智能处理让你的数据分析更精准

本文所使用的 CodeBuddy 免费下载链接：腾讯云代码助手 CodeBuddy - AI 时代的智能编程伙伴

前言

在数据分析和处理过程中，数据质量直接影响最终结果的准确性。Excel作为最常用的数据处理工具之一，经常会面临数据重复、数据缺失等问题。特别是在处理大量数据时，手动去重不仅耗时，还容易出错。
数据去重是数据清洗的基础步骤之一，它能够提高数据质量，减少存储空间，并确保分析结果的准确性。对于数据分析师、市场研究人员或任何需要处理表格数据的专业人士来说，掌握高效的数据去重技术至关重要。
本文将展示如何利用CodeBuddy快速生成一个Python脚本，自动对Excel文件中的特定列进行去重处理，同时保留其他列的数据，让你的数据处理工作变得简单高效。

需求分析

在开始编写代码之前，让我们明确一下我们的需求：

列数据去重：针对Excel表格中特定列（本例中为"个人主页"）进行去重
保留完整行数据：去重时保留该列首次出现的完整行数据
处理空值：正确处理可能存在的空值情况
导出结果：将去重后的数据导出到新的Excel文件
用户自定义：允许用户指定输入文件、输出文件名和目标列名

问题起因

如下图所示，Excel表格中"个人主页"这一栏目的数据比较杂乱，主要存在两个问题：

存在空值
数据重复

存在空值还好，但如果存在重复的数据，会直接影响到最终的统计结果，因此我们需要对其进行去重处理。此时，我们可以借助CodeBuddy来帮我们完成这项工作。

Excel数据重复问题

CodeBuddy 助力

我们向CodeBuddy提供以下提示词：

在我的excel 表中, 表头为个人主页的这一列的信息中可能存在重复的内容, 需求帮我去重, 并将去重的数据导出到新的excel 中 , py 脚本如和编写

向CodeBuddy提问

CodeBuddy迅速生成了解决方案，并提供了详细的使用说明：

CodeBuddy生成的解决方案

脚本实现与调试过程

获得代码后，我们开始运行脚本，但遇到了一些问题：

首次运行遇到错误

出现了错误，可能是因为我没有提及数据中存在空值的情况。我们将错误信息反馈给CodeBuddy并说明情况：

向CodeBuddy反馈错误

修改后再次运行代码：

第二次运行

查看去重后的文件，发现只保留了"个人主页"列，而我们需要保留所有列的数据：

第一版去重结果

我们继续向CodeBuddy提出新的需求，希望保留其他列的内容：

提出新需求

最终运行结果：

最终运行过程

最终去重结果

这次的运行效果完全符合我们的需求，成功实现了基于特定列去重并保留完整行数据的功能。

代码详解

下面是完整的Python脚本代码，需要的伙伴拿去玩吧

import pandas as pd
import os
from datetime import datetime


def remove_duplicates_and_export_full_rows(input_file, output_file=None, column_name="个人主页"):
    """
    读取Excel文件，基于指定列去重并保留完整行数据导出到新文件
    :param input_file: 输入Excel文件路径
    :param output_file: 输出Excel文件路径(可选)
    :param column_name: 要处理的列名(默认为"个人主页")
    """
    try:
        # 读取Excel文件
        df = pd.read_excel(input_file, engine='xlrd' if input_file.endswith('.xls') else None)

        # 检查指定列是否存在
        if column_name not in df.columns:
            print(f"错误：列 '{column_name}' 不存在于Excel表中")
            print(f"可用列名: {', '.join(df.columns)}")
            return

        # 检查列是否全部为空
        if df[column_name].isnull().all():
            print(f"警告：列 '{column_name}' 中没有任何数据，跳过处理")
            return

        # 基于指定列去重，保留第一个出现的完整行
        result_df = df.drop_duplicates(subset=[column_name], keep='first')

        # 设置输出文件名(如果未提供)
        if output_file is None:
            timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
            output_file = f"去重完整行结果_{timestamp}.xlsx"

        # 导出到新Excel文件
        result_df.to_excel(output_file, index=False, engine='xlsxwriter')

        print(f"去重完成！结果已保存到: {output_file}")
        print(f"原始数据量: {len(df)} 行 | 去重后: {len(result_df)} 行")
        print(f"去除重复: {len(df) - len(result_df)} 行")

    except Exception as e:
        print(f"处理过程中发生错误: {str(e)}")
        print("建议：")
        print("1. 检查Excel文件格式是否正确")
        print("2. 尝试将文件另存为.xlsx格式")
        print("3. 确保文件没有被其他程序占用")


if __name__ == "__main__":
    # 使用示例
    input_excel = input("请输入Excel文件路径: ").strip()

    if not os.path.exists(input_excel):
        print("错误：文件不存在，请检查路径")
    else:
        # 可选：自定义输出文件名
        output_name = input("请输入输出文件名(可选，直接回车使用默认名称): ").strip()
        output_file = None if not output_name else output_name

        # 可选：自定义列名
        column = input("请输入要处理的列名(默认为'个人主页'): ").strip()
        column_name = "个人主页" if not column else column

        remove_duplicates_and_export_full_rows(input_excel, output_file, column_name)

总结

通过这个实用的案例，我们看到了CodeBuddy在数据处理自动化方面的强大能力。从最初的需求描述到最终的功能实现，CodeBuddy不仅能够快速生成代码，还能根据反馈进行迭代优化，最终提供一个满足需求的完整解决方案。
CodeBuddy展示了AI辅助编程在数据处理领域的巨大潜力。它不仅能够理解用户的需求，还能根据反馈不断调整和完善解决方案。这种交互式的开发方式，让即使是编程初学者也能快速实现复杂的数据处理功能。
在数据驱动决策日益重要的今天，高效的数据处理工具变得越来越关键。通过利用像CodeBuddy这样的AI工具，我们可以将重复性的数据清洗任务自动化，将更多时间和精力集中在数据分析和洞察挖掘上，从而为业务决策提供更有价值的支持。

【数据清洗秘籍】一键搞定Excel数据去重！CodeBuddy智能处理让你的数据分析更精准

前言

需求分析

问题起因

CodeBuddy 助力

脚本实现与调试过程

代码详解

总结

全栈若城

引用和评论

可能是腾讯游戏首次接入满血版 DeepSeek——知几公众号对接腾讯云 DeepSeek 方案

告别繁琐开发！CodeBuddy - 程序员的效率倍增神器（一）

【效率神器】一键搞定！用CodeBuddy实现多Excel文件智能合并

【实战案例】代码出Bug不用慌！CodeBuddy智能修复让你告别调试烦恼

【实战教程】借助 CodeBuddy 轻松打造精美中文词云图 - AI 编程助手使用体验

AI编程神器：10分钟用CodeBuddy打造精美电子名片（零基础教程）

【实战教程】用CodeBuddy打造多风格图片合成神器