示例目录
使用Python遍历文件夹下的所有Excel文件
在数据分析和处理工作中,经常需要对大量数据进行分析,读取Excel文件是一个常见的任务,本文将介绍如何使用Python编写脚本,以高效地遍历指定路径下的所有Excel文件,并提取其中的数据。
步骤 1: 导入必要的库
我们需要导入os和pandas库,这两个库分别用于操作操作系统命令行和处理Excel文件。
import os import pandas as pd
步骤 2: 定义函数来查找Excel文件
定义一个函数,该函数接收一个目录作为参数,返回该目录及其子目录中的所有Excel文件的完整路径列表。
def find_excel_files(directory):
excel_files = []
for root, dirs, files in os.walk(directory):
for file in files:
if file.endswith('.xlsx') or file.endswith('.xls'):
full_path = os.path.join(root, file)
excel_files.append(full_path)
return excel_files
步骤 3: 遍历并加载Excel文件
使用上述函数找到所有的Excel文件后,可以使用Pandas库来读取这些文件的内容。
# 找到所有Excel文件
excel_files = find_excel_files(directory)
# 初始化一个空DataFrame来存储数据
data_frames = []
# 遍历每个Excel文件并加载数据
for file in excel_files:
try:
df = pd.read_excel(file)
data_frames.append(df)
except Exception as e:
print(f"Error loading {file}: {e}")
# 将所有DataFrame合并为一个大的DataFrame
combined_df = pd.concat(data_frames, ignore_index=True)
# 显示或进一步处理合并后的DataFrame
print(combined_df.head())
代码展示了如何使用Python遍历特定路径下的所有Excel文件,并提取其内容,通过这种方式,我们可以轻松地处理大量的数据集,无论是个人项目还是大规模数据分析任务。

上一篇