Pythonでファイル操作とPDF処理を効率化！初心者向けライブラリ解説

Python(パイソン)

2025.05.26

この記事は約3分で読めます。

Pythonを使えば、面倒なファイル操作やPDFの読み取り・編集もスクリプト1本で簡単に行えます。この記事では、ファイル操作とPDF処理に使える代表的なPythonライブラリを、初心者でもわかりやすく解説します。

ファイル操作の基本ライブラリ

Pythonには、標準ライブラリだけで多くのファイル操作を実現できます。ここでは、よく使われる3つのモジュールを紹介します。

osモジュールは、パスの結合やファイルの存在確認、ディレクトリの作成・削除など、幅広い機能を備えています。

import os

# パスの結合
path = os.path.join("folder", "file.txt")

# ファイルの存在確認
if os.path.exists(path):
    print("ファイルがあります")

shutilモジュールは、ファイルのコピーや移動、ディレクトリごとの操作に強力です。

import shutil

# ファイルを別の場所へコピー
shutil.copy("source.txt", "backup/source.txt")

# ディレクトリを丸ごとコピー
shutil.copytree("old_folder", "new_folder")

globは、ワイルドカードを使って特定パターンのファイル一覧を取得するのに最適です。

import glob

# カレントディレクトリ内の全てのtxtファイルを取得
txt_files = glob.glob("*.txt")

PDFを扱う場面でも、Pythonは大活躍します。ここでは、読み取り・分割・結合・抽出に便利なライブラリを2つ紹介します。

PyPDF2は、PDFファイルのページ操作（結合、分割、抽出）に使われます。

from PyPDF2 import PdfMerger

merger = PdfMerger()
merger.append("file1.pdf")
merger.append("file2.pdf")
merger.write("merged.pdf")
merger.close()

pdfplumberは、表や段組みなども含めてテキスト抽出が得意なライブラリです。

import pdfplumber

with pdfplumber.open("sample.pdf") as pdf:
    first_page = pdf.pages[0]
    text = first_page.extract_text()
    print(text)

Pythonを使えば、面倒なファイル整理やPDF操作も自動化できます。

日々の作業の効率化に、ぜひPythonを取り入れてみてください。