Clicky

Pythonでファイル操作とPDF処理を効率化!初心者向けライブラリ解説

Python(パイソン)
Python(パイソン)
この記事は約3分で読めます。

※記事中に広告情報を含みます。

スキルを手に入れた時、人は強くなれる。
Youtubeでスキルアップを始める 電子書籍でスキルアップを始める
\ワードプレスのスキルアップはこちら!/ WordPress入門読本

Pythonを使えば、面倒なファイル操作やPDFの読み取り・編集もスクリプト1本で簡単に行えます。この記事では、ファイル操作PDF処理に使える代表的なPythonライブラリを、初心者でもわかりやすく解説します。

ファイル操作の基本ライブラリ

Pythonには、標準ライブラリだけで多くのファイル操作を実現できます。ここでは、よく使われる3つのモジュールを紹介します。

os:ファイルパスやディレクトリ操作に便利

osモジュールは、パスの結合やファイルの存在確認、ディレクトリの作成・削除など、幅広い機能を備えています。

import os

# パスの結合
path = os.path.join("folder", "file.txt")

# ファイルの存在確認
if os.path.exists(path):
print("ファイルがあります")

shutil:ファイルやディレクトリのコピー・移動

shutilモジュールは、ファイルのコピーや移動、ディレクトリごとの操作に強力です。

import shutil

# ファイルを別の場所へコピー
shutil.copy("source.txt", "backup/source.txt")

# ディレクトリを丸ごとコピー
shutil.copytree("old_folder", "new_folder")

glob:ファイルの一覧取得に便利

globは、ワイルドカードを使って特定パターンのファイル一覧を取得するのに最適です。

import glob

# カレントディレクトリ内の全てのtxtファイルを取得
txt_files = glob.glob("*.txt")

PDF処理の代表ライブラリ

PDFを扱う場面でも、Pythonは大活躍します。ここでは、読み取り・分割・結合・抽出に便利なライブラリを2つ紹介します。

PyPDF2:PDFの結合・分割に最適

PyPDF2は、PDFファイルのページ操作(結合、分割、抽出)に使われます。

from PyPDF2 import PdfMerger

merger = PdfMerger()
merger.append("file1.pdf")
merger.append("file2.pdf")
merger.write("merged.pdf")
merger.close()

pdfplumber:PDFから正確にテキストを抽出

pdfplumberは、表や段組みなども含めてテキスト抽出が得意なライブラリです。

import pdfplumber

with pdfplumber.open("sample.pdf") as pdf:
first_page = pdf.pages[0]
text = first_page.extract_text()
print(text)

まとめ

Pythonを使えば、面倒なファイル整理やPDF操作も自動化できます。

  • osshutilで基本的なファイル管理
  • globでパターンにマッチするファイルを一括取得
  • PyPDF2でPDFのページ編集
  • pdfplumberで精度の高いテキスト抽出

日々の作業の効率化に、ぜひPythonを取り入れてみてください。