Pythonを使えば、面倒なファイル操作やPDFの読み取り・編集もスクリプト1本で簡単に行えます。この記事では、ファイル操作とPDF処理に使える代表的なPythonライブラリを、初心者でもわかりやすく解説します。
ファイル操作の基本ライブラリ
Pythonには、標準ライブラリだけで多くのファイル操作を実現できます。ここでは、よく使われる3つのモジュールを紹介します。
os:ファイルパスやディレクトリ操作に便利
os
モジュールは、パスの結合やファイルの存在確認、ディレクトリの作成・削除など、幅広い機能を備えています。
import os
# パスの結合
path = os.path.join("folder", "file.txt")
# ファイルの存在確認
if os.path.exists(path):
print("ファイルがあります")
shutil:ファイルやディレクトリのコピー・移動
shutil
モジュールは、ファイルのコピーや移動、ディレクトリごとの操作に強力です。
import shutil
# ファイルを別の場所へコピー
shutil.copy("source.txt", "backup/source.txt")
# ディレクトリを丸ごとコピー
shutil.copytree("old_folder", "new_folder")
glob:ファイルの一覧取得に便利
glob
は、ワイルドカードを使って特定パターンのファイル一覧を取得するのに最適です。
import glob
# カレントディレクトリ内の全てのtxtファイルを取得
txt_files = glob.glob("*.txt")
PDF処理の代表ライブラリ
PDFを扱う場面でも、Pythonは大活躍します。ここでは、読み取り・分割・結合・抽出に便利なライブラリを2つ紹介します。
PyPDF2:PDFの結合・分割に最適
PyPDF2
は、PDFファイルのページ操作(結合、分割、抽出)に使われます。
from PyPDF2 import PdfMerger
merger = PdfMerger()
merger.append("file1.pdf")
merger.append("file2.pdf")
merger.write("merged.pdf")
merger.close()
pdfplumber:PDFから正確にテキストを抽出
pdfplumber
は、表や段組みなども含めてテキスト抽出が得意なライブラリです。
import pdfplumber
with pdfplumber.open("sample.pdf") as pdf:
first_page = pdf.pages[0]
text = first_page.extract_text()
print(text)
まとめ
Pythonを使えば、面倒なファイル整理やPDF操作も自動化できます。
os
やshutil
で基本的なファイル管理glob
でパターンにマッチするファイルを一括取得PyPDF2
でPDFのページ編集pdfplumber
で精度の高いテキスト抽出
日々の作業の効率化に、ぜひPythonを取り入れてみてください。