Pythonはその柔軟さと豊富なライブラリ群から、データ分析や業務自動化の現場で幅広く活用されています。この記事では、特に「データ処理・分析」に役立つ代表的なライブラリを紹介します。
pandas:表形式データを自在に操る最強ツール
pandasは、行と列からなる「データフレーム」という形式でデータを扱えるライブラリです。Excelのように、フィルタ・並べ替え・集計・結合・欠損値処理などが簡単に行えます。
特に以下のような場面で大活躍します。
- 売上データやアンケート集計の分析
- CSVやExcelファイルからのデータ取り込みと加工
- 複数データの突き合わせ(マージ)
import pandas as pd
df = pd.read_csv("sales.csv")
monthly = df.groupby("month")["amount"].sum()
print(monthly)
numpy:高速な数値計算の基盤
numpyは、大量の数値データを効率的に処理できるライブラリです。特に科学技術計算、統計解析、画像処理などに欠かせません。
- 多次元配列(ndarray)の操作
- ベクトル演算や行列計算
- 高速なループ処理の代替
import numpy as np
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
print(a + b) # [5 7 9]
openpyxl / xlrd / xlsxwriter:Excelファイルを自在に扱う
業務で必ずと言っていいほど出てくるExcelファイルも、Pythonで柔軟に操作できます。
- openpyxl:Excelの読み書き、シートの操作、セルの装飾も可能(.xlsx専用)
- xlrd:古いExcel形式(.xls)の読み込みに対応
- xlsxwriter:書き込みに特化。見た目を整えた報告書の自動出力などに便利
from openpyxl import Workbook
wb = Workbook()
ws = wb.active
ws["A1"] = "Hello"
wb.save("sample.xlsx")
csv:軽量で手軽なCSV操作(標準ライブラリ)
CSV形式の読み書きなら、標準で用意されているcsv
モジュールが便利です。小規模なデータ処理や、外部ツールとのデータ連携に最適です。
import csv
with open("data.csv", newline="") as f:
reader = csv.reader(f)
for row in reader:
print(row)
まとめ
Pythonの「データ処理・分析」における強力なライブラリは、業務効率を劇的に向上させます。pandasやnumpyはもちろん、ExcelやCSVとの連携までカバーできる点が、ビジネスユースにおける最大の魅力です。
初心者の方も、まずはpandas
とnumpy
から始めてみるのがおすすめです。シンプルな操作でも、大量データをスマートに扱えるようになります。