【Python】PDFのテキストを削除する

PyPDF4を使用すると、Pythonを使用してPDFのテキストを削除することができます。

本記事では、PyPDF4を使用した、PDFのテキストを削除する方法について、詳しくご説明します。

こんな人に読んでほしい

Pythonを使用したPDFの操作方法を知りたい人
PDFのテキストを削除する方法を知りたい人

PyPDF4とは
PyPDF4のインストール
PDFのテキストを削除する
まとめ
参考
1. Python学習用おすすめ教材
2. おすすめプログラミングスクール

PyPDF4とは

PyPDF4は、Pythonを使用してPDFを操作するための外部ライブラリの１つです。

PDF操作用ライブラリは他にも、PDFMinerやReportLabなどいくつか存在します。

それぞれのライブラリの用途は、以下の通りです。

ライブラリ	用途
PyPDF4	・画像の抽出・PDFファイルの結合や分割・しおり（目次）の追加
PDFMiner	・テキストの抽出
ReportLab	・PDFの新規作成

本記事では、PyPDF4による、PDFのテキストを削除する方法をご紹介します。

PyPDF4のインストール

「PyPDF4」は、以下コマンドを入力することで、インストールすることができます。

コマンドの入力は、コマンドプロンプトあるいはターミナルから行います。

pip install PyPDF4

動作確認として、試しに以下を入力します。

from PyPDF4 import PdfFileReader

上記を入力してもエラーが発生しなければ、正常にインストールされています。

PDFのテキストを削除する

「PdfFileWriter」クラスのremoveText()メソッドを使用すると、指定したPDF内のテキストを削除することができます。

上記メソッドを使用して、以下PDFのテキストを削除してみます。

#input
from PyPDF4 import PdfFileReader, PdfFileWriter

# テキスト削除用PDFの読み込み
pdf_file_path = "input.pdf"
pdf_reader = PdfFileReader(open(pdf_file_path, 'rb'), strict=False)

# 書き込み用オブジェクトの作成
output = PdfFileWriter()

# PDFのページ数取得
num = pdf_reader.numPages

# PDFページコピー
for cp in range(num):
    page = pdf_reader.getPage(cp)
    output.addPage(page)

# テキスト削除
output.removeText()

# 出力
output_name = "output.pdf"
output_stream = open(output_name, 'wb')
output.write(output_stream)
output_stream.close()

テキストデータのみが削除されました。

まとめ

この記事では、PyPDF4を使用した、PDFのテキストを削除する方法について、ご説明しました。

本記事を参考に、ぜひ試してみて下さい。

【Python】PDFのテキストを削除する｜PyPDF4基礎

PyPDF4とは

PyPDF4のインストール

PDFのテキストを削除する

まとめ

参考

Python学習用おすすめ教材

Pythonの基本を学びたい方向け

統計学基礎を学びたい方向け

Pythonの統計解析を学びたい方向け

おすすめプログラミングスクール