【Python】タイトルや作成者等のPDF情報を取得する

PyPDF4を使用すると、Pythonを使用してタイトルや作成者等のPDF情報を取得することができます。

本記事では、PyPDF4を使用した、タイトルや作成者等のPDF情報を取得する方法について、詳しくご説明します。

こんな人に読んでほしい

Pythonを使用したPDFの操作方法を知りたい人
タイトルや作成者等のPDF情報を取得する方法を知りたい人

PyPDF4とは
PyPDF4のインストール
タイトルや作成者等のPDF情報を取得・削除する
1. PDF情報の取得
2. PDF情報の削除
まとめ
参考
1. Python学習用おすすめ教材
2. おすすめプログラミングスクール

PyPDF4とは

PyPDF4は、Pythonを使用してPDFを操作するための外部ライブラリの１つです。

PDF操作用ライブラリは他にも、PDFMinerやReportLabなどいくつか存在します。

それぞれのライブラリの用途は、以下の通りです。

ライブラリ	用途
PyPDF4	・画像の抽出・PDFファイルの結合や分割・しおり（目次）の追加
PDFMiner	・テキストの抽出
ReportLab	・PDFの新規作成

本記事では、PyPDF4による、タイトルや作成者等のPDF情報を取得する方法をご紹介します。

PyPDF4のインストール

「PyPDF4」は、以下コマンドを入力することで、インストールすることができます。

コマンドの入力は、コマンドプロンプトあるいはターミナルから行います。

pip install PyPDF4

動作確認として、試しに以下を入力します。

from PyPDF4 import PdfFileReader

上記を入力してもエラーが発生しなければ、正常にインストールされています。

タイトルや作成者等のPDF情報を取得・削除する

PDF情報の取得

「PdfFileReader」クラスのdocumentInfoを使用すると、タイトルや作成者等のPDF情報を取得することができます。

#input
from PyPDF4 import PdfFileReader

pdf = PdfFileReader("info.pdf")

for k in pdf.documentInfo.keys():
    print(k, ':', pdf.documentInfo[k])

#output
/Title : info
/Producer : ***********
/Creator : NONAME
/CreationDate : *:*****************'**'
/ModDate : *:*****************'**'

タイトルや作成者等のメタデータを取得することができました。

PDF情報の削除

「PdfFileWriter」クラスのcloneReaderDocumentRoot()を使用すると、タイトルや作成者等のPDF情報を削除することができます。

#input
from PyPDF4 import PdfFileReader, PdfFileWriter

read_pdf = PdfFileReader("info.pdf")
write_pdf = PdfFileWriter()

write_pdf.cloneReaderDocumentRoot(read_pdf)

with open("info_meta_del.pdf", 'wb') as f:
    write_pdf.write(f)

print(PdfFileReader("info_meta_del.pdf").documentInfo)

#output
{'/Producer': 'PyPDF4'}

Producer（変換ツール）の項目以外のメタデータが削除されました。

まとめ

この記事では、PyPDF4を使用した、タイトルや作成者等のPDF情報を取得する方法について、ご説明しました。

本記事を参考に、ぜひ試してみて下さい。

【Python】タイトルや作成者等のPDF情報を取得する｜PyPDF4基礎

PyPDF4とは

PyPDF4のインストール

タイトルや作成者等のPDF情報を取得・削除する

PDF情報の取得

PDF情報の削除

まとめ

参考

Python学習用おすすめ教材

Pythonの基本を学びたい方向け

統計学基礎を学びたい方向け

Pythonの統計解析を学びたい方向け

おすすめプログラミングスクール