PyPDF4を使用すると、Pythonを使用してタイトルや作成者等のPDF情報を取得することができます。
本記事では、PyPDF4を使用した、タイトルや作成者等のPDF情報を取得する方法について、詳しくご説明します。
PyPDF4とは
PyPDF4は、Pythonを使用してPDFを操作するための外部ライブラリの1つです。
PDF操作用ライブラリは他にも、PDFMinerやReportLabなどいくつか存在します。
それぞれのライブラリの用途は、以下の通りです。
ライブラリ | 用途 |
---|---|
PyPDF4 | ・画像の抽出 ・PDFファイルの結合や分割 ・しおり(目次)の追加 |
PDFMiner | ・テキストの抽出 |
ReportLab | ・PDFの新規作成 |
本記事では、PyPDF4による、タイトルや作成者等のPDF情報を取得する方法をご紹介します。
PyPDF4のインストール
「PyPDF4」は、以下コマンドを入力することで、インストールすることができます。
コマンドの入力は、コマンドプロンプトあるいはターミナルから行います。
pip install PyPDF4
動作確認として、試しに以下を入力します。
from PyPDF4 import PdfFileReader
上記を入力してもエラーが発生しなければ、正常にインストールされています。
タイトルや作成者等のPDF情報を取得・削除する
PDF情報の取得
「PdfFileReader」クラスのdocumentInfoを使用すると、タイトルや作成者等のPDF情報を取得することができます。
#input
from PyPDF4 import PdfFileReader
pdf = PdfFileReader("info.pdf")
for k in pdf.documentInfo.keys():
print(k, ':', pdf.documentInfo[k])
#output
/Title : info
/Producer : ***********
/Creator : NONAME
/CreationDate : *:*****************'**'
/ModDate : *:*****************'**'
タイトルや作成者等のメタデータを取得することができました。
PDF情報の削除
「PdfFileWriter」クラスのcloneReaderDocumentRoot()を使用すると、タイトルや作成者等のPDF情報を削除することができます。
#input
from PyPDF4 import PdfFileReader, PdfFileWriter
read_pdf = PdfFileReader("info.pdf")
write_pdf = PdfFileWriter()
write_pdf.cloneReaderDocumentRoot(read_pdf)
with open("info_meta_del.pdf", 'wb') as f:
write_pdf.write(f)
print(PdfFileReader("info_meta_del.pdf").documentInfo)
#output
{'/Producer': 'PyPDF4'}
Producer(変換ツール)の項目以外のメタデータが削除されました。
まとめ
この記事では、PyPDF4を使用した、タイトルや作成者等のPDF情報を取得する方法について、ご説明しました。
本記事を参考に、ぜひ試してみて下さい。
参考
Python学習用おすすめ教材
Pythonの基本を学びたい方向け
統計学基礎を学びたい方向け
Pythonの統計解析を学びたい方向け
おすすめプログラミングスクール
Pythonをはじめ、プログラミングを学ぶなら、TechAcademy(テックアカデミー)がおすすめです。
私も入っていますが、好きな時間に気軽にオンラインで学べますので、何より楽しいです。
現役エンジニアからマンツーマンで学べるので、一人では中々続かない人にも、向いていると思います。
無料体験ができますので、まずは試してみてください!