【Python】タイトルや作成者等のPDF情報を取得する|PyPDF4基礎

タイトルや作成者等のPDF情報を取得する|PyPDF4基礎_アイキャッチ プログラミング

※ 当サイトはアフィリエイト広告を利用しています。

levtech-ad
スポンサーリンク

PyPDF4を使用すると、Pythonを使用してタイトルや作成者等のPDF情報を取得することができます。

本記事では、PyPDF4を使用した、タイトルや作成者等のPDF情報を取得する方法について、詳しくご説明します。

こんな人に読んでほしい
  • Pythonを使用したPDFの操作方法を知りたい人
  • タイトルや作成者等のPDF情報を取得する方法を知りたい人
levtech-ad

PyPDF4とは

PyPDF4は、Pythonを使用してPDFを操作するための外部ライブラリの1つです。

PDF操作用ライブラリは他にも、PDFMinerReportLabなどいくつか存在します。

それぞれのライブラリの用途は、以下の通りです。

ライブラリ用途
PyPDF4・画像の抽出
・PDFファイルの結合や分割
・しおり(目次)の追加
PDFMiner・テキストの抽出
ReportLab・PDFの新規作成

本記事では、PyPDF4による、タイトルや作成者等のPDF情報を取得する方法をご紹介します。

PyPDF4のインストール

「PyPDF4」は、以下コマンドを入力することで、インストールすることができます。

コマンドの入力は、コマンドプロンプトあるいはターミナルから行います。

pip install PyPDF4

動作確認として、試しに以下を入力します。

from PyPDF4 import PdfFileReader

上記を入力してもエラーが発生しなければ、正常にインストールされています。

タイトルや作成者等のPDF情報を取得・削除する

PDF情報の取得

PdfFileReader」クラスのdocumentInfoを使用すると、タイトルや作成者等のPDF情報を取得することができます。

#input
from PyPDF4 import PdfFileReader

pdf = PdfFileReader("info.pdf")

for k in pdf.documentInfo.keys():
    print(k, ':', pdf.documentInfo[k])
#output
/Title : info
/Producer : ***********
/Creator : NONAME
/CreationDate : *:*****************'**'
/ModDate : *:*****************'**'

タイトルや作成者等のメタデータを取得することができました。

PDF情報の削除

PdfFileWriter」クラスのcloneReaderDocumentRoot()を使用すると、タイトルや作成者等のPDF情報を削除することができます。

#input
from PyPDF4 import PdfFileReader, PdfFileWriter

read_pdf = PdfFileReader("info.pdf")
write_pdf = PdfFileWriter()

write_pdf.cloneReaderDocumentRoot(read_pdf)

with open("info_meta_del.pdf", 'wb') as f:
    write_pdf.write(f)

print(PdfFileReader("info_meta_del.pdf").documentInfo)
#output
{'/Producer': 'PyPDF4'}

Producer(変換ツール)の項目以外のメタデータが削除されました。

まとめ

この記事では、PyPDF4を使用した、タイトルや作成者等のPDF情報を取得する方法について、ご説明しました。

本記事を参考に、ぜひ試してみて下さい。

参考

Python学習用おすすめ教材

Pythonの基本を学びたい方向け

統計学基礎を学びたい方向け

Pythonの統計解析を学びたい方向け

おすすめプログラミングスクール

Pythonをはじめ、プログラミングを学ぶなら、TechAcademy(テックアカデミー)がおすすめです。

私も入っていますが、好きな時間に気軽にオンラインで学べますので、何より楽しいです。

現役エンジニアからマンツーマンで学べるので、一人では中々続かない人にも、向いていると思います。

無料体験ができますので、まずは試してみてください!

\まずは無料体験!/
スポンサーリンク
タイトルとURLをコピーしました