【Python】PDF内のリンクを取得する

PyPDF4を使用すると、Pythonを使用してPDF内のリンクを取得することができます。

本記事では、PyPDF4を使用した、PDF内のリンクを取得する方法について、詳しくご説明します。

こんな人に読んでほしい

Pythonを使用したPDFの操作方法を知りたい人
PDF内のリンクを取得する方法を知りたい人

PyPDF4とは
PyPDF4のインストール
PDF内のリンクを取得する
まとめ
参考
1. Python学習用おすすめ教材
2. おすすめプログラミングスクール

PyPDF4とは

PyPDF4は、Pythonを使用してPDFを操作するための外部ライブラリの１つです。

PDF操作用ライブラリは他にも、PDFMinerやReportLabなどいくつか存在します。

それぞれのライブラリの用途は、以下の通りです。

ライブラリ	用途
PyPDF4	・画像の抽出・PDFファイルの結合や分割・しおり（目次）の追加
PDFMiner	・テキストの抽出
ReportLab	・PDFの新規作成

本記事では、PyPDF4によるリンクの取得方法をご紹介します。

PyPDF4のインストール

「PyPDF4」は、以下コマンドを入力することで、インストールすることができます。

コマンドの入力は、コマンドプロンプトあるいはターミナルから行います。

pip install PyPDF4

動作確認として、試しに以下を入力します。

from PyPDF4 import PdfFileReader

上記を入力してもエラーが発生しなければ、正常にインストールされています。

PDF内のリンクを取得する

find_url()関数を実装し、以下PDFのリンクを抽出してみます。

#input
import PyPDF4
import re

# リンクを抽出したいPDFの指定
file = open("input.pdf", 'rb')
readPDF = PyPDF4.PdfFileReader(file, strict=False)
def find_url(string):
    # 文字列によるリンクの指定
    regex = r"(https?://\S+)"
    url = re.findall(regex,string)
    for url in url:
       return url

# 全ページの探索
for page_no in range(readPDF.numPages):
    page=readPDF.getPage(page_no)
    # テキストの抽出
    text = page.extractText()
    # テキストの出力
    print(find_url(text))

file.close()

#output
https://assam-blog.com/
None

PDFのリンクを抽出することができました。

まとめ

この記事では、PyPDF4を使用した、PDF内のリンクを取得する方法について、ご説明しました。

本記事を参考に、ぜひ試してみて下さい。

【Python】PDF内のリンクを取得する｜PyPDF4基礎

PyPDF4とは

PyPDF4のインストール

PDF内のリンクを取得する

まとめ

参考

Python学習用おすすめ教材

Pythonの基本を学びたい方向け

統計学基礎を学びたい方向け

Pythonの統計解析を学びたい方向け

おすすめプログラミングスクール