PR

変換ソフトを使わずに、PDFをExcelに取り込む3つの方法

PDFの中の表をExcelとして取り込みたいときがあります。そんな時は、無料の変換ソフトを使うのがとても便利ですが、会社のデータや個人情報等をオンライン上で扱うのはセキュリティ面で不安が残ります。そこで今回は、変換ソフトを使わずにPDFをExcelに変換する方法をご紹介します。1つ目は、Excelから直接読み込む方法(PowerQueryで取り込む方法)で最も簡単で確実な方法ですが、最近追加された機能の為、Excel2021以降又はoffice365を使っている場合が対象となります。2つ目は、PDFファイルをWordで開いてWord文書に変換後、それをテキスト選択ツールでコピーしてExcelにペーストする方法です。ペースト後の表形式の整形がほとんどなく、列幅などの細かな調整のみでExcelとして使用できます。3つ目はPDFファイルをテキストで読み込み、テキスト選択で選択してそれをExcelにペーストする方法です。テキストに読み込む方法としては通常のacrobatで読み込む方法と、GoogleChromeやMicroSoftEgdeのWebブラウザで読み込む方法があります。ペースト後に表形式を整形する必要(スペースを追加・削除etc)がありますが、Wordでの変換がうまくいかない場合は、こちらの方法で取り込むことができます。但し、PDFファイルが複雑なレイアウトの場合やWordやChromeのバージョンによっては、うまくテキストをコピーすることができないことがありますので、ご留意下さい。

スポンサーリンク

Excelから直接読み込む

取り込むPDFを用意する。

表データの掲載されているPDFとして、ここでは総務省の情報通信白書を取り込んでみます。

ダウンロードしたサイト

郵政省のサイト

ダウンロードしたPDF

ダウンロードしたPDFファイルの中の赤枠で囲った表をExcelに取り込んでみます。

ダウンロードしたPDF

ExcelでPDFを読み込む

Excelの起動

Excelシート

PDFのインポート

データタブ→データの取得→ファイルから→PDFからをクリックします。

PDFのインポート手順

該当のPDFファイルを選択して、「インポート」をクリックします。

PDFの選択

表の読み込み

ナビゲータ画面の表示

PDFファイルを選択すると、ナビゲータ画面が表示されます。元のPDFファイルに表が複数ある為、TableとPageに、002、003・・と表示されます。

それぞれクリックすると、内容を確認することができます。

注意:
Tableは、元ファイルに含まれる表のみが対象となります。タイトル文や欄外の備考等は対象となりません。(が、欄外の文章とテーブルに1行空白行が無い場合は、テーブルとみなされる場合があります。)Pageは、表のタイトルや欄外の文章等も対象となります。

アイテムの選択

ここでは表のみを使いますので、Table001を選択して、「読み込み」をクリックします。

Tableの読み込み

読み込んだTableは新しいシートに追加されます。

PowerQueryの起動

こちらをダブルクリックすると、PowerQueryエディターという別画面が開きます。項目の削除や移動等が簡単にできます。

また、読み込んだデータによっては、見出しの部分がColumn01,02等となっている場合があります。その場合は、「1行目をヘッダーとして使用」を選択します。

PowerQueryの終了

修正が終わりましたら、左上の「閉じて読み込む」をクリックします。

データの変換

Tableの読み込みではなく、データの変換を選択すると、先にPowerQueryのエディターが開きます。直接、読み込みでも良いですし、データの変換から閉じて読み込むのでも順番はどちらでも構いません。結果は同じとなります。

スポンサーリンク

Wordを経由して取り込む

取り込むPDFを用意する。

次に、Excel2021以降又はoffice365を使っていない場合は、Excelから直接読み込むことができませんので、その場合はWordを経由して読み込みます。

ななめ線のないPDF

取り込むPDF(テストシート1とテストシート2)を2つ用意します。ななめ線があるPDFと、それがないPDFです。元となるPDFにななめ線があると図として認識される為、テキスト選択できずWordから取り込むことはできませんので、実際の現象をお見せします。

ななめ線のあるPDF

WordでPDFを読み込む

Word2013以降は、PDFファイルを直接開くことができます。文書がそのままWordで再現できるので、単純なレイアウトであれば問題なく使えます。まず、ななめ線のないPDFを読み込んでみます。PDFファイルを右クリックして、プログラムから開くを選択してWordをクリックします。

Word文書への変換

Word文書への変換の確認メッセージが表示されますのでOKをクリックします。

変換されたWordの表示

変換されたWordが表示されます。

表のコピー

十字をクリックするか又はテキスト選択ツールで必要な箇所を選択してCTRL+Cでコピーします。

Excelに貼り付け

Excelを開いて、CTRL+Vでペーストします。

後は、罫線やフォント等を自由に調整して完成です。

罫線を調整して、PDFのExcelへの取り込み完了です。

Wordで読み込めないケース

「ななめ線のあるPDF」をWordで読み込むと以下の通り、とても使えるものではありません。

使わない項目に斜線が引いてあるだけですが、複雑なレイアウトとななされ、図として認識されてレイアウトが崩れています。

このような場合は、次に解説します「テキストで読み込む」方法を試して下さい。

テキストで読み込む

Acrobatリーダーで読み込む

PDFをWord経由での取り込みがうまくいかない場合、PDFをテキストで取り込んで、Excelに貼り付け、データを修正する方法です。

表のコピー

CTRL+Aで全体選択して、CTRL+Cでコピーします。

Excelに貼り付け

Excelを開いて、A1セルにカーソルを位置づけて、CTRL+Vでペーストします。

データの修正

数式バーを確認して、A列のセルに全てのデータが格納されていて、スペースが項目の区切りとなっていることが確認できます。

「区切り位置」の選択

データが格納されている列を全て範囲選択して、データタブから「区切り位置」をクリックします。

「元のデータの形式」の選択

「コンマやタブなどの区切り文字によってフィールドごとに区切られたデータ(D)」を選択します。

区切り文字の選択

区切り文字として、スペースを選択します。

列のデータ形式の選択

そのままで、「完了」をクリックします。

データの修正完了

データがスペースで区切られています。

が、良く見ると、氏名と区分のAがくっついています。これは、元のデータ(テキスト)がくっついていたのが理由です。データの修正で、氏名と区分のAの間にスペースを1つ埋めておけば、正しく区切れたと思います。が、修正せずとも、元のデータ(テキスト)の段階でくっついていない状態にする方法があります。

GoogleChromeで読み込む

PDFを右クリックして「プログラムから開く」を選択し、「Google Chrome」を選択します。MicroSoftのEdge又はgoogleChromeもPDFの閲覧機能を備えています。

表のコピー

CTRL+Aで全体選択して、CTRL+Cでコピーします。

Excelに貼り付け

「貼り付けオプション」の選択

Excelを開いて、A1セルにカーソルを位置づけて、「形式を選択して貼り付け(S)」をクリックします。

「Unicodeテキスト」の選択

元のPDFは同じですが、氏名と区分のAがくっついていません。レイアウト情報はキチンと引き継がれています。変換の精度が高いです。

データの修正完了

罫線の調整して、PDFのExcelへの取り込みの完了です。

取り込めない場合の対処

次のような複雑なレイアウトのPDFは、取り込むことが難しいことがあります。特に、項目が併合されていたり、ななめ線がある場合は、Wordでの読み込みも、テキストでの読み込みもうまくいかないことが多々あります。この場合は、変換できる箇所のみ変換して、あとはExcelを修正するのが最適な方法です。

注意:
このPDFの場合、Excelから直接読み込む方法(PowerQueryで取り込む方法)ではうまくいきました。

Word経由で取り込めない

1枚の図として取り込まれ、テキストがコピーできず、Excelにペーストできません。これはPDFの表が結合されている場合に、テキストが埋め込みになっていない場合等に発生します。

テキストで取り込めない

Acrobatリーダーで取り込めない

Excelにペーストしても、結合されている項目はテキスト選択できていないので抜けている。

GoogleChromeで取り込めない

chromeで読み込んでも、結合されている項目は選択できない箇所が残ります。

Excelにペーストしても、テキスト選択できていないので抜けている。

対応方法

この場合、100%変換は難しいので、必要な数値を取り込み、タイトルや罫線等はExcelを直接修正しましょう。

Excelで修正

元のPDFの結合されている項目が変換されていない為、項目が左詰めとなっていますので、ここを修正します。

項目位置をづらす。

位置をずらして、文字色を赤に変更します。

項目名の入力

抜けている項目名(A,B)を追加します。

Excelの修正完了

これで、PDFのExcelへの取り込みが完了です。