PDFをHTMLに変換とは?

PDF to HTMLは、PDFファイルからテキスト、見出し、基本構造を抽出し、クリーンでセマンティックなHTMLに変換します。PDFコンテンツをウェブアクセス可能にしたり、編集・検索可能にするのに便利です。

パーサーはpdf.jsで各ページのテキスト断片を、位置・フォントサイズ・太さとともに抽出します。見出し検出は文書中央値とサイズを比較し、突出したものをh1/h2/h3へ昇格、本文はpタグになり段落区切りは縦の空きから決まります。クリーンなセマンティックHTML、シンプルな段落、ページごとに忠実なSVG、ピクセル単位で配置されたブロック──六つの変換モードから目的に合わせて選べます。暗号化ファイルにも対応し、必要に応じてパスワード入力欄が現れます。

使い方

  1. PDFファイルをアップロードします。ツールが各ページを解析し、位置データ付きのテキストを抽出します。
  2. 抽出されたHTMLプレビューを確認し、見出し検出の感度などのフォーマットオプションを調整します。
  3. HTMLをクリップボードにコピーするか、.htmlファイルとしてダウンロードします。

使用するタイミング

  • 製品仕様書・マニュアル・ホワイトペーパーをPDFからドキュメントサイトへ移行する。
  • 印刷用のフォームや規定文書をWeb化して検索可能にする。
  • 論文から本文を抜き出して引用や注釈を付ける。

結果

開発者が12ページの製品仕様書をPDFで受け取ります。ここにアップロードすると、適切な見出しと段落を持つクリーンなHTMLが得られ、チームが参照できるようプロジェクトWikiに貼り付けます。

よくある質問

PDF内の画像や図表はHTMLに引き継がれますか?
既定ではテキストのみを抽出するため、埋め込み画像・ベクター図表・フォーム欄は省かれます。「ページ画像を埋め込む」をオンにすると各ページが画像として描画されて HTML に入り、図表やグラフ、スキャンしたページまで残せます。ファイルは単体で完結し、外部にホストされるものはありません。画像品質を上げるほど鮮明になり、ファイルは大きくなります。
文の途中で不自然な改行が出るのはなぜ?
一部のPDFは段落区切りではなく行単位のハード改行で保存されています。「レイアウトを保持」をオフにすると、コンバーターが縦方向の間隔から行を段落に再構成します。2段組レイアウトでもこのオプションをオフにする必要があります。
見出し検出は常に正確ですか?
PDFが見出しに大きめのフォントや太字を使っている(一般的なケース)場合はよく当たります。色や配置だけで見出しを区別しサイズが同じ文書だと当てになりません。「見出し検出」をオフにすれば全部pタグになり、手でマークアップできます。
出力HTMLはそのまま公開できますか?
デフォルトでインラインJavaScriptも外部スクリプトもインラインスタイルもないセマンティックHTMLです。任意のCMSや静的サイトジェネレーターに貼り、自分のテンプレートで見た目を整えれば完了です。
パスワード保護や暗号化されたPDFはどうなりますか?
パスワード付きPDFに対応しました。暗号化されたファイルをアップロードするとパスワード入力欄が表示されます。入力すれば、このページ内でロックを解除して変換まで完了します。パスワードがサーバーに送られることはありません。

関連ツール