Что такое PDF в HTML?

PDF to HTML извлекает текст, заголовки и базовую структуру из PDF-файлов и преобразует их в чистый семантический HTML. Полезно для обеспечения веб-доступности PDF-контента, его редактирования или поиска по нему.

Парсер использует pdf.js, чтобы вытащить фрагменты текста вместе с их положением, размером шрифта и насыщенностью на каждой странице. Распознавание заголовков сравнивает размеры с медианой документа и продвигает крупные строки в h1/h2/h3, основной текст превращается в p, а разрывы абзацев берутся из вертикальных пропусков. Выбирайте один из шести режимов конвертации: чистый семантический HTML, простые абзацы, точная SVG-копия каждой страницы или блоки с пиксельным позиционированием. Зашифрованные файлы тоже поддерживаются — поле для пароля появляется, когда нужно.

Как использовать

  1. Загрузите PDF-файл — инструмент разберёт каждую страницу и извлечёт текст с позиционными данными.
  2. Просмотрите предварительный просмотр извлечённого HTML и настройте параметры форматирования, такие как чувствительность определения заголовков.
  3. Скопируйте HTML в буфер обмена или скачайте как .html-файл.

Когда использовать

  • Перенести продуктовые спецификации, руководства или whitepaper из PDF в сайт документации.
  • Сделать форму или регламент, доступные для печати, индексируемыми на публичном сайте.
  • Вытащить текст из научной статьи, чтобы цитировать или комментировать абзацы.

Результат

Разработчик получает спецификацию продукта в виде 12-страничного PDF. Загружает его сюда, получает чистый HTML с правильными заголовками и абзацами и вставляет в вики проекта, чтобы команда могла обращаться к нему.

Частые вопросы

Перенесутся ли изображения и графики из PDF в HTML?
По умолчанию извлекается только текст, поэтому встроенные изображения, векторные диаграммы и поля форм пропускаются. Включите «Встроить изображения страниц» — и каждая страница отрисуется как картинка и попадёт в HTML, так что диаграммы, графика и даже отсканированные страницы сохранятся. Файл остаётся автономным — ничего не размещается на стороне. Чем выше качество изображения, тем оно чётче и тем больше файл.
Почему иногда появляются переносы строк посреди предложения?
Некоторые PDF хранят текст с жёсткими переводами строк вместо границ абзацев. Выключите «Сохранять разметку», и конвертер заново склеит строки в абзацы по вертикальным отступам. Двухколоночные макеты тоже требуют выключения этой опции.
Всегда ли детектор заголовков угадывает правильно?
Работает хорошо, когда заголовки в PDF набраны крупнее или жирнее (типичный случай). Документы, где заголовки выделены только цветом или позицией при том же кегле, его сбивают — выключите детектор, всё станет p, и разметите вручную.
Можно ли публиковать получившийся HTML напрямую?
На выходе семантический HTML без инлайн-JavaScript, без внешних скриптов и без инлайн-стилей по умолчанию. Вставляете в любой CMS или генератор статики, оборачиваете в свой шаблон — и готово.
Что насчёт PDF с паролем или шифрованием?
Защищённые паролем PDF поддерживаются. Если файл зашифрован, после загрузки появится поле для пароля — введите его, и документ откроется и преобразуется прямо здесь. Пароль никуда не отправляется.

Похожие инструменты