Что такое PDF в HTML?
PDF to HTML извлекает текст, заголовки и базовую структуру из PDF-файлов и преобразует их в чистый семантический HTML. Полезно для обеспечения веб-доступности PDF-контента, его редактирования или поиска по нему.
Парсер использует pdf.js, чтобы вытащить фрагменты текста вместе с их положением, размером шрифта и насыщенностью на каждой странице. Распознавание заголовков сравнивает размеры с медианой документа и продвигает крупные строки в h1/h2/h3, основной текст превращается в p, а разрывы абзацев берутся из вертикальных пропусков. Выбирайте один из шести режимов конвертации: чистый семантический HTML, простые абзацы, точная SVG-копия каждой страницы или блоки с пиксельным позиционированием. Зашифрованные файлы тоже поддерживаются — поле для пароля появляется, когда нужно.
Как использовать
- Загрузите PDF-файл — инструмент разберёт каждую страницу и извлечёт текст с позиционными данными.
- Просмотрите предварительный просмотр извлечённого HTML и настройте параметры форматирования, такие как чувствительность определения заголовков.
- Скопируйте HTML в буфер обмена или скачайте как .html-файл.
Когда использовать
- Перенести продуктовые спецификации, руководства или whitepaper из PDF в сайт документации.
- Сделать форму или регламент, доступные для печати, индексируемыми на публичном сайте.
- Вытащить текст из научной статьи, чтобы цитировать или комментировать абзацы.
Результат
Разработчик получает спецификацию продукта в виде 12-страничного PDF. Загружает его сюда, получает чистый HTML с правильными заголовками и абзацами и вставляет в вики проекта, чтобы команда могла обращаться к нему.
Частые вопросы
- Перенесутся ли изображения и графики из PDF в HTML?
- По умолчанию извлекается только текст, поэтому встроенные изображения, векторные диаграммы и поля форм пропускаются. Включите «Встроить изображения страниц» — и каждая страница отрисуется как картинка и попадёт в HTML, так что диаграммы, графика и даже отсканированные страницы сохранятся. Файл остаётся автономным — ничего не размещается на стороне. Чем выше качество изображения, тем оно чётче и тем больше файл.
- Почему иногда появляются переносы строк посреди предложения?
- Некоторые PDF хранят текст с жёсткими переводами строк вместо границ абзацев. Выключите «Сохранять разметку», и конвертер заново склеит строки в абзацы по вертикальным отступам. Двухколоночные макеты тоже требуют выключения этой опции.
- Всегда ли детектор заголовков угадывает правильно?
- Работает хорошо, когда заголовки в PDF набраны крупнее или жирнее (типичный случай). Документы, где заголовки выделены только цветом или позицией при том же кегле, его сбивают — выключите детектор, всё станет p, и разметите вручную.
- Можно ли публиковать получившийся HTML напрямую?
- На выходе семантический HTML без инлайн-JavaScript, без внешних скриптов и без инлайн-стилей по умолчанию. Вставляете в любой CMS или генератор статики, оборачиваете в свой шаблон — и готово.
- Что насчёт PDF с паролем или шифрованием?
- Защищённые паролем PDF поддерживаются. Если файл зашифрован, после загрузки появится поле для пароля — введите его, и документ откроется и преобразуется прямо здесь. Пароль никуда не отправляется.
Похожие инструменты
Редактор закладок PDF
Добавляйте и редактируйте закладки в PDF-файлах
Сведение PDF
Сведите поля форм и аннотации в PDF-файлах
Текстовый редактор
Пишите и форматируйте документы в визуальном редакторе
Markdown в PDF
Конвертируйте файлы Markdown в оформленные PDF-документы
Обрезка PDF
Обрезайте и подгоняйте поля страниц PDF
Сортировка страниц PDF
Перетаскивайте страницы PDF для изменения порядка