Что вижу - о том пою (aragont) wrote,
Что вижу - о том пою
aragont

Categories:

lllPDF/A и обязательный экземпляр (решено)

Хотел прочитать книжку, но не смог скачать её из интернета.
Пришлось купить в магазине, отсканировать и выложить в интернет.
Теперь я наконец смогу ее прочитать.
(Анекдот десятилетней давности,
когда книги читали ещё не на телефоне,
но уже на компьютере)

Возможно кто-то слышал, что издательства обязаны отсылать несколько экземпляров каждой изданной книги или газеты в Российскую государственную библиотеку. На самом деле это федеральный закон от 29.12.1994 N 77-ФЗ "Об обязательном экземпляре документов".

В редакции от 03.07.2016 в него добавили обязательства по предоставлению электронной копии документа (чтобы не сканировать самим, как в анекдоте). Чуть позже в Приказе №2227 от 26.12.2017 Министерство культуры определило требования к обязательному электронному экземпляру, и началось...

Кратко требования к обязательному экземпляру печатного издания в электронной форме сводятся к трём основным пунктам:

  • Файл должен соответствовать стандарту PDF/A (ГОСТа на него вроде бы нет, но есть европейский стандарт ISO 19005-1:2005);

  • При просмотре PDF должен выглядеть так же, как печатное издание;

  • Файл должен иметь текстовый слой с содержанием, соответствующем тому, что человек может прочитать в печатном издании.


Как обычно, оказалось, что в реальности можно выполнить только два правила из трёх, но зато в любых сочетаниях.

PDF это графический формат, который содержит в себе описания, как сделать на холсте коллаж из картинок, линий и БУКВ.
Буквы, которые в PDF называются "глифы", - это графические элементы, которые берутся из каталога (шрифта) и обозначаются условными числовыми кодами. При некотором везении, коды совпадают с вашей любимой кодировкой букв на компьютере и тогда в просмотрщике PDF получится выделить текст и вставить его в редактор. Иногда коды взяты с потолка и тогда после такого копирования в текстовый редактор вставляется какая-то белиберда из загадочных символов. Поскольку PDF в издательствах нужен прежде всего для печати, то выглядят эти глифы прекрасно, а вот первому требованию (соответствие стандарту) и последнему (читаемый текстовый слой) они могут и не соответствовать.

Фокус в том, что редакторов PDF не существует. Существует куча программ, которые печатают в PDF как на принтер. Если вы нарисовали книжку в Фотошопе, то в ней букв, как таковых, может не оказаться вообще. Если набрали в TeX (как в моём случае), то для рисования формул могут использоваться шрифты, в которых есть закорючки, не соответствующие ни одной из букв в мире. Наконец, шрифты бывают лицензионные, с запретом передавать их третьим лицам. В этом случае их преобразуют в кривые (curves) - обкурвливают, и, опять таки, отдают в типографию как чистую картинку без следов текста. В любом случае это нарушает третий пункт.

К счастью, современные редакторы, такие как MS Word и OpenOffice, умеют открывать PDF и извлекать из него текст (кстати, в PDF может меняться не только кодировка, но и порядок букв - например, страница может печататься снизу вверх). К сожалению, здесь нарушается второе правило. Офисы подменяют шрифты и вся вёрстка "ползёт" - текст выходит за границы страницы, наползает на иллюстрации и т.п.

Есть ещё один мошеннический способ достичь результата - перекодирование PDF программой ghostscript. (gs -dPDFA -dBATCH -dNOPAUSE -sProcessColorModel=DeviceRGB -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=output_filename.pdf input_filename.pdf). Получается искомый PDF/A, с правильной картинкой и правильным текстом, но он не проходит проверку на соответствие стандарту по первому пункту.

ПРАВИЛЬНЫЙ СПОСОБ

После суток экспериментов было найдено решение:

  1. Сохранить PDF как картинку в JPEG или TIFF с хорошим разрешением с помощью консольной программы pdftocairo;

  2. Распознать текст на картинке и создать PDF из двух слоёв. Сверху картинка, снизу текст.


Распознанный текст сделан стандартным шрифтом и имеет неправильный размер, но его не видно. Картинка не содержит букв, но имеет идеальный вид.

В качестве системы распознавания были проверены Adobe Acrobat и Fine Reader. Fine Reader, почему-то, не хотел внедрять шрифты в PDF (это требуется стандартом), а Acrobat сделал всё почти идеально.

Кстати, хоть в приказе это и не упоминается, надо делать PDF/A-1b - он проходит проверку и у него ограничений меньше.

Ссылки:
Программа pdftocairo для Windows.
Инструкция для pdftocairo на русском.
Форум страждущих
Сайт по приёму электронных экземпляров (с ссылками на нормативные акты и инструкциями).
Программа проверки PDF на соответствие стандартам - VeraPDF.

Из забавностей

Некоторые сканеры умеют распознавать текст и вставлять его в PDF со сканом, но не все они настроены на русский язык.

Вот кусочек некоего отсканированного документа с выделенным текстом:
ocr

А вот текст, который скопировался:

(De4epamHoro 3aKoHa <<06 oneparlrBHo-posrrcrHofi AerreJrbuocrr{)) or 05.07.1995
roAa i\b 144-@3 upocurnr Bac uoArBepAlrrb $axr KoMrrbrorepubx sosAeficrsufi Ha
rocyAapcrBeHHble pecypcbl, QynrquoHupyrcq[e B 3oHe Baruefi orBercrBeHHocrr{,
npeAocraBurr ror-$afiru BHeruHr{x noe4eficrnmit, a rarcr(e urryro r.rHQoplaaqmo o
Bo3MoxHo r{Merorr1llxcg Hapy[Iennflx rouQH4eHrlr{€urbHocrll, IIeJIocrHocrr,I 14
AocrylHocrlr KoMrmrorepuoft ran{oprraaqurE.
Tags: программы, рецепты
Subscribe

  • Село Льва-Толстого

    Википедия может писать, что это "Село Льва Толстого" и даже "Село имени Льва Толстого", но официальная табличка на здании администрации не может…

  • Вокзал города Ирбита

    Осматривая Ирбит, мы решили посмотреть на местный вокзал. Гугловская карта в телефоне показала, что ближе всего к нашей гостинице находится станция…

  • Про ирбитскую ярмарку

    Две недели назад (как быстро летит время) в Ирбите прошла 18 традиционная ярмарка. Вообще говоря, с исторической ярмаркой это мероприятие ничего…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 9 comments