Теги и нубы
Sep. 6th, 2018 10:46 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)

Причин болячки много:
• кривая конвертация из PDF, который в принципе не предназначен для reverse engineering, т.к. многое хеширует, а хеш не восстанавливается, как мы знаем;
• иногда сам Word помнит и хранит последовательность изменений форматирования, при этом отображается последний примененный формат, а внутри файла может быть вся история изменений с тегами форматирования и соответствующими тегами отмены этого форматирования (например, человек мог выделить текст жирным, потом передумать, потом выделить курсивом, а потом в конце концов отменить и курсив, и просто подчеркнуть, но все эти попытки и их отмены сохранятся в файле в виде тегов; самое страшное, когда в файле еще включено сохранение версий, тогда могут быть и другие спецэффекты).
Вот исходник, как он отображается в Word:

Представляю, как с хрустом ломались глаза у исполнителя, чтобы нидайбох не пропустить какой-то тег, бгг. Хотя оно никому не надо — достаточно, чтобы все теги просто были и в том же порядке.
В таких случаях надо оставить тег (1) впереди, а все остальные, (2)...(147) собрать в кучу после всего текста, чтобы формальная проверка на "наличие" и "последовательность" не ругалась. И то только в том случае, если таки есть первый тег перед всем текстом — он может задавать формат абзаца. А в нашем случае ВСЕ теги идут в конец сегмента после точки. Так и конкорданс будет лучше работать, чем с рваными словами, которые в принципе не поддаются поиску.
Не забываем перед работой чистить исходники с помощью TransTools.
Чего и вам желаю!