dr_trans: (Default)
[personal profile] dr_trans
2018-09-06_21.40.35Налицо кривая разметка в DOCX-файле. При просмотре в Word это не видно, это видно в "кошке". Чаще всего возникает при обратной конвертации из PDF в DOCX. 99% этих тегов взаимно отменяющие, т.е. на внешний вид текста не влияют. Всё предложение в оригинале набрано единым шрифтом.
Причин болячки много:
• кривая конвертация из PDF, который в принципе не предназначен для reverse engineering, т.к. многое хеширует, а хеш не восстанавливается, как мы знаем;
• иногда сам Word помнит и хранит последовательность изменений форматирования, при этом отображается последний примененный формат, а внутри файла может быть вся история изменений с тегами форматирования и соответствующими тегами отмены этого форматирования (например, человек мог выделить текст жирным, потом передумать, потом выделить курсивом, а потом в конце концов отменить и курсив, и просто подчеркнуть, но все эти попытки и их отмены сохранятся в файле в виде тегов; самое страшное, когда в файле еще включено сохранение версий, тогда могут быть и другие спецэффекты).

Вот исходник, как он отображается в Word:

2018-09-06_23.23.19

Представляю, как с хрустом ломались глаза у исполнителя, чтобы нидайбох не пропустить какой-то тег, бгг. Хотя оно никому не надо — достаточно, чтобы все теги просто были и в том же порядке.

В таких случаях надо оставить тег (1) впереди, а все остальные, (2)...(147) собрать в кучу после всего текста, чтобы формальная проверка на "наличие" и "последовательность" не ругалась. И то только в том случае, если таки есть первый тег перед всем текстом — он может задавать формат абзаца. А в нашем случае ВСЕ теги идут в конец сегмента после точки. Так и конкорданс будет лучше работать, чем с рваными словами, которые в принципе не поддаются поиску.

Не забываем перед работой чистить исходники с помощью TransTools.

Чего и вам желаю!

Date: 2018-09-06 10:27 pm (UTC)
From: [identity profile] simart.livejournal.com
я ничего не понял - но здОрово!
спасибки! :0)

Profile

dr_trans: (Default)
dr_trans

December 2021

S M T W T F S
   1234
567891011
12131415161718
1920212223 2425
262728293031 

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 24th, 2025 07:21 pm
Powered by Dreamwidth Studios
OSZAR »