dr_trans

Налицо кривая разметка в DOCX-файле. При просмотре в Word это не видно, это видно в "кошке". Чаще всего возникает при обратной конвертации из PDF в DOCX. 99% этих тегов взаимно отменяющие, т.е. на внешний вид текста не влияют. Всё предложение в оригинале набрано единым шрифтом.
Причин болячки много:
• кривая конвертация из PDF, который в принципе не предназначен для reverse engineering, т.к. многое хеширует, а хеш не восстанавливается, как мы знаем;
• иногда сам Word помнит и хранит последовательность изменений форматирования, при этом отображается последний примененный формат, а внутри файла может быть вся история изменений с тегами форматирования и соответствующими тегами отмены этого форматирования (например, человек мог выделить текст жирным, потом передумать, потом выделить курсивом, а потом в конце концов отменить и курсив, и просто подчеркнуть, но все эти попытки и их отмены сохранятся в файле в виде тегов; самое страшное, когда в файле еще включено сохранение версий, тогда могут быть и другие спецэффекты).

Вот исходник, как он отображается в Word:

Представляю, как с хрустом ломались глаза у исполнителя, чтобы нидайбох не пропустить какой-то тег, бгг. Хотя оно никому не надо — достаточно, чтобы все теги просто были и в том же порядке.

В таких случаях надо оставить тег (1) впереди, а все остальные, (2)...(147) собрать в кучу после всего текста, чтобы формальная проверка на "наличие" и "последовательность" не ругалась. И то только в том случае, если таки есть первый тег перед всем текстом — он может задавать формат абзаца. А в нашем случае ВСЕ теги идут в конец сегмента после точки. Так и конкорданс будет лучше работать, чем с рваными словами, которые в принципе не поддаются поиску.

Не забываем перед работой чистить исходники с помощью TransTools.

Чего и вам желаю!

S	M	T	W	T	F	S
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Теги и нубы (Reply)

Теги и нубы

Profile

December 2021

Most Popular Tags

Style Credit

Expand Cut Tags