(вынос из каментов)
Раз в пару лет укрупняю ТМ. Есть ряд старых, которые уже прилично разрослись. Если объединить всё в месте под одному направлению, как делают некоторые, то это выйдет одна огромная ТМ на несколько гигабайт. Она будет тормозить даже на моем i5 с SSD. Поэтому я разделил ТМ по крупным направлениям и просто включаю в memoQ нужные мне ТМ для конкретного заказа, при этом одну из них объявляю "основной" для пополнения, а остальные — только для чтения.
В списке есть и мелкие ТМ, но это либо текущие проекты, либо ТМ, которые просят высылать вместе с каждым выполненным заказом в качестве обновления. В этом случае небольшую ТМ гораздо проще экспортировать для клиента, чтобы туда не попали никакие другие мои сегменты.
Когда поток заказов по узкой теме заканчивается (например, ТМ по сегвеям, проекторам, телефонам и конкретным брендам), а рано или поздно всё заканчивается, такие ТМ вливаются в более крупные с близкой тематикой, при этом все сегменты снабжаются метаданными, где видно, из какой ТМ, из какого файла/заказа или от какого клиента они пришли. Это нужно для анализа выдачи конкорданса.
Делаю я это раз в пару лет. Экспортирую базы в TMX, удаляю все теги и прочий нерелевантный мусор с помощью
Olifant. Это повышает процент совпадений и качество поиска, т.к. мусор разжижает сегменты и иногда даже рвет слова на части, после чего поиск бесполезен. Потом вливаю ТМ, как новую, обратно в кошку.
Почему руками, если есть функции автоматического обслуживания ТМ в кошке? Потому что эти функции заключаются в экспорте в плоский файл с последующим втягиванием заново ОДНОЙ ТМ. Объединять и чистить базы нельзя. И еще есть существенное ограничение: применяются параметры, заданные изначально при создании БД, т.е. мы не можем при "реорганизации" ("ремонте", в разных программах разные названия этой функции) изменить параметры БД, например, разрешить несколько переводов для одного исходника или включить/выключить сохранение расширенного контекста. Как оно было первоначально, так уже и будет. А в ручном режиме создается новая база с параметрами, которые вдруг стали интересны.
Зачем несколько ТМ? Общетехническая ТМ уже весит под гигабайт. Есть еще несколько под 500 МБ каждая. Остальные — мелкие. Подключая нужные ТМ к каждому конкретному проекту, я просто сокращаю объем поиска. Если я перевожу контракт или финансовый отчет, сегменты по электронике, ПО, локализации интерфейсов и медицине просто не участвуют в поиске, т.к. не нужны. Если перевожу MSDS, то подключаю юридическую, медицинскую и техническую ТМ, а экономику, спорт, игры и авиацию выключаю.
Там же в memoQ создано
множество проектов — по заказчикам. И под каждым проектом уже включены нужные наборы ТМ и глоссариев. Остается лишь забросить файлы для перевода в готовую рабочую среду, а потом экспортировать перевод. Потом переводимые файлы удаляются из проекта, а сам проект лежит пустой до следующего заказа.
Сами проекты не сохраняю. А зачем хранить файлы в проектах и вообще проекты, если они быстро создаются? Есть исходники, есть переводы, уже есть сегменты в ТМ, еще я всегда сохраняю двуязычный XLIFF. Из этого XLIFF всегда можно на лету создать TMX по конкретному заказу только с сегментами этого заказа. Если вдруг клиент что-то потеряет или попросит ТМ для своих архивов, я за 5 минут создам ему ТМ только по заказам, которое были от него, надергав эти XLIFFы из архивов. В чем смысл хранения проектов? Плотник не хранит все стружки. Плотник хранит доски, инструмент и иногда готовые изделия.