зрения входной грамматики, а как некоторую сложную систему, задачей которой
является получение результата при произвольных входных данных, в том числе
и для текстов, которые не являются правильными для грамматики, с которой
работает система.
Вместо принятого лингвистического подхода, предполагающего выделение
последовательных процессов анализа и синтеза предложения, в основу
архитектуры систем было положено представление процесса перевода как
процесса с "объектно-ориентированной" организацией, основанной на иерархии
обрабатываемых компонентов предложения. Это позволило сделать системы PROMT
устойчивыми и открытыми.
Кроме того, такой подход дал возможность применения различных
формализмов для описания перевода разных уровней. В системах работают и
сетевые грамматики, близкие по типу к расширенным сетям переходов, и
процедурные алгоритмы заполнения и трансформаций фреймовых структур для
анализа сложных предикатов.
Описание лексической единицы в словарной статье, которое фактически не
ограничено по размерам и может содержать множество различных признаков,
тесно взаимосвязано со структурой алгоритмов системы и структурировано не
на основе извечной антитезы синтаксис - семантика, а на основе уровней
компонентов текста.
При этом системы могут работать и с не полностью описанными словарными
статьями, что является важным моментом при открытии словарей для
пользователя, от которого нельзя требовать тонкого обращения с
лингвистическим материалом.
Первая система машинного перевода, выпущенная компанией PROMT в 1991
году, переводила с английского языка на русский специализированные тексты
по программному обеспечению. Она использовала небольшой словарь - около 17
тыс. слов и выражений, работала в среде ДОС и не имела средств настройки
для пользователя. Но уже эта первая система была правильно устроена, и
нынешняя технология разработки алгоритмов машинного перевода, применяемая в
компании PROMT, не претерпела значительных изменений. Напротив, найденный
тогда подход оказался очень плодотворным для самых разных языков.
Сначала поясним некоторые определения: вместе с развитием машинного
перевода как области прикладной лингвистики появились и классификации
систем, и стало принято делить системы перевода на системы типа TRANSFER и
системы типа INTERLINGUA. Это разделение основано на особенностях
архитектурных решений для лингвистических алгоритмов.
Алгоритмы перевода для систем типа TRANSFER строятся как композиция трех
процессов: анализ входного предложения в терминах структур входного языка,
преобразование этой структуры в аналогичную структуру выходного языка
(TRANSFER) и затем синтез выходного предложения по полученной структуре.
Системы типа INTERLINGUA предполагают априори наличие некоторого
метаязыка структур (INTERLINGUA), на котором можно описать все структуры
как входного, так и выходного языков в общем случае; поэтому алгоритм
перевода в системе типа INTERLINGUA предполагается как более простой:
анализ входного предложения в терминах метаязыка и затем синтез из
метаструктуры соответствующего предложения выходного языка. "Единственная"
сложность в этом случае - разработать сам метаязык и описать естественный
язык в соответствующих терминах.
Несмотря на то, что эта классификация существует, и в среде
разработчиков машинного перевода считается хорошим тоном спросить, к какому
типу относится система PROMT, не было разработано еще не одной реальной
системы, основанной на принципе INTERLINGUA.
Система PROMT не является исключением, и на этот вопрос мы отвечаем:
наша система выполняет перевод типа TRANSFER. Но это очень простой ответ,
он практически не отражает особенностей архитектуры системы PROMT. А
особенности состоят в том, что этот метод (TRANSFER) применен в системе не
в соответствии с лингвистическим стандартным подходом.
Дело в том, что система перевода, как правило, работает в условиях не
полностью описанных данных, ведь в язык - это живая система, которая
развивается очень быстро: постоянно появляются новые слова, новые функции
старых слов, и, вместе с новыми сущностями, новые значения. В этих условиях
определяющим структурным свойством алгоритмов перевода становится их
устойчивость к произвольным входным данным, и в основу алгоритмов,
выполняющих перевод в системе PROMT, вместо последовательного TRANSFER'а
был заложен иерархический подход, разделяющий процесс перевода на
взаимосвязанные TRANSFER'ы для разных единиц анализа.
В системе выделяется уровень лексических единиц, уровень групп, уровень
простых предложений и уровень сложных предложений. Все эти процессы связаны
и взаимодействуют иерархически в соответствии с иерархией текстовых единиц,
обмениваясь синтезируемыми и наследуемыми признаками. Такое устройство
алгоритмов позволяет использовать разные формальные методы для описания
алгоритмов разных уровней.
Рассмотрим уровень лексических единиц: лексическая единица - это слово
или словосочетание, которое является единицей самого низкого уровня. И в
случае входного, и в случае выходного языка слово описывается как
совокупность основы и окончания. Это обеспечивает возможность, с одной
стороны, распознавания входных слов и анализа входной морфологии и, с
другой стороны, удобного синтеза выходных слов по их морфологической
информации (основа, тип словоизменения и адрес окончания в массиве
окончаний этого типа). Таким образом, если ввести правила преобразования
входной морфологической информации в выходную морфологическую информацию,
осуществляется TRANSFER на морфологическом уровне.
Уровень групп рассматривает структуры более сложные: группы
существительных, прилагательных, наречий и сложные глагольные формы. Этот
уровень при анализе, основываясь на формальных сетевых грамматиках, умеет
соединять группы в синтаксические единицы, каждая из которых
характеризуется синтезированной структурной информацией и главным элементом
группы. По входной структуре, полученной в терминах непосредственных
составляющих, вместе с синтезированными признаками формируется выходная
группа как набор лексических единиц со значениями морфологических
признаков, которые могут наследоваться исходя из результатов анализа
группы. Таким образом, реализуется TRANSFER на уровне групп.
Анализ простых предложений как структур, состоящих из синтаксических
единиц, выполняется на основе фреймовых предикатных структур, которые
позволяют эффективно выполнять преобразования. Глагол считается для простых
предложений главным элементом и его валентности определяют заполнение
соответствующего фрейма. Для каждого типа фреймов существует некоторый
закон преобразования в выходной фрейм и оформление актантов. Таким образом,
осуществляется TRANSFER на уровне предложений. Анализ сложных предложений
требуется в случае формирования согласования времен и правильного перевода
союзов.
Глава IV. ПРАКТИЧЕСКАЯ ЧАСТЬ
Чтобы лучше понять принципы действия систем МП и их методы использования
словарей и анализа грамматики, равно как и синтеза структур на выходном
языке, следует на практике перевести несколько текстов (желательно
различных по функциональному стилю и тематике), используя одну из
вышеописанных систем машинного перевода. Наиболее целесообразным
представляется использование системы МП PROMT XT, поскольку она является
самой последней на данный момент версией ряда продуктов PROMT и объективно
лучшей из доступных.
Возьмем в качестве первого примера следующую логическую задачку:
"You are given 12 identical-looking coins, one of which is counterfeit
and weighs slightly more or less (you don't know which) than the
others. You are given a beam balance which lets you put the same number
of coins on each side and observe which side (if either) is heavier.
How can you identify the counterfeit and tell whether it is heavy or
light, in 3 weighings?"
Вот ее 'вольный' перевод на русский язык, который мог бы быть сделан
человеком - переводчиком:
"У вас есть 12 одинаковых по виду монет, одна из которых - фальшивая и
весит немного больше или меньше, чем остальные (вы не знаете, какая
именно). Имеются рычажные весы, на чаши которых вы можете класть равное
число монет и смотреть, какая из чаш перевесила (или весы остались в
равновесии). Как за 3 взвешивания определить фальшивую монету и узнать,
легче она или тяжелее остальных?"
При переводе переводчику пришлось поменять порядок слов в нескольких
предложениях. А вот как переводит этот текст система автоматического
перевода семейства PROMT (использовалась PROMT XT):
"Вам дают 12 идентично-выглядящих монет, одна из которых - подделка и
весит немного более или менее (Вы не знаете который) чем другие. Вам
дают баланс луча, который позволяет Вам помещать то же самое число
{номер} монет на каждой стороне и наблюдать {соблюдать}, какая сторона
(если любой) более тяжел. Как Вы можете идентифицировать подделку и
сказать, тяжело ли это или легко, в 3 взвешиваниях?"
Обратим внимание на "баланс луча". Эта ошибка вызвана, как легко понять,
отсутствием в словаре словосочетания "beam balance", означающего "рычажные
весы". Очевидно, что варианты перевода слов (данные в фигурных скобках) -
вторые значения соответственных слов во входном языке. Таким образом,
отбирая, исходя из контекста, наиболее вероятные значения слов, программа
Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13