Машинный перевод

иных понятий. И есть литературный перевод, когда требуется получить текст,

по художественной ценности максимально близкий к оригиналу. Возможно ли

поручить подобную работу компьютеру?

Говоря о МП, следует прежде всего помнить, что компьютер — создание

бездушное. Он не понимает языковых нюансов, намеков в тексте, того, что

называется тонкой игрой слов. Да и, собственно, понять содержание текста в

полной мере ему не под силу. Мышления как такового при МП не происходит:

предложение расчленяется на части речи, в нем выделяются стандартные

конструкции, слова и словосочетания переводятся по находящимся в памяти

машины словарям. Затем переведенные части речи собираются по правилам

другого языка.

Но этого, согласитесь, недостаточно для полноценного перевода. В

зависимости от того или иного стиля и назначения текста одно и то же слово

нередко имеет разные значения. В какой-то мере эта особенность учитывается

в системах МП: предусмотрены сменные словари, иногда для каждого вида

текста предусмотрен свой словарь. Если лексики одного машинного словаря не

хватает и применяются несколько словарей одновременно, можно указать

системе, из какого словаря нужно брать слово, если есть несколько вариантов

его перевода. Наконец, программа сама может предлагать на выбор

пользователю несколько вариантов перевода, и он выбирает подходящий

вариант, так сказать, вручную. Могут возникнуть и проблемы с переводом слов

в устойчивых словосочетаниях и фразеологизмах, но это вполне по силам

компьютеру.

Наряду с установленными правилами построения предложения в каждом языке

существуют и свои неписаные законы, которые иногда называются красотами

языка. Например, предложение на английском языке «This is my book» дословно

переводится «Это есть моя книга», и формально это будет правильным, но по-

русски так не говорят. В данном случае можно сказать, что предложение

«написано так, будто его составил иностранец». Конечно, приведенный пример

является простейшим, и возможность исключения слова «is» очень просто

отражается в программе МП. Но на практике получившийся перевод похож на

текст, написанный иностранцем.

Текст также может содержать слова, которые нужно понимать в контексте

образа жизни людей в конкретной стране. Например, под словом «демократ» в

США подразумеваются политики, выступающие за большее вмешательство

государства в экономику, а в России те, кто выступает за большую свободу

рынка. Это разные понятия.

Заглавные буквы и сокращения таят в себе и другие подвохи. Когда слово

начинается с большой буквы, его перевод будет начинаться тоже с большой

буквы. Слово, целиком состоящее из таких букв, также будет в переводе

записано заглавными. В англоязычной литературе достаточно часто встречаются

внешне эффектные аббревиатуры, которые могут быть прочитаны как одно слово.

Такая аббревиатура и будет переведена единым словом.

Таким образом, результаты МП часто требуют редактирования. Насколько

адекватными можно считать результаты перевода на компьютере? Это

определяется не только качеством системы МП, но и качеством последующего

редактирования. Нередко систему МП использует в качестве подспорья

специалист, которому нужно быстро перевести, например, техническую

документацию. Тогда проблема корректного употребления терминов решается

сама собой.

Однако МП – это такая специфическая область применения компьютеров, в

проблемах которой почти каждый ощущает себя более или менее специалистом.

Давайте рассмотрим, каким образом осуществляется перевод.

4. КАК ПЕРЕВОДИТ КОМПЬЮТЕР

Во-первых, всем ясно, что чем больше словарь, тем лучше перевод, значит,

первая проблема – проблема создания больших словарей для систем.

Во-вторых, ясно, что система должна переводить такие предложения:

«Привет, как дела?». Значит, еще одна проблема - научить систему

распознавать устойчивые обороты.

В-третьих, понятно, что предложение для перевода пишется по определенным

правилам, по определенным правилам переводится, а значит, есть еще одна

проблема: записать все эти правила в виде программы. Вот, собственно, и

все.

Самое интересное, что эти проблемы действительно являются основными при

разработке систем МП, другое дело, что методы их решения известны далеко не

всем и отнюдь не так просты, как может показаться.

Системы МП семейства PROMT (PROgrammer's Machine Translation)[7] - очень

хороший объект, чтобы продемонстрировать, каким образом эти проблемы могут

решаться эффективно.

4. 1. СЛОВАРЬ

Для качественного перевода очень важно, чтобы практически все слова

исходного текста легко было найти и в словаре системы. А те из них, которых

в нем нет, переносятся в текст непереведенными уже на выходе из системы, и

их впоследствии переводят вручную при редактировании результатов перевода.

Такие слова могут повлиять на качество перевода предложения. Дело в том,

что для определения, к какой части речи относится рассматриваемое слово,

система производит анализ всего предложения в целом. При этом имитируется

мыслительная деятельность человека (такую систему принято называть системой

с элементами искусственного интеллекта). Если значение хотя бы одного слова

в предложении не определено, то это может исказить анализ всего

предложения, а иногда и результаты всего перевода.

Методы организации больших баз данных достаточно хорошо разработаны, но

для перевода не менее, а может быть, и более важно правильно

структурировать информацию, которая приписывается элементу базы, правильно

выбрать этот самый элемент. Сколько, например, записей в словаре должно

соответствовать обыкновенному русскому слову "программа"? И, вообще,

большой словарь – это словарь, который содержит много словарных статей, или

словарь, который позволяет распознать много слов из текста?

При ближайшем рассмотрении оказывается, что, например, существительные в

русском языке изменяются по падежам и по числам, то есть для одного

существительного может существовать до 12 разных форм, а для глаголов и

прилагательных, как правило, существует еще большее количество различных

форм (более тридцати). Следовательно, чтобы переводить предложения,

содержащие слова "программу", "программе", "программы" и т.д., хорошо было

бы иметь способ соотнесения словарной статьи из автоматического словаря для

слова "программа" с соответствующей словоформой из текста. Поэтому для

описания и входного, и выходного языка в системе должен существовать

некоторый формальный метод описания морфологии, на котором основывается

выбор единицы словаря.

В системах семейства PROMT разработано практически уникальное по полноте

морфологическое описание для всех языков, с которыми системы умеют

обращаться. Оно содержит 800 типов словоизменений для русского языка, более

300 типов как для немецкого, так и для французского языка, и даже для

английского, который не принадлежит к флективным языкам, выделено более 250

типов словоизменений. Множество окончаний для каждого языка хранится в виде

древесных структур, что обеспечивает не только эффективный способ хранения,

но и эффективный алгоритм морфологического анализа.

Кроме того, используемая модель морфологии позволила разработать

экспертную систему для пользователя – создателя словаря. Эта система

фактически автоматизирует процедуру выделения основы и определения типа

словоизменения при вводе новых словарных статей.

Однако разработка описания морфологии позволяет решить только проблему

того, что является заголовком словарной статьи, по которому происходит

идентификация единицы текста и единицы словаря. Но ведь идентификация слова

из текста со словарной статьей происходит не ради идентификации, как это

требуется в электронных словарях, она необходима для выполнения программой

собственно процедур перевода. Какая же нужна информация в словарной статье

и как должны быть описаны правила перевода для того, чтобы программа

переводила?

4. 2. ГРАММАТИКА

С развитием МП как области прикладной лингвистики появилось множество

лингвистических работ, предлагавших структуру описания свойств живого слова

в словарной статье машинного словаря. При этом совершенно отдельно

появлялись исследования, описывающие, например, "структуру именной группы"

или "способы выражения прямого дополнения для глаголов говорения".

Например, на основе признака "принадлежность к части речи" описывалась

грамматика такого типа:

• именная группа - это существительное

• именная группа - это прилагательное + именная группа

• глагольная группа - это глагол + именная группа

• предложение - это именная группа + глагольная группа

Понятно, что некоторая часть предложений естественного языка описывается

такой грамматикой, но эта часть очень незначительна, и на ее основе нельзя

правильно анализировать и переводить хоть сколько-нибудь реальный текст. Но

зато можно использовать эффективные методы построения преобразователя по

заданной грамматике или, на худой конец, написать программу, которая путем

перебора построит деревья зависимостей для ограниченного множества

предложений.

Стало принятым делить системы перевода на системы типа TRANSFER и системы

типа INTERLINGUA. Это разделение основано на особенностях архитектурных

решений для лингвистических алгоритмов.

Алгоритмы перевода для систем типа TRANSFER строятся как композиция трех

процессов: анализ входного предложения в терминах структур входного языка,

преобразование этой структуры в аналогичную структуру выходного языка

Страницы: 1, 2, 3, 4, 5, 6, 7, 8



Реклама
В соцсетях
рефераты скачать рефераты скачать рефераты скачать рефераты скачать рефераты скачать рефераты скачать рефераты скачать