Компьютерная лингвистика
- наука, которая занимается
проблемами использования естественного языка в системах
автоматической обработки информации. Она возникла сравнительно недавно
– на рубеже пятидесятых и шестидесятых годов прошлого столетия.
Поначалу, в период своего становления, у нее были различные
названия: математическая лингвистика, вычислительная
лингвистика, инженерная лингвистика. Но в начале восьмидесятых
годов закрепилось название компьютерная лингвистика.
За прошедшие полвека в области компьютерной лингвистики
были получены значительные научные и практические результаты: были созданы
системы машинного перевода текстов с одних естественных языков на другие,
системы автоматизированного поиска информации в текстах, системы автоматического
анализа и синтеза устной речи и многие другие. Но были и разочарования.
Например, проблема машинного перевода текстов с одних языков на другие оказалась
значительно сложнее, чем это представляли себе пионеры машинного перевода и их
последователи. То же самое можно сказать об автоматизированном поиске информации
в текстах и о задаче анализа и синтеза устной речи. Ученым и инженерам придется
по-видимому
еще немало потрудиться, чтобы достигнуть нужных результатов.
Компьютерная лингвистика - это область знаний, связанная c решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке). Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных. Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части - средства манипулирования единицами языка и речи, текстами и грамматическими таблицами.
В качестве единиц языка и речи могут выступать единицы различного уровня: морфемы, слова, словосочетания, фразы, сверхфразовые единства. Эти единицы в совокупности представляют собой иерархическую систему, в которой смысловое содержание единиц более высокого уровня не сводимо или не полностью сводимо к смысловому содержанию составляющих их единиц более низкого уровня (смысл единиц более высокого уровня не всегда может быть "вычислен" на основе информации о смысле единиц более низкого уровня и информации о связях между этими единицами). В качестве средств манипулирования единицами языка и речи и текстами могут выступать процедуры морфологического, семантико-синтаксического и концептуального анализа и синтеза
Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира. Можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран (Россия, США, Япония, и др.) построены экспериментальные и промышленные системы машинного перевода текстов с одних языков на другие, построен ряд экспериментальных систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей (Россия, США, Германия, Франция и др.), строятся системы автоматического анализа и синтеза устной речи (Россия, США, Япония и др.), ведутся исследования в области построения моделей естественных языков.



