ЗАДАЧИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ
Перед
компьютерной лингвистикой стоят задачи
лингвистического обеспечения процессов сбора, накопления,
обработки и поиска информации. Наиболее важными из них
являются:
1. Автоматизация составления и лингвистической обработки
машинных словарей;
2. Автоматизация процессов обнаружения и исправления ошибок при
вводе текстов в ЭВМ;
3. Автоматическое индексирование документов и информационных
запросов;
4. Автоматическая классификация и реферирование документов;
5. Лингвистическое обеспечение процессов поиска информации в
одноязычных и многоязычных базах данных
6. Машинный перевод текстов с одних естественных языков на
другие;
7. Построение лингвистических процессоров, обеспечивающих
общение пользователей с автоматизированными интеллектуальными
информационными системами (в частности, с экспертными системами)
на естественном языке, или на языке, близком к естественному;
8. Извлечение фактографической информации из неформализованных
текстов.
Машинные словари являются неотъемлемой частью любой системы автоматической обработки текстовой информации. Они могут представлять собой словари слов и/или словари словосочетаний, выражающих устойчивые научно-технические понятия. При составлении словарей необходимо стремиться к тому, чтобы они в максимальной степени отражали лексический состав текстов. Поэтому их нужно составлять по текстам достаточно большого объема (как минимум, по текстам объемом в несколько десятков миллионов лексических единиц). А такая работа может быть выполнена в разумные сроки только на основе широкого применения средств автоматизации.
Задача автоматизированного составления словарей словосочетаний, выражающих научно-технические понятия, сложнее задачи составления словарей слов, поскольку словосочетания в тексте формально не выделены и их границы "отмечены" лишь в сознании человека. Тем не менее, как показывают эксперименты, границы именных словосочетаний могут быть определены с удовлетворительной точностью на основе простых процедур синтаксического анализа, а возникающие при этом ошибки могут быть устранены с помощью статистических методов и путем последующего редактирования составленного словаря.
В системах автоматической обработки текстовой информации важной проблемой является проблема установления парадигматических отношений между понятиями, выраженными отдельными словами или словосочетаниями (отношений типа "синонимия", "род-вид", "целое-часть", "причина-следствие" и других устойчивых внеконтекстных ассоциативных отношений). Такие отношения может устанавливать человек, опираясь на свой интеллект и различного рода словарные пособия. Однако это очень трудная и трудоемкая задача. Поэтому при ее выполнении желательно использовать средства автоматизации.