Учебные курсы компьютерной лингвистики в безансоне. Основные задачи компьютерной лингвистики и подходы к их решению

Культурно-просветительский центр «Архэ» приглашает на курс лекций Александра Чедовича Пиперски «Компьютерная лингвистика».

Тема первой лекции: «Основные задачи компьютерной лингвистики и подходы к их решению».

Машинный перевод, проверка орфографии, классификация текстов, распознавание речи и многое другое: всё это - задачи компьютерной лингвистики. Решать их можно разными способами: или пытаясь имитировать то, как с языком работает человек, или надеяться, что со всем удастся справиться за счёт больших данных. Но естественный язык нелегко обрабатывать автоматически, и на этом пути нас подстерегает много сложностей. В число проблем входит омонимия (когда одно и то же слово называет разные вещи), синонимия (когда, наоборот, одно и то же называется разными словами) и другие свойства человеческих языков, на которые мы в обычной жизни даже не обращаем внимания.

О лекторе:
, кандидат филологических наук, доцент Института лингвистики РГГУ, научный сотрудник Школы филологии НИУ ВШЭ, автор книги «Конструирование языков» (Альпина Нон-фикшн, 2017).

О курсе лекций «Компьютерная лингвистика»:

Компьютерная лингвистика - одна из наиболее динамично развивающихся областей на стыке теории и практики. С достижениями компьютерной лингвистики мы сталкиваемся каждый день: это и машинный перевод, и поиск в Интернете, и голосовые помощники, и многое другое. За каждым таким продуктом стоит серьёзная работа лингвистов и программистов. В ходе курса мы поговорим об истории компьютерной лингвистики и о наиболее популярных её методах, а также посмотрим, как они позволяют решать важные практические задачи: например, проверять орфографию или классифицировать по темам новости.

Итак, компьютерная лингвистика - молодая, но очень перспективная наука. А главная особенность этой науки в том, что она считается междисциплинарной, то есть изучает проблемы, стоящие на стыке программирования и языкознания. И для того, чтобы стать полноценным специалистом в этой области, нужно хорошо разбираться и в математике и в лингвистике.

Программы обучения делятся на программы для филологов, которые хотят связать свою жизнь с лингвистическими разработками в IT, и для математиков, желающих работать над системами распознавания текста, переводческими программами и т.д. Мы остановимся на втором варианте.

Сразу хочу оговориться, что таких магистратур в России - единицы, и обычно они курируются компаниями, занимающимися лингвистическими разработками. Большинство программ, посвященных компьютерной лингвистике, находится в столицах.

Начну с той магистратуры, которая показалась мне самой интересной. Она находится в Санкт-Петербурге, на базе СПбГУ на кафедре информационных систем в искусстве и гуманитарных науках. Хочу сразу отметить, что кафедра находится на гуманитарном факультете, но рассчитана именно на программистов. Образовательная программа называется «Инженерия гуманитарных знаний». Целевая установка магистратуры - (цитирую сайт) «подготовка специалистов, способных участвовать в исследовательской и проектной работе в области интеллектуальных информационных технологий со специализацией в направлении языковой инженерии, технологий извлечения гуманитарных знаний из текстового потока, онтологической инженерии».

Чтобы туда поступить, требуется сдать письменный тест, в котором будут вопросы по математике, основам программирования и (немножко) по языкознанию. Пугаться вопросов по последней дисциплине математикам не стоит: судя по списку литературы, двух-трех несложных книг, озаглавленных «Введению в языкознание», вполне хватит, чтобы сдать вступительные испытания. Из собственных источников мне стало известно, что курирует эту образовательную программу компания Яндекс, правда на сайте магистратуры об этом не упоминается.

Вторая магистратура, о которой бы хотелось рассказать, находится в Москве на кафедре распознавания изображений и обработки текста факультета инноваций и высоких технологий (ФИВТ) в МФТИ. Она была основана в 2006 году компанией ABBYY. Судя по описанию, из нескольких программ магистратуры, предлагаемых этой кафедрой, к компьютерной лингвистике больше всего относятся направления «Интеллектуальные системы» и «Методы машинного обучения». Чтобы попасть туда учиться, нужно не только сдать вступительный экзамен, но и пройти собеседование с сотрудниками компании ABBYY. Все-таки в ABBYY рассчитывают, что потом выпускники пойдут работать к ним.

И последняя магистерская программа, о которой я поведаю, так и называется «Компьютерная лингвистика» и находится на факультете филологии ВШЭ. Как следует из добытой мной информации, она есть в Москве и в Нижегородском отделении Вышки. Представители университета считают, что эта программа подходит не только для математиков, но и для выпускников с другим базовым образованием. Обучение предполагает как курсы по программированию, призванные подтянуть выпускников гуманитарных специальностей, так и курс общей лингвистики, рассчитанной на математиков.

Чтобы поступить в эту магистратуру, нужно сдать экзамен по иностранному языку и оформить портфолио, в котором должно быть мотивационное письмо и информация о будущем студенте. Нужно будет рассказать о своих профессиональных интересах, публикациях, практиках, которые проходил и т.д. Преподавателями будут сотрудники факультета филологии, общеуниверситетской кафедры высшей математики, отделения прикладной математики и информатики, базовой кафедры Яндекса.

В общем, выбор у выпускников, которые решат заниматься компьютерной лингвистикой, есть. Пока он невелик, но, думаю, в будущем таких программ станет намного больше.

Думаю, на этом закончить свой обзор.
За помощь в подготовки статью благодарю Яндекс и Гугл, официальный сайт компании ABBYY, а также сайты вузов, о которых шла речь в посте.

« Открытие кафедры в МФТИ позволяет нам не только помогать своим студентам.

Наша цель - сделать на ФИВТе самое лучшее преподавание Computer Science в России»
Светлана Лузгина, служба корпоративных коммуникаций.


Заведующий кафедрой: Владимир Павлович Селегей, директор по лингвистическим исследованиям ABBYY

Кафедра компьютерной лингвистики ФИВТ была основана в 2011 году российской компанией ABBYY, одним из ведущих разработчиков программного обеспечения в области искусственного интеллекта, в частности, распознавания документов и обработки естественного языка. Кафедра готовит специалистов, способных эффективно работать в области разработки инновационных языковых компьютерных технологий, в частности, технологии синтаксического и семантического анализа текста ABBYY Compreno.

В последнее десятилетие компьютерная лингвистика активно развивается во всем мире. Это происходит в связи с растущим влиянием интернета и появлением большого числа новых технических устройств с естественно-языковыми интерфейсами. Особенно бурно развиваются такие технологии, как многоязычный информационный поиск, машинный перевод, извлечение знаний, распознавание речи и др. В России компьютерной лингвистике до сих пор уделялось недостаточно внимания в системе образования. Из-за этого в мировых научных исследованиях по компьютерной лингвистике недостаточно представлен русский язык.

Специализация «Компьютерная лингвистика» в МФТИ основывается на глубоком техническом образовании, которое дает Физтех. Занятия на базовой кафедре проходят в офисе ABBYY, где сотрудники компании преподают курсы по автоматической обработке языка, общей и компьютерной лексикографии, корпусной лингвистике, а также неотъемлемым дисциплинам Computer Science в области создания ПО.

Одной из задач кафедры является активное вовлечение студентов в научную жизнь. Важно не только знать о современных мировых «трендах» в компьютерной лингвистике, но и быть частью мирового процесса. Студенты кафедры принимают активное участие в разработке технологии ABBYY Compreno и совместном с РГГУ исследовательском проекте по созданию Генерального интернет-корпуса русского языка (ГИКРЯ) на основе ресурсов русскоязычного интернета.

Зачисление на кафедру производится по результатам конкурса как в бакалавриат, так и на первый курс магистратуры. В магистратуру принимаются бакалавры всех факультетов МФТИ, а также других высших учебных заведений. Зачисление производится по результатам решения логических и алгоритмических задач и собеседования с руководством кафедры.

Если вы хотите пройти собеседование на кафедру или задать вопрос, пишите на [email protected] . До встречи в ABBYY!

Заведующий УНЦ


Общая информация

УНЦ компьютерной лингвистики была открыта в Институте лингвистики РГГУ в 2011 году при участии компании ABBYY и поддержке российского отделения IBM. УНЦ готовит профессиональных лингвистов, способных эффективно работать в области разработки инновационных языковых компьютерных технологий. С 2012 года УНЦ будет осуществлять подготовку магистрантов по программе «Компьютерная лингвистика» направления «Фундаментальная и прикладная лингвистика».

Компьютерная лингвистика является относительно новой областью научной и инженерной деятельности. Актуальность создания данной магистерской программы определяется тем, что в последние 10-15 лет наблюдается бурное развитие этой области, связанное со всё растущим влиянием Интернета и появлением огромного количества новых технических устройств, важнейшей частью которых являются естественно-языковые интерфейсы. Кроме того, в современной лингвистике происходит стремительный переход от традиционных методов получения языковых данных к корпусным методам, требующим серьёзного развития компьютерных технологий.

Очевидная, возрастающая год от года потребность в специалистах, способных участвовать в разработке соответствующих технологий, не подкреплена ещё, к сожалению, наличием адекватного образовательного стандарта в системе российского образования. Предлагаемая программа является одной из первых попыток определения того, какие именно специалисты требуются отрасли.

Область деятельности, связанная с решением задач автоматической обработки Естественного Языка (ЕЯ) и именуемая «Компьютерная лингвистика», требует подготовки специалистов двух принципиально отличающихся направлений: лингвистов и инженеров. Эти направления базируются на двух совершенно разных системах образования:

  • «Компьютерная лингвистика для инженеров» является частью т.н. Computer Science. В рамках этого направления готовятся инженеры, способные эффективно решать задачи автоматической обработки ЕЯ, опираясь на необходимые для конкретной задачи существующие лингвистические ресурсы и модели. УНЦ способствует появлению таких специалистов, взаимодействия с техническими вузами. В частности, с участием УНЦ компьютерной лингвистики РГГУ создаётся «параллельная» магистерская программа по компьютерной лингвистике для инженеров в МФТИ.
  • «Компьютерная лингвистика для лингвистов» является разделом теоретической и прикладной лингвистики. В рамках этого направления готовятся лингвисты, способные решать задачи создания формальных языковых моделей и выполненных на их основе лингвистических ресурсов, обладающих необходимыми свойствами для их применения в задачах автоматической обработки ЕЯ. Именно это направление реализуется магистерской программой «Фундаментальная и компьютерная лингвистика», созданной силами УНЦ.

Важнейшим обстоятельством является то, что специалисты, подготовленные в рамках этих двух направлений, являются необходимыми участниками любых серьезных проектов в области автоматической обработки ЕЯ. И хотя они выполняют существенно различающиеся функции, умение эффективно взаимодействовать между собой является ключевым фактором в успехе таких проектов. Основы такого взаимодействия закладываются в программах за счет серьёзной инженерной и математической подготовки лингвистов (и соответствующей лингвистической подготовки инженеров).

Таким образом, подготовка магистров по компьютерной лингвистике в данной программе основывается на глубоком изучении фундаментальных основ лингвистики с акцентом на методы создания операциональных формальных моделей языковой системы, адекватных сложности таких задач обработки естественного языка, как распознавание и синтез речи, машинный перевод, семантический анализ и понимание текста, интеллектуальный поиск.

Специфика УНЦ отражена в следующих разделах:

1. Формальные модели языка (с акцентом на перспективах прикладного использования);

2. Инструментальное направление: специализированные языки и пакеты для лингвистов (типа NLTK, R И т.п.), имеющиеся ресурсы (от грамматик и парсеров до онтологий);

3. Прикладное направление (отдельные важные задачи NLP, как они решаются, как используется лингвистика);

4. Математическая и инженерная подготовка. Статистика, формальные грамматики, представление о методах машинного обучения.

Магистрантам направления «Компьютерная лингвистика» УНЦ читает следующие курсы:

  • Математические основы компьютерной лингвистики. Обзорный курс основных математических методов, применяемых в компьютерной лингвистике: математическая логика; теория вероятностей и статистика; формальные грамматики; теория алгоритмов, в частности - понятие сложности алгоритма; машинное обучение;
  • Программирование лингвистических задач (NLTK и R). Задача курса – обучение студентов работе с доступными интерпретаторами на основе языка Python. Краткое введение в методы программирования в целом;
  • Общая и компьютерная лексикография (по программе Lexicom). Курс знакомит студентов с принципами современной системной лексикографии; с новыми методиками лексикографической работы, включая корпусные методы. Рассматриваются современные компьютерные системы создания словарей, анализируются новые тенденции в лексикографии (вики-проекты, экспертные методы оценки филиации и т.п.);
  • Модели и методы автоматической обработки текста (NLP/АОТ). Обзорный курс, состоящий из двух частей (матричный, с разными лекторами): основные лингвистические модели + основные решаемые задачи. Курс методически связан с курсом «Математические основы лингвистических исследований». Первая часть курса носит резюмирующий характер и опирается на системные знания о языке, полученные магистрами в ходе обучения в бакалавриате по лингвистическим специальностям (эти знания являются необходимыми для сдачи вступительного экзамена);
  • Лингвистические и онтологические модели. Идеологически очень важный курс, перебрасывающий мостик между лингвистическими и экстралингвистическими моделями. В курсе рассматривается интерфейс между лексико-семантическими и онтологическими описаниями (в частности, проект Игоря Богуславского). Анализируются современные лингво-онтологические ресурсы (*net), современные проекты «мэппинга» между ними (Марта Палмер и К);
  • Корпусная лингвистика. Рассматриваются проблемы создания и оценки корпусов. Интернет как корпус. Методы автоматического создания корпусов. Анализ методов использования корпусов в лингвистических исследованиях (оценка значимости полученных статистических результатов).
  • Лингвистическое аннотирование и разметка. Языки и методы разметки, начиная с XML. Идеологически близко курсу Хови;
  • Машинный перевод;
  • Методы оценки NLP-приложений;
  • Формальные модели и ресурсы основных мировых языков (неиндоевропейских);
  • Информационный поиск;
  • Вопросно-ответные системы (спецкурс IBM);
  • Специализированные лингвистические базы данных.

Студентам Института Лингвистики (специалитет, бакалавриат, магистратура) УНЦ читает следующие курсы:

  • Введение в компьютерную лингвистику;
  • Компьютерная лингвистика. Основные задачи и технологии;
  • Современные методы социолингвистики;
  • Автоматический перевод
  • Лингвистические основы машинного перевода;
  • Основы информатики;
  • Основные направления лингвистического обеспечения новых информационных технологий (компьютерный анализ текстов);
  • Информатика и информационные технологии в лингвистике;
  • Автоматическая обработка естественного языка;
  • Автоматическая обработка текста, Автоматическая генерация текстов-описаний изображений;
  • Компьютерное обеспечение переводческой деятельности;
  • Корпусная лингвистика.

Студенты проходят практику в компании ABBYY.

См. также страницу УНЦ компьютерной лингвистики на сайте компании ABBYY.

Список сотрудников УНЦ компьютерной лингвистики

Владимир Павлович Селегей – директор по лингвистическим исследованиям компании ABBYY, заведующий УНЦ компьютерной лингвистики
«Введение в компьютерную лингвистику»