Башкирский поэтический корпус

Корпус – это филологически-ориентированная электронная поисковая система, которая позволяет быстро обрабатывать большие массивы языкового материала. Такая система создана для башкирского языка в Лаборатории компьютерной филологии Башкирского государственного университета и открыта для свободного использования.

Башкирский поэтический корпус – второй в мире поэтический корпус (до сих пор существовал только поэтический подкорпус в составе Национального корпуса русского языка) объёмом более 1,8 млн. словоупотреблений.

Тексты в корпусе снабжены морфологической разметкой, которая представляет собой набор помет, приписываемых отдельным словоупотреблениям, а также специальной стиховедческой разметкой, позволяющей осуществлять поиск в строках, написанных определённым метром, в зоне рифмовки и т. д. Слова в текстах, показываемых пользователю, имеют перевод на русский язык, что позволяет работать с этой системой не только носителям башкирского языка, но и филологам широкого профиля, стиховедам, лингвистам-типологам.

Для корпуса была адаптирована поисковая система Восточно-армянского национального корпуса (EANC).

Разработка корпуса ведётся сотрудниками Лаборатории компьютерной филологии Башкирского государственного университета при информационной и моральной поддержке Центра лингвистических исследований мировой поэзии Института языкознания РАН. Консультативную помощь и всестороннюю поддержку проекту оказывает чл.-корр. РАН В. А. Плунгян. Неоценимую техническую помощь при вывеске корпуса оказал Т. А. Архангельский.

Грамматический разбор словоформ осуществлён автоматически. Система автоматического морфологического анализа Bashmorph разработана Б. В. Ореховым и А. А. Галлямовым.

Перейти на сайт – web-corpora.net/bashcorpus

X