Weiter zum Inhalt

Toward Sociolinguistic Corpora of Torlak

Maja Miličević Petrović, Teodora Vuković, Mirjana Mirić, Daria V. Konior, Anastasia Escher


Seiten 123 - 151



Создание торлакского социолингвистического корпуса

В статье описывается процесс создания двух корпусов, нацеленных на документирование торлакской речи в Восточной Сербии и Западной Болгарии. Корпусы будут отражать базовые торлакские языковые признаки с учетом их географической и социолингвистической вариативности. Создание корпусов описывается от этапа выборки записанных в поле интервью до этапа их транскрибирования (для болгарского корпуса) и от этапа выборки до кодирования метаданных, морфосинтаксической аннотации и публикации (для находящегося в открытом доступе Тимокского подкорпуса сербского корпуса объемом в 498,021 словоформ). Охарактеризованы проблемы, с которыми столкнулись разработчики на различных этапах создания корпусов, обоснованы пути их решения, причем основное внимание уделено лингвистической стороне дела. Даны разъяснения о сбалансированном применении собственно лингвистических и социолингвистических критериев при отборе образцов речи, подлежащих транскрибированию, о решениях в связи с трактовкой диалектных явлений в транскрипции и аннотации, о компьютерных методах аннотирования. Намечены также дальнейшие шаги, преимущественно в части расширения в близком будущем сербского корпуса Лужницким подкорпусом, а также о планах объединения сербских и болгарских материалов в едином “Устном торлакском диалектном комплексе” (англ. Spoken Torlak Dialect Corpus).

Empfehlen


Export Citation