- Jahrgang 79 (2023)
- Vol. 79 (2023)
- >
- Ausgabe 1
- Nr. 1
- >
- Seiten 123 - 151
- pp. 123 - 151
Создание торлакского социолингвистического корпуса
В статье описывается процесс создания двух корпусов, нацеленных на документирование торлакской речи в Восточной Сербии и Западной Болгарии. Корпусы будут отражать базовые торлакские языковые признаки с учетом их географической и социолингвистической вариативности. Создание корпусов описывается от этапа выборки записанных в поле интервью до этапа их транскрибирования (для болгарского корпуса) и от этапа выборки до кодирования метаданных, морфосинтаксической аннотации и публикации (для находящегося в открытом доступе Тимокского подкорпуса сербского корпуса объемом в 498,021 словоформ). Охарактеризованы проблемы, с которыми столкнулись разработчики на различных этапах создания корпусов, обоснованы пути их решения, причем основное внимание уделено лингвистической стороне дела. Даны разъяснения о сбалансированном применении собственно лингвистических и социолингвистических критериев при отборе образцов речи, подлежащих транскрибированию, о решениях в связи с трактовкой диалектных явлений в транскрипции и аннотации, о компьютерных методах аннотирования. Намечены также дальнейшие шаги, преимущественно в части расширения в близком будущем сербского корпуса Лужницким подкорпусом, а также о планах объединения сербских и болгарских материалов в едином “Устном торлакском диалектном комплексе” (англ. Spoken Torlak Dialect Corpus).