ISSN: 2227-2283 (Print)
ISSN: 2587-6929 (Online)
DOI: 10.15826/izv2
Статья посвящена рассмотрению специфики лексической сочетаемости и синтаксической комбинаторики глагольной лексемы говорить в русскоязычных интернет-текстах, принадлежащих различным эмоциональным классам.
Целью публикации является обоснование валидности использования выявленных специфических характеристик сочетаемости и комбинаторики лексемы в качестве дискриминантных черт для автоматического определения 8 эмоциональных тональностей в интернет-текстах на русском языке.
В качестве материала исследования выступает коллекция текстов, отобранных из паблика «Подслушано» в социальной сети «ВКонтакте».
Используя восьмичастную классификацию эмоций, предложенную Г. Лёвхеймом, авторы соотносят каждый из текстов выборки объемом более 1 млн токенов с определенной эмоцией посредством опоры на соответствующие хештеги и эмоциональную разметку текстов, осуществленную 36 асессорами, носителями русского языка от 19 до 45 лет.
Применение метода TF-IDF взвешивания, а также учет значений относительной частотности лексем в 8 сформированных эмоциональных подкорпусах текстов показали, что статус лексемы говорить неравноценен в разных подкорпусах: в 4 из них она имеет высокие относительную частотность и показатели статистической специфичности, а в оставшихся 4 подкорпусах — нет.
С помощью использования инструментов корпусной лингвистики доказано, что значимыми для автоматической атрибуции текстов к тому или иному эмоциональному классу оказываются следующие особенности лексической сочетаемости и синтаксической комбинаторики глагола говорить: высокий процент субъектных синтаксических связей; частотность конкретных лексем (например, врач для класса Страх / Ужас) и суммарная частотность лексем одной конкретной лексико-семантической группы в позиции субъекта при глаголе; частотность отдельной коллокации (например, когда люди говорят для класса Злость / Гнев); частотность отдельных синтаксем (например, «с собой / себе lemma [говорить]» — для класса ГРУСТЬ / Тоска); частотность конкурирующих синтаксем «lemma [говорить], что» и «lemma [говорить]: (прямая речь)», маркирующая склонность автора текста фокусироваться на содержании говоримого в форме прямой или косвенной речи.
Будучи применены в качестве параметров, подаваемых на вход компьютерному классификатору текстов, данные дискриминантные черты оказали влияние на точность атрибуции текстов к тому или иному эмоциональному классу.
Chaffar, S., & Inkpen, D. (2011). Using a Heterogeneous Dataset for Emotion Analysis in Text. In Canadian Conference on Artificial Intelligence (pp. 62–67). Berlin; Heidelberg: Springer.
Davidov, D., Tsur, O., & Rappoport, A. (2010). Enhanced Sentiment Learning Using Twitter Hashtags and Smileys. In Proceedings of the 23rd International Conference on Computational Linguistics: Posters (pp. 241–249). Association for Computational Linguistics.
Levontina, I. B. (2010). Pereskazyvatel’nost’ v russkom iazyke [Retelling in Russian]. Komp’iuternaia lingvistika i intellektual’nye tekhnologii: po materialam ezhegodnoi mezhdunarodnoi konferentsii “Dialog” (Bekasovo, 26–30 maia 2010 g.) [Computational Linguistics and Intellectual Technologies “Dialogue 2010”] (Iss. 9 (16), pp. 284–288). Moscow: Russian State University for the Humanities. (In Russian)
Lövheim, H. (2012). A New Three-Dimensional Model for Emotions and Monoamine Neurotransmitters. Medical Hypotheses, 78, 341–348. doi: 10.1016/j.mehy.2011.11.016
Nikolaev, I. S., Mitrenina, O. V., & Lando, T. M. (2016). Prikladnaia i komp’iuternaia lingvistika [Applied and Computational Linguistics]. Moscow: LENAND. (In Russian)
Ovesdotter, C., Roth, D., & Sproat, R.(2005). Emotions from Text: Machine Learning for Text-Based Emotion Prediction. In Proceedings of the Joint Conference on Human Language Technology/Empirical Methods in Natural Language Processing (HLT/EMNLP) (pp. 579–586). Association for Computational Linguistics.
Pazelska, A. G., & Solovjev, A. N. (2011). Metod opredeleniia ehmotsij v tekstakh na russkom iazyke [Sentiment Analysis of Texts in Russian]. Komp’iuternaia lingvistika i intellektual’nye tekhnologii: po materialam ezhegodnoj mezhdunarodnoj konferentsii “Dialog” [Computational Linguistics and Intellectual Technologies “Dialogue 2011”] (pp. 510–522). Moscow: RGGU Press. (In Russian)
Polyakov, P. Yu., Kalinina, M. V., & Pleshko, V. V. (2015). Automatic Object-oriented Sentiment Analysis by Means of Semantic Templates and Sentiment Lexicon Dictionaries. In Computational Linguistics and Intellectual Technologies: Proceedings of the Annual International Conference “Dialogue 2015” (14, Vol. 2, pp. 44–52).
Wiebe, J., & Riloff, E. (2005). Creating Subjective and Objective Sentence Classifiers from Unannotated Texts. In A. Gelbukh (Ed.), Computational Linguistics and Intelligent Text Processing. CICLing 2005. Lecture Notes in Computer Science (Vol. 3406, pp. 486–497).
Witten, I. H., & Frank, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques (2nd ed.). Burlington: Morgan Kaufmann.
© (website) Уральский федеральный университет имени первого Президента России Б. Н. Ельцина
Адрес редакции: 620000, Екатеринбург, пр. Ленина, 51. «Известия Уральского федерального университета. Серия 2. Гуманитарные науки»
E-mail: izvestia.2@yandex.ru