Китайско-русский параллельный дискурсивный корпус: выравнивание на уровне клаузы и статистический анализ

Yi Yang

Аннотация


Статья посвящена способам корпусного выравнивания и аннотирования параллельных текстов на уровне клаузы. Работа строится на основе создания китайско-русского дискурсивного параллельного корпуса. В качестве пилотного материала был выбран китайский официальный документ «Доклад о работе правительства КНР 2017» и его перевод на русский язык. Данная работа состоит из трех общих частей: 1) характеристика принципов выравнивания двух текстов; 2) установление принципов аннотирования выделяемых единиц и создание параллельного корпуса, в котором выравнивание осуществляется на уровне клаузы; 3) статистика по разным типам русских синтаксических аналогов китайских клауз и интерпретация полученной информации. В первой части рассматривается, как в параллельном корпусе производится деление текстов на клаузы: сначала сегментация осуществляется в китайском тексте, затем в переводном русском тексте выделяются соответствующие элементы, называемые русскими синтаксическими аналогами (РСА) китайских клауз. Во второй части представлены принципы анализа и классификации РСА. В изученном материале разметки представлены 9 типов РСА китайских клауз: простые предложения, сложные предложения, группы предложений, фрагменты простых предложений, предложений с однородными сказуемыми, сложных предложений, части бессоюзных сложных предложений, сложносочиненных предложений и сложноподчиненных предложений. В третьей части сделаны выводы о том, что в большинстве случаев китайской клаузе может соответствовать монопредикативная конструкция в русском переводе. В других ситуациях китайские клаузы переводятся непредикативными словосочетаниями, полупредикативными причастными и деепричастными оборотами, полипредикативными сложными предложениями и группами предложений.


Ключевые слова


клауза; параллельный корпус; дискурсивный корпус; дискурсивная разметка; выравнивание на уровне клауз; китайский язык; русский язык.

Полный текст:

Без имени

Литература


Ananyeva, M. I., & Kobozeva, M. V. (2016). Razrabotka korpusa tekstov na russkom iazyke s razmetkoi na osnove teorii ritoricheskikh struktur [Development of the Corpus of the Russian Language with Annotations Based on the Theory of Rhetorical Structures]. In Komp’iuternaia lingvistika i intellektual’nye tekhnologii : po materialam ezhegodnoi Mezhdunarodnoi konferentsii “Dialog” (Moskva, 1–4 iiulia 2016 g.) [Computer Linguistics and Intellectual Technologies] (Iss. 15 (22)). Moscow: RGGU Press. Retrieved from http://www.dialog-21.ru/media/3460/ananyeva.pdf. (In Russian)

Carlson, L., Marcu, D., & Okurowski, M. E. (2003). Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory. In J. Van Kuppevelt, & R. W. Smith (Eds.), Current Directions in Discourse and Dialogue. Kluwer. Retrieved from http://www.aclweb.org/anthology/W01-1605.

Feng, W., Yang, Y., Li, Y., Li, X., & Ren, H. (2016). Study on the English Corresponding Unit of Chinese Clause. In C.-Y. Lin, N. Xue, D. Zhao, X. Huang, Y. Feng (Eds.), Natural Language Understanding and Intelligent Applications (pp. 129–140). Springer.

Li, Y., Feng, W., Sun, J., Kong, F., & Zhou, G. (2014). Building Chinese Discourse Corpus with Connective-driven Dependency Tree Structure. In A. Moschitti (Ed.), Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Retrieved from http://www.aclweb.org/anthology/D14-1224.

Li Y., Feng W., & Zhou G. (2013). Research of Chinese Clause Identification Based on Comma. Acta Scientiarum Naturalium Universitaties Pekinensis, 49 (1), 7–14. (In Chinese)

Mukhin, M. Yu., & Yang, Y. (2016). Proekt sozdaniia kitaisko-russkogo parallel’nogo korpusa ofitsial’no-delovykh tekstov s diskursivno-strukturnoi razmetkoi [Building a Chinese-Russian Parallel Discourse Structure Corpus of Official Texts]. Vestnik IuUrGU. Seriia: Lingvistika, 13(4), 23–31. (In Russian)

Prasad, R., Dinesh, N., Lee, A., Miltsakaki, E., Robaldo, L., Joshi, A., & Webber, B. (2008). The Penn Discourse Treebank 2.0. Proceedings of the Sixth International Language Resources and Evaluation (LREC’08), Marrakech, Morocco, 28–30 May 2008. Marrakech: ELRA. Retrieved from https://www.seas.upenn.edu/~pdtb/papers/pdtb-lrec08.pdf.

Wang, J. (2009). Computer-oriented Chinese Translation Studies of English Clauses. Beijing: Beijing Language and Culture University Press. (In Chinese)




DOI: http://dx.doi.org/10.15826/izv2.2018.20.2.025

Ссылки

  • На текущий момент ссылки отсутствуют.