Методы классификации текстовых данных: можно ли потенциал количественного анализа использовать в качественном исследовании?

Научная статья
  • Марина Юрьевна Александрова Национальный исследовательский университет «Высшая школа экономики», Москва, Россия myaleksandrova@hse.ru ORCID ID https://orcid.org/0000-0002-7683-7750
    Elibrary Author_id 1112564
    ResearchID T-9377-2017
Для цитирования
Александрова М. Ю. Методы классификации текстовых данных: можно ли потенциал количественного анализа использовать в качественном исследовании? // Интеракция. Интервью. Интерпретация. 2021. Том 13. № 2. С. 81-96. DOI: https://doi.org/10.19181/inter.2021.13.2.5

Аннотация

Интеллектуальный анализ текстовых данных, или текст-майнинг, продемонстрировал активное развитие в последние годы. В статье в качестве примера сравниваются методы классификации, пригодные для решения задач по прогнозированию частичных неответов, и на этом материале автор строит рассуждения о том, как может быть реализован анализ текстовых данных в более широком исследовательском поле. Автор рассматривает ряд метрик, адаптированных для текстового анализа в социальных науках: правильность (accuracy), точность (precision), полноту (recall), F-меру (F1-score), приводит примеры, которые могут помочь исследователю-социологу разобраться, на какую из них стоит обращать внимание в зависимости от поставленной задачи (классифицировать свои текстовые данные с равной точностью или же более полно описать один из интересующих классов). В статье предложена интерпретация результатов, полученных с помощью анализа текстов на материалах Европейского социального исследования (European Social Survey, ESS).
Ключевые слова:
текстовые данные, текст-майнинг, текстовый анализ, наивный байесовский классификатор, дерево решений, частичный неответ

Биография автора

Марина Юрьевна Александрова, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
стажер-исследователь Международной лаборатории исследований социальной интеграции, преподаватель кафедры методов сбора и анализа социологической информации

Литература

Александрова М.Ю. Методы машинного обучения в социологическом исследовании: предсказание частичного неответа с использованием наивного байесовского классификатора // Мониторинг общественного мнения: экономические и социальные перемены. 2021. № 1. С. 329—350. DOI: https://doi.org/10.14515/monitoring.2021.1.1756

Baayen R.H. Word Frequency Distributions. Dordrecht: Springer, 2001. DOI: https://doi.org/10.1007/978-94-010-0844-0

Bird S., Klein E., Loper E. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. Sebastopol: O'Reilly Media, 2009.

Brown T.B. et al. Language Models Are Few-Shot Learner. 2020. URL: https://arxiv.org/pdf/2005.14165.pdf (дата обращения: 22.05.2021).

Devlin J. et al. BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding. 2018. URL: https://arxiv.org/pdf/1810.04805.pdf (дата обращения: 22.05.2021).

Evans J.A., Aceves P. Machine Translation: Mining Text for Social Theory // Annual Review of Sociology. 2016. № 42. P. 21—50. DOI: https://doi.org/10.1146/annurev-soc-081715-074206

Géron A. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. Sebastopol: O'Reilly Media, 2019.

Hirschberg J., Manning C.D. Advances in Natural Language Processing // Science. 2015. Vol. 349. № 6245. P. 261—266. DOI: https://doi.org/10.1126/science.aaa8685

Jurafsky D., Martin J.H. Speech and Language Processing (3rd ed. draft). 2020. URL: https://web.stanford.edu/~jurafsky/slp3/ (дата обращения: 20.05.2021).

Kelleher J.D., Mac Namee B., D'arcy A. Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies. Cambridge: MIT Press, 2020.

LeCun Y., Bengio Y., Hinton G. Deep Learning // Nature. 2015. Vol. 521. № 7553. P. 436—444. DOI: https://doi.org/10.1038/nature14539

Lee W.M. Python Machine Learning. Indianapolis: John Wiley & Sons, 2019. DOI: https://doi.org/10.1002/9781119557500

Marsland S. Machine Learning: An Algorithmic Perspective. Boca Raton: CRC Press, 2015. DOI: https://doi.org/10.1201/b17476

Mikolov T. et al. Advances in Pre-Training Distributed Word Representations. 2017. URL: https://arxiv.org/pdf/1712.09405.pdf (дата обращения: 22.05.2021).

Müller A.C., Guido S. Introduction to Machine Learning with Python: A Guide for Data Scientists. Sebastopol: O'Reilly Media, 2016.

Powers D.M.W. Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness and Correlation. 2020. URL: https://arxiv.org/pdf/2010.16061.pdf (дата обращения: 22.05.2021).

Radford A. et al. Language Models Are Unsupervised Multitask Learners // OpenAI blog. 2019. Vol. 1. № 8. URL: http://www.persagen.com/files/misc/radford2019language.pdf (дата обращения: 22.05.2021).

Stehman S.V. Selecting and Interpreting Measures of Thematic Classification Accuracy // Remote Sensing of Environment. 1997. Vol. 62. № 1. P. 77—89. DOI: https://doi.org/10.1016/s0034-4257(97)00083-7

Witten I., Frank E., Hall M. Data Mining: Practical Machine Learning Tools and Techniques. Burlington: Morgan Kaufmann, 2011. DOI: https://doi.org/10.1016/C2009-0-19715-5

Zhang Y., Jin R., Zhou Z.H. Understanding Bag-of-Words Model: A Statistical Framework // International Journal of Machine Learning and Cybernetics. 2010. № 1. P. 43—52. DOI: https://doi.org/10.1007/s13042-010-0001-0
Статья

Поступила: 05.05.2021

Опубликована: 25.06.2021

Форматы цитирования
Другие форматы цитирования:

APA
Александрова, М. Ю. (2021). Методы классификации текстовых данных: можно ли потенциал количественного анализа использовать в качественном исследовании?. Интеракция. Интервью. Интерпретация, 13(2), 81-96. https://doi.org/10.19181/inter.2021.13.2.5
Раздел
Исследовательская рефлексия