Экспертная валидация тематического моделирования (BERTopic) и последующее применение LLM к выделенным темам в качественном исследовании в рамках тематического анализа

doi:10.19181/inter.2026.18.2.8

DOI: https://doi.org/10.19181/inter.2026.18.2.8
EDN: XBLIML

Полина Игоревна Червоткина Санкт-Петербургский государственный университет, Санкт-Петербург, Россия bcur1119@gmail.com ORCID ID https://orcid.org/0009-0006-3586-7087
Elibrary Author_id 1340883

SPIN 4245-9809

Для цитирования

Червоткина П. И. Экспертная валидация тематического моделирования (BERTopic) и последующее применение LLM к выделенным темам в качественном исследовании в рамках тематического анализа // Интеракция. Интервью. Интерпретация. 2026. Том 18. № 2. С. 91-125. DOI: https://doi.org/10.19181/inter.2026.18.2.8 EDN: XBLIML

Аннотация

Статья посвящена применению методов машинного обучения и генеративных языковых моделей в анализе качественных интервью. Цель работы — разработка и валидация смешанной методологии, сочетающей тематическое моделирование (BERTopic) с контролем эксперта. Эмпирическую базу составили 20 транскриптов полуформализованных интервью с членами семей о практиках заботы о здоровье. На первом этапе с помощью BERTopic, UMAP и HDBSCAN выделены кластеры реплик на основе биграмм и триграмм, а затем — с добавлением униграмм. Далее проведен подбор гиперпараметров. Второй этап включал валидацию кластеров экспертом и построение управляемой (guided) модели с добавлением тем от эксперта (seed-темы). Третий этап — визуализация связей тем через графы совместной встречаемости терминов. На четвертом этапе выполнены обобщение и группировка тем на основе результатов предыдущих этапов с использованием DeepSeek, полученные данные сравнивались с работой кодировщика по темам модели BERT и транскриптам интервью. Установлено, что BERTopic с биграммами и триграммами демонстрирует более высокое разнообразие тем (0,96) и разделимость (силуэтный коэффициент 0,69) по сравнению с моделью, включающей и униграммы (разнообразие тем 0,84, силуэтный коэффициент 0,56). Управляемые модели позволили снизить долю шумовых реплик, выявить темы, не обнаруженные при изначальном запуске модели (например, ошибки устройств) и повысить метрики разделимости тем (силуэтный коэффициент 0,72 для модели с биграммами и триграммами, 0,73 для модели с униграммами). LLM демонстрирует ограниченную способность самостоятельно формулировать темы, не заданные в промпте, однако ее работа умеренно согласуется с кодировкой исследователя. В работе предлагаются методы снижения галлюцинаций и повышения качества тематического обобщения со стороны LLM.

Ключевые слова:

качественный анализ интервью, тематическое моделирование, BERTopic, большие языковые модели, тематический анализ, машинное обучение

Биография автора

Полина Игоревна Червоткина, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия

Студентка бакалавриата

Литература

Anakok I., Katz A., Chew K.J., Matusovich H. (2025) Leveraging Generative Text Models and Natural Language Processing to Perform Traditional Thematic Data Analysis. International Journal of Qualitative Methods. Vol. 24. P. 1–13. DOI: https://doi.org/10.1177/16094069251338898

Braun V., Clarke V. (2016) Using Thematic Analysis in Psychology. Qualitative Research in Psychology. Vol. 3. No. 2. P. 77–101. DOI: https://doi.org/10.1191/1478088706qp063oa

Campello R.J.G.B., Moulavi D., Sander J. (2013) Density-Based Clustering Based on Hierarchical Density Estimates. Lecture Notes in Computer Science. Vol. 7819. P. 160–172. DOI: https://doi.org/10.1007/978-3-642-37456-2_14

De Paoli S. (2024) Performing an Inductive Thematic Analysis of Semi–Structured Interviews with a Large Language Model: An Exploration and Provocation on the Limits of the Approach. Social Science Computer Review. Vol. 42. No. 4. P. 997–1019. DOI: https://doi.org/10.1177/08944393231220483

Egger R., Yu J.A (2022) Topic Modeling Comparison Between LDA, NMF, Top2Vec, and BERTopic to Demystify Twitter Posts. Frontiers in Sociology. Vol. 7. P. 1–16. DOI: https://doi.org/10.3389/fsoc.2022.886498

Gamieldien Y., Case J.M., Katz A. (2023) Advancing Qualitative Analysis: An Exploration of the Potential of Generative AI and NLP in Thematic Coding. SSRN. P. 1–54. DOI: https://doi.org/10.2139/ssrn.4487768

Grootendorst M. (2022) BERTopic: Neural Topic Modeling with a Class-Based TF-IDF Procedure. arXiv preprint. P. 1–10.

Hitch D. (2024) Artificial Intelligence Augmented Qualitative Analysis: The Way of the Future? Qualitative Health Research. Vol. 34. No. 7. P. 595–606. DOI: https://doi.org/10.1177/10497323231217392

Ionescu T.C., Han L., Suasnabar J.H., Stiggelbout A., Verberne S. (2026) Analyzing Cancer Patients' Experiences with Embedding-Based Topic Modeling and LLMs. arXiv preprint. P. 1–26.

Li K.D., Fernandez A.M., Schwartz R., Rios N., Carlisle M.N., Amend G.M., Patel H.V., Breyer B.N. (2024) Comparing GPT-4 and Human Researchers in Health Care Data Analysis: Qualitative Description Study. Journal of Medical Internet Research. Vol. 26. P. 1–13. DOI: https://doi.org/10.2196/56500

McInnes L., Healy J., Melville J. (2018) UMAP: Uniform Manifold Approximation and Projection. Journal of Open Source Software. Vol. 3. No. 29. P. 861. DOI: https://doi.org/10.21105/joss.00861

Nelson L.K. (2020) Computational Grounded Theory: A Methodological Framework. Sociological Methods & Research. Vol. 49. No. 1. P. 3–42. DOI: https://doi.org/10.1177/0049124117729703

Quillivic R., Payet C. (2024) Semi–Structured Interview Analysis: A French NLP Approach for Social Sciences. Brussels: JADT.

Renz S.M., Carrington J.M., Badger T.A. (2018) Two Strategies for Qualitative Content Analysis: An Intramethod Approach to Triangulation. Qualitative Health Research. Vol. 28. No. 5. P. 824–831. DOI: https://doi.org/10.1177/1049732317753586

Rousseeuw P.J. (1987) Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis. Journal of Computational and Applied Mathematics. Vol. 20. P. 53–65. DOI: https://doi.org/10.1016/0377-0427(87)90125-7

Salazar M., Chaw M., Hellier Y., Hsia S., Gruenberg K. (2025) Comparison of Qualitative Analyses Conducted by Artificial Intelligence Versus Traditional Methods. American Journal of Pharmaceutical Education. P. 1–5. DOI: https://doi.org/10.1016/j.ajpe.2025.101882

Научная статья

Аннотация

Биография автора

Литература