Экспертная валидация тематического моделирования (BERTopic) и последующее применение LLM к выделенным темам в качественном исследовании в рамках тематического анализа
Научная статья
Для цитирования
Червоткина П. И. Экспертная валидация тематического моделирования (BERTopic) и последующее применение LLM к выделенным темам в качественном исследовании в рамках тематического анализа // Интеракция. Интервью. Интерпретация. 2026. Том 18. № 2. С. 91-125. DOI: https://doi.org/10.19181/inter.2026.18.2.8 EDN: XBLIML
Аннотация
Статья посвящена применению методов машинного обучения и генеративных языковых моделей в анализе качественных интервью. Цель работы — разработка и валидация смешанной методологии, сочетающей тематическое моделирование (BERTopic) с контролем эксперта. Эмпирическую базу составили 20 транскриптов полуформализованных интервью с членами семей о практиках заботы о здоровье. На первом этапе с помощью BERTopic, UMAP и HDBSCAN выделены кластеры реплик на основе биграмм и триграмм, а затем — с добавлением униграмм. Далее проведен подбор гиперпараметров. Второй этап включал валидацию кластеров экспертом и построение управляемой (guided) модели с добавлением тем от эксперта (seed-темы). Третий этап — визуализация связей тем через графы совместной встречаемости терминов. На четвертом этапе выполнены обобщение и группировка тем на основе результатов предыдущих этапов с использованием DeepSeek, полученные данные сравнивались с работой кодировщика по темам модели BERT и транскриптам интервью. Установлено, что BERTopic с биграммами и триграммами демонстрирует более высокое разнообразие тем (0,96) и разделимость (силуэтный коэффициент 0,69) по сравнению с моделью, включающей и униграммы (разнообразие тем 0,84, силуэтный коэффициент 0,56). Управляемые модели позволили снизить долю шумовых реплик, выявить темы, не обнаруженные при изначальном запуске модели (например, ошибки устройств) и повысить метрики разделимости тем (силуэтный коэффициент 0,72 для модели с биграммами и триграммами, 0,73 для модели с униграммами). LLM демонстрирует ограниченную способность самостоятельно формулировать темы, не заданные в промпте, однако ее работа умеренно согласуется с кодировкой исследователя. В работе предлагаются методы снижения галлюцинаций и повышения качества тематического обобщения со стороны LLM.
Ключевые слова:
качественный анализ интервью, тематическое моделирование, BERTopic, большие языковые модели, тематический анализ, машинное обучение
Литература
Anakok I., Katz A., Chew K.J., Matusovich H. (2025) Leveraging Generative Text Models and Natural Language Processing to Perform Traditional Thematic Data Analysis. International Journal of Qualitative Methods. Vol. 24. P. 1–13. DOI: https://doi.org/10.1177/16094069251338898
Braun V., Clarke V. (2016) Using Thematic Analysis in Psychology. Qualitative Research in Psychology. Vol. 3. No. 2. P. 77–101. DOI: https://doi.org/10.1191/1478088706qp063oa
Campello R.J.G.B., Moulavi D., Sander J. (2013) Density-Based Clustering Based on Hierarchical Density Estimates. Lecture Notes in Computer Science. Vol. 7819. P. 160–172. DOI: https://doi.org/10.1007/978-3-642-37456-2_14
De Paoli S. (2024) Performing an Inductive Thematic Analysis of Semi–Structured Interviews with a Large Language Model: An Exploration and Provocation on the Limits of the Approach. Social Science Computer Review. Vol. 42. No. 4. P. 997–1019. DOI: https://doi.org/10.1177/08944393231220483
Egger R., Yu J.A (2022) Topic Modeling Comparison Between LDA, NMF, Top2Vec, and BERTopic to Demystify Twitter Posts. Frontiers in Sociology. Vol. 7. P. 1–16. DOI: https://doi.org/10.3389/fsoc.2022.886498
Gamieldien Y., Case J.M., Katz A. (2023) Advancing Qualitative Analysis: An Exploration of the Potential of Generative AI and NLP in Thematic Coding. SSRN. P. 1–54. DOI: https://doi.org/10.2139/ssrn.4487768
Grootendorst M. (2022) BERTopic: Neural Topic Modeling with a Class-Based TF-IDF Procedure. arXiv preprint. P. 1–10.
Hitch D. (2024) Artificial Intelligence Augmented Qualitative Analysis: The Way of the Future? Qualitative Health Research. Vol. 34. No. 7. P. 595–606. DOI: https://doi.org/10.1177/10497323231217392
Ionescu T.C., Han L., Suasnabar J.H., Stiggelbout A., Verberne S. (2026) Analyzing Cancer Patients' Experiences with Embedding-Based Topic Modeling and LLMs. arXiv preprint. P. 1–26.
Li K.D., Fernandez A.M., Schwartz R., Rios N., Carlisle M.N., Amend G.M., Patel H.V., Breyer B.N. (2024) Comparing GPT-4 and Human Researchers in Health Care Data Analysis: Qualitative Description Study. Journal of Medical Internet Research. Vol. 26. P. 1–13. DOI: https://doi.org/10.2196/56500
McInnes L., Healy J., Melville J. (2018) UMAP: Uniform Manifold Approximation and Projection. Journal of Open Source Software. Vol. 3. No. 29. P. 861. DOI: https://doi.org/10.21105/joss.00861
Nelson L.K. (2020) Computational Grounded Theory: A Methodological Framework. Sociological Methods & Research. Vol. 49. No. 1. P. 3–42. DOI: https://doi.org/10.1177/0049124117729703
Quillivic R., Payet C. (2024) Semi–Structured Interview Analysis: A French NLP Approach for Social Sciences. Brussels: JADT.
Renz S.M., Carrington J.M., Badger T.A. (2018) Two Strategies for Qualitative Content Analysis: An Intramethod Approach to Triangulation. Qualitative Health Research. Vol. 28. No. 5. P. 824–831. DOI: https://doi.org/10.1177/1049732317753586
Rousseeuw P.J. (1987) Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis. Journal of Computational and Applied Mathematics. Vol. 20. P. 53–65. DOI: https://doi.org/10.1016/0377-0427(87)90125-7
Salazar M., Chaw M., Hellier Y., Hsia S., Gruenberg K. (2025) Comparison of Qualitative Analyses Conducted by Artificial Intelligence Versus Traditional Methods. American Journal of Pharmaceutical Education. P. 1–5. DOI: https://doi.org/10.1016/j.ajpe.2025.101882
Braun V., Clarke V. (2016) Using Thematic Analysis in Psychology. Qualitative Research in Psychology. Vol. 3. No. 2. P. 77–101. DOI: https://doi.org/10.1191/1478088706qp063oa
Campello R.J.G.B., Moulavi D., Sander J. (2013) Density-Based Clustering Based on Hierarchical Density Estimates. Lecture Notes in Computer Science. Vol. 7819. P. 160–172. DOI: https://doi.org/10.1007/978-3-642-37456-2_14
De Paoli S. (2024) Performing an Inductive Thematic Analysis of Semi–Structured Interviews with a Large Language Model: An Exploration and Provocation on the Limits of the Approach. Social Science Computer Review. Vol. 42. No. 4. P. 997–1019. DOI: https://doi.org/10.1177/08944393231220483
Egger R., Yu J.A (2022) Topic Modeling Comparison Between LDA, NMF, Top2Vec, and BERTopic to Demystify Twitter Posts. Frontiers in Sociology. Vol. 7. P. 1–16. DOI: https://doi.org/10.3389/fsoc.2022.886498
Gamieldien Y., Case J.M., Katz A. (2023) Advancing Qualitative Analysis: An Exploration of the Potential of Generative AI and NLP in Thematic Coding. SSRN. P. 1–54. DOI: https://doi.org/10.2139/ssrn.4487768
Grootendorst M. (2022) BERTopic: Neural Topic Modeling with a Class-Based TF-IDF Procedure. arXiv preprint. P. 1–10.
Hitch D. (2024) Artificial Intelligence Augmented Qualitative Analysis: The Way of the Future? Qualitative Health Research. Vol. 34. No. 7. P. 595–606. DOI: https://doi.org/10.1177/10497323231217392
Ionescu T.C., Han L., Suasnabar J.H., Stiggelbout A., Verberne S. (2026) Analyzing Cancer Patients' Experiences with Embedding-Based Topic Modeling and LLMs. arXiv preprint. P. 1–26.
Li K.D., Fernandez A.M., Schwartz R., Rios N., Carlisle M.N., Amend G.M., Patel H.V., Breyer B.N. (2024) Comparing GPT-4 and Human Researchers in Health Care Data Analysis: Qualitative Description Study. Journal of Medical Internet Research. Vol. 26. P. 1–13. DOI: https://doi.org/10.2196/56500
McInnes L., Healy J., Melville J. (2018) UMAP: Uniform Manifold Approximation and Projection. Journal of Open Source Software. Vol. 3. No. 29. P. 861. DOI: https://doi.org/10.21105/joss.00861
Nelson L.K. (2020) Computational Grounded Theory: A Methodological Framework. Sociological Methods & Research. Vol. 49. No. 1. P. 3–42. DOI: https://doi.org/10.1177/0049124117729703
Quillivic R., Payet C. (2024) Semi–Structured Interview Analysis: A French NLP Approach for Social Sciences. Brussels: JADT.
Renz S.M., Carrington J.M., Badger T.A. (2018) Two Strategies for Qualitative Content Analysis: An Intramethod Approach to Triangulation. Qualitative Health Research. Vol. 28. No. 5. P. 824–831. DOI: https://doi.org/10.1177/1049732317753586
Rousseeuw P.J. (1987) Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis. Journal of Computational and Applied Mathematics. Vol. 20. P. 53–65. DOI: https://doi.org/10.1016/0377-0427(87)90125-7
Salazar M., Chaw M., Hellier Y., Hsia S., Gruenberg K. (2025) Comparison of Qualitative Analyses Conducted by Artificial Intelligence Versus Traditional Methods. American Journal of Pharmaceutical Education. P. 1–5. DOI: https://doi.org/10.1016/j.ajpe.2025.101882
Статья
Поступила: 17.04.2026
Опубликована: 03.07.2026
Форматы цитирования
Другие форматы цитирования:
APA
Червоткина, П. И. (2026). Экспертная валидация тематического моделирования (BERTopic) и последующее применение LLM к выделенным темам в качественном исследовании в рамках тематического анализа. Интеракция. Интервью. Интерпретация, 18(2), 91-125. https://doi.org/10.19181/inter.2026.18.2.8
Раздел
Полевые исследования
JATS XML

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.








