Выявление тематической структуры российской блогосферы: автоматические методы анализа текстов

Олеся Юрьевна Кольцова, Кирилл Александрович Маслинский

Ссылка при цитировании


Кольцова О. Ю., Маслинский К. А. Выявление тематической структуры российской блогосферы: автоматические методы анализа текстов // Социология: методология, методы, математическое моделирование (4М), 2013. № 36. C. 113-139.

Аннотация


В статье изложены методологические результаты исследования русскоязычных блогов. Произведена адаптация и апробация автоматизированных методов анализа текстов и соответствующего программного обеспечения для решения содержательных задач (выявление тематической структуры блогосферы, описание ее изменений во времени, выявление процесса образования дискуссионных сообществ). Выделяются и описываются два класса методов деления больших массивов текстов на группы – кластерный анализ и тематическое моделирование; из каждой группы выбирается и апробируется программное обеспечение (ПО). Эксперименты проводятся на двух массивах данных в 104 постов каждый. Обосновывается выбор в пользу тематического моделирования, представлено описание полной технологической цепочки от сбора до социологического анализа данных.

Ключевые слова


Интернет; блоги; методология социологического исследования; кластеризация текстов; тематическое моделирование; «большие данные»

Полный текст:

PDF

Литература


Яндекс-блоги. URL: http://blogs.yandex.ru (дата обращения 05.04.2012)

Biro I. Document Classification with Latent Dirichlet Allocation. PhD thesis. Budapest: Eötvös Loránd University, 2009.

Zha, Y., Karypis G. Evaluation of Hierarchical Clustering Algorithms for Document Datasets//CIKM ‘02 Proceedings of the Eleventh International Conference on Information and Knowledge Management. ACM New York, 2002.

Blei D.M., Ng A.Y., Jordan M.I., Lafferty J. Latent Dirichlet Allocation//Journal of Machine Learning Research. 2003. No. 3. P. 993-1022.

Этлинг Б., Алексанян К., Келли Дж., Палфри Дж., Гассер У. Публичный дискурс в российской блогосфере: анализ публичной политики и мобилизации//Исследования центра Беркмана No 2010-11, 19 октября 2010 г. URL: http://cyber.law. harvard.edu/sites/cyber.law.harvard.edu/files/Public_Discourse_in_the_Russian_Blogosphere-RUSSIAN.pdf (дата обращения 17.04.2012).

Alexanyan K., Koltsova O. Blogging in Russia is not Russian blogging//International Blogging: Identity, Politics and Networked Publics/Ed. A. Russel, N. Echchaibi. N.Y.: Peter Lang, 2009.

Gorny E. Russian LiveJournal: National Specifics in the Development of a Virtual Community. Version 1.0 of 13 May 2004//Russian-cyberspace.org. URL: http://www. ruhr-uni-bochum.de/russ-cyb/library/texts/en/gorny_rlj.pdf (дата обращения 05.04.2012).

Koltsova O. Coverage of Social Problems in St.Petersburg Press//Use and Views of Media in Sweden & Russia/Ed. C. von Feilitzen, P. Petrov Stockholm: Sodertorn University, 2011.

Wu S., Hofman J.M., Mason W., Watts D.J. Who Says What to Whom on Twitter//International WWW Conference 2011, March 28-April 1, 2011, Hyderabad, India.

Sugar C., James G. Finding the Number of Clusters in a Data Set: An Information Theoretic Approach//Journal of the American Statistical Association. 2003. No. 98. P. 750-763.

Carpineto C., Osiński S., Romano G., Weiss D. A Survey of Web Clustering Engines//ACM Computing Surveys (CSUR). 2009. Vol. 41. Iss. 3. No. 17.

Andrews N.O, Fox E.A. Recent Developments in Document Clustering. October 16, 2007. URL:http://eprints.cs.vt.edu/archive/00001000/01/docclust.pdf (дата обращения 17.04.2012).

Kummamuru K., Dhawale A., Krishnapuram R. Fuzzy Co-clustering of Documents and Keywords//FUZZ ‘03: 12th IEEE International Conference on Fuzzy Systems, 2003. P. 772-777.

gCLUTO -Graphical Clustering Toolkit. URL: http://glaros.dtc.umn.edu/gkhome/cluto/gcluto/overview(дата обращения 19.04.2012).

Rasmussen M., Karypis G. gCLUTO: An Interactive Clustering, Visualization, and Analysis System//UMN-CS TR-04-021, 2004.

Zhao Y., Karypis G. Emperical and Theoretical Comparisons of Selected Criterion Functions for Document Clustering//Machine Learning. 2004. Vol. 55. P. 311-331.

Zhao Y., Karypis G. Hierarchical Clustering Algorithms for Document Clustering//Data Mining and Knowledge Discovery. 2005. Vol. 10. No. 2. P. 141-168.

Landauer T.K., Foltz P.W., Laham D. Introduction to Latent Semantic Analysis//Discourse Processes.1998. Vol. 25. P. 259-284.

Hoffman T. Probabilistic Latent Semantic Analysis//Uncertainty in Artificial Intelligence, UAI’99. Stockholm, 1999.

Обзор по вероятностным тематическим моделям/Пер. с англ. К.В. Воронцова, А.В. Темлянцева и др. URL: http://www.machinelearning.ru/wiki/images/9/90/Daud2009survey-rus.pdf (дата обращения 19.02.2012).

Stanford Topic Modeling Toolbox//The Stanford Natural Language Processing Group. URL:http://nlp.stanford.edu/software/tmt/tmt-0.4/(дата обращения 19.04.2012).

Ramage D., Rosen E., Chuang J., Manning C.D., McFarland D.A. Topic Modeling for the Social Sciences//NIPS 2009 Workshop on Applications for Topic Models. URL:http://vis.stanford.edu/papers/topic-modeling-social-sciences (дата обращения 19.04.2012).

Ramage D., Dumais S., Liebling D. Characterising Microblogs with Topic Models//ICWSM. 2010. URL:http://www.stanford.edu/~dramage/papers/twitter-icwsm10.pdf (дата обращения 19.04.2012)

Wallach H., Murray I., Salakhutdinov R. & Mimno D. Evaluation Methods for Topic Models//Proceedings of the 26th International Conference on Machine Learning. Montreal, 2009.

Bellman R.E. Dynamic Programming. Princeton, NJ: Princeton University Press, 1957.

Manning C., Schutze H. Foundations of Natural Language Processing. Cambridge: The MIT Press, 1999.

Chang J., Boyd-Graber J., Wang C., Gerrish S., Blei D.M. Reading Tea Leaves: How Humans Interpret Topic Models//Neural Information Processing Systems, 2009. Vol. 22. P. 288-296.

Li F., Huang M., Zhu X. Sentiment Analysis with Global Topics and Local Dependency//Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10). 2010. Atlanta, USA, July 11-15, 2010. P. 1371-1376.


Ссылки

  • Ссылки не определены.