IT博客汇 | 用R语言进行量化文本分析quanteda

用R语言进行量化文本分析quanteda

Conan Zhang发表于 2023-10-17 04:48:58

R的极客理想系列文章，涵盖了R的思想，使用，工具，创新等的一系列要点，以我个人的学习和体验去诠释R的强大。 R语言作为统计学一门语言，一直在小众领域闪耀着光芒。直到大数据的爆发，R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入，R语言的社区在迅速扩大成长。现在已不仅仅是统计领域，教育，银行，电商，互联网….都在使用R语言。要成为有理想的极客，我们不能停留在语法上，要掌握牢固的数学，概率，统计知识，同时还要有创新精神，把R语言发挥到各个领域。让我们一起动起来吧，开始R的极客理想。关于作者：张丹，分析师/程序员/Quant: R,Java,Nodejs blog: http://blog.fens.me email: bsspirit@gmail.com 转载请注明出处： http://blog.fens.me/r-word-quanteda/ 前言在互联网的今天，我们每天都会生产和消费大量的文本信息，如报告、文档、新闻、聊天、图书、小说、语音转化的文字等。海量的文本信息，不仅提供扩宽的研究对象和研究领域，也为商业使用带来了巨大的机会。量化文本分析（Quantitative Analysis of Textual Data），一种新的方式，用结构化数据的方式来管理文本。quanteda包，提出以语料库的形式管理文本，语料库被定义为文本的集合，其中包括特定每个文本的文档级变量，和整个集合的元数据。用户可以轻松地按单词、段落、句子甚至用户提供的分隔符分割文本和标签，按文档级变量将它们分组为更大的文档，形成基于逻辑条件的变量组合。本文内容为分享内容，详情请参考文章2021 微软Ignite Post Watching Part：用R语言进行量化文本分析，分享内容的PPT请自取。目录 quanteda包介绍 quanteda包的核心函数 quanteda包的使用 1. quanteda包介绍 Quanteda是一个用于管理和分析文本数据的R包，对于文本管理功能强大，而且还很快。Quanteda包的官方地址 https://quanteda.io/。 Quanteda包由 Quanteda Initiative公司开发，总部位于伦敦，是一家英国非营利组织，致力于推广开源文本分析软件。主要产品R包 quanteda, readtext, spacyr, stopwords等，公司网站 https://quanteda.org/ Quanteda从底层开始重新设计了文本处理过程，在语法与性能上得到了巨大提升。内部使用stringi作为字符处理工具内部基于data.table与Matrix包统一的语法结构 quanteda 文本重新定义了文本处理的过程，自己负责底层文本数据结构，结合应用层不同的功能包进行扩展。quanteda 包的使用，有一套自己的生态。配合使用的其他包：readtext, stopwords，uanteda.textstats，quanteda.textmodels，quanteda.textplots，ggplot2,magrittr,stringr,plyr,dplyr,reshape2,seededlda 。官方建议安装以下软件包，以便更好地支持和扩展quanteda的功能： readtext: 可将几乎任何格式的文本文件读入R spacyr: 使用spaCy库的NLP，包括词性标注，命名实体和依存语法 quanteda.corpora …
Read more →