最近有几位同学问到我如何利用tm包做文本挖掘,比较抱歉的是时间不太充足,不能完整更新文档。
在这里只好给大家一些tips,来利用R的原生函数来完成文本挖掘的核心步骤。setwd('C:/Users/Administrator/Downloads')
options(width = 150)
library(data.table)
x <- fread('comment.txt', sep = '\t', header = FALSE)
x$V3 <- iconv(x$V3, 'UTF-8', 'GBK') # 第三类为文本内容,字符集转化
x <- x[which(nchar(x$V3) > 3),]
n <- 10000 # 设置抽样数量,保证计算时长
x <- x[sample(1:nrow(x),n),]
library(jiebaR)
library(Matrix)
JR = worker(user = 'D:/source/RecModels/prototype/TagGen/userdict.txt')
seg_raw <- sapply(x$V3, segment, JR) # 执行分词
id <- unique(unlist(seg_raw)) # 生成Term
id <- id[nchar(id) >
...
继续阅读
(21)