IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    网络新闻评论的某些事儿

    qxde01发表于 2012-10-30 22:15:45
    love 0

    吾读新闻,常看后附之评论,然常感言之无物,虽想一探究竟。然因余之技术粗鄙,不知动态网页之原理,余不能获之。经探测,3g网页数据可读之,窃喜。虽获获新浪之《中方反对美渉华军力报告》(2012-5-20 02:25发布)评论526则、网易之《中方反对美散布“中国威胁论”》(2012-5-20 07:54发布)评论457则。

    新浪之用户为手机用户与非手机用户,手机读新闻之黔首过半矣;网易用户之地域可观之,如粤(83)、浙(42)、苏(38)、京(33)、沪(30)等,一域网络阅新闻之黔首数量与经济正相关。虽网易发布晚于新浪近5小时,然用户之高峰却同也。闲言少许,有图为证:

    新闻评论的某些事儿 - qxde01 - 平行宇宙
    新闻评论的某些事儿 - qxde01 - 平行宇宙新闻评论的某些事儿 - qxde01 - 平行宇宙
    新闻评论的某些事儿 - qxde01 - 平行宇宙
    其内容可见黔首如何之义愤填膺、如何之怒不可遏、如何之言词凿凿等等不一而足,看官可观之。


    网络新闻评论的某些事儿 - qxde01 - 平行宇宙
    网络新闻评论的某些事儿 - qxde01 - 平行宇宙

    网络新闻评论的某些事儿 - qxde01 - 平行宇宙
    网络新闻评论的某些事儿 - qxde01 - 平行宇宙
    网络新闻评论的某些事儿 - qxde01 - 平行宇宙
    网络新闻评论的某些事儿 - qxde01 - 平行宇宙

    虽二者主流意识是一致的,但新浪用户的词语比网易的更为集中,而网易用户词语较为分散,其评论不尽限于此新闻,有所延伸,然亦有发泄者、广告者等江湖人物,可谓鱼龙混杂。

    网络新闻评论的某些事儿 - qxde01 - 平行宇宙
    网络新闻评论的某些事儿 - qxde01 - 平行宇宙
    附录:网易数据获取
    1. library(RCurl)
    2. # http://3g.163.com/ntes/12/0520/07/81UCOED600963VRO.html
    3. myH <- c(Host = "http://3g.163.com", `User-Agent` = "Mozilla/5.0 (Windows NT 5.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
    4. Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    5. `Accept-Language` = "zh-cn,zh;q=0.5", `Accept-Encoding` = "gzip, deflate",
    6. `Accept-Charset` = "GB2312,utf-8;q=0.7,*;q=0.7", `Keep-Alive` = "115",
    7. Connection = "keep-alive", Referer = "http://3g.163.com",
    8. `Content-Type` = "application/x-www-form-urlencoded; charset=UTF-8")
    9. d <- debugGatherer()
    10. cH <- getCurlHandle(debugfunction = d$update, verbose = T,
    11. ssl.verifyhost = F, ssl.verifypeer = F, followlocation = T, cookiefile = "cc.txt")
    12. getCurlInfo(cH)[["cookielist"]]
    13. urlT <- "http://comment.3g.163.com/3g_bbs/81UCOED600963VRO_"
    14. ##创建data.frame,保存用户所在省份、评论时间、评论内容
    15. NetEase <- as.data.frame(matrix(NA, ncol = 3, nrow = 0))
    16. names(NetEase) <- c("Zone", "RCtime", "Comtx")
    17. ##拆楼
    18. delrep <- function(x) {
    19. x <- unlist(strsplit(x, ">"))
    20. y <- x[length(x)]
    21. return(y)
    22. }
    23. ##根据页码循环获取页面数据
    24. for(pg in 1:46){
    25. www<-paste(urlT,pg,'.html',sep='')
    26. txt=postForm(www,httpheader=myH,curl=cH,style="post",.encoding = "UTF-8")
    27. write(txt, "tmp.txt")
    28. txt<-readLines('tmp.txt')
    29. txt<-txt[grep('

      ',txt)]

    30. #txt<-gsub('<[^>]*|>| ','',txt)
    31. Zone<-txt[grep('span class="name"',txt)]
    32. Zone<-gsub('|| ','',Zone)
    33. RCtime<-txt[grep('span class="time"',txt)]
    34. RCtime<-gsub('|发表| ','',RCtime)
    35. Comtxt<-txt[grep('

      ',txt)]

    36. Comtxt<-Comtxt[1:(length(Comtxt)-2)]
    37. #Comtxt<-gsub('

      |

      | ','',Comtxt)
    38. Comtxt<-gsub('<[^>]*| ','',Comtxt)
    39. Comtxt<-gsub('>>>>|\\([^\\)]*','',Comtxt)
    40. ##拆楼
    41. x1<-Comtxt[grep('原贴',Comtxt)]
    42. x1<-mapply(delrep,x1)
    43. Comtxt[grep('原贴',Comtxt)]<-x1
    44. Comtxt<-gsub('>','',Comtxt)
    45. temp<-cbind(Zone,RCtime,Comtxt)
    46. cat('已读取',pg,'页','\n')
    47. NetEase<-rbind(NetEase,temp)
    48. }


沪ICP备19023445号-2号
友情链接