推特迷你项目
一旦定义了问题,接下来的阶段就是收集数据。以下小型项目的想法是致力于从网络上收集数据并将其结构化以用于机器学习模型。我们将使用 R 编程语言从 twitter rest API 收集一些推文。
首先创建一个推特账号,然后按照教程中的说明进行操作
twitteR打包
小插图以创建一个 twitter 开发者帐户。这是这些说明的摘要 -
-
-
填写基本信息后,转到“设置”选项卡并选择“读取、写入和访问直接消息”。
-
确保在执行此操作后单击保存按钮
-
在“详细信息”选项卡中,记下您的使用者密钥和使用者密码
-
在您的 R 会话中,您将使用 API 密钥和 API 密钥值
-
最后运行以下脚本。这将安装twitteR从它在 github 上的存储库中打包。
install.packages(c("devtools", "rjson", "bit64", "httr"))
# Make sure to restart your R session at this point
library(devtools)
install_github("geoffjentry/twitteR")
我们有兴趣获取包含字符串“big mac”的数据,并找出哪些主题在这方面脱颖而出。为此,第一步是从 twitter 收集数据。下面是我们从 twitter 收集所需数据的 R 脚本。此代码也可在 bda/part1/collect_data/collect_data_twitter.R 文件中找到。
rm(list = ls(all = TRUE)); gc() # Clears the global environment
library(twitteR)
Sys.setlocale(category = "LC_ALL", locale = "C")
### Replace the xxx’s with the values you got from the previous instructions
# consumer_key = "xxxxxxxxxxxxxxxxxxxx"
# consumer_secret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# access_token = "xxxxxxxxxx-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# access_token_secret= "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# Connect to twitter rest API
setup_twitter_oauth(consumer_key, consumer_secret, access_token, access_token_secret)
# Get tweets related to big mac
tweets <- searchTwitter(’big mac’, n = 200, lang = ’en’)
df <- twListToDF(tweets)
# Take a look at the data
head(df)
# Check which device is most used
sources <- sapply(tweets, function(x) x$getStatusSource())
sources <- gsub("</a>", "", sources)
sources <- strsplit(sources, ">")
sources <- sapply(sources, function(x) ifelse(length(x) > 1, x[2], x[1]))
source_table = table(sources)
source_table = source_table[source_table > 1]
freq = source_table[order(source_table, decreasing = T)]
as.data.frame(freq)
# Frequency
# Twitter for iPhone 71
# Twitter for Android 29
# Twitter Web Client 25
# recognia 20