在大資料集中查詢匹配項

在大資料集的情況下,grepl("fox", test_sentences) 的呼叫效果不佳。大資料集是例如爬網網站或數百萬推文等。

第一個加速度是使用 perl = TRUE 選項。更快的是 fixed = TRUE 選項。一個完整的例子是:

# example data
test_sentences <- c("The quick brown fox", "jumps over the lazy dog")

grepl("fox", test_sentences, perl = TRUE)
#[1]  TRUE FALSE

在文字挖掘的情況下,通常使用語料庫。語料庫不能直接與 grepl 一起使用。因此,請考慮以下功能:

searchCorpus <- function(corpus, pattern) {
  return(tm_index(corpus, FUN = function(x) {
    grepl(pattern, x, ignore.case = TRUE, perl = TRUE)
  }))
}