正規表示式(正規表示式)

角色類

  • [AB] 可以是 A 或 B.
  • [[:alpha:]] 可以是任何字母
  • [[:lower:]] 代表任何小寫字母。請注意,[a-z] 接近但不匹配,例如,ú
  • [[:upper:]] 代表任何大寫字母。請注意,[A-Z] 接近但不匹配,例如,Ú
  • [[:digit:]] 代表任何數字:0,1,2,…或 9,相當於 [0-9]

量詞

+*? 照常用於正規表示式。 - +至少匹配一次,*匹配 0 次或更多次,? 匹配 0 或 1 次。

行開始和結束指示符

你可以在字串中指定正規表示式的位置:

  • ^... 強制正規表示式位於字串的開頭
  • ...$ 強制正規表示式位於字串的末尾

與其他語言的差異

請注意,R 中的正規表示式通常與其他語言中使用的正規表示式略有不同。

  • R 需要雙反斜槓轉義(因為 \ 已經意味著通常在 R 字串中轉義),因此,例如,要捕獲大多數正規表示式引擎中的空白,只需要在 R 中鍵入\s,而不是\\s

  • R 中的 UTF-8 字元應該用大寫 U 轉義,例如 [\U{1F600}][\U1F600] 匹配😀,而在例如 Ruby 中,這將與小寫 u 匹配。

其他資源

以下站點 reg101 是在使用 R-script 之前檢查線上正規表示式的好地方。

[R 寫頻維基有一個專用的使用正規表示式的例子很多文字處理頁面。