Cadenas de caracteres y expresiones regulares para limpiar y normalizar textos.
Usage
data(acep_rs)
Format
Son cadenas de caracteres.
- stopwords
es un string de palabras vacias.
- dias
es un string de dias.
- meses
es un string de meses.
- emoji
es un string con expresiones regulares para emojis.
- sintildes
es un string de letras sin tildes.
- tildes
es un string de letras con tildes.
Examples
print(acep_rs)
#> $sintildes
#> [1] "SZszYAAAAAACEEEEIIIIDNOOOOOUUUUYaaaaaaceeeeiiiidnooooouuuuyy"
#>
#> $url
#> [1] "http\\S+|ftp\\S+|Http\\S+|Ftp\\S+|HTTP\\S+|FTP\\S+"
#>
#> $users
#> [1] "@\\S+"
#>
#> $saltos
#> [1] "[ \t\r\n]"
#>
#> $espacios
#> [1] "^ *|(?<= ) | *$"
#>
#> $hashtag
#> [1] "#\\S+"
#>
#> $num
#> [1] "[[:digit:]]*"
#>