Le Regular Expressions sono espressioni che consentono di effettuare ricerche e sostituzioni nelle stringhe come, ad esempio, trovare una sottostringa in una stringa.
In IrionEDM, esse sono utilizzate nella pre-elaborazione di Text Link effettuata in fase di acquisizione mediante il File Normalizer. Nello specifico, l'uso delle espressioni consente di individuare sottostringhe utilizzando i modelli del Pattern Extracting Report Language (perl type).
I caratteri speciali che identificano le espressioni sono sempre preceduti dal simbolo \ e sono riepilogati nella seguente tabella:
RegEx |
Descrizione |
---|---|
\A |
Inizio testo |
\a |
Segnale acustico (bell) |
\b |
Bordo parola |
\B |
Tutto tranne \b |
\c |
Ctrl |
\d |
Cifra |
\D |
Tutto tranne \d |
\e |
Escape |
\f |
Fine pagina |
\n |
Fine riga |
\r |
Carriage Return |
\s |
Spazio |
\S |
Tutto tranne \s |
\t |
TAB |
\uHHH |
Carattere Unicode |
\v |
Tabulazione verticale |
\w |
Carattere parola |
\W |
Tutto tranne \w |
\xHH |
Codice ASCII |
\Z |
Fine testo |
Nelle espressioni regolari, il punto . è il carattere jolly.
Il più + identifica un numero intero positivo e indeterminato di ripetizioni. L'asterisco * identifica un numero intero e indeterminato di ripetizioni (anche zero).
ESEMPIO DI UTILIZZO DEL JOLLY L'uso del carattere jolly nella sintassi delle espressioni regolari è evidenziato dall'esempio seguente: ....sottostringa ove il numero di punti è pari al numero di caratteri omessi. Supponendo, ad esempio, di avere il testo:
Ad rivum eundem lupus et agnus venerant, siti compulsi. Superior stabat lupus, longeque inferior agnus.
L'espressione: ..pus individua due occorrenze della parola latina lupus, ma l'espressione: ...us individua tutte le occorrenze delle parole latine lupus e agnus presenti nel testo:
Ad rivum eundem lupus et agnus venerant, siti compulsi. Superior stabat lupus, longeque inferior agnus. |
Al fine dell'individuazione dei pattern, è possibile definire espressioni regolari mediante sequenze di caratteri speciali.
ESEMPIO DI INDIVIDUAZIONE DI UN PATTERN DATA Supponendo, ad esempio, di avere, ancora, il testo:
Avvenimenti del 17/02/1600.
L'espressione regolare: \d\d/\d\d/\d\d\d\d
individua, nel testo, l'occorrenza della data: Avvenimenti del 17/02/1600.
|
Le parentesi quadre sono usate per delimitare insiemi di caratteri:
✓ [abc] individua i caratteri a, b, c;
✓ [a-c] individua tutti i caratteri dalla a alla c (a, b, c);
✓ [0-9] individua tutte le cifre;
✓ [0-9-] individua le cifre e lo stesso trattino;
✓ [^] anteposto ad un carattere, individua tutti gli altri caratteri ad eccezione di esso.
Gli spazi tra le parole sono identificati dal carattere speciale \s.
APPROFONDIMENTI E ARGOMENTI CORRELATI