APPENDICI > Regular Expressions

Le Regular Expressions sono espressioni che consentono di effettuare ricerche e sostituzioni nelle stringhe come, ad esempio, trovare una sottostringa in una stringa.

In IrionEDM, esse sono utilizzate nella pre-elaborazione di Text Link effettuata in fase di acquisizione mediante il File Normalizer. Nello specifico, l'uso delle espressioni consente di individuare sottostringhe utilizzando i modelli del Pattern Extracting Report Language (perl type).

I caratteri speciali che identificano le espressioni sono sempre preceduti dal simbolo \ e sono riepilogati nella seguente tabella:

RegEx	Descrizione
\A	Inizio testo
\a	Segnale acustico (bell)
\b	Bordo parola
\B	Tutto tranne \b
\c	Ctrl
\d	Cifra
\D	Tutto tranne \d
\e	Escape
\f	Fine pagina
\n	Fine riga
\r	Carriage Return
\s	Spazio
\S	Tutto tranne \s
\t	TAB
\uHHH	Carattere Unicode
\v	Tabulazione verticale
\w	Carattere parola
\W	Tutto tranne \w
\xHH	Codice ASCII
\Z	Fine testo

Nelle espressioni regolari, il punto . è il carattere jolly.

Il più + identifica un numero intero positivo e indeterminato di ripetizioni. L'asterisco * identifica un numero intero e indeterminato di ripetizioni (anche zero).

ESEMPIO DI UTILIZZO DEL JOLLY

L'uso del carattere jolly nella sintassi delle espressioni regolari è evidenziato dall'esempio seguente:

....sottostringa

ove il numero di punti è pari al numero di caratteri omessi.

Supponendo, ad esempio, di avere il testo:

Ad rivum eundem lupus et agnus venerant, siti compulsi.

Superior stabat lupus, longeque inferior agnus.

L'espressione:

..pus

individua due occorrenze della parola latina lupus, ma l'espressione:

...us

individua tutte le occorrenze delle parole latine lupus e agnus presenti nel testo:

Ad rivum eundem lupus et agnus venerant, siti compulsi.

Superior stabat lupus, longeque inferior agnus.

Al fine dell'individuazione dei pattern, è possibile definire espressioni regolari mediante sequenze di caratteri speciali.

ESEMPIO DI INDIVIDUAZIONE DI UN PATTERN DATA

Supponendo, ad esempio, di avere, ancora, il testo:

Avvenimenti del 17/02/1600.

L'espressione regolare:

\d\d/\d\d/\d\d\d\d

individua, nel testo, l'occorrenza della data:

Avvenimenti del 17/02/1600.

Le parentesi quadre sono usate per delimitare insiemi di caratteri:

✓ [abc] individua i caratteri a, b, c;

✓ [a-c] individua tutti i caratteri dalla a alla c (a, b, c);

✓ [0-9] individua tutte le cifre;

✓ [0-9-] individua le cifre e lo stesso trattino;

✓ [^] anteposto ad un carattere, individua tutti gli altri caratteri ad eccezione di esso.

Gli spazi tra le parole sono identificati dal carattere speciale \s.

APPROFONDIMENTI E ARGOMENTI CORRELATI

& Estrazione di Sottostringhe

& Costrutti

& ASCII e UNICODE