Filtri Extract

Navigation:  Il Package: lavorazione dei dati > Arricchimento del Package > File Normalizer > I filtri del File Normalizer >

Filtri Extract

Previous pageReturn to chapter overviewNext page

La classe Extract contiene filtri che consentono di estrarre porzioni del testo in input, eliminando il resto.

 

Il filtro Extract matches consente di estrarre una porzione di testo corrispondente ad una specifico pattern, identificato da un'opportuna regualr expression.

Il campo Extract matches consente di specificare la regular expression corrispondente al pattern da estrarre dal testo in input. L'opzione Pattern type permette, invece, di selezionare il tipo di regular expression da utilizzare. Essa può assumere i valori:

Pattern (perl), regular expression tipiche del linguaggio Perl;

Pattern (egrep), regular expression tipiche dei linguaggi Linux e Unix;

MSWord Pattern, regular expression tipiche dei campi di ricerca Windows.

 

Il confronto tra regular expression e testo in input può essere reso case insensitive attivando il flag Ignore Case. Altri flag consentono, invece, di specializzare l'output dell'applicazione del filtro:

Output Count of matches espone in output solo il numero di occorrenze del pattern nel testo in input;

Include line numbers associa ad ogni occorrenza del pattern il numero della riga del testo in input in cui esso è presente;

UTF-8 Support converte il pattern da estrarre in formato UTF-8;

Ignore Empty Matches ignora ogni occorrenza del pattern priva di testo.

 

Il filtro Extract lines matching consente di estrarre dal testo in input le righe contenenti testo corrispondente ad uno specifico pattern, identificato da un'opportuna regualr expression.

Il campo Extract lines matches consente di specificare la regular expression corrispondente al pattern da cercare nel testo in input. L'opzione Pattern type permette, invece, di selezionare il tipo di regular expression da utilizzare. Essa può assumere i valori:

Pattern (perl), regular expression tipiche del linguaggio Perl;

Pattern (egrep), regular expression tipiche dei linguaggi Linux e Unix;

MSWord Pattern, regular expression tipiche dei campi di ricerca Windows.

 

Il confronto tra regular expression e testo in input può essere reso case insensitive attivando il flag Ignore Case. Altri flag consentono, invece, di specializzare l'output dell'applicazione del filtro:

Output Count of matches espone in output solo il numero di occorrenze del pattern nel testo in input;

Include line numbers associa ad ogni riga estratta il corrispondente numero di riga nel testo in input;

UTF-8 Support converte il pattern da estrarre in formato UTF-8;

Ignore Empty Matches ignora ogni occorrenza del pattern priva di testo.

 

Inoltre, in caso l'input del sottostante Text Link sia una lista di file, è possibile associare alle righe estratte il percorso assoluto del corrispondente file, attivando il flag Include file name.

 

Il filtro Extract lines NOT matching si configura in modo analogo al filtro Extract lines matches, ma espone in output le sole righe che non contengono il pattern specificato.

 

Il filtro Extract email addresses permette di estrarre dal testo in input tutti gli indirizzi e-mail, in esso presenti. Tali indirizzi e-mail devono essere nella forma person@server.domain.

Analogamente il filtro Extract URLs consente di estrarre dal testo in input tutti tutti gli URL, in esso presenti. In particolare è in grado di identificare URL di tipo:

http:// e https://,

ftp://,

gopher://.

 

Il filtro Extract lines from list consente di estrarre dal testo in input le righe corrispondenti a una o più linee di testo. Esse possono essere:

 lette da un file di testo presente sul file system, selezionando l'opzione From File;

 specificate manualmente nell'apposito editor di testo, selezionando l'opzione From Text

 

warning

Le singole linee di testo, da ricercare all'interno del testo in input, devono essere separate da un a capo.

 

Infine, è anche possibile rendere la ricerca del testo case sensitive, attivando il flag Match Case.

 

Il filtro Extract lines matching pattern list consente di estrarre dal testo in input le righe corrispondenti a uno o più pattern. Essi possono essere:

 contenuti in un file di testo presente sul file system, selezionando l'opzione From File;

 specificati manualmente nell'apposito editor di testo, selezionando l'opzione From Text

 

warning

I singoli pattern, da ricercare all'interno del testo in input, devono essere:

 specificati mediante regular expression del linguaggio Perl;

 separati da un a capo.

 

Infine, è anche possibile rendere la ricerca dei pattern all'interno del testo in input case sensitive, attivando il flag Match Case.