File Normalizer

Navigation:  Il Package: lavorazione dei dati > Arricchimento del Package >

File Normalizer

Previous pageReturn to chapter overviewNext page

Il Text Link è un'adapter che consente di leggere e acquisire dati da file di testo. Fornisce un accesso diretto a file strutturati e semi strutturati ed un accesso mediato a file non strutturati, attraverso l'apposito componente tecnologico File Normalizer. Esso permette di rielaborare file di testo complessi, mediante:

regole di parsing e algoritmi di pattern matching sofisticati;

conversioni di dati da qualunque tipo di codifica o formato (e.g. EBCDIC, ASCII o Unicode).

 

ex

APPROFONDIMENTO: CODIFICHE e FORMATI

Il File Normalizer è in grado di gestire le codifiche di caratteri riassunti nella seguente tabella.

Codifica

Descrizione

ASCII

Sistema di codifica di caratteri a 7 bit, comunemente utilizzato nei calcolatori.

Codifica lettere, cifre segni di punteggiatura e caratteri di controllo non stampabili.

Tipico dei sistemi operativi Microsoft, DOS e Unix.

EBCDIC

Sistema di codifica dell'informazione a 8 bit, proprio dei sistemi IBM.

Codifica lettere, cifre segni di punteggiatura e caratteri di controllo, in modo analogo ma del tutto indipendente dalla codifica ASCII.

Tipico dei sistemi mainframe.

UNICODE

Sistema di codifica di caratteri da 16 a 21 bit, capace di rappresentare circa un milione di caratteri.

Attribuisce un numero univoco a ogni carattere, indipendentemente dalla piattaforma, dall’applicativo e dalla lingua correnti.

Tipico di sistemi Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys.

UTF-8

Sistema di codifica di caratteri Unicode in sequenze a lunghezza variabile di byte.

Codifica ogni carattere Unicode, utilizzando sequenze da 1 a 4 byte.

UTF-16

Sistema di codifica di caratteri Unicode in sequenze a 16 bit.

UTF-32

Sistema di codifica di caratteri Unicode in sequenze a 32 bit.

Ogni codifica può essere convertita in un'altra mediante opportune tabelle di conversione

 

L'output di un File Normalizer è sempre un file di testo strutturato, dal quale acquisire i dati da elaborare mediante il Text Link sottostante.

 

Il File Normalizer è un componente procedurale, il cui funzionamento si basa sull'applicazione sequenziali di filtri sul file di testo in input. Questi filtri definiscono opportune operazioni di trasformazione del testo, quali:

aggiunta o rimozione di parti di testo;

estrazione di porzioni di testo;

ricerca e sostituzione di porzioni di testo;

conversione di codifica e formato del testo (e.g. da ASCII ad ANSI o da CVS a XML);

acquisizione di testi con codifica Unicode.

 

Inoltre, il File Normalizer consente di:

scorrere tutto il file di testo in input, dall'inizio alla fine;

eseguire il debug su singole porzioni del testo da acquisire;

ricavare dati da testi presenti su uno o più file;

simulare la procedura di acquisizione dei dati su file di testo fittizi.

 

L'accesso al File Normalizer avviene tramite il tab Settings di un Text Link.

In caso i File Format predefiniti di un Text Link non siano idonei all'acquisizione del file di testo in input, è possibile abilitare l'utilizzo del File Normalizer mediante il flag Apply file normalizer.

 

warning

Il flag Apply file normalizer è attivo, solo in caso sia stato definito almeno un filtro tramite il File Normalizer associato al Text Link corrente.

 

Inoltre è possibile:

importare ed esportare le impostazioni di acquisizione dei dati definite nel File Normalizer, mediante i pulsanti Import Import_16 ed Export Export_16;

eliminare tutte le impostazioni di acquisizione dei dati definite nel File Normalizer, mediante il pulsante Delete trash16.

 

info

Il risultato dell'export di un File Normalizer è un particolare file XML di estensione .idqf

 

Infine, il pulsante Edit Edit16 consente di accedere all'editor dedicato alla configurazione del File Normalizer.

 

APPROFONDIMENTI E ARGOMENTI CORRELATI

& Il File Normalizer Editor

& La modalità Debug

& I filtri del File Normalizer