Il Package: lavorazione dei dati > Arricchimento del Package

Il Text Link è un'adapter che consente di leggere e acquisire dati da file di testo. Fornisce un accesso diretto a file strutturati e semi strutturati ed un accesso mediato a file non strutturati, attraverso l'apposito componente tecnologico File Normalizer. Esso permette di rielaborare file di testo complessi, mediante:

✓ regole di parsing e algoritmi di pattern matching sofisticati;

✓ conversioni di dati da qualunque tipo di codifica o formato (e.g. EBCDIC, ASCII o Unicode).

APPROFONDIMENTO: CODIFICHE e FORMATI

Il File Normalizer è in grado di gestire le codifiche di caratteri riassunti nella seguente tabella.

Codifica	Descrizione
ASCII	Sistema di codifica di caratteri a 7 bit, comunemente utilizzato nei calcolatori. Codifica lettere, cifre segni di punteggiatura e caratteri di controllo non stampabili. Tipico dei sistemi operativi Microsoft, DOS e Unix.
EBCDIC	Sistema di codifica dell'informazione a 8 bit, proprio dei sistemi IBM. Codifica lettere, cifre segni di punteggiatura e caratteri di controllo, in modo analogo ma del tutto indipendente dalla codifica ASCII. Tipico dei sistemi mainframe.
UNICODE	Sistema di codifica di caratteri da 16 a 21 bit, capace di rappresentare circa un milione di caratteri. Attribuisce un numero univoco a ogni carattere, indipendentemente dalla piattaforma, dall’applicativo e dalla lingua correnti. Tipico di sistemi Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys.
UTF-8	Sistema di codifica di caratteri Unicode in sequenze a lunghezza variabile di byte. Codifica ogni carattere Unicode, utilizzando sequenze da 1 a 4 byte.
UTF-16	Sistema di codifica di caratteri Unicode in sequenze a 16 bit.
UTF-32	Sistema di codifica di caratteri Unicode in sequenze a 32 bit.

Ogni codifica può essere convertita in un'altra mediante opportune tabelle di conversione

L'output di un File Normalizer è sempre un file di testo strutturato, dal quale acquisire i dati da elaborare mediante il Text Link sottostante.

Il File Normalizer è un componente procedurale, il cui funzionamento si basa sull'applicazione sequenziali di filtri sul file di testo in input. Questi filtri definiscono opportune operazioni di trasformazione del testo, quali:

✓ aggiunta o rimozione di parti di testo;

✓ estrazione di porzioni di testo;

✓ ricerca e sostituzione di porzioni di testo;

✓ conversione di codifica e formato del testo (e.g. da ASCII ad ANSI o da CVS a XML);

✓ acquisizione di testi con codifica Unicode.

Inoltre, il File Normalizer consente di:

✓ scorrere tutto il file di testo in input, dall'inizio alla fine;

✓ eseguire il debug su singole porzioni del testo da acquisire;

✓ ricavare dati da testi presenti su uno o più file;

✓ simulare la procedura di acquisizione dei dati su file di testo fittizi.

L'accesso al File Normalizer avviene tramite il tab Settings di un Text Link.

In caso i File Format predefiniti di un Text Link non siano idonei all'acquisizione del file di testo in input, è possibile abilitare l'utilizzo del File Normalizer mediante il flag Apply file normalizer.

Il flag Apply file normalizer è attivo, solo in caso sia stato definito almeno un filtro tramite il File Normalizer associato al Text Link corrente.

Inoltre è possibile:

✓ importare ed esportare le impostazioni di acquisizione dei dati definite nel File Normalizer, mediante i pulsanti Import ed Export ;

✓ eliminare tutte le impostazioni di acquisizione dei dati definite nel File Normalizer, mediante il pulsante Delete .

Il risultato dell'export di un File Normalizer è un particolare file XML di estensione .idqf

Infine, il pulsante Edit consente di accedere all'editor dedicato alla configurazione del File Normalizer.

APPROFONDIMENTI E ARGOMENTI CORRELATI

& Il File Normalizer Editor

& La modalità Debug

& I filtri del File Normalizer