next up previous
suivant: Exemple d'extraction d'informations avec monter: Extraction d'information avec des précédent: Exercice 3

Le script de pré-traitement

Un script permet d'aller chercher une page web codée en utf-8, d'en extraire l'ensemble de symboles utilisés, de créer un fichier de symbole ainsi que trois automates finis sous forme compilée (format binaire openfst).

Vous pouvez télécharger ce script là: converter.py

Voyons un exemple d'exécution du script:

> python converter.py 
Entrez l'url à télécharger: https://www.lemonde.fr
Entrez le nom à donner aux fichiers: le_monde       
alphabet créé
texte compilé
text scindé en lignes compilé

Cette exécution a créé quatres fichiers:

Pour utiliser l'alphabet compilé sygma_le_monde dans un fichier opengrm, on peut utiliser la fonction opengrm LoadFst. Noter aussi que ce même automate peut être utilisé comme un transducteur identité qui réécrit tout symbole en lui-même.

syg = LoadFst['sygma_le_monde];

Si l'on veut utiliser le codage utf8 en opengrm, c'est possible en spécifiant à chaque chaîne le codage de la façon suivante: "abc".utf8. Si l'on ne spécifie rien, le codage utilisé est de type iso-8859-1 (codage sur un octet, byte en anglais). Pour la commande fst_printstrings, elle peut afficher des chaînes en utf8 en utilisant l'option --utf8 à la place de l'option --byte.


next up previous
suivant: Exemple d'extraction d'informations avec monter: Extraction d'information avec des précédent: Exercice 3
barthe 2018-01-30