suivant: Exemple d'extraction d'informations avec monter: Extraction d'information avec des précédent: Exercice 3

Le script de pré-traitement

Un script permet d'aller chercher une page web codée en utf-8, d'en extraire l'ensemble de symboles utilisés, de créer un fichier de symbole ainsi que trois automates finis sous forme compilée (format binaire openfst).

Vous pouvez télécharger ce script là: converter.py

Voyons un exemple d'exécution du script:

> python converter.py 
Entrez l'url à télécharger: https://www.lemonde.fr
Entrez le nom à donner aux fichiers: le_monde       
alphabet créé
texte compilé
text scindé en lignes compilé

Cette exécution a créé quatres fichiers:

sygma_le_monde.sym, fichier de symboles utilisable avec openfst (pour -isymbols et -osymbols) contenant tous les symboles utilisés dans la page.
sygma_le_monde, automate fini sous forme binaire contenant la disjonction de tous les symboles utilisés dans la page
le_monde, automate fini sous forme binaire contenant la page représentée comme une seule chaîne de caractère. Il s'agit d'un automate linéaire avec un seul chemin qui va de l'état initial à un unique état final.
le_monde_lines, automate fini sous forme binaire contenant l'ensemble des lignes de la page. Chaque chaîne du langage de cet automate est une ligne de la page téléchargée.

Pour utiliser l'alphabet compilé sygma_le_monde dans un fichier opengrm, on peut utiliser la fonction opengrm LoadFst. Noter aussi que ce même automate peut être utilisé comme un transducteur identité qui réécrit tout symbole en lui-même.

syg = LoadFst['sygma_le_monde];

Si l'on veut utiliser le codage utf8 en opengrm, c'est possible en spécifiant à chaque chaîne le codage de la façon suivante: "abc".utf8. Si l'on ne spécifie rien, le codage utilisé est de type iso-8859-1 (codage sur un octet, byte en anglais). Pour la commande fst_printstrings, elle peut afficher des chaînes en utf8 en utilisant l'option --utf8 à la place de l'option --byte.

suivant: Exemple d'extraction d'informations avec monter: Extraction d'information avec des précédent: Exercice 3

barthe 2018-01-30