Un script permet d'aller chercher une page web codée en utf-8, d'en extraire l'ensemble de symboles utilisés, de créer un fichier de symbole ainsi que trois automates finis sous forme compilée (format binaire openfst).
Vous pouvez télécharger ce script là: converter.py
Voyons un exemple d'exécution du script:
> python converter.py Entrez l'url à télécharger: https://www.lemonde.fr Entrez le nom à donner aux fichiers: le_monde alphabet créé texte compilé text scindé en lignes compilé
Cette exécution a créé quatres fichiers:
sygma_le_monde.sym
, fichier de symboles utilisable avec openfst
(pour -isymbols et
-osymbols) contenant tous les symboles utilisés dans la page.
sygma_le_monde
, automate fini sous forme binaire contenant la
disjonction de tous les symboles utilisés dans la page
le_monde
, automate fini sous forme binaire contenant la page
représentée comme une seule chaîne de caractère. Il s'agit d'un automate
linéaire avec un seul chemin qui va de l'état initial à un unique état
final.
le_monde_lines
, automate fini sous forme binaire contenant
l'ensemble des lignes de la page. Chaque chaîne du langage de cet automate
est une ligne de la page téléchargée.
Pour utiliser l'alphabet compilé sygma_le_monde
dans un fichier
opengrm, on
peut utiliser la fonction opengrm LoadFst. Noter aussi que ce même
automate peut être utilisé comme un transducteur identité qui réécrit tout
symbole en lui-même.
syg = LoadFst['sygma_le_monde];
Si l'on veut utiliser le codage utf8 en opengrm, c'est possible en spécifiant
à chaque chaîne le codage de la façon suivante: "abc".utf8
. Si l'on ne
spécifie rien, le codage utilisé est de type iso-8859-1 (codage sur un octet,
byte en anglais). Pour la commande fst_printstrings
, elle peut afficher
des chaînes en utf8 en utilisant l'option --utf8
à la place de l'option
--byte
.