next up previous
suivant: Exercice plus difficile monter: Extraction d'information avec des précédent: Exercice préliminaire

Exercice facile

Extraire les liens d'une pag web. On utilise pour cela une recherche sur les attributs href du code html. Il faut extraire la partie comprise entre href=ët . Pour cela, on écrit un transducteur qui réécrit tout en epsilon excepté une chaîne comprise entre href=" et " qui est réécrite en elle-même.

Choisissez une page web pas trop longue avec quand même plusieurs liens et appliquez-lui un ou plusieurs transducteurs puis une projection pour obtenir un automate représentant le langage contenant toutes les url de la page. Puis utilisez fst_printstrings pour afficher ces url.

Rappel: la commande fst_printstrings affiche toutes les chaînes du langage d'un automate si c'est un langage fini. Sinon, cela provoque une erreur, sauf à donner les options qui permettent de limiter le nombre de chaînes à afficher.

> fst_printstrings --byte --acceptor automate_2
FATAL: The machine is cyclic: automate_2
> fst_printstrings  --byte --acceptor automate_3
yy
xz
xzxz



barthe 2018-01-30