Extraire les liens d'une pag web. On utilise pour cela une recherche sur les
attributs href du code html. Il faut extraire la partie comprise entre href=ët . Pour cela, on écrit un transducteur qui réécrit tout en epsilon excepté
une chaîne comprise entre href="
et "
qui est
réécrite en elle-même.
Choisissez une page web pas trop longue avec quand même plusieurs liens et appliquez-lui un ou plusieurs transducteurs puis une projection pour obtenir un automate représentant le langage contenant toutes les url de la page. Puis utilisez fst_printstrings pour afficher ces url.
Rappel: la commande fst_printstrings
affiche toutes les chaînes du langage d'un
automate si c'est un langage fini. Sinon, cela provoque une erreur, sauf à
donner les options qui permettent de limiter le nombre de chaînes à afficher.
> fst_printstrings --byte --acceptor automate_2 FATAL: The machine is cyclic: automate_2 > fst_printstrings --byte --acceptor automate_3 yy xz xzxz