charger le fichier entier dans une chaîne de
caractères
détecter son encoding, au cours du protocole http (content-type :
text/html; charset=iso-8859-7)
ou dans le source
(<meta http-equiv="Content-Type" content="text/html;
charset=utf-8">)
rappel : l'encoding n'est pas connu au moment où on lit
le fichier dans une chaîne
quand on recherche 'charset=?'
dans le début du source, on considére que c'est de l'ascii
on peut ensuite décoder le source -> encoding interne unicode, en connaissant
son encoding original
écrire 2 versions du fichier :
- html identique, mais transcodé utf8
modifier la valeur de "charset" dans la balise
meta correspondante
mettre la valeur de l'encoding original et l'url en
commentaire dans la ligne suivante
- html débalisé (partiellement pour
garder une lisibilité dans un navigateur) en utf8