Introducció

La codificació estàndard pels documents HTML és UTF-8. Aquesta codificació permet tots els caràcters del nostre alfabet i de la resta d'alfabets del mòn. La codificació dels caràcters és només d'1 byte (8 bits) ampliables fins a 4 bytes segons el caràcter que es vulgui representar: amb 1 byte només es poden representar 256 caràcters que són clarament insuficients per a tots els llenguatges.

El problema és que el navegador pot interpretar de forma incorrecte el joc de caràcters UTF-8 com a ISO-8859-1. Quan es dóna aquesta circumstància ens apareixen caràcters estranys per pantalla +info.

Podem veure un exemple amb el següent document html obert amb el navegador "Tor" versió 7.5.6 per a 32 bits amb la seva configuració per defecte.

Un altre dels problemes que tenim en la visualització de la plana és que ens pot interessar incloure alguns símbols no inclosos en el teclat: per exemple, el símbol de copyright (®) . Per fer-ho , cal codificar el símbol de ® amb la seva codificació associada utilitzant una entitat HTML.

Codificació amb UTF-8

Tot i que els servidors web hagin d'estar configurats per a la codificació UTF-8 es tracta d'un aspecte que nosaltres no podem controlar. Cal assegurar que els nostres documents siguin portables a qualsevol servidor i que continuin funcionant si es fan canvis en la seva configuració: no podem dependre de les decisions de tercers!.

Amb HTML 5 disposem de l'etiqueta meta que amb l'atribut charset ens permet forçar que el joc de caràcters sigui UTF-8. Amb aquesta configuració , el nostre document sempre serà interpretat com a UTF-8 i la seva visualització serà sempre la correcte en qualsevol navegador.

Cal tenir en compte diversos factors:

  1. El fitxer html s'ha d'emmagatzemar amb UTF-8.
  2. L'etiqueta meta amb l'atribut charset ha de ser sempre la primera després de l'etiqueta head . En cas contrari, si el títol ( etiqueta title ) tingués caràcters especials aquests podrien no visualitzar-se de forma correcte.

Una opció, en el cas que no es guardi el document com a UTF-8, és codificar tots els caràcters que no pertanyin a l'alfabet anglès.


<!DOCTYPE html>
<html lang="ca" encoding="UTF-8">
    <head>
        <meta charset="utf-8">
        <title>Not&iacute;cies</title>
    </head>
    <body>
        <h1>&Uacute;ltima hora</h1>
        <p>Les conseq&#252;&egrave;ncies s&oacute;n ...</p>
    </body>
</html>

Per a codificar les entitats podem utilitzar el seu nom d'entitat o bé la seva representació numèrica (s'ha utilitzat aquesta per a la lletra ü de l'exemple anterior). En l'URL https://www.tutorialspoint.com/html5/html5_entities.htm es mostra un llistat complet de totes les entitats amb el nom de l'entitat i el número associat per a cada un dels caràcters.

L'avantatge de codificar els caràcters és que si per error es guarda el document en una altra codificació no hi haurà problemes de representació. Per altra banda, el codi és bastant més difícil de llegir: més si s'utilitza la codificació numèrica.

Representació d'altres símbols

En el cas que haguem d'incloure en el nostre document símbols que no estan presents en el teclat, sempre tenim l'opció de codificar-los, ja sigui utilitzant la codificació numèrica o bé el nom d'entitat. Així, per exemple, el següent codi HTML mostra el símbol de copyright (URL: https://www.tutorialspoint.com/html5/html5_entities.htm per llistat complet d'entitats).

results matching ""

    No results matching ""