Mauro Gullino

Mauro Gullino

El misterioso mundo del encoding

La desesperación que surge al ver nuestras páginas web con símbolos extraños se potencia al desconocer las causas. ¿Cómo arreglarlas?

  • 48Me gusta
  • 16Seguidores
  • 16Opiniones
  • Enviar

¿Quién no ha visitado alguna vez un sitio web con signos extraños reemplazando las eñes, las letras con acento u otros caracteres especiales? Como desarrolladores, ¿cuántas veces hemos encontrado que al subir contenido de texto a nuestros sitios aparecen esos caracteres raros? Si uno no los puso allí, ¿por qué aparecen?

La mayor dificultad para resolver los problemas de encoding es que no hay una solución universal y única. Se debe comprender el mecanismo del codificación de textos en las computadoras y el funcionamiento de varios elementos de la web para poder diagnosticar el problema y llegar a una solución. Es un tema muy complejo, pero trataremos de desglosarlo para conocerlo un poco más.

Qué es el encoding

El encoding («codificación» en inglés) es el proceso a través del cual se transforma información textual humana (caracteres alfabéticos y no alfabéticos) en un conjunto más reducido, para ser almacenado o transmitido. Podemos nombrar el Código Morse como un sencillo ejemplo que clarificará el concepto de encoding: cada letra tiene su correspondencia en forma de sonidos, y todas las letras se codifican con combinaciones de dos signos, el punto y la raya. El conjunto de información se transforma, se reescribe, con un código de solo dos signos, lo que hace posible una transmisión óptima en canales donde, por ejemplo, sería imposible la transmisión de la voz humana.

En el mundo de las computadoras el encoding asocia nuestros signos alfabéticos y no alfabéticos con ciertos números. Todos los signos que utilizamos al componer un texto en la computadora deben traducirse a estos números si queremos almacenarlos. «Almacenar» en una computadora es una operación fundamental, porque se almacena cuando algo debe mostrarse en pantalla, cuando queremos guardar un archivo y también almacenamos cuando queremos transmitir algo a través de una red. Por lo tanto, para la computadora en realidad todos nuestros signos serán números y nada más que números. Recordemos que la computadora no es más que una gran calculadora, que solo «entiende» dos signos: el uno y el cero.

Entonces el problema surge cuando una computadora tiene un conjunto de números que sabe representan a un texto y necesita mostrarlos. En ese momento acude a una tabla de encoding para reinterpretar de qué caracteres se trataban antes de convertirlos en números.

Dos encodings famosos

Veamos un primer ejemplo de tabla de encoding: el extendido ISO-8859-1 (más conocido como Latin1, y prácticamente coincidente con Windows-1252). Este tipo de encoding utiliza números de 8 bits para representar todos los signos. Es decir que todos los signos se transforman en un número entre el 0 y el 255 a partir de una especie de tabla predefinida. En este encoding nuestra letra eñe se transforma en el número 241 (que en lenguaje de computadora es 11110001; nosotros lo representamos en decimal 241 para hacerlo más manejable).

Otro de los encodings más utilizados, fuertemente recomendado y que se ha convertido en un estándar, es el UTF-8. Este encoding es distinto del anterior ya que no tiene una cantidad fija de bits para representar los caracteres. Utiliza un sistema de largo variable para lograr mayor flexibilidad. UTF-8 puede representar todos los caracteres de Unicode, un estándar creado a fines de los ochenta para codificar todos los caracteres de todas las lenguas escritas del mundo: un total de más de 100 mil signos. En UTF-8 la eñe se representa con el número hexadecimal C3B1.1

Cuando un autor crea los contenidos de su blog está ingresando texto en algún formulario desde su computadora. Ese texto viaja hacia el servidor para ser almacenado en la base de datos. Luego, cuando alguien quiere acceder al artículo, el texto se recupera de la base de datos, se coloca en la página y la página se envía de vuelta a otra computadora.

Este relato parece sencillo, pero debemos identificar el rol de los encodings en cada etapa:

  • el navegador del autor trabaja con cierto encoding, por lo que al ingresar texto en un formulario, ese texto se convertirá en números de acuerdo a ese encoding.
  • el lenguaje de programación (por ejemplo, PHP) que «vive» en el servidor y recibe el texto que el autor creó, también trabaja con cierto encoding y trata a los textos según ese encoding.
  • la base de datos que almacena y recupera el texto lo hace con cierto encoding.
  • la página web que se envía de vuelta al lector también tiene su propio encoding.

Los problemas ocurren cuando alguno de estos encodings no coincide con el resto, o cuando alguno de estos sistemas cree que está tratando con textos en cierto encoding cuando realmente se trata de otro. Estos errores son los que llevan a los «caracteres extraños» en nuestras páginas.

El ejemplo de la eñe

Utilizando nuestro editor favorito crearemos una simple página web que contenga un texto con eñe. El editor de texto también trabaja con un determinado encoding, por lo que indicaré que deseo trabajar en UTF-8.


El editor de texto Notepad++ y su menú de selección de encoding. «ANSI» se corresponde con ISO.

Almacenaremos esta página web de prueba y la abriremos en un navegador. El navegador reconocerá que el archivo está en UTF-8 y mostrará correctamente la eñe.


Encoding UTF-8 correctamente identificado por Mozilla Firefox.

Si fuerzo al navegador para que interprete este archivo según otro encoding, entonces el resultado es el de nuestras pesadillas:


Un texto UTF siendo interpretado con el encoding erroneo, ISO.

Si observamos detenidamente este caso, veremos que este comportamiento tiene  absoluto sentido para la computadora. En ISO-8859-1, el byte «C3» se corresponde con el signo «Ã» y el byte «B1» con el signo «±». Recordemos que «C3B1» era la representación de eñe en UTF-8. Lo que ocurre es que se están decodificando los números con una tabla distinta a la que se utilizó para codificarlos. Facil, ¿verdad?

También se puede probar el caso inverso: crear una página con una eñe utilizando el editor en modo ISO-8859-1 y abrirla en un navegador web indicando, erróneamente, que se trata de un archivo codificado en UTF-8.


Caso inverso: un archivo ISO decodificado con UTF. Aparece el signo de «caracter desconocido» definido en UTF porque la secuencia de números encontrados no es válida en este encoding.

Además podemos confirmar que el editor crea documentos en distintos encodings porque el archivo en UTF-8 ocupa 67 bytes en disco, mientras que los mismos caracteres en ISO-8859-1 ocupan 66 bytes. En este caso de prueba la diferencia la hace la eñe. Esto es así porque los restantes caracteres presentes en el documento se representan con un solo byte tanto en ISO como en UTF.

El navegador y los encodings

Es importante notar que el navegador web no pregunta al usuario qué encoding desea utilizar. Deberá deducir el encoding a partir de la información que la página provea y, en el peor de los casos, deberá adivinar de qué encoding se trata. Las formas de indicar cuál es el encoding de un documento son las siguientes:

  • utilizar una etiqueta meta con los atributos «http-equiv» o «charset» en la sección «head» del documento HTML.
  • configurar nuestro servidor HTTP (por ejemplo, Apache) para que sirva los documentos con la cabecera Content-Type adecuada (esta es una configuración del hosting, y puede no ser accesible para los desarrolladores).
  • en documentos XHTML se puede utilizar el atributo «encoding» de la etiqueta xml

Si tenemos en cuenta estas posibilidades y los distintos sistemas que listamos más arriba, vemos claramente que son muchas cosas las que pueden salir mal. La respuesta rápida ante un problema de visualización de una página web es que alguna etapa está tratando los textos con un encoding erroneo. Resolverlo es más dificil que enunciarlo, porque hay que investigar dónde está el problema. Para resumir podemos decir que la mayor parte de las veces lo que ocurre es:

  • El navegador interpreta erróneamente el encoding del documento. Lo más probable es que alguna indicación (etiqueta meta, cabeceras HTTP, etiqueta xml) sea incorrecta. Solución: corregir las indicaciones.
  • El navegador no cuenta con la información de qué encoding se trata y adivina, haciéndolo incorrectamente. Solución: agregar las indicaciones.
  • El contenido se está almacenando en una base de datos con un encoding que no coincide con el de la página. Cuando el documento llega al navegador es interpretado con un encoding que, en la parte donde ese contenido aparezca, no será el correcto. Solución: corregir el almacenamiento en la base de datos.

Conclusión

Los encodings son una característica fundamental de las computadoras. Desde el inicio de la informática los ingenieros debieron representar con números nuestros signos de escritura. Los desarrolladores y diseñadores web serán interpelados por estos conceptos, ya que el futuro de Internet es decididamente multilenguaje, multicultural y multiplataforma.

Autor
Mauro Gullino Buenos Aires
  1. El modo de cálculo sería muy extenso de explicar, y probablemente poco útil a nuestros fines. Puede encontrarse detallado aquí.

 

 

Publicado el 15/08/2012

  • 48Me gusta
  • 16Seguidores
  • 16Opiniones
  • Enviar

IMPORTANTE: Este artículo no expresa la opinión de los editores y responsables de FOROALFA, quienes no asumen responsabilidad alguna por su autoría y naturaleza. Para reproducirlo, salvo que estuviera expresamente indicado, por favor solicitar autorización al autor. Dada la gratuidad de este sitio y la condición hiper-textual del medio, agradeceremos evitar la reproducción total en otros sitios Web. En cambio, sugerimos y valoramos la reproducción parcial, incluyendo además del nombre del autor, el título y la fuente (FOROALFA), un enlace a esta página (http://foroalfa.org/articulos/el-misterioso-mundo-del-encoding) en un lugar claro y visible, que invite a completar la lectura.

Autor:
Mauro Gullino

Otros artículos de Mauro Gullino

Artículo:

¿Cuál es el mejor formato de imagen?

Seguidores:
16

Relacionados

Autor:
Lluïsa Díaz

Lluïsa Díaz

Título:

Juegos sociales 3D

Sinopsis:

Adobe Flash Player 11 y AIR 3 permiten por primera vez trabajar con escenarios en tres dimensiones. FarmVille 2 de Zynga es el primero en utilizar esta tecnología. La transformación ha comenzado.

Votos:
19
Opiniones:
36
Seguidores:
8
Autor:
Alejandro Aciar

Alejandro Aciar

Título:

Impresoras 3D

Sinopsis:

Es posible producir, en el mismo proceso, maquetas y prototipos en 3D con todas sus superficies perfectamente impresas.

Votos:
22
Opiniones:
16
Seguidores:
2
Autor:
Ángel Sánchez

Ángel Sánchez

Título:

Qué es ser un diseñador UX

Sinopsis:

Muchos diseñadores agregan la coletilla UX/UI a sus perfiles en twitter o linkedin, pero ¿se sabe bien qué es lo que implica ser un diseñador UX/UI?

Votos:
239
Opiniones:
88
Seguidores:
59

Recientes

Autor:
Andrés Gustavo Muglia

Andrés Gustavo Muglia

Título:

Diseño y sentimientos

Sinopsis:

Cuánto tiene que ver el diseño interior de una casa con lo que siente el que la habita. Qué agrega la intervención profesional en un ámbito donde se expresa la intimidad personal.

Votos:
11
Opiniones:
7
Seguidores:
5
Autor:
Javier Rejon

Javier Rejon

Título:

Identidad corporativa en la empresa familiar

Sinopsis:

La empresa familiar en su concepción es, en muchos casos, un cúmulo de expectativas de alto sentido emocional. Las esperanzas de su éxito son altas, falta darle forma.

Votos:
35
Opiniones:
30
Seguidores:
6
Autor:
Fernando Weissmann

Fernando Weissmann

Título:

La trivialidad y sus requisitos

Sinopsis:

Cómo darse cuenta cuando a uno le toca diseñar un producto que es un verdadero «bodrio».

Votos:
10
Opiniones:
6
Seguidores:
48
Autor:
Ramiro Pérez

Ramiro Pérez

Título:

Yo trabajo por el pancho y la Coca

Sinopsis:

Alguna vez debimos tropezar y caer para aprender a caminar. El mundo animal es claro y cruel: si no te pones de pié al nacer, no estás apto para ser de la especie. Tu, ¿estás apto?

Votos:
101
Opiniones:
156
Seguidores:
9
Autor:
Israel Ortega

Israel Ortega

Título:

Cómo presentar tu diseño al cliente

Sinopsis:

¿Quieres que tu cliente te respete? Como mínimo debes presentarle tu trabajo en forma profesional.

Votos:
37
Opiniones:
13
Seguidores:
17
Autor:
Daniel Nieco

Daniel Nieco

Título:

Marcas incompletas

Sinopsis:

¿Cuáles son los elementos que componen a la marca?

Votos:
20
Opiniones:
14
Seguidores:
7
Autor:
Victor García

Victor García

Título:

¡Puta! ¡¿Qué c… dices, cabrón de m…?!

Sinopsis:

La provocación y la vulgaridad: el Mr. Hide de las reflexiones sobre el diseño.

Votos:
33
Opiniones:
72
Seguidores:
127
Autor:
Gabriel Simón

Gabriel Simón

Título:

El diseño a futuro: los rostros de Jano

Sinopsis:

Es importante replantearse los objetivos y metas del diseño a futuro con la ayuda de la experiencia del pasado y la comprensión del panorama actual.

Votos:
13
Opiniones:
45
Seguidores:
71
Autor:
Juan Sebastián Cardona Sánchez

Juan Sebastián Cardona Sánchez

Título:

El freelance y los clientes

Sinopsis:

El diseñador gráfico debe aprender a adelantarse a las necesidades de sus clientes, guiándolos por el buen camino.

Votos:
81
Opiniones:
26
Seguidores:
7
Autor:
Camilo Angulo Valenzuela

Camilo Angulo Valenzuela

Título:

Cuando los diálogos se encuentran

Sinopsis:

La pausa para el café durante los eventos académicos internacionales: espacio para vincular diálogos y proyectos de vida entre diseñadores y diseñadoras.

Votos:
6
Opiniones:
1
Seguidores:
95
FOROALFA ISSN 1851-5606 | Contactar | Publicidad | ©Luciano Cassisi 2005~2013