lunes, 28 de marzo de 2011

Transformación de los datos en información

A menudo parece que las computadoras debieran entendernos debido a que nosotros entendemos la información que producen. Sin embargo, las computadoras no pueden entender todo. Todo lo que pueden hacer es reconocer dos estados físicos distintos producidos por la electricidad, la polaridad magnética o luz reflejada. En esencia, todo lo que pueden entender es si un interruptor está encendido o apagado. De hecho, el "cerebro" de la computadora, la CPU, consiste principalmente de varios millones de diminutos interruptores eléctricos, llamados transistores.

Una computadora sólo aparenta entender información debido a que contiene tantos transistores y opera a velocidades tan fenomenales, ensamblando sus interruptores individuales de encendido y apagado en patrones que son significativos para nosotros.

El término usado para describir la información representada por grupos de interruptores de encendido y apagado son los datos. Aunque las palabras datos e información a menudo se usan en forma indistinta, hay una diferencia importante entre ellas. En el sentido más estricto, los datos consisten de los números en bruto que la computadora organiza para producir información.

Usted puede pensar en los datos como hechos fuera de contexto, como las letras individuales en esta página. Tomadas en forma individual, las palabras no dicen nada; agrupadas, sin embargo, transmiten significados específicos. Del mismo modo que en una marquesina de teatro se pueden combinar miles de luces para mostrar el nombre del espectáculo que se esté dando, una computadora convierte datos sin significado en información útil, como hojas de cálculo, gráficos y reportes.

Como representan los datos las computadoras
Para una computadora, todo es un número. Los números son números, las letras y los signos de puntuación son números, los sonidos y las imágenes son números; incluso las propias instrucciones de la computadora son números. Esto podría parecer extraño ya que es probable que usted haya visto pantallas de computadoras con palabras y oraciones en ellas, pero es verdad. Cuando ve letras del alfabeto en una pantalla de la computadora, lo que está viendo es sólo una de las formas que tiene la computadora de representar números. Por ejemplo, veamos esta oración:

Here are some words.
(Aquí hay algunas palabras.)

Esto podría parecer una serie de caracteres alfabéticos para usted, pero para una computadora esto se ve como la serie de unos y ceros.

Los datos de la computadora se ven extraños en especial porque la gente por lo general usa la base 10 para representar números. El sistema se llama base 10, o sistema decimal (deci significa 10 en latín) porque están disponibles diez símbolos: 1, 2, 3, 4, 5, 6, 7, 8, 9 y 0. Cuando usted necesita representar un número mayor que 9, usa dos símbolos juntos, como en 9 + 1 = 10. Cada símbolo en un número es llamado dígito, así 10 es un número de dos dígitos.

En una computadora, sin embargo, todos los datos deben ser reducidos a interruptores eléctricos. Un interruptor sólo tiene dos estados posibles: "encendido" y "apagado", así que sólo tiene dos símbolos numéricos. 0 representa "apagado" y 1 representa "encendido". Ya que sólo hay dos símbolos, se dice que las computadoras funcionan en base 2, lo cual también se conoce como sistema binario (bi significa dos en latín).

Cuando una computadora necesita representar una cantidad mayor que 1, hace lo mismo que usted hace cuando necesita representar una cantidad mayor que 9: usa dos (o más) dígitos.

Bits y bytes
Cuando nos referimos a datos computarizados, cada interruptor, esté encendido o apagado, se llama bit. El término bit es una contracción de dígito binario (binary digit). Un bit es la unidad de datos más pequeña posible. Para representar cualquier cosa significativa es decir, para transmitir información, la computadora necesita grupos de bits. Después del bit, la siguiente unidad mayor de datos es el byte, el cual es un grupo de 8 bits. Con un byte, la computadora puede representar hasta 256 valores diferentes ya que con 8 dígitos binarios es posible contar de 0 a 255.

El byte es una unidad importante en extremo, ya que tiene suficientes combinaciones diferentes de ocho bits para representar todos los caracteres en el teclado, incluyendo todas las letras (mayúsculas y minúsculas), números, signos de puntuación y otros símbolos.

Códigos de texto
Al principio de la historia de la computación, los programadores se dieron cuenta de que necesitaban un código estándar; un sistema en el que todos pudieran estar de acuerdo con respecto a qué números representarían las letras del alfabeto, los signos de puntuación y otros símbolos. EBCDIC, ASCII y Unicode son tres de los sistemas más populares que fueron inventados.

EBCDIC
El sistema BCD (Código Decimal Binario: Binary Coded Decimal), definido por IBM para una de sus primeras computadoras, fue uno de los primeros sistemas completos para representar símbolos con bits. Los códigos BCD consisten de códigos de seis bits, los cuales permiten un máximo de 64 símbolos posibles. Las computadoras BCD sólo podían trabajar con letras mayúsculas y con muy pocos otros símbolos. Por estas razones este sistema tuvo una vida corta.

La necesidad de representar más caracteres condujo a la IBM a desarrollar el sistema EBCDIC. EBCDIC, que se pronuncia "EB-si-dic", significa Código de Intercambio de Decimales Codificados en Binarios Extendidos (Extended Binary Coded Decimal Interchange Code).

El EBCDIC es un código de ocho bits que define 256 símbolos. EBCDIC aún se usa en mainframes y sistemas de rango medio de IBM, pero rara vez se encuentra en computadoras personales. Para cuando se estaban desarrollando las computadoras pequeñas, el Instituto Nacional Estadounidense de Normas (American Nacional Standars Institute: ANSI) había entrado en acción para definir normas para computadoras.

ASCII
La solución de la ANSI para representar símbolos con bits de datos fue el juego de caracteres ASCII. ASCII significa Código Estándar Estadounidense para el Intercambio de Información (American Standar Code for Information Interchange). Actualmente, el juego de caracteres ASCII es con mucho el más común.

Los caracteres del 0 al 31 son caracteres de control; del 32 al 64 son caracteres especiales y números; del 65 al 96 son letras mayúsculas y unos cuantos símbolos; del 97 al 127. son letras minúsculas, y unos pocos símbolos comunes. Ya que el ASCII, un código de siete bits, especifica caracteres sólo hasta 127, hay muchas variaciones que especifican diferentes juegos de caracteres para los códigos del 128 al 255. La norma ISO (Organización Internacional de Normas: International Standars Organization) expandió el juego de caracteres ASCII para ofrecer diferentes juegos de caracteres para diferentes grupos de idiomas. ISO 8859-1, por ejemplo, cubre los idiomas de Europa Occidental. Sin embargo, hay muchos otros juegos de caracteres para otros idiomas que usan un alfabeto diferente.

Unicode
Una norma para representación de datos que está en evolución, llamada Norma de Código Único para Caracteres Mundiales (Unicode Worlwide Character Set), proporciona dos bytes, 16 bits, para representar cada símbolo. Con dos bytes, un carácter Unicode podría ser cualquier de más de 65 536 caracteres o símbolos diferentes, suficiente para cada carácter y símbolo en el mundo, incluyendo los vastos juegos de caracteres chinos, coreanos y japoneses y aquellos que se encuentran en textos clásicos e históricos conocidos. Si un juego de caracteres único estuviera disponible para cubrir todos los idiomas en el mundo entero, los programas y datos de computadora serían intercambiables. Debido a que esto es ciertamente una meta que vale la pena, posiblemente un día se dé el esfuerzo conjunto para reemplazar ASCII por Unicode. Muchos editores de software, incluyendo Microsoft, Netscape y Accent, animan a sus desarrolladores a usar Unicode en sus programas.

No hay comentarios:

Publicar un comentario