비트, 바이트, 워드? - 컴퓨터 자료(데이터)의 구성 단위
본문 바로가기

용어 정리, 이슈/과학&기술

비트, 바이트, 워드? - 컴퓨터 자료(데이터)의 구성 단위

728x90
컴퓨터활용능력 자격증 공부를 위한 이론 공부를 하면서 헷갈렸던 비트, 바이트, 워드 등에 대한 차이를 정리해봤다.

1. 자료와 정보

자료(資料, data)컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 정보를 말하며, 정보(情報, information)어떤 자료나 소식을 통하여 얻는 지식이나 상태의 총량을 말한다. 그러니까 단순한 사실이나 결과값자료이며, 그 사실과 결과값을 처리하여 인간에게 유용한 형태로 가공한 것정보이다.

자료들을 데이터 처리하면 정보가 된다.

2. 자료의 구성 단위

앞서 자료(데이터)는 문자, 숫자, 소리, 그림 등의 형태로 된 단순한 사실이나 결과값이라고 했다. 이러한 형태들은 그 무게가 있기 마련인데, 그 무게를 나타내기 위해 컴퓨터에서 사용하는 논리적 구성 단위을 사용한다. 이러한 데이터의 논리적 구성 단위에는 어떤 것들이 있는지 살펴보자.

 

2-1. 비트(bit) : 2진수 1자리

비트(bit)컴퓨팅과 디지털 통신에서 가장 기본적인 정보 단위이며, '이진숫자'라는 뜻의 'binary digit'에서 유래했다. 이진법으로 비트 단위를 사용한다면 십진수 0에서 1까지만 표현할 수 있다.

이진법을 활용한 비트 표현
0 1

보통 0과 1, 2개의 가능한 값 중 하나를 사용해 논리적 상태를 나타내는데, true/false, yes/no, +/− 혹은 on/off로도 나타내는 경우도 많다. 이 비트 값과 실제 물리적 상태와의 대응은 관습적인 문제로, 같은 장치(컴퓨터 등)나 프로그램 내에서도 다른 할당을 사용할 수 있다.

십진수 십진수를 이진수로 표현 비트
0 0 1비트
1 1
2 10 2비트
3 11
4 100 3비트
5 101
6 110
7 111
8 1000 4비트
9 1001
10 1010

 

2-2. 니블(nibble) : 4비트(bit)

니블(nibble)은 컴퓨팅, 네트워킹, 전기통신 분야에서 4비트(bit)로 구성된 디지털 정도 단위이며, '작게 한 입 먹다' 혹은 '(작은) 한 입'이라는 원뜻에서 유래했다. 이진법으로 니블 단위를 사용한다면 십진수 0부터 15까지만 표현할 수 있다.

십진수 십진수를 이진수(4자리)로 표현 비트
0 0000 1니블(4비트)
1 0001
2 0010
3 0011
4 0100
5 0101
6 0110
7 0111
8 1000
9 1001
10 1010
11 1011
12 1100
13 1101
14 1110
15 1111

 

2-3. 바이트(byte) : 8비트(bit) : 문자 표현 최소 단위

비트(bit)의 변형에서 유래한 바이트(byte)가장 일반적으로 8비트(8bit)로 구성된 디지털 정보 단위다. 역사적으로 바이트는 컴퓨터에서 단일 문자(character)를 인코딩(부호화)하는데 사용되는 비트 수였는데, 그랬기에 많은 컴퓨터 구조에서 가장 작은 주소 지정 단위(addressable unit)로 쓰여서 그 크기가 1~48비트로 다양했다.

한편, 인터넷 프로토콜(RF C791)과 같은 네트워크 프로토콜 문서에서8비트옥텟(octet)이라고 확실하게 지칭하고 있으며 컴퓨팅 분야에서 정확하게 8비트였던 옥텟과 대략적으로 8비트 정도되는 바이트는 점차 같은 의미로 쓰이게 된다.

 

보통 라틴 문자와 특수 문자 하나 당 1바이트라고 생각하면 되는데, 언어별로 조금씩 다르다. 한국어, 중국어, 일본어, 러시아어, 그리스어와 같은 비라틴문자 계열 언어는 문자 하나당 거의 2바이트다.

언어 문자 바이트(용량)
영어 a 1바이트
독일어 ä
ß
베트남어 á
스페인어 á
¿
¡
프랑스어 à
â
æ
한국어




2바이트

한자
일본어
중국어
그리스어 ε
γ
ώ
네팔어

러시아어 А
а
Б
태국어
페르시아어 ش

 

2-4. 워드(word) : CPU가 한번에 처리할 수 있는 명령 단위

컴퓨터는 '워드(word)'라고 불리는 고정된 크기의 한 그룹으로 비트를 조작한다. 한 워드의 비트 수는 일반적으로 컴퓨터의 CPU에 있는 레지스터의 크기에 의해 정의되거나 한 번의 작업으로 메인 메모리에서 가져오는 자료(데이터) 비트의 수에 의해 정의된다.

따라서 컴퓨팅에서 워드(word)는 특정 프로세서 디자인에 의해 사용되는 데이터의 자연 단위이자 프로세서의 하드웨어나 명령어 집합에 의해 단위로서 취급되는 고정된 크기의 데이텀(datum)을 말한다. 쉽게 말해 컴퓨터에서 연산의 기본이 되는 단위를 말하며, 이는 곧 CPU가 한번에 처리할 수 있는 명령 단위라는 뜻이다. 앞서 말했듯이 CPU 내 레지스터에 따라 워드의 단위가 달라지는데, 그럼에도 보통 자주 쓰이면서 고정된 워드는 크게 하프워드, 워드(풀워드), 더블워드가 있다.

고정된 워드의 종류 용량
하프워드(halfword) 2바이트(16비트)
풀워드(full-word)
워드(word)
4바이트(32비트)
더블워드(doubleword) 8바이트(64비트)

 

2-5. 필드(field) : 파일 구성의 최소 단위

컴퓨터 과학에서 필드(field)영역(field)으로 나눌 수 있는 다양한 부품을 갖는 자료이자 레코드의 구성요소를 말한다. 이 필드는 한 개 이상의 워드가 포함된다. 참고로 데이터베이스나 스프레드시트에서는 이 필드를 열(column)이라고 부르기도 하지만 조금 차이는 있다.

데이터베이스에서 파일 안의 세로(열, column) 부분을 필드라고 한다. 이 필드는 파일 구성의 최소 단위라고도 정의할 수 있다.

 

2-6. 레코드(record) : 자료 처리의 기본 단위

컴퓨터 과학에서 레코드(record)기초적인 자료 구조(데이터 구조)자료 처리의 기본 단위를 말한다. 참고로 데이터베이스나 스프레드시트에서는 이 레코드를 행(row)이라고 부르기도 하지만 조금 차이는 있다.

이 레코드는 일반적으로 고정된 숫자와 시퀀스(sequence, 순서)로 서로 다른 데이터 유형의 필드 모음이다. 다만 필드가 레코드에 부속되는 보유 요소(collection)와는 다르다.

참고로 이 레코드는 크게 논리 레코드와 물리 레코드로 나눌 수 있다.

논리 레코드(logical record) 일반적인 레코드
물리 레코드(Physical Record)
블록(block)
기억 장치의 입출력 단위.
하나 이상의 논리 레코드가 모여 하나의 물리 레코드(블록)을 형성함.

 

2-7. 파일(file) : 프로그램 구성의 기본 단위

단어가 종이에 쓰여질 수 있는 것처럼, 데이터도 컴퓨터 파일에 쓰여질 수 있다. 이러한 개념에서 탄생한 파일(file) 혹은 컴퓨터 파일(computer file)은 주로 파일 이름으로 식별되는 컴퓨터 저장 장치에 데이터를 기록하기 위한 컴퓨터 리소스이자 프로그램 구성의 기본 단위이다. 이 파일은 데이터의 최종 형태이며, 디스크의 저장 단위가 된다.

이 파일은 이동식 미디어, 네트워크, 인터넷 등을 통해 컴퓨터와 모바일 장치간에 공유나 전송이 가능하다.

 

2-8. 데이터베이스(database) : 상호 관련 있는 파일들의 모임

컴퓨팅에서 데이터베이스(database) 전자적으로 저장 및 접속되는 데이터의 조직화된 집합체다. 작은 데이터베이스는 파일 시스템에 저장할 수 있으며, 큰 데이터베이스는 컴퓨터 클러스터나 클라우드 저장소에서 호스팅할 수 있다.

이러한 데이터들의 조직화된 집합체를 관리하는 체계를 DBMS라고 한다. 데이터베이스 관리체계 혹은 데이터베이스 관리시스템(DataBase Management System) 사용자(user)가 데이터베이스에 대한 액세스를 정의, 생성, 유지 및 제어할 수 있는 소프트웨어 시스템을 말한다. 이러한 DBMS로는 마이SQL(MySQL), 포스트그레SQL(PostgreSQL), 마이크로소프트 SQL 서버, 오라클 데이터베이스, 마이크로소프트 액세스가 있다.

반응형