JavaScript Object Notation
JSON은 데이터 교환 형식으로 널리 사용되는 경량 텍스트 기반 구조이다. 꼭 컴퓨터공학을 배우지 않아도 알고 있는 사람이 있을 만큼 흔하고, 널리 쓰이는 형식이다. 대충 뭔지는 누구나 알지만, 늘 그렇듯 제대로 공부하고 싶다면 거기서 멈춰선 안된다. 한 발자국 더 들어가 알아보자.
JSON (JavaScript Object Notation) 은 데이터를 저장하거나 교환하기 위한 경량 텍스트 기반 데이터 형식이다. 원래는 JavaScript 에서 파생되었지만, 현재는 프로그래밍 언어와 독립적으로 사용되며 대부분의 언어에서 JSON을 생성하고 처리할 수 있다.
JSON은 사람이 읽고 쓰기 쉽고, 기계가 파싱하고 생성하기에도 간단하도록 설계되었다. 데이터는 키-값 쌍(Key-Value Pair) 또는 중첩된 데이터 구조(객체와 배열)로 표현되며, 이를 통해 복잡한 데이터도 간결하게 저장할 수 있다.
JSON은 API, 데이터베이스, 설정 파일 등 다양한 분야에서 널리 사용되며, 특히 웹 애플리케이션과 RESTful API에서 필수적인 데이터 포맷으로 자리 잡고 있다.
JSON은 2001년 Douglas Crockford에 의해 설계되었다. 그는 복잡한 데이터 교환 형식이었던 XML의 대안을 모색하던 중, JavaScript 객체의 문법을 기반으로 하는 간단한 데이터 형식을 제안했다. JSON은 가볍고, 사람이 읽기 쉬우며, JavaScript와의 호환성이 뛰어나 빠르게 인기를 얻었다.
JSON은 초기에는 비공식적인 포맷으로 사용되었으나, 2013년 RFC 7159로 공식 표준화되었고, 이후 ECMA-404를 통해 JSON 문법이 정의되었다. 이는 JSON이 단순히 웹 애플리케이션뿐만 아니라 데이터베이스, 클라우드 컴퓨팅, IoT 등 다양한 분야에서 데이터 교환의 표준으로 자리 잡는 데 기여했다.
JSON의 발전은 AJAX(Asynchronous JavaScript and XML) 의 부상과 함께 이루어졌다. AJAX 기술은 동적인 웹 애플리케이션 개발을 가능하게 했고, JSON은 AJAX 요청과 응답에서 데이터를 전달하는 주요 포맷으로 채택되었다. 이후, RESTful API와 클라이언트-서버 간 통신에서도 JSON이 사실상의 표준으로 자리 잡았다.
JSON은 XML과 YAML과 같은 다른 데이터 형식과 비교했을 때 여러 장단점을 가진다.
{"name": "John", "age": 30}
<person><name>John</name><age>30</age></person>
# YAML
name: John
age: 30
# JSON
{"name": "John", "age": 30}
정리하자면, JSON은 간결성과 효율성 덕분에 대부분의 웹 애플리케이션과 API에서 기본 데이터 형식으로 사용되지만, 특정 프로젝트에서는 XML이나 YAML이 더 적합할 수도 있다.
JSON은 데이터를 저장하고 전달하기 위해 몇 가지 기본 데이터 타입을 지원한다. 이 데이터 타입들은 대부분의 프로그래밍 언어에서 기본적으로 제공되며, 이를 조합하여 복잡한 데이터 구조를 표현할 수 있다.
{}
로 감싸고, 키-값 쌍의 집합으로 구성된다.null
이 될 수 있다.{
"name": "Alice",
"age": 25,
"isStudent": false
}
[]
로 감싸고, 쉼표로 구분된 값의 집합을 포함한다.["apple", "banana", "cherry"]
""
로 감싸며, 유니코드 문자를 포함할 수 있다."hello"
, "123"
, "Alice"
42
, 3.14
true
또는 false
값을 가진다.true
, false
null
JSON은 명확한 규칙을 따르며, 문법이 간단해 사람이 읽고 쓰기 쉽다. 다만 일부 규칙을 위반하면 JSON 자체가 유효하지 않게 되므로 주의가 필요하다.
""
로 감싸야 하며, 값은 JSON 데이터 타입 중 하나를 사용한다."key": "value"
{
"name": "Alice",
"age": 25
}
{}
는 객체를, 대괄호 []
는 배열을 나타낸다."correct": "This is valid",
"incorrect": 'This is invalid'
{
"name": "Alice",
"age": 25
}
{
"person": {
"name": "Bob",
"age": 30,
"isMarried": true,
"children": ["Anna", "Tom"],
"address": {
"city": "New York",
"zipcode": "10001"
}
}
}
JSON 문서가 올바른 문법을 따르는지 확인하는 과정을 유효성 검사(Validation) 라고 한다. 이를 통해 JSON 데이터가 파싱 가능한 상태인지 확인할 수 있다.
온라인 도구
- https://jsonlint.com
- JSONLint는 JSON 문서를 입력하면 구조적 오류를 검사해 준다.
개발 환경에서의 검증
import json
json_data = '{"name": "Alice", "age": 25}'
try:
parsed_data = json.loads(json_data)
print("유효한 JSON입니다!")
except json.JSONDecodeError as e:
print(f"유효하지 않은 JSON: {e}")
JSON Schema는 JSON 데이터의 구조를 정의하고 유효성을 검사하는 데 사용된다. 이를 통해 데이터가 예상되는 형식과 일치하는지 확인할 수 있다. JSON Schema는 데이터를 검증할 뿐만 아니라 문서화하고, API 설계에도 유용하다.
{
"$schema": "http://json-schema.org/draft-07/schema#",
"type": "object",
"properties": {
"name": { "type": "string" },
"age": { "type": "integer" },
"isStudent": { "type": "boolean" }
},
"required": ["name", "age"]
}
JSON은 웹 API에서 데이터 교환의 표준 포맷으로 널리 사용된다. 클라이언트와 서버 간 데이터를 주고받는 데 적합하며, RESTful API나 GraphQL에서도 기본적으로 사용된다.
예를 들어, 클라이언트가 서버에 HTTP GET 요청을 보내면, 서버는 JSON 형식으로 데이터를 응답할 수 있다. 다음은 간단한 JSON 응답 예제다:
{
"status": "success",
"data": {
"id": 1,
"name": "Alice",
"email": "alice@example.com"
}
}
JSON의 간결한 문법은 웹 브라우저, 모바일 애플리케이션, IoT 기기 등 다양한 클라이언트가 데이터를 쉽게 파싱하고 처리할 수 있도록 돕는다.
또한, JSON은 Cross-Origin Resource Sharing(CORS) 과 호환되어, 다른 도메인 간의 데이터 교환에서도 안정적으로 작동한다.
JSON은 데이터를 직렬화(Serialization)하고 역직렬화(Deserialization)하는 데 유용하다. 직렬화는 데이터를 텍스트 형식으로 변환하여 저장하거나 전송할 수 있게 하는 과정이며, 역직렬화는 이를 다시 원래의 데이터 구조로 복원하는 과정이다.
import json
data = {
"name": "Bob",
"age": 30,
"isStudent": False
}
# 데이터를 JSON 문자열로 직렬화
json_string = json.dumps(data)
print(json_string)
{"name": "Bob", "age": 30, "isStudent": false}
# JSON 문자열을 파이썬 객체로 역직렬화
parsed_data = json.loads(json_string)
print(parsed_data["name"]) # 출력: Bob
JSON은 다양한 프로그래밍 언어에서 직렬화/역직렬화를 지원하여, 언어 간 데이터 교환을 간소화한다. 예를 들어, Python에서 직렬화한 JSON 데이터를 JavaScript에서 파싱하여 사용할 수 있다.
JSON은 데이터베이스에서도 강력하게 활용된다. 특히, NoSQL 데이터베이스와 JSON을 지원하는 관계형 데이터베이스에서 중요한 역할을 한다.
MongoDB는 JSON 형식을 기반으로 하는 BSON(Binary JSON) 포맷을 사용하여 데이터를 저장한다. JSON-like 문서를 통해 데이터 구조를 유연하게 관리할 수 있다.
{
"_id": 1,
"name": "Alice",
"age": 25,
"hobbies": ["reading", "traveling"]
}
MongoDB에서는 JSON 문서를 기반으로 복잡한 쿼리를 작성할 수 있다. 예를 들어, 특정 조건에 맞는 데이터를 검색할 때도 JSON 형식을 사용한다:
db.users.find({ "age": { "$gt": 20 } })
PostgreSQL은 관계형 데이터베이스이지만, JSON 및 JSONB(Binary JSON)를 지원한다. JSON 데이터를 저장, 검색, 조작할 수 있는 강력한 기능을 제공한다.
CREATE TABLE users (
id SERIAL PRIMARY KEY,
data JSONB
);
INSERT INTO users (data) VALUES ('{"name": "Bob", "age": 30}');
SELECT data->>'name' AS name FROM users WHERE data->>'age' = '30';
PostgreSQL의 JSONB는 JSON 데이터를 효율적으로 인덱싱하고 검색할 수 있어, 대량의 JSON 데이터를 처리하는 애플리케이션에서 널리 사용된다.
JSON을 지원하는 데이터베이스는 데이터 모델링의 유연성을 제공하며, 전통적인 테이블 기반 데이터 저장소와 달리 반정형 데이터를 다룰 때 효과적이다.
JSON은 간결하고 효율적인 데이터 포맷이지만, 보안적인 취약점을 가지고 있다. 이를 악용하면 JSON 데이터를 통해 애플리케이션에 심각한 위협을 초래할 수 있다.
JSON Injection은 사용자가 입력한 데이터를 신뢰 없이 처리하는 경우 발생한다. 공격자는 JSON 데이터에 악성 코드를 삽입하여 애플리케이션의 로직을 변경하거나, 민감한 데이터를 탈취할 수 있다.
예를 들어, 서버가 JSON 데이터를 받아 파싱할 때 사용자의 입력을 검증하지 않는 경우, 공격자는 다음과 같은 JSON을 삽입할 수 있다:
{
"username": "admin",
"password": "123456",
"isAdmin": true
}
이로 인해 서버는 isAdmin
속성을 신뢰하게 되어, 권한을 부여하는 보안 취약점이 발생할 수 있다.
JSON을 사용하는 API는 CSRF 공격에 취약할 수 있다. 사용자가 인증된 상태에서 악의적인 웹사이트가 JSON 요청을 보내도록 유도하면, 권한이 없는 데이터 조작이 발생할 수 있다.
HTTPS를 사용하지 않는 경우, JSON 데이터는 네트워크 상에서 평문으로 전송되므로 중간자 공격에 의해 탈취되거나 조작될 위험이 있다.
JWT(JSON Web Token) 는 JSON 형식을 기반으로 인증과 정보 교환을 위한 안전하고 간결한 방식이다. JWT는 사용자가 인증되었음을 증명하는 토큰으로, 클라이언트-서버 간 신뢰를 유지하는 데 사용된다.
JWT는 세 부분으로 구성되며, 각 부분은 Base64Url로 인코딩된다.
{
"alg": "HS256",
"typ": "JWT"
}
{
"userId": 123,
"role": "admin",
"iat": 1670000000
}
JSON 데이터를 처리할 때 보안을 강화하기 위해 다음의 방법들을 고려해야 한다.
사용자가 입력한 JSON 데이터를 신뢰하지 말고, 항상 유효성을 검사해야 한다. 예를 들어, 특정 키가 필수인지, 값이 예상되는 데이터 타입인지 확인해야 한다.
import jsonschema
from jsonschema import validate
schema = {
"type": "object",
"properties": {
"username": {"type": "string"},
"password": {"type": "string"}
},
"required": ["username", "password"]
}
data = {"username": "Alice", "password": "1234"}
validate(instance=data, schema=schema)
모든 JSON 데이터를 HTTPS로 전송하여 네트워크 상에서 가로채는 것을 방지한다.
API가 특정 도메인에서만 접근 가능하도록 CORS(Cross-Origin Resource Sharing)를 올바르게 설정한다.
Access-Control-Allow-Origin: https://example.com
JSON 데이터의 크기를 제한하여 대규모 요청으로 인한 DoS(Denial of Service) 공격을 방지한다.
최신 보안 패치를 적용한 JSON 파서와 라이브러리를 사용하여 알려진 취약점을 방지한다.
JSON Schema는 JSON 데이터의 구조를 명시적으로 정의하고, 데이터를 검증하는 데 사용되는 포맷이다. 이를 통해 데이터가 예상되는 형식과 일치하는지 확인할 수 있다. JSON Schema는 API와 데이터베이스 통합에서 데이터의 일관성을 유지하고 오류를 줄이는 데 중요한 역할을 한다.
{
"type": "object",
"properties": {
"name": { "type": "string" },
"age": { "type": "integer" },
"email": { "type": "string" }
},
"required": ["name", "email"]
}
{
"type": "string",
"minLength": 5,
"maxLength": 50,
"format": "email"
}
{
"type": "array",
"items": { "type": "integer" },
"minItems": 1,
"maxItems": 5
}
JSON은 간결성과 범용성으로 인해 널리 사용되지만, 특정 상황에서는 몇 가지 한계를 보인다. 이러한 한계를 극복하기 위해 Protobuf와 Avro 같은 대체 기술이 등장했다.
message Person {
string name = 1;
int32 age = 2;
string email = 3;
}
특성 | JSON | Protobuf | Avro |
---|---|---|---|
형식 | 텍스트 기반 | 바이너리 | 바이너리 |
스키마 | 선택적 | 필수 | 필수 |
크기 | 상대적으로 큼 | 작음 | 작음 |
속도 | 느림 | 빠름 | 빠름 |
주요 사용 사례 | 웹 API, 설정 파일 | 분산 시스템, 메시징 | 빅데이터 처리 |
JSON은 간단한 데이터 교환에 여전히 적합하지만, Protobuf와 Avro는 고성능과 데이터 구조의 명확성을 요구하는 환경에서 점점 더 많이 사용되고 있다고 한다.
프로젝트를 하나 수행할 때마다 주 언어 다음으로 많이 보는 게 json 형식인 것 같다... 이번 프로젝트에서도 물론 마찬가지였고, 크롤링한 데이터를 처리하는 과정을 수행중인 입장에서 특히 얻어가는 게 많았던 것 같다.
그리고... 가능하다면 다음에 규모가 좀 있는 프로젝트를 하나 마련해서 protobuf를 사용해보는 것도 좋은 공부가 될 것 같다.