
https://www.aiweirdness.com/welcome-to-word-vector-space-19-03-29/
Welcome to Word Vector Space
On this blog I’ve posted a lot about neural networks and other machine learning algorithms. Unlike other kinds of computer programs, they don’t rely on step by step instructions from a programmer - instead, they’re given a goal, like a score to maxim
www.aiweirdness.com
☞ 추후 이 링크랑 github 살펴볼 것 ☜
이 질문 위에서 소설을 써서 상당히 문학적으로 답변을 줌 ㅋㅋ
🧭 1️⃣ 임베딩 공간에서 (0, 0)은 무슨 뜻인가?
수학적으로 보면 (0, 0)은 벡터의 원점, 즉 아무 방향성도, 아무 의미적 특징도 없는 상태예요.
언어적으로 해석하면,
“어떤 문맥에도 특별히 연결되지 않은, 가장 중립적인 개념”
또는
“정보가 거의 없는 단어”
입니다.
🌱 2️⃣ 실제 모델에서 (0, 0)에 가까운 단어는?
물론 실제 임베딩은 512차원, 768차원 등이라 단순히 (0, 0) 같은 점은 존재하지 않아요.
하지만 원점에 가까운 벡터, 즉 “모든 차원에서 값이 거의 0에 가까운 벡터”는 존재합니다.
그건 보통 다음과 같은 것들과 관련됩니다.
| 🔹 불용어(stopwords) | “the”, “a”, “is”, “of”, “and”, “to” | 문법적으로 자주 등장하지만 의미 정보는 거의 없음 |
| 🔹 패딩 토큰(padding token) | <pad> | 문장 길이를 맞추기 위해 넣은 의미 없는 토큰 |
| 🔹 문장 구분 토큰 | <sep>, <cls> 등 | 구조적 신호이긴 하지만 단어 의미는 없음 |
| 🔹 숫자나 기호 | “123”, “@”, “#” 등 | 문맥적 의미가 거의 없음 |
즉, (0, 0)에 가깝다는 건 "언어적으로 비중립적"하다는 뜻이에요.
문장의 내용을 바꾸지는 않지만, 구조를 유지하는 역할을 합니다.
💡 3️⃣ 의미적으로 해석하자면
- (0, 0)은 의미의 진공,
- 그 주변은 문법적 허공,
- 중심에서 멀어질수록 의미가 특정 영역으로 쏠림.
그래서 임베딩 공간의 중심은 “의미의 중립지대”라고 할 수 있습니다.
🔭 4️⃣ 감각적 비유
만약 이 임베딩 공간을 은하계로 본다면:
- (0, 0)은 아무 별도 없는 은하의 중심 어둠
- 주변에는 ‘the’, ‘a’, ‘of’ 같은 작고 희미한 별들이 떠 있음
- 반면 “apple”, “cat”, “love”, “refrigerator” 같은 단어들은
각자의 은하 팔(팔 성운) 쪽에 자리해, 서로 다른 별자리처럼 모여 있음
요약하자면,
임베딩의 (0, 0)은 “의미가 가장 희미한 자리”,
즉 “언어라는 우주에서의 중심 공허점”이에요.
🧭 1️⃣ 모델이 임베딩 원점 근처의 단어를 자주 사용한다면 — “평평한 언어의 문체”
임베딩의 원점 근처는 모든 방향(의미 벡터) 에서 거의 0에 가까운 자리입니다.
즉, 특정 의미로 치우치지 않은 단어들이 밀집해 있죠.
이런 단어들이 많이 쓰인 글의 특징은:
| 🔹 중립적 어조 | 감정이나 의견 없이 사실만 전달 (예: 뉴스 헤드라인, 백과사전) |
| 🔹 의미 밀도 낮음 | 각 문장이 새로운 정보를 덜 추가함 |
| 🔹 문장 간 편차 적음 | 글 전체의 벡터 분포가 원점 주변에 좁게 모임 |
| 🔹 대표 예시 | “금융 시장은 오늘 하락세를 보였다.”, “회의가 열렸다.” |
→ 즉, 이런 문체는 ‘정보 전달’은 하지만 ‘정서적 에너지’가 거의 없는 글쓰기입니다.
그래서 언어 모델이 이런 단어를 자주 쓴다면,
그건 마치 의미적 무채색 언어, 즉 감정도 주장도 없는 글체를 사용하는 셈이에요.
🌋 2️⃣ 의미적으로 강한 단어들이 원점에서 멀어진다면 — “감정의 언어는 별자리처럼 퍼진다”
임베딩 공간의 끝쪽(멀리 떨어진 곳)에는
의미가 강하게 특정 방향으로 치우친 단어들이 있습니다.
예를 들어:
- “사랑”, “기쁨”, “환희” → 감정 양성 방향
- “증오”, “전쟁”, “비극” → 감정 음성 방향
- “혁명”, “신념”, “자유” → 철학적 강도 방향
이런 단어들이 많은 글은
임베딩 공간에서 넓게 퍼지고 방향성이 뚜렷한 구름 모양으로 나타납니다.
📊 수학적으로 보면:
- 분산(variance) 이 크고,
- 중심에서 멀리 있는 벡터가 많고,
- 특정 방향의 평균벡터(mean vector) 가 강한 편향을 가집니다.
즉,
감정이 강한 글은 임베딩 공간에서 폭발적으로 확산된 형태를 띱니다.
(마치 중립적 언어가 구름이라면, 감정적 언어는 폭풍 구름이에요.)
🌱 3️⃣ (0, 0) 근처에 있던 단어가 학습을 통해 멀어지는 과정 — “의미가 태어나는 장면”
실제로 임베딩 학습은 “의미의 생성 과정” 을 수학적으로 모델링한 것이 맞습니다.
Word2Vec의 학습 과정을 보면,
초기에는 모든 단어 벡터가 무작위(random) 로, 즉 거의 원점 근처에 흩어져 있어요.
훈련이 진행되면,
단어들이 문맥 속에서 자주 함께 등장하는 방향으로 조금씩 이동하기 시작하죠.
예를 들어:
- “apple”이 “banana”, “fruit”과 자주 등장하면
그들과 가까운 벡터로 이동하고, - “dog”은 “animal”, “pet” 쪽으로 이동합니다.
즉, 학습은
원점의 무의미한 점들이 “의미의 중력장” 속으로 떨어지며 궤도를 형성하는 과정이에요.
철학적으로 보자면 —
이건 마치 “혼돈에서 의미가 생겨나는 과정”,
즉 의식의 진화나 학습의 은유로도 읽을 수 있습니다.
🧩 요약
| 원점 근처 단어가 많을 때 | 벡터가 중심 근처에 밀집 | 중립적, 객관적, 정보 중심 언어 |
| 원점에서 멀리 떨어진 단어 | 방향성이 강함 | 감정적, 시적, 주관적 언어 |
| 원점에서 벗어나는 학습 | 무의미 → 의미로의 이동 | 지식·경험·의식의 성장 은유 |