자연어를 컴퓨터에게 이해시키기 위해선 '단어의 의미'를 먼저 이해시켜야 한다.
동시 발생 행렬의 원소는 두 단어가 동시에 발생한 횟수를 나타내지만, 이는 그리 좋은 특징이 아님 (ex) "the"와 "car"의 동시 발생 횟수만 본다면, "car"는 "drive"보다 "the"의 관련성이 훨씬 더 강하다고 나올 수 있음.
점별 상호정보량(PMI) : 위의 문제를 해결하기 위해 사용하는 척도로, 이 값이 높을수록 관련성이 높음.
- P(x) : 단어 x가 코퍼스에 등장할 확률
- P(x, y) : 단어 x, y가 동시발생할 확률
- 단어가 단독으로 출현하는 횟수가 고려되므로 위의 문제를 해결함.
- 두 단어의 동시 발생 횟수가 0이면 음의 무한대가 된다는 단점이 존재해 실제 구현 시엔 양의 상호정보량(PPMI)를 사용함.
PPMI에도 여전히 코퍼스의 어휘 수 증가에 따라 각 단어 벡터의 차원수가 증가한다는 문제점이 존재함.