BM25 algorithm
2024. 12. 20. 15:46
BM25는 Elasticsearch의 키워드 검색랭킹 알고리즘으로 유명하다. 어떤 의도로 개발된 방법이고 어떻게 계산되는지 간단하게 알아보자.BM25의 수식은 아래와 같다. IDF부분과 TF부분을 곱하여 계산한다.먼저 간단하게 TF, IDF의 개념에 대해 알아보자.TF(Term Frequency)는 문서에서 단어(term)의 빈도를 뜻한다.문서A: "He is a good boy. She is a bad girl. I am a handsome guy."TF("is", Document(A)) = 2/15 TF("He", Document(A)) = 1/15문서A에서 15개의 단어 중 is이라는 단어는 2번 등장하였다. TF를 기준으로 한번씩 등장한 He나 She보다 더 중요하다고 여겨진다. 그러나 관점을 바..