- 이글은 http://blog.naver.com/eight23/50016329420 글의 트랙백으로 작성된 글입니다.
1. "Heuristic" 의 정의
안티스팸의 여러가지 필터링 기술 중에 "heuristic" 이라는 필터링 기술이 있다. 물론 이메일에서만 사용하는 용어나 기술은 아니고 machine learning 에서 나온 개념으로 인공지능의 한 분야인데, 우선 이메일 스팸이라는 관점에서 한번 생각해 봤다.
먼저 "heuristic" 의 정의를 사전에서 찾아본 결과, 귀납적인 방법을 사용하는 필터라고 일단 짐작이 된다. 그렇다면 "귀납법" 은 정확히 어떤 것인가? 그리고 그 반대의 개념이라고 알고 있는 "연역법" 과의 차이는 어떤 것일까?
2. 귀납법과 연역법
우선 귀납법과 연역법에 대해서 지식인에서 한번 찾아보았다.
일반적으로 삼단 논법에 의한 연역적 방법은이해가 좀 되는지 모르겠다. 어쨋든 이상의 내용을 토대로 어떤 이메일을 스팸인지 아닌지를 판단하는 방식을 정리해보면,
으로 진행됩니다. 가장 잘 알려진 예를 들면
- 일반적, 보편적 사실
- 구체적 사실
- 일반적 사실을 구체적 사실에 적용
두괄식이라는 것은 보편적 사실이 이 글의 중심 역할을 한다는 말입니다. 보편적 사실을 중심으로 구체적인 사실을 추론하는 것입니다. 즉, 연역적 추론은 일반화에서 구체적 사실로 귀납적 추론은 구체적 사실에서 일반화의 단계를 거치죠.
- 사람은 죽는다. (보편적 사실)
- 소크라테스는 사람이다.(구체적 사실)
- 그러므로 소크라테스는 죽는다.(보편적 사실의 적용)
귀납적 추론의 경우에는 여러가지 구체적 사실로부터 보편적인 진실을 이끌어내므로 중심적인 내용이 결론 부분에 존재하게 됩니다.
< 출처 : 네이버 지식인 답변 >
3. 안티스팸에 적용하면
이메일에서 heuristic 필터는 static 필터들을 말한다. 가령 예에서와 같이 어떤 한가지 특징을 기준으로 스팸인지 아닌지를 판단한다면, 이 필터는 heuristic 이다. 물론 여러가지 heuristic rule 이 있을 수 있다. "특정 ip 에서 온 메일", "특정 도메인으로부터 온 메일", "특정 단어를 포함한 메일" 등과 같은 것들이 있을 수 있겠다. 우선 아래 예를 한번 보도록 하자.
1) 연역적 추론 :
- 모든 black list ip 에서 발송된 메일은 스팸이다.
- 이 이메일은 black list ip 에서 온 메일이다.
- 그러므로 이 이메일은 스팸이다.
일반적으로 스팸인지 아닌지를 판단하는 과정을 이렇게 적어보았다. 일반적으로 안티스팸은 어떤 조건(전제)를 만족시키는 지 여부에 따라 스팸인지 아닌지를 판단한다. 따라서 안티스팸은 다분히 연역적이라고 하겠다. 그렇다면 안티스팸은 연역적인 추론에 해당이 된다는 말인데, 귀납적 추론, 즉 heuristic 은 뭐란 말인가?
2) 귀납적 추론(heuristic) :- 대출안내 메일은 스팸메일이다. (구체적인 사실)
- 모든 대출안내 메일에는 "대출" 이라는 단어가 들어간다. (구체적인 사실)
- 메일 컨텐츠에 "대출" 이라는 단어가 있으면 스팸이다. (보편적 사실)
4. 결론
즉 안티스팸은 귀납적 추론에 의해 만들어진 판단 기준을 전제로 어떤 메일이 스팸인가? 라는 명제를 판단하는 연역적 추론을 하고 있다는 것이다. (내가 쓰면서도 잘 이해가 안된다. ㅎㅎㅎ 예가 적절한 건지 잘 모르겠지만 어쨋든 그렇다. ^^)
같은 듯 다른 개념... 어렵다. 그치?
'이메일 이야기' 카테고리의 다른 글
| 싸이월드 메일서비스 오픈에 대해... (7) | 2007/05/15 |
|---|---|
| SMTP 를 버려라? (0) | 2007/04/28 |
| 귀납법과 연역법 그리고 안티스팸 (0) | 2007/04/26 |
| KISA White Domain List 의 허와 실 (0) | 2007/04/23 |
| 보이콧 마케팅(Boycott Marketting) (3) | 2007/04/20 |
| 이메일 스팸, 피싱, 스캠을 막기 위한 기술들 (0) | 2007/04/18 |

이올린에 북마크하기
이올린에 추천하기



댓글을 달아 주세요