Improving Web Spam Classification using Rank-time Features 한글번역 및 발표자료
- 최초 등록일
- 2011.08.14
- 최종 저작일
- 2010.06
- 16페이지/ 압축파일
- 가격 2,000원
소개글
Improving Web Spam Classification using Rank-time Features(2007)논문의 한글 번역 및 발표자료
목차
1. 서론
2. 웹 스팸 탐지
3. 데이터세트에 대한 서술
4. 데이터세트에서의 도메인 분리
4.1 동기 유발 사례
5. Rank 의존적 분류 모형
5.1 평가
5.2 결과
6. Rank-Time 특징
6.1 자극 유발
6.2 Rank-time 특징
7. 실험과 결과
8.관련 연구
9. 결론
10. 감사 인사
본문내용
1. 서론
월드 와이드 웹 상의 정보량이 많아짐에 따라, 연관된 정보를 검색하기 위한 검색 엔진의 사용이 그 어느 때보다도 중요해지고 있다. 검색 엔진은 사용자의 질문과 연관된 페이지들을 검색하는데, 이는 각 페이지들의 내용들을 다른 특징들, 예를 들면 앵커 텍스트와 같은 것과 비교하고, 그 질문에 가장 적합한 페이지들을 보여줌으로써 이루어진다. 그렇게 되면 전형적으로 그 사용자는 한 페이지 당 10개~20개 사이의 등급이 매겨진 URL 리스트를 보게 된다. 검색 엔진들에 의한 페이지들의 등급은 사용자들이 어떻게 웹을 검색하는 지의 중요한 요소가 되어 왔다. 이는 사용자들을 위한 단순한 정보의 수집으로부터 발생할 뿐만 아니라, 검색 활동을 통해 발생한 상업적인 거래들에 의해 발생하기도 한다.
몇 몇의 상업 기업들은 그들 회사 웹사이트의 방문자 수를 늘리기 위해 SEO 회사들을 고용해 웹사이트의 등급을 올리려 한다. 이처럼 웹사이트의 등급을 올리기 위한 방법엔 여러 가지가 있다. 우선 넓게는 도덕적이라고 분류될 수 있는 화이트 햇(White-hat), 그리고 조금은 덜 도덕적인 그레이 햇(Gray-hat)-또는 블랙 햇(Black-hat)과 같은 SEO 기술들이 바로 그 방법이다. 화이트 햇 SEO 방법은 웹 페이지의 질과 내용을 개선하여 웹 페이지상의 정보가 많은 사용자들에게 유익할 수 있도록 하는 데에 중점을 둔다. 사이트의 등급을 올리기 위한 이러한 방법은 아마도 사이트의 내용을 개선하기 위해서라고 할지 모르나, 그 내용은 누군가 검색 목표로 삼을 만한 질문들에 가장 맞아 떨어지는 것처럼 보인다.
그러나, 등급을 올리는 방법들 중에는 비도덕적인 것들도 있다. 그레이 햇과 블랙 햇 SEO 기술들이 바로 그것인데 이는 link stuffing, keyword stuffing, cloaking, web farming 등을 포함한다. Link stuffing은 적은 양의 내용이 포함되어 있거나 또는 중복되는 내용을 담은 많은 페이지들을 만들어내는 수법인데, 이러한 많은 페이지들은 모두 하나의 가장 효과적인 대상이 되는 페이지와 연결되어 있다. 위와 같은 수법으로 만들어진 페이지들은 이를 링크 구조에 기반하여 등급을 매기는 사람으로 하여금 대상이 되는 한 페이지가 다른 많은 페이지들이 연결되어 있기 때문에 보다 나은 페이지라고 생각하도록 만들 수 있다. Keyword stuffing은 한 페이지가 질문 용어들로 채워져 있을 때, 어떤 사용자의 질문이 하나, 혹은 그 이상의 용어들을 포함하고 있는 경우 실제의 연관성은 낮더라도 그 검색과 매우 연관성 있어 보이게 만드는 기술이다. 이렇게 만들어진 페이지는 높게 등급이 책정되는데 이는 그 질문과 연관되어있는 내용을 포함하고 있는 것처럼 보이기 때문이다. 페이지에 너무 많이 포함된 용어들에 관해서는, 그 페이지가 검색한 결과들 사이에서 높은 등급으로 분류될 것이고 궁극적으로 사용자들을 사이트에 접속하도록 만들 것이다. 그레이 햇 기술에 관한 보다 더 자세한 내용을 원한다면 [8]을 참고.
참고 자료
없음
압축파일 내 파일목록
Improving Web Spam Classification using Rank-time Features.pptx
Improving Web Spam Classification using Rank-time Features.docx