Detecting Site Functionality by Structural Patterns 한글번역 및 발표자료

*학*

최초 등록일: 2011.07.29
최종 저작일: 2010.10; 17페이지/ 압축파일; 가격 2,000원

다운로드

장바구니

상세정보
자료후기 (0)
자료문의 (0)
판매자정보

소개글

Detecting Site Functionality by Structural Patterns 논문의 한글번역 및 발표자료

1. 서론

2. 접근 방법 – 직관

3. 잠재적인 적용들
3.1 검색 결과들의 유형 분류(태깅)
3.2 크롤링 정책 세우기
3.3 임의의 서퍼 모형들 구별하기

4. 데이터 세트
4.1 데이터의 신뢰도

5. 특징 선택
5.1 특징들의 목록
5.2 특징들에 관한 토론

6. 결과
6.1 링크 스패머의 식별

7. 관련 연구
7.1 하이퍼텍스트의 특성
7.2 웹 페이지의 테마 범주화
7.3 웹의 구조적 특성

8. 결론 및 앞으로의 연구

본문내용

1. 서론

그 어느 때보다도 웹 사이트의 수가 늘어나는 만큼 웹상의 실용적인 것과 기능의 수가 늘어나고 있다. 오늘날의 웹 사이트들은 많은 다양한 기능들을 수행한다. 몇몇 사이트들은 내용을 전달하기도 하고, 또 다른 사이트들은 쇼핑몰로서의 기능을 하기도 한다; 어떤 사이트 들이 특정한 기업에 관련된 정보를 포함하는 반면, 어떤 사이트들은 웹을 검색하는 데에 인터페이스(정보 전달 장치)를 제공하기도 한다. 이러한 사이트들은 다양한 사람들에 의해 다양한 목적을 위하여 생성되기 때문에 이들이 다양한 디자인들을 선보인다는 것은 그다지 놀랄만한 일도 아니다: 사이트의 규모라든지, 각 목록과 서브목록 페이지의 구성, 사이트들의 페이지 내의 내부 연결 패턴들, 그리고 사이트들이 웹의 나머지에 연결되는 방법 등, 이 모든 것들은 사이트들의 기능에 적합한 것들인 동시에 그 기능으로부터 생겨난 것들이다. "웹" 상의 사이트들에 대한 다양한 역할의 접속성 패턴들 역시 각양각색이다.
비록 웹 사이트들이 외적으로, 그리고 내적으로 다양하다고 하여도, 비슷한 역할을 하는 사이트들이 많다. 예를 들면, 전혀 연관되지 않은 두 개의 대학, 두 가지의 다른 웹 목록들, 아니면 경쟁적인 두 회사들을 생각해보자. 이 논문은 다른 웹 마스터들에게 디자인 됨에도 불구하고 이렇게 비슷한 구조적인 패턴들을 보여주는 사이트 들을 연구하고자 한다. 다시 말해, 사이트의 기능이 어떻게 해서 (1) 전형적으로 하이퍼링크 된 구조이며, (2) 나머지 웹에 있어서, 그리고 나머지의 웹으로부터 전형적인 접속성의 패턴들인지 추론하는 것을 연구하고자 하는 것이다. 우리는 정말로, 크고 잘 연결된 사이트들의 기능이 구조적이고 접속성 기반의 특징들에 영향을 받는 다는 것을 주장하고자 한다. 게다가, 이러한 특징들을 가진 웹 사이트에 의해 생성된 가치들은 사이트의 기능이 연역적으로 추론될 수 있는 전형적인 기호를 종종 발생시키기도 한다.
이 연구는 각 사이트들을 기능에 따라 분류하는 데에 그 목표를 둔다. 우리는 사이트가 어떤 것에 대한 것인지를 조사하려는 것이 아니라, 어떤 사이트인지 그 자체에 대해 조사하고자 한다. 각 사이트의 유형을 구별하고자 하는 우리의 목표는 웹 페이지들과 사이트들을 TOPICAL CONTENT(섹션 7.2에서 연구되었음)에 의해 범주화하고자 하는 도전적인 업무와 혼동해서는 안 된다. 우리는 구체적으로 각각의 사이트를 다음과 같은 8개의 기능 범주로 나누고자 한다: 기업 사이트, 콘텐츠&미디어 사이트(주요 신문사나 TV 네트워크 사이트들), 검색 엔진 사이트, 웹 서열&디렉토리 사이트, 포털 사이트(일반적인 웹 포털과 지역 커뮤니티 포털 모두를 포함함), E-store, 가상 호스팅 서비스, 그리고 대학 사이트가 바로 그것이다. 이러한 범주들은 각각 CORP, CONTENT, SEARCH, DIR, PORTAL, ESTORE, VHOST, 그리고 UNIV 로 나타내어질 것이다. 이러한 8개의 범주들은 많은 큰 규모의 웹 사이트 들의 기능을 포함하지만, 웹 상에서 발견되는 모든 범위의 사이트 기능들을 총망라하지는 않는 다는 점을 주의하도록 하자. 웹의 생태계는 다른 사이트 유형들에게 있어 서식지와도 같은데, 이러한 유형들 중 몇몇은 섹션 8에서 다뤄질 것이다.
우리는 의도적으로 우리의 범주화 시도를 (1) 사이트들의 집합적이고 구조적인 속성들(디렉토리의 페이지 구조, 그리고 그러한 페이지들과 연결되어 있는 내부 링크들), 그리고 (2)사이트와 나머지 웹 상의 사이트 사이의 연결 패턴에서 발견되는 특징들로 제한하고자 하였다. 우리는 어떠한 내용 분석이나 웹 페이지들, 혹은 그것들의 URL을 이용하지 않았다. 결과적으로 우리의 방법은 어떠한 언어로 된 사이트나 URL에 대한 어떠한 지역 협약에 관계없이 적용될 수 있다. 우리의 결과는 55%가 넘는 정확성으로 상기된 8가지의 범주로 사이트들을 정확하게 분류할 수 있다는 것을 보여준다. 어떤 범주들은 다른 범주들에 비해 구별하기가 매우 어려운 것들도 있었는데, 이는 대부분 그들이 구조 측면에 있어서 잘 정의되지 못한 것들이다. 그러나, 어떤 범주들, 예를 들면 가상 호스팅 사이트들이나 웹 서열에서는 그 정확성이 85%를 넘기도 한다. 이 연구의 부가적인 결과는 구조적인 기호가 spam rings나 mirror sites를 탐지하는 데에 쓰일 수 있다는 것을 보여준다. 사이트들을 거의 동일한 기호들로 묶어놓음으로 인해, 우리는 우리의 데이터 안에 포함된 무수한 spam rings을 찾아낼 수 있었다.