Efficient IR-Style Keyword Search over Relational Databases 논문
- 최초 등록일
- 2012.12.04
- 최종 저작일
- 2012.12
- 27페이지/ 한컴오피스
- 가격 30,000원
소개글
완벽 번역된 논문입니다.
기존 해외 논문 12페이지이며 한글 번역 27페이지입니다.
목차
1. 소개
2. 관련 산업
3. 프레임워크
4. 시스템 구조
5. 실행 알고리즘
6. 실험
7. 결론
본문내용
보통 텍스트가 구조 데이터와 같이 존재하는 응용분야가 굉장히 많다. 상용화된 관계형 데이터베이스 관리 시스템(RDBMSs)은 텍스트 특성들에 대한 쿼리 능력을 최첨단 경지의 정보검색(IR)으로 끌어올려주지만, 이러한 검색은 주어진 키워드에 대해 쿼리를 할 때 명확한 열을 지정해주어야 한다는 단점이 있다. 이러한 요구조건은 사용자에 따라 다소 무겁고 융통성 없어질 수 있다: 키워드 쿼리에 대한 좋은 해법은 “집화되는” 것일 수 있다-전에 없던 방법으로-그것은 다수의 관계로부터 튜플을 모으는 것일 수 있다. 이러한 고찰은 최근의 연구들로 하여금 자유-형식 RDBMSs 키워드 검색에 대해 집중하도록 유도했다. 본 논문에서는, IR스타일의 문서 연관 순위 방식을 적용하여 자유 형식 키워드 쿼리를 RDBMSs에 적용할 때 생기는 문제들을 해결하고자 한다. 우리의 쿼리 모델은 AND와 OR 모두에 대한 쿼리를 제어할 수 있으며 상용화된 RDBSMSs가 제공하는 정교한 단일-열 텍스트 검색을 가능하게 해준다. 우리는 IR형식 키워드 검색의 중요한 성질을 만들어내는 쿼리 처리방식을 개발하였다: 오직 몇 안되는 연관된 조합들-타당성이라고도 정의되는-만이 관심의 대상이다. 따라서, 비효율적으로 실행되는 키워드 쿼리에 대한 모든 조합들을 계산하는 대신에 우리의 기술은 쿼리에 대한 적당한 k값으로 탑-k 조합들에 집중하는 것이다. 실제 데이터에 대한 빈틈 없는 실험 결과 값은 우리 방식의 이점에 대해 보여주고 있다.
1. 소개
보통 텍스트들이 구조데이터와 공존하는 응용분야의 경우가 많이 있다. 더 나아가서, 표준 관계형 RDBMSs 텍스트와 구조데이터들은 가끔 나란히 저장되어 다음의 예와 같이 된다.
예1 큰 컴퓨터 장비 회사의 고객 관리 데이터베이스를 예로 들어보자. 데이터베이스의 한 표를 보면, 불만 요소(prodId, custId, date, comments) 일지가 있는데, 이 일지의 각 불만들은 불만을 표현한 고객(custID) 내부 식별자와 함께 튜플로서 받아들여진다. 이 표는 또한 불만이 표현된 주력 상품 식별자(proID), 표현된 날짜(date), 그리고 자유형식 텍스트로서의 불만 내용(comments)를 포함하고 있다.
참고 자료
본문참조