IT이야기

질 낮은 사이트 걸러내는 구글. 네이버는?

想像 2011. 3. 2. 07:30
반응형

구글은 2월 25일 자사 블로그를 통해 검색 품질을 높이기 위한 새로운 알고리즘을 본격 가동한다고 밝혔다. 구글이 검색 결과의 신뢰도를 높이기 위해 '질 낮은(low-quality) 콘텐츠 사이트와의 전쟁'을  선포한 것이다

"구글은 높은 수준의 내용물을 포함하고 있는 웹사이트들에 의존하고 있다. 건강한 웹상의 환경을 장려하는 것은 구글의 책임이다. 그렇기 때문에 새로운 검색 시스템 알고리즘이 발표된 것이고 높은 수준의 웹사이트들이 보상받을 것"이라고 구글의 엔지니어 팀장 맷 커츠는 블로그를 통해 밝혔다.

구글 측은 "이번 알고리즘 개선으로 입력되는 검색어의 11.8%가 영향을 받을 것"이라며 "이 정도면 (검색을 통해) 이용자가 보는 콘텐츠에 변화가 있다는 사실을 감지하기에 충분하다"고 설명했다.

새로운 검색 시스템은 우선 미국에 적용되지만 미국 외 다른 지역들도 순차적으로 이 같은 새 시스템으로 차차 바뀔 예정이다라고 한다. 

구글이 말하는 질 낮은 사이트란 ?

구글은 특히 이번 검색 알고리즘 개선에서 조금 추상적이기는 하지만 콘텐츠의 질을 평가하는 나름대로의 기준을 밝혀 주목된되는데 핵심은 원본(original) 콘텐츠를 적당히 베껴 운영하는 사이트들이다. 

이른바 '어뷰징(abusing)' 및 콘텐츠 팜(Content Farms)에 철퇴를 가하겠다는 의도다. 어뷰징이란 인기 검색어를 기반으로 원본 콘텐츠를 적당히 베껴 조악한 콘텐츠를 대량으로 생산하면서 검색 랭크 상위에 올려 클릭수를 챙기는 것을 말하며 '콘텐츠 팜(content farms)'이란 이를 행위를 기업적으로 하는 회사를 말한다. 앞으로 '어뷰징'과 '콘텐츠 팜'은 검색 랭크에서 후순위로 밀리게 된다.

반면에 질 높은 콘텐츠 사이트는 리서치, 깊이 있는 리포트, 사려 깊은 분석 등의 정보와 원본(original) 콘텐츠를 갖고 있는 사이트로 이런 사이트는 앞으로 구글의 검색 순위에서 더 상위에 랭크될 예정이라고 한다.

구글 발표로 디맨드 미디어 주가 폭락

이번 구글의 발표로 구글의 검색 패턴 분석을 통해 웹사이트가 구글 검색에서 상단에 노출될 수 있도록 웹페이지를 디자인해 주는 디멘드 미디어(Demand media)의 주가가 구글의 발표 직후 5% 가까이 폭락했다. 그동안 디멘드 미디어는 구글 검색 순위는 높지만 불필요한 정보들이 가득한 홈페이지들을 양산한다는 비판을 받아 왔는데 이번 구글의 새 검색 시스템 도입의 여파로 가장 큰 타격을 받을 것으로 예상되기 때문이다.

네이버 등 국내 검색 품질은 문제 없나 ?

이처럼 구글은 검색 결과의 신뢰도를 높이기 위해 '질 낮은(low-quality) 콘텐츠 사이트를 걸러내는 새로운 검색시스템을 선보이고 있는데 그럼 네이버 등 국내 포털의 검색 품질은 이런 문제가 없는가 ? 그렇지 않다.

한국형 검색 서비스를 앞세워 70% 안팎의 점유율을 자랑하는 NHN(네이버)의 검색 품질에 문제가 많다는 지적이다. 국내 검색의 대명사로 꼽히는 네이버이지만, 정작 네이버 바깥에 있는 콘텐츠는 잘 검색되지 않는데다, 원본보다 ‘퍼온 글’ 등 복사본이 우선 노출되는 등 검색 결과에 대한 불만도 잇따른다

파워 블로거들 중에는 네이버 검색에서 자신의 글은 전혀 검색되지 않고, 이를 퍼간 글과 사이트만 검색되는 것을 발견하고 네이버에 항의하는 일들이 잦다. 작년 12월 한겨레 신문은 <“원본 찾기 어렵네” 펌글 넘치는 네이버>라는 제목으로 이런 문제를 심층 보도한 적이 있다.

아래 그림은 한겨례신문이 지난해 11월24일치 기사 ‘갤럭시S도 데이터 삭제없이 업그레이드’를 국내외 검색엔진에서 검색해 그 결과를 비교한 그림이다. 구글, 네이트, 다음에선 신문사의 기사 원문이 첫번째와 두번째로 나온 반면 네이버에서는 원본 기사가 13번째로 밀려났으며 기사 앞에 노출된 검색 결과 8개는 제목 그대로 복사해간 콘텐츠였다


그러나 한겨례 신문의 보도가 나갔음에도 불구하고 현재도 제목 그대로 복사해간 블로그나 카페가 역시 상위에 모조리 랭크되어 있다. (보도가 나간 이후 블로그나 카페의 글 내용들은 링크도 대체되었지만)


공들여 쓴 ‘오리지널’ 글은 제대로 검색되지 않고, 이처럼 불펌한 블로그와 카페의 ‘짝퉁’ 글이 특정 검색엔진에서 ‘우대’받는 현실은 왜 생겨날까?  이는 네이버 블로그와 카페를 우선 보여주면서 네이버 바깥의 콘텐츠를 ‘차별’하는 검색 알고리즘 때문이라는 것이 블로거들의 주장이다.

구글의 새검색 시스템 발표, 네이버 등 본받아야 해

그런 의미에서 "건강한 웹상의 환경을 장려하는 것은 구글의 책임이다. 그렇기 때문에 새로운 검색 시스템 알고리즘이 발표된 것이다"라는 구글의 생각을 네이버 등 국내 검색 엔진 업체들도 본받을 필요가 있다고 생각된다. 네이버도 자사 블로그와 카페를 우선 보호하는데만 급급할 것이 아니라 질 낮은 콘텐츠들은 과감히 걸려내는 정책이 필요하다 하겠다.

반응형