호기심, 관심사

페이지랭크(Pagerank) 알고리즘 개념잡기

정리하면 구글 검색의 기본원리는 PageRank 알고리즘에 따라 미리 웹페이지들을 정렬해놓고, 검색을 하는 순간 그 검색어가 포함된 페이지들을 위 순위대로 나열해서 보여주는 것.

Out main goal is to improve the quality of web search engines. In 1994, some people believed that a complete search index would make it possible to find anything easily. According to Best of the Web 1994 -- Navigators, "The best navigation service should make it easy to find almost anything on the Web(once all the data is entered)." However, the Web of 1997 is quite different. Anyone who has used a search engine recently, can readily testify that the completeness of the index is not the only factor in the quality of search results. "Junk results" often wash out any results that a user is interested in. In fact, as of November 1997, only one of the top four commercial search engines finds itself (returns its own search page in response to its name in the top ten results). One of the main cause of this problem is that the number of documents in the indices has been increasing by many orders of magnitude, but the user's ability to look at documents has not. People are still only willing to look at the first few tens of results. Because of this, as the collection size grows, we need tools that have very high precision ( number of relevant documents returned, say in the top ten of results). Indeed, we want our notion of "relevant" to only inculde the very best documents since there even at the expense of recall ( the total number of relevant documents the system is able to return ). There is quite a bit of recent optimism that the use of more hypertextual information for making relevance judgments and other applications [Marchiori 97], [Spertus 97], [Weiss 96], [Kleinberg 98]. In particular, link structure [Page 98] and link text provide a lot of information for making relevance judgements and quality filtering. Google makes use of both link structure and anchor text .

페이지랭크 알고리즘을 연구한 배경은 단순했다. 단순검색엔진의 품질을 향상시키는 것. 당시 갈수록 정보량이 많아진 반면, 검색결과엔 쓰레기가 많아지고 부정확했음. 사람들은 첫 페이지의 top ten 검색결과 위주만 보기 때문에 정확한 검색결과를 보여주는 것은 무엇보다 중요했다.

들어가면서 머리에 둬야할 개념. Backlink 와 어떤 페이지들이 중요한지 측정하는 척도 두가지.



We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows:

PR(A) = (1-d)/N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))


Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages' PageRanks will be one.


다른 페이지들의 PageRank 를 구하는 건 재귀호출 방식으로 반복. 

# 출처






















'호기심, 관심사' 카테고리의 다른 글

끈을 이어야 관계가 보인다 中  (0) 2016.07.27
내공은 어떻게 쌓이는가?  (0) 2016.07.26
'경제적 자유' - 송사무장  (0) 2016.07.21
타이어 교체 시기 확인  (0) 2016.07.21
업무 우선 순위  (0) 2016.07.19
,
이런 책을 읽었다

구글의 미래

10퍼센트보다 10배 향상시키는 것이 더 쉽다. 이것이 바로 구글의 세계관이자 비전이며 경영 접근 방식인 동시에 행동을 위한 가이드라인


SW분야 종사자들이 바라는 회사상을 꼽아보라면 1순위는 아마도 구글일 것이다.
미국 기업이고, 창업가, 개발자 프렌드리한 실리콘밸리 기업의 상징. 게다가 창업자도 엔지니어 출신이며
연봉, 복리후생, 근무환경은 최상위 급이다.

MS나 애플처럼 대놓고 돈을 밝히지도 않으면서 고퀄의 제품을 무료에 가깝게 제공한다.
게다가 당장 돈과는 관련없어 보이는 일명 문샷프로젝트 - 인류 미래를 획기적으로 개선할 진보적인 프로젝트에도 매진한다.

연봉이니 근무환경을 구글과 비스무레하게  흉내내는 회사는 부지기수로 많다. 하지만 그들과 구글의 결정적인 차이는 무엇일까가 늘 궁금했다. 정확히 찝자면 인생관 혹은 직업관이 어떻게 형성되었길래 겉으로 보기엔 고결해 마지 않는 인류사명과 같은 목표를 그들의 존재 이유로 삼고 지속적으로 추진할 수 있는 것일까였다. 오죽했으면 그는 '인류의 더 나은 삶을 위한' 아이디어 창출 및 제품개발에 진지하게 매진하는 기업은 수십개에 불과하고 이에 대해 좌절감을 느낀다고 까지 말한다.

당장 돈걱정을 할 필요가 없기 때문에 가능했던 것일까. 아니면 기술역사를 발전시키고 말겠다는 야심에 불타서일까. 아니면 키다리아저씨가 같이 이타적이기 때문일까. 똑부러진 답은 얻을 순 없었지만 분명한 것 하나는 구글을 이끄는 사람은 지적 호기심이 넘쳐흐르고 더 나은 세상에 대한 긍정적인 태도를 가진 이라 뭔가 다르다는 것이다.

10퍼센트 보다 10배가 더 쉽다는 이야기는 꿈과 목표를 높이 잡는 태도,자세 뿐만 아니라 현재의 판을 바꾸자는 것까지 포함한다. 말은 쉽지만 실제 현장에서는 이런 이야기가 나오면 기술적인 한계, 비용 문제로 진전이 어렵다. 하지만 실제 문제는 거기까지 가기 전에 발생한다. 2배, 10배, 100배 등으로 변할 수 있는 생각들을 자유롭게 떠들지 조직문화때문이다. 

아무리 말로만 떠들어봤자 기존 규격, 프로세스, 상식에서 벗어나는 아이디어를 제시했을때
또라이 혹은 제정신이냐는 말을 자주하는 곳에서는 10배 향상할 수 있는 생각 자체가 불가능하겠다는 것이다.
당연한 이야기겠지만 래리페이지부터가 말만 그렇게 하는 사람이 아니라 생각, 행동을 그렇게 하고 있는 사람이니
외부에서 생각하는 구글이란 회사가 구글 스타일대로 돌아가는 것이 아닐까 싶다. 일단 발명하고 돈벌 생각은 나중에 하는 식.

나머지 책에서 구글이 진행하는 미래 프로젝트, 래리페이지 일화 등의 이야기들은
예상한대로 평소에 접하던 IT 소식 이상의 것은 없는 듯 하다. 기업 내부이야기를 특별히 취재했다고 했다고 한 책 치고 서프라이즈 한 내용이 튀어나온 적은 없는 것 같다.

-------------------------------------------------------------------------------------------------------------------------------------------------

" 대부분의 기업은 제품이 연간 10퍼센트 성장을 기록하면 만족한다. 기존의 제품과 경쟁하는 것만으로도 많은 노력이 필요하며 실제로 대부분의 시간과 에너지를 여기에 쓴다. 주주나 경영자는 기업의 건강을 지키기 위해 사업을 분산시키기 보다는 이익이 되는 분야를 우선적으로 보호하는 것이 타당하다. 하지만 구글의 경영진은 구글이 다른 경쟁업체보다 좀 더 앞서가겠다는 목표를 세우면 수많은 다른 기업과 마찬가지로 쪼그라들다가 결국 사라질 것이라고 확신한다. 좀더 나은 목표를 세우는 사람은 회사를 망치거나 곧바로 폭발하게 하지는 않겠지만 결코 놀라운 성공을 거두거나 독창적이고 혁신적인 기업을 만들지 못한다. 이것이 바로 페이지의 중심 과제다."

" 예전보다 10퍼센트 더 나은 결과를 얻고 싶다면 당연히 과거의 수단이나 증명된 방법을 선택하면 됩니다. 그러나 10배 더 나은 것을 만들고 싶다면 다른 사람들이 시작한 것에서 시작하면 안됩니다. 유일한 방법은 기존의 전제들을 버리고 모든 것에 새로운 방식으로 접근하는 것입니다."

" 현실적으로 급진적인 해결책만 강구하도록 내버려두는 회사는 없다. 하지만 접근방식은 돈이나 기술의 문제라기 보다는 용기의 문제다. 그런 시도와 사고를 격려하고 용기를 북돋는 협동적인 문화가 있어야 가능."

google-alphabet-infographic-eng

"우리의 임무는 세계의 정보를 조직화하고 전 인류가 접근 및 사용하도록 하는 것"

" 우리는 검색창에 입력한 질문이나 검색어가 1,2초만에 이해가능한 정보로 나열되는 것을 당연시하고 있다. 그러나 정보를 취합 및 분류하고 조직화하는 필터링과 시작 지점, 검색 메커니즘이 없으면 구글의 모든 지식은 아무런 소용이 없다."

" 단기적인 목표를 위주로 한 경영 전략은 다이어트를 하면서 30분 마다 저울에 올라가는 사람만큼이나 부질없다."

" 어떤 회사의 CEO를 만났는데 그에게 오직 돈을 벌려는 동기밖에 없다는 확신이 들면 나는 그 회사를 머리속에서 삭제해버립니다."

" 나는 가끔 우리가 몸담은 회사에서조차 스스로를 지키기 위해 싸워야 했던 시절로부터 얼마나 멀리 왔는지 생각합니다. 내가 할 일은 직원들이 회사 업무를 통해 기회를 찾고 의미있는 일에 기여하도록 하는 것입니다."

" 시장성있는 컴퓨터 개발에서 아이폰이 나오기까지는 20년이 걸렸다. 그런데 실리콘 밸리의 발명자들은 앞으로 25년안에 우리가 더 이상 기기를 들고 다니지 않을 것이라고 말한다. 분자 컴퓨터나 생체인식센서처럼 인간과 주변세상을 통합하는 장치가 그 일을 대신할 거라는 얘기다. 페이지와 브린 그리고 구글은 궁극적으로 이런 전제를 바탕에 두고 행동을 결정한다."


'이런 책을 읽었다' 카테고리의 다른 글

Big Short  (0) 2016.07.08
비트코인  (0) 2016.06.30
나는 단순하게 살기로 했다  (0) 2016.06.25
개인주의자 선언  (0) 2016.06.21
내가 대화하는 이유  (0) 2016.06.16
,
  [ 1 ]  

최근 댓글

최근 트랙백

알림

이 블로그는 구글에서 제공한 크롬에 최적화 되어있고, 네이버에서 제공한 나눔글꼴이 적용되어 있습니다.

태그

링크

카운터

Today :
Yesterday :
Total :