最真实的调查报告:搜索引擎发现公众利益
二月初,Jenny Jackson(珍妮杰克逊)因该事件对雅虎搜索人气冠军升级曝光,搜索请求总额达到20%,创下雅虎搜索关键词记录。这个数字是记录辉煌的明星帕丽斯·希尔顿的60倍,80倍的歌手Britney Spears Britney。互联网上的搜索引擎已经成为反映公众兴趣和焦点的最佳工具,也许比其他任何调查都更真实。
高频词与社会热点
Throughout history, the popular vocabulary reflects the focus of public concern in the short term, the long term can be run on the process of development of the world.Jon Kleinberg, a researcher at Cornell University, once conducted a survey, and found the popular words in different historical periods by counting the words of the US state of the Union address in 1790.For example, the highest frequency of the American Independence War was the militias and the British army, and the atomic bomb was repeatedly brought up during the period from 1947 to 1959.
现在,搜索引擎声称要意识到公众的秘密。搜索引擎不只是一个被动的回答;事实上,大的搜索引擎提供的统计数据,这些结果可能会很有趣。Keinberg认为,虽然电脑不了解历史,他们可以通过统计博客学习相关背景知识(网页访问记录),电子邮件和网页的文本,以便更好地理解搜索请求的意义。此外,这些统计数据可以帮助社会科学家和营销人员找到一些公共的趋势正在出现,他们的研究或操作提供参考信息。
在国内,搜索引擎甚至主动与反映流行趋势的能力,达成更广泛的业务领域。2004年2月12日,百度搜索和光线传媒公布全球华人明星人气榜2003周杰伦。流行词汇,没办法之前,今年1月8日,百度搜索也加入了Hurun出版2003中国大陆的100丰富的人气排行榜。
但搜索引擎有时不知道要做什么。例如,尝试使用谷歌搜索不到,谷歌Hamlett:甚至会发现在页面上列举答非所问,是Not Unix的热不热,约会网站的......是阴影的莎士比亚官方网站。这个经典的例子引出一个搜索技术长期停用词。
顾名思义,计算机的所有能力都是基于计算,即使阅读也不例外。搜索引擎浏览,分布在各个角落的网页,和单词的出现频率仍然保持在后台。有较高的发生率,有些话,在带来巨大统计成本,但他们不包含很多特定的含义,如中国,是的,和英语单词,,,,如果你想得到所有的结果包含单词,太多太多。例如,在Hamlett的名言高频词常常引起搜索引擎突然熄火这些话,所以得名字。谷歌在阅读·汉姆雷的话,遇到四个停止的话,它不能被他LPED,因此它不得不在不搜索的最低频率,得到一些不受欢迎的网站。
如果名称包含在报价,谷歌会突然开窍,找到相关的网站,这个功能被称为搜索短语(词组搜索)。然而,Alltheweb比谷歌更加智能化,它被列在目录搜索和结果页面提供了一个直接的联系。
搜索如何实现
Gerald Salton已经在互联网上进行搜索,有5430的查询结果,这是第一个10。搜索需要0.06 seconds.0.06秒,体现了快速、高效的搜索引擎为代表的谷歌,这一切是如何实现的
通常,一个房间只能显示10台服务器,但是谷歌的房间可以容纳80台服务器,因为它们被拆了,还有一些裸露的金属外壳,拉里·佩奇和塞吉·布林。谷歌使用了一万多台服务器,分散在五个不同的房间,以应付大量的网络信息。
为了快速响应每一个搜索请求,搜索引擎一直在努力工作,在早期,他们重复三步骤的背景。在第一步中,搜索引擎会经常使用爬虫程序收集所有的网页在互联网上,无论是公开或隐蔽的,只要他们已经访问了,他们会吸引爬虫,爬虫囤积大量的普通搜索引擎数据库,因为爬虫去遵循一定的周期,有时他们可能无法跟上网页的更新速度,所以谷歌快照会出现不同的目标页。第二步,另一个程序在缓存页面的每个单词的频率计数。第三步,根据词的频率CY总结了页面的中心思想和段落,然后根据不同的关键词提取索引目录,每一个用户的搜索请求都基于这些索引,所以响应非常迅速。
无论谷歌的PageRank专利技术、百度独有的超链分析技术,一般的想法几乎是相同的:统计每个网页被其他网页链接的链接,次数越多,级别越高,排名越靠前,一些搜索引擎专家指出UsedRank比搜索algorithms.usedrank PageRank是更准确这是又一次被用户点击搜索结果的统计。一些网页可能排在结果的第八页通过初步计算。但看着每个链接的属性,该引擎可以点击更多的用户和浏览网页的成功在前,搜索引擎,如Alltheweb,雅虎和百度的旧的和诚实的每一次点击,而谷歌是非常直接的,没有任何一次。
许多服务网站的想法,用户是懒惰的同意。根据点击统计,很多用户一般只完成第一页的搜索结果,不浏览后续页。所以一些网站显示更多的搜索结果的第一页上,如雅虎,在它的第一页的20项。Sina是服务形式和盘托出登峰造极,花在情人节这一天的搜索,突然蹦出来的78个环节。但是搜索引擎,如谷歌,AllTheWeb和百度,仍然坚持风格的简朴,只显示10条搜索结果页。
除了搜索算法的不同,所有的搜索引擎也细化服务,并推出了越来越丰富的搜索功能,如我们最喜欢的谷歌图片搜索。事实上,对AllTheWeb函数图像也很出色,而且还支持音频、视频和下载网站搜索。
集成搜索引擎
那么,用户是否必须一个接一个地访问每个搜索引擎以获得最好的搜索结果呢也许不是。搜索集成技术可以在一段时间内提供尽可能多的信息。
整合搜索(搜索)如果翻译听起来更时尚,但它不能反映其象征精梳搜索结果的功能。通常的搜索提取信息从一个复杂的网络资源根据线索。元搜索是在其他搜索引擎上进行的,称为搜索搜索。
当用户输入关键词搜索集成引擎,它发送搜索请求到多个独立搜索引擎的同时,从他们的Web数据库检索所需的信息。整合搜索引擎不建立自己的Web数据库,所有数据来自其他搜索引擎,所以整合的结果会比任何其他的搜索引擎,但它可以解放用户的重复工作和提供更多的有组织的搜索结果,初元搜索发展的理想。
的整合搜索引擎是目前大体有两种方式工作,常用的方法是搜索结果的分析整合,删除重复的条目,然后实现对主题聚类操作。这些最好的网站是Vivisimo,Metacrawler,和Dogpile。另一种整合搜索网站是面向学术研究人员,这样作为surfwax和Copernic代理。他们提供关键词的逻辑运算功能,同时提供大量的搜索结果,同时帮助用户挖掘信息,以便作进一步深入的专题研究。网站第二种比较专业,它通常需要付出,而它是不受欢迎的普通用户之间。
搜索引擎的数据
在互联网应用的排名中,搜索仅次于电子邮件。
每人输入关键字的数量为1.3人。
网络中高频词汇的频率约占词汇总数的1/3,在实际搜索中很难发挥作用。
使用搜索引擎高级功能的用户不到0.5%,其中一些是图书管理员,他们向读者提供了他们无法搜索、使用工具或搜索引擎的信息,但它们是先进的。
2003,百度曾7800万次被中国网民使用110亿次,其中近7亿次与中国名人有关。
U3000 U3000 U3000 U3000
U3000 U3000 U3000 U3000
U3000 U3000 U3000 U3000 U3000
U3000 U3000 U3000 U3000
U3000 U3000 U3000 U3000
U3000 U3000 U3000 U3000