主要致力于搜索引擎优化(SEO)技术研究,是国内领先的网站优化服务商 电话咨询:13717682292 62141629 QQ:64296850

Rss | Tags | Sitemaps

北京seo优化

  • 首页
  • 关于我们
  • seo技术
  • google咨询
  • 搜索引擎推广
  • seo动态
  • 网站建设
  • 站内搜索
  • 标签
  • 留言版
  • 联系我们
  • 管理
  • Search:

    • Banner

    ※ 网站分类 | Categories

    • rss 新闻动态 (5)
    • rss google优化 (11)
    • rss 搜索引擎推广 (0)
    • rss seo技术 (5)
    • rss 解决方案 (1)
    • rss 网站优化推广 (4)
    • rss seo动态 (3)
    • rss 网站建设 (3)
    • rss 影响搜索引擎排名的因素 (2)
    • rss 什么是seo? (1)
    • rss 联系我们 (1)
    • rss 关于我们 (1)
    • rss 北京网站优化 (1)
    • rss 网站优化公司 (0)
    • rss 北京seo (0)
    • rss 搜索引擎排名 (0)
    • rss seo优化 (6)
    • rss google左侧优化 (0)
    • rss 网站优化 (1)

    ※ 文章归档 | Archives

    • 2010 June (1)
    • 2010 May (1)
    • 2010 April (3)
    • 2010 March (4)
    • 2009 December (1)
    • 2009 July (1)
    • 2009 June (2)
    • 2009 May (1)
    • 2009 March (1)
    • 2009 February (3)
    • 2009 January (2)
    • 2008 December (9)
    • 2008 November (16)

    ※ 友情链接 | Links

    • 烟气流量计
    • 陵园
    • 公墓
    • 墓地
    • 爱心健康网
    • 麦包包
    • 医药招商
    • 麦考林购物网
    • 凡客诚品
    • 太平鸟官方网站
    • 凡客诚品官方网站
    • 太平鸟时尚女装
    • 婷美冰爽装
    • 婷美内衣
    • 三面翻
    • 达芙妮女鞋2010夏款
    • 百丽女鞋2010新款
    • 环保涂料
    • 无负压供水设备
    • 旋流除砂器
    • 水箱自洁消毒器
    • 格栅除污机
    • 纹身
    • 门窗
    • 石英管
    • 克亚营销
    • 麦包包淘宝
    • 麦包包官网
    • 太平鸟女装2010夏装
    • 红孩子官方网站
    • masamaso玛萨玛索

    ※ 网站收藏 | Favorites

    ※ 站点统计 | Statstics

    • 文章总数:45
    • 评论总数:0
    • 引用总数:0
    • 浏览总数:564
    • 留言总数:5
    • 当前主题:Pinktime(粉年)主题
    • 当前样式:pinktime

    ※ 图标汇集 | Logo

     关于百度百度(baidu)分词算法分析(一)

    jianping0219 发表于 Friday, June 12, 2009 2:27:37 PM 

    一直想做一个关于百度对用户查询关键词分词的实践分析,百度这个搜索引擎对关键词如何切分呢?下面是中科院软件所张俊林一篇百度分词算法,转载一个SEOer的整理部分,希望更多seoer有帮助。

    查询处理以及分词技术

    随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;
    作为 普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。

    但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎。搜索引擎涉及到许多技术点,比如查询处理,排序算 法,页面抓取算法,CACHE机制,ANTI-SPAM等等。这些技术细节,作为商业公司的搜索引擎服务提供商比如百度,GOOGLE等是不会公之于众 的。我们可以将现有的搜索引擎看作一个黑盒,通过向黑盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节。

    查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其“中文处理”方面具有其它搜索引擎所不具有的关键技术和优势。那么我们就来看看百度到底采用了哪些所谓的核心技术。

    我们分两个部分来讲述:查询处理/中文分词。

    一、查询处理

    用户向搜索引擎提交查询,搜索引擎一般在接受到用户查询后要做一些处理,然后在索引数据库里面提取相关的信息。那么百度在接受到用户查询后做了些什么工作呢?

    1、假设用户提交了不只一个查询串,比如“信息检索 理论 工具”。
    那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:<信息检索,理论,工具>三个子字符串;这个道理简单,我们接着往下看。

    2、假设提交的查询有重复的内容,搜索引擎怎么处理呢?比如查询“理论 工具理论”,百度是将重复的字符串当作只出现过一次,也就是处理成等价的“理论工具”,而GOOGLE显然是没有进行归并,而是将重复查询子串的权重增大 进行处理。那么是如何得出这个结论的呢?我们可以将“理论工具”提交给百度,返回341,000篇文档,大致看看第一页的返回内容。

    OK。继续,我们提交查询“理论 工具理论”,在看看返回结果,仍然是那么多返回文档,当然这个不能说明太多问题,那看看第一页返回结果的排序,看出来了吗?顺序完全没有变化,而 GOOGLE 则排序有些变动,这说明百度是将重复的查询归并成一个处理的,而且字符串之间的先后出现顺序基本不予考虑(GOOGLE是考虑了这个顺序关系的)。

    3、假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?比如查询”电影BT下载”,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断 点将中文切分开,这样上述的查询就切为<电影,BT,下载>,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作 一个整体来对待。至于为什么,你用查询“电影dfdfdf下载”看看结果就知道了。当然如果查询中包含数字,也是如此办理。

    到目前为止,一切很简单,也很清楚,百度怎么处理用户查询的呢?归纳如下:首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开。

    未完待续。。。

    阅读全文() | 岸人评论(0) | 引用通告(0) | 所属分类:seo优化 

    Tags:seo优化  网站优化  

    后一篇:« 提高google的排名有技巧
    前一篇:外部链接构成的重要性 » 

    相关文章:

    团队的运营决定你网站的成功与否  (2009-5-11 10:22:17)

    诊断一下你的医院网站健康吗?  (2008-12-25 23:8:29)

    蹇萍:优化过程中关键词的选择是灵魂  (2008-12-17 11:25:53)

    最新评论及回复 -- 【发表评论】

    发表评论:

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

    Copyright 网站优化 Your WebSite. Some Rights Reserved. Powered By Z-Blog. Theme By morean