分类标签

搜索引擎技术

  • 2017年 06月17日
  • 所属栏目:
  • 开发文章
  • >
  • 开发技术
  • >
  • 其它开发技术
  • Hadoop安装教程_单机/伪分布式配置
    当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有 Hadoop 安装配置教程,但由于对 Linux 环境不熟悉,书上跟官网上...
  • 2016年 12月22日
  • 所属栏目:
  • 开发文章
  • >
  • 开发技术
  • >
  • 网络编程技术
  •  Python爬虫初识
    因为学的是python2.7x。。。。 所以用的urllib 原来可以在submile 中运行Python代码。。。。。。。ctrl+b 就会在下面显示了 dir(urllib)就会显示这个模块的方法 help(urll...
  • 2016年 05月20日
  • 所属栏目:
  • 开发文章
  • >
  • 开发技术
  • >
  • 图形与多媒体编程
  • 看起来像它——图像搜索其实也不难
    以下黑色部分是作者原文的翻译,红色部分是我本人自己的理解和对其的补充。 原文:Looks Like It 在google里对的搜索结果是 下面是我用pHash算法(Java)实现的结果: 十张比较的...
  • 2016年 05月11日
  • 所属栏目:
  • 开发文章
  • >
  • 开发技术
  • >
  • 网络编程技术
  • Hadoop之仿写搜索引擎
    写搜索引擎先整理下思路大致分为三步: 从网上爬取数据,对拿到的数据进行整理即分词,然后通过关键字匹配拿到数据。我会详细介绍这三步。 先讲讲我要实现的效果,从网上拿到标题...
  • 2015年 06月21日
  • 所属栏目:
  • 编程资源
  • >
  • 开源代码
  • >
  • 搜索、蜘蛛爬虫开源代码
  • 全文检索Sphinx最新版
    全文检索Sphinx最新版是Sphinx 2.2.9-release这个版本是在站长的机器上编译通过的,使用Microsoft Visual Studio编译,从官方用SVN下载来的代码没有MYSQL等一些开源库,这里都加...
  • 2015年 03月31日
  • 所属栏目:
  • 编程资源
  • >
  • 开源代码
  • >
  • 搜索、蜘蛛爬虫开源代码
  • 国人开发的Crawler_Spider网络蜘蛛源码
    这是国人开发的爬虫程序,可用来学习研究用,内有详细的文档。 本项目基于微软.Net2.0平台,用C++/CLI 编程实现了网络蜘蛛(Web Spider)。该蜘蛛可以访问用户指定的一个或多个站点,...