elasticsearch搜索引擎搭建

elasticsearch搜索引擎搭建课程作业的简单记录 环境说明 操作系统 windows10 Jdk java11 Elasticsearc 16 0 谷歌浏览器 97 0 4692 71 正式版本 64 位 一 目标 1 淘宝抓取商品信息 2 利用抓取的信息搭建搜索引擎二 设计方案 1 爬虫 如下 提取淘宝网页中的商品文本信息 包括商品标题 title 价格 price 付款人数 nums 店铺名称 name 店铺地址 address 保存到 csv 文件中 2

课程作业的简单记录。

环境说明:

  • 操作系统:windows 10
  • Jdk:java 11
  • Elasticsearch 7.16.0
  • 谷歌浏览器:97.0.4692.71(正式版本) (64 位) 

一、目标:

1、淘宝抓取商品信息

2、利用抓取的信息搭建搜索引擎

二、设计方案

1、爬虫:如下,提取淘宝网页中的商品文本信息:包括商品标题[‘title’],价格[‘price’],付款人数[‘nums’],店铺名称[‘name’],店铺地址[‘address’],保存到csv文件中

elasticsearch搜索引擎搭建

2、本地搭建实验环境,安装ES,ElasticSearch-head插件,grunt,node环境。

参考链接:

Elasticsearch安装教程_smile in spring的博客-CSDN博客_elasticsearch安装教程

windows环境下elasticsearch安装教程(超详细) – hualess – 博客园

Elasticsearch对应jdk版本

  • 启动ES,在浏览器输入:http://localhost:9200,
  • 启动head插件:进入head文件夹下,执行grunt server
  • 浏览器访问 http://localhost:9100

3、基于python实现Elasticsearch的索引建立和数据上传

参考:基于python的Elasticsearch索引的建立和数据的上传 – zxNoral – 博客园

Python 操作 ElasticSearch – shaomine – 博客园

python 爬虫 上传elasticSearch (包括日期) – 刘莹小西瓜 – 博客园

三、完整代码及数据

已上传网盘

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/214967.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月18日 下午3:01
下一篇 2026年3月18日 下午3:01


相关推荐

  • Jmeter性能测试(一)性能测试关键指标解析

    Jmeter性能测试(一)性能测试关键指标解析一、性能测试关键指标解析1、响应时间多–并发量快–延时、响应时间好–稳定性(长时间运行)省–资源利用率响应时间:对请求作出响应所需要的的时间,是用户感知软件性能的主要指标。响应时间包括:1.用户客户端呈现时间2.请求/响应数据网络传输时间3.应用服务器处理时间4.数据库系统处理时间响应时间多少合理?对于一个Web系统,普遍接受的响应时间标准为2/5/8秒(2秒–非常好;5秒–可接受;8秒是上限)2、并发用户数用户…

    2022年6月17日
    135
  • 职称计算机ppt2003窍门,ppt2003模块职称计算机考试

    职称计算机ppt2003窍门,ppt2003模块职称计算机考试职称计算机考试模块Powerpoint2003基础1、要求:利用“开始”菜单启动PowerPoint2003[略]2、要求:利用桌面快捷方式启动PowerPoint2003,再退出PowerPoint2003[略]3、要求:用开始菜单打开最近使用过的“雷雨课件”文件:点击“开始”→“我最近的文档”→“|雷雨课件”。4、要求:从最近打开过的演示文稿“学习指南”启动PowerPoint2003,然后…

    2022年5月30日
    41
  • 金士顿有2t的u盘吗_群联3110主控

    金士顿有2t的u盘吗_群联3110主控最近新买的金士顿DT101G2U盘用老版本的群联检测工具GETinfo如GETinfov3.2.9.2会不认识MP的版本,一般会显示为MPv48.30.30,而使用新版本的如GETinfov3.5.7.2会显示MPALLv3.13.0B或MPALLv3.12.0A等。而这些版本网上都无释出版本的量产工具,怎么办呢,很多人都不知道该怎么选择量产工具的版本了。这里根据我成功…

    2025年10月14日
    6
  • 成员变量,类变量,局部变量的区别是什么_内部变量和局部变量

    成员变量,类变量,局部变量的区别是什么_内部变量和局部变量面向对象编程1.封装性面向对象编程核心思想之一就是将数据和对数据的操作封装在一起,通过抽象即从具体的实例中抽取共同的性质形成一般的概念。2.继承子类可以继承父类的属性和功能,即子类继承了父类所有的数据和数据上的操作,同时又可以添加子类独有的数据和数据上的操作。3.多态有两种意义的多态    1)操作名称的多态  2)和继承有关的多态类:

    2025年7月26日
    5
  • http请求 405错误 方法不被允许 (Method not allowed)

    http请求 405错误 方法不被允许 (Method not allowed)由于自己疏忽 导致请求错误 405 然后前端数据传输没错 百度大都说跟 post 提交方式有关 改成 get 还是报错 检查才知道 controller 中忘记写 requestMappi XXX hahhahah 被自己粗心蠢哭了 从而导致没有没有方法被加载到 方法不予许 下面是相关 405 错误的解释 HTTP 协议定义一些方法 以指明为获取客户端 如您的浏览器或我们的 CheckUpD

    2026年3月17日
    2
  • python转换函数使用_python进制转换函数代码的使用

    python转换函数使用_python进制转换函数代码的使用python进制转换函数代码的使用发布时间:2020-04-2310:23:22来源:亿速云阅读:188作者:小新以上就是python进制转换函数代码的使用的详细内容了,看完之后是否有所收获呢?如果想了解更多相关内容,欢迎来亿速云行业资讯!python如何进行进制转换1、十进制转二进制(bin)首先我们看看怎么把一个十进制转化成二进制,我们可以使用python的内置方法bindec=10pri…

    2022年5月12日
    35

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号