Google资深工程师深度讲解Go语言-单任务版爬虫(十四)「建议收藏」

Google资深工程师深度讲解Go语言-单任务版爬虫(十四)

大家好,又见面了,我是全栈君。

一.获得初始页面内容

gopm get -g -v golang.org/x/text  //引入gbk库

报错: bash: gopm: command not found
解决方法: 使用gopm 完成安装

gopm–Go Package Manager 的缩写。是go 上的包管理工具,十分好用。 gopm

1.gopm 安装:

这个十分简单只需一条命令就可以了:

go get -u github.com/gpmgo/gopm  //亲测可用

2.使用 gopm安装需要的包

gopm 具有丰富的包管理功能,具体的管理命令可以参考官方文档(官方文档有中文版 各位爽不爽)链接
这里只需要一条命令就可以搞定了:

gopm bin -d $GOPATH/bin PackageName

Google资深工程师深度讲解Go语言-单任务版爬虫(十四)「建议收藏」

二.正则表达式获取邮件地址

package main

import (
	"fmt"
	"regexp"
)

const text = `
my email is lxw@qq.com
email2 is aa@def.com
email3 is bb@eft.com.cn
`

func main() {
	re := regexp.MustCompile(`([a-zA-Z0-9]+)@([a-zA-Z0-9]+)(\.[a-zA-Z0-9]+)`)
	match := re.FindAllStringSubmatch(text, -1)
	for _, m := range match {
		fmt.Println(m)
	}
}

2.提取城市和url

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"regexp"
)

func main() {
	resp, err := http.Get("http://www.zhenai.com/zhenghun")
	if err != nil {
		panic(err)
	}
	defer resp.Body.Close()
	if resp.StatusCode != http.StatusOK {
		fmt.Println("Error:status code", resp.StatusCode)
		return
	}
	all, err := ioutil.ReadAll(resp.Body)
	if err != nil {
		panic(err)
	}
	//fmt.Printf("%s\n", all)
	printCityList(all)
}

func printCityList(contents []byte){
	re:=regexp.MustCompile(`<a href="(http://www.zhenai.com/zhenghun/[a-z0-9]+)"[^>]*>([^<]+)</a>`)
	match:=re.FindAllSubmatch(contents,-1)
	for _,m :=range match {
		//for _,sub:=range m {
		//	fmt.Printf("%s",sub)
		//}
		//fmt.Println()
		fmt.Printf("city: %s,  Url:%s \n",m[2],m[1])
	}

	fmt.Printf("matches found:%d\n",len(match))
}

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/111684.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • pycharm安装、首次使用及汉化

    pycharm安装、首次使用及汉化一、下载pycharm安装包打开PyCharm的官方下载地址:http://www.jetbrains.com/pycharm/download/#section=windows打开网站后的界面展示如图:professional是专业版,可以免费试用,community是社区版,是免费开源的,推荐下载使用社区版。下载后的PyCharm:二、安装1.双击应用程序后点击【Next】…

    2022年5月26日
    43
  • 现场总线及其应用「建议收藏」

    现场总线及其应用「建议收藏」现场总线是应用在生产现场、在微机化测量控制设备之间实现双向串行多节点数字通信的系统,也被称为开放式、数字化、多点通信的底层控制网络。现场总线技术形成了真正分散在现场的完整控制系统,提高了控制系统运行的可靠性,丰富了控制设备的信息内容。为控制信息进入公用数据网络创造了条件,沟通了现场控制设备之间及其与更高控制管理层网络之间的联系,便于实现管控一体化,同时控制网络与数据网络的结合,便于实现信号的远程传…

    2022年5月10日
    48
  • JSP简介

    JSP简介JSP简介

    2022年4月25日
    37
  • 学成在线项目怎么样(学成在线微服务)

    CMS接口开发1项目的功能构架1.1项目背景1.2功能模块1.3项目原型2项目的技术架构2.1技术架构2.2技术栈2.3开发步骤3CMS需求分析3.1什么是CMS3.2静态门户工程搭建3.2.1导入门户工程3.2.2配置虚拟主机 在nginx中配置虚拟主机:3.2.3SSI服务端包含技术3.3CMS页面管理需求4CMS服务端工程搭建注释也是必不可少的KaTeX数学公…

    2022年4月16日
    40
  • webdriver 下载_WebBrowser

    webdriver 下载_WebBrowserChrome:http://chromedriver.storage.proxy.ustclug.org/index.html

    2022年9月19日
    0
  • BindingNavigator控件[通俗易懂]

    BindingNavigator控件[通俗易懂]WinForm之中BindingNavigator控件的使用在微软WinForm中,BindingNavigator控件主要用来绑定数据。可以将一个数据集合与该控件绑定,以进行数据联动的显示效果。如图下图所示:那么,下面我们就来用BindingNavigator控件做一下上图所示的效果。分析:该案例以BindingNavigator控件为主线,我们定义一个实体类

    2022年7月12日
    30

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号