Google资深工程师深度讲解Go语言-单任务版爬虫(十四)「建议收藏」

Google资深工程师深度讲解Go语言-单任务版爬虫(十四)

大家好,又见面了,我是全栈君。

一.获得初始页面内容

gopm get -g -v golang.org/x/text  //引入gbk库

报错: bash: gopm: command not found
解决方法: 使用gopm 完成安装

gopm–Go Package Manager 的缩写。是go 上的包管理工具,十分好用。 gopm

1.gopm 安装:

这个十分简单只需一条命令就可以了:

go get -u github.com/gpmgo/gopm  //亲测可用

2.使用 gopm安装需要的包

gopm 具有丰富的包管理功能,具体的管理命令可以参考官方文档(官方文档有中文版 各位爽不爽)链接
这里只需要一条命令就可以搞定了:

gopm bin -d $GOPATH/bin PackageName

Google资深工程师深度讲解Go语言-单任务版爬虫(十四)「建议收藏」

二.正则表达式获取邮件地址

package main

import (
	"fmt"
	"regexp"
)

const text = `
my email is lxw@qq.com
email2 is aa@def.com
email3 is bb@eft.com.cn
`

func main() {
	re := regexp.MustCompile(`([a-zA-Z0-9]+)@([a-zA-Z0-9]+)(\.[a-zA-Z0-9]+)`)
	match := re.FindAllStringSubmatch(text, -1)
	for _, m := range match {
		fmt.Println(m)
	}
}

2.提取城市和url

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"regexp"
)

func main() {
	resp, err := http.Get("http://www.zhenai.com/zhenghun")
	if err != nil {
		panic(err)
	}
	defer resp.Body.Close()
	if resp.StatusCode != http.StatusOK {
		fmt.Println("Error:status code", resp.StatusCode)
		return
	}
	all, err := ioutil.ReadAll(resp.Body)
	if err != nil {
		panic(err)
	}
	//fmt.Printf("%s\n", all)
	printCityList(all)
}

func printCityList(contents []byte){
	re:=regexp.MustCompile(`<a href="(http://www.zhenai.com/zhenghun/[a-z0-9]+)"[^>]*>([^<]+)</a>`)
	match:=re.FindAllSubmatch(contents,-1)
	for _,m :=range match {
		//for _,sub:=range m {
		//	fmt.Printf("%s",sub)
		//}
		//fmt.Println()
		fmt.Printf("city: %s,  Url:%s \n",m[2],m[1])
	}

	fmt.Printf("matches found:%d\n",len(match))
}

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/111684.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • k8s 开源_openstack源码

    k8s 开源_openstack源码createfunc main() { #随机数 rand.Seed(time.Now().UnixNano()) #创建一个新的命令行对象 command := cmd.NewDefaultKubectlCommand() #日志 logs.InitLogs() defer logs.FlushLogs() #真正执行的命令行 if err := command.Execute(); err != nil { os.Exit(1) }}# NewDefaultKubectl

    2022年8月9日
    2
  • 大话数据结构PDF原文内容分享[通俗易懂]

    大话数据结构PDF原文内容分享[通俗易懂]大话数据结构为超级畅销书《大话设计模式》作者程杰潜心三年推出的扛鼎之作!以一个计算机教师教学为场景,讲解数据结构和相关算法的知识。通篇以一种趣味方式来叙述,大量引用了各种各样的生活知识来类比,并充分运用图形语言来体现抽象内容,对数据结构所涉及到的一些经典算法做到逐行分析、多算法比较。与市场上的同类数据结构图书相比,本书内容趣味易读,算法讲解细致深刻,是一本非常适合自学的读物。获取方式提取码:8i5k目录第1章数据结构绪论1.1开场白1.2你数据结构怎么学的?1.3数据结构起源1.

    2022年6月24日
    33
  • 激活码 clion 2021【2021.10最新】

    (激活码 clion 2021)这是一篇idea技术相关文章,由全栈君为大家提供,主要知识点是关于2021JetBrains全家桶永久激活码的内容IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.net/100143.htmlF6EG2ZUBVX-eyJsa…

    2022年3月28日
    51
  • 四个c语言小游戏

    四个c语言小游戏C语言小游戏0、前言1、普普通通的五子棋2、好难操作的贪吃蛇3、简单到炸的自制迷宫4、不忍直视的双人飞机对战0、前言1、我使用的是编译软件是vc6.02、如果代码无法运行,你可以尝试吧文件xxx.c改为xxx.cpp3、四个小游戏我都运行过,确保是可以运行的。虽然可玩性、操作性。。。1、普普通通的五子棋这是四个游戏中,个人感觉最好的一个了。#include<stdio.h>#include<windows.h>#include<time.h>#i

    2022年5月19日
    383
  • linux下安装tomcat7

    linux下安装tomcat7安装环境LinuxcenterOS6.5tomcat安装(apache-tomcat-7.0.73.tar.gz)Tomca下载地址:http://tomcat.apache.org/download-70.cgi下载后解压:tar-zxvfapache-tomcat-7.0.73.tar.gz建立软连接:ln-sapache-tomcat-7.0.73.tar.gztomcat7设

    2022年5月18日
    41
  • 信捷plc梯形图实例详解_信捷plc单键启停梯形图

    信捷plc梯形图实例详解_信捷plc单键启停梯形图一直以来都是作为新手在学习PLC,对于PLC编程,每个人都应该觉得自己是新手,只有心态放低,才能把事情看得更清楚,才能将编程的原理了解深透。就拿PLC一键启停编程梯形图来说,PLC种类很多,每个种类对应的编程或多或少有些差异,那么掌握一种一键启停梯形图编程是不是可以应用到其他种类的PLC呢?分享台达PLC的常见一键启停编程梯形图根据最近网友向我我请教的一个PLC单键启停如何编写程序,PLC外部接线…

    2022年9月11日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号