从网页抓取数据的一般方法

首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是heade

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。一般会包括cookie,Referer页面和其他一些乱其八糟可能看不懂的变量,还有就是正常交互的参数,比如需要post或者get的querystring所包含的东西。

httplook和httpwacth 网上有很多下载的,这里推荐使用httpwach,因为可以直接嵌入到ie中,个人觉得这个比较好用。这两个工具可以到我上传在csdn的资源中下载,地址为

http://download.csdn.net/user/jinjazz

这里简单给出一段可以抓取数据的c#代码,比如登录某个网站,获取登录成功后的html代码,供数据分析使用。

private   void  login()
          {
             System.Net.WebClient wb  =   new  System.Net.WebClient();
 
             System.Collections.Specialized.NameValueCollection header  =   new  System.Collections.Specialized.NameValueCollection();
             header.Add( " Cookie " ,  " czJ_cookietime=2592000; czJ_onlineusernum=1651; czJ_sid=w4bGJd " );
             header.Add( " Referer " ,  @" http://hovertree.net/bbs/login.php " );
             wb.Headers.Add(header);
             System.Collections.Specialized.NameValueCollection data  =   new  System.Collections.Specialized.NameValueCollection();
             data.Add( " formhash " ,  " ebd2faac " );
             data.Add( " referer " ,  " http://hovertree.net/bbs/search.php " );
             data.Add( " loginfield " ,  " username " );
             data.Add( " username " ,  " jinjazz " );
             data.Add( " password " ,  " 999 " );
             data.Add( " questionid " ,  " 0 " );
             data.Add( " answer " ,  "" );
             data.Add( " cookietime " ,  " 2592000 " );
             data.Add( " loginmode " ,  "" );
             data.Add( " styleid " ,  "" );
             data.Add( " loginsubmit " ,  " 提交 " );
 
              byte [] b  =  wb.UploadValues( " http://hovertree.net/bbs/login.php " ,  " Post " , data);
              string  strData  =  System.Text.Encoding.Default.GetString(b);
             Console.WriteLine(strData);
         }

以上代码除了三个url之外其他数据都是真实的,其中header和data中的参数和值都是用httpwatch来监测后得到。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/120331.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 最新手机号段归属地数据库(2017年4月16日版)免费下载

    最新手机号段归属地数据库(2017年4月16日版)免费下载2017年4月16日版360569条记录最新手机号段数据库号码归属地数据库移动号段联通号段电信号段14号段170号段(虚拟运营商)权威全面准确规范字段包括省份城市运营商邮编区号等信息,对于数据分析、号码归属地查询等非常有帮助三种格式:MYSQL,MSSQL,accessMDB格式字段:手机号码前7位,省份,城市,区号,运营商,邮编末…

    2022年7月22日
    11
  • 解决8080端口被占用问题「建议收藏」

    解决8080端口被占用问题「建议收藏」问题叙述在IDEA中运行项目时会出现8080端口被占用的情况,可能是运行tomcat的时候,也可能是在用vue进行前后端分离项目,运行后端代码时出现端口被占用。这里以运行tomcat显示占用举例,如下图所示;解决方法1、按快捷键windows+R,在运行框里输入cmd,如图所示,2、在dos命令中输入netstat-aon|findstr“8080”,查看端口。3、找到8080端口,查看正在运行程序的pid,如图所示。4、回到桌面,任务栏,右键,任务管理器,如图所示会显示正在运行的

    2025年6月24日
    0
  • 毕业六年

    今年工作变化。这一年可以说命途多舛,下半年短短几个月,换了3条业务4个老板,有被动调整,也有主动转岗,面临比较重要的选择,还是相当煎熬的。这个过程有些坑,空了单独分享。运气不好的是频繁拥抱变化,有些努力白费了,意外之中又有意外,不过运气好的是年终没吃太多亏,权当是走个弯路,浪费了一年时间吧。惰性。技术上来说,转后端一年多,工作够用了,不过这两年从客户端折腾到前端又到后端,把技术热情磨没了,可能也是各方面原因,今年第一次感觉到了惰性,有点佛,感觉够用就行,不再试图知其所以然…

    2022年3月11日
    43
  • matlab微分方程转化状态方程_matlab求微分方程的通解步骤

    matlab微分方程转化状态方程_matlab求微分方程的通解步骤[转]http://blog.sina.com.cn/s/blog_46e9b2010100tsqv.html用matlab时间也不短了,可是一直没有接触过微分方程。这次看看书,学习学习,记点儿笔记。

    2022年8月4日
    13
  • Ubuntu 64位 16.04 Minnet安装及测试,可视化工具调试,抓包工具wireshark安装及测试

    Ubuntu 64位 16.04 Minnet安装及测试,可视化工具调试,抓包工具wireshark安装及测试

    2021年10月6日
    63

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号