从网页抓取数据的一般方法

首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是heade

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。一般会包括cookie,Referer页面和其他一些乱其八糟可能看不懂的变量,还有就是正常交互的参数,比如需要post或者get的querystring所包含的东西。

httplook和httpwacth 网上有很多下载的,这里推荐使用httpwach,因为可以直接嵌入到ie中,个人觉得这个比较好用。这两个工具可以到我上传在csdn的资源中下载,地址为

http://download.csdn.net/user/jinjazz

这里简单给出一段可以抓取数据的c#代码,比如登录某个网站,获取登录成功后的html代码,供数据分析使用。

private   void  login()
          {
             System.Net.WebClient wb  =   new  System.Net.WebClient();
 
             System.Collections.Specialized.NameValueCollection header  =   new  System.Collections.Specialized.NameValueCollection();
             header.Add( " Cookie " ,  " czJ_cookietime=2592000; czJ_onlineusernum=1651; czJ_sid=w4bGJd " );
             header.Add( " Referer " ,  @" http://hovertree.net/bbs/login.php " );
             wb.Headers.Add(header);
             System.Collections.Specialized.NameValueCollection data  =   new  System.Collections.Specialized.NameValueCollection();
             data.Add( " formhash " ,  " ebd2faac " );
             data.Add( " referer " ,  " http://hovertree.net/bbs/search.php " );
             data.Add( " loginfield " ,  " username " );
             data.Add( " username " ,  " jinjazz " );
             data.Add( " password " ,  " 999 " );
             data.Add( " questionid " ,  " 0 " );
             data.Add( " answer " ,  "" );
             data.Add( " cookietime " ,  " 2592000 " );
             data.Add( " loginmode " ,  "" );
             data.Add( " styleid " ,  "" );
             data.Add( " loginsubmit " ,  " 提交 " );
 
              byte [] b  =  wb.UploadValues( " http://hovertree.net/bbs/login.php " ,  " Post " , data);
              string  strData  =  System.Text.Encoding.Default.GetString(b);
             Console.WriteLine(strData);
         }

以上代码除了三个url之外其他数据都是真实的,其中header和data中的参数和值都是用httpwatch来监测后得到。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/120331.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • vs2005注册_vs注册界面设计

    vs2005注册_vs注册界面设计注册码:KYTYH-TQKW6-VWPBQ-DKC8F-HWC4J找到SETUP文件夹下的setup.sdb,用记事本打开它,找到[ProductKey],将下面的一行序列号删除,改为正式Key,保存后再安装就是正式版了,记住,中间没有横线!!如果先前已经安装好180天的版本,请在添加删除VisualStudio2005时,可以输入序列号,进行升级。找到SETUP文件夹下的setup.

    2022年8月22日
    6
  • 30 分钟未付款取消订单,怎么做?

    30 分钟未付款取消订单,怎么做?

    2022年2月14日
    38
  • python中setattr用法_python中hasattr()、getattr()、setattr()函数的使用

    python中setattr用法_python中hasattr()、getattr()、setattr()函数的使用引言 在阅读源码时 有很多简写的形式 其中一个比较常用的就是 getattr 用来调用一个类中的变量或者方法 相关联的 hasattr getattr setattr 函数的使用也一并学习了一下 正文 1 hasattr object name 判断 object 对象中是否存在 name 属性 当然对于 python 的对象而言 属性包含变量和方法 有则返回 True 没有则返回 False 需要注

    2025年11月26日
    5
  • java实现发送邮件功能

    java实现发送邮件功能java实现发送邮件功能电子邮件开发在后台中是普遍存在的现象和功能,比如用户注册,系统自动发送一封电子邮件到用户邮箱;再比如密码找回,系统会自动把密码发送到用户邮箱;……等等,所以作为一名java程序员,还是有必要学会这项技能的。我是一名安卓开发人员,我们都知道在客户端和后台交互数据的时候用到了Http协议,那么相应的,邮箱传输也有自己的一套协议,如SMTP,POP3,IMAP。在原生的javaJ

    2022年5月14日
    56
  • android中ListView的用法[通俗易懂]

    android中ListView的用法[通俗易懂]地址:https://www.cnblogs.com/s-y-j/p/6548032.htmlLisView介绍:(一)、ListView概念:ListView是Android中最重要的组件之

    2022年7月1日
    23
  • 心形曲线(java)

    心形曲线(java)心形曲线java简易表示法importjava.awt.Color;importjava.awt.Graphics;importjava.awt.Image;importjava.awt.Toolkit;importjavax.swing.JFrame;@SuppressWarnings(“serial”)publicclassDemoextendsJFrame…

    2022年10月17日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号