[转摘]利用SgmlReader返回XPath分析HTML

[转摘]利用SgmlReader返回XPath分析HTML

SgmlReader是一款SGML解析器,通过解析html文件,并能有效的把html转换为格式较规范的XHTML。
      所以,再利用XPath去查找你所想要的值是非常方便的。
      个人分析HTML方法:
                  1.正则表达式 
                  2.字符串截取 
                  3.把HTML代码当成树形结构理解,想取到哪个节点的值很方便(属xml的一种)
      最近朋友需要一些房地产的数据,我试着找了一些采集的方法,google很多,最终无果。花一个晚上自己写了个简单房地产数据采集。

      核心是利用SgmlReader生成XHTML文档后,根据XPath 语句来读取数据。
      步骤: 
             1. 下载WebURL HTML 代码以StreamReader 返回

[转摘]利用SgmlReader返回XPath分析HTML
[转摘]利用SgmlReader返回XPath分析HTML
Code

 1                 Random ro = new Random();
 2                 int r = ro.Next();
 3                 string strUrl = url + &id= + r.ToString();
 4 
 5                 HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(strUrl);
 6                 request.Method = WebRequestMethods.Http.Get;
 7                 request.Timeout = 10000;
 8                 HttpWebResponse response = (HttpWebResponse)request.GetResponse();
 9                 StreamReader reader = new StreamReader(response.GetResponseStream(), System.Text.Encoding.GetEncoding(utf-8));
10 
11                 return reader;

             2.在得到远程的HTML文件后,你就可以创建一个SgmlReader类的实例了。通过将其DocType属性设置为“HTML”,HTML文件的响应流可以被加载到SgmlReader实例,通过其InputStream属性进行解析。首先将HTML文件流加载到一个TextReader对象,然后将TextReader赋值给InputStream属性:

1 
            SgmlReader reader 
=
 
new
 SgmlReader();

2 
            reader.DocType 
=
 

HTML

;

3 
            reader.InputStream 
=
 
new
 StringReader(sReader.ReadToEnd());
//
sReader为远程HTML所返回的

 

            3.现在,你就可以通过调用SgmlReader的Read()方法来解析HTML文件了:

[转摘]利用SgmlReader返回XPath分析HTML
[转摘]利用SgmlReader返回XPath分析HTML
Code

 1             StringWriter sw = new StringWriter();
 2             XmlTextWriter writer = new XmlTextWriter(sw);
 3             writer.Formatting = Formatting.Indented;
 4             while (reader.Read())
 5             {

 6                 if (reader.NodeType != XmlNodeType.Whitespace)
 7                 {

 8                     writer.WriteNode(reader, true);
 9                 }
10             }

 

            4.因为SgmlReader创建了格式规范的HTML,所以你可以用XPath语句来读取不同的节点。下面的代码说明了如何将SgmlReader生成的输出结果加载到一个XPathNavigator,然后如何用一个XPath语句来查询HTML文件结构: 

[转摘]利用SgmlReader返回XPath分析HTML
[转摘]利用SgmlReader返回XPath分析HTML
Code

            XPathDocument doc = new XPathDocument(new StringReader(sw.ToString()));
            XPathNavigator nav 
= doc.CreateNavigator();
            XPathNodeIterator nodes 
= nav.Select(xPaths);//xpath表达式
              while (nodes.MoveNext())
            {

                str 
+= nodes.Current.Value + |;//str为你所根据xpath取到的值
            }
            
return str;

 

            例:如下HTML代码,要取到这个img的src地址

[转摘]利用SgmlReader返回XPath分析HTML
[转摘]利用SgmlReader返回XPath分析HTML
Code

HTML:
<div class=pBorder align=left>
<img src=http://pic.xxxxx.com/images/images/2009-04/461232.jpg alt=新世界四季山水 title=新世界四季山水>
</div>

XPath 为:xpath = //div[@class=’pBorder’]/img/@src;

传入上面方法中及返回:http://pic.xxxxx.com/images/images/2009-04/461232.jpg

 

如果你对XPath语言已经很熟悉,并了解.NET Framework中不同的XML解析API了,那么你就可以很容易地用SgmlReader类来解析HTML并读取数据了。

附:SgmlReader下载:http://download.csdn.net/source/1440928

转载于:https://www.cnblogs.com/dannyqiu/articles/1902955.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/110682.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • mysql数据库报错1146_关于MySQL报错:[ERR] 1146

    mysql数据库报错1146_关于MySQL报错:[ERR] 1146最近因为电脑重装了系统,导致自己原本的数据库呗覆盖,需要重新重新安装数据库,但是由于我之前数据库版本是mysql5.0.22,版本太低,所以小编决定安装mysql5.7.23版本的,一开始没什么问题,根据之前的安装路径安装成功后,接着配置了mysql的环境变量mysql_path,,然后在数据库编辑工具NavicatforMySQL打开后,进行了一个小小的数据库查询:select*fr…

    2022年5月24日
    193
  • Python的八种数据类型[通俗易懂]

    Python的八种数据类型[通俗易懂]Python的八种数据类型八种数据类型分别是:number(数字)、string(字符串)、Boolean(布尔值)、None(空值)list(列表)、tuple(元组)、dict(字典)、se

    2022年7月5日
    30
  • 求最大公约数和最小公倍数的算法[通俗易懂]

    求最大公约数和最小公倍数的算法[通俗易懂]在刷题的过程中,经常会遇到很多关于最小公倍数和最大公约数的问题。以下是用C语言写的求最大公约数和最小公倍数的算法。最大公约数。求最大公约数有三种算法。1、辗转相除法。   辗转相除法又称为欧几里德算法。这个方法大家已经都已经在数学上学过了。具体的步骤就是:用较小数除较大数,再用出现的余数(第一余数)去除除数,再用出现的余数(第二余数)去除第一余数,如此反复,直到最后余数是…

    2022年5月13日
    54
  • Visual Studio 2019 集成CefSharp[通俗易懂]

    Visual Studio 2019 集成CefSharp[通俗易懂]1.点击“引用”,右键”管理Nuget程序包”,搜索框里输入”CefSharp”,选择”CefSharp.WinForms”,安装。这样就会自动把CefSharp需要的拓展给安装齐全了,之后在解决方案的packages目录里会有4个文件夹cef.redist.x64.版本号,cef.redist.x86.版本号,CefSharp.Common.版本号,CefSharp.WinForms.版本号。2.使用代码:usingCefSharp.WinForms;usingMicrosoft

    2025年12月7日
    6
  • 代码主题darcula_Intellij idea 中的Darcula主题怎么把颜色改回来?

    代码主题darcula_Intellij idea 中的Darcula主题怎么把颜色改回来?展开全部1、打开IDEA,点击File>Settings…2、直接搜索Color,点击Colorscheme。3、右侧Scheme下拉选择62616964757a686964616fe4b893e5b19e31333431356666,Darcula黑色主题。4、点击Apply应用,ok确认退出。完成。扩展资料:快捷键1、写代码时用Alt-Insert(Code|Generate…)…

    2022年6月27日
    75
  • 加密卡华为怎么模拟_华为手机怎么复制加密NFC门卡?「建议收藏」

    加密卡华为怎么模拟_华为手机怎么复制加密NFC门卡?「建议收藏」原标题:华为手机怎么复制加密NFC门卡?“极客谈科技”,全新视角、全新思路,伴您遨游神奇的科技世界。虽然NFC已经成为了中高端手机的标配之一,但是很多人对于什么是NFC,NFC究竟有哪些作用并不是十分清楚。NFC是一种近距离的无线传输技术,可以通过配套芯片来读取相关的数据,从而实现数据交互的目的,通常的应用有地铁、公交刷卡、POS机付款、门禁卡等。今天,我们主要来谈谈华为手机如何通过NFC的功能来…

    2022年6月3日
    84

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号