GVKun编程网logo

通过XPath解析HTML(html内容python用xpath解析)

26

在这篇文章中,我们将为您详细介绍通过XPath解析HTML的内容,并且讨论关于html内容python用xpath解析的相关问题。此外,我们还会涉及一些关于c#–通过XPath和HtmlAgility

在这篇文章中,我们将为您详细介绍通过XPath解析HTML的内容,并且讨论关于html内容python用xpath解析的相关问题。此外,我们还会涉及一些关于c# – 通过XPath和HtmlAgilityPack获取属性的值、c#通过xpath读取xml示例、golang使用xpath解析html例子、html – 如何通过XPath选择第一个元素?的知识,以帮助您更全面地了解这个主题。

本文目录一览:

通过XPath解析HTML(html内容python用xpath解析)

通过XPath解析HTML(html内容python用xpath解析)

在.Net中,我发现了一个很棒的库HtmlAgilityPack,它使您可以使用XPath轻松解析格式不正确的HTML。我已经在.Net站点中使用了几年,但是我不得不为我的Python,Ruby和其他项目选择更痛苦的库。有人知道其他语言的类似库吗?

c# – 通过XPath和HtmlAgilityPack获取属性的值

c# – 通过XPath和HtmlAgilityPack获取属性的值

我有一个 HTML文档,我用XPath解析它.我想要获取一个元素输入的值,但它没有工作.

我的Html:

<tbody>
  <tr>
    <td>
      <input type="text" name="item" value="10743" readonly="readonly" size="10"/>
    </td>
  </tr>
</tbody>

我的代码:

using HtmlAgilityPack;

HtmlAgilityPack.HtmlDocument doc; 
HtmlWeb hw = new HtmlWeb();
HtmlNodeCollection node = doc.DocumentNode.SelectNodes("//input/@value");
string s=node[0].InnerText;

所以我想得到这个值:“10743”(而且我不介意用另一个标签来回答)

解决方法

你可以得到它.Attributes集合:
var doc = new HtmlAgilityPack.HtmlDocument();
doc.Load("file.html");
var node = doc.DocumentNode.SelectNodes("//input") [0];
var val = node.Attributes["value"].Value; //10743

c#通过xpath读取xml示例

c#通过xpath读取xml示例

需要修改Main方法第一行代码的路径为你的books.xml文件绝对路径或相对路径。代码演示了XPath各种语法的使用情况

books.xml

复制代码 代码如下:

<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>

  <book category="COOKING">
    <title lang="en">Everyday Italian</title>
    <author>Giada De Laurentiis</author>
    <year>2005</year>
    <price>30.00</price>
  </book>

  <book category="CHILDREN">
    <title lang="en">Harry Potter</title>
    <author>J K. Rowling</author>
    <year>2005</year>
    <price>29.99</price>
  </book>

  <book category="WEB">
    <title lang="en">XQuery Kick Start</title>
    <author>James McGovern</author>
    <author>Per Bothner</author>
    <author>Kurt Cagle</author>
    <author>James Linn</author>
    <author>Vaidyanathan Nagarajan</author>
    <year>2003</year>
    <price>49.99</price>
  </book>

  <book category="WEB">
    <title lang="en">Learning XML</title>
    <author>Erik T. Ray</author>
    <year>2003</year>
    <price>39.95</price>
  </book>

</bookstore>

主程序

复制代码 代码如下:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Xml;

namespace XmlProcesstest
{
    public class Program
    {
        /// <summary>
        /// 加载XML文件
        /// </summary>
        /// <param name="xmlFilePath">XML文件路径</param>
        /// <returns></returns>
        public static XmlDocument LoadXmlDoc(string xmlFilePath)
        {
            var xmlDoc = new XmlDocument();
            xmlDoc.Load(xmlFilePath);

            return xmlDoc;
        }

        /// <summary>
        /// 根据指定的XPath表达式获取XML结点列表
        /// </summary>
        /// <param name="xmlDoc"></param>
        /// <param name="xpathExpr"></param>
        /// <returns></returns>
        public static XmlNodeList GetXmlNodes(XmlDocument xmlDoc,string xpathExpr)
        {
            if (xmlDoc == null)
                return null;

            return xmlDoc.SelectNodes(xpathExpr);
        }

        public static string GetXmlNodeInfo(XmlNode node,string type="xml")
        {
            if (node == null)
                return "Empty node or error node";

            string xmlNodeInfo = null;
            switch (type)
            {
                case "text":
                    xmlNodeInfo = node.InnerText;
                    break;
                default:
                    xmlNodeInfo = node.InnerXml;
                    break;
            }

            return xmlNodeInfo;
        }

        public static void Main(string[] args)
        {
            var xmlDoc = LoadXmlDoc(@"你的books.xml文件路径");

            var rootExpr = "/bookstore";   //  根节点对应的XPath表达式
            var rootNode = GetXmlNodes(xmlDoc,rootExpr);   //
            Console.WriteLine("XPath表达式为 /bookstore,根节点bookstore的所有子节点XML内容如下:");
            Console.WriteLine(GetXmlNodeInfo(rootNode[0]));

            Console.WriteLine();

            var allBooksExpr = "/bookstore/book"; // 根节点bookstore的子元素的所有子节点
            var bookNodes = GetXmlNodes(xmlDoc,allBooksExpr);
            Console.WriteLine("XPath表达式为 bookstore/book,book节点共有:" + bookNodes.Count);

            Console.WriteLine();

            var anyBookExpr = "//book"; // 选取所有book子元素,而不管它们在文档中的位置
            var anyBookNodes = GetXmlNodes(xmlDoc,anyBookExpr);
            Console.WriteLine("XPath表达式为 //book,book节点共有:" + anyBookNodes.Count);
            Console.WriteLine(anyBookNodes[0].InnerXml);
            Console.WriteLine(anyBookNodes[0].OuterXml);

            Console.WriteLine();

            var categoryExpr = "//@category";   // 选取名为category的所有属性
            var allCategoryNodes = GetXmlNodes(xmlDoc,categoryExpr);
            Console.WriteLine("XPath表达式为 //@category,category节点共有:" + allCategoryNodes.Count);
            Console.WriteLine(allCategoryNodes[0].InnerText);
            Console.WriteLine(allCategoryNodes[0].InnerXml);

            Console.WriteLine();

            var titleWithLangExpr = "//title[@lang]";   // 选取所有带有lang属性的title节点
            var titleWithLangNodes = GetXmlNodes(xmlDoc,titleWithLangExpr);
            Console.WriteLine("XPath表达式为 //title[@lang],带lang属性的title节点共有:" + titleWithLangNodes.Count);
            Console.WriteLine(GetXmlNodeInfo(titleWithLangNodes[0]));

            var englishTitleExpr = "//title[@lang='en']";   // 选取所有lang属性值为en的title节点
            var englishTitleNodes = GetXmlNodes(xmlDoc,englishTitleExpr);
            Console.WriteLine("XPath表达式为 //title[@lang='en'],lang属性值为en的title节点共有:" + englishTitleNodes.Count);
            Console.WriteLine(GetXmlNodeInfo(englishTitleNodes[0]));

            Console.WriteLine();

            // 使用索引的XPath查询
            var indexExpr = "/bookstore/book[1]";   // 取bookstore子元素的第一个book元素
            var firstBookNode = GetXmlNodes(xmlDoc,indexExpr);
            Console.WriteLine("XPath表达式为 /bookstore/book[1],节点数为:" + firstBookNode.Count);
            Console.WriteLine(GetXmlNodeInfo(firstBookNode[0]));

            Console.WriteLine();

            var indexExpr2 = "/bookstore/book[last()]"; // 取bookstore子元素的最后一个book元素
            var lastBookNode = GetXmlNodes(xmlDoc,indexExpr2);
            Console.WriteLine("XPath表达式为 /bookstore/book[last()],节点数为:" + lastBookNode.Count);
            Console.WriteLine(GetXmlNodeInfo(lastBookNode[0]));

            Console.WriteLine();

            var indexExpr3 = "/bookstore/book[last()-1]"; // 取bookstore子元素的倒数第二个book元素
            var nextByLastBookNode = GetXmlNodes(xmlDoc,indexExpr3);
            Console.WriteLine("XPath表达式为 /bookstore/book[last()-1],节点数为:" + lastBookNode.Count);
            Console.WriteLine(GetXmlNodeInfo(nextByLastBookNode[0]));

            Console.WriteLine();

            var indexExpr4 = "/bookstore/book[position()<3]"; // 取bookstore的前两个book子元素
            var firstTwoBookNodes = GetXmlNodes(xmlDoc,indexExpr4);
            Console.WriteLine("XPath表达式为 /bookstore/book[position()<3],节点数为:" + firstTwoBookNodes.Count);
            Console.WriteLine(GetXmlNodeInfo(firstTwoBookNodes[0]));

            Console.WriteLine();

            // 带属性值过滤条件的XPath表达式
            var fileterExpr = "/bookstore/book[price>35.00]";   // 选取bookstore的所有price属性值大于35.00的book元素
            var bookGt35Nodes = GetXmlNodes(xmlDoc,fileterExpr);
            Console.WriteLine("XPath表达式为 /bookstore/book[price>35.00],节点数为:" + bookGt35Nodes.Count);
            Console.WriteLine(GetXmlNodeInfo(bookGt35Nodes[0]));

            // 通配符
            // @*                匹配任何属性节点
            // node()             匹配任何类型的节点
            // /bookstore/*   选取 bookstore 元素的所有子元素
            // //*                   选取文档的所有元素
            // //title[@*]        选取所有带有属性的 title 元素
            var allTitleWithAttrExpr = "//title[@*]";
            var allTitleWithAttrNodes = GetXmlNodes(xmlDoc,allTitleWithAttrExpr);
            Console.WriteLine("XPath表达式为 title[@*],节点数为:" + allTitleWithAttrNodes.Count);
            Console.WriteLine(GetXmlNodeInfo(allTitleWithAttrNodes[0]));

            Console.WriteLine();

            // |        或
            var titleAndPriceExpr = "//book/title | //book/price";
            var titleAndPriceNodes = GetXmlNodes(xmlDoc,titleAndPriceExpr);
            Console.WriteLine("XPath表达式为 //book/title | //book/price,节点数为:" + titleAndPriceNodes.Count);
            Console.WriteLine(GetXmlNodeInfo(titleAndPriceNodes[0]));

            // text()  选取文本
            var titleTextExpr = "//title/text()";
            var titleTextNodes = GetXmlNodes(xmlDoc,titleTextExpr);
            Console.WriteLine("XPath表达式为 //title/text(),节点数为:" + titleTextNodes.Count);
            Console.WriteLine(titleTextNodes[0].Value); // 文本节点的值

            Console.ReadKey();
        }
    }
}

golang使用xpath解析html例子

golang使用xpath解析html例子

今天在找golang下的xpath库,使用libxml2不错。使用示例:

package main

import (
	"fmt"
	"log"
	"net/http"

	"github.com/lestrrat/go-libxml2"
)

type MyResponse struct {
	*http.Response
}

func (response *MyResponse) String() string {
	return fmt.Sprint(response.Response)
}

func request(method string,url string) *MyResponse {
	client := http.Client{}
	request,err := http.NewRequest(method,url,nil)
	request.Header.Set("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:43.0) Gecko/20100101 Firefox/43.0")
	response,err := client.Do(request)

	if err != nil {
		log.Fatal(err)
	}

	my_response := &MyResponse{response}
	return my_response
}

func main() {
	response := request("GET","http://www.duoshoubang.cn")
	if doc,err := libxml2.ParseHTMLReader(response.Body); err != nil {
		log.Fatal(err)

	} else {
		defer doc.Free()
		nodes,err := doc.Find("//div[@]//img/@src")
		fmt.Println(nodes.NodeList()[0].TextContent(),err)
	}
}

html – 如何通过XPath选择第一个元素?

html – 如何通过XPath选择第一个元素?

我有以下 HTML结构

<div>
  <ul>
    <li>
      <figure>
        <a id="one"/>
      </figure>
    </li>
    <li>
      <figure>
        <a id="two"/>
      </figure>
    </li>
  </ul>
</div>

如何使用XPath访问第一个元素?请注意,列表中有多个元素.

解决方法

任何这些XPath表达式都将选择第一个元素:

>(// a)[1]在整个文档中选择第一个a.
>(/ div / ul / li / figure / a)[1]首先选择带有遗产的a.
>(// div [@ class =’carousel’] / ul / li / figure / a)[1]限制遗产.
>(// div [@ class =’carousel’] // a)[1]抽象出一些遗产.

根据实际文档中显示的XML的上下文进行选择,以及是否希望将元素限制为仅限于某些其他元素下的元素.

常见的错误

注意// a [1]实际上选择了多个元素:

<a id="one"/>
<a id="two"/>

因为// a [1]表示选择一个元素作为其父元素的第一个子元素.

您必须使用括号(// a)[1]进行选择

<a id="two"/>

单独作为文档中的第一个a.

今天关于通过XPath解析HTMLhtml内容python用xpath解析的介绍到此结束,谢谢您的阅读,有关c# – 通过XPath和HtmlAgilityPack获取属性的值、c#通过xpath读取xml示例、golang使用xpath解析html例子、html – 如何通过XPath选择第一个元素?等更多相关知识的信息可以在本站进行查询。

本文标签:

上一篇有没有一种快速的方法来在Python中生成字母的字典?(有没有一种快速的方法来在python中生成字母的字典)

下一篇有没有一种方法可以将调试器附加到多线程Python进程上?(调试器编写)