通过XPath解析HTML（html内容python用xpath解析）

25-01-24 26

在这篇文章中，我们将为您详细介绍通过XPath解析HTML的内容，并且讨论关于html内容python用xpath解析的相关问题。此外，我们还会涉及一些关于c#–通过XPath和HtmlAgility

在这篇文章中，我们将为您详细介绍通过XPath解析HTML的内容，并且讨论关于html内容python用xpath解析的相关问题。此外，我们还会涉及一些关于c# – 通过XPath和HtmlAgilityPack获取属性的值、c#通过xpath读取xml示例、golang使用xpath解析html例子、html – 如何通过XPath选择第一个元素？的知识，以帮助您更全面地了解这个主题。

本文目录一览：

通过XPath解析HTML（html内容python用xpath解析）
c# – 通过XPath和HtmlAgilityPack获取属性的值
c#通过xpath读取xml示例
golang使用xpath解析html例子
html – 如何通过XPath选择第一个元素？

通过XPath解析HTML（html内容python用xpath解析）

在.Net中，我发现了一个很棒的库HtmlAgilityPack，它使您可以使用XPath轻松解析格式不正确的HTML。我已经在.Net站点中使用了几年，但是我不得不为我的Python，Ruby和其他项目选择更痛苦的库。有人知道其他语言的类似库吗？

c# – 通过XPath和HtmlAgilityPack获取属性的值

我有一个 HTML文档,我用XPath解析它.我想要获取一个元素输入的值,但它没有工作.

我的Html：

<tbody>
  <tr>
    <td>
      <input type="text" name="item" value="10743" readonly="readonly" size="10"/>
    </td>
  </tr>
</tbody>

我的代码：

using HtmlAgilityPack;

HtmlAgilityPack.HtmlDocument doc; 
HtmlWeb hw = new HtmlWeb();
HtmlNodeCollection node = doc.DocumentNode.SelectNodes("//input/@value");
string s=node[0].InnerText;

所以我想得到这个值：“10743”(而且我不介意用另一个标签来回答)

解决方法

你可以得到它.Attributes集合：

var doc = new HtmlAgilityPack.HtmlDocument();
doc.Load("file.html");
var node = doc.DocumentNode.SelectNodes("//input") [0];
var val = node.Attributes["value"].Value; //10743

c#通过xpath读取xml示例

需要修改Main方法第一行代码的路径为你的books.xml文件绝对路径或相对路径。代码演示了XPath各种语法的使用情况

books.xml

复制代码代码如下:

<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>

<book category="COOKING">
    <title lang="en">Everyday Italian</title>
    <author>Giada De Laurentiis</author>
    <year>2005</year>
    <price>30.00</price>
</book>

<book category="CHILDREN">
    <title lang="en">Harry Potter</title>
    <author>J K. Rowling</author>
    <year>2005</year>
    <price>29.99</price>
</book>

<book category="WEB">
    <title lang="en">XQuery Kick Start</title>
    <author>James McGovern</author>
    <author>Per Bothner</author>
    <author>Kurt Cagle</author>
    <author>James Linn</author>
    <author>Vaidyanathan Nagarajan</author>
    <year>2003</year>
    <price>49.99</price>
</book>

<book category="WEB">
    <title lang="en">Learning XML</title>
    <author>Erik T. Ray</author>
    <year>2003</year>
    <price>39.95</price>
</book>

</bookstore>

主程序

复制代码代码如下:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Xml;

namespace XmlProcesstest
{
    public class Program
    {
        /// <summary>
        /// 加载XML文件
        /// </summary>
        /// <param name="xmlFilePath">XML文件路径</param>
        /// <returns></returns>
        public static XmlDocument LoadXmlDoc(string xmlFilePath)
        {
            var xmlDoc = new XmlDocument();
            xmlDoc.Load(xmlFilePath);

return xmlDoc;
}

        /// <summary>
        /// 根据指定的XPath表达式获取XML结点列表
        /// </summary>
        /// <param name="xmlDoc"></param>
        /// <param name="xpathExpr"></param>
        /// <returns></returns>
        public static XmlNodeList GetXmlNodes(XmlDocument xmlDoc,string xpathExpr)
        {
            if (xmlDoc == null)
                return null;

return xmlDoc.SelectNodes(xpathExpr);
}

        public static string GetXmlNodeInfo(XmlNode node,string type="xml")
        {
            if (node == null)
                return "Empty node or error node";

            string xmlNodeInfo = null;
            switch (type)
            {
                case "text":
                    xmlNodeInfo = node.InnerText;
                    break;
                default:
                    xmlNodeInfo = node.InnerXml;
                    break;
            }

return xmlNodeInfo;
}

        public static void Main(string[] args)
        {
            var xmlDoc = LoadXmlDoc(@"你的books.xml文件路径");

            var rootExpr = "/bookstore";   // 根节点对应的XPath表达式
            var rootNode = GetXmlNodes(xmlDoc,rootExpr);   //
            Console.WriteLine("XPath表达式为 /bookstore，根节点bookstore的所有子节点XML内容如下：");
            Console.WriteLine(GetXmlNodeInfo(rootNode[0]));

Console.WriteLine();

            var allBooksExpr = "/bookstore/book"; // 根节点bookstore的子元素的所有子节点
            var bookNodes = GetXmlNodes(xmlDoc,allBooksExpr);
            Console.WriteLine("XPath表达式为 bookstore/book，book节点共有：" + bookNodes.Count);

Console.WriteLine();

            var anyBookExpr = "//book"; // 选取所有book子元素，而不管它们在文档中的位置
            var anyBookNodes = GetXmlNodes(xmlDoc,anyBookExpr);
            Console.WriteLine("XPath表达式为 //book，book节点共有：" + anyBookNodes.Count);
            Console.WriteLine(anyBookNodes[0].InnerXml);
            Console.WriteLine(anyBookNodes[0].OuterXml);

Console.WriteLine();

            var categoryExpr = "//@category";   // 选取名为category的所有属性
            var allCategoryNodes = GetXmlNodes(xmlDoc,categoryExpr);
            Console.WriteLine("XPath表达式为 //@category，category节点共有：" + allCategoryNodes.Count);
            Console.WriteLine(allCategoryNodes[0].InnerText);
            Console.WriteLine(allCategoryNodes[0].InnerXml);

Console.WriteLine();

            var titleWithLangExpr = "//title[@lang]";   // 选取所有带有lang属性的title节点
            var titleWithLangNodes = GetXmlNodes(xmlDoc,titleWithLangExpr);
            Console.WriteLine("XPath表达式为 //title[@lang]，带lang属性的title节点共有：" + titleWithLangNodes.Count);
            Console.WriteLine(GetXmlNodeInfo(titleWithLangNodes[0]));

            var englishTitleExpr = "//title[@lang='en']";   // 选取所有lang属性值为en的title节点
            var englishTitleNodes = GetXmlNodes(xmlDoc,englishTitleExpr);
            Console.WriteLine("XPath表达式为 //title[@lang='en']，lang属性值为en的title节点共有：" + englishTitleNodes.Count);
            Console.WriteLine(GetXmlNodeInfo(englishTitleNodes[0]));

Console.WriteLine();

            // 使用索引的XPath查询
            var indexExpr = "/bookstore/book[1]";   // 取bookstore子元素的第一个book元素
            var firstBookNode = GetXmlNodes(xmlDoc,indexExpr);
            Console.WriteLine("XPath表达式为 /bookstore/book[1]，节点数为：" + firstBookNode.Count);
            Console.WriteLine(GetXmlNodeInfo(firstBookNode[0]));

            Console.WriteLine();

            var indexExpr2 = "/bookstore/book[last()]"; // 取bookstore子元素的最后一个book元素
            var lastBookNode = GetXmlNodes(xmlDoc,indexExpr2);
            Console.WriteLine("XPath表达式为 /bookstore/book[last()]，节点数为：" + lastBookNode.Count);
            Console.WriteLine(GetXmlNodeInfo(lastBookNode[0]));

Console.WriteLine();

            var indexExpr3 = "/bookstore/book[last()-1]"; // 取bookstore子元素的倒数第二个book元素
            var nextByLastBookNode = GetXmlNodes(xmlDoc,indexExpr3);
            Console.WriteLine("XPath表达式为 /bookstore/book[last()-1]，节点数为：" + lastBookNode.Count);
            Console.WriteLine(GetXmlNodeInfo(nextByLastBookNode[0]));

Console.WriteLine();

            var indexExpr4 = "/bookstore/book[position()<3]"; // 取bookstore的前两个book子元素
            var firstTwoBookNodes = GetXmlNodes(xmlDoc,indexExpr4);
            Console.WriteLine("XPath表达式为 /bookstore/book[position()<3]，节点数为：" + firstTwoBookNodes.Count);
            Console.WriteLine(GetXmlNodeInfo(firstTwoBookNodes[0]));

Console.WriteLine();

            // 带属性值过滤条件的XPath表达式
            var fileterExpr = "/bookstore/book[price>35.00]";   // 选取bookstore的所有price属性值大于35.00的book元素
            var bookGt35Nodes = GetXmlNodes(xmlDoc,fileterExpr);
            Console.WriteLine("XPath表达式为 /bookstore/book[price>35.00]，节点数为：" + bookGt35Nodes.Count);
            Console.WriteLine(GetXmlNodeInfo(bookGt35Nodes[0]));

            // 通配符
            // @*                匹配任何属性节点
            // node()             匹配任何类型的节点
            // /bookstore/*   选取 bookstore 元素的所有子元素
            // //*                   选取文档的所有元素
            // //title[@*]        选取所有带有属性的 title 元素
            var allTitleWithAttrExpr = "//title[@*]";
            var allTitleWithAttrNodes = GetXmlNodes(xmlDoc,allTitleWithAttrExpr);
            Console.WriteLine("XPath表达式为 title[@*]，节点数为：" + allTitleWithAttrNodes.Count);
            Console.WriteLine(GetXmlNodeInfo(allTitleWithAttrNodes[0]));

Console.WriteLine();

            // |        或
            var titleAndPriceExpr = "//book/title | //book/price";
            var titleAndPriceNodes = GetXmlNodes(xmlDoc,titleAndPriceExpr);
            Console.WriteLine("XPath表达式为 //book/title | //book/price，节点数为：" + titleAndPriceNodes.Count);
            Console.WriteLine(GetXmlNodeInfo(titleAndPriceNodes[0]));

            // text() 选取文本
            var titleTextExpr = "//title/text()";
            var titleTextNodes = GetXmlNodes(xmlDoc,titleTextExpr);
            Console.WriteLine("XPath表达式为 //title/text()，节点数为：" + titleTextNodes.Count);
            Console.WriteLine(titleTextNodes[0].Value); // 文本节点的值

            Console.ReadKey();
        }
    }
}

golang使用xpath解析html例子

今天在找golang下的xpath库，使用libxml2不错。使用示例:

package main

import (
	"fmt"
	"log"
	"net/http"

	"github.com/lestrrat/go-libxml2"
)

type MyResponse struct {
	*http.Response
}

func (response *MyResponse) String() string {
	return fmt.Sprint(response.Response)
}

func request(method string,url string) *MyResponse {
	client := http.Client{}
	request,err := http.NewRequest(method,url,nil)
	request.Header.Set("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:43.0) Gecko/20100101 Firefox/43.0")
	response,err := client.Do(request)

	if err != nil {
		log.Fatal(err)
	}

	my_response := &MyResponse{response}
	return my_response
}

func main() {
	response := request("GET","http://www.duoshoubang.cn")
	if doc,err := libxml2.ParseHTMLReader(response.Body); err != nil {
		log.Fatal(err)

	} else {
		defer doc.Free()
		nodes,err := doc.Find("//div[@]//img/@src")
		fmt.Println(nodes.NodeList()[0].TextContent(),err)
	}
}

html – 如何通过XPath选择第一个元素？

我有以下 HTML结构

<div>
  <ul>
    <li>
      <figure>
        <a id="one"/>
      </figure>
    </li>
    <li>
      <figure>
        <a id="two"/>
      </figure>
    </li>
  </ul>
</div>

如何使用XPath访问第一个元素？请注意,列表中有多个元素.

解决方法

任何这些XPath表达式都将选择第一个元素：

>(// a)[1]在整个文档中选择第一个a.
>(/ div / ul / li / figure / a)[1]首先选择带有遗产的a.
>(// div [@ class =’carousel’] / ul / li / figure / a)[1]限制遗产.
>(// div [@ class =’carousel’] // a)[1]抽象出一些遗产.

根据实际文档中显示的XML的上下文进行选择,以及是否希望将元素限制为仅限于某些其他元素下的元素.

常见的错误

注意// a [1]实际上选择了多个元素：

<a id="one"/>
<a id="two"/>

因为// a [1]表示选择一个元素作为其父元素的第一个子元素.

您必须使用括号(// a)[1]进行选择

<a id="two"/>

单独作为文档中的第一个a.

今天关于通过XPath解析HTML和html内容python用xpath解析的介绍到此结束，谢谢您的阅读，有关c# – 通过XPath和HtmlAgilityPack获取属性的值、c#通过xpath读取xml示例、golang使用xpath解析html例子、html – 如何通过XPath选择第一个元素？等更多相关知识的信息可以在本站进行查询。

本文标签：