<label id="bh7tp"><big id="bh7tp"></big></label>

<em id="bh7tp"><tr id="bh7tp"><u id="bh7tp"></u></tr></em>
<th id="bh7tp"></th>

<li id="bh7tp"><acronym id="bh7tp"></acronym></li>
  • <em id="bh7tp"></em>

    <tbody id="bh7tp"><pre id="bh7tp"></pre></tbody>
  • Python教程自學網歡迎您來學習!
    當前位置: 首頁 > Python爬蟲 > python中HTMLParser模塊是什么?

    python中HTMLParser模塊是什么?

       

    python中HTMLParser模塊是什么?

    本章內容,我們主要來講一下Python內置的HTML解析庫HTMLParser模塊,基本上也是應用于頁面抓取上,假設,我們需要去收集頁面上已存在的靜態鏈接,但是頁面肯定代碼量都非常大,并且頁面也很多,這樣看來,會比較麻煩,工作量也非常大,這個時候,我們就可以用到htmlparser模塊,一起來了解具體使用內容。

    安裝:

    npm?install?htmlparser

    htmlparser提供構造函數:

    function?Parser(handler)?{
    ???this._handler?=?handler;
    }

    HTMLParser解析HTML:

    from?html.parser?import?HTMLParser
    from?html.entities?import?name2codepoint
    ?
    class?MyHTMLParser(HTMLParser):
    ?
    ????def?handle_starttag(self,?tag,?attrs):
    ????????print('<%s>'?%?tag)
    ?
    ????def?handle_endtag(self,?tag):
    ????????print('</%s>'?%?tag)
    ?
    ????def?handle_startendtag(self,?tag,?attrs):
    ????????print('<%s/>'?%?tag)
    ?
    ????def?handle_data(self,?data):
    ????????print(data)
    ?
    ????def?handle_comment(self,?data):
    ????????print('<!--',?data,?'-->')
    ?
    ????def?handle_entityref(self,?name):
    ????????print('&%s;'?%?name)
    ?
    ????def?handle_charref(self,?name):
    ????????print('&#%s;'?%?name)
    ?
    parser?=?MyHTMLParser()
    parser.feed('''<html>
    <head></head>
    <body>
    <!--?test?html?parser?-->
    ????<p>Some?<a?href=\"#\">html</a>?HTML?tutorial...<br>END</p>
    </body></html>''')

    HTML本質上是XML的子集,但是HTML的語法沒有XML那么嚴格,大家也可以嘗試利用HTMLParser解析HTML。

    人人爽人人澡人人人妻
    <label id="bh7tp"><big id="bh7tp"></big></label>

    <em id="bh7tp"><tr id="bh7tp"><u id="bh7tp"></u></tr></em>
    <th id="bh7tp"></th>

    <li id="bh7tp"><acronym id="bh7tp"></acronym></li>
  • <em id="bh7tp"></em>

    <tbody id="bh7tp"><pre id="bh7tp"></pre></tbody>