欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

HtmlParse 用法

系統(tǒng) 2220 0

htmlparser使用指南

?

需要做一個(gè)垂直搜索引擎,比較了nekohtml和htmlparser 的功能,盡管nekohtml在容錯(cuò)性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感覺 nekohtml的測(cè)試用例和文檔都比htmlparser都少,而且htmlparser基本上能夠滿足垂直搜索引擎頁面處理分析的需求,因此先研究一 下htmlparser的使用,有空再研究nekohtml和mozilla html parser的使用。??? html的功能還是官方說得最為清楚,

HTML Parser is a Java library used to parse HTML in either a linear or nested fashion. Primarily used for transformation or extraction, it features filters, visitors, custom tags and easy to use JavaBeans. It is a fast, robust and well tested package.

The two fundamental use-cases that are handled by the parser are extraction and transformation (the syntheses use-case, where HTML pages are created from scratch, is better handled by other tools closer to the source of data). While prior versions concentrated on data extraction from web pages, Version 1.4 of the HTMLParser has substantial improvements in the area of transforming web pages, with simplified tag creation and editing, and verbatim toHtml() method output.

研究的重點(diǎn)還是extraction的使用,有空再研究transformation的使用。

1、htmlparser對(duì)html頁面處理的數(shù)據(jù)結(jié)構(gòu)

如圖所示,HtmlParser采用了經(jīng)典的Composite模式,通過RemarkNode、TextNode、TagNode、 AbstractNode和Tag來描述HTML頁面各元素。

  • org.htmlparser.Node:

Node接口定義了進(jìn)行樹形結(jié)構(gòu)節(jié)點(diǎn)操作的各種典型操作方法,包括:

節(jié)點(diǎn)到html文本、text文本的方法 :toPlainTextString、toHtml

典型樹形結(jié)構(gòu)遍歷的方法 :getParent、getChildren、getFirstChild、 getLastChild、getPreviousSibling、getNextSibling、getText

獲取節(jié)點(diǎn)對(duì)應(yīng)的樹形結(jié)構(gòu)結(jié)構(gòu)的頂級(jí)節(jié)點(diǎn)Page對(duì)象方法 :getPage

獲取節(jié)點(diǎn)起始位置的方法 :getStartPosition、getEndPosition

Visitor方法遍歷節(jié)點(diǎn)時(shí)候方法 :accept (NodeVisitor visitor)

Filter方法 :collectInto (NodeList list, NodeFilter filter)

Object方法 :toString、clone

  • org.htmlparser.nodes.AbstractNode

AbstractNode是形成HTML樹形結(jié)構(gòu)抽象基類,實(shí)現(xiàn)了Node接口。

在htmlparser中,Node分成三類:

RemarkNode :代表Html中的注釋

TagNode :標(biāo)簽節(jié)點(diǎn)。

TextNode :文本節(jié)點(diǎn)

這三類節(jié)點(diǎn)都繼承AbstractNode。

  • org.htmlparser.nodes.TagNode:

TagNode包含了對(duì)HTML處理的核心的各個(gè)類,是所有TAG的基類,其中有分為包含其他TAG的復(fù)合節(jié)點(diǎn)ComositeTag和不包含其他 TAG的葉子節(jié)點(diǎn)Tag。

復(fù)合節(jié)點(diǎn)CompositeTag:

AppletTag,BodyTag,Bullet,BulletList,DefinitionList,DefinitionListBullet,Div,FormTag,FrameSetTag,HeadingTag,

HeadTag,Html,LabelTag,LinkTag,ObjectTag,ParagraphTag,ScriptTag,SelectTag,Span,StyleTag,TableColumn,

TableHeader,TableRow,TableTag,TextareaTag,TitleTag

葉子節(jié)點(diǎn)TAG:

BaseHrefTag,DoctypeTag,FrameTag,ImageTag,InputTag,JspTag,MetaTag,ProcessingInstructionTag,

2、htmlparser對(duì)html頁面處理的算法

主要是如下幾種方式

  • 采用Visitor方式訪問Html

try {
Parser parser = new Parser();
parser.setURL(“ http://www.google.com”);
parser.setEncoding(parser.getEncoding());
NodeVisitor visitor = new NodeVisitor() {
public void visitTag(Tag tag) {
logger.fatal(“testVisitorAll()? Tag name is :”
+ tag.getTagName() + ” \n Class is :”
+ tag.getClass());
}

};

parser.visitAllNodesWith(visitor);
} catch (ParserException e) {
e.printStackTrace();
}

  • 采用Filter方式訪問html

try {

NodeFilter filter = new NodeClassFilter(LinkTag.class);
Parser parser = new Parser();
parser.setURL(“ http://www.google.com”);
parser.setEncoding(parser.getEncoding());
NodeList list = parser.extractAllNodesThatMatch(filter);
for (int i = 0; i < list.size(); i++) {
LinkTag node = (LinkTag) list.elementAt(i);
logger.fatal(“testLinkTag() Link is :” + node.extractLink());
}
} catch (Exception e) {
e.printStackTrace();
}

  • 采用org.htmlparser.beans方式

另外htmlparser 還在org.htmlparser.beans中對(duì)一些常用的方法進(jìn)行了封裝,以簡(jiǎn)化操作,例如:

Parser parser = new Parser();

LinkBean linkBean = new LinkBean();
linkBean.setURL(“ http://www.google.com”);
URL[] urls = linkBean.getLinks();

for (int i = 0; i < urls.length; i++) {
URL url = urls[i];
logger.fatal(“testLinkBean() -url? is :” + url);
}

3、htmlparser關(guān)鍵包結(jié)構(gòu)說明

htmlparser其實(shí)核心代碼并不多,好好研究一下其代碼,彌補(bǔ)文檔不足的問題。同時(shí)htmlparser的代碼注釋和單元測(cè)試用例還是很齊全 的,也有助于了解htmlparser的用法。

3.1、org.htmlparser

定義了htmlparser的一些基礎(chǔ)類。其中最為重要的是Parser類。

Parser是htmlparser的最核心的類,其構(gòu)造函數(shù)提供了如下:Parser.createParser (String html, String charset)、 Parser ()、Parser (Lexer lexer, ParserFeedback fb)、Parser (URLConnection connection, ParserFeedback fb)、Parser (String resource, ParserFeedback feedback)、 Parser (String resource)

各構(gòu)造函數(shù)的具體用法及含義可以查看其代碼,很容易理解。

Parser常用的幾個(gè)方法:

  • ? elements獲取元素

Parser parser = new Parser (“ http://www.google.com”);
for (NodeIterator i = parser.elements (); i.hasMoreElements (); )
processMyNodes (i.nextNode ());

  • parse (NodeFilter filter):通過NodeFilter方式獲取
  • visitAllNodesWith (NodeVisitor visitor):通過Nodevisitor方式
  • extractAllNodesThatMatch (NodeFilter filter):通過NodeFilter方式

3.2、org.htmlparser.beans

對(duì)Visitor和Filter的方法進(jìn)行了封裝,定義了針對(duì)一些常用html元素操作的bean,簡(jiǎn)化對(duì)常用元素的提取操作。

包括:FilterBean、HTMLLinkBean、HTMLTextBean、LinkBean、StringBean、BeanyBaby 等。

3.3、org.htmlparser.nodes

定義了基礎(chǔ)的node,包括:AbstractNode、RemarkNode、TagNode、TextNode等。

3.4、org.htmlparser.tags

定義了htmlparser的各種tag。

3.5、org.htmlparser.filters

定義了htmlparser所提供的各種filter,主要通過extractAllNodesThatMatch (NodeFilter filter)來對(duì)html頁面指定類型的元素進(jìn)行過濾,包括:AndFilter、CssSelectorNodeFilter、 HasAttributeFilter、HasChildFilter、HasParentFilter、HasSiblingFilter、 IsEqualFilter、LinkRegexFilter、LinkStringFilter、NodeClassFilter、 NotFilter、OrFilter、RegexFilter、StringFilter、TagNameFilter、XorFilter

3.6、org.htmlparser.visitors

定義了htmlparser所提供的各種visitor,主要通過visitAllNodesWith (NodeVisitor visitor)來對(duì)html頁面元素進(jìn)行遍歷,包括:HtmlPage、LinkFindingVisitor、NodeVisitor、 ObjectFindingVisitor、StringFindingVisitor、TagFindingVisitor、 TextExtractingVisitor、UrlModifyingVisitor

3.7、org.htmlparser.parserapplications

定義了一些實(shí)用的工具,包括LinkExtractor、SiteCapturer、StringExtractor、WikiCapturer, 這幾個(gè)類也可以作為htmlparser使用樣例。

3.8、org.htmlparser.tests

對(duì)各種功能的單元測(cè)試用例,也可以作為htmlparser使用的樣例。

4、htmlparser的使用樣例

import java.net.URL;

import junit.framework.TestCase;

import org.apache.log4j.Logger;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.Tag;
import org.htmlparser.beans.LinkBean;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.HeadTag;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.InputTag;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.tags.OptionTag;
import org.htmlparser.tags.SelectTag;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.tags.TableRow;
import org.htmlparser.tags.TableTag;
import org.htmlparser.tags.TitleTag;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
import org.htmlparser.visitors.NodeVisitor;
import org.htmlparser.visitors.ObjectFindingVisitor;

public class ParserTestCase extends TestCase {

private static final Logger logger = Logger.getLogger(ParserTestCase.class);

public ParserTestCase(String name) {
super(name);
}
/*
* 測(cè)試ObjectFindVisitor的用法
*/
public void testImageVisitor() {
try {
ImageTag imgLink;
ObjectFindingVisitor visitor = new ObjectFindingVisitor(
ImageTag.class);
Parser parser = new Parser();
parser.setURL(“ http://www.google.com”);
parser.setEncoding(parser.getEncoding());
parser.visitAllNodesWith(visitor);
Node[] nodes = visitor.getTags();
for (int i = 0; i < nodes.length; i++) {
imgLink = (ImageTag) nodes[i];
logger.fatal(“testImageVisitor() ImageURL = ”
+ imgLink.getImageURL());
logger.fatal(“testImageVisitor() ImageLocation = ”
+ imgLink.extractImageLocn());
logger.fatal(“testImageVisitor() SRC = ”
+ imgLink.getAttribute(“SRC”));
}
}
catch (Exception e) {
e.printStackTrace();
}
}
/*
* 測(cè)試TagNameFilter用法
*/
public void testNodeFilter() {
try {
NodeFilter filter = new TagNameFilter(“IMG”);
Parser parser = new Parser();
parser.setURL(“ http://www.google.com”);
parser.setEncoding(parser.getEncoding());
NodeList list = parser.extractAllNodesThatMatch(filter);
for (int i = 0; i < list.size(); i++) {
logger.fatal(“testNodeFilter() ” + list.elementAt(i).toHtml());
}
} catch (Exception e) {
e.printStackTrace();
}

}
/*
* 測(cè)試NodeClassFilter用法
*/
public void testLinkTag() {
try {

NodeFilter filter = new NodeClassFilter(LinkTag.class);
Parser parser = new Parser();
parser.setURL(“ http://www.google.com”);
parser.setEncoding(parser.getEncoding());
NodeList list = parser.extractAllNodesThatMatch(filter);
for (int i = 0; i < list.size(); i++) {
LinkTag node = (LinkTag) list.elementAt(i);
logger.fatal(“testLinkTag() Link is :” + node.extractLink());
}
} catch (Exception e) {
e.printStackTrace();
}

}
/*
* 測(cè)試<link href=” text=’text/css’ rel=’stylesheet’ />用法
*/
public void testLinkCSS() {
try {

Parser parser = new Parser();
parser
.setInputHTML(“<head><title>Link Test</title>”
+ “<link href=’/test01/css.css’ text=’text/css’ rel=’stylesheet’ />”
+ “<link href=’/test02/css.css’ text=’text/css’ rel=’stylesheet’ />”
+ “</head>” + “<body>”);
parser.setEncoding(parser.getEncoding());
NodeList nodeList = null;

for (NodeIterator e = parser.elements(); e.hasMoreNodes();) {
Node node = e.nextNode();
logger
.fatal(“testLinkCSS()” + node.getText()
+ node.getClass());

}
} catch (Exception e) {
e.printStackTrace();
}
}
/*
* 測(cè)試OrFilter的用法
*/
public void testOrFilter() {
NodeFilter inputFilter = new NodeClassFilter(InputTag.class);
NodeFilter selectFilter = new NodeClassFilter(SelectTag.class);
Parser myParser;
NodeList nodeList = null;

try {
Parser parser = new Parser();
parser
.setInputHTML(“<head><title>OrFilter Test</title>”
+ “<link href=’/test01/css.css’ text=’text/css’ rel=’stylesheet’ />”
+ “<link href=’/test02/css.css’ text=’text/css’ rel=’stylesheet’ />”
+ “</head>”
+ “<body>”
+ “<input type=’text’ value=’text1′ name=’text1′/>”
+ “<input type=’text’ value=’text2′ name=’text2′/>”
+ “<select><option id=’1′>1</option><option id=’2′>2</option><option id=’3′></option></select>”
+ “<a href=’ http://www.yeeach.com’ >yeeach.com</a>”
+ “</body>”);

parser.setEncoding(parser.getEncoding());
OrFilter lastFilter = new OrFilter();
lastFilter.setPredicates(new NodeFilter[] { selectFilter,
inputFilter });
nodeList = parser.parse(lastFilter);
for (int i = 0; i <= nodeList.size(); i++) {
if (nodeList.elementAt(i) instanceof InputTag) {
InputTag tag = (InputTag) nodeList.elementAt(i);
logger.fatal(“OrFilter tag name is :” + tag.getTagName()
+ ” ,tag value is:” + tag.getAttribute(“value”));
}
if (nodeList.elementAt(i) instanceof SelectTag) {
SelectTag tag = (SelectTag) nodeList.elementAt(i);
NodeList list = tag.getChildren();

for (int j = 0; j < list.size(); j++) {
OptionTag option = (OptionTag) list.elementAt(j);
logger
.fatal(“OrFilter Option”
+ option.getOptionText());
}

}
}

} catch (ParserException e) {
e.printStackTrace();
}
}
/*
* 測(cè)試對(duì)<table><tr><td></td></tr></table> 的解析
*/
public void testTable() {
Parser myParser;
NodeList nodeList = null;
myParser = Parser.createParser(“<body> ” + “<table id=’table1′ >”
+ “<tr><td>1-11</td><td>1-12</td><td>1-13</td>”
+ “<tr><td>1-21</td><td>1-22</td><td>1-23</td>”
+ “<tr><td>1-31</td><td>1-32</td><td>1-33</td></table>”
+ “<table id=’table2′ >”
+ “<tr><td>2-11</td><td>2-12</td><td>2-13</td>”
+ “<tr><td>2-21</td><td>2-22</td><td>2-23</td>”
+ “<tr><td>2-31</td><td>2-32</td><td>2-33</td></table>”
+ “</body>”, “GBK”);
NodeFilter tableFilter = new NodeClassFilter(TableTag.class);
OrFilter lastFilter = new OrFilter();
lastFilter.setPredicates(new NodeFilter[] { tableFilter });
try {
nodeList = myParser.parse(lastFilter);
for (int i = 0; i <= nodeList.size(); i++) {
if (nodeList.elementAt(i) instanceof TableTag) {
TableTag tag = (TableTag) nodeList.elementAt(i);
TableRow[] rows = tag.getRows();

for (int j = 0; j < rows.length; j++) {
TableRow tr = (TableRow) rows[j];
TableColumn[] td = tr.getColumns();
for (int k = 0; k < td.length; k++) {
logger.fatal(“<td>” + td[k].toPlainTextString());
}

}

}
}

} catch (ParserException e) {
e.printStackTrace();
}
}
/*
* 測(cè)試NodeVisitor的用法,遍歷所有節(jié)點(diǎn)
*/
public void testVisitorAll() {
try {
Parser parser = new Parser();
parser.setURL(“ http://www.google.com”);
parser.setEncoding(parser.getEncoding());
NodeVisitor visitor = new NodeVisitor() {
public void visitTag(Tag tag) {
logger.fatal(“testVisitorAll()? Tag name is :”
+ tag.getTagName() + ” \n Class is :”
+ tag.getClass());
}

};

parser.visitAllNodesWith(visitor);
} catch (ParserException e) {
e.printStackTrace();
}
}
/*
* 測(cè)試對(duì)指定Tag的NodeVisitor的用法
*/
public void testTagVisitor() {
try {

Parser parser = new Parser(
“<head><title>dddd</title>”
+ “<link href=’/test01/css.css’ text=’text/css’ rel=’stylesheet’ />”
+ “<link href=’/test02/css.css’ text=’text/css’ rel=’stylesheet’ />”
+ “</head>” + “<body>”
+ “<a href=’ http://www.yeeach.com’ >yeeach.com</a>”
+ “</body>”);
NodeVisitor visitor = new NodeVisitor() {
public void visitTag(Tag tag) {
if (tag instanceof HeadTag) {
logger.fatal(“visitTag() HeadTag : Tag name is :”
+ tag.getTagName() + ” \n Class is :”
+ tag.getClass() + “\n Text is :”
+ tag.getText());
} else if (tag instanceof TitleTag) {
logger.fatal(“visitTag() TitleTag : Tag name is :”
+ tag.getTagName() + ” \n Class is :”
+ tag.getClass() + “\n Text is :”
+ tag.getText());

} else if (tag instanceof LinkTag) {
logger.fatal(“visitTag() LinkTag : Tag name is :”
+ tag.getTagName() + ” \n Class is :”
+ tag.getClass() + “\n Text is :”
+ tag.getText() + ” \n getAttribute is :”
+ tag.getAttribute(“href”));
} else {
logger.fatal(“visitTag() : Tag name is :”
+ tag.getTagName() + ” \n Class is :”
+ tag.getClass() + “\n Text is :”
+ tag.getText());
}

}

};

parser.visitAllNodesWith(visitor);
} catch (Exception e) {
e.printStackTrace();
}
}
/*
* 測(cè)試HtmlPage的用法
*/
public void testHtmlPage() {
String inputHTML = “<html>” + “<head>”
+ “<title>Welcome to the HTMLParser website</title>”
+ “</head>” + “<body>” + “Welcome to HTMLParser”
+ “<table id=’table1′ >”
+ “<tr><td>1-11</td><td>1-12</td><td>1-13</td>”
+ “<tr><td>1-21</td><td>1-22</td><td>1-23</td>”
+ “<tr><td>1-31</td><td>1-32</td><td>1-33</td></table>”
+ “<table id=’table2′ >”
+ “<tr><td>2-11</td><td>2-12</td><td>2-13</td>”
+ “<tr><td>2-21</td><td>2-22</td><td>2-23</td>”
+ “<tr><td>2-31</td><td>2-32</td><td>2-33</td></table>”
+ “</body>” + “</html>”;
Parser parser = new Parser();
try {
parser.setInputHTML(inputHTML);
parser.setEncoding(parser.getURL());
HtmlPage page = new HtmlPage(parser);
parser.visitAllNodesWith(page);
logger.fatal(“testHtmlPage -title is :” + page.getTitle());
NodeList list = page.getBody();

for (NodeIterator iterator = list.elements(); iterator
.hasMoreNodes();) {
Node node = iterator.nextNode();
logger.fatal(“testHtmlPage -node? is :” + node.toHtml());
}

} catch (ParserException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
/*
* 測(cè)試LinkBean的用法
*/
public void testLinkBean() {
Parser parser = new Parser();

LinkBean linkBean = new LinkBean();
linkBean.setURL(“ http://www.google.com”);
URL[] urls = linkBean.getLinks();

for (int i = 0; i < urls.length; i++) {
URL url = urls[i];
logger.fatal(“testLinkBean() -url? is :” + url);
}

}

}

5、相關(guān)的項(xiàng)目

nekohtml :評(píng)價(jià)比htmlparser好,把html正規(guī)化標(biāo)準(zhǔn)的xml文檔,用xerces處理,但文檔較少。

mozilla htmlparser http://www.dapper.net/ 網(wǎng)站采用的html解析器,開 源了,基于mozilla的解析器,值得研究一下。

http://jerichohtml.sourceforge.net/

http://htmlcleaner.sourceforge.net/

http://html.xamjwg.org/cobra.jsp

http://jrex.mozdev.org/

https://xhtmlrenderer.dev.java.net

其他一些html parser可以參考相關(guān)的匯總文章:

http://www.manageability.org/blog/stuff/screen-scraping-tools-written-in-java/view

http://java-source.net/open-source/html-parsers

http://www.open-open.com/30.htm

6、參考文檔

http://www.blogjava.net/lostfire/archive/2006/07/02/56212.html

http://blog.csdn.net/scud/archive/2005/08/11/451397.aspx

http://chasethedevil.blogspot.com/2006/05/java-html-parsing-example-with.html

http://javaboutique.internet.com/tutorials/HTMLParser/



HtmlParse 用法


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 91短视频在线高清hd | 国产色在线 | 小视频网址 | 91精品国产免费久久 | 夜色成人性y| 一区二区三区四区高清视频 | 国精品日韩欧美一区二区三区 | 美女污污视频在线观看 | 日本不卡在线视频 | 极品尤物一区二区三区 | 久久免费看少妇高潮A片JA小说 | 羞羞哒哒视频 | 亚洲欧美另类视频 | 色综合五月色婷婷开心 | 欧美日韩亚洲高清不卡一区二区三区 | 亚洲成人在线网 | 精一区二区| 日本字幕在线观看 | 成人高清在线视频 | 777久久婷婷成人综合色 | 天天做天天爱夜夜大爽完整 | 综合一区二区三区 | 天天插天天舔 | 成人午夜免费福利视频 | 国产亚洲蜜芽精品久久 | 成人毛片久久 | www国产精品| 欧美另类专区 | 亚洲视频在线视频 | 天天久久狠狠色综合 | 草草视频免费在线观看 | 免费一级毛片在线播放视频 | 亚洲色图国产精品 | 免费99热在线观看 | 日韩在线免费视频 | 久久精品国产清自在天天线 | 成人自拍在线 | 日韩不卡一区 | 激情小说综合 | 久久国产免费看 | 日日干天天摸 |