[問題] 請問抓網頁標籤有哪些推薦的 lib - Gabinius板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文為 nakts0123.bbs. 轉寄自 ptt.cc 更新時間: 2013-06-05 16:19:24

看板 Python

作者 FreedomMax (FreedomKnight)
標題 [問題] 請問抓網頁標籤有哪些推薦的 lib
時間 Thu Jan 10 02:15:05 2013

今天我試著要用 HTMLParser 去抓網頁的標籤
可是我怎麼覺得 HTMLParser 也根本還是土法煉鋼呀?
他頂多是幫忙了拆掉角括弧還有幫我記錄 tag_name tag_attr 之類的

可是好像無法直接抓 tag id 去對照裡面的資料

我今天有用了一會 Beautiful Soup 很不賴，還會幫我做tree
還可以用 find 去找 tag
不過對他們用的結構還是有點不太了解，以為 find 到了還可以找到他的 sub tag
跟 sibling

這種 parser 好像比較好用，所以我查了一下 lxml 好像也可以抓 html
不知道兩者之間如何，還有我是否誤會了 HTMLParser
該不會其實還需要搭配內建的 xml parser?

(還有個小需求， support python3 佳)

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.34.40.224

→ uranusjr:HTMLParser 在比較輕量, 就這樣而已1F 01/10 08:08
→ uranusjr:XML 有一個內建的叫 ElementTree, 不過還是比不上 lxml

推 qrtt1:http://code.google.com/p/soupselect/3F 01/10 09:53

soupselect - CSS selector extension for BeautifulSoup - Google Project Hosting

→ qrtt1:beautiful soup 要再加上 soupselect 就會超好用了4F 01/10 09:54

→ swpoker:我還是覺得當字串比較方便~還是不信任HTML的結構~哈哈5F 01/10 11:33

→ FreedomMax:HTMLParser 比較輕量是指他功能根本也不多嗎?6F 01/10 23:54

推 NolandTA:PyQuery7F 01/11 12:55

→ uranusjr:各方面都很弱（可能除了速度）的意思XD8F 01/11 15:35

推 plover:這題目可大可小...9F 01/12 14:34
推 plover:我會從最弱的lib開始試，接著慢慢加強藥效

推 grtfor:推lxml11F 01/18 14:28

※ 看板: Gabinius　文章推薦值: 0 目前人氣: 0 累積人氣: 55　

回到看板(←)《Gabinius》

→

guest

x)推文 r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享