欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

用 Python 爬取電影,這些電影真的很不錯

系統 1613 0

首先要分析一下電影天堂網站的首頁結構。


在這里插入圖片描述

從上面的菜單欄中我們可以看到整個網站資源的總體分類情況。剛剛好我們可以利用到它的這個分類,將每一個分類地址作為爬蟲的起點。

①解析首頁地址 提取分類信息

          
            #解析首頁
def CrawIndexPage(starturl):
    print "正在爬取首頁"
    page = __getpage(starturl)
    if page=="error":
        return
    page = page.decode('gbk', 'ignore')
    tree = etree.HTML(page)
    Nodes = tree.xpath("http://div[@id='menu']//a")
    print "首頁解析出地址",len(Nodes),"條"
    for node in Nodes:
        CrawledURLs = []
        CrawledURLs.append(starturl)
        url=node.xpath("@href")[0]
        if re.match(r'/html/[A-Za-z0-9_/]+/index.html', url):
            if __isexit(host + url,CrawledURLs):
                pass
            else:
                try:
                    catalog = node.xpath("text()")[0].encode("utf-8")
                    newdir = "E:/電影資源/" + catalog
                    os.makedirs(newdir.decode("utf-8"))
                    print "創建分類目錄成功------"+newdir
                    thread = myThread(host + url, newdir,CrawledURLs)
                    thread.start()
                except:
                    pass

          
        

在這個函數中,首先將網頁的源碼下載下來,通過XPath解析出其中的菜單分類信息。并創建相應的文件目錄。有一個需要注意的地方就是編碼問題,但是也是被這個編碼糾纏了好久,通過查看網頁的源代碼,我們可以發現,網頁的編碼采用的是GB2312,這里通過XPath構造Tree對象是需要對文本信息進行解碼操作,將gb2312變成Unicode編碼,這樣DOM樹結構才是正確的,要不然在后面解析的時候就會出現問題。

②解析每個分類的主頁

          
            # 解析分類文件
def CrawListPage(indexurl,filedir,CrawledURLs):
    print "正在解析分類主頁資源"
    print indexurl
    page = __getpage(indexurl)
    if page=="error":
        return
    CrawledURLs.append(indexurl)
    page = page.decode('gbk', 'ignore')
    tree = etree.HTML(page)
    Nodes = tree.xpath("http://div[@class='co_content8']//a")
    for node in Nodes:
        url=node.xpath("@href")[0]
        if re.match(r'/', url):
            # 非分頁地址 可以從中解析出視頻資源地址
            if __isexit(host + url,CrawledURLs):
                pass
            else:
                #文件命名是不能出現以下特殊符號
                filename=node.xpath("text()")[0].encode("utf-8").replace("/"," ")\
                                                                .replace("\\"," ")\
                                                                .replace(":"," ")\
                                                                .replace("*"," ")\
                                                                .replace("?"," ")\
                                                                .replace("\""," ")\
                                                                .replace("<", " ") \
                                                                .replace(">", " ")\
                                                                .replace("|", " ")
                CrawlSourcePage(host + url,filedir,filename,CrawledURLs)
            pass
        else:
            # 分頁地址 從中嵌套再次解析
            print "分頁地址 從中嵌套再次解析",url
            index = indexurl.rfind("/")
            baseurl = indexurl[0:index + 1]
            pageurl = baseurl + url
            if __isexit(pageurl,CrawledURLs):
                pass
            else:
                print "分頁地址 從中嵌套再次解析", pageurl
                CrawListPage(pageurl,filedir,CrawledURLs)
            pass
    pass

          
        

打開每一個分類的首頁會發現都有一個相同的結構(點擊打開示例)首先解析出包含資源URL的節點,然后將名稱和URL提取出來。這一部分有兩個需要注意的地方。一是因為最終想要把資源保存到一個txt文件中,但是在命名時不能出現一些特殊符號,所以需要處理掉。二是一定要對分頁進行處理,網站中的數據都是通過分頁這種形式展示的,所以如何識別并抓取分頁也是很重要的。通過觀察發現,分頁的地址前面沒有“/”,所以只需要通過正則表達式找出分頁地址鏈接,然后嵌套調用即可解決分頁問題。

③解析資源地址保存到文件中

          
            #處理資源頁面 爬取資源地址
def CrawlSourcePage(url,filedir,filename,CrawledURLs):
    print url
    page = __getpage(url)
    if page=="error":
        return
    CrawledURLs.append(url)
    page = page.decode('gbk', 'ignore')
    tree = etree.HTML(page)
    Nodes = tree.xpath("http://div[@align='left']//table//a")
    try:
        source = filedir + "/" + filename + ".txt"
        f = open(source.decode("utf-8"), 'w')
        for node in Nodes:
            sourceurl = node.xpath("text()")[0]
            f.write(sourceurl.encode("utf-8")+"\n")
        f.close()
    except:
        print "!!!!!!!!!!!!!!!!!"

          
        

這段就比較簡單了,將提取出來的內容寫到一個文件中就行了

為了能夠提高程序的運行效率,使用了多線程進行抓取,在這里我是為每一個分類的主頁都開辟了一個線程,這樣極大地加快了爬蟲的效率。想當初,只是用單線程去跑,結果等了一下午最后因為一個異常沒處理到結果一下午都白跑了!!!!心累

          
            class myThread (threading.Thread):   #繼承父類threading.Thread
    def __init__(self, url, newdir,CrawledURLs):
        threading.Thread.__init__(self)
        self.url = url
        self.newdir = newdir
        self.CrawledURLs=CrawledURLs
    def run(self):                   #把要執行的代碼寫到run函數里面 線程在創建后會直接運行run函數
        CrawListPage(self.url, self.newdir,self.CrawledURLs)

          
        

以上只是部分代碼,全部代碼,可以關注本公號,后臺回復【電影爬蟲】,獲取源碼。

最后爬取的結果如下。


在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 亚洲第一成人在线 | 亚欧精品一区二区三区四区 | 亚洲免费人成在线视频观看 | 色欧美片视频在线观看 | 欧美日韩一区二区在线 | 久久夜色精品国产亚洲噜噜 | 日韩在线观看第一页 | 天天射天天干 | 国产精品人妻无码久久久郑州 | 欧美成人精品 | 日韩欧美国产一区二区 | 精品午夜寂寞影院在线观看 | 香港三级日本三级人妇网站 | www.狠狠色| 91成人国产网站在线观看 | 天天操一操 | 久草视频在线播放 | 一国产一级淫片a免费播放口 | 黄色免费在线观看网址 | 成人做爰| 一级三级黄色片 | 久久九九99热这里只有精品 | 激情婷婷小说 | 一本色道久久88综合亚洲精品高清 | 久久只有这里有精品 | 日本阿v视频高清在线 | 欧美精品一区二区三区蜜桃视频 | 一区二区精品在线 | 国产精品单位女同事在线 | 一级做a爰片性色毛片2021 | av中文字幕在线 | 亚洲精品无码成人A片色欲 亚洲欧美日韩激情在线观看 | 黄色激情小视频 | 一级做a爰片性色毛片中国 日本黄色免费片 | 亚洲精品乱码久久久久久按摩观 | 色综合久久伊人 | 久久精品伊人 | www午夜视频 | 第一色在线 | 久久草在线 | 美女久久久久久久久久久 |