python簡單爬蟲

系統 2019-09-27 17:47:12 2134 0

          import re
          

          from urllib.request import urlopen
          

          

          def getPage(url):
          

              response = urlopen(url)
          

              return response.read().decode('utf-8')
          

          

          def parsePage(s):
          

              ret = re.findall(
          

                  '
          
            .*?
            
              .*?
              
                (?P
                
                  \d+).*?
                  
                    (?P
                  
                  '
                  

                         '.*?
                  
                    (?P
                    
                      .*?)
                    
                  
                  .*?
                  
                    (?P
                    
                      .*?)評價
                    
                  
                  ',s,re.S)
                  

                      return ret
                  

                  

                  def main(num):
                  

                      url = 'https://movie.douban.com/top250?start=%s&filter=' % num
                  

                      response_html = getPage(url)
                  

                      ret = parsePage(response_html)
                  

                      print(ret)
                  

                  

                  count = 0
                  

                  for i in range(10):   # 10頁
                  

                      main(count)
                  

                      count += 25
                  

                  

                  # url從網頁上把代碼搞下來
                  

                  # bytes decode ——> utf-8 網頁內容就是我的待匹配字符串
                  

                  # ret = re.findall(正則，帶匹配的字符串)  #ret是所有匹配到的內容組成的列表

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義

發表我的評論

最新評論總共0條評論