黄色网页视频 I 影音先锋日日狠狠久久 I 秋霞午夜毛片 I 秋霞一二三区 I 国产成人片无码视频 I 国产精品自在自线 I av免费观看网站 I 日本精品久久久久中文字幕5 I 91看视频 I 看全色黄大色黄女片18 I 精品不卡一区 I 亚洲最新精品 I 欧美激情在线 I 人妻少妇精品久久 I 国产99视频精品免费专区 I 欧美影院 I 欧美精品在欧美一区二区少妇 I av大片网站 I 国产精品黄色片 I 888久久 I 狠狠干最新 I 看看黄色一级片 I 黄色精品久久 I 三级av在线 I 69色综合 I 国产日韩欧美91 I 亚洲精品偷拍 I 激情小说亚洲图片 I 久久国产视频精品 I 国产综合精品一区二区三区 I 色婷婷国产 I 最新成人av在线 I 国产私拍精品 I 日韩成人影音 I 日日夜夜天天综合

> Python

Python實現從url中提取域名的幾種方法

系統 2019-09-27 17:56:17 2489 0

從url中找到域名,首先想到的是用正則，然后尋找相應的類庫。用正則解析有很多不完備的地方，url中有域名，域名后綴一直在不斷增加等。通過google查到幾種方法，一種是用Python中自帶的模塊和正則相結合來解析域名，另一種是使第三方用寫好的解析模塊直接解析出域名。

要解析的url

復制代碼代碼如下:

          
           urls = ["http://meiwen.me/src/index.html", 
  
           ????????? "http://1000chi.com/game/index.html", 
  
           ????????? "http://see.xidian.edu.cn/cpp/html/1429.html", 
  
           ????????? "https://docs.python.org/2/howto/regex.html", 
  
           ????????? """https://www.google.com.hk/search?client=aff-cs-360chromium&hs=TSj&q=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&oq=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&gs_l=serp.3...74418.86867.0.87673.28.25.2.0.0.0.541.2454.2-6j0j1j1.8.0....0...1c.1j4.53.serp..26.2.547.IuHTj4uoyHg""", 
  
           ????????? "file:///D:/code/echarts-2.0.3/doc/example/tooltip.html", 
  
           ????????? "http://api.mongodb.org/python/current/faq.html#is-pymongo-thread-safe", 
  
           ????????? "https://pypi.python.org/pypi/publicsuffix/", 
  
           ????????? "http://127.0.0.1:8000" 
  
           ????????? ]

使用urlparse+正則的方式

復制代碼代碼如下:

import re
from urlparse import urlparse

topHostPostfix = (
??? '.com','.la','.io','.co','.info','.net','.org','.me','.mobi',
??? '.us','.biz','.xxx','.ca','.co.jp','.com.cn','.net.cn',
??? '.org.cn','.mx','.tv','.ws','.ag','.com.ag','.net.ag',
??? '.org.ag','.am','.asia','.at','.be','.com.br','.net.br',
??? '.bz','.com.bz','.net.bz','.cc','.com.co','.net.co',
??? '.nom.co','.de','.es','.com.es','.nom.es','.org.es',
??? '.eu','.fm','.fr','.gs','.in','.co.in','.firm.in','.gen.in',
??? '.ind.in','.net.in','.org.in','.it','.jobs','.jp','.ms',
??? '.com.mx','.nl','.nu','.co.nz','.net.nz','.org.nz',
??? '.se','.tc','.tk','.tw','.com.tw','.idv.tw','.org.tw',
??? '.hk','.co.uk','.me.uk','.org.uk','.vg', ".com.hk")

regx = r'[^\.]+('+'|'.join([h.replace('.',r'\.') for h in topHostPostfix])+')$'
pattern = re.compile(regx,re.IGNORECASE)

print "--"*40
for url in urls:
??? parts = urlparse(url)
??? host = parts.netloc
??? m = pattern.search(host)
??? res =? m.group() if m else host
??? print "unkonw" if not res else res

運行結果如下:

復制代碼代碼如下:

          
           meiwen.me 
  
           1000chi.com 
  
           see.xidian.edu.cn 
  
           python.org 
  
           google.com.hk 
  
           unkonw 
  
           mongodb.org 
  
           python.org 
  
           127.0.0.1:8000

基本可以接受

urllib來解析域名

復制代碼代碼如下:

import urllib

print "--"*40
for url in urls:
??? proto, rest = urllib.splittype(url)
??? res, rest = urllib.splithost(rest)
??? print "unkonw" if not res else res

運行結果如下：

復制代碼代碼如下:

          
           meiwen.me 
  
           1000chi.com 
  
           see.xidian.edu.cn 
  
           docs.python.org 
  
           www.google.com.hk 
  
           unkonw 
  
           api.mongodb.org 
  
           pypi.python.org 
  
           127.0.0.1:8000

會把www.也帶上，還需要進一步解析才可以

使用第三方模塊 tld

復制代碼代碼如下:

from tld import get_tld

print "--"*40
for url in urls:
??? try:
??????? print? get_tld(url)
??? except Exception as e:
??????? print "unkonw"

運行結果：

復制代碼代碼如下:

          
           meiwen.me 
  
           1000chi.com 
  
           xidian.edu.cn 
  
           python.org 
  
           google.com.hk 
  
           unkonw 
  
           mongodb.org 
  
           python.org 
  
           unkonw

結果都可以接受

其他可以使用的解析模塊：

tld
tldextract
publicsuffix

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義

發表我的評論

最新評論總共0條評論