欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

使用Python程序抓取新浪在國內(nèi)的所有IP的教程

系統(tǒng) 1721 0

數(shù)據(jù)分析,特別是網(wǎng)站分析中需要對(duì)訪問者的IP進(jìn)行分析,分析IP中主要是區(qū)分來訪者的省份+城市+行政區(qū)數(shù)據(jù),考慮到目前純真IP數(shù)據(jù)庫并沒有把這些數(shù)據(jù)做很好的區(qū)分,于是尋找了另外一個(gè)可行的方案(當(dāng)然不是花錢買哈)。解決方案就是抓取新浪的IP數(shù)據(jù)。

新浪的IP數(shù)據(jù)接口為:
?
http://int.dpool.sina.com.cn/iplookup/iplookup.php?format=json&ip=123.124.2.85

返回的數(shù)據(jù)為:
?

復(fù)制代碼 代碼如下:

{"ret":1,"start":"123.123.221.0","end":"123.124.158.29","country":"\u4e2d\u56fd","province":"\u5317\u4eac","city":"\u5317\u4eac","district":"","isp":"\u8054\u901a","type":"","desc":""}

其返回的內(nèi)容中已經(jīng)包含了省份+城市+行政區(qū)信息了,這就是我們真實(shí)想要的。

下面就來說說如何來抓取這部分IP數(shù)據(jù),要抓取這部分?jǐn)?shù)據(jù)的主要工作就是枚舉,即將接口中的IP不斷的替換,要替換所有的IP地址肯定不太可能,所以我們縮小下范圍,只窮舉所有中國的IP段。考慮到新浪的IP接口返回的是IP段,所以要窮舉的部分又少了一部分。再考慮啊到IP段的最后一位及256個(gè)IP基本上都是在一個(gè)地區(qū),所以我們要窮舉的數(shù)據(jù)有少了很多。對(duì)于窮舉最重要的是把IP地址換成INT型。

具體國內(nèi)有多少IP地址段,可以到APNIC官方網(wǎng)站去查找或下面的文檔

http://ftp.apnic.net/apnic/dbase/data/country-ipv4.lst

下面就來看看窮舉程序如何寫:

?

            
import re

 
def ipv3_to_int(s):
  l = [int(i) for i in s.split('.')]
  return (l[0] << 16) | (l[1] << 8) | l[2]

 
def int_to_ipv3(s):
  ip1 = s >> 16 & 0xFF
  ip2 = s >> 8 & 0xFF
  ip3 = s & 0xFF
  return "%d.%d.%d" % (ip1, ip2, ip3)

 
i = open('ChinaIPAddress.csv', 'r')
list = i.readlines()
for iplist in list:
  pattern = re.compile('(\d{1,3}\.\d{1,3}\.\d{1,3})\.\d{1,3}')
  ips = pattern.findall(iplist)
  x = ips[0]
  y = ips[1]
  for ip in range (ipv3_to_int(x),ipv3_to_int(y)):
    ipadress=str(ip)
    #ip_address = int_to_ipv3(ip)
    o = open('ChinaIPAddress.txt','a')
    o.writelines(ipadress)
    o.writelines('\n')
  o.close()
i.close()


          

當(dāng)上面的不走完成后就可以對(duì)新浪IP接口進(jìn)行抓取了,抓取代碼如下:
?

            
#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib,urllib2, simplejson, sqlite3, time

 
def ipv3_to_int(s):
  l = [int(i) for i in s.split('.')]
  return (l[0] << 16) | (l[1] << 8) | l[2]

 
def int_to_ipv4(s):
  ip1 = s >> 16 & 0xFF
  ip2 = s >> 8 & 0xFF
  ip3 = s & 0xFF
  return "%d.%d.%d.0" % (ip1, ip2, ip3)

 
def fetch(ipv4, **kwargs):
  kwargs.update({
    'ip': ipv4,
    'format': 'json',
  })
  DATA_BASE = "http://int.dpool.sina.com.cn/iplookup/iplookup.php"
  url = DATA_BASE + '?' + urllib.urlencode(kwargs)
  print url
  fails = 0
  try:
    result = simplejson.load(urllib2.urlopen(url,timeout=20))
  except (urllib2.URLError,IOError):
    fails += 1
    if fails < 10:
      result = fetch(ipv4)
    else:
      sleep_download_time = 60*10
      time.sleep(sleep_download_time)
      result = fetch(ipv4)
  return result

 
def dbcreate():
  c = conn.cursor()
  c.execute('''create table ipdata(
    ip integer primary key,
    ret integer,
    start text,
    end text,
    country text,
    province text,
    city text,
    district text,
    isp text,
    type text,
    desc text
  )''')
  conn.commit()
  c.close()

 
def dbinsert(ip,address):
  c = conn.cursor()
  c.execute('insert into ipdata values(?,?,?,?,?,?,?,?,?,?,?)',(ip,address['ret'],address['start'],address['end'],address['country'],address['province'],address['city'],address['district'],address['isp'],address['type'],address['desc']))
  conn.commit()
  c.close()

 
conn = sqlite3.connect('ipaddress.sqlite3.db')
dbcreate()

 
i = open('ChinaIPAddress.txt','r')
list = [s.strip() for s in i.readlines()]
end = 0
for ip in list:
  ip = int(ip)
  if ip > end :
    ipaddress = int_to_ipv4(ip)
    info = fetch(ipaddress)
    if info['ret'] == -1:
      pass
    else:
      dbinsert(ip,info)
      end = ipv3_to_int(info['end'])
      print ip,end
  else :
    pass
i.close()


          

到此就能把新浪所有的國內(nèi)IP數(shù)據(jù)給抓取出來,然后在數(shù)據(jù)分析的工程中大派用場。~


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 亚洲偷图色综合色就色 | 欧美日韩精品国产一区二区 | 久久久国产精品网站 | 日韩在线视频观看 | 日本瑟瑟| 久久爱伊人| 欧美高清一区二区三区欧美 | 国产AV亚洲精品久久久久 | 亚洲自拍另类 | 亚洲精品久久久久久国产精华液 | 国产精品久久久天天影视香蕉 | 日韩视频在线观看免费视频 | 91精品国模一区二区三区 | 国产亚洲欧洲国产综合一区 | 婷婷视频网站 | 99精品视频在线在线视频观看 | 日本韩国一区二区三区 | 国产99久久精品一区二区永久免费 | www一区 | 九九九九九热 | 欧美一区二区三区国产精品 | 日本一本久道 | 亚洲精品456人成在线 | 中文字幕人成乱码在线观看 | 九九99国产精品视频 | 国产三级一区二区三区 | 超碰97在线人人 | 欧美视频在线观看一区二区 | 国产香蕉免费精品视频 | 欧美精品第一区 | 在线观看日韩中文字幕 | 色聚网久久综合 | 色婷婷久久 | 中文字幕乱码视频32 | 奇米网色 | 久久国产精品-国产精品 | aaa毛片免费观看 | 中文字幕亚洲一区二区三区 | 91久久青青草原免费 | 久久高潮| 欧美日韩精品一区二区在线播放 |