requests庫的用法：

requests是python實現的簡單易用的HTTP庫

因為是第三方庫，所以使用前需要cmd安裝

pip ×××tall requests

安裝完成后import一下，正常則說明可以開始使用了

基本用法：

import requests
form bs4 import BeautifulSoup
response = requests.get('http://www.baidu.com')
print(response.status_code) # 打印狀態碼
print(response.url) # 打印請求url
print(response.headers) # 打印頭信息
print(response.cookies) # 打印cookie信息
print(response.text) #以文本形式打印網頁源碼
print(response.content) #以字節流形式打印

#!/usr/bin/env python

encoding=utf-8

from future import print_function
import requests
from bs4 import BeautifulSoup
import pymongo
import json

db = pymongo.MongoClient().iaaf
def spider_iaaf():

url 100 換成longjump的

            
              # url = 'https://www.iaaf.org/records/toplists/sprints/100-metres/outdoor/men/senior/2018?page={}'
url = 'https://www.iaaf.org/records/toplists/jumps/long-jump/outdoor/men/senior/2018?regionType=world&windReading=regular&page={}&bestResultsOnly=true'
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0 Safari/605.1.15', }

for i in range(1,23):
    res = requests.get(url.format(i), headers=headers)
    html = res.text
    print(i)
    soup = BeautifulSoup(html, 'html.parser')
    #tbody_l = soup.find_all('tbody')
    record_table = soup.find_all('table', class_='records-table')
    list_re = record_table[2]
    tr_l = list_re.find_all('tr')
    for i in tr_l:    # 針對每一個tr  也就是一行
        td_l = i.find_all('td')    # td的列表 第三項是 帶href
        # 只要把td_l里面的每一項賦值就好了  組成json數據  {}  插入到mongo
        # 再從mongo里面取href  訪問  得到 生涯數據  再存回這個表
        # 再 把所有數據 存到 excel

        j_data = {}
        try:
            j_data['Rank'] = td_l[0].get_text().strip()
            j_data['Mark'] = td_l[1].get_text().strip()
            j_data['WIND'] = td_l[2].get_text().strip()
            j_data['Competitior'] = td_l[3].get_text().strip()
            j_data['DOB'] = td_l[4].get_text().strip()
            j_data['Nat'] = td_l[5].get_text().strip()
            j_data['Pos'] = td_l[6].get_text().strip()
            j_data['Venue'] = td_l[8].get_text().strip()
            j_data['Date'] = td_l[9].get_text().strip()

            j_data['href'] = td_l[3].find('a')['href']
        except:
            pass
        db.athletes.×××ert_one(j_data)

if name == ' main ':
spider_iaaf()

bs4的用法：
BeautifulSoup，就是一個第三方的庫，使用之前需要安裝

            
              pip ×××tall bs4

配置方法：
（1）cd ~
（2）mkdir .pip
（3）vi ~/.pip/pip.conf
（4）編輯內容和windows的內容一模一樣

bs4是什麼？

            
              它的作用是能夠快速方便簡單的提取網頁中指定的內容，給我一個網頁字符串，然后使用它的接口將網頁字符串生成一個對象，然后通過這個對象的方法來提取數據

bs4語法學習

通過本地文件進行學習，通過網絡進行寫代碼
（1）根據標簽名進行獲取節點
只能找到第一個符合要求的節點
（2）獲取文本內容和屬性
屬性

soup.a.attrs 返回一字典，里面是所有屬性和值
soup.a['href'] 獲取href屬性

文本

soup.a.string
soup.a.text
soup.a.get_text()
【注】當標簽里面還有標簽的時候，string獲取的為None，其他兩個獲取純文本內容

（3）find方法

soup.find('a')
soup.find('a', class_='xxx')
soup.find('a', title='xxx')
soup.find('a', id='xxx')
soup.find('a', id=re.compile(r'xxx'))
【注】find只能找到符合要求的第一個標簽，他返回的是一個對象

（4）find_all

返回一個列表，列表里面是所有的符合要求的對象
soup.find_all('a')
soup.find all('a', class ='wang')
soup.find_all('a', id=re.compile(r'xxx'))
soup.find_all('a', limit=2) 提取出前兩個符合要求的a

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義