?
- re.I # 忽略大小寫
- re.M # 多行匹配,將正則作用到源數(shù)據(jù)的每一行
- re.S # 單行匹配,將正則作用到整個源數(shù)據(jù),輸出一個整體字符串(包括換行符也打印)
string =
'''
fall in love with you
i love you very much
i love she
i love her
'''
#
去除以i開頭的每一行數(shù)據(jù)
re.findall(
'
^i.*
'
,string,re.M)
['i love you very much', 'i love she', 'i love her']
#
匹配全部行
string1 =
"""
細(xì)思極恐
你的隊友在看書
你的敵人在磨刀
你的閨蜜在減肥
隔壁老王在練腰
"""
re.findall(
'
.*
'
,string1,re.S)
['細(xì)思極恐\n你的隊友在看書\n你的敵人在磨刀\n你的閨蜜在減肥\n隔壁老王在練腰\n', '']
爬取糗事百科中所有的圖片進(jìn)行保存
import
requests
import
re
import
urllib
import
os
url
=
'
https://www.qiushibaike.com/pic/page/%d/?s=5170552
'
# 自定義請求頭信息
headers
=
{
'
User-Agent
'
:
'
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36
'
}
# 判斷是否存在名為qiutu的文件夾,如果不存在則創(chuàng)建文件夾
if
not
os.path.exists(
'
./qiutu
'
):
os.mkdir(
'
./qiutu
'
)
# 手動輸入開始頁,結(jié)束頁
start_page
= int(input(
'
start>>>
'
))
end_page
= int(input(
'
end>>>
'
))
for
page
in
range(start_page,end_page+1
):
# 按照每頁url形式拼接指定url
new_url
= format(url%
page)
# 發(fā)起請求
page_text
= requests.get(url=new_url,headers=
headers).text
# 使用正則找出page_text頁面中所有圖片url
img_url_list
= re.findall(
'
.*?
'
,page_text,re.S)
# 給每一個圖片url添加https協(xié)議頭
for
img_url
in
img_url_list:
img_url
=
'
https:
'
+
img_url
# 將圖片url切割去除圖片名稱,作為存儲時圖片的名稱
img_name
= img_url.split(
'
/
'
)[-1
]
img_path
=
'
qiutu/
'
+
img_name、
# 對圖片做持久化存儲
urllib.request.urlretrieve(url
=img_url,filename=
img_path)
print
(img_path,
'
下載成功
'
)
print
(
'
over
'
)
?
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061
微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元

