当前位置:网站首页>兩萬字零基礎爬蟲requests初階教程,手把手教你爬數據(建議收藏)

兩萬字零基礎爬蟲requests初階教程,手把手教你爬數據(建議收藏)

2021-10-14 05:14:23 川川菜鳥

一、環境與工具

環境:jupyter
如果你沒有安裝該工具和不會使用,請看這一篇文章:pycharm安裝配置與使用詳細教程
可能還會需要這兩篇文章:
1-親測jupyter打不開瀏覽器
2-設置默認打開文件夾
模塊安裝:

!pip install requests

演示一下安裝:
在這裏插入圖片描述
安裝成功:
在這裏插入圖片描述

二、學爬蟲必備知識

如果你python基礎都不會,建議你先看看我寫了幾十萬字的python基礎專欄:python全棧基礎教程
我的基礎專欄包括最基本的基礎,re正則錶達式,畫圖,文件處理,django,mysql操作處理等,如果你基礎都不會,建議你先收藏本篇內容,去學完我寫的基礎,再來看本篇文章。

三、requests體驗

以百度為例子:

import requests  

r = requests.get('https://www.baidu.com/')  
print(type(r))  
print(r.status_code)  
print(type(r.text))  
print(r.text)  
print(r.cookies)

打印結果如下:
在這裏插入圖片描述
得到一個 Response 對象,然後分別輸出了 Response 的類型、狀態碼、響應體的類型、內容以及 Cookies。在這裏僅僅是體驗,如果你看不懂,並沒有關系。

四、get 請求

3.1 基礎講解一

現在以百度為例子:

https://www.baidu.com/

我們用get請求網址,打印txt則獲取到百度頁面源碼:

import requests 
r = requests.get('https://www.baidu.com/') 
print(r.text)

運行:
在這裏插入圖片描述
為什麼我這裏只演示了百度?因為這個不會被反扒,如果被反扒,則會返回為空。大家可以試試別的網址,比如我的博客地址,基本返回為空。不必擔心,後續教大家反扒。

3.3 基礎講解二

我們以CSDN我自己的博客為例:
這裏就直接使用requests模塊的get函數直接來獲取(get和urlopen是相同的),主要是這個更方便:

import requests
u=requests.get('https://mp.csdn.net/console/article')
print(u.status_code)#打印狀態碼
print(u.text)#打印文本
print(u.cookies)#打印cookie

運行:
在這裏插入圖片描述
再舉例子:

import requests
r=requests.post('https://www.csdn.net/?spm=1011.2124.3001.5359')
s=requests.put('https://www.csdn.net/?spm=1011.2124.3001.5359')
print(r.status_code)
print(r.text)
print(s.status_code)
print(s.text)

運行:
在這裏插入圖片描述
雖然請求失敗但不影響,主要是介紹下用requests模塊的話,可以很簡單的方式請求,比如說put,post,delete這些之間換一下就換了一個請求方法。這裏請求失敗因為我們被反扒了。

3.2 基礎講解三

首先,構建一個最簡單的 GET 請求,請求的鏈接為 http://httpbin.org/get,該網站會判斷如果客戶端發起的是 GET 請求的話,它返回相應的請求信息.
代碼:

import requests  
r = requests.get('http://httpbin.org/get')
print(r.text)

運行:
在這裏插入圖片描述
可以發現,我們成功發起了 GET 請求,返回結果中包含請求頭、URL、IP 等信息。
那麼,對於 GET 請求,如果要附加額外的信息,一般怎樣添加呢?比如現在想添加兩個參數,其中 name 是 germey,age 是 22。要構造這個請求鏈接,是不是要直接寫成:

r = requests.get('http://httpbin.org/get?name=germey&age=22')

這同樣很簡單,利用 params 這個參數就好了,示例如下:

import requests  

data = {
      
    'name': 'germey',  
    'age': 22  
}  
r = requests.get("http://httpbin.org/get", params=data)  
print(r.text)

運行:
在這裏插入圖片描述
通過返回信息我們可以判斷,請求的鏈接自動被構造成了:http://httpbin.org/get?age=22&name=germey
另外,網頁的返回類型實際上是 str 類型,但是它很特殊,是 JSON 格式的。所以,如果想直接解析返回結果,得到一個字典格式的話,可以直接調用 json 方法。示例如下:

import requests  

r = requests.get("http://httpbin.org/get")  
print(type(r.text))  
print(r.json())  
print(type(r.json()))

運行:
在這裏插入圖片描述
可以發現,調用 json 方法,就可以將返回結果是 JSON 格式的字符串轉化為字典。

3.4 獲取cookie

import requests
headers={
    
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'
}#請求頭
url='https://www.csdn.net/?spm=1011.2124.3001.5359'
r=requests.get(url=url,headers=headers)
print(r.cookies)#直接打印

運行:
在這裏插入圖片描述

3.5 獲取請求頭

手動獲取:
點擊右鍵,選擇檢查,再選擇network,刷新一下,隨機選其中一個內容,如下:
在這裏插入圖片描述
複制出來就行。

3.6 添加請求頭

我們也可以通過 headers 參數來傳遞頭信息。比如,在下面我們的面 “知乎” 的例子中,如果不傳遞 headers,就不能正常請求,請求結果為403:

import requests

r = requests.get("https://www.zhihu.com/explore")
print(r.text)

運行:
在這裏插入圖片描述
但如果加上 headers 並加上 User-Agent 信息,那就沒問題了:

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}
r = requests.get("https://www.zhihu.com/explore", headers=headers)
print(r.text)

運行:
在這裏插入圖片描述
可以看到加請求頭成功了。
為什麼加請求頭?可以模擬正常瀏覽器,防止被反扒。

3.5 知乎爬取+反扒技術

先獲取cookies:

import requests
headers={
    
    'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11'
}
url='http://www.zhihu.com'
r=requests.get(url=url,headers=headers)
print(r.cookies)

運行:
在這裏插入圖片描述

或者登錄知乎,找到cookie:
在這裏插入圖片描述
用這裏的cookie來獲取網頁:

import requests
headers={
    
    'Cookie':'_zap=f4cf1039-988d-4506-86b0-4a66e741c6b1; d_c0="AGDcaFGHGRKPTutiDmNxGnxfi7VhsfQ0wI8=|1603730839"; _xsrf=01xnSvUI1MkWP715R02yeXnThs2EHIXu; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1610911317,1611507538,1611565882,1611566000; SESSIONID=EQPbneOhTXEKEWzoKhctFGCvXtNsbB6hgyaptDJMHfy; JOID=UFoUAUOmDkyYr9xFaaZkkCC9KVZ441wf8Mu5CQL4VgrQ4IE_BWQiVfil30VgxKKpzSBYFUbBpzXzd2z2Km1WeDs=; osd=WloUBkysDkyfoNZFaaFrmiC9Llly41wY_8G5CQX3XArQ5441BWQlWvKl30JvzqKpyi9SFUbGqD_zd2v5IG1WfzQ=; Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49=1611673785; capsion_ticket="2|1:0|10:1611673806|14:capsion_ticket|44:N2ExMGExOTQ3YWIwNGE1YzliMTc1Mzk0ZmEwMjAyYTE=|5aecaa59c17c237af06b47a7b1402eb5b996139c8a6e1d15490899fab3c17108"; KLBRSID=031b5396d5ab406499e2ac6fe1bb1a43|1611673848|1611672766; z_c0="2|1:0|10:1611673849|4:z_c0|92:Mi4xUkFJd0lnQUFBQUFBWU54b1VZY1pFaVlBQUFCZ0FsVk4tWDc5WUFCQmZYWFB4ZkM5Z3l6ZlRNSENUUHVhR0lmYy1B|6d89241fc554ad378bce7f27715f2a4cc63cf87028c2da1e4104423b99ee14ee"; unlock_ticket="APBUrbfKXhImAAAAYAJVTQE4EGCaxoSZiXGfIktWFZReL6J3wOaKOQ=="',
    'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
    'host':'www.zhihu.com',
}
url='http://www.zhihu.com'
r=requests.get(url=url,headers=headers)
print(r.text)

運行:
在這裏插入圖片描述

返回結果有知乎裏的相關內容,這樣就是成功登錄知乎了
再提一點session,它可以實現同一個站點進去不同頁面:

import requests
s=requests.Session()
s.get('http://httpbin.org/cookies/set/number/147258369')
r=s.get('http://httpbin.org/cookies')
print(r.text)

運行:
在這裏插入圖片描述

3.6 抓取二進制數據

如果想抓取圖片、音頻、視頻等文件,應該怎麼辦呢?
圖片、音頻、視頻這些文件本質上都是由二進制碼組成的,由於有特定的保存格式和對應的解析方式,我們才可以看到這些形形色色的多媒體。所以,想要抓取它們,就要拿到它們的二進制碼。

3.6.1 示例一

下面以 GitHub 的站點圖標為例來看一下:

import requests

r = requests.get("https://github.com/favicon.ico")
print(r.text)
print(r.content)

這裏打印了 Response 對象的兩個屬性,一個是 text,另一個是 content。輸出如下:
在這裏插入圖片描述
可以注意到,前者出現了亂碼,後者結果前帶有一個 b,這代錶是 bytes 類型的數據。由於圖片是二進制數據,所以前者在打印時轉化為 str 類型,也就是圖片直接轉化為字符串,這理所當然會出現亂碼。
接著,我們將剛才提取到的圖片保存下來:

import requests

r = requests.get("https://github.com/favicon.ico")
with open('favicon.ico', 'wb') as f:
    f.write(r.content)

運行即可保存。

3.6.2 示例二

以爬取我自己的頭像為例子:
在這裏插入圖片描述

import requests
headers={
    
    'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
}
url='https://avatar.csdnimg.cn/9/1/6/1_weixin_46211269_1629324723.jpg'
r = requests.get(url=url,headers=headers)
with open('phpto.jpg', 'wb') as f:
    f.write(r.content)

運行即可保存。

3.7 美女私房照爬取( 准備發車)

第一部分:定義要爬取的標簽和正在爬取的頁數

def UserUrl(theme,pagenum):
    url = "https://tuchong.com/rest/tags/%(theme)s/posts?page=%(pagenum)s&count=20&order=weekly" % {
    'theme': urllib.parse.quote(theme), 'pagenum': pagenum}
    #print(url)
    return url

第二部分:防止反扒

def GetHtmltext(url):
    head = {
    
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"
    }
    try:
        r = requests.get(url, headers=head, timeout=30)
        r.raise_for_status()  #如果返回的狀態碼不是200,就到except中
        return r
    except:
        pass

第三部分:定義獲取一個pagenum頁面中的所有圖集的URL鏈接的函數

def PictureFatherUrl(user_url):
    try:
        raw_data = GetHtmltext(user_url)
        j_raw_data = json.loads(raw_data.text)   #將獲取的網頁轉化為Python數據結構
        # print(j_raw_data)
        father_url = []                    #將每個圖集的url定義為father_url的一個列錶
        for i in j_raw_data['postList']:   #解析出的j_raw_data是一個多重字典,在這裏先將postList字典的內容取出來
            father_url.append(i['url'])     #然後再取出鍵為“url”的值
        return father_url
    except:
        return

第四部分:定義獲取一個圖集中所有圖片的url鏈接

def PictureUrl(url):
    try:
        html = GetHtmltext(url)
        #利用正則錶達式來匹配
        url_list = list(re.findall('<img id="image\d+" class="multi-photo-image" src="([a-zA-z]+://[^\s]*)" alt="">', html.text))
        return url_list
    except:

第五部分:

#定義一個圖集中所有圖片的下載
def Download(url):
    url_list = PictureUrl(url)
    for i in url_list:
        r = GetHtmltext(i)
        file_name = os.path.join(save_path, i.split('/')[-1])
        with open(file_name, 'wb') as f:
            f.write(r.content)
            f.close()
        time.sleep(random.uniform(0.3, 0.5))  #為防止被反爬,在這裏random了0.3-0.5的數,然後在下載一張圖片後,sleep一下
        print('下載成功保存至 %s' % file_name)

主函數:

if __name__ == '__main__':
    theme = input("你選擇的標簽(如果你不知道有什麼標簽,去https://tuchong.com/explore/去看看有什麼標簽吧,輸入不存在的標簽無法下載哦):")
    pagenum_all = int(input("你要爬取的頁數(不要太貪心哦,數字太大會被封IP的):"))
    save_path = os.path.join(theme)
    m = 0
    if not os.path.exists(save_path):
        os.makedirs(save_path)
        print("我知道你沒有創建保存路徑,我把文件存在和此脚本同樣的路徑下的叫做“ %s ”的文件夾下面了" % theme)
    for i in range(1, pagenum_all+1):
        n = 0
        m += 1
        print("正在下載第%d頁,一共%d頁" % (m, pagenum_all))
        user_url = UserUrl(theme, i)
        father_url = PictureFatherUrl(user_url)
        for j in father_url:
            n += 1
            print("正在下載第%d套圖,一共%d套圖" % (n, len(father_url)))
            Download(j)
            time.sleep(random.randint(6, 10))  #同樣為了反爬,也random了6-10之間的數,更真實的模擬人的操作

完整源代碼:

#coding=gbk
"""
作者:川川
時間:2021/10/11
"""
#study group:428335755

import os
import re
import json
import requests
import time
import urllib.parse
import random


#定義要爬取的標簽和正在爬取的頁數
def UserUrl(theme,pagenum):
    url = "https://tuchong.com/rest/tags/%(theme)s/posts?page=%(pagenum)s&count=20&order=weekly" % {
    'theme': urllib.parse.quote(theme), 'pagenum': pagenum}
    #print(url)
    return url

#利用requests使用get方法請求url,使用User-Agent是為了防止被反爬,這樣使得我們的爬取行為更像人的行為
def GetHtmltext(url):
    head = {
    
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"
    }
    try:
        r = requests.get(url, headers=head, timeout=30)
        r.raise_for_status()  #如果返回的狀態碼不是200,就到except中
        return r
    except:
        pass

#定義獲取一個pagenum頁面中的所有圖集的URL鏈接的函數
def PictureFatherUrl(user_url):
    try:
        raw_data = GetHtmltext(user_url)
        j_raw_data = json.loads(raw_data.text)   #將獲取的網頁轉化為Python數據結構
        # print(j_raw_data)
        father_url = []                    #將每個圖集的url定義為father_url的一個列錶
        for i in j_raw_data['postList']:   #解析出的j_raw_data是一個多重字典,在這裏先將postList字典的內容取出來
            father_url.append(i['url'])     #然後再取出鍵為“url”的值
        return father_url
    except:
        return

#定義獲取一個圖集中所有圖片的url鏈接
def PictureUrl(url):
    try:
        html = GetHtmltext(url)
        #利用正則錶達式來匹配
        url_list = list(re.findall('<img id="image\d+" class="multi-photo-image" src="([a-zA-z]+://[^\s]*)" alt="">', html.text))
        return url_list
    except:
        pass

#定義一個圖集中所有圖片的下載
def Download(url):
    url_list = PictureUrl(url)
    for i in url_list:
        r = GetHtmltext(i)
        file_name = os.path.join(save_path, i.split('/')[-1])
        with open(file_name, 'wb') as f:
            f.write(r.content)
            f.close()
        time.sleep(random.uniform(0.3, 0.5))  #為防止被反爬,在這裏random了0.3-0.5的數,然後在下載一張圖片後,sleep一下
        print('下載成功保存至 %s' % file_name)

#定義主函數
if __name__ == '__main__':
    theme = input("你選擇的標簽(如果你不知道有什麼標簽,去https://tuchong.com/explore/去看看有什麼標簽吧,輸入不存在的標簽無法下載哦):")
    pagenum_all = int(input("你要爬取的頁數(不要太貪心哦,數字太大會被封IP的):"))
    save_path = os.path.join(theme)
    m = 0
    if not os.path.exists(save_path):
        os.makedirs(save_path)
        print("我知道你沒有創建保存路徑,我把文件存在和此脚本同樣的路徑下的叫做“ %s ”的文件夾下面了" % theme)
    for i in range(1, pagenum_all+1):
        n = 0
        m += 1
        print("正在下載第%d頁,一共%d頁" % (m, pagenum_all))
        user_url = UserUrl(theme, i)
        father_url = PictureFatherUrl(user_url)
        for j in father_url:
            n += 1
            print("正在下載第%d套圖,一共%d套圖" % (n, len(father_url)))
            Download(j)
            time.sleep(random.randint(6, 10))  #同樣為了反爬,也random了6-10之間的數,更真實的模擬人的操作

運行:按照提示輸入回車
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

當然,難道我的心只有小姐姐私房照?NONONO!你只要輸入該網任意一個標簽的都可給下載下來,比如模特?你可以測試一下。
在這裏插入圖片描述

四、 POST 請求

前面我們了解了最基本的 GET 請求,另外一種比較常見的請求方式是 POST。

4.1 數據錶單提交

使用 requests 實現 POST 請求同樣非常簡單,示例如下:

import requests

data = {
    'name': 'germey', 'age': '22'}
r = requests.post("http://httpbin.org/post", data=data)
print(r.text)

這裏還是請求 http://httpbin.org/post,該網站可以判斷如果請求是 POST 方式,就把相關請求信息返回。
運行結果如下:
在這裏插入圖片描述
可以發現,我們成功獲得了返回結果,其中 form 部分就是提交的數據,這就證明 POST 請求成功發送了。

4.2 添加請求頭

代碼如下:

import requests
import json
 
host = "http://httpbin.org/"
endpoint = "post"
 
url = ''.join([host,endpoint])
headers = {
    "User-Agent":"test request headers"}
 

r = requests.post(url,headers=headers)
print(r.text)

運行:
在這裏插入圖片描述
可以看到User-Agent部分為我們添加的自定義請求頭。

4.3 提交json

假設我想提交json格式的內容:

# -*- coding:utf-8 -*-
import requests
import json
 
host = "http://httpbin.org/"
endpoint = "post"
 
url = ''.join([host,endpoint])
data = {
    
    "sites": [
                {
     "name":"test" , "url":"https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343" },
                {
     "name":"google" , "url":"https://blog.csdn.net/weixin_46211269/article/details/120703631?spm=1001.2014.3001.5501" },
                {
     "name":"weibo" , "url":"https://blog.csdn.net/weixin_46211269/article/details/120659923?spm=1001.2014.3001.5501" }
    ]
}
 
r = requests.post(url,json=data)
# r = requests.post(url,data=json.dumps(data))
response = r.json()
print(response)

運行如下:
在這裏插入圖片描述

4.4 普通文件上傳

代碼:

# -*- coding:utf-8 -*-
import requests
import json
 
host = "http://httpbin.org/"
endpoint = "post"
 
url = ''.join([host,endpoint])
#普通上傳
files = {
    
            'file':open('test.txt','rb')
        }
 
r = requests.post(url,files=files)
print (r.text)

不要忘了自己定義一個test.txt文件
在這裏插入圖片描述
內容為:川川帥哥,保存即可。
在這裏插入圖片描述
選中重命名:
在這裏插入圖片描述
在這裏插入圖片描述
運行如下:
在這裏插入圖片描述

五、總結

看一下最終的文件夾:
在這裏插入圖片描述

本篇為requests基礎篇,如果本篇內容大家支持多,我盡快出高級篇。有的人要問我為啥不教urlib?個人倒是覺得這個有點被淘汰了,所以我就不講了,大家覺得有必要講urlib可以留言,我看人數要不要補充。

加入私人粉絲群 可通過搜索下方 公眾號 發送關鍵詞: 進群

版权声明
本文为[川川菜鳥]所创,转载请带上原文链接,感谢
https://chowdera.com/2021/10/20211014050550611y.html

随机推荐