影雀丨个人博客站点

Python3 网络爬虫网页采集分析

发布时间丨2023-02-25 16:39:22作者丨zhaomeng浏览丨0

基于浏览器分析网页是一种常见的网络爬虫方法，主要通过浏览器的开发者工具对页面进行解析和分析。其优点在于可以直接查看页面元素和JavaScript代码执行结果，并且很难被反爬虫技术检测到。

以下是使用 Chrome 浏览器开发者工具进行网页分析的步骤：

打开 Chrome 浏览器，在地址栏输入目标页面的 URL。
按下“F12”键或右键点击页面，选择“检查”，进入开发者工具界面。
在开发者工具的 Elements 标签中，可以查看页面的 HTML 结构，同时修改和删除任意元素来观察页面效果。
在 Console 标签中，通过 JavaScript 运行代码来获取页面数据、操作页面等。
在 Network 标签中，可以查看页面的所有资源请求和响应数据，包括 HTML、图片、CSS、JavaScript 等，方便分析页面加载过程。
在 Sources 标签中，可以查看页面的所有 JavaScript 代码，并设置断点、单步调试等方式进行代码分析。

值得注意的是，基于浏览器分析网页时需要注意遵守相关法律法规和网站的规定，不要进行未经许可的爬虫操作，以免触犯法律并造成不必要的损失。除非有明确的数据获取需求，否则请尊重网站的合法权益。

随着互联网的飞速发展，越来越多的数据埋藏在浩瀚的网络世界里。想要获取这些数据，并从中汲取价值，便需要使用网络爬虫（Web Crawler）技术了。本文将介绍如何使用 Python3 编写网络爬虫程序，并对采集到的数据进行基础的数据分析。

HTTP 协议与 HTML

HTTP（Hypertext Transfer Protocol）是一种用于传输web上的超文本（HyperText）数据的协议。HTTP 基于“请求-响应”模型，客户端向服务器发送一个请求，服务器在收到请求后给出一个响应。

HTML（HyperText Markup Language）是一种用于创建网站页面的标记语言。浏览器可以解释HTML文件并将其渲染成可视化的网站页面。

爬虫框架及其实现

常见的 Python 爬虫框架有 Scrapy 和 Beautifulsoup。Scrapy 是一个全功能的 Python 爬虫框架，它集成了数据抓取、数据处理和存储功能；Beautifulsoup 则是一个解析 HTML 和 XML 文件的 Python 库，它能够解析 HTML 文件，找到目标内容并获取其中所需的信息。

下面以 Beautifulsoup 为例介绍如何编写网络爬虫程序。

2.1 安装 Beautifulsoup 库

在 Python3 中安装 Beautifulsoup 库的命令如下：

pip install beautifulsoup4

2.2 发送 HTTP 请求

在 Python3 中，请求 HTTP 页面可调用 requests 库。下面是一个发送 HTTP GET 请求并获取响应内容的例子：

import requests
url = 'https://www.example.com'
html = requests.get(url=url).text
print(html)

2.3 解析 HTML 页面

我们在获取页面后需要对其进行解析才能找到相应的数据。BeautifulSoup提供了解析HTML页面的API。

下面是使用 BeautifulSoup 解析 HTML 页面的一个例子：

from bs4 import BeautifulSoup

# 假设已经获取 HTML 内容并存储在变量 html_txt 中
soup = BeautifulSoup(html_txt, 'html.parser')

# 找到所有的链接标签 a, 并打印出来
for link in soup.find_all('a'):
    print(link.get('href'))

2.4 获取网站数据并分析

有了上述知识之后，我们就可以开始编写爬虫程序了。下面是一个简单的爬取豆瓣电影Top250电影名字与评分，并输出到屏幕的示例代码。

import requests
from bs4 import BeautifulSoup

def scrape(url):
    headers = {
        'User-Agent':
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    movies = []

    for tag in soup.find_all('div', attrs={'class': 'hd'}):
        movie_title = tag.a.span.text.strip()
        rating = tag.parent.find(
            'span', attrs={'class': 'rating_num'}).text.strip()
        movie = {'title': movie_title, 'rating': rating}
        movies.append(movie)

    return movies

if __name__ == '__main__':
    url_list = [
        f'https://movie.douban.com/top250?start={i*25}' for i in range(10)
    ]
    data = []
    for url in url_list:
        print(f'scraping {url} ...')
        data.extend(scrape(url))
    for d in data:
        print(d['title'], d['rating'])

我们使用 requests 库获取豆瓣电影 top 250 总共十个页面，并以每页显示25部电影的方式分别爬取了所有电影的名称和评分。最后，将数据输出到屏幕上。

在实际应用中，请务必遵守网站的爬虫协议，不要过分频繁或暴力地访问同一个网站。