影雀丨个人博客站点

网页数据解析及抽取-re正则表达式

发布时间丨2023-02-25 16:32:51作者丨zhaomeng浏览丨0

随着互联网的普及，越来越多的数据被存储在网页上。为了从这些数据中获取有用的信息，需要进行数据解析和抽取。正则表达式是一种强大的工具，可以帮助我们高效、精确地进行网页数据的解析和抽取。

什么是正则表达式？

正则表达式（Regular Expression），又称“正规表示法”、“规则表达式”，用来描述字符串的一种规则。正则表达式通过一些特定的符号和字符组成，表示一种匹配模式，用来处理文本、查询和替换某些字符或者字符序列。常见的符号包括：限定符、元字符、移位字母等。

常见正则表达式符号：

. 匹配除换行符 \n 以外的任意字符
*匹配0次或多次前面字符
+匹配1次或多次前面字符
? 匹配0次或1次前面字符
{n,m} 匹配n到m次前面字符
[] 匹配方括号内出现的任意一个字符
() 捕获匹配的子串，可以用 $n 引用捕获的第 n 个子串

匹配0次或多次前面字符的正则表达式符号是 * 例如：

字符串 'aaaaab'，正则表达式 'a*' 可以匹配 'aaaaa'
字符串 'bcde', 正则表达式 'a*' 可以匹配 '' 注意，* 符号默认使用贪婪模式进行匹配，即匹配到符合条件的最长字符串。如果需要使用非贪婪模式，可以在 * 后加 ? 符号。例如：正则表达式 a*? 可以匹配字符串 'aaaaab' 中的空字符串、'a'、'a'、'a'、'a' 和 'a'。

匹配1次或多次前面字符的正则表达式符号是 +。和 * 符号类似，+ 也默认采用贪婪模式进行匹配，即在匹配到符合条件的最长字符串时停止匹配并返回结果。例如：

字符串 'aaaaab'，正则表达式 'a+' 可以匹配 'aaaaa'
字符串 'bcde', 正则表达式 'a+' 不匹配任何内容。

需要注意的是，如果字符串中不存在符合要求的子串，使用 + 符号将不会匹配任何内容。

如何利用正则表达式解析和抽取网页数据？

获取源代码

利用 Python 的 requests 模块或者 BeautifulSoup 等库，获取网页的 HTML 源码。

import requests

url = "http://www.example.com"
response = requests.get(url)
html = response.text

编写正则表达式

根据需要抽取的内容，编写匹配对应文本所需的正则表达式。

例如：从以下 HTML 代码中抽取所有链接。

<a href="http://www.example.com">link1</a>
<a href="http://www.example.com">link2</a>
<a href="http://www.example.com">link3</a>

相关正则表达式如下：

import re

pattern = '<a.*?href="(.*?)".*?>(.*?)</a>'
links = re.findall(pattern, html)
for link in links:
    print(link[0], link[1])
# 输出 http://www.example.com link1
# 输出 http://www.example.com link2
# 输出 http://www.example.com link3

应用正则表达式

将编写好的正则表达式应用到 HTML 源码上，进行数据解析和抽取。使用 re 模块的 findall 函数可以快速地匹配符合条件的所有文本，并返回一个列表。

除了使用正则表达式之外，还可以使用 Beautiful Soup 这类 HTML 解析器来进行网页数据解析和抽取。 Beautiful Soup 可以自动解析出 HTML 标签和属性，并提供一些常用的方法来操作网页DOM树。

此外，需要注意的是，在进行正则表达式匹配时要注意一些细节，以免出现无法匹配或者误匹配的情况。下面介绍一些应该注意的事项。

贪婪匹配和非贪婪匹配

正则表达式默认采用贪婪匹配（Greedy Matching），即在匹配到符合条件的最长字符串时停止匹配并返回结果。例如：

import re

text = 'abcdef'
pattern = '[bcd]*'
result = re.findall(pattern, text)
print(result)  # 输出 ['bcd']

在这个例子中，如果使用贪婪匹配，完全可以匹配到整个字符串。但正则表达式会尽可能匹配最多的字母，因此只匹配了 'bcd'。

当我们需要对单个匹配进行非贪婪操作时，可以在限定符后面加上 ?。例如：

text = 'abcdef'
pattern = '[bcd]*?'
result = re.findall(pattern, text)
print(result)  # 输出 ['', 'bcd', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']

特殊字符转义

正则表达式中有许多特殊字符需要进行转义，例如 $、^、*、+ 等，否则这些字符会被视为元字符（Metacharacter）。在 Python 的正则表达式中，可以使用反斜杠（\）来进行转义。

text = '2+2=4'
pattern = '2\+2=4'
result = re.findall(pattern, text)
print(result)  # 输出 ['2+2=4']

必须要注意的是，在字符串中也需要使用转义符 \，否则可能出现语法错误。

# 错误示例
text = 'C:\\Users\\Admin'

# 正确示例
text = r'C:\Users\Admin'

Unicode 字符匹配

正则表达式默认只能处理 ASCII 码范围内的字符，如果文本涉及其他编码格式，则需要进行 Unicode 编码处理。在 Python 的正则表达式中，可以使用 \u 和 \x 来匹配 Unicode 字符。

text = r'喜欢你'
pattern = u'[\u4e00-\u9fa5]+|[\U0001f600-\U0001f6ff]+'
result = re.findall(pattern, text)
print(result)  # 输出 ['喜欢你']

以上是一些常见的正则表达式应用问题，针对不同场景还有更多需要注意的细节。在实际应用中应根据具体情况灵活运用正则表达式，并结合其他技术手段，防止出现误差和漏洞。

总结：

正则表达式是一种强大的工具，可以用来高效、精确地解析和抽取网页数据。通过对正则表达式的学习和掌握，在实现数据爬取和处理时能够更加自如地运用。同时需要注意，针对复杂的 HTML 结构，可能需要结合使用多种方法和技术，以获取更加准确和完整的数据信息。