Python爬虫常用库有哪些（20个常用的）？

Post Time: Sep 12, 2024

Update Time: Nov 25, 2024

在Python中，常用的爬虫库有很多，以下是一些最常用的库：

1. requests

用途：用于发送HTTP请求，非常适合进行网页抓取。
特点：简单易用，易于发送GET、POST请求。可以处理Cookie、Headers、认证等。
示例：

python Copy

1import requests
2response = requests.get('https://example.com')
3print(response.text)
4

2. BeautifulSoup

用途：解析HTML或XML，方便从中提取数据。
特点：支持多种解析器，如lxml、html.parser等。可以方便地通过标签名、属性、CSS选择器定位元素。
示例：

python Copy

1from bs4 import BeautifulSoup
2soup = BeautifulSoup(response.text, 'html.parser')
3print(soup.title.text)
4

3. lxml

用途：一个高效的HTML、XML解析库。
特点：解析速度快，支持XPath和XSLT等高级特性。适合处理结构化的XML、HTML文档。
示例：

python Copy

1from lxml import etree
2tree = etree.HTML(response.text)
3title = tree.xpath('//title/text()')
4print(title)
5

4. Selenium

用途：自动化控制浏览器，处理JavaScript生成的动态内容。
特点：模拟用户操作浏览器，适用于动态网页抓取。支持Chrome、Firefox等主流浏览器。
示例：

python Copy

1from selenium import webdriver
2driver = webdriver.Chrome()
3driver.get('https://example.com')
4print(driver.page_source)
5driver.quit()
6

5. Scrapy

用途：一个高效的、功能丰富的爬虫框架。
特点：结构化处理抓取任务，支持异步请求，提高爬取效率。内置许多处理爬虫任务的工具，如中间件、管道等。
示例：

bash Copy

1scrapy startproject myproject
2scrapy crawl myspider
3

6. PyQuery

用途：类似jQuery的API来操作HTML文档。
特点：支持CSS选择器，可以快速提取网页数据。使用起来比BeautifulSoup更加简洁。
示例：

python Copy

1from pyquery import PyQuery as pq
2doc = pq(response.text)
3print(doc('title').text())
4

7. aiohttp

用途：异步HTTP请求库，适合高并发场景。
特点：支持异步编程，可以极大提升爬虫效率。常用于与asyncio结合处理大量并发请求。
示例：

python Copy

1import aiohttp
2import asyncio
3
4async def fetch(url):
5    async with aiohttp.ClientSession() as session:
6        async with session.get(url) as response:
7            return await response.text()
8
9asyncio.run(fetch('https://example.com'))
10

8. XPath

用途：用于查找XML文档中的信息。
特点：通常与lxml结合使用，支持强大的节点查找功能。
示例：

python Copy

1from lxml import etree
2html = etree.HTML(response.text)
3result = html.xpath('//div[@class="example"]/text()')
4

9. Puppeteer（结合Pyppeteer）

用途：控制无头浏览器，与Selenium类似，处理复杂的动态网站。
特点：可以捕获网页截图、生成PDF、处理SPA应用。由于其是异步的，效率较高。
示例：

python Copy

1from pyppeteer import launch
2
3async def main():
4    browser = await launch()
5    page = await browser.newPage()
6    await page.goto('https://example.com')
7    print(await page.content())
8    await browser.close()
9
10asyncio.get_event_loop().run_until_complete(main())
11

10. httpx

用途：用于HTTP请求的库，类似于requests，但支持同步和异步操作。
特点：提供了与requests相似的API，因此迁移简单。支持异步模式，可以与asyncio一起处理高并发任务。
示例：

python Copy

1import httpx
2async with httpx.AsyncClient() as client:
3    r = await client.get('https://example.com')
4    print(r.text)
5

11. Twisted

用途：一个基于事件驱动的网络引擎，适合异步处理网络任务。
特点：强大的异步支持，常用于构建高性能的爬虫和网络服务。与Scrapy紧密集成，可以处理复杂的网络协议。
示例：

python Copy

1from twisted.internet import reactor
2from twisted.web.client import getPage
3
4def print_response(response):
5    print(response)
6    reactor.stop()
7
8d = getPage(b'https://example.com')
9d.addCallback(print_response)
10reactor.run()
11

12. PhantomJS

用途：一个无头浏览器，适合抓取动态网页。
特点：由于它是一个无界面浏览器，因此比Selenium等全功能浏览器更轻量。适合需要渲染JavaScript的网页抓取，但PhantomJS目前已经不再维护，逐渐被Puppeteer替代。
示例：

bash Copy

1phantomjs my_script.js
2

13. Rotatings Proxies & User Agents (代理与用户代理池)

用途：用于防止IP封禁和增加抓取的隐蔽性。
特点：使用多个代理IP地址防止被目标网站封禁。模拟不同的浏览器和设备访问，防止被识别为爬虫。
示例：

python Copy

1import requests
2proxies = {
3    'http': 'http://10.10.1.10:3128',
4    'https': 'http://10.10.1.10:1080',
5}
6headers = {
7    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
8}
9response = requests.get('https://example.com', proxies=proxies, headers=headers)
10

14. ProxyPool

用途：自动获取和维护代理池，帮助爬虫保持稳定运行。
特点：动态获取可用代理IP地址并自动切换。可与Scrapy或requests等结合使用，提高反爬虫能力。
示例：可以使用GitHub上的代理池项目实现自定义的代理池系统。

15. Crawlab

用途：用于管理、调度和监控多个爬虫任务的可视化管理平台。
特点：支持分布式爬虫管理，提供Web界面。可以与Scrapy、Selenium等框架结合使用。
示例：你可以通过Docker快速部署Crawlab并管理多个爬虫：

bash Copy

1docker run -d -p 8080:8080 --name crawlab crawlabteam/crawlab
2

16. Splash

用途：一个可编程的浏览器渲染引擎，专门用于渲染JavaScript页面，特别适合与Scrapy结合使用。
特点：支持渲染JavaScript，抓取动态网页。可以通过Lua脚本控制浏览器行为。示例：

bash Copy

1docker run -p 8050:8050 scrapinghub/splash
2

然后可以在Scrapy中集成Splash：

python Copy

1import scrapy
2from scrapy_splash import SplashRequest
3
4class MySpider(scrapy.Spider):
5    def start_requests(self):
6        yield SplashRequest(url='https://example.com', callback=self.parse)
7

17. Tesseract OCR

用途：用于从图像中提取文字，通常与爬虫一起用于处理包含图片验证码的网站。
特点：开源的光学字符识别（OCR）引擎。支持多语言文字识别，但对复杂图片验证码效果有限。
示例：

python Copy

1from PIL import Image
2import pytesseract
3
4img = Image.open('captcha.png')
5text = pytesseract.image_to_string(img)
6print(text)
7

18. Anti-captcha (Captcha破解服务)

用途：用于自动破解网页上的验证码。
特点：提供API接口来解析复杂的图片或点击验证码。需要付费，但能解决许多复杂的验证码问题。
示例：可以使用第三方平台如2Captcha或Anti-captcha提供的API与Python爬虫结合。

19. Faker

用途：生成虚假数据，如随机姓名、地址、IP、邮箱等，帮助模拟真实用户行为。
特点：可以生成各种类型的随机数据，提高爬虫隐蔽性。
示例：

python Copy

1from faker import Faker
2fake = Faker()
3print(fake.name())
4print(fake.address())
5print(fake.email())
6

20. Pyppeteer

用途：是Puppeteer的Python版本，可以自动化控制无头Chrome/Chromium。
特点：可以处理JavaScript渲染的页面。支持自动提交表单、滚动页面等操作。
示例：

python Copy

1import asyncio
2from pyppeteer import launch
3
4async def main():
5    browser = await launch(headless=True)
6    page = await browser.newPage()
7    await page.goto('https://example.com')
8    print(await page.content())
9    await browser.close()
10
11asyncio.get_event_loop().run_until_complete(main())
12