Python异步编程实战：使用asyncio和aiohttp构建高并发爬虫

write_bot

2026-2-14

环境准备

构建高并发爬虫前，需准备Python开发环境。建议使用Python 3.10或更高版本，因为asyncio库在这些版本中提供了更稳定的API支持 [来源#1]。首先，安装必要的依赖包：asyncio是Python标准库的一部分，无需额外安装；aiohttp需要通过pip安装。使用虚拟环境可以避免包冲突。

步骤拆解

构建异步爬虫分为几个关键步骤：首先，理解同步与异步的性能差异；其次，编写同步爬虫作为基准；然后，重构为异步版本；最后，进行性能调优。每个步骤都包含代码示例和验证方法。

同步爬虫基准

首先，我们编写一个简单的同步爬虫，使用requests库（需额外安装）来模拟网络请求。这个爬虫将顺序请求多个URL，用于对比异步版本的性能。安装requests：pip install requests。代码会请求一个测试网站（如http://httpbin.org/get），并记录总耗时。

import requests
import time

urls = ["http://httpbin.org/get"] * 10  # 模拟10个请求

def sync_crawler(urls):
    start_time = time.time()
    for url in urls:
        response = requests.get(url)
        print(f"Status: {response.status_code}")
    end_time = time.time()
    print(f"同步爬虫总耗时: {end_time - start_time:.2f}秒")

if __name__ == "__main__":
    sync_crawler(urls)

预期输出：每个请求的HTTP状态码为200，总耗时通常在3-5秒（取决于网络）[来源#2]。这作为基准，用于后续对比。运行命令：python sync_crawler.py。

异步爬虫实现

接下来，使用asyncio和aiohttp构建异步爬虫。asyncio是Python的异步I/O框架，aiohttp是其HTTP客户端/服务器实现 [来源#1]。安装aiohttp：pip install aiohttp。代码将并发请求多个URL，显著减少等待时间。

import asyncio
import aiohttp
import time

urls = ["http://httpbin.org/get"] * 10

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def async_crawler(urls):
    start_time = time.time()
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(session, url) for url in urls]
        results = await asyncio.gather(*tasks)
        for result in results:
            print(f"Response length: {len(result)}")
    end_time = time.time()
    print(f"异步爬虫总耗时: {end_time - start_time:.2f}秒")

if __name__ == "__main__":
    asyncio.run(async_crawler(urls))

预期输出：每个响应的长度（以字符计）会打印，总耗时通常在0.5-1秒，比同步版本快5-10倍 [来源#2]。运行命令：python async_crawler.py。这验证了异步方案的效率提升。

结果验证

为了验证性能差异，我们运行两个脚本并比较耗时。使用time命令在bash中测量：time python sync_crawler.py 和 time python async_crawler.py。预期同步版本耗时约4秒，异步版本约0.8秒，提升约5倍。此外，可以监控CPU和内存使用：在Linux上使用top命令，异步版本通常占用更少资源，因为I/O等待时间减少 [来源#1]。

同步爬虫：总耗时 ~4秒，CPU使用率低但I/O阻塞导致高等待。
异步爬虫：总耗时 ~0.8秒，CPU使用率稍高但并发处理提升效率。
验证方法：记录日志文件，使用grep检查错误率（应为0）。

常见错误

在异步编程中，常见错误包括事件循环未正确管理、连接池耗尽或未处理异常。首先，确保在asyncio.run()中运行主函数，避免在Jupyter等环境中直接调用 [来源#1]。其次，使用ClientSession时设置连接限制，例如limit=100，以防止资源耗尽 [来源#2]。

错误1：未使用async with管理session，导致连接泄漏。修复：始终使用async with aiohttp.ClientSession()。
错误2：并发数过高导致服务器拒绝。修复：添加semaphore限制并发，例如asyncio.Semaphore(10)。
错误3：忽略异常处理。修复：在fetch函数中添加try-except块，打印错误日志。

异步编程的核心是避免阻塞I/O，通过事件循环实现并发，这在爬虫场景中能将效率提升5-10倍 [来源#1]。

提示
提示：在生产环境中，结合代理和重试机制（如使用aiohttp的retry中间件）可以进一步提升爬虫的鲁棒性。

参考链接

阅读剩余

在浏览本站资源前，请先认真阅读免责声明。
站长邮箱：wnluo@wnluo.com

本站提供的一切软件、教程和内容信息仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络收集整理，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容，请支持正版，购买注册，得到更好的正版服务。我们非常重视版权问题，如有侵权请邮件与我们联系处理。敬请谅解！

THE END

Docker容器化部署实战：从单机到Kubernetes集群的完整流程

<<上一篇

Python asyncio 高性能网络爬虫实战

下一篇>>