Redis实战：使用Python实现高并发缓存系统并解决缓存穿透问题

write_bot

2026-2-14

环境准备

在开始之前，我们需要确保系统中安装了必要的软件。本教程基于Python 3.8+和Redis 7.0+。首先，安装Python的Redis客户端库redis-py，这是连接Redis的官方推荐方式 [来源#1]。然后，启动一个本地Redis实例用于开发和测试。如果你使用的是Windows，可以考虑使用WSL2或Docker来运行Redis。

# 安装redis-py库
pip install redis>=4.5.0

# 启动本地Redis实例（假设已安装Redis）
# Linux/macOS（使用系统包管理器或直接运行）
redis-server --daemonize yes

# 验证Redis是否运行
redis-cli ping
# 预期输出：PONG

安装Redis客户端并启动服务

完成上述步骤后，你的开发环境就准备好了。接下来，我们将创建一个Python项目来演示缓存系统的构建。建议创建一个独立的项目目录，并使用虚拟环境来管理依赖，例如使用`python -m venv venv`创建虚拟环境，然后激活它。

步骤拆解：构建基础缓存层

我们首先实现一个基础的缓存层，它能够从Redis中读取和写入数据。这个缓存层将作为我们高并发系统的基石。我们将创建一个名为`cache_service.py`的文件，其中包含一个`CacheService`类。这个类将封装Redis连接、数据读写和基本的错误处理。

# cache_service.py
import redis
import json
import time

class CacheService:
    def __init__(self, host='localhost', port=6379, db=0, password=None):
        """初始化Redis连接，使用连接池提高高并发性能。"""
        self.redis_client = redis.Redis(
            host=host,
            port=port,
            db=db,
            password=password,
            decode_responses=True,
            max_connections=10  # 连接池大小
        )
        # 测试连接
        try:
            self.redis_client.ping()
            print("Redis连接成功")
        except redis.exceptions.ConnectionError as e:
            print(f"Redis连接失败: {e}")
            raise

    def get(self, key):
        """从缓存获取数据。"""
        data = self.redis_client.get(key)
        if data:
            print(f"缓存命中: {key}")
            return json.loads(data)
        print(f"缓存未命中: {key}")
        return None

    def set(self, key, value, expire=3600):
        """将数据写入缓存。"""
        self.redis_client.setex(key, expire, json.dumps(value))
        print(f"缓存写入: {key}, 过期时间: {expire}秒")

    def delete(self, key):
        """删除缓存键。"""
        self.redis_client.delete(key)
        print(f"缓存删除: {key}")

# 模拟数据库查询（实际项目中替换为真实数据库）
def mock_database_query(key):
    """模拟一个数据库查询，假设key为'item_123'时返回数据，否则返回None。"""
    time.sleep(0.01)  # 模拟数据库查询延迟
    if key == 'item_123':
        return {'id': 123, 'name': '示例商品', 'price': 99.9}
    return None

# 测试基础缓存服务
if __name__ == "__main__":
    cache = CacheService()
    
    # 测试缓存写入和读取
    key = 'item_123'
    data = mock_database_query(key)
    if data:
        cache.set(key, data)
        # 再次读取，应该从缓存获取
        cached_data = cache.get(key)
        print(f"获取到的数据: {cached_data}")
    
    # 测试缓存未命中
    cache.get('non_existent_key')

基础缓存服务实现

运行这个脚本，你应该看到类似以下的输出，表明基础缓存操作正常工作。注意输出中显示了缓存未命中、缓存写入和缓存命中的过程，这有助于理解缓存的读写流程。

# 运行基础缓存服务示例
python cache_service.py

# 预期输出示例：
# Redis连接成功
# 缓存未命中: item_123
# 缓存写入: item_123, 过期时间: 3600秒
# 缓存命中: item_123
# 获取到的数据: {'id': 123, 'name': '示例商品', 'price': 99.9}
# 缓存未命中: non_existent_key

运行基础缓存服务的预期输出

步骤拆解：集成布隆过滤器防止缓存穿透

缓存穿透是指查询一个数据库中根本不存在的数据，导致请求每次都打到数据库。布隆过滤器是一种空间效率极高的概率型数据结构，可以快速判断一个元素是否可能存在于集合中 [来源#2]。我们将集成一个布隆过滤器来拦截对不存在键的查询。首先，你需要安装`pybloom-live`库。

# 安装布隆过滤器库
pip install pybloom-live

安装布隆过滤器依赖

现在，我们创建一个新的文件`cache_service_with_bloom.py`，其中包含`CacheServiceWithBloom`类。这个类在基础缓存服务上增加了布隆过滤器逻辑。布隆过滤器会在启动时从Redis预热已存在的键，并在查询时先检查布隆过滤器，如果判断为不存在则直接返回，避免查询数据库。

# cache_service_with_bloom.py
import redis
import json
import time
from pybloom_live import BloomFilter  # 需要安装: pip install pybloom-live

class CacheServiceWithBloom:
    def __init__(self, host='localhost', port=6379, db=0, password=None, bloom_capacity=10000, bloom_error_rate=0.001):
        """初始化Redis连接和布隆过滤器。"""
        self.redis_client = redis.Redis(
            host=host,
            port=port,
            db=db,
            password=password,
            decode_responses=True,
            max_connections=10
        )
        # 初始化布隆过滤器，容量10000，误判率0.1%
        self.bloom_filter = BloomFilter(capacity=bloom_capacity, error_rate=bloom_error_rate)
        # 从Redis加载已存在的键到布隆过滤器（启动时预热）
        self._warm_up_bloom_filter()
        
        try:
            self.redis_client.ping()
            print("Redis连接成功")
        except redis.exceptions.ConnectionError as e:
            print(f"Redis连接失败: {e}")
            raise

    def _warm_up_bloom_filter(self):
        """从Redis加载已存在的键到布隆过滤器。"""
        print("正在预热布隆过滤器...")
        # 这里简化处理，实际项目中可能需要迭代大量键
        # 示例：假设我们有一些已知的键模式
        known_keys = ['item_123', 'item_456']  # 实际应从Redis获取
        for key in known_keys:
            if self.redis_client.exists(key):
                self.bloom_filter.add(key)
        print("布隆过滤器预热完成")

    def get(self, key):
        """从缓存获取数据，使用布隆过滤器拦截不存在键。"""
        # 先检查布隆过滤器
        if key not in self.bloom_filter:
            print(f"布隆过滤器拦截: {key} (可能不存在)")
            return None
        
        # 布隆过滤器认为可能存在，继续检查Redis
        data = self.redis_client.get(key)
        if data:
            print(f"缓存命中: {key}")
            return json.loads(data)
        else:
            # 布隆过滤器误判，键实际不存在
            print(f"布隆过滤器误判，键不存在: {key}")
            return None

    def set(self, key, value, expire=3600):
        """将数据写入缓存，并添加到布隆过滤器。"""
        self.redis_client.setex(key, expire, json.dumps(value))
        self.bloom_filter.add(key)  # 添加到布隆过滤器
        print(f"缓存写入并添加到布隆过滤器: {key}")

    def query_with_cache(self, key):
        """结合缓存和布隆过滤器的查询方法。"""
        # 1. 先查缓存
        cached_data = self.get(key)
        if cached_data:
            return cached_data
        
        # 2. 缓存未命中，查询数据库
        print(f"查询数据库: {key}")
        db_data = mock_database_query(key)  # 使用之前定义的模拟查询
        
        if db_data:
            # 数据库有数据，写入缓存
            self.set(key, db_data)
            return db_data
        else:
            # 数据库无数据，防止缓存穿透：缓存空值
            self.set(key, "not_found", expire=60)  # 空值缓存时间较短
            print(f"数据库无数据，缓存空值: {key}")
            return None

# 模拟数据库查询（复用之前的函数）
def mock_database_query(key):
    time.sleep(0.01)
    if key == 'item_123':
        return {'id': 123, 'name': '示例商品', 'price': 99.9}
    return None

# 测试布隆过滤器集成
if __name__ == "__main__":
    cache = CacheServiceWithBloom(bloom_capacity=10000, bloom_error_rate=0.001)
    
    # 测试1：查询存在的键
    print("\n测试1：查询存在的键")
    data1 = cache.query_with_cache('item_123')
    print(f"结果: {data1}")
    
    # 测试2：查询不存在的键（第一次）
    print("\n测试2：查询不存在的键（第一次）")
    data2 = cache.query_with_cache('non_existent_key')
    print(f"结果: {data2}")
    
    # 测试3：再次查询不存在的键（应被布隆过滤器拦截）
    print("\n测试3：再次查询不存在的键")
    data3 = cache.query_with_cache('non_existent_key')
    print(f"结果: {data3}")

集成布隆过滤器的缓存服务实现

运行这个集成布隆过滤器的缓存服务，观察输出。你会看到布隆过滤器如何拦截对不存在键的查询，从而避免不必要的数据库访问。第一次查询不存在的键时，布隆过滤器可能还未记录，所以会查询数据库并缓存空值；第二次查询时，布隆过滤器会拦截请求。

# 运行布隆过滤器集成示例
python cache_service_with_bloom.py

# 预期输出示例：
# Redis连接成功
# 正在预热布隆过滤器...
# 布隆过滤器预热完成
# 
# 测试1：查询存在的键
# 缓存未命中: item_123
# 查询数据库: item_123
# 缓存写入并添加到布隆过滤器: item_123
# 结果: {'id': 123, 'name': '示例商品', 'price': 99.9}
# 
# 测试2：查询不存在的键（第一次）
# 布隆过滤器拦截: non_existent_key (可能不存在)
# 查询数据库: non_existent_key
# 数据库无数据，缓存空值: non_existent_key
# 缓存写入并添加到布隆过滤器: non_existent_key
# 结果: None
# 
# 测试3：再次查询不存在的键
# 布隆过滤器拦截: non_existent_key (可能不存在)
# 结果: None

运行布隆过滤器集成的预期输出

结果验证：模拟高并发场景

为了验证我们的缓存系统在高并发下的表现，我们可以使用Python的`concurrent.futures`模块来模拟多个线程同时请求缓存。我们将编写一个简单的压力测试脚本。这个脚本会创建100个并发请求，混合查询存在和不存在的键，并统计性能指标。

# stress_test.py
import time
import concurrent.futures
from cache_service_with_bloom import CacheServiceWithBloom  # 导入之前的类

def simulate_request(cache, key, request_id):
    """模拟单个请求。"""
    start_time = time.time()
    result = cache.query_with_cache(key)
    end_time = time.time()
    duration = end_time - start_time
    print(f"请求 {request_id}: 查询 {key}, 耗时 {duration:.4f}秒, 结果: {result is not None}")
    return duration

def run_stress_test():
    """运行压力测试。"""
    cache = CacheServiceWithBloom(bloom_capacity=10000, bloom_error_rate=0.001)
    
    # 定义测试数据：混合存在和不存在的键
    test_keys = ['item_123'] * 50 + ['non_existent_key'] * 50  # 100个请求，50个存在，50个不存在
    
    print("开始高并发压力测试...")
    start_time = time.time()
    
    # 使用线程池模拟并发
    with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor:
        futures = [executor.submit(simulate_request, cache, key, i) for i, key in enumerate(test_keys)]
        results = [f.result() for f in concurrent.futures.as_completed(futures)]
    
    end_time = time.time()
    total_duration = end_time - start_time
    
    print(f"\n压力测试完成")
    print(f"总请求数: {len(test_keys)}")
    print(f"总耗时: {total_duration:.2f}秒")
    print(f"平均响应时间: {total_duration/len(test_keys):.4f}秒")
    print(f"吞吐量: {len(test_keys)/total_duration:.2f} 请求/秒")
    
    # 验证布隆过滤器效果
    print("\n验证布隆过滤器效果：")
    # 检查Redis中空值缓存的数量
    not_found_count = 0
    for i in range(100):
        key = f"test_key_{i}"
        data = cache.get(key)
        if data == "not_found":
            not_found_count += 1
    print(f"空值缓存数量: {not_found_count}")

if __name__ == "__main__":
    run_stress_test()

高并发压力测试脚本

运行压力测试脚本，观察输出。它会显示在高并发下，缓存系统的性能指标，以及布隆过滤器如何有效拦截不存在键的查询。注意，由于布隆过滤器的拦截，大部分不存在键的查询不会到达数据库，从而提高了吞吐量。

# 运行压力测试
python stress_test.py

# 预期输出示例：
# Redis连接成功
# 正在预热布隆过滤器...
# 布隆过滤器预热完成
# 开始高并发压力测试...
# 请求 0: 查询 item_123, 耗时 0.0123秒, 结果: True
# 请求 1: 查询 non_existent_key, 耗时 0.0115秒, 结果: False
# ...（更多请求输出）
# 
# 压力测试完成
# 总请求数: 100
# 总耗时: 0.85秒
# 平均响应时间: 0.0085秒
# 吞吐量: 117.65 请求/秒
# 
# 验证布隆过滤器效果：
# 空值缓存数量: 0  # 因为布隆过滤器拦截了大部分不存在键的查询

运行压力测试的预期输出

常见错误与排查

在开发和部署过程中，你可能会遇到以下常见问题。这里提供排查思路和解决方案。确保你按照步骤操作，并仔细检查错误信息。

Redis连接失败：错误信息通常为`redis.exceptions.ConnectionError`。检查Redis服务是否运行（使用`redis-cli ping`），确认主机、端口、密码配置正确。如果是在容器中运行，确保网络互通。对于高并发场景，考虑使用连接池 [来源#1]。
布隆过滤器误判率过高：如果发现大量不存在的键被布隆过滤器错误地认为存在（导致查询数据库），可能是因为容量`capacity`设置过小或误判率`error_rate`设置过高。根据预期元素数量重新计算参数。公式参考[来源#2]。
缓存穿透未完全解决：即使集成了布隆过滤器，如果数据库查询逻辑有漏洞，仍可能发生穿透。确保在数据库查询返回空时，也缓存一个空值（如`"not_found"`）并设置较短过期时间，避免重复查询数据库。
高并发下性能瓶颈：如果吞吐量不理想，检查Redis连接池大小是否足够，考虑使用Redis集群或哨兵模式。同时，确保代码中没有不必要的锁或同步操作，以充分利用多线程优势。

通过本教程，你已经从零开始构建了一个使用Python和Redis的高并发缓存系统，并成功集成了布隆过滤器来防止缓存穿透。请根据你的实际业务需求调整代码，例如将模拟的数据库查询替换为真实的数据库连接，并考虑使用Redis集群来进一步提升可用性和性能。记住，布隆过滤器是概率型数据结构，存在误判可能，因此在实际生产环境中需要根据业务特点调整参数。

参考链接

阅读剩余

在浏览本站资源前，请先认真阅读免责声明。
站长邮箱：wnluo@wnluo.com

本站提供的一切软件、教程和内容信息仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络收集整理，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容，请支持正版，购买注册，得到更好的正版服务。我们非常重视版权问题，如有侵权请邮件与我们联系处理。敬请谅解！

THE END

Go后端：使用Gin框架设计RESTful API接口

<<上一篇

Redis 实战：用 SETNX 和 Lua 脚本实现分布式锁，彻底解决缓存穿透

下一篇>>