Python--Redis实战：第五章：使用Redis构建支持程序：第1节：使用Redis来记录日志

上一篇文章：Python--Redis实战：第四章：数据安全与性能保障：第8节：关于性能方面的注意事项
下一篇文章：Python--Redis实战：第五章：使用Redis构建支持程序：第2节：计数器和统计数据

在构建应用程序和服务的过程中，对正在运行的系统的相关信息的挖掘能力将变得越来越重要：无论是通过挖掘信息来诊断系统问题，还是发现系统中潜在的问题，甚至是挖掘与用户有关的信息：这些都需要用到日志。

在Linux和Unix的世界中，有两种常见的记录日志的方法。第一种是将日志记录到文件里面，然后随着时间流逝不断地将一个又一个日志添加到文件里面，并在一段时间之后创建新的日志文件。包括Redis在内的很多软件都使用这种方法来记录日志。但这种记录日志的方式有可能会遇上麻烦：因为每个不同的服务器会创建不同的日志，而这些服务轮换日志也各不相同，并且也缺少一种能够方便地聚合所有日志并对其进行处理的常用方法。

syslog服务是第二种常用的日志记录方法，这个服务运行在几乎所有Linux服务器和Unix服务器的514号TCP端口和UDP端口上面。syslog接受其他程序发来的日志信息，并将这些消息路由存储在硬盘上的各个日志文件里面，除此之外，syslog还复制旧日志的轮换和删除工作。通过配置，syslog甚至可以将日志消息转发给其他服务来做进一步的处理。因为指定日志的轮换和删除工作都交给syslog来完成，所以使用syslog服务比直接将日志写入文件要方便的多。

替换syslog
无论读者使用上面列举的两种日志方法中的哪一种，都最好考虑把系统目前的syslog守护进程（通常是Rsyslogd）替换成syslog-ng。因为我经过使用并配置Rsyslogd和syslog-ng之后，发现syslog-ng用于管理和组织日志消息的配置语言使用起来更简单一些。另外，尽管因为时间和篇幅限制，我没有办法在书中构建一个处理syslog消息并将消息存储到Redis里面的服务，但对于那些需要在处理请求时立即执行的操作，以及那些可以在请求处理完毕之后再执行的操作（如日志记录和更新计数器）来说，这种服务器非常适合用作介于这两种操作之间的间接层。

syslog的转发功能可以将不同的日志分别存储在同一台服务器的多个文件里面，这对于长时间地记录日志非常有帮助（记得备份）。在这一节中，我们将介绍如何使用Redis来存储于时间紧密相关的日志，从而在功能上替代那些需要在短期内被存储的syslog消息。

首先让我们来看看，如何记录连续更新的最新日志消息。

最新日志

在构建一个系统的时候，判断哪些信息需要被记录是一件困难的事情：需要记录用户的登录和退出行为吗？需要记录用户修改账号信息的时间吗？还是只记录错误和异常就可以了？虽然我没有办法替你回答这些问题，但我可以向你提供一种将最新出现的日志消息以列表的形式存储到Redis里面的方法，这个列表可以帮助及你随时了解最新出现的日志都是什么样子的。

下面代码的log_recent()函数展示了将最新日志记录到Redis里面的方法：为了维持一个包含最新日志的列表，程序使用lpush命令将日志消息推入一个列表里面。之后，如果我们想要查看已有日志消息的话，那么可以使用lrange命令来取出列表中的消息。除了lpush之外，函数还加入了一些额外的代码，用于命名不同的日志消息队列，并根据文意的严重性对日志进行分级，如果你觉得自己并不需要这些附加功能的话，也可以将相关代码删除掉，只保留基本的日志添加功能。


#设置一个字典，将大部分日志的安全级别映射为字符串
import logging
import time

SEVERITY={
    logging.DEBUG:'debug',
    logging.INFO:'info',
    logging.WARNING:'warning',
    logging.ERROR:'debug',
    logging.CRITICAL:'critical',
}
SEVERITY.update((name,name) for name in SEVERITY.values())

def log_recent(conn,name,message,severity=logging.INFO,pipe=None):
    #尝试将日志的安全级别准还为简单的字符串
    severity=str(SEVERITY.get(severity,severity)).lower()
    #创建负责存储消息的键
    destination='recent:%s:%s'%(name,severity)
    #将当前时间添加到消息里面，用于记录消息的发送时间
    message=time.asctime()+'  '+message
    #使用流水线来将通信往返次数降低为一次
    pipe=pipe or conn.pipeline()
    #将消息添加到日志列表的最前面
    pipe.lpush(destination,message)
    #对日志列表进行修建，让它只包含最新的100条消息
    pipe.ltrim(destination,0,99)
    #执行两个命令
    pipe.execute()

除了那些将日志的安全级别转换为字符串（如info和debug）的代码之外，log_recent()函数的定义非常简单：基本上就是一个lpush加上一个ltrim。现在你已经知道怎样记录最新出现的日志了，是时候来了解一下该如何记录最常出现（也是最重要的）日志消息了。

常见日志

如果实际运行一下log_recent()函数的话，你就会发现，尽管log_recent()函数非常适用于记录当前发生的事情，但它并不擅长告诉你哪些消息时重要的，哪些消息是不重要的。为了解决这个问题，我们可以让程序记录特定消息出现的频率，并根据出现频率的高低来决定消息的排列顺序，从而帮助我们找出最重要的消息。

下面代码的log_comon()函数展示了记录并轮询最常见日志消息的方法：程序会将消息作为成员存储的有序集合里面，并将消息出现的频率设置为成员的分值。为了确保我们看见的常见消息都是最新的，程序会以每小时一次的频率对消息进行轮换，并在轮换日志的时候保留上一个小时记录的常见消息，从而防止没有任何消息存在的情况出现。

import logging
import time
from datetime import datetime

import redis

SEVERITY={
    logging.DEBUG:'debug',
    logging.INFO:'info',
    logging.WARNING:'warning',
    logging.ERROR:'debug',
    logging.CRITICAL:'critical',
}
SEVERITY.update((name,name) for name in SEVERITY.values())

def log_recent(conn,name,message,severity=logging.INFO,pipe=None):
    #尝试将日志的安全级别准还为简单的字符串
    severity=str(SEVERITY.get(severity,severity)).lower()
    #创建负责存储消息的键
    destination='recent:%s:%s'%(name,severity)
    #将当前时间添加到消息里面，用于记录消息的发送时间
    message=time.asctime()+'  '+message
    #使用流水线来将通信往返次数降低为一次
    pipe=pipe or conn.pipeline()
    #将消息添加到日志列表的最前面
    pipe.lpush(destination,message)
    #对日志列表进行修建，让它只包含最新的100条消息
    pipe.ltrim(destination,0,99)
    #执行两个命令
    pipe.execute()

def log_common(conn,name,message,severity=logging.INFO,timeout=5):
    # 尝试将日志的安全级别准还为简单的字符串
    severity = str(SEVERITY.get(severity, severity)).lower()
    #负责存储近期的常见日志消息的键
    destination = 'common:%s:%s' % (name, severity)
    #因为程序每小时需要轮换一次日志，所以它使用一个键来记录当前所处的小时数
    start_key=destination+':start'
    # 使用流水线来将通信往返次数降低为一次
    pipe = conn.pipeline()
    end=time.time()+timeout
    while time.time()<end:
        try:
            #当记录当前小时数的键进行监视，确保轮换操作可以正确的执行
            pipe.watch(start_key)
            #取得当前时间
            now=datetime.utcnow().timetuple()
            #取得当前所处的小时数
            hour_start=datetime(*now[:4].isoformat())

            existing=pipe.get(start_key)
            #创建一个事务
            pipe.multi()
            #如果这个常见日志消息列表记录的是上个小时的日志。。
            if existing and existing<hour_start:
                #将这些旧的常见日志消息归档
                pipe.rename(destination,destination+':last')
                pipe.rename(start_key,destination+':pstart')
                #更新当前所处的小时数
                pipe.set(start_key,hour_start)
            elif not existing:
                pipe.set(start_key,hour_start)
            #对记录日志出现次数的计数器执行自增操作
            pipe.zincrby(destination,message)
            #log_recent()函数负责记录日志并调用execute()函数
            log_recent(pipe,name,message,severity,pipe)
            return
        except redis.exceptions.WatchError:
            continue

因为记录常见日志的函数需要小心地处理上一小时收集的日志，所以它比记录最新日志的函数要复杂的多：程序会在一个watch/multi/exec事务里面，对记录了上一小时的常见日志的有序集合进行改名，并对记录了当前所处小时数的键进行更新。除此之外，程序还会降流水线对象传递给log_recent()函数，以此来减少记录常见日志和记录最新日志时，客户端与Redis服务器之间的通信往返次数。

通过最新日志和常见日志，我们现在已经知道怎样将系统的运行信息存储到Redis里面了，那么还有什么其他信息是适合存储在Redis里面的呢？

上一篇文章：Python--Redis实战：第四章：数据安全与性能保障：第8节：关于性能方面的注意事项
下一篇文章：Python--Redis实战：第五章：使用Redis构建支持程序：第2节：计数器和统计数据

Python--Redis实战：第五章：使用Redis构建支持程序：第1节：使用Redis来记录日志

最新日志

常见日志

Mark

引用和评论

MongoDB指南---18、聚合命令

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

Python3 格式化时间（qbit）

本地使用PaddleOCR进行图片识别获得文字（返回JSON）

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总