3

案例1:Golang Gorm踩坑

## 影响情况##
服务A 是定时调度系统,利用github.com/robfig/cron 来实现,发现服务运行3小时左右就不打印sql 日志,但是API 服务响应正常. 导致调度服务不执行、

##分析思路##
Golang 编写调度的服务遇到不调度的情况如何分析处理那?首先我们利用golang 自带的pprof来分析。在main.go中 增加`
    go func() {
        if err := http.ListenAndServe("0.0.0.0:12345", nil); err != nil {
            log.Println(err)
        }
    }()`

然后再结合火焰图 去分析。可惜这次,pprof 并没有帮上我们的忙,因为调度服务很轻量,内存方面没超过1MB,profile cpu等也很正常、那么接下来怎么办?

由于是服务调度每次都会打印sql,那么我们就去查看mysql 的资源吧、
首先 通过show full process list; 如下

mysql> show full processlist;
+---------+-----------+------------------+---------+---------+------+----------+-----------------------+-----------+---------------+
| Id      | User      | Host             | db      | Command | Time | State    | Info                  | Rows_sent | Rows_examined |
+---------+-----------+------------------+---------+---------+------+----------+-----------------------+-----------+---------------+
| 2855999 | A | *:52898 | my | Sleep   |   37 |          | NULL                  |         0 |             0 |
| 2880711 | A | *:26280 | my | Sleep   |   10 |          | NULL                  |         0 |             0 |
| 2904663 | A | *:50519 | my | Sleep   | 2544 |          | NULL                  |         0 |             0 |
| 2905293 | A | *:6492  | my | Sleep   |  567 |          | NULL                  |         0 |             0 |
| 2905341 | A | *:2777  | my | Query   |    0 | starting | show full processlist |         0 |             0 |
| 2905425 | A | *:4081  | my | Sleep   |   57 |          | NULL                  |         0 |             0 |
| 2905444 | A | *:15888 | my | Sleep   |   92 |          | NULL                  |         0 |             0 |
| 2905523 | A | *:13524 | my | Sleep   |   10 |          | NULL                  |         0 |             0 |
+---------+-----------+------------------+---------+---------+------+----------+-----------------------+-----------+———————+

测试环境服务 发现会有大量的sleep,那么我们再看下my.conf 配置。一般最大连接数就设置200左右。所所以1分钟调度一次,200分钟我们的服务就被把数据库连接数占满。那么接下来去分析下源码。

//以下是调度的问题代码
for rowsInner.Next() {
            dataMap[supportInt] = true
            break
}
我们发现 直接做了break、但是为什么会导致连接被占用 不能释放那?
func (rs *Rows) Next() bool {
    var doClose, ok bool
    withLock(rs.closemu.RLocker(), func() {
        doClose, ok = rs.nextLocked()
    })
    if doClose {
        rs.Close()
    }
    return ok
}


func (rs *Rows) Scan(dest ...interface{}) error {
    rs.closemu.RLock()

    if rs.lasterr != nil && rs.lasterr != io.EOF {
        rs.closemu.RUnlock()
        return rs.lasterr
    }
    if rs.closed {
        err := rs.lasterrOrErrLocked(errRowsClosed)
        rs.closemu.RUnlock()
        return err
    }
    rs.closemu.RUnlock()

    if rs.lastcols == nil {
        return errors.New("sql: Scan called without calling Next")
    }
    if len(dest) != len(rs.lastcols) {
        return fmt.Errorf("sql: expected %d destination arguments in Scan, not %d", len(rs.lastcols), len(dest))
    }
    for i, sv := range rs.lastcols {
        err := convertAssignRows(dest[i], sv, rs)
        if err != nil {
            return fmt.Errorf(`sql: Scan error on column index %d, name %q: %v`, i, rs.rowsi.Columns()[i], err)
        }
    }
    return nil
}

我们通过源码可以发现,Next()方法判断下一个元素有没有,但是我们没有用scan,因为scan 每次返回都会释放掉一行数据库的缓存,所以 我们 手动rows.Close(),这种情况也很难遇到,因为一般情况下,我们都是 scan到底,最后底层代码会 执行 d.close(rows.lasterr)、所以我们一般不需要手动close rows.

结论:每次返回的rows 都是新的实例,占用一个数据库连接. rows.next()直到false 就会关闭,否则就会出现资源没有被回收,但数据库设置的超时回收也会去回收 但是会降低服务Tps。


xiaowei520
638 声望21 粉丝

持之以恒、