用gdb调试找出nginx崩溃的原因

2013-03-21 09:24:54来源:Linux Today作者:天明

某年某月某日,一个工程师跑来找我说:很多用户抱怨APP频繁闪退,他觉得server运行正常,找不出原因,请我帮忙

某年某月某日,一个工程师跑来找我说:很多用户抱怨APP频繁闪退,他觉得server运行正常,找不出原因,请我帮忙

按照流程一路排查下去,发现Nginx访问日志里面有大量的http 504 err code

tail -f /var/log/messages

同时出现大量的类似错误信息

nginx[1234]: segfault at 0000000000000008 rip 000000000043edf8 rsp 00007fff34a21fa0 error 4

出现segfault那只能用gdb了,这也是Linux做server的好处了,换成微软平台,无比的麻烦

解决问题分成4步:

配置系统生成coredump文件,很简单

ulimit -a

第一行就是关于core file的设置,默认是不生成coredump文件的,执行 ulimit -c 1024 即可,记得调试完成之后要用ulimit -c 0关闭,不然你的硬盘很快会被填满

gdb调试,需要debug版本的nginx才能定位到源代码,于是需要重新编译一份nginx

首先把现有的nginx bin目录和conf目录都备份

然后打印nginx的原始编译选项

/opt/nginx/sbin/nginx -V

在这个基础上加上 --with-debug,重新make一份即可

在${NGINX-SOURCE-DIR}$/objs 目录中找到编译好的nginx ,复制到你的nginx运行目录,切记不要make install ,因为这样会覆盖掉你的nginx.conf文件

重新运行nginx,等待core.xxx文件生成。一般是在当前目录下生成

用gdb加载 coredump 文件

gdb --core=core.xxx

gdb> where

很容易就找到了nginx segfault的原因:我们自己写的一个nginx modules里面,对某些参数没有做边界检查,但外部环境变化之后,访问空指针了

收尾:

ulimit -c 0 :关掉coredump

改完代码之后,重新编译一份不带debug信息的nginx

关键词:nginxgdb

赞助商链接: