bash
dmesg | grep -i error
journalctl -xb # systemd系统日志
fsck /dev/sdX # 文件系统检查
bash
top/htop
vmstat 1
iostat -x 1
dstat
sar # 系统活动报告
bash
ip addr/ifconfig
ping/traceroute/mtr
netstat/ss
iptables -L/nft list ruleset
tcpdump
bash
systemctl status service_name
ss -tulnp | grep port
firewall-cmd --list-all
getenforce
bash
df -h
du -sh * | sort -h
find / -type f -size +100M
df -i
ls -lh /var/log
bash
iostat -x 1
iotop
smartctl -a /dev/sdX
cat /proc/mdstat # 检查RAID
bash
systemctl status service
journalctl -u service -f
systemctl list-dependencies service
bash
curl -I http://localhost
tail -f /var/log/nginx/error.log
strace -p <pid>
bash
ps auxf
netstat -antp
last/lastb
find / -mtime -1 # 最近修改的文件
rpm -Va # RPM验证
常用日志位置:
/var/log/messages
(通用系统消息)/var/log/syslog
(Debian系)/var/log/secure
(认证日志)/var/log/auth.log
(Debian系认证日志)日志分析工具:
grep -i error /var/log/messages
tail -f /var/log/syslog
less +F /var/log/nginx/access.log
journalctl --since "1 hour ago"
性能分析:
perf
(Linux性能计数器)strace
/ltrace
(系统/库调用跟踪)valgrind
(内存调试)网络分析:
wireshark
(图形化抓包)tshark
(命令行wireshark)ngrep
(网络grep)系统快照:
sysdig
(全系统捕获和分析)systemtap
(动态追踪)开始
↓
收集错误现象和日志
↓
确定故障范围(系统/网络/服务/存储)
↓
使用相应工具检查具体指标
↓
定位问题根源
↓
制定解决方案(配置变更/服务重启/硬件更换)
↓
实施解决方案
↓
验证问题是否解决
↓
记录故障处理过程
结束
记住:优秀的运维工程师不是不遇到问题,而是能快速定位和解决问题。持续学习和经验积累是提高故障排查能力的关键。