前面我们介绍了Prometheus的基础概念,包括数据格式 、PromQL语法等,本节我们将讲解如何通过Prometheus实现主机的监控 。
Prometheus使用各种Exporter来监控资源。Exporter可以看成是监控的agent端,它负责收集对应资源的指标,并提供接口给到Prometheus读取。不同资源的监控对应不同的Exporter,如node-exporeter、mysql-exporter、kafka-exporter等,在这其中最常用的当属node_exporter。
node-exporter使用Go语言编写,它主要用来监控主机系统的各项性能参数,可收集各种主机指标的库,还提供了textfile功能,用于自定义指标。
一. 安装node-exporter
二进制安装
下载安装包并解压
$ wget https://github.com/prometheus/node_exporter/releases/download/v1.1.2/node_exporter-1.1.2.linux-amd64.tar.gz
$ tar -xvf tar -xvf node_exporter-1.1.2.linux-amd64.tar.gz
$ cd node_exporter-1.1.2.linux-amd64
启动 Node Exporter $ ./node_exporter &
查看服务器,可看到端口已启动(默认端口9100) $ netstat -lnpt |grep ":9100"
docker安装
官方不建议通过Docker方式部署node-exporter,因为它需要访问主机系统。 通过docker部署的方式,需要把任何非根安装点都绑定到容器中,并通过--path.rootfs参数指定。
docker run -d --net="host" --pid="host" -v "/:/host:ro,rslave" prom/node-exporter --path.rootfs=/host
部署完成后,访问节点地址:http://ip:9100/metrics ,可看到node-exporter获取的指标。
二. 配置node-exporter
node-exporter提供不少配置参数,可使用 --help 进行查看。 $ ./node_exporter --help
例如:通过--web.listen-address 改变监听的端口
$ ./node_exporter --web.listen-address=":8080" &
如果需要收集主机上面运行服务的状态,可启用systemd收集器。由于systemd指标较多,可以用--collector.systemd.unit-include参数配置只收集指定的服务,减少无用数据,该参数支持正则表达式匹配。如docker和ssh服务状态,
示例:./node_exporter --collector.systemd --collector.systemd.unit-include="(docker|sshd).service" &
如果只想启用需要的收集器,其他的全部禁用,可用如下格式配置
--collector.disable-defaults --collector.<name>
三. textfile收集器
textfile是一个特定的收集器,它的功能非常有用,textfile允许我们暴露自定义的指标。这些指标或者是没有相关的exporter可以使用,或者是你自己开发的应用指标。
textfile通过扫描指定目录中的文件,提取所有符合Prometheus数据格式的字符串,然后暴露它们给到Prometheus进行抓取。
示例:
创建指标文件保存目录 mkdir /opt/prom
$ cat <<EOF | tee /opt/prom/metadata.prom
# HELP alex_test this is a test
# TYPE alex_test gauge
alex_test{server="test",idc="bj"} 1
EOF
启用textfile ./node_exporter --collector.textfile.directory="/opt/prom" &
访问node-exporter的地址,可看到指标已生效
四. Prometheus抓取指标
在Prometheus配置关于node-exporter节点的target,即可抓取相关节点指标数据。
scrape_configs:
- job_name: 腾讯云-重庆
honor_timestamps: true
scrape_interval: 15s
scrape_timeout: 10s
metrics_path: /metrics
scheme: http
basic_auth:
username: prometheus
password: <secret>
follow_redirects: true
static_configs:
- targets:
- xx.xx.xx.xx:xxxx
- job_name: 阿里云-演示
honor_timestamps: true
scrape_interval: 15s
scrape_timeout: 10s
metrics_path: /metrics
scheme: http
basic_auth:
username: prometheus
password: <secret>
follow_redirects: true
static_configs:
- targets:
- xx.xx.xx.xx:xxxx
- job_name: 阿里云-张家口-devops
honor_timestamps: true
scrape_interval: 15s
scrape_timeout: 10s
metrics_path: /metrics
scheme: http
basic_auth:
username: prometheus
password: <secret>
follow_redirects: true
static_configs:
- targets:
- xx.xx.xx.xx:xxxx
在表达式浏览器中搜索 {job="阿里云-张家口-devops"},可看到相关指标已被收集到Prometheus。