1
|
<header>Ayuda de MON sobre las Definiciones de Servicios</header>
|
2
|
<p>Esta es la segunda y ?ltima etapa en la configuraci?n de MON.
|
3
|
<p>Se muestran los valores por defecto para los servicios obligatorios
|
4
|
<marcado en color ROJO>. Vea el tema de ayuda correspondiente a continuaci?n
|
5
|
para m?s ayuda acerca de las Definiciones de Servicios.
|
6
|
<p>Para <b>"mail.alert"</b>, aseg?rese de que el demonio <b>"sendmail"</b>
|
7
|
est? iniciado en la m?quina.
|
8
|
|
9
|
<H3>Definiciones de Servicios</H3>
|
10
|
|
11
|
<P>
|
12
|
<DL COMPACT>
|
13
|
<DT><B>service</B><I> servicename</I>
|
14
|
|
15
|
<DD>
|
16
|
Una definici?n de servicio comienza por la palabra clave <B>service</B>
|
17
|
seguida de una palabra, que es la etiqueta de este servicio.
|
18
|
<P>
|
19
|
Los componentes de un servicio son un intervalo, un monitor y una o m?s
|
20
|
definiciones de periodos de tiempo, como se definen a continuaci?n.
|
21
|
<P>
|
22
|
Si se define un nombre de servicio "default" dentro de un grupo
|
23
|
de coincidencia llamada "dafault" (ver arriba), entonces se usar?
|
24
|
la definici?n "por defecto/por defecto" para el manejo de eventos de MON
|
25
|
desconocidos.
|
26
|
<P>
|
27
|
<DT><B>interval</B><I> timeval</I>
|
28
|
|
29
|
<DD>
|
30
|
La palabra clave <B>interval</B> seguida por un valor de tiempo especifica
|
31
|
la frecuencia con que se activar? un gui?n de monitorizaci?n. Los valores
|
32
|
de tiempo se definen como "30s", "5m", "1h",
|
33
|
o "1d", significando 30 segundos, 5 minutos, 1 hora, o 1 d?a. La
|
34
|
parte num?rica puede ser una fracci?n, como "1.5h" o una hora y
|
35
|
media. Este formato para especificar tiempo lo conoceremos como <I>timeval</I>.
|
36
|
|
37
|
<P>
|
38
|
<DT><B>traptimeout</B><I> timeval</I>
|
39
|
|
40
|
<DD>
|
41
|
Esta palabra clave tiene como argumento la misma especificaci?n de tiempo
|
42
|
que <B>interval</B><I>,</I> y hace que el servicio espere un evento desde
|
43
|
una fuente externa al menos con esa frecuencia, de lo contrario se
|
44
|
anotar? un fallo. Esto se usa para un servicio tipo heartbit.
|
45
|
<P>
|
46
|
<DT><B>trapduration</B><I> timeval</I>
|
47
|
|
48
|
<DD>
|
49
|
Si se recibe un evento, habitualmente el estado del servicio al que se
|
50
|
dirige dicho evento permanecer? constante. Si se especifica <B>trapduration</B>
|
51
|
el servicio se mantendr? en estado fallido el tiempo indicado por
|
52
|
<I>timeval</I>, para a continuaci?n cambiar a "success".
|
53
|
<P>
|
54
|
<DT><B>randskew</B><I> timeval</I>
|
55
|
|
56
|
<DD>
|
57
|
M?s que planificar la ejecuci?n del gui?n de monitorizaci?n al inicio de
|
58
|
cada intervalo, ajustar aleatoriamente el intervalo especificado por el
|
59
|
par?metro <B>interval</B> hasta <B>randskew</B> unidades en cualquier sentido.
|
60
|
|
61
|
El valor de la deriva se especific como el del par?metro <B>interval</B>:
|
62
|
"30s", "5m", etc... Por ejemplo, si <B>interval</B> es
|
63
|
1m, y <B>randskew</B> es "5s", entonces <I>mon</I> planificar? el
|
64
|
gui?n de monitorizaci?n para ejecutarse con entre 55 y 65 segundos de
|
65
|
intervalo. La intenci?n es ayudar a distribuir la carga del servidor cuando
|
66
|
se monitorizan muchos servicios con los mismos intervalos.
|
67
|
<P>
|
68
|
<DT><B>monitor</B><I> nombre-monitor [arg...]</I>
|
69
|
|
70
|
<DD>
|
71
|
La palabra clave <B>monitor</B> seguida de un nombre de gui?n y sus
|
72
|
argumentos especifica el monitor que ejecutar cuando expire el
|
73
|
temporizador. Se mantienen las convenciones del int?rprete de comandos en
|
74
|
cuanto al "quoting" de los argumentos que pasar al gui?n de monitorizaci?n.
|
75
|
El gui?n se lanza desde el directorio indicado por el argumento <B>-s</B>,
|
76
|
y las siguientes palabras proporcionadas son los argumentos del programa de
|
77
|
monitorizaci?n, seguidos de la lista de m?quinas en el grupo a que hace
|
78
|
referencia el grupo de vigilancia actual. Si la l?nea de monitor acaba con
|
79
|
un ";;" como palabra separada, no se a?aden los grupos de
|
80
|
m?quinas a la lista de argumentos cuando se lanza el programa.
|
81
|
<P>
|
82
|
<DT><B>allow_empty_group</B>
|
83
|
|
84
|
<DD>
|
85
|
La opci?n <B>allow_empty_group</B> permite lanzar un monitor incluso cuando
|
86
|
el grupo de m?quinas de esta vigilancia est? vac?o por estar desactivadas
|
87
|
las m?quinas. El comportamiento por defecto es no lanzar el monitor cuando
|
88
|
todas las m?quinas de un grupo est?n desactivadas.
|
89
|
<P>
|
90
|
<DT><B>description</B><I> descriptiontext</I>
|
91
|
|
92
|
<DD>
|
93
|
El texto a continuaci?n de <B>description</B> lo consultan los programas
|
94
|
cliente, y se le pasa a las alertas y monitores a trav?s de una variable de
|
95
|
entorno. Deber?a contener una breve descripci?n del servicio, adecuada para
|
96
|
incluirla en un correo electr?nico o en una p?gina web.
|
97
|
<P>
|
98
|
<DT><B>exclude_hosts</B><I> host [host...]</I>
|
99
|
|
100
|
<DD>
|
101
|
Cualquier m?quina listada a continuaci?n de <B>exclude_hosts</B> se
|
102
|
excluir? de la comprobaci?n del servicio.
|
103
|
<P>
|
104
|
<DT><B>exclude_period</B><I> periodspec</I>
|
105
|
|
106
|
<DD>
|
107
|
No ejecutar un monitor planificado durante el periodo de tiempo
|
108
|
identificado por <I>periodspec</I>.
|
109
|
|
110
|
<P>
|
111
|
<DT><B>depend</B><I> dependexpression</I>
|
112
|
|
113
|
<DD>
|
114
|
La palabra clave <B>depend</B> se usa para especificar una expresi?n de
|
115
|
dependencia, que eval?a a verdadero o falso, en sentido booleano. Las
|
116
|
dependencias son verdaderas expresiones de PERL, y como tales deben cumplir
|
117
|
todas sus reglas sint?cticas. Las expresiones se eval?an en su propio
|
118
|
espacio de paquete para que no tengan efectos laterales indeseados. Si se
|
119
|
encuentra un error de sintaxis durante la evaluaci?n de la expresi?n, se
|
120
|
registra tal hecho mediante syslog.
|
121
|
<P>
|
122
|
Antes de evaluar la expresi?n se llevan a cabo las siguientes sustituciones
|
123
|
en la expresi?n: las frases que parecen "grupo:servicio" se
|
124
|
sustituyen por el valor del estado operacional actual del servicio
|
125
|
especificado. Estos estados operacionales se calculan de manera recursiva,
|
126
|
de manera que si el servicio A depende del servicio B, y el servicio B
|
127
|
depende del C, entonces el servicio A depende del C. Los estados
|
128
|
operacionales exitosos (que eval?an a "1") son
|
129
|
"STAT_OK", "STAT_COLDSTART",
|
130
|
"STAT_WARMSTART", y "STAT_UNKNOWN". Se puede usar la
|
131
|
palabra "SELF" (todo en may?sculas) en el grupo
|
132
|
("SELF:service"), y es una abreviatura del grupo de vigilancia
|
133
|
actual.
|
134
|
<P>
|
135
|
Puede usar esta caracter?stica para controlar las alertas de los servicios
|
136
|
que dependen de otros, por ejemplo, una prueba de SMTP que depende de que
|
137
|
la m?quina sea alcanzable mediante ping.
|
138
|
<P>
|
139
|
<DT><B>dep_behavior</B><I> {a|m}</I>
|
140
|
|
141
|
<DD>
|
142
|
La evaluaci?n de los grafos de dependencias pueden controlar la eliminaci?n
|
143
|
de alertas o invocaciones de monitores.
|
144
|
<P>
|
145
|
<B>Eliminaci?n de alertas</B>.
|
146
|
|
147
|
Cuando esta opci?n vale "a" la expresi?n de dependencias se
|
148
|
evaluar? despu?s de que el monitor del servicio termine o se reciba un
|
149
|
evento. S?lo se enviar? una alerta si la evaluaci?n tiene ?xito,
|
150
|
significando que ninguno de los nodos en el grafo de dependencias inform?
|
151
|
de fallo.
|
152
|
<P>
|
153
|
<B>Eliminaci?n de monitores</B>.
|
154
|
|
155
|
Cuando esta opci?n vale "m", la expresi?n de dependencias se
|
156
|
eval?a antes de que se ejecute el monitor del servicio. Si la evaluaci?n
|
157
|
tiene ?xito se ejecutar? el monitor. En cualquier otro caso, el monitor no
|
158
|
se ejecutar? y el estado del servicio permanecer? sin cambios.
|
159
|
<P>
|
160
|
</DL>
|
161
|
<A NAME="lbAO"> </A>
|
162
|
<H3>Definiciones de Periodo</H3>
|
163
|
|
164
|
<P>
|
165
|
Se usan los periodos para definir las condiciones que deber?an permitir el
|
166
|
reparto de las alertas.
|
167
|
<P>
|
168
|
<DL COMPACT>
|
169
|
<DT><B>period</B><I> [label:] periodspec</I>
|
170
|
|
171
|
<DD>
|
172
|
Un periodo agrupa una o m?s alarmas y variables que controlan cu?n a menudo
|
173
|
sucede una alerta cuando sucede un fallo. La palabra clave <B>period</B>
|
174
|
tiene dos formas. La primera toma como argumento una especificaci?n de
|
175
|
periodo del m?dulo de PERL 5 de Patrick Ryan Time::Period. Consulte
|
176
|
"perldoc Time::Period" para m?s informaci?n.
|
177
|
<P>
|
178
|
La segunda forma necesita una etiqueta seguida de una especificaci?n de
|
179
|
periodo, definida arriba. La etiqueta consiste de caracteres alfab?ticos o
|
180
|
car?cter de subrayado seguido de cero o m?s caracteres alfanum?ricos o de
|
181
|
subrayado, terminados por un car?cter de dos puntos. Esta forma permite
|
182
|
m?ltiples periodos con la misma definici?n de periodo. Uno de los usos es
|
183
|
disponer de una definici?n de periodo que no tenga par?metros
|
184
|
<B>alertafter</B> o <B>alertevery</B> para un determinado periodo de
|
185
|
tiempo, y otra para el mismo periodo de tiempo con un conjunto diferente de
|
186
|
alertas que no contengan esos par?metros.
|
187
|
<P>
|
188
|
<DT><B>alertevery</B><I> timeval</I>
|
189
|
|
190
|
<DD>
|
191
|
La palabra clave <B>alertevery</B> (en el interior de una definici?n de
|
192
|
<B>period</B>) toma el mismo tipo de argumento que la variable <B>interval</B>
|
193
|
y limita el n?mero de veces que se env?a una alerta cuando el servicio
|
194
|
permanece indisponible. Por ejemplo, si el intervalo es "1h",
|
195
|
entonces las alertas en ese periodo s?lo se disparar?n una vez a la hora.
|
196
|
Si se omite la palabra clave <B>alertevery</B> en una entrada de periodo,
|
197
|
se enviar? una alerta cada vez que se detecte un fallo. Por defecto, si la
|
198
|
salida de dos fallos consecutivos cambia, entonces se ignorar? el intervalo
|
199
|
<B>alertevery</B>. Si la palabra "summary" es el ?ltimo
|
200
|
argumento, s?lo se considerar?n las l?neas de salida del resumen cuando se
|
201
|
compare la salida de fallos consecutivos.
|
202
|
<P>
|
203
|
<DT><B>alertafter</B><I> num</I>
|
204
|
|
205
|
<DD>
|
206
|
<P>
|
207
|
<DT><B>alertafter</B><I> num timeval</I>
|
208
|
|
209
|
<DD>
|
210
|
La palabra clave <B>alertafter</B> (en el interior de una secci?n
|
211
|
<B>period</B>) tiene dos formas: s?lo con el argumento "num", o
|
212
|
con los argumentos "num timeval". En la primera forma s?lo se
|
213
|
invocar? una alerta tras "num" fallos consecutivos.
|
214
|
<P>
|
215
|
En la segunda forma, los argumentos son un entero positivo seguido de un
|
216
|
intervalo, como se describi?n antes en la variable <B>interval</B>. Si se
|
217
|
especifican estos par?metros las alertas de ese periodo s?lo se llamar?n
|
218
|
despu?s de que sucedan tantos fallos durante ese intervalo. Por ejemplo, si
|
219
|
se indica <B>alertafter</B> con los argumentos "3 30m",
|
220
|
entonces la alerta se llamar? si suceden 3 fallos en 30 minutos.
|
221
|
<P>
|
222
|
<DT><B>numalerts</B><I> num</I>
|
223
|
|
224
|
<DD>
|
225
|
<P>
|
226
|
Esta variable le dice al servidor que no llame m?s de <I>num</I> alertas
|
227
|
durante un fallo. El contador de alertas es propio de cada periodo, y se
|
228
|
pone a cero tras cada ?xito.
|
229
|
<P>
|
230
|
<DT><B>comp_alerts</B>
|
231
|
|
232
|
<DD>
|
233
|
<P>
|
234
|
Si se especifica esta opci?n, entonces las "upalerts" s?lo se llamar?n si
|
235
|
la alerta "down" correspondiente ya ha sido llamada.
|
236
|
<P>
|
237
|
<DT><B>alert</B><I> alert [arg...]</I>
|
238
|
|
239
|
<DD>
|
240
|
Un periodo puede contener m?ltiples alertas, que se disparan cuando sucede
|
241
|
un fallo en el servicio. Una alerta se especifica con la palabra clave
|
242
|
<B>alert</B>, seguida de un par?metro <B>exit</B> opcional, y argumentos
|
243
|
que se interpretan de igual manera que en la definici?n de <B>monitor</B>,
|
244
|
pero sin la excepci?n del ";;". El par?metro <B>exit</B> toma la
|
245
|
forma de <B>exit=x</B> o <B>exit=x-y</B> y tiene el efecto de que s?lo se
|
246
|
llame a la alerta si el estado de salida del gui?n de monitorizaci?n cae
|
247
|
dentro del rango del par?metro <B>exit</B>. Si, por ejemplo, la l?nea de la
|
248
|
alerta es <I>alert exit=10-20 mail.alert mis</I>, entonces
|
249
|
<I>mail-alert</I> s?lo se invocar? (con <I>mis</I> como argumentos) cuando
|
250
|
el valor de salida del programa sea entre 10 y 20. Esta caracter?stica
|
251
|
permite disparar diferentes alertas ante diferentes niveles de severidad
|
252
|
(como cuando el espacio libre en disco cae del 8% al 3%).
|
253
|
<P>
|
254
|
Vea la secci?n <B>PROGRAMAS DE ALERTA</B> anterior para una lista de los
|
255
|
par?metros que MON pasar? autom?ticamente para alertar a los programas.
|
256
|
<P>
|
257
|
<DT><B>upalert</B><I> alert [arg...]</I>
|
258
|
|
259
|
<DD>
|
260
|
Una <B>upalert</B> es lo contrario de una <B>alert</B>. Se llama a una
|
261
|
"upalert" cuando un servicio hace la transici?n desde un estado de fallo a
|
262
|
uno de funcionamiento. El gui?n <B>upalert</B> se llama proporcionando los
|
263
|
mismos par?metros que al gui?n <B>alert</B>, con el a?adido del par?metro
|
264
|
<B>-u</B>, que permite indicar al gui?n de alerta que se le est? llamando
|
265
|
como un "upalert" Se pueden especificar m?ltiples "upalerts" en una
|
266
|
especificaci?n determinada de periodo. Dese cuenta de que el comportamiento
|
267
|
por defecto es que se enviar? un "upalert" sin importar si se enviaron
|
268
|
previamente alertas "down", puesto que las "upalerts" se disparan
|
269
|
en una transici?n de estados. Configure la opci?n por periodo
|
270
|
<B>comp_alerts</B> para aparejar las "upalerts" con las alertas
|
271
|
"down".
|
272
|
<P>
|
273
|
<DT><B>startupalert</B><I> alert [arg...]</I>
|
274
|
|
275
|
<DD>
|
276
|
Una <B>startupalert</B> s?lo se llama cuando el servidor <B>mon</B> inicia
|
277
|
su ejecuci?n.
|
278
|
<P>
|
279
|
<DT><B>upalertafter</B><I> timeval</I>
|
280
|
|
281
|
<DD>
|
282
|
El par?metro <B>upalertafter</B> se especifica como una cadena de texto que
|
283
|
sigue la sintaxis del par?metro <B>interval</B> ("30s",
|
284
|
"1m", etc.), y controla la activaci?n de una <B>upalert</B>.
|
285
|
|
286
|
Si un servicio se recupera tras haber estado ca?do un tiempo igual o
|
287
|
superior al valor de esta opci?n se llamar? una <B>upalert</B>. Use esta
|
288
|
opci?n para evitar la llamada a los "upalerts" debidas a "blips"
|
289
|
(breves indisponibilidades del servicio).
|
290
|
<P>
|