Tenemos un clúster Cassandra de 12 nodos con las siguientes especificaciones 8 núcleos 16GB HEAP / 32GB RAM con G1GC
Versión de Java: versión openjdk "1.8.0_151"
De repente, comenzamos a ver una gran carga de CPU (que es alrededor de 18-24 en 8 nodos centrales)
Cuando intenté obtener el seguimiento de la pila de Cassandra, mostraba muchos hilos ejecutables como a continuación.
sun.nio.ch.FileDispatcherImpl.read0(Native Method)
MessagingService-Incoming-/10.xx.xx.xx
MessagingService-Incoming-/10.xx.xx.xx
at sun.nio.ch.FileDispatcherImpl.read0(Native Method)
at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39)
at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:223)
at sun.nio.ch.IOUtil.read(IOUtil.java:192)
at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:380)
at org.apache.cassandra.io.util.NIODataInputStream.reBuffer(NIODataInputStream.java:66)
at org.apache.cassandra.io.util.RebufferingInputStream.readByte(RebufferingInputStream.java:144)
at org.apache.cassandra.io.util.RebufferingInputStream.readPrimitiveSlowly(RebufferingInputStream.java:108)
at org.apache.cassandra.io.util.RebufferingInputStream.readInt(RebufferingInputStream.java:188)
at org.apache.cassandra.net.IncomingTcpConnection.receiveMessages(IncomingTcpConnection.java:179)
at org.apache.cassandra.net.IncomingTcpConnection.run(IncomingTcpConnection.java:94)
y
"epollEventLoopGroup-2-9": running
at io.netty.channel.epoll.Native.epollWait0(Native Method)
at io.netty.channel.epoll.Native.epollWait(Native.java:117)
at io.netty.channel.epoll.EpollEventLoop.epollWait(EpollEventLoop.java:226)
at io.netty.channel.epoll.EpollEventLoop.run(EpollEventLoop.java:250)
at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:131)
at io.netty.util.concurrent.DefaultThreadFactory$DefaultRunnableDecorator.run(DefaultThreadFactory.java:144)
at java.lang.Thread.run(Thread.java:748)
El primer hilo mencionado anteriormente tiene 35 ocurrencias y 24 ocurrencias para el segundo hilo.
¿Alguien puede averiguar qué está mal aquí?
Desde el lado del clúster, **
- No tengo ninguna compactación / tarea pendiente.
- Las pausas de GC son inferiores a 100 ms
** **
Gracias