[jira] [Updated] (CASSANDRA-13390) Nodetool repair fails with snapshot error message

Barthelemy Vessemont (JIRA) Wed, 29 Mar 2017 03:45:08 -0700

     [ 
https://issues.apache.org/jira/browse/CASSANDRA-13390?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel
 ]


Barthelemy Vessemont updated CASSANDRA-13390:
---------------------------------------------
    Description: 
I'm trying to run a repair with following options :
{{nodetool repair -seq -full -pr some_keyspace some_table1 some_table2 
some_other_table ...}}


`some_keyspace` definition :
{quote}
CREATE KEYSPACE some_keyspace WITH replication = <'class': 
'NetworkTopologyStrategy', 'AMST': '3'>  AND durable_writes = true;
{quote}
Tables can be both of DTCS and LCS

Cluster :
{quote}
Datacenter: AMST
===============
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address        Load       Tokens       Owns    Host ID                      
         Rack
UN  10.22.150.236  205.22 GiB  256          ?       xxxx  B04
UN  10.22.150.204  200.87 GiB  256          ?       yyyy  B05
UN  10.22.140.77   203.12 GiB  256          ?       zzzz  D22
{quote}

Repair starts well but seems to fails at creating remote snapshots on nodes 
holding replicas:
*info* : no other repair have been started on others nodes during this time, 
snapshots were also cleaned before.
{quote}
# nodetool repair -seq -full -pr some_keyspace some_table1 some_table2 
some_other_table ...

11:42:03        [2017-03-29 09:42:03,399] Starting repair command #10 
(f6dac620-1463-11e7-aa9f-01f10058e068), repairing keyspace some_keyspace with 
repair options (parallelism: sequential, primary range: true, incremental: 
false, job threads: 1, ColumnFamilies: [some_keyspace, some_table1, 
some_table2, some_other_table], dataCenters: [], hosts: [], # of ranges: 256, 
pull repair: false)
11:47:43        [2017-03-29 09:47:43,578] Repair session 
f6e74940-1463-11e7-aa9f-01f10058e068 for range 
[(4978050141600810389,4982072488404840895], 
(-1340498249852980466,-1311689893502261125], 
(-5302264476874517513,-5291739032085711936], 
(-5981241605827420506,-5966850479287809973], 
(1857121221013279321,1899365815561615863], 
(942740326159033054,946603639333506869], 
(382316032181285431,397235785699549982],
[...]
(-6731897432582288959,-6728305970724193972], 
(-3193765198824884162,-3152653432337268817], 
(6879878057460360708,6898924573938960263], 
(7238964282930318864,7282255874655871690], 
(-4737709921934606628,-4734841018997895217]] failed with error Could not create 
snapshot at /10.22.150.204 (progress: 1%)
11:47:43        [2017-03-29 09:47:43,579] Parent repair session with id = 
f6dac620-1463-11e7-aa9f-01f10058e068 has failed.
11:47:43        [2017-03-29 09:47:43,580] Repair command #10 finished in 5 
minutes 40 seconds
{quote}

errors logs on replica side :
{quote}
ERROR [AntiEntropyStage:1] 2017-03-29 09:47:43,577 
RepairMessageVerbHandler.java:168 - Got error, removing parent repair session
ERROR [AntiEntropyStage:1] 2017-03-29 09:47:43,578 CassandraDaemon.java:229 - 
Exception in thread Thread[AntiEntropyStage:1,5,main]
java.lang.RuntimeException: Parent repair session with id = 
f6dac620-1463-11e7-aa9f-01f10058e068 has failed.
        at 
org.apache.cassandra.service.ActiveRepairService.getParentRepairSession(ActiveRepairService.java:400)
 ~[apache-cassandra-3.10.jar:3.10]
        at 
org.apache.cassandra.service.ActiveRepairService.removeParentRepairSession(ActiveRepairService.java:416)
 ~[apache-cassandra-3.10.jar:3.10]
        at 
org.apache.cassandra.repair.RepairMessageVerbHandler.doVerb(RepairMessageVerbHandler.java:170)
 ~[apache-cassandra-3.10.jar:3.10]
        at 
org.apache.cassandra.net.MessageDeliveryTask.run(MessageDeliveryTask.java:66) 
~[apache-cassandra-3.10.jar:3.10]
        at 
java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) 
~[na:1.8.0_91]
        at java.util.concurrent.FutureTask.run(FutureTask.java:266) 
~[na:1.8.0_91]
        at 
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 
~[na:1.8.0_91]
        at 
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 
[na:1.8.0_91]
        at 
org.apache.cassandra.concurrent.NamedThreadFactory.lambda$threadLocalDeallocator$0(NamedThreadFactory.java:79)
 [apache-cassandra-3.10.jar:3.10]
        at java.lang.Thread.run(Thread.java:745) ~[na:1.8.0_91]
WARN  [RepairJobTask:13] 2017-03-29 09:47:43,578 RepairJob.java:153 - [repair 
#f6e74940-1463-11e7-aa9f-01f10058e068] span_names sync failed
ERROR [Repair#10:4] 2017-03-29 09:47:43,578 CassandraDaemon.java:229 - 
Exception in thread Thread[Repair#10:4,5,RMI Runtime]
com.google.common.util.concurrent.UncheckedExecutionException: 
java.lang.RuntimeException: Could not create snapshot at /10.22.150.204
        at 
com.google.common.util.concurrent.Futures.wrapAndThrowUnchecked(Futures.java:1525)
 ~[guava-18.0.jar:na]
        at 
com.google.common.util.concurrent.Futures.getUnchecked(Futures.java:1511) 
~[guava-18.0.jar:na]
        at org.apache.cassandra.repair.RepairJob.run(RepairJob.java:160) 
~[apache-cassandra-3.10.jar:3.10]
        at 
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 
~[na:1.8.0_91]
        at 
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 
~[na:1.8.0_91]
        at 
org.apache.cassandra.concurrent.NamedThreadFactory.lambda$threadLocalDeallocator$0(NamedThreadFactory.java:79)
 ~[apache-cassandra-3.10.jar:3.10]
        at java.lang.Thread.run(Thread.java:745) ~[na:1.8.0_91]
Caused by: java.lang.RuntimeException: Could not create snapshot at 
/10.22.150.204
        at 
org.apache.cassandra.repair.SnapshotTask$SnapshotCallback.onFailure(SnapshotTask.java:80)
 ~[apache-cassandra-3.10.jar:3.10]
        at 
org.apache.cassandra.net.ResponseVerbHandler.doVerb(ResponseVerbHandler.java:47)
 ~[apache-cassandra-3.10.jar:3.10]
        at 
org.apache.cassandra.net.MessageDeliveryTask.run(MessageDeliveryTask.java:66) 
~[apache-cassandra-3.10.jar:3.10]
        at 
java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) 
~[na:1.8.0_91]
        at java.util.concurrent.FutureTask.run(FutureTask.java:266) 
~[na:1.8.0_91]
        ... 4 common frames omitted
{quote}

Is this normal ? :/

  was:
I'm trying to run a repair with following options :
{{nodetool repair -seq -full -pr some_keyspace some_table1 some_table2 
some_other_table ...}}


`some_keyspace` definition :
{quote}
CREATE KEYSPACE some_keyspace WITH replication = <'class': 
'NetworkTopologyStrategy', 'AMST': '3'>  AND durable_writes = true;
{quote}
Tables can be both of DTCS and LCS

Cluster :
{quote}
Datacenter: AMST
===============
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address        Load       Tokens       Owns    Host ID                      
         Rack
UN  10.22.150.236  205.22 GiB  256          ?       xxxx  B04
UN  10.22.150.204  200.87 GiB  256          ?       yyyy  B05
UN  10.22.140.77   203.12 GiB  256          ?       zzzz  D22
{quote}

Repair starts well but seems to fails at creating remote snapshots on nodes 
holding replicas:
{quote}
# nodetool repair -seq -full -pr some_keyspace some_table1 some_table2 
some_other_table ...

11:42:03        [2017-03-29 09:42:03,399] Starting repair command #10 
(f6dac620-1463-11e7-aa9f-01f10058e068), repairing keyspace some_keyspace with 
repair options (parallelism: sequential, primary range: true, incremental: 
false, job threads: 1, ColumnFamilies: [some_keyspace, some_table1, 
some_table2, some_other_table], dataCenters: [], hosts: [], # of ranges: 256, 
pull repair: false)
11:47:43        [2017-03-29 09:47:43,578] Repair session 
f6e74940-1463-11e7-aa9f-01f10058e068 for range 
[(4978050141600810389,4982072488404840895], 
(-1340498249852980466,-1311689893502261125], 
(-5302264476874517513,-5291739032085711936], 
(-5981241605827420506,-5966850479287809973], 
(1857121221013279321,1899365815561615863], 
(942740326159033054,946603639333506869], 
(382316032181285431,397235785699549982],
[...]
(-6731897432582288959,-6728305970724193972], 
(-3193765198824884162,-3152653432337268817], 
(6879878057460360708,6898924573938960263], 
(7238964282930318864,7282255874655871690], 
(-4737709921934606628,-4734841018997895217]] failed with error Could not create 
snapshot at /10.22.150.204 (progress: 1%)
11:47:43        [2017-03-29 09:47:43,579] Parent repair session with id = 
f6dac620-1463-11e7-aa9f-01f10058e068 has failed.
11:47:43        [2017-03-29 09:47:43,580] Repair command #10 finished in 5 
minutes 40 seconds
{quote}

errors logs on replica side :
{quote}
ERROR [AntiEntropyStage:1] 2017-03-29 09:47:43,577 
RepairMessageVerbHandler.java:168 - Got error, removing parent repair session
ERROR [AntiEntropyStage:1] 2017-03-29 09:47:43,578 CassandraDaemon.java:229 - 
Exception in thread Thread[AntiEntropyStage:1,5,main]
java.lang.RuntimeException: Parent repair session with id = 
f6dac620-1463-11e7-aa9f-01f10058e068 has failed.
        at 
org.apache.cassandra.service.ActiveRepairService.getParentRepairSession(ActiveRepairService.java:400)
 ~[apache-cassandra-3.10.jar:3.10]
        at 
org.apache.cassandra.service.ActiveRepairService.removeParentRepairSession(ActiveRepairService.java:416)
 ~[apache-cassandra-3.10.jar:3.10]
        at 
org.apache.cassandra.repair.RepairMessageVerbHandler.doVerb(RepairMessageVerbHandler.java:170)
 ~[apache-cassandra-3.10.jar:3.10]
        at 
org.apache.cassandra.net.MessageDeliveryTask.run(MessageDeliveryTask.java:66) 
~[apache-cassandra-3.10.jar:3.10]
        at 
java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) 
~[na:1.8.0_91]
        at java.util.concurrent.FutureTask.run(FutureTask.java:266) 
~[na:1.8.0_91]
        at 
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 
~[na:1.8.0_91]
        at 
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 
[na:1.8.0_91]
        at 
org.apache.cassandra.concurrent.NamedThreadFactory.lambda$threadLocalDeallocator$0(NamedThreadFactory.java:79)
 [apache-cassandra-3.10.jar:3.10]
        at java.lang.Thread.run(Thread.java:745) ~[na:1.8.0_91]
WARN  [RepairJobTask:13] 2017-03-29 09:47:43,578 RepairJob.java:153 - [repair 
#f6e74940-1463-11e7-aa9f-01f10058e068] span_names sync failed
ERROR [Repair#10:4] 2017-03-29 09:47:43,578 CassandraDaemon.java:229 - 
Exception in thread Thread[Repair#10:4,5,RMI Runtime]
com.google.common.util.concurrent.UncheckedExecutionException: 
java.lang.RuntimeException: Could not create snapshot at /10.22.150.204
        at 
com.google.common.util.concurrent.Futures.wrapAndThrowUnchecked(Futures.java:1525)
 ~[guava-18.0.jar:na]
        at 
com.google.common.util.concurrent.Futures.getUnchecked(Futures.java:1511) 
~[guava-18.0.jar:na]
        at org.apache.cassandra.repair.RepairJob.run(RepairJob.java:160) 
~[apache-cassandra-3.10.jar:3.10]
        at 
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 
~[na:1.8.0_91]
        at 
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 
~[na:1.8.0_91]
        at 
org.apache.cassandra.concurrent.NamedThreadFactory.lambda$threadLocalDeallocator$0(NamedThreadFactory.java:79)
 ~[apache-cassandra-3.10.jar:3.10]
        at java.lang.Thread.run(Thread.java:745) ~[na:1.8.0_91]
Caused by: java.lang.RuntimeException: Could not create snapshot at 
/10.22.150.204
        at 
org.apache.cassandra.repair.SnapshotTask$SnapshotCallback.onFailure(SnapshotTask.java:80)
 ~[apache-cassandra-3.10.jar:3.10]
        at 
org.apache.cassandra.net.ResponseVerbHandler.doVerb(ResponseVerbHandler.java:47)
 ~[apache-cassandra-3.10.jar:3.10]
        at 
org.apache.cassandra.net.MessageDeliveryTask.run(MessageDeliveryTask.java:66) 
~[apache-cassandra-3.10.jar:3.10]
        at 
java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) 
~[na:1.8.0_91]
        at java.util.concurrent.FutureTask.run(FutureTask.java:266) 
~[na:1.8.0_91]
        ... 4 common frames omitted
{quote}

Is this normal ? :/


> Nodetool repair fails with snapshot error message
> -------------------------------------------------
>
>                 Key: CASSANDRA-13390
>                 URL: https://issues.apache.org/jira/browse/CASSANDRA-13390
>             Project: Cassandra
>          Issue Type: Bug
>         Environment: * CentOS 7 : 4.4.21-1.el7.elrepo.x86_64
> * Cassandra 3.10 (setup from vanilla tar.gz)
>            Reporter: Barthelemy Vessemont
>
> I'm trying to run a repair with following options :
> {{nodetool repair -seq -full -pr some_keyspace some_table1 some_table2 
> some_other_table ...}}
> `some_keyspace` definition :
> {quote}
> CREATE KEYSPACE some_keyspace WITH replication = <'class': 
> 'NetworkTopologyStrategy', 'AMST': '3'>  AND durable_writes = true;
> {quote}
> Tables can be both of DTCS and LCS
> Cluster :
> {quote}
> Datacenter: AMST
> ===============
> Status=Up/Down
> |/ State=Normal/Leaving/Joining/Moving
> --  Address        Load       Tokens       Owns    Host ID                    
>            Rack
> UN  10.22.150.236  205.22 GiB  256          ?       xxxx  B04
> UN  10.22.150.204  200.87 GiB  256          ?       yyyy  B05
> UN  10.22.140.77   203.12 GiB  256          ?       zzzz  D22
> {quote}
> Repair starts well but seems to fails at creating remote snapshots on nodes 
> holding replicas:
> *info* : no other repair have been started on others nodes during this time, 
> snapshots were also cleaned before.
> {quote}
> # nodetool repair -seq -full -pr some_keyspace some_table1 some_table2 
> some_other_table ...
> 11:42:03      [2017-03-29 09:42:03,399] Starting repair command #10 
> (f6dac620-1463-11e7-aa9f-01f10058e068), repairing keyspace some_keyspace with 
> repair options (parallelism: sequential, primary range: true, incremental: 
> false, job threads: 1, ColumnFamilies: [some_keyspace, some_table1, 
> some_table2, some_other_table], dataCenters: [], hosts: [], # of ranges: 256, 
> pull repair: false)
> 11:47:43      [2017-03-29 09:47:43,578] Repair session 
> f6e74940-1463-11e7-aa9f-01f10058e068 for range 
> [(4978050141600810389,4982072488404840895], 
> (-1340498249852980466,-1311689893502261125], 
> (-5302264476874517513,-5291739032085711936], 
> (-5981241605827420506,-5966850479287809973], 
> (1857121221013279321,1899365815561615863], 
> (942740326159033054,946603639333506869], 
> (382316032181285431,397235785699549982],
> [...]
> (-6731897432582288959,-6728305970724193972], 
> (-3193765198824884162,-3152653432337268817], 
> (6879878057460360708,6898924573938960263], 
> (7238964282930318864,7282255874655871690], 
> (-4737709921934606628,-4734841018997895217]] failed with error Could not 
> create snapshot at /10.22.150.204 (progress: 1%)
> 11:47:43      [2017-03-29 09:47:43,579] Parent repair session with id = 
> f6dac620-1463-11e7-aa9f-01f10058e068 has failed.
> 11:47:43      [2017-03-29 09:47:43,580] Repair command #10 finished in 5 
> minutes 40 seconds
> {quote}
> errors logs on replica side :
> {quote}
> ERROR [AntiEntropyStage:1] 2017-03-29 09:47:43,577 
> RepairMessageVerbHandler.java:168 - Got error, removing parent repair session
> ERROR [AntiEntropyStage:1] 2017-03-29 09:47:43,578 CassandraDaemon.java:229 - 
> Exception in thread Thread[AntiEntropyStage:1,5,main]
> java.lang.RuntimeException: Parent repair session with id = 
> f6dac620-1463-11e7-aa9f-01f10058e068 has failed.
>         at 
> org.apache.cassandra.service.ActiveRepairService.getParentRepairSession(ActiveRepairService.java:400)
>  ~[apache-cassandra-3.10.jar:3.10]
>         at 
> org.apache.cassandra.service.ActiveRepairService.removeParentRepairSession(ActiveRepairService.java:416)
>  ~[apache-cassandra-3.10.jar:3.10]
>         at 
> org.apache.cassandra.repair.RepairMessageVerbHandler.doVerb(RepairMessageVerbHandler.java:170)
>  ~[apache-cassandra-3.10.jar:3.10]
>         at 
> org.apache.cassandra.net.MessageDeliveryTask.run(MessageDeliveryTask.java:66) 
> ~[apache-cassandra-3.10.jar:3.10]
>         at 
> java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) 
> ~[na:1.8.0_91]
>         at java.util.concurrent.FutureTask.run(FutureTask.java:266) 
> ~[na:1.8.0_91]
>         at 
> java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
>  ~[na:1.8.0_91]
>         at 
> java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
>  [na:1.8.0_91]
>         at 
> org.apache.cassandra.concurrent.NamedThreadFactory.lambda$threadLocalDeallocator$0(NamedThreadFactory.java:79)
>  [apache-cassandra-3.10.jar:3.10]
>         at java.lang.Thread.run(Thread.java:745) ~[na:1.8.0_91]
> WARN  [RepairJobTask:13] 2017-03-29 09:47:43,578 RepairJob.java:153 - [repair 
> #f6e74940-1463-11e7-aa9f-01f10058e068] span_names sync failed
> ERROR [Repair#10:4] 2017-03-29 09:47:43,578 CassandraDaemon.java:229 - 
> Exception in thread Thread[Repair#10:4,5,RMI Runtime]
> com.google.common.util.concurrent.UncheckedExecutionException: 
> java.lang.RuntimeException: Could not create snapshot at /10.22.150.204
>         at 
> com.google.common.util.concurrent.Futures.wrapAndThrowUnchecked(Futures.java:1525)
>  ~[guava-18.0.jar:na]
>         at 
> com.google.common.util.concurrent.Futures.getUnchecked(Futures.java:1511) 
> ~[guava-18.0.jar:na]
>         at org.apache.cassandra.repair.RepairJob.run(RepairJob.java:160) 
> ~[apache-cassandra-3.10.jar:3.10]
>         at 
> java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
>  ~[na:1.8.0_91]
>         at 
> java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
>  ~[na:1.8.0_91]
>         at 
> org.apache.cassandra.concurrent.NamedThreadFactory.lambda$threadLocalDeallocator$0(NamedThreadFactory.java:79)
>  ~[apache-cassandra-3.10.jar:3.10]
>         at java.lang.Thread.run(Thread.java:745) ~[na:1.8.0_91]
> Caused by: java.lang.RuntimeException: Could not create snapshot at 
> /10.22.150.204
>         at 
> org.apache.cassandra.repair.SnapshotTask$SnapshotCallback.onFailure(SnapshotTask.java:80)
>  ~[apache-cassandra-3.10.jar:3.10]
>         at 
> org.apache.cassandra.net.ResponseVerbHandler.doVerb(ResponseVerbHandler.java:47)
>  ~[apache-cassandra-3.10.jar:3.10]
>         at 
> org.apache.cassandra.net.MessageDeliveryTask.run(MessageDeliveryTask.java:66) 
> ~[apache-cassandra-3.10.jar:3.10]
>         at 
> java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) 
> ~[na:1.8.0_91]
>         at java.util.concurrent.FutureTask.run(FutureTask.java:266) 
> ~[na:1.8.0_91]
>         ... 4 common frames omitted
> {quote}
> Is this normal ? :/



--
This message was sent by Atlassian JIRA
(v6.3.15#6346)

[jira] [Updated] (CASSANDRA-13390) Nodetool repair fails with snapshot error message

Reply via email to