Ellerson, SE a amostra de dados que você passou é um bom exemplo, você tem um problema *anterior* para resolver que é o de multiplicidade de entradas com grafia levemente diferentes. . .
Veja as linhas cinco e seis do seu exemplo que o enquadramento, embora igual do ponto de vista legal, está escrito de forma levemente diferente e faria qualquer *script* (aliás, em qualquer linguagem, não só no R) entrar em parafuso 😶. . . Há vários autores que dizem que a preparação e "limpeza" dos dados leva 80% do tempo de análise dos dados... Para atingir teus objetivos precisarás fazer uma busca no seu BD pela cadeia de caracteres que contenha o "ART. 14 - CP" e a partir dessa lista auxiliar ir eliminando as linhas e incluir numa nova coluna nos número de processo correspondentes. HTH -- Cesar Rabak On Sat, Aug 31, 2019 at 12:29 PM Elerson por (R-br) < r-br@listas.c3sl.ufpr.br> wrote: > Prezados: > > Trabalho um banco de dados com mais de 10000 linhas, representado pelo > exemplo abaixo. > > *PROCESSO* *DATA_DISTRIBUICAO* *NOME_PARTE* *DATA_CRIME* *DATA_DENUNCIA* > *ENQUADRAMENTO* > 180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - > 11.343/06 > 180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - > 11.343/06 > 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06 > 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06 > 180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º > INC. II E IV - CPB > 180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º > INC.II E IV - CPB > 180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º > INC. II E IV - CPB > 180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2 INC.I > E II - CP > 180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.14 - CP > > Hipóteses: > > a) mesmo PROCESSO, NOME_PARTE diferentes, ENQUADRAMENTO igual (linhas 1 e > 2) > > b) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 3 e > 4) > > c) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 8 e > 9) > > Minha questão se refere à hipótese c: preciso criar um coluna > (enquadramento2) para transferir o art. 14 transformando o caso em apenas > uma linha… sem que se mexa na hipótese b. Em todo o banco sempre estará > escrito ART.14 – CP. > > Para ficar assim: > > *PROCESSO* *DATA_DISTRIBUICAO* *NOME_PARTE* *DATA_CRIME* *DATA_DENUNCIA* > *ENQUADRAMENTO* *ENQUADRAMENTO2* > 180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - > 11.343/06 > 180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT - > 11.343/06 > 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06 > 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06 > 180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º > INC. II E IV - CPB > 180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º > INC.II E IV - CPB > 180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º > INC. II E IV - CPB > 180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2 INC.I > E II - CP ART.14 - CP > > Obrigado. > > > > > _______________________________________________ > R-br mailing list > R-br@listas.c3sl.ufpr.br > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça > código mínimo reproduzível. >
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.