Re: [fr-users] Analyse sémantique d'un fichier csv ?
Bonjour J'ouvre seulement ce fil rapidement parcouru. Depuis Calc, personne n'a proposé l'utilisation du tableau dynamique ? Ça me semble répondre à la demande initiale. -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ? ( administration et traitement de journaux)
Le 11/05/2021 à 12:19, Bernard Schoenacker a écrit : Ensuite, pourquoi ne pas vouloir installer un sous système Linux sur le poste qui fait le travail ? documentation pour installer WSL2 : https://docs.microsoft.com/en-us/windows/wsl/install-win10 Personnellement, je n'aime pas trop cette "usine à gaz", on ne maîtrise pas tout, comme d'habitude chez Micromou. J'utilise vmware (de manière personnelle) avec beaucoup de satisfaction, ça me permet d'avoir plusieurs types de machines virtuelles linux pour répondre aux questions de mes correspondants. Bonne journée, -- Jean-Michel COSTE -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
voici la traduction en powershell (disponible sous ton windows) : $mot = New-Object 'system.collections.generic.dictionary[string,double]' foreach($ligne in get-content test.csv){foreach($valeur in -split $ligne){$mot[$valeur]++}} $mot ceci est équivalent à la ligne Gawk. Pour l'explication combinée : 1) définition d'un collection "dictionnaire en powershell" (obligé car sinon marche pas) $mot = New-Object 'system.collections.generic.dictionary[string,double]' 2) foreach( -- pour chaque element rencontré $ligne in get-content test.CSV-- on extrait le contenu du fichier test.csv foreach( -- pour chaque element rencontrés $valeur in split $ligne-- on recupere dans $valeur tous les élements de $ligne séparé (split sépare par défaut avec espace). {$mot[$valeur]++}- on incrémente le compteur relatif au mot trouvé. On aura donc un tableau contenant par exemple : $mot["mot1"=1, $mot["mot4"]=2, etc ... 3) affichage du tableau $mot gawk '{a[$0]++} END{for (k in a) print k,a[k]}' RS='[[:space:]]+' test.csv 1) par défaut gawk traite par ligne et ici on fixe le RecordSeparator (RS) à un espace ou +RS='[[:space]]+' 2) pour chaque ligne, {a[$0]++} -- voici toute la puissance du truc, $0 ce sont les éléments trouvés entre chaque RS (record séparator), ici les mots. On incremente donc le tableau a["motxxx"] de 1 (via ++ ) 3) END{for (k in a) print k,a[k]}' Après avoir tout traité le fichier, on affiche tous les éléments du tableau (for k in a) et on imprime le mot (k) et sa valeur comptée a[k] J'espère avoir pas été trop technique ;) Yves Le mar. 11 mai 2021 à 00:43, yves dutrieux a écrit : > Bonjour, > > le tableur n'est pas le meilleur outil pour cela, > awk/gawk/powershell peuvent à mon avis le faire très facilement : > sous ubuntu wsl (avec win100) si ton fichier s'appelle test.csv et si ton > délimiteur de mot est un ou plusieurs espaces : > > gawk '{a[$0]++} END{for (k in a) print k,a[k]}' RS='[[:space:]]+' test.csv > > te donneras ce que tu souhaites. > En fait, il faut créer une "collection" ou table hash avec comme index les > mots trouvés et tu additionnes la valeur. > > Yves > > Le lun. 10 mai 2021 à 09:00, Nicolas Abel a > écrit : > >> Bonjour à tous. >> >> J'aurais besoin de faire une analyse sémantique d'un fichier csv. >> Une colonne de ce fichier contient des chaînes de caractères; j'aurais >> besoin de trouver les mots les plus fréquents et de compter le nombre d' >> occurrences. >> >> Je vais probablement pouvoir trouver un outil tierce qui sache le faire; >> mais je préférerais de loin pouvoir faire cela avec mon tableur préféré. >> >> J'imagine qu'il y a des solutions basées sur les expressions régulières >> par exemple; mais cela dépasse soit mon imagination, soit mes >> compétences, soit les deux :) >> >> Si vous avez des idées, je suis preneur. >> >> En vous remerciant par avance pour votre aide. >> >> Nicolas. >> >> >> -- >> Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous >> désinscrire >> Les archives de la liste sont disponibles à >> https://listarchives.libreoffice.org/fr/users/ >> Privacy Policy: https://www.documentfoundation.org/privacy >> > > > -- > web site : http://www.molenbaix.com > -- web site : http://www.molenbaix.com -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ? ( administration et traitement de journaux)
- Mail original - > De: "Nicolas Abel" > À: users@fr.libreoffice.org > Envoyé: Mardi 11 Mai 2021 11:52:28 > Objet: Re: [fr-users] Analyse sémantique d'un fichier csv ? > > L'extraction sur laquelle je travaille est bien un tableau (en csv). > > Les entêtes de colonnes sont : Date;Nom de l'utilisateur;Nom > Complet;Bureau de l'utilisateur;Service de l'utilisateur;Email;Numéro > de > badge principal;Compte débité;Nom compte partagé;Code compte > partagé;Nom > parent du compte partagé;Code parent du compte partagé;Sous nom du > compte partagé;Sous code du Compte partagé;Serveur d'impression;Nom > de > l'Imprimante;Adresse physique de l'imprimante;Type/Modèle > d'Imprimante;Numéro de série de l'Imprimante;Document;Type > d'Utilisation;Total de Pages;Nombre total de pages couleur;Estimation > pages couleur;Copies;Coût;Taille du papier;Largeur du papier > (mm);Hauteur du papier (mm);Recto/Verso;Noir et > Blanc;Facturé;Client;Taille (ko);Langage de > l'Imprimante;Commentaire;Imprimé;Annulé;Remboursé;Autorisé;Motif de > refus;Archivé;Hors Ligne;Pages recto verso;Pages recto. > > 1 ligne par job d'impression > > La colonne "Document" contient l'objet, et c'est elle que je vais > tenter > d'analyser. > > D'autres champs m'intéressent. > Du coup, je vais certainement utiliser une solution hybride R/R > Studio + > scripts + calc. > > à suivre... > > merci encore. > > Nicolas. Bonjour Nicolas, Puisque c'est un journal qui trace les impressions, voici ce qui serait intéressant de mettre en place : -a) serveur web élémentaire -b) mettre en place une sonde de type rrdtools documentation : https://oss.oetiker.ch/rrdtool/doc/rrdtool.en.html pour la suite, je déconseille de passer par un format csv qui est un casse-tête du fait que les formats et différents encodages ne sont pas convenablement gérés ... Ensuite, pourquoi ne pas vouloir installer un sous système Linux sur le poste qui fait le travail ? documentation pour installer WSL2 : https://docs.microsoft.com/en-us/windows/wsl/install-win10 https://azuretar.com/wsl-install/ https://ubuntu.com/blog/ubuntu-on-wsl-2-is-generally-available https://geekmag.fr/blog/2020/02/23/windows-10-installer-wsl-2-et-deployer-debian-ubuntu-sans-microsoft-store/ https://stackoverflow.com/questions/65717484/installing-ubuntu-and-wsl2-on-a-non-windows-drive après il suffira d'installer les outils (logiciels) nécessaires pour réaliser le traitement du fichier et d'extraire les groupes d'utilisateurs par affinités ... documentation sur la prise en main de WSL2 : https://www.spritle.com/blogs/2020/11/26/how-to-use-ubuntu-on-windows-subsystem-for-linux-wsl2/ en Français : https://korben.info/installer-wsl2-windows-linux.html Merci pour ton aimable attention Bien à toi Bernard -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
Le 11/05/2021 à 11:52, Nicolas Abel a écrit : L'extraction sur laquelle je travaille est bien un tableau (en csv). Les entêtes de colonnes sont : Date;Nom de l'utilisateur;Nom Complet;Bureau de l'utilisateur;Service de l'utilisateur;Email;Numéro de badge principal;Compte débité;Nom compte partagé;Code compte partagé;Nom parent du compte partagé;Code parent du compte partagé;Sous nom du compte partagé;Sous code du Compte partagé;Serveur d'impression;Nom de l'Imprimante;Adresse physique de l'imprimante;Type/Modèle d'Imprimante;Numéro de série de l'Imprimante;Document;Type d'Utilisation;Total de Pages;Nombre total de pages couleur;Estimation pages couleur;Copies;Coût;Taille du papier;Largeur du papier (mm);Hauteur du papier (mm);Recto/Verso;Noir et Blanc;Facturé;Client;Taille (ko);Langage de l'Imprimante;Commentaire;Imprimé;Annulé;Remboursé;Autorisé;Motif de refus;Archivé;Hors Ligne;Pages recto verso;Pages recto. 1 ligne par job d'impression Ok, au temps pour moi, c'est quasiment une base de données. S'il n'y a pas de secret, peut-on avoir une idée ce champ Document, avec quelques exemples ? Bonne journée -- Jean-Michel COSTE -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
L'extraction sur laquelle je travaille est bien un tableau (en csv). Les entêtes de colonnes sont : Date;Nom de l'utilisateur;Nom Complet;Bureau de l'utilisateur;Service de l'utilisateur;Email;Numéro de badge principal;Compte débité;Nom compte partagé;Code compte partagé;Nom parent du compte partagé;Code parent du compte partagé;Sous nom du compte partagé;Sous code du Compte partagé;Serveur d'impression;Nom de l'Imprimante;Adresse physique de l'imprimante;Type/Modèle d'Imprimante;Numéro de série de l'Imprimante;Document;Type d'Utilisation;Total de Pages;Nombre total de pages couleur;Estimation pages couleur;Copies;Coût;Taille du papier;Largeur du papier (mm);Hauteur du papier (mm);Recto/Verso;Noir et Blanc;Facturé;Client;Taille (ko);Langage de l'Imprimante;Commentaire;Imprimé;Annulé;Remboursé;Autorisé;Motif de refus;Archivé;Hors Ligne;Pages recto verso;Pages recto. 1 ligne par job d'impression La colonne "Document" contient l'objet, et c'est elle que je vais tenter d'analyser. D'autres champs m'intéressent. Du coup, je vais certainement utiliser une solution hybride R/R Studio + scripts + calc. à suivre... merci encore. Nicolas. Signature2020 Le 11/05/2021 à 13:33, Jean-Michel COSTE a écrit : Le 11/05/2021 à 10:44, Nicolas Abel a écrit : Bonjour à tous, Tout d'abord, merci de vos réponses. Je m'aperçois que ma demande est effectivement plus complexe que je ne me l'imaginais; d'autant que les tableaux sont volumineux (csv>70Mo; >25 lignes / AS colonnes). . L'objectif est de pouvoir extraire du sens de logs d'impressions Bonjour, Donc, il s'agit de fichiers texte, plus faciles à traiter en dehors de Calc, qui ne servira que pour les résultats ? Vu la demande initiale, on n'était pas loin d'un problème XY😁 Cordialement, -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
Le 11/05/2021 à 10:44, Nicolas Abel a écrit : Bonjour à tous, Tout d'abord, merci de vos réponses. Je m'aperçois que ma demande est effectivement plus complexe que je ne me l'imaginais; d'autant que les tableaux sont volumineux (csv>70Mo; >25 lignes / AS colonnes). . L'objectif est de pouvoir extraire du sens de logs d'impressions Bonjour, Donc, il s'agit de fichiers texte, plus faciles à traiter en dehors de Calc, qui ne servira que pour les résultats ? Vu la demande initiale, on n'était pas loin d'un problème XY😁 Cordialement, -- Jean-Michel COSTE -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
Bonjour à tous, Tout d'abord, merci de vos réponses. Je m'aperçois que ma demande est effectivement plus complexe que je ne me l'imaginais; d'autant que les tableaux sont volumineux (csv>70Mo; >25 lignes / AS colonnes). Malheureusement, je n'ai pas de linux à disposition; à des fins de support, ma machine est identique à celles de nos utilisateurs => W10. J'ai commencé à creuser R + RStudio qui ont l'air de faire ce dont j'ai besoin. et j'utilise sed pour windows pour faire un nettoyage préalable des données (sans grand succès pour l'instant). Le problème des nuages en ligne est l'impossibilité d'industrialiser. L'objectif est de pouvoir extraire du sens de logs d'impressions afin d'identifier quels flux sont les plus matérialisés puis en éviter l'impression si possible (une approche qualitative plutôt que volumétrique en somme). En fonction des mots récurrents, je vais aussi savoir déterminer les services d'origine, les périodes de pics et de creux dans l'année, etc. Idéalement, il faut que je puisse batcher (ou faire le moins de manoeuvres possible) pour pouvoir sortir les indicateurs chiffrés (Calc) + les nuages de mots sans y passer trop de temps. Merci pour vos idées; je posterai la solution retenue avec un exemple quand la réalisation sera terminée. A bientôt. Nicolas. Le 10/05/2021 à 18:55, Claire a écrit : Bonjour Le souci c'est aussi de vouloir privilégier "son tableur préféré" pour faire ça. En réalité, il faudrait isoler d'abord chaque occurence. Comme le dit Jean Michel, si une même occurence comporte un espace, déjà c'est bancal. Dit autrement Il te faudrait donc déjà un séparateur unique permettant d'identifier les occurences... sans que ce séparateur serve par ailleurs Alors qu'il existe des outils qui, à partir d'un texte, te construisent des nuages de mots clés selon leur fréquence, ça peut même se paramétrer (toujours... avec R). Mais des nuages de mots clés, ça se fait aussi directement en ligne, en copiant ton texte... Il reste que tu auras toujours une problématique pour identifier les occurences si la chaine de caractère contient plusieurs mots... Claire Le 10/05/2021 à 16:27, Jean-Michel COSTE a écrit : Le 10/05/2021 à 08:48, Nicolas Abel a écrit : j'aurais besoin de*trouver les mots les plus fréquents* et de compter le nombre d' occurrences. Bonjour, Si les chaînes de caractères contiennent plusieurs mots et Si tu ne sais pas par avance quels mots chercher/compter, les expressions régulières et les outils bash proposés par Bernard ne te seront d'aucun secours. Et je ne vois pas d'outils simples pour réaliser ça Cordialement, -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
- Mail original - > De: "yves dutrieux" > À: "Nicolas Abel" > Cc: "users LibreOffice LO" > Envoyé: Mardi 11 Mai 2021 00:43:06 > Objet: Re: [fr-users] Analyse sémantique d'un fichier csv ? > > Bonjour, > > le tableur n'est pas le meilleur outil pour cela, > awk/gawk/powershell peuvent à mon avis le faire très facilement : > sous ubuntu wsl (avec win100) si ton fichier s'appelle test.csv et si > ton > délimiteur de mot est un ou plusieurs espaces : > > gawk '{a[$0]++} END{for (k in a) print k,a[k]}' RS='[[:space:]]+' > test.csv > > te donneras ce que tu souhaites. > En fait, il faut créer une "collection" ou table hash avec comme > index les > mots trouvés et tu additionnes la valeur. > > Yves Bonjour Yves, Pourrais-tu faire un effort supplémentaire en indiquant ce que fait chaque valeur avec awk afin que les utilisateurs d'un "système d'ignorance privateur" puissent en prendre de la graine Merci pour ton aimable attention Bien à toi Bernard -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
Bonjour, le tableur n'est pas le meilleur outil pour cela, awk/gawk/powershell peuvent à mon avis le faire très facilement : sous ubuntu wsl (avec win100) si ton fichier s'appelle test.csv et si ton délimiteur de mot est un ou plusieurs espaces : gawk '{a[$0]++} END{for (k in a) print k,a[k]}' RS='[[:space:]]+' test.csv te donneras ce que tu souhaites. En fait, il faut créer une "collection" ou table hash avec comme index les mots trouvés et tu additionnes la valeur. Yves Le lun. 10 mai 2021 à 09:00, Nicolas Abel a écrit : > Bonjour à tous. > > J'aurais besoin de faire une analyse sémantique d'un fichier csv. > Une colonne de ce fichier contient des chaînes de caractères; j'aurais > besoin de trouver les mots les plus fréquents et de compter le nombre d' > occurrences. > > Je vais probablement pouvoir trouver un outil tierce qui sache le faire; > mais je préférerais de loin pouvoir faire cela avec mon tableur préféré. > > J'imagine qu'il y a des solutions basées sur les expressions régulières > par exemple; mais cela dépasse soit mon imagination, soit mes > compétences, soit les deux :) > > Si vous avez des idées, je suis preneur. > > En vous remerciant par avance pour votre aide. > > Nicolas. > > > -- > Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous > désinscrire > Les archives de la liste sont disponibles à > https://listarchives.libreoffice.org/fr/users/ > Privacy Policy: https://www.documentfoundation.org/privacy > -- web site : http://www.molenbaix.com -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
Bonjour Le souci c'est aussi de vouloir privilégier "son tableur préféré" pour faire ça. En réalité, il faudrait isoler d'abord chaque occurence. Comme le dit Jean Michel, si une même occurence comporte un espace, déjà c'est bancal. Dit autrement Il te faudrait donc déjà un séparateur unique permettant d'identifier les occurences... sans que ce séparateur serve par ailleurs Alors qu'il existe des outils qui, à partir d'un texte, te construisent des nuages de mots clés selon leur fréquence, ça peut même se paramétrer (toujours... avec R). Mais des nuages de mots clés, ça se fait aussi directement en ligne, en copiant ton texte... Il reste que tu auras toujours une problématique pour identifier les occurences si la chaine de caractère contient plusieurs mots... Claire Le 10/05/2021 à 16:27, Jean-Michel COSTE a écrit : Le 10/05/2021 à 08:48, Nicolas Abel a écrit : j'aurais besoin de*trouver les mots les plus fréquents* et de compter le nombre d' occurrences. Bonjour, Si les chaînes de caractères contiennent plusieurs mots et Si tu ne sais pas par avance quels mots chercher/compter, les expressions régulières et les outils bash proposés par Bernard ne te seront d'aucun secours. Et je ne vois pas d'outils simples pour réaliser ça Cordialement, -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
- Mail original - > De: "Nicolas Abel" > À: users@fr.libreoffice.org > Envoyé: Lundi 10 Mai 2021 08:48:58 > Objet: [fr-users] Analyse sémantique d'un fichier csv ? > > Bonjour à tous. > > J'aurais besoin de faire une analyse sémantique d'un fichier csv. > Une colonne de ce fichier contient des chaînes de caractères; > j'aurais > besoin de trouver les mots les plus fréquents et de compter le nombre > d' > occurrences. > > Je vais probablement pouvoir trouver un outil tierce qui sache le > faire; > mais je préférerais de loin pouvoir faire cela avec mon tableur > préféré. > > J'imagine qu'il y a des solutions basées sur les expressions > régulières > par exemple; mais cela dépasse soit mon imagination, soit mes > compétences, soit les deux :) > > Si vous avez des idées, je suis preneur. > > En vous remerciant par avance pour votre aide. > > Nicolas. > Bonjour, J'ai continué à faire des recherches et voici ce qui existe : https://www.rtextminer.com/index.html https://www.opensemanticsearch.org/ attention, il faut bien nettoyer le fichier csv pour en extraire les occurrences ... le paquet deb à installer : https://www.opensemanticsearch.org/download/ Merci pour votre aimable attention Bien à vous Bernard -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
- Mail original - > De: "Nicolas Abel" > À: users@fr.libreoffice.org > Envoyé: Lundi 10 Mai 2021 08:48:58 > Objet: [fr-users] Analyse sémantique d'un fichier csv ? > > Bonjour à tous. > > J'aurais besoin de faire une analyse sémantique d'un fichier csv. > Une colonne de ce fichier contient des chaînes de caractères; > j'aurais > besoin de trouver les mots les plus fréquents et de compter le nombre > d' > occurrences. > > Je vais probablement pouvoir trouver un outil tierce qui sache le > faire; > mais je préférerais de loin pouvoir faire cela avec mon tableur > préféré. > > J'imagine qu'il y a des solutions basées sur les expressions > régulières > par exemple; mais cela dépasse soit mon imagination, soit mes > compétences, soit les deux :) > > Si vous avez des idées, je suis preneur. > > En vous remerciant par avance pour votre aide. > > Nicolas. > Bonjour, Je suis navré de devoir faire une mise au point détaillé, voici les points à préciser : - encodage du fichier CSV - format des lignes - noms ayant des caractères spéciaux ou détachés - origine des données - version d'origine et date de départ du document pourriez vous également fournir un échantillon extrait du fichier afin de trouver la bonne solution ... Merci pour votre aimable attention Bien à vous Bernard -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
- Mail original - > De: "Jean-Pierre Giraud" > À: users@fr.libreoffice.org > Envoyé: Lundi 10 Mai 2021 17:47:26 > Objet: Re: [fr-users] Analyse sémantique d'un fichier csv ? > > Bonjour, > Mon outil de courrier ce qu'il faut rajouter à la fin de la ligne est > défiguré. C'est juste > decompte.txt > > Le 10/05/2021 à 17:41, Jean-Pierre Giraud a écrit : > > Jean-Pierre Giraud > Hello JP, j'ai une alternative à proposer et il suffit d'employer la commande tee après le tube, exemple : cat fichier.csv |tee fichier-sortie-$(date +"%D+%H+%M+%S").txt Merci pour ton aimable attention Bien à toi Bernard -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
Bonjour, Mon outil de courrier ce qu'il faut rajouter à la fin de la ligne est défiguré. C'est juste > decompte.txt Le 10/05/2021 à 17:41, Jean-Pierre Giraud a écrit : > Bonjour, > > Le 10/05/2021 à 16:27, Jean-Michel COSTE a écrit : >> Le 10/05/2021 à 08:48, Nicolas Abel a écrit : >>> j'aurais besoin de*trouver les mots les plus fréquents* et de compter >>> le nombre d' occurrences. >> >> Bonjour, >> >> Si les chaînes de caractères contiennent plusieurs mots et Si tu ne sais >> pas par avance quels mots chercher/compter, les expressions régulières >> et les outils bash proposés par Bernard ne te seront d'aucun secours. >> >> Et je ne vois pas d'outils simples pour réaliser ça >> >> Cordialement, >> > J'ai trouvé cela si tu utilises Linux (je ne sais pas s'il y a > l'équivalent de sed sous windows...) : > https://unix.stackexchange.com/questions/2244/how-do-i-count-the-number-of-occurrences-of-a-word-in-a-text-file-with-the-comma > C'est la quatrième réponse qui détaille la méthode. > > Il faut extraite la colonne que tu veux analyser et la copier dans un > fichier .csv puis y appliquer la commande suivante en la collant dans un > terminal : > sed -e 's/[^[:alpha:]]/ /g' ton_fichier.csv | tr '\n' " " | tr -s " " | > tr " " '\n'| tr 'A-Z' 'a-z' | sort | uniq -c | sort -nr | nl > tu peut rediriger le résultat vers un fichier .txt en ajoutant à la fin >> decompte.txt > Et ça marche... Jean-Pierre Giraud -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
Bonjour, Le 10/05/2021 à 16:27, Jean-Michel COSTE a écrit : > Le 10/05/2021 à 08:48, Nicolas Abel a écrit : >> j'aurais besoin de*trouver les mots les plus fréquents* et de compter >> le nombre d' occurrences. > > Bonjour, > > Si les chaînes de caractères contiennent plusieurs mots et Si tu ne sais > pas par avance quels mots chercher/compter, les expressions régulières > et les outils bash proposés par Bernard ne te seront d'aucun secours. > > Et je ne vois pas d'outils simples pour réaliser ça > > Cordialement, > J'ai trouvé cela si tu utilises Linux (je ne sais pas s'il y a l'équivalent de sed sous windows...) : https://unix.stackexchange.com/questions/2244/how-do-i-count-the-number-of-occurrences-of-a-word-in-a-text-file-with-the-comma C'est la quatrième réponse qui détaille la méthode. Il faut extraite la colonne que tu veux analyser et la copier dans un fichier .csv puis y appliquer la commande suivante en la collant dans un terminal : sed -e 's/[^[:alpha:]]/ /g' ton_fichier.csv | tr '\n' " " | tr -s " " | tr " " '\n'| tr 'A-Z' 'a-z' | sort | uniq -c | sort -nr | nl tu peut rediriger le résultat vers un fichier .txt en ajoutant à la fin > decompte.txt Et ça marche... Amicalement, Jean-Pierre Giraud -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
Le 10/05/2021 à 08:48, Nicolas Abel a écrit : j'aurais besoin de*trouver les mots les plus fréquents* et de compter le nombre d' occurrences. Bonjour, Si les chaînes de caractères contiennent plusieurs mots et Si tu ne sais pas par avance quels mots chercher/compter, les expressions régulières et les outils bash proposés par Bernard ne te seront d'aucun secours. Et je ne vois pas d'outils simples pour réaliser ça Cordialement, -- Jean-Michel COSTE -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
- Mail original - > De: "Bernard Schoenacker" > À: "Nicolas Abel" > Cc: users@fr.libreoffice.org > Envoyé: Lundi 10 Mai 2021 10:38:35 > Objet: Re: [fr-users] Analyse sémantique d'un fichier csv ? > > > > - Mail original - > > De: "Nicolas Abel" > > À: users@fr.libreoffice.org > > Envoyé: Lundi 10 Mai 2021 08:48:58 > > Objet: [fr-users] Analyse sémantique d'un fichier csv ? > > > > Bonjour à tous. > > > > J'aurais besoin de faire une analyse sémantique d'un fichier csv. > > Une colonne de ce fichier contient des chaînes de caractères; > > j'aurais > > besoin de trouver les mots les plus fréquents et de compter le > > nombre > > d' > > occurrences. > > > > Je vais probablement pouvoir trouver un outil tierce qui sache le > > faire; > > mais je préférerais de loin pouvoir faire cela avec mon tableur > > préféré. > > > > J'imagine qu'il y a des solutions basées sur les expressions > > régulières > > par exemple; mais cela dépasse soit mon imagination, soit mes > > compétences, soit les deux :) > > > > Si vous avez des idées, je suis preneur. > > > > En vous remerciant par avance pour votre aide. > > > > Nicolas. > > > > Bonjour Nicolas, > > Pour ton problème de Regex il suffit de passer par > le shell Bash et d'employer sed pour filtrer les > ocurrences, documentation : > > documentation : > https://www.gnu.org/software/sed/manual/html_node/Regular-Expressions.html > https://likegeeks.com/regex-tutorial-linux/ > > documentation traduite : > https://ftp.traduc.org/doc-vf/echo-linux/html/sed-awk/sed-awk.html > > présentation : > https://www.zdnet.fr/actualites/sed-et-awk-deux-outils-precieux-sous-unix-2127155.htm > > comment installer le shell Bash pour Microsoft OS version 10 : > > (Anglais) https://mspoweruser.com/install-bash-windows-10/ > (Anglais) https://itsfoss.com/install-bash-on-windows/ > > > (Français) > https://korben.info/installer-shell-bash-linux-windows-10.html > (Français) > https://blog.shevarezo.fr/post/2016/08/15/comment-installer-bash-sur-windows-10 > > installation des outils : > > sudo apt-get install -y sed awk regexxer txt2regex most less > > Merci pour ton aimable attention > > Bien à toi > > Bernard Re-Bonjour, serait il possible d'être plus prolixe sur le sujet afin de déterminer si je ne suis pas sur la mauvaise piste ? ensuite, je conseille de reprendre le fichier csv et d'employer après avoir réalisé une copie de travail d'employer : - tr - sort - uniq -c et le résultat final souhaité devrait être viable et exploitable Merci pour ton aimable attention Bien à toi Bernard -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
Re: [fr-users] Analyse sémantique d'un fichier csv ?
- Mail original - > De: "Nicolas Abel" > À: users@fr.libreoffice.org > Envoyé: Lundi 10 Mai 2021 08:48:58 > Objet: [fr-users] Analyse sémantique d'un fichier csv ? > > Bonjour à tous. > > J'aurais besoin de faire une analyse sémantique d'un fichier csv. > Une colonne de ce fichier contient des chaînes de caractères; > j'aurais > besoin de trouver les mots les plus fréquents et de compter le nombre > d' > occurrences. > > Je vais probablement pouvoir trouver un outil tierce qui sache le > faire; > mais je préférerais de loin pouvoir faire cela avec mon tableur > préféré. > > J'imagine qu'il y a des solutions basées sur les expressions > régulières > par exemple; mais cela dépasse soit mon imagination, soit mes > compétences, soit les deux :) > > Si vous avez des idées, je suis preneur. > > En vous remerciant par avance pour votre aide. > > Nicolas. > Bonjour Nicolas, Pour ton problème de Regex il suffit de passer par le shell Bash et d'employer sed pour filtrer les ocurrences, documentation : documentation : https://www.gnu.org/software/sed/manual/html_node/Regular-Expressions.html https://likegeeks.com/regex-tutorial-linux/ documentation traduite : https://ftp.traduc.org/doc-vf/echo-linux/html/sed-awk/sed-awk.html présentation : https://www.zdnet.fr/actualites/sed-et-awk-deux-outils-precieux-sous-unix-2127155.htm comment installer le shell Bash pour Microsoft OS version 10 : (Anglais) https://mspoweruser.com/install-bash-windows-10/ (Anglais) https://itsfoss.com/install-bash-on-windows/ (Français) https://korben.info/installer-shell-bash-linux-windows-10.html (Français) https://blog.shevarezo.fr/post/2016/08/15/comment-installer-bash-sur-windows-10 installation des outils : sudo apt-get install -y sed awk regexxer txt2regex most less Merci pour ton aimable attention Bien à toi Bernard -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy
[fr-users] Analyse sémantique d'un fichier csv ?
Bonjour à tous. J'aurais besoin de faire une analyse sémantique d'un fichier csv. Une colonne de ce fichier contient des chaînes de caractères; j'aurais besoin de trouver les mots les plus fréquents et de compter le nombre d' occurrences. Je vais probablement pouvoir trouver un outil tierce qui sache le faire; mais je préférerais de loin pouvoir faire cela avec mon tableur préféré. J'imagine qu'il y a des solutions basées sur les expressions régulières par exemple; mais cela dépasse soit mon imagination, soit mes compétences, soit les deux :) Si vous avez des idées, je suis preneur. En vous remerciant par avance pour votre aide. Nicolas. -- Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire Les archives de la liste sont disponibles à https://listarchives.libreoffice.org/fr/users/ Privacy Policy: https://www.documentfoundation.org/privacy