Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-11 Par sujet Christian Herbé

Bonjour

J'ouvre seulement ce fil rapidement parcouru.

Depuis Calc, personne n'a proposé l'utilisation du tableau dynamique ?

Ça me semble répondre à la demande initiale.



--
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ? ( administration et traitement de journaux)

2021-05-11 Par sujet Jean-Michel COSTE

Le 11/05/2021 à 12:19, Bernard Schoenacker a écrit :
Ensuite, pourquoi ne pas vouloir installer un sous système Linux sur 
le poste qui fait le travail ?

documentation pour installer WSL2 :
https://docs.microsoft.com/en-us/windows/wsl/install-win10


Personnellement, je n'aime pas trop cette "usine à gaz", on ne maîtrise 
pas tout, comme d'habitude chez Micromou.


J'utilise vmware (de manière personnelle) avec beaucoup de satisfaction, 
ça me permet d'avoir plusieurs types de machines virtuelles linux pour 
répondre aux questions de mes correspondants.


Bonne journée,

--


   Jean-Michel COSTE


--
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-11 Par sujet yves dutrieux
voici la traduction en powershell (disponible sous ton windows) :

$mot = New-Object 'system.collections.generic.dictionary[string,double]'
foreach($ligne in get-content test.csv){foreach($valeur in -split
$ligne){$mot[$valeur]++}}
$mot

ceci est équivalent à la ligne Gawk.
Pour l'explication combinée :
1) définition d'un collection "dictionnaire en powershell" (obligé car
sinon marche pas)
$mot = New-Object 'system.collections.generic.dictionary[string,double]'
2)
  foreach(  -- pour chaque element rencontré
 $ligne in get-content test.CSV-- on extrait le contenu du
fichier test.csv
foreach( -- pour chaque element rencontrés
$valeur  in split $ligne-- on recupere dans $valeur tous
les élements de $ligne séparé (split sépare par défaut avec espace).
{$mot[$valeur]++}- on incrémente le compteur relatif au
mot trouvé.
On aura donc un tableau contenant par exemple : $mot["mot1"=1,
$mot["mot4"]=2, etc ...
3) affichage du tableau
$mot

gawk '{a[$0]++} END{for (k in a) print k,a[k]}' RS='[[:space:]]+' test.csv
1) par défaut gawk traite par ligne et ici on fixe le RecordSeparator (RS)
à un espace ou +RS='[[:space]]+'
2) pour chaque ligne,
{a[$0]++} -- voici toute la puissance du truc, $0 ce sont les éléments
trouvés entre chaque RS (record séparator), ici les mots.
On incremente  donc le tableau a["motxxx"] de 1 (via ++ )
3) END{for (k in a) print k,a[k]}'
Après avoir tout traité le fichier,
on affiche tous les éléments du tableau (for k in a) et on imprime le mot
(k) et sa valeur comptée a[k]

J'espère avoir pas été trop technique ;)
Yves

Le mar. 11 mai 2021 à 00:43, yves dutrieux  a écrit :

> Bonjour,
>
> le tableur n'est pas le meilleur outil pour cela,
> awk/gawk/powershell peuvent à mon avis le faire très facilement :
> sous ubuntu wsl (avec win100) si ton fichier s'appelle test.csv et si ton
> délimiteur de mot est un ou plusieurs espaces :
>
> gawk '{a[$0]++} END{for (k in a) print k,a[k]}' RS='[[:space:]]+' test.csv
>
> te donneras ce que tu souhaites.
> En fait, il faut créer une "collection" ou table hash avec comme index les
> mots trouvés et tu additionnes la valeur.
>
> Yves
>
> Le lun. 10 mai 2021 à 09:00, Nicolas Abel  a
> écrit :
>
>> Bonjour à tous.
>>
>> J'aurais besoin de faire une analyse sémantique d'un fichier csv.
>> Une colonne de ce fichier contient des chaînes de caractères; j'aurais
>> besoin de trouver les mots les plus fréquents et de compter le nombre d'
>> occurrences.
>>
>> Je vais probablement pouvoir trouver un outil tierce qui sache le faire;
>> mais je préférerais de loin pouvoir faire cela avec mon tableur préféré.
>>
>> J'imagine qu'il y a des solutions basées sur les expressions régulières
>> par exemple; mais cela dépasse soit mon imagination, soit mes
>> compétences, soit les deux :)
>>
>> Si vous avez des idées, je suis preneur.
>>
>> En vous remerciant par avance pour votre aide.
>>
>> Nicolas.
>>
>>
>> --
>> Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous
>> désinscrire
>> Les archives de la liste sont disponibles à
>> https://listarchives.libreoffice.org/fr/users/
>> Privacy Policy: https://www.documentfoundation.org/privacy
>>
>
>
> --
> web site : http://www.molenbaix.com
>


-- 
web site : http://www.molenbaix.com

-- 
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ? ( administration et traitement de journaux)

2021-05-11 Par sujet Bernard Schoenacker


- Mail original -
> De: "Nicolas Abel" 
> À: users@fr.libreoffice.org
> Envoyé: Mardi 11 Mai 2021 11:52:28
> Objet: Re: [fr-users] Analyse sémantique d'un fichier csv ?
> 
> L'extraction sur laquelle je travaille est bien un tableau (en csv).
> 
> Les entêtes de colonnes sont : Date;Nom de l'utilisateur;Nom
> Complet;Bureau de l'utilisateur;Service de l'utilisateur;Email;Numéro
> de
> badge principal;Compte débité;Nom compte partagé;Code compte
> partagé;Nom
> parent du compte partagé;Code parent du compte partagé;Sous nom du
> compte partagé;Sous code du Compte partagé;Serveur d'impression;Nom
> de
> l'Imprimante;Adresse physique de l'imprimante;Type/Modèle
> d'Imprimante;Numéro de série de l'Imprimante;Document;Type
> d'Utilisation;Total de Pages;Nombre total de pages couleur;Estimation
> pages couleur;Copies;Coût;Taille du papier;Largeur du papier
> (mm);Hauteur du papier (mm);Recto/Verso;Noir et
> Blanc;Facturé;Client;Taille (ko);Langage de
> l'Imprimante;Commentaire;Imprimé;Annulé;Remboursé;Autorisé;Motif de
> refus;Archivé;Hors Ligne;Pages recto verso;Pages recto.
> 
> 1 ligne par job d'impression
> 
> La colonne "Document" contient l'objet, et c'est elle que je vais
> tenter
> d'analyser.
> 
> D'autres champs m'intéressent.
> Du coup, je vais certainement utiliser une solution hybride R/R
> Studio +
> scripts + calc.
> 
> à suivre...
> 
> merci encore.
> 
> Nicolas.

Bonjour Nicolas,

Puisque c'est un journal qui trace les impressions, voici
ce qui serait intéressant de mettre en place :

-a) serveur web élémentaire
-b) mettre en place une sonde de type rrdtools

documentation :
https://oss.oetiker.ch/rrdtool/doc/rrdtool.en.html

pour la suite, je déconseille de passer par un format csv
qui est un casse-tête du fait que les formats et différents
encodages ne sont pas convenablement gérés ...

Ensuite, pourquoi ne pas vouloir installer un sous système Linux
sur le poste qui fait le travail ?

documentation pour installer WSL2 :
https://docs.microsoft.com/en-us/windows/wsl/install-win10

https://azuretar.com/wsl-install/

https://ubuntu.com/blog/ubuntu-on-wsl-2-is-generally-available

https://geekmag.fr/blog/2020/02/23/windows-10-installer-wsl-2-et-deployer-debian-ubuntu-sans-microsoft-store/

https://stackoverflow.com/questions/65717484/installing-ubuntu-and-wsl2-on-a-non-windows-drive

après il suffira d'installer les outils (logiciels) nécessaires
pour réaliser le traitement du fichier et d'extraire les groupes
d'utilisateurs par affinités ...

documentation sur la prise en main de WSL2 :
https://www.spritle.com/blogs/2020/11/26/how-to-use-ubuntu-on-windows-subsystem-for-linux-wsl2/

en Français :
https://korben.info/installer-wsl2-windows-linux.html


Merci pour ton aimable attention

Bien à toi

Bernard

-- 
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-11 Par sujet Jean-Michel COSTE

Le 11/05/2021 à 11:52, Nicolas Abel a écrit :

L'extraction sur laquelle je travaille est bien un tableau (en csv).

Les entêtes de colonnes sont : Date;Nom de l'utilisateur;Nom 
Complet;Bureau de l'utilisateur;Service de l'utilisateur;Email;Numéro 
de badge principal;Compte débité;Nom compte partagé;Code compte 
partagé;Nom parent du compte partagé;Code parent du compte 
partagé;Sous nom du compte partagé;Sous code du Compte partagé;Serveur 
d'impression;Nom de l'Imprimante;Adresse physique de 
l'imprimante;Type/Modèle d'Imprimante;Numéro de série de 
l'Imprimante;Document;Type d'Utilisation;Total de Pages;Nombre total 
de pages couleur;Estimation pages couleur;Copies;Coût;Taille du 
papier;Largeur du papier (mm);Hauteur du papier (mm);Recto/Verso;Noir 
et Blanc;Facturé;Client;Taille (ko);Langage de 
l'Imprimante;Commentaire;Imprimé;Annulé;Remboursé;Autorisé;Motif de 
refus;Archivé;Hors Ligne;Pages recto verso;Pages recto.


1 ligne par job d'impression


Ok, au temps pour moi, c'est quasiment une base de données.

S'il n'y a pas de secret, peut-on avoir une idée ce champ Document, avec 
quelques exemples ?


Bonne journée

--


   Jean-Michel COSTE


--
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-11 Par sujet Nicolas Abel

L'extraction sur laquelle je travaille est bien un tableau (en csv).

Les entêtes de colonnes sont : Date;Nom de l'utilisateur;Nom 
Complet;Bureau de l'utilisateur;Service de l'utilisateur;Email;Numéro de 
badge principal;Compte débité;Nom compte partagé;Code compte partagé;Nom 
parent du compte partagé;Code parent du compte partagé;Sous nom du 
compte partagé;Sous code du Compte partagé;Serveur d'impression;Nom de 
l'Imprimante;Adresse physique de l'imprimante;Type/Modèle 
d'Imprimante;Numéro de série de l'Imprimante;Document;Type 
d'Utilisation;Total de Pages;Nombre total de pages couleur;Estimation 
pages couleur;Copies;Coût;Taille du papier;Largeur du papier 
(mm);Hauteur du papier (mm);Recto/Verso;Noir et 
Blanc;Facturé;Client;Taille (ko);Langage de 
l'Imprimante;Commentaire;Imprimé;Annulé;Remboursé;Autorisé;Motif de 
refus;Archivé;Hors Ligne;Pages recto verso;Pages recto.


1 ligne par job d'impression

La colonne "Document" contient l'objet, et c'est elle que je vais tenter 
d'analyser.


D'autres champs m'intéressent.
Du coup, je vais certainement utiliser une solution hybride R/R Studio + 
scripts + calc.


à suivre...

merci encore.

Nicolas.

Signature2020
Le 11/05/2021 à 13:33, Jean-Michel COSTE a écrit :

Le 11/05/2021 à 10:44, Nicolas Abel a écrit :

Bonjour à tous,

Tout d'abord, merci de vos réponses.
Je m'aperçois que ma demande est effectivement plus complexe que je 
ne me l'imaginais; d'autant que les tableaux sont volumineux 
(csv>70Mo; >25 lignes / AS colonnes).

.
L'objectif est de pouvoir extraire du sens de logs d'impressions


Bonjour,

Donc, il s'agit de fichiers texte, plus faciles à traiter en dehors de 
Calc, qui ne servira que pour les résultats ?


Vu la demande initiale, on n'était pas loin d'un problème XY😁

Cordialement,



--
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-11 Par sujet Jean-Michel COSTE

Le 11/05/2021 à 10:44, Nicolas Abel a écrit :

Bonjour à tous,

Tout d'abord, merci de vos réponses.
Je m'aperçois que ma demande est effectivement plus complexe que je ne 
me l'imaginais; d'autant que les tableaux sont volumineux (csv>70Mo; 
>25 lignes / AS colonnes).

.
L'objectif est de pouvoir extraire du sens de logs d'impressions


Bonjour,

Donc, il s'agit de fichiers texte, plus faciles à traiter en dehors de 
Calc, qui ne servira que pour les résultats ?


Vu la demande initiale, on n'était pas loin d'un problème XY😁

Cordialement,

--


   Jean-Michel COSTE


--
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-11 Par sujet Nicolas Abel

Bonjour à tous,

Tout d'abord, merci de vos réponses.
Je m'aperçois que ma demande est effectivement plus complexe que je ne 
me l'imaginais; d'autant que les tableaux sont volumineux (csv>70Mo; 
>25 lignes / AS colonnes).


Malheureusement, je n'ai pas de linux à disposition; à des fins de 
support, ma machine est identique à celles de nos utilisateurs => W10.


J'ai commencé à creuser R + RStudio qui ont l'air de faire ce dont j'ai 
besoin.
et j'utilise sed pour windows pour faire un nettoyage préalable des 
données (sans grand succès pour l'instant).


Le problème des nuages en ligne est l'impossibilité d'industrialiser.
L'objectif est de pouvoir extraire du sens de logs d'impressions afin 
d'identifier quels flux sont les plus matérialisés puis en éviter 
l'impression si possible (une approche qualitative plutôt que 
volumétrique en somme).
En fonction des mots récurrents, je vais aussi savoir déterminer les 
services d'origine, les périodes de pics et de creux dans l'année, etc.


Idéalement, il faut que je puisse batcher (ou faire le moins de 
manoeuvres possible) pour pouvoir sortir les indicateurs chiffrés (Calc) 
+ les nuages de mots sans y passer trop de temps.


Merci pour vos idées; je posterai la solution retenue avec un exemple 
quand la réalisation sera terminée.


A bientôt.

Nicolas.

Le 10/05/2021 à 18:55, Claire a écrit :

Bonjour

Le souci c'est aussi de vouloir privilégier "son tableur préféré" pour 
faire ça.


En réalité, il faudrait isoler d'abord chaque occurence. Comme le dit 
Jean Michel, si une même occurence comporte un espace, déjà c'est bancal.


Dit autrement Il te faudrait donc déjà un séparateur unique permettant 
d'identifier les occurences... sans que ce séparateur serve par ailleurs


Alors qu'il existe des outils qui, à partir d'un texte, te 
construisent des nuages de mots clés selon leur fréquence, ça peut 
même se paramétrer (toujours... avec R).


Mais des nuages de mots clés, ça se fait aussi directement en ligne, 
en copiant ton texte...


Il reste que tu auras toujours une problématique pour identifier les 
occurences si la chaine de caractère contient plusieurs mots...



Claire

Le 10/05/2021 à 16:27, Jean-Michel COSTE a écrit :

Le 10/05/2021 à 08:48, Nicolas Abel a écrit :
 j'aurais besoin de*trouver les mots les plus fréquents* et de 
compter le nombre d' occurrences.


Bonjour,

Si les chaînes de caractères contiennent plusieurs mots et Si tu ne 
sais pas par avance quels mots chercher/compter, les expressions 
régulières et les outils bash proposés par Bernard ne te seront 
d'aucun secours.


Et je ne vois pas d'outils simples pour réaliser ça

Cordialement,





--
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-10 Par sujet Bernard Schoenacker


- Mail original -
> De: "yves dutrieux" 
> À: "Nicolas Abel" 
> Cc: "users LibreOffice LO" 
> Envoyé: Mardi 11 Mai 2021 00:43:06
> Objet: Re: [fr-users] Analyse sémantique d'un fichier csv ?
> 
> Bonjour,
> 
> le tableur n'est pas le meilleur outil pour cela,
> awk/gawk/powershell peuvent à mon avis le faire très facilement :
> sous ubuntu wsl (avec win100) si ton fichier s'appelle test.csv et si
> ton
> délimiteur de mot est un ou plusieurs espaces :
> 
> gawk '{a[$0]++} END{for (k in a) print k,a[k]}' RS='[[:space:]]+'
> test.csv
> 
> te donneras ce que tu souhaites.
> En fait, il faut créer une "collection" ou table hash avec comme
> index les
> mots trouvés et tu additionnes la valeur.
> 
> Yves

Bonjour Yves,

Pourrais-tu faire un effort supplémentaire en indiquant 
ce que fait chaque valeur avec awk afin que les 
utilisateurs d'un "système d'ignorance privateur" puissent
en prendre de la graine 

Merci pour ton aimable attention

Bien à toi

Bernard

-- 
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-10 Par sujet yves dutrieux
Bonjour,

le tableur n'est pas le meilleur outil pour cela,
awk/gawk/powershell peuvent à mon avis le faire très facilement :
sous ubuntu wsl (avec win100) si ton fichier s'appelle test.csv et si ton
délimiteur de mot est un ou plusieurs espaces :

gawk '{a[$0]++} END{for (k in a) print k,a[k]}' RS='[[:space:]]+' test.csv

te donneras ce que tu souhaites.
En fait, il faut créer une "collection" ou table hash avec comme index les
mots trouvés et tu additionnes la valeur.

Yves

Le lun. 10 mai 2021 à 09:00, Nicolas Abel  a
écrit :

> Bonjour à tous.
>
> J'aurais besoin de faire une analyse sémantique d'un fichier csv.
> Une colonne de ce fichier contient des chaînes de caractères; j'aurais
> besoin de trouver les mots les plus fréquents et de compter le nombre d'
> occurrences.
>
> Je vais probablement pouvoir trouver un outil tierce qui sache le faire;
> mais je préférerais de loin pouvoir faire cela avec mon tableur préféré.
>
> J'imagine qu'il y a des solutions basées sur les expressions régulières
> par exemple; mais cela dépasse soit mon imagination, soit mes
> compétences, soit les deux :)
>
> Si vous avez des idées, je suis preneur.
>
> En vous remerciant par avance pour votre aide.
>
> Nicolas.
>
>
> --
> Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous
> désinscrire
> Les archives de la liste sont disponibles à
> https://listarchives.libreoffice.org/fr/users/
> Privacy Policy: https://www.documentfoundation.org/privacy
>


-- 
web site : http://www.molenbaix.com

-- 
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-10 Par sujet Claire

Bonjour

Le souci c'est aussi de vouloir privilégier "son tableur préféré" pour 
faire ça.


En réalité, il faudrait isoler d'abord chaque occurence. Comme le dit 
Jean Michel, si une même occurence comporte un espace, déjà c'est bancal.


Dit autrement Il te faudrait donc déjà un séparateur unique permettant 
d'identifier les occurences... sans que ce séparateur serve par ailleurs


Alors qu'il existe des outils qui, à partir d'un texte, te construisent 
des nuages de mots clés selon leur fréquence, ça peut même se paramétrer 
(toujours... avec R).


Mais des nuages de mots clés, ça se fait aussi directement en ligne, en 
copiant ton texte...


Il reste que tu auras toujours une problématique pour identifier les 
occurences si la chaine de caractère contient plusieurs mots...



Claire

Le 10/05/2021 à 16:27, Jean-Michel COSTE a écrit :

Le 10/05/2021 à 08:48, Nicolas Abel a écrit :
 j'aurais besoin de*trouver les mots les plus fréquents* et de 
compter le nombre d' occurrences.


Bonjour,

Si les chaînes de caractères contiennent plusieurs mots et Si tu ne 
sais pas par avance quels mots chercher/compter, les expressions 
régulières et les outils bash proposés par Bernard ne te seront 
d'aucun secours.


Et je ne vois pas d'outils simples pour réaliser ça

Cordialement,



--
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-10 Par sujet Bernard Schoenacker


- Mail original -
> De: "Nicolas Abel" 
> À: users@fr.libreoffice.org
> Envoyé: Lundi 10 Mai 2021 08:48:58
> Objet: [fr-users] Analyse sémantique d'un fichier csv ?
> 
> Bonjour à tous.
> 
> J'aurais besoin de faire une analyse sémantique d'un fichier csv.
> Une colonne de ce fichier contient des chaînes de caractères;
> j'aurais
> besoin de trouver les mots les plus fréquents et de compter le nombre
> d'
> occurrences.
> 
> Je vais probablement pouvoir trouver un outil tierce qui sache le
> faire;
> mais je préférerais de loin pouvoir faire cela avec mon tableur
> préféré.
> 
> J'imagine qu'il y a des solutions basées sur les expressions
> régulières
> par exemple; mais cela dépasse soit mon imagination, soit mes
> compétences, soit les deux :)
> 
> Si vous avez des idées, je suis preneur.
> 
> En vous remerciant par avance pour votre aide.
> 
> Nicolas.
> 

Bonjour,

J'ai continué à faire des recherches et voici ce qui existe :

https://www.rtextminer.com/index.html
https://www.opensemanticsearch.org/


attention, il faut bien nettoyer le fichier csv pour en extraire
les occurrences ...


le paquet deb à installer : 

https://www.opensemanticsearch.org/download/

Merci pour votre aimable attention

Bien à vous

Bernard


-- 
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-10 Par sujet Bernard Schoenacker


- Mail original -
> De: "Nicolas Abel" 
> À: users@fr.libreoffice.org
> Envoyé: Lundi 10 Mai 2021 08:48:58
> Objet: [fr-users] Analyse sémantique d'un fichier csv ?
> 
> Bonjour à tous.
> 
> J'aurais besoin de faire une analyse sémantique d'un fichier csv.
> Une colonne de ce fichier contient des chaînes de caractères;
> j'aurais
> besoin de trouver les mots les plus fréquents et de compter le nombre
> d'
> occurrences.
> 
> Je vais probablement pouvoir trouver un outil tierce qui sache le
> faire;
> mais je préférerais de loin pouvoir faire cela avec mon tableur
> préféré.
> 
> J'imagine qu'il y a des solutions basées sur les expressions
> régulières
> par exemple; mais cela dépasse soit mon imagination, soit mes
> compétences, soit les deux :)
> 
> Si vous avez des idées, je suis preneur.
> 
> En vous remerciant par avance pour votre aide.
> 
> Nicolas.
> 

Bonjour,

Je suis navré de devoir faire une mise au point 
détaillé, voici les points à préciser :

- encodage du fichier CSV
- format des lignes 
- noms ayant des caractères spéciaux ou détachés 
- origine des données 
- version d'origine et date de départ du document

pourriez vous également fournir un échantillon 
extrait du fichier afin de trouver la bonne 
solution ...

Merci pour votre aimable attention

Bien à vous

Bernard

-- 
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-10 Par sujet Bernard Schoenacker


- Mail original -
> De: "Jean-Pierre Giraud" 
> À: users@fr.libreoffice.org
> Envoyé: Lundi 10 Mai 2021 17:47:26
> Objet: Re: [fr-users] Analyse sémantique d'un fichier csv ?
> 
> Bonjour,
> Mon outil de courrier ce qu'il faut rajouter à la fin de la ligne est
> défiguré. C'est juste   > decompte.txt
> 
> Le 10/05/2021 à 17:41, Jean-Pierre Giraud a écrit :
> 
> Jean-Pierre Giraud
> 

Hello JP,

j'ai une alternative à proposer et il suffit d'employer 
la commande tee après le tube, exemple :

cat fichier.csv |tee fichier-sortie-$(date +"%D+%H+%M+%S").txt 

Merci pour ton aimable attention

Bien à toi

Bernard

-- 
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-10 Par sujet Jean-Pierre Giraud
Bonjour,
Mon outil de courrier ce qu'il faut rajouter à la fin de la ligne est
défiguré. C'est juste   > decompte.txt

Le 10/05/2021 à 17:41, Jean-Pierre Giraud a écrit :
> Bonjour,
> 
> Le 10/05/2021 à 16:27, Jean-Michel COSTE a écrit :
>> Le 10/05/2021 à 08:48, Nicolas Abel a écrit :
>>>  j'aurais besoin de*trouver les mots les plus fréquents* et de compter
>>> le nombre d' occurrences.
>>
>> Bonjour,
>>
>> Si les chaînes de caractères contiennent plusieurs mots et Si tu ne sais
>> pas par avance quels mots chercher/compter, les expressions régulières
>> et les outils bash proposés par Bernard ne te seront d'aucun secours.
>>
>> Et je ne vois pas d'outils simples pour réaliser ça
>>
>> Cordialement,
>>
> J'ai trouvé cela si tu utilises Linux (je ne sais pas s'il y a
> l'équivalent de sed sous windows...) :
> https://unix.stackexchange.com/questions/2244/how-do-i-count-the-number-of-occurrences-of-a-word-in-a-text-file-with-the-comma
> C'est la quatrième réponse qui détaille la méthode.
> 
> Il faut extraite la colonne que tu veux analyser et la copier dans un
> fichier .csv puis y appliquer la commande suivante en la collant dans un
> terminal :
> sed -e 's/[^[:alpha:]]/ /g' ton_fichier.csv | tr '\n' " " |  tr -s " " |
> tr " " '\n'| tr 'A-Z' 'a-z' | sort | uniq -c | sort -nr | nl
> tu peut rediriger le résultat vers un fichier .txt en ajoutant à la fin
>> decompte.txt
> Et ça marche...
Jean-Pierre Giraud

-- 
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-10 Par sujet Jean-Pierre Giraud
Bonjour,

Le 10/05/2021 à 16:27, Jean-Michel COSTE a écrit :
> Le 10/05/2021 à 08:48, Nicolas Abel a écrit :
>>  j'aurais besoin de*trouver les mots les plus fréquents* et de compter
>> le nombre d' occurrences.
> 
> Bonjour,
> 
> Si les chaînes de caractères contiennent plusieurs mots et Si tu ne sais
> pas par avance quels mots chercher/compter, les expressions régulières
> et les outils bash proposés par Bernard ne te seront d'aucun secours.
> 
> Et je ne vois pas d'outils simples pour réaliser ça
> 
> Cordialement,
> 
J'ai trouvé cela si tu utilises Linux (je ne sais pas s'il y a
l'équivalent de sed sous windows...) :
https://unix.stackexchange.com/questions/2244/how-do-i-count-the-number-of-occurrences-of-a-word-in-a-text-file-with-the-comma
C'est la quatrième réponse qui détaille la méthode.

Il faut extraite la colonne que tu veux analyser et la copier dans un
fichier .csv puis y appliquer la commande suivante en la collant dans un
terminal :
sed -e 's/[^[:alpha:]]/ /g' ton_fichier.csv | tr '\n' " " |  tr -s " " |
tr " " '\n'| tr 'A-Z' 'a-z' | sort | uniq -c | sort -nr | nl
tu peut rediriger le résultat vers un fichier .txt en ajoutant à la fin
> decompte.txt
Et ça marche...

Amicalement,

Jean-Pierre Giraud

-- 
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-10 Par sujet Jean-Michel COSTE

Le 10/05/2021 à 08:48, Nicolas Abel a écrit :
 j'aurais besoin de*trouver les mots les plus fréquents* et de compter 
le nombre d' occurrences.


Bonjour,

Si les chaînes de caractères contiennent plusieurs mots et Si tu ne sais 
pas par avance quels mots chercher/compter, les expressions régulières 
et les outils bash proposés par Bernard ne te seront d'aucun secours.


Et je ne vois pas d'outils simples pour réaliser ça

Cordialement,

--


   Jean-Michel COSTE


--
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-10 Par sujet Bernard Schoenacker


- Mail original -
> De: "Bernard Schoenacker" 
> À: "Nicolas Abel" 
> Cc: users@fr.libreoffice.org
> Envoyé: Lundi 10 Mai 2021 10:38:35
> Objet: Re: [fr-users] Analyse sémantique d'un fichier csv ?
> 
> 
> 
> - Mail original -
> > De: "Nicolas Abel" 
> > À: users@fr.libreoffice.org
> > Envoyé: Lundi 10 Mai 2021 08:48:58
> > Objet: [fr-users] Analyse sémantique d'un fichier csv ?
> > 
> > Bonjour à tous.
> > 
> > J'aurais besoin de faire une analyse sémantique d'un fichier csv.
> > Une colonne de ce fichier contient des chaînes de caractères;
> > j'aurais
> > besoin de trouver les mots les plus fréquents et de compter le
> > nombre
> > d'
> > occurrences.
> > 
> > Je vais probablement pouvoir trouver un outil tierce qui sache le
> > faire;
> > mais je préférerais de loin pouvoir faire cela avec mon tableur
> > préféré.
> > 
> > J'imagine qu'il y a des solutions basées sur les expressions
> > régulières
> > par exemple; mais cela dépasse soit mon imagination, soit mes
> > compétences, soit les deux :)
> > 
> > Si vous avez des idées, je suis preneur.
> > 
> > En vous remerciant par avance pour votre aide.
> > 
> > Nicolas.
> > 
> 
> Bonjour Nicolas,
> 
> Pour ton problème de Regex il suffit de passer par
> le shell Bash et d'employer sed pour filtrer les
> ocurrences, documentation :
> 
> documentation :
> https://www.gnu.org/software/sed/manual/html_node/Regular-Expressions.html
> https://likegeeks.com/regex-tutorial-linux/
> 
> documentation traduite :
> https://ftp.traduc.org/doc-vf/echo-linux/html/sed-awk/sed-awk.html
> 
> présentation :
> https://www.zdnet.fr/actualites/sed-et-awk-deux-outils-precieux-sous-unix-2127155.htm
> 
> comment installer le shell Bash pour Microsoft OS version 10 :
> 
> (Anglais) https://mspoweruser.com/install-bash-windows-10/
> (Anglais) https://itsfoss.com/install-bash-on-windows/
> 
> 
> (Français)
> https://korben.info/installer-shell-bash-linux-windows-10.html
> (Français)
> https://blog.shevarezo.fr/post/2016/08/15/comment-installer-bash-sur-windows-10
> 
> installation des outils :
> 
> sudo apt-get install -y sed awk regexxer txt2regex most less
> 
> Merci pour ton aimable attention
> 
> Bien à toi
> 
> Bernard

Re-Bonjour,

serait il possible d'être plus prolixe sur le sujet afin de déterminer 
si je ne suis pas sur la mauvaise piste ?

ensuite, je conseille de reprendre le fichier csv et d'employer après 
avoir réalisé une copie de travail d'employer :

- tr 
- sort 
- uniq -c

et le résultat final souhaité devrait être viable et exploitable 

Merci pour ton aimable attention

Bien à toi

Bernard

-- 
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


Re: [fr-users] Analyse sémantique d'un fichier csv ?

2021-05-10 Par sujet Bernard Schoenacker


- Mail original -
> De: "Nicolas Abel" 
> À: users@fr.libreoffice.org
> Envoyé: Lundi 10 Mai 2021 08:48:58
> Objet: [fr-users] Analyse sémantique d'un fichier csv ?
> 
> Bonjour à tous.
> 
> J'aurais besoin de faire une analyse sémantique d'un fichier csv.
> Une colonne de ce fichier contient des chaînes de caractères;
> j'aurais
> besoin de trouver les mots les plus fréquents et de compter le nombre
> d'
> occurrences.
> 
> Je vais probablement pouvoir trouver un outil tierce qui sache le
> faire;
> mais je préférerais de loin pouvoir faire cela avec mon tableur
> préféré.
> 
> J'imagine qu'il y a des solutions basées sur les expressions
> régulières
> par exemple; mais cela dépasse soit mon imagination, soit mes
> compétences, soit les deux :)
> 
> Si vous avez des idées, je suis preneur.
> 
> En vous remerciant par avance pour votre aide.
> 
> Nicolas.
> 

Bonjour Nicolas,

Pour ton problème de Regex il suffit de passer par 
le shell Bash et d'employer sed pour filtrer les 
ocurrences, documentation :

documentation :
https://www.gnu.org/software/sed/manual/html_node/Regular-Expressions.html
https://likegeeks.com/regex-tutorial-linux/

documentation traduite :
https://ftp.traduc.org/doc-vf/echo-linux/html/sed-awk/sed-awk.html

présentation :
https://www.zdnet.fr/actualites/sed-et-awk-deux-outils-precieux-sous-unix-2127155.htm

comment installer le shell Bash pour Microsoft OS version 10 :

(Anglais) https://mspoweruser.com/install-bash-windows-10/ 
(Anglais) https://itsfoss.com/install-bash-on-windows/


(Français) https://korben.info/installer-shell-bash-linux-windows-10.html
(Français) 
https://blog.shevarezo.fr/post/2016/08/15/comment-installer-bash-sur-windows-10

installation des outils :

sudo apt-get install -y sed awk regexxer txt2regex most less 

Merci pour ton aimable attention

Bien à toi

Bernard

-- 
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy


[fr-users] Analyse sémantique d'un fichier csv ?

2021-05-09 Par sujet Nicolas Abel

Bonjour à tous.

J'aurais besoin de faire une analyse sémantique d'un fichier csv.
Une colonne de ce fichier contient des chaînes de caractères; j'aurais 
besoin de trouver les mots les plus fréquents et de compter le nombre d' 
occurrences.


Je vais probablement pouvoir trouver un outil tierce qui sache le faire; 
mais je préférerais de loin pouvoir faire cela avec mon tableur préféré.


J'imagine qu'il y a des solutions basées sur les expressions régulières 
par exemple; mais cela dépasse soit mon imagination, soit mes 
compétences, soit les deux :)


Si vous avez des idées, je suis preneur.

En vous remerciant par avance pour votre aide.

Nicolas.


--
Envoyez un mail à users+unsubscr...@fr.libreoffice.org pour vous désinscrire
Les archives de la liste sont disponibles à 
https://listarchives.libreoffice.org/fr/users/
Privacy Policy: https://www.documentfoundation.org/privacy