Re: URLs aus ber 200.000 Dateien extrahieren
David Haller schrieb: [...] Da kann mein billig-Skript nicht mithalten *sniff* :-)) Gruß Bernd -- Haeufig gestellte Fragen und Antworten (FAQ): http://www.de.debian.org/debian-user-german-FAQ/ Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED] mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)
Re: URLs aus ber 200.000 Dateien extrahieren
Hallo, Am Wed, 11 May 2005, Evgeni -SargentD- Golov schrieb: On Wed, 11 May 2005 04:17:59 +0200 David Haller [EMAIL PROTECTED] wrote: [..] Das nur am Randa als Anmerkung, pass auf, was du für URLs für deine Beispiele nutzt ;-) Stimmt. Mea culpa. -dnh -- Jone's Law: The man who smiles when things go wrong has thought of someone to blame it on. -- Haeufig gestellte Fragen und Antworten (FAQ): http://www.de.debian.org/debian-user-german-FAQ/ Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED] mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)
Re: URLs aus ber 200.000 Dateien extrahieren
Michelle Konzack schrieb: Hallo, kennt jemand ein Tool, mit dem ich aus über 1.800.000 Mail- Dateien URL's automatisch extrahieren kann ? Diese sollen dann in eine einzige Datei geschrieben, sortiert und unified werden. Ein Problem ist, das unzälige Mails base64 oder quoted-printable Dachte erst, das ich alle messages in ein verzeichnis copiere und dann sie mit formail einlese und dann über eine procmailrc weiterverarbeite :0 | mimedecode :0 | url_gabscher :0 /dev/null Ideen ? Schönen sonnigen Nachmittag Michelle Hm das sollte sich mit n paar zeilen perl oder python erledigen lassen gruss Uwe -- Haeufig gestellte Fragen und Antworten (FAQ): http://www.de.debian.org/debian-user-german-FAQ/ Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED] mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)
Re: URLs aus ber 200.000 Dateien extrahieren
Michelle Konzack wrote: kennt jemand ein Tool, mit dem ich aus ber 1.800.000 Mail- Dateien URL's automatisch extrahieren kann ? Diese sollen dann in eine einzige Datei geschrieben, sortiert und unified werden. Ein Problem ist, das unzlige Mails base64 oder quoted-printable Hallo, auch wenn ich gleich wieder was an den Kopf geworfen bekomme: Python! Dort gibt es die schnen Klassen mailbox und email (und ja, mailbox kann auch Maildir lesen - um gleich einer Frage vorzubeugen). Und die eMail Objekte knnen dann alles was man 'richtig' darstellen kann auch decodieren - und die URLs rauspicken ist dann ein Fall fr regex :-) Viel Spass, Jan signature.asc Description: OpenPGP digital signature
Re: URLs aus ber 200.000 Dateien extrahieren
Am Dienstag, 10. Mai 2005 15:34 schrieb Michelle Konzack: ... sed [1] ist Dein Freund Mit den scripts auf der HP [2] sollte Dein vorhaben einfach und schnell gelingen. [1] http://sed.sourceforge.net/ [2] http://sed.sourceforge.net/#scripts Gru
Re: URLs aus ber 200.000 Dateien extrahieren
Einmal zum Schauen: http://www.foad.org/~abigail/Perl/url3.regex signature.asc Description: OpenPGP digital signature
Re: URLs aus ber 200.000 Dateien extrahieren
Am Dienstag, 10. Mai 2005 18:39 schrieb Jan Kesten: Einmal zum Schauen: http://www.foad.org/~abigail/Perl/url3.regex Super ;) Was genau sollen mir die regexp nun sagen? Du hast auch [1] gelesen und dir auch das beispiel [2] angesehen? [1] http://www.foad.org/~abigail/Perl/url2.htm [2] http://www.foad.org/~abigail/Perl/url3.pl Gru
Re: URLs aus ber 200.000 Dateien extrahieren
Christian Schnitz wrote: Du hast auch [1] gelesen und dir auch das beispiel [2] angesehen? [1] http://www.foad.org/~abigail/Perl/url2.htm [2] http://www.foad.org/~abigail/Perl/url3.pl Aber sicher doch - finde nur die Idee klasse, sich aus der BNF des RFC ein Programm zu basteln, welches dann eine auf diese BNF passenden regex ausspuckt - wollte ich morgen mal versuchen, ob der wirklich funktioniert ;-) Cheers, Jan signature.asc Description: OpenPGP digital signature
Re: URLs aus ber 200.000 Dateien extrahieren
Hallo, Am Wed, 11 May 2005, Tilo Schwarz schrieb: On Tue, 10 May 2005 16:44:12 +0200, Michelle Konzack [EMAIL PROTECTED] wrote: Nur habe ich keine Zeit jetzt auch noch Python oder gar Perl zu lernen. Na dann woll'n wir mal ;-) Ich hab kurz was zusammengebastelt, das folgendes generiert: % python ~/tmp/mboxhttp.py 2005-04.mbs | head [..] Ich hab das mal mit % find -name *.mbs -exec python ~/tmp/mboxhttp.py {} \; über meine ca. 1 Mails laufen lassen. Da tut's, was nicht heißt, das es da keine Fehler mehr gäbe. (Die Tücke sind kaputte (multipart-) Mails etc.). Nett, ich glaub, ich sollte mir python doch mal genauer anschauen :) Dann will ich auch mal in perl, der Vollstaendigkeit halber ;) Das script hab ich jetzt (man achte auf die Uhrzeit ;) aber nur minimal getestet (geschweige denn optimiert), d.h. mal ueber ne spam-mbox und debian-user-german (die letzten ~1600 Mails) laufen lassen. V.a. die Fortschrittsanzeige ist verbesserungswuerdig ;) [EMAIL PROTECTED]: ~/mail (0)$ mboxhttp.pl debian-de | head -n 8 http://IP-Adresse:3000 http://Iranians.yourbespils.info/?intriguedxtvuyoctahedronzsvoverflows http://amavis.org/) http://blog.emmily.com http://broadband.afterhoursdjs.org:8008/ http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=238597 http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=293808 http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=296544 Hm. Warum bei dem amavis.org noch das ')' auftaucht? Naja, ich hab Regex::Common::URI nicht geschrieben ;) -dnh -- Wie heisst der Super-Satz mit dem man eine Beziehung sowohl anfangen als auch beenden kann? Was für ein Arsch! -- Ivy's Bar [http://www.ivys-bar.de] #!/usr/bin/env perl use warnings; use strict; use MIME::Parser; use Regexp::Common qw(URI); use Email::Folder::Mbox; my %URLS; my $parser = new MIME::Parser; $parser-tmp_to_core(1); $parser-output_to_core(1); $parser-extract_uuencode(1); $parser-extract_nested_messages(1); my $box = new Email::Folder::Mbox($ARGV[0]) or die $!\n; sub geturls { my $entity = shift; if( $entity-mime_type() =~ /text/ ) { map { if (/($RE{URI}{HTTP})/) { $URLS{$1}++; } } split(/\s/, $entity-as_string()); } } while ( my $msg = $box-next_message() ) { print STDERR .; # give user some feedback, as output is # delayed due to sorting... my $entity = $parser-parse_data($msg); if( $entity-is_multipart ) { foreach( $entity-parts ) { geturls($_); } } elsif( $entity-mime_type() =~ /text/ ) { geturls($entity); } } print STDERR \n; print join(\n, sort keys %URLS), \n;
Re: URLs aus ber 200.000 Dateien extrahieren
On Wed, 11 May 2005 04:17:59 +0200 David Haller [EMAIL PROTECTED] wrote: Spam detection software, running on the system die-welt.net, has identified this incoming email as possible spam. The original message Content analysis details: (4.8 points, 4.0 required) pts rule name description -- -- 0.1 FORGED_RCVD_HELO Received: contains a forged HELO 0.5 INFO_TLD URI: Contains an URL in the INFO top-level domain 0.5 WEIRD_PORT URI: Uses non-standard port number for HTTP 3.9 URIBL_SC_SURBL Contains an URL listed in the SC SURBL blocklist [URIs: yourbespils.info] 0.5 URIBL_WS_SURBL Contains an URL listed in the WS SURBL blocklist [URIs: yourbespils.info] 2.0 URIBL_OB_SURBL Contains an URL listed in the OB SURBL blocklist [URIs: yourbespils.info] 2.0 URIBL_AB_SURBL Contains an URL listed in the AB SURBL blocklist [URIs: yourbespils.info] -4.7 AWLAWL: From: address is in the auto white-list Das nur am Randa als Anmerkung, pass auf, was du für URLs für deine Beispiele nutzt ;-) Hab mich schon gewundert, warum eine normale DUG Mail im Spam landete. Gruß Evgeni -- ^^^| Evgeni -SargentD- Golov ([EMAIL PROTECTED]) d(O_o)b | PGP-Key-ID: 0xAC15B50C -|- | WWW: www.die-welt.net ICQ: 54116744 / \| IRC: #sod @ irc.german-freakz.net