Re: URLs aus ber 200.000 Dateien extrahieren

2005-05-11 Diskussionsfäden Bernd Schwendele
David Haller schrieb:
[...]
 

Da kann mein billig-Skript nicht mithalten *sniff* :-))
Gruß
 Bernd
--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)


Re: URLs aus ber 200.000 Dateien extrahieren

2005-05-11 Diskussionsfäden David Haller
Hallo,

Am Wed, 11 May 2005, Evgeni -SargentD- Golov schrieb:
On Wed, 11 May 2005 04:17:59 +0200
David Haller [EMAIL PROTECTED] wrote:
[..]
Das nur am Randa als Anmerkung, pass auf, was du für URLs für deine
Beispiele nutzt ;-)

Stimmt. Mea culpa.

-dnh

-- 
Jone's Law:
The man who smiles when things go wrong has thought of someone
to blame it on.


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: URLs aus ber 200.000 Dateien extrahieren

2005-05-10 Diskussionsfäden Uwe A. P. Wuerdinger
Michelle Konzack schrieb:
 Hallo,
 
 kennt jemand ein Tool, mit dem ich aus über 1.800.000 Mail-
 Dateien URL's automatisch extrahieren kann ?  Diese sollen
 dann in eine einzige Datei geschrieben, sortiert und unified
 werden.  Ein Problem ist, das unzälige Mails base64 oder
 quoted-printable
 
 Dachte erst, das ich alle messages in ein verzeichnis copiere
 und dann sie mit formail einlese und dann über eine procmailrc
 weiterverarbeite
 
 :0
 | mimedecode
 
 :0
 | url_gabscher
 
 :0
 /dev/null
 
 
 Ideen ?
 
 Schönen sonnigen Nachmittag
 Michelle

Hm das sollte sich mit n paar zeilen perl oder python erledigen lassen

gruss Uwe



-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: URLs aus ber 200.000 Dateien extrahieren

2005-05-10 Diskussionsfäden Jan Kesten
Michelle Konzack wrote:

 kennt jemand ein Tool, mit dem ich aus ber 1.800.000 Mail-
 Dateien URL's automatisch extrahieren kann ?  Diese sollen
 dann in eine einzige Datei geschrieben, sortiert und unified
 werden.  Ein Problem ist, das unzlige Mails base64 oder
 quoted-printable

Hallo,

auch wenn ich gleich wieder was an den Kopf geworfen bekomme: Python!
Dort gibt es die schnen Klassen mailbox und email (und ja, mailbox kann
auch Maildir lesen - um gleich einer Frage vorzubeugen). Und die eMail
Objekte knnen dann alles was man 'richtig' darstellen kann auch
decodieren - und die URLs rauspicken ist dann ein Fall fr regex :-)

Viel Spass,
Jan



signature.asc
Description: OpenPGP digital signature


Re: URLs aus ber 200.000 Dateien extrahieren

2005-05-10 Diskussionsfäden Christian Schnitz
Am Dienstag, 10. Mai 2005 15:34 schrieb Michelle Konzack:
...

sed [1] ist Dein Freund

Mit den scripts auf der HP [2] sollte Dein vorhaben einfach und schnell 
gelingen. 

[1] http://sed.sourceforge.net/
[2] http://sed.sourceforge.net/#scripts


Gru



Re: URLs aus ber 200.000 Dateien extrahieren

2005-05-10 Diskussionsfäden Jan Kesten

Einmal zum Schauen:

http://www.foad.org/~abigail/Perl/url3.regex



signature.asc
Description: OpenPGP digital signature


Re: URLs aus ber 200.000 Dateien extrahieren

2005-05-10 Diskussionsfäden Christian Schnitz
Am Dienstag, 10. Mai 2005 18:39 schrieb Jan Kesten:
 Einmal zum Schauen:

 http://www.foad.org/~abigail/Perl/url3.regex

Super ;)

Was genau sollen mir die regexp nun sagen?

Du hast auch [1] gelesen und dir auch das beispiel [2] angesehen?

[1] http://www.foad.org/~abigail/Perl/url2.htm
[2] http://www.foad.org/~abigail/Perl/url3.pl

Gru



Re: URLs aus ber 200.000 Dateien extrahieren

2005-05-10 Diskussionsfäden Jan Kesten
Christian Schnitz wrote:

 Du hast auch [1] gelesen und dir auch das beispiel [2] angesehen?

 [1] http://www.foad.org/~abigail/Perl/url2.htm
 [2] http://www.foad.org/~abigail/Perl/url3.pl

Aber sicher doch - finde nur die Idee klasse, sich aus der BNF des RFC
ein Programm zu basteln, welches dann eine auf diese BNF passenden regex
ausspuckt - wollte ich morgen mal versuchen, ob der wirklich
funktioniert ;-)

Cheers,
Jan


signature.asc
Description: OpenPGP digital signature


Re: URLs aus ber 200.000 Dateien extrahieren

2005-05-10 Diskussionsfäden David Haller
Hallo,

Am Wed, 11 May 2005, Tilo Schwarz schrieb:
On Tue, 10 May 2005 16:44:12 +0200, Michelle Konzack  
[EMAIL PROTECTED] wrote:
Nur habe ich keine Zeit jetzt auch noch Python oder gar Perl zu lernen.

Na dann woll'n wir mal ;-)

Ich hab kurz was zusammengebastelt, das folgendes generiert:

% python ~/tmp/mboxhttp.py 2005-04.mbs | head
[..]
Ich hab das mal mit
% find -name *.mbs -exec python ~/tmp/mboxhttp.py {} \;
über meine ca. 1 Mails laufen lassen. Da tut's, was nicht heißt, das  
es da keine Fehler mehr gäbe. (Die Tücke sind kaputte (multipart-) Mails  
etc.).

Nett, ich glaub, ich sollte mir python doch mal genauer anschauen :)

Dann will ich auch mal in perl, der Vollstaendigkeit halber ;)

Das script hab ich jetzt (man achte auf die Uhrzeit ;) aber nur
minimal getestet (geschweige denn optimiert), d.h. mal ueber ne
spam-mbox und debian-user-german (die letzten ~1600 Mails) laufen
lassen. V.a. die Fortschrittsanzeige ist verbesserungswuerdig ;)

[EMAIL PROTECTED]: ~/mail (0)$ mboxhttp.pl debian-de | head -n 8
http://IP-Adresse:3000
http://Iranians.yourbespils.info/?intriguedxtvuyoctahedronzsvoverflows
http://amavis.org/)
http://blog.emmily.com
http://broadband.afterhoursdjs.org:8008/
http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=238597
http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=293808
http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=296544

Hm. Warum bei dem amavis.org noch das ')' auftaucht? Naja, ich hab
Regex::Common::URI nicht geschrieben ;)

-dnh

-- 
Wie heisst der Super-Satz mit dem man eine Beziehung sowohl anfangen
als auch beenden kann?
Was für ein Arsch! -- Ivy's Bar [http://www.ivys-bar.de]
#!/usr/bin/env perl
use warnings;
use strict;

use MIME::Parser;
use Regexp::Common qw(URI);
use Email::Folder::Mbox;

my %URLS;

my $parser = new MIME::Parser;
$parser-tmp_to_core(1);
$parser-output_to_core(1);
$parser-extract_uuencode(1);
$parser-extract_nested_messages(1);

my $box = new Email::Folder::Mbox($ARGV[0]) or die $!\n;

sub geturls {
  my $entity = shift;
  if( $entity-mime_type() =~ /text/ ) {
map {
  if (/($RE{URI}{HTTP})/) { $URLS{$1}++; }
} split(/\s/, $entity-as_string());
  }
}

while ( my $msg = $box-next_message() ) {
  print STDERR .; # give user some feedback, as output is
# delayed due to sorting...
  my $entity = $parser-parse_data($msg);
  if( $entity-is_multipart ) {
foreach( $entity-parts ) { geturls($_); }
  } elsif( $entity-mime_type() =~ /text/ ) {
geturls($entity);
  }
}

print STDERR \n;

print join(\n, sort keys %URLS), \n;


Re: URLs aus ber 200.000 Dateien extrahieren

2005-05-10 Diskussionsfäden Evgeni -SargentD- Golov
On Wed, 11 May 2005 04:17:59 +0200
David Haller [EMAIL PROTECTED] wrote:

 Spam detection software, running on the system die-welt.net, has
 identified this incoming email as possible spam.  The original message

 Content analysis details:   (4.8 points, 4.0 required)
 
  pts rule name  description
  --
 --
  0.1 FORGED_RCVD_HELO   Received: contains a forged HELO
  0.5 INFO_TLD   URI: Contains an URL in the INFO top-level
  domain 0.5 WEIRD_PORT URI: Uses non-standard port number
  for HTTP 3.9 URIBL_SC_SURBL Contains an URL listed in the SC
  SURBL blocklist
 [URIs: yourbespils.info]
  0.5 URIBL_WS_SURBL Contains an URL listed in the WS SURBL
  blocklist
 [URIs: yourbespils.info]
  2.0 URIBL_OB_SURBL Contains an URL listed in the OB SURBL
  blocklist
 [URIs: yourbespils.info]
  2.0 URIBL_AB_SURBL Contains an URL listed in the AB SURBL
  blocklist
 [URIs: yourbespils.info]
 -4.7 AWLAWL: From: address is in the auto
 white-list

Das nur am Randa als Anmerkung, pass auf, was du für URLs für deine
Beispiele nutzt ;-)
Hab mich schon gewundert, warum eine normale DUG Mail im Spam landete.

Gruß
Evgeni

-- 
   ^^^| Evgeni -SargentD- Golov ([EMAIL PROTECTED])
 d(O_o)b  | PGP-Key-ID: 0xAC15B50C
  -|-   | WWW: www.die-welt.net   ICQ: 54116744
   / \| IRC: #sod @ irc.german-freakz.net