Jona, yes, that would be useful. If it is not much trouble. Then I would extract the double links from your dataset and provide that as a comparision.
Cheers, Denny 2012/6/25 Jona Christopher Sahnwaldt <[email protected]>: > Hi Denny, > > we extract the inter-language links for DBpedia. Only for five or six > languages so far, but I could easily run the extractor for all 111 > languages with more than 10000 'good articles'. Shouldn't take more > than a few hours. I would use dumps from late May / early June. > > We perform a full parse, and while the parser is not 100% accurate, it > should be much better than a regex. > > The results would be in RDF and look like this: > > <http://dbpedia.org/resource/Autism> > <http://dbpedia.org/ontology/wikiPageInterLanguageLink> > <http://af.dbpedia.org/resource/Outisme> . > <http://dbpedia.org/resource/Autism> > <http://dbpedia.org/ontology/wikiPageInterLanguageLink> > <http://ar.dbpedia.org/resource/توحد> . > <http://dbpedia.org/resource/Autism> > <http://dbpedia.org/ontology/wikiPageInterLanguageLink> > <http://az.dbpedia.org/resource/Autizm> . > <http://dbpedia.org/resource/Autism> > <http://dbpedia.org/ontology/wikiPageInterLanguageLink> > <http://bn.dbpedia.org/resource/আত্মসংবৃতি> . > <http://dbpedia.org/resource/Autism> > <http://dbpedia.org/ontology/wikiPageInterLanguageLink> > <http://be.dbpedia.org/resource/Аўтызм> . > <http://dbpedia.org/resource/Autism> > <http://dbpedia.org/ontology/wikiPageInterLanguageLink> > <http://be-x-old.dbpedia.org/resource/Аўтызм> . > > Let me know if that would be useful for you. > > Cheers, > Christopher > > On Mon, Jun 25, 2012 at 5:29 PM, Denny Vrandečić > <[email protected]> wrote: >> I'll maybe... I shouldn't... other stuff to do... gnah... >> >> Let's see. I may well do a new run in the next few days... >> (you do realize that some of them wikis are pretty big, right?) :) >> >> Cheers, >> Denny >> >> Am 25. Juni 2012 17:22 schrieb Daniel Kinzler <[email protected]>: >>> On 25.06.2012 16:39, Denny Vrandečić wrote: >>>> A full parse would have been to expensive to perform. I will update >>>> the explanatory text to reflect that. Thank you for finding this >>>> issue! >>> >>> A full parse is out of the question, but stripping comments should be simple >>> enough: /<!--.*?-->/s >>> >>> -- daniel >>> >>> >>> -- >>> Daniel Kinzler, Softwarearchitekt >>> >>> Wikimedia Deutschland e.V. | Eisenacher Straße 2 | 10777 Berlin >>> http://wikimedia.de | Tel. (030) 219 158 260 >>> >>> Wikimedia Deutschland - Gesellschaft zur Förderung Freien Wissens e.V. >>> Eingetragen im Vereinsregister des Amtsgerichts Berlin-Charlottenburg >>> unter der Nummer 23855 B. Als gemeinnützig anerkannt durch das Finanzamt >>> für Körperschaften I Berlin, Steuernummer 27/681/51985. >>> >>> _______________________________________________ >>> Wikidata-l mailing list >>> [email protected] >>> https://lists.wikimedia.org/mailman/listinfo/wikidata-l >> >> >> >> -- >> Project director Wikidata >> Wikimedia Deutschland e.V. | Obentrautstr. 72 | 10963 Berlin >> Tel. +49-30-219 158 26-0 | http://wikimedia.de >> >> Wikimedia Deutschland - Gesellschaft zur Förderung Freien Wissens e.V. >> Eingetragen im Vereinsregister des Amtsgerichts Berlin-Charlottenburg >> unter der Nummer 23855 B. Als gemeinnützig anerkannt durch das >> Finanzamt für Körperschaften I Berlin, Steuernummer 27/681/51985. >> >> _______________________________________________ >> Wikidata-l mailing list >> [email protected] >> https://lists.wikimedia.org/mailman/listinfo/wikidata-l > > _______________________________________________ > Wikidata-l mailing list > [email protected] > https://lists.wikimedia.org/mailman/listinfo/wikidata-l -- Project director Wikidata Wikimedia Deutschland e.V. | Obentrautstr. 72 | 10963 Berlin Tel. +49-30-219 158 26-0 | http://wikimedia.de Wikimedia Deutschland - Gesellschaft zur Förderung Freien Wissens e.V. Eingetragen im Vereinsregister des Amtsgerichts Berlin-Charlottenburg unter der Nummer 23855 B. Als gemeinnützig anerkannt durch das Finanzamt für Körperschaften I Berlin, Steuernummer 27/681/51985. _______________________________________________ Wikidata-l mailing list [email protected] https://lists.wikimedia.org/mailman/listinfo/wikidata-l
