Jona,

yes, that would be useful. If it is not much trouble. Then I would
extract the double links from your dataset and provide that as a
comparision.

Cheers,
Denny

2012/6/25 Jona Christopher Sahnwaldt <[email protected]>:
> Hi Denny,
>
> we extract the inter-language links for DBpedia. Only for five or six
> languages so far, but I could easily run the extractor for all 111
> languages with more than 10000 'good articles'. Shouldn't take more
> than a few hours. I would use dumps from late May / early June.
>
> We perform a full parse, and while the parser is not 100% accurate, it
> should be much better than a regex.
>
> The results would be in RDF and look like this:
>
> <http://dbpedia.org/resource/Autism>
> <http://dbpedia.org/ontology/wikiPageInterLanguageLink>
> <http://af.dbpedia.org/resource/Outisme> .
> <http://dbpedia.org/resource/Autism>
> <http://dbpedia.org/ontology/wikiPageInterLanguageLink>
> <http://ar.dbpedia.org/resource/توحد> .
> <http://dbpedia.org/resource/Autism>
> <http://dbpedia.org/ontology/wikiPageInterLanguageLink>
> <http://az.dbpedia.org/resource/Autizm> .
> <http://dbpedia.org/resource/Autism>
> <http://dbpedia.org/ontology/wikiPageInterLanguageLink>
> <http://bn.dbpedia.org/resource/আত্মসংবৃতি> .
> <http://dbpedia.org/resource/Autism>
> <http://dbpedia.org/ontology/wikiPageInterLanguageLink>
> <http://be.dbpedia.org/resource/Аўтызм> .
> <http://dbpedia.org/resource/Autism>
> <http://dbpedia.org/ontology/wikiPageInterLanguageLink>
> <http://be-x-old.dbpedia.org/resource/Аўтызм> .
>
> Let me know if that would be useful for you.
>
> Cheers,
> Christopher
>
> On Mon, Jun 25, 2012 at 5:29 PM, Denny Vrandečić
> <[email protected]> wrote:
>> I'll maybe... I shouldn't... other stuff to do... gnah...
>>
>> Let's see. I may well do a new run in the next few days...
>> (you do realize that some of them wikis are pretty big, right?)  :)
>>
>> Cheers,
>> Denny
>>
>> Am 25. Juni 2012 17:22 schrieb Daniel Kinzler <[email protected]>:
>>> On 25.06.2012 16:39, Denny Vrandečić wrote:
>>>> A full parse would have been to expensive to perform. I will update
>>>> the explanatory text to reflect that. Thank you for finding this
>>>> issue!
>>>
>>> A full parse is out of the question, but stripping comments should be simple
>>> enough: /<!--.*?-->/s
>>>
>>> -- daniel
>>>
>>>
>>> --
>>> Daniel Kinzler, Softwarearchitekt
>>>
>>> Wikimedia Deutschland e.V. | Eisenacher Straße 2 | 10777 Berlin
>>> http://wikimedia.de  | Tel. (030) 219 158 260
>>>
>>> Wikimedia Deutschland - Gesellschaft zur Förderung Freien Wissens e.V.
>>> Eingetragen im Vereinsregister des Amtsgerichts Berlin-Charlottenburg
>>> unter der Nummer 23855 B. Als gemeinnützig anerkannt durch das Finanzamt
>>> für Körperschaften I Berlin, Steuernummer 27/681/51985.
>>>
>>> _______________________________________________
>>> Wikidata-l mailing list
>>> [email protected]
>>> https://lists.wikimedia.org/mailman/listinfo/wikidata-l
>>
>>
>>
>> --
>> Project director Wikidata
>> Wikimedia Deutschland e.V. | Obentrautstr. 72 | 10963 Berlin
>> Tel. +49-30-219 158 26-0 | http://wikimedia.de
>>
>> Wikimedia Deutschland - Gesellschaft zur Förderung Freien Wissens e.V.
>> Eingetragen im Vereinsregister des Amtsgerichts Berlin-Charlottenburg
>> unter der Nummer 23855 B. Als gemeinnützig anerkannt durch das
>> Finanzamt für Körperschaften I Berlin, Steuernummer 27/681/51985.
>>
>> _______________________________________________
>> Wikidata-l mailing list
>> [email protected]
>> https://lists.wikimedia.org/mailman/listinfo/wikidata-l
>
> _______________________________________________
> Wikidata-l mailing list
> [email protected]
> https://lists.wikimedia.org/mailman/listinfo/wikidata-l



-- 
Project director Wikidata
Wikimedia Deutschland e.V. | Obentrautstr. 72 | 10963 Berlin
Tel. +49-30-219 158 26-0 | http://wikimedia.de

Wikimedia Deutschland - Gesellschaft zur Förderung Freien Wissens e.V.
Eingetragen im Vereinsregister des Amtsgerichts Berlin-Charlottenburg
unter der Nummer 23855 B. Als gemeinnützig anerkannt durch das
Finanzamt für Körperschaften I Berlin, Steuernummer 27/681/51985.

_______________________________________________
Wikidata-l mailing list
[email protected]
https://lists.wikimedia.org/mailman/listinfo/wikidata-l

Reply via email to