>> No, celá wikidata budou asi větší než pár mega...
>Jo, ale od určité chvíle začne převažovat cena zpracování nad cenou toho 
>trafficu. Navíc to není zas _tak_ velké, tady 
> https://www.wikidata.org/wiki/Wikidata:Database_download to má 26 nebo 56 GB 
> zabzipované (nevím které z toho je to 
No asymptoticky je to pravda, ale stažená data (včetně stránek cro.justice.cz) 
u mně mají 1.3 GB, což tedy není úplně pár mega (špatně jsem se díval), ale 
pořád je to o víc než řád menší, rozbalené... Navíc ten živý graf je 
aktualizován, a to způsobem relevantním pro moje zpracování - čím víc je 
Prymula v televizi, tím pravděpodobnější je že mu někdo aktualizuje záznam...

> správné a jestli je to teda ono). No a to si pak naloaduješ do nějaké své 
> grafové databáze.
Což je taky otázka do které... Já o tom taky moc nevím, ale wikidata AFAIK mají 
cosi placeného, a když jsem naposledy hledal SPARQL store, skončilo to tím že 
to odložíme - a to bylo pro zatraceně menší databázi než wikidata...

>> akorát mě vůbec nenapadlo že by něco takového šlo - jak se to dělá?
>No to já nevím, tohle znám jenom dost teoreticky :). Ale subgraph query by to 
>mohlo umět, ne? (otázka je, jestli nebude omezená velikostí) Našel jsem třeba 
>https://wdumps.toolforge.org/, ale nezkoušel jsem.
Hmm, to můžu zkusit, akorát zformulovat ty filtry bude pro SPARQL samouka jako 
jsem já netriviální... A omezené to AFAIK bude. Na query.wikidata.com taky 
nelze dát dotaz na všechno; fakticky mi timeoutují i individuální dotazy - 
nemůžu např. hledat osobu jen podle jména, musím mít nastavené že je to český 
občan (což mě mrzí, protože řada Čechů to fakticky nastavené nemá, a já to pak 
musím přidávat ručně)...

  Bye
    Vašek
_______________________________________________
Brmlab mailing list
[email protected]
https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab

Odpovedet emailem