Nemyslím si, že je dobré zatěžovat tu veřejnou databázi mnoha dotazy. Nedá se 
stáhnout vybraný podgraf (nebo v nejhorším celá wikidata), pustit si to u sebe 
a dělat si ty dotazy lokálně?

On 15. 10. 20 12:46, Václav Bárta wrote:
> Hi,
> 
> On 10/14/20 11:17 AM, Ondrej Beranek wrote:
>> toliko novinky. Děláte někdo na něčem ?
> Ano, jako obvykle na softwaru, a jako obvykle mi chybí hardware... :-)
> 
> Pro https://www.hlidacstatu.cz/ stahuju majetková přiznání veřejných činitelů 
> z https://cro.justice.cz/ (což není takový problém) obohacené z 
> https://www.wikidata.org/wiki/Wikidata:Main_Page (což je výzva, protože na 
> 99% tam ty osoby prostě nejsou, a když už jsou, je ten graf dost velký, 
> složitý, chybný a nestabilní), a jak tak přidávám nové a nové dotazy, trvá mi 
> teď jeden run (cca. 5e4 přiznání + 1e5 dynamických dotazů) 4 dny, což směřuje 
> mé myšlenky k optimalizaci... Bottleneck je patrně hledání ve wikidatech (na 
> objem se stahuje jen pár mega); jeho zjevnou optimalizací je paralelizace, 
> kterou ovšem wikidata nerada vidí (HTTP 429) - takže je otázkou viděla-li by 
> paralelizaci přes více IP, které ovšem nemám...
> 
> Uvažoval jsem o cloudu, ale moje poslední pokusy na AWS vedly akorát k 
> výdajům za nezrušené předplatné, takže přemýšlím o komunitnějších variantách 
> - nenašlo by se v Brmlabu pár linuxových VPN s veřejnými adresami, na kterých 
> by se dal můj crawler zprovoznit? Multi-host setup je už téměř 
> implementován... :-)
> 
>   Bye
>     Vašek
> _______________________________________________
> Brmlab mailing list
> [email protected]
> https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
> 

-- 
Jan Hrach | https://jenda.hrach.eu/
_______________________________________________
Brmlab mailing list
[email protected]
https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab

Odpovedet emailem