Re: [Python] Progetto SW

Enrico Bianchi Sat, 07 Nov 2015 07:52:46 -0800

On 11/06/2015 06:39 PM, enrico franchi wrote:

Altri aggeggi (che so, il clustering) richiedono comunque parecchiainfrastruttura. Che sia o meno multi-vendor (ovvero, che sia piu'integrato in Oracle, ok... ma se vuoi un cluster hai comunque bisognodi tirare su nodi, lb, possibilmente qualche sorta di controller).

Vero, ma comunque in ottica di HA e` qualcosa che serve e fa comodo.Gia` l'avere BDR (che si spera che sia integrata completamente in 9.5)sara` un ottimo passo avanti, almeno nella gestione del bilanciamentodelle connessioni tramite pgBouncer

Poi, su una nota completamente differente, mi viene sempre da dire...ma *veramente* vogliamo queste cose in un db relazionale?

Enrico, per essere franchi (scusa il gioco di parole), si, sono cose chein un db relazionale come PostgreSQL servono. Perche` in un contesto didatawarehouse o di business intelligence hai a che fare con tabelle conmilioni di record (dove milioni e` piu` di 5, giusto per tenersi bassi).Introdurre un sistema di di partizionamento dei dati ed una gestioneparallela delle query significa quindi non solo avere una gestionemigliore dei dati, ma anche delle performance non indifferenti. E ilmettere un middleware in mezzo (e.g. per la gestione delle queryparallele) significa solo aggiungere una pezza, perche` non soloaggiungi uno strato da manutenere, ma rischia anche di peggiorare leprestazioni piuttosto che migliorarle (siamo ad un livello superiorerispetto all'implementazione nativa. Ed e` da vedere anche inquest'ottica l'aggiunta delle viste materializzate in PostgreSQL 9.3

Spiego meglio... molte delle feature che menzioni (sharding epartizionamento) non sono per nulla banali da risolvere in modoefficiente in modo generale.

In teoria partizionamento (tramite rule, trigger e viste) e sharding(tramite fdw) lo hai gia`, ma avere una gestione semplificata ("allaOracle" per intenderci) e` qualcosa a cui dovrebbero puntare (e comunqueci vogliono puntare, basta vedere che uno dei punti fermi nella TODOList di PostgreSQL e` ad esempio la semplificazione della gestione delpartizionamento) anche nell'ottica di ottenere performance migliori

Quindi se il mio db offre queste feature, ottimo, eh. Ma se poi devocomunque mettermi a pensare le query in modo diverso che tengono contodi come sono messe le cose, altrimenti mi parte completamente laperformance...

Il pensare le query diferentemente e` un concetto alquanto labile.Poniamo ad esempio Oracle: il parallelismo delle query si ottienetramite un costrutto ad hoc del CREATE TABLE (che di suo e` fortementedipendente dal RDBMS) e successivamente mediante un SELECT /*+PARALLEL(n) */ , ovvero a conti fatti non cambia nulla e, soprattutto,rimane compatibile con praticamente tutto. Ed il discorso di pensaredifferentemente e` un discorso che devi fare sempre, ovvero ad esempiose in MongoDB non ragioni in logica di sharding dei dati le prestazionise ne vanno a donnine (testato sulla mia pelle)

e quindi magari mi metto a progettare lo schema in modo da supportaremeglio il tutto, etc etc etc.

Sinceramente non capisco questo tuo ragionamento, quando progetto unoschema dati uso le funzionalita` che mi servono, non tutte lefunzionalita` del database. Per intenderci, se ho un database in cui latabella piu` grande ha 50.000 record non partiziono le tabelle.Diversamente, gia` se mi aspetto 1.000.000 e piu` record possocominciare a valutare la questione

Quindi: sta roba... l'hai provata *davvero*?

Personalmente non mi e` mai servita, ovvero non sono mai arrivato agestire moli di dati cosi` grosse. Ma sono funzionalita` pesantementeutilizzate in ambito finanziario o in ambito bancario (per dire, SAPusava - ora non so se hanno cambiato qualcosa - una tabella di"journaling" in cui venivano loggate tutte le operazioni effettuate,ovvero avevi un mostro che dopo pochi giorni diventava grosso circa30mln di record, non usare il partizionamento in quel caso significavaavere una tabella ingestibile)

Perche' se c'e', ma di fatto va usata con molta cura, non sonoconvinto che non mi convenga usare Dynamo o mettere su un clustercassandra o hadoop.

Anche un indice e` da usare con molta cura, eh ;)

Ok. Perche' PG fa un bel po' di roba "unica" su tutto questo. Robaanche *preziosa* per cui mi viene voglia di non considerare soluzioniNoSQL per tanto e' fatta bene.

Lo so, infatti stavamo valutando il passaggio da Oracle 11g a PostgreSQLproprio per il supporto a JSON (passaggio che poi non si fara` per unaserie di molteplici motivi)

Se si tratta solo di avere json sintatticamente corretto con qualcheforma di ricerca limitata e lenta (come per esempio era nelle versionipiu' vecchie di postgresql) la cosa mi interessa di meno.

Da quello che ho visto, in Oracle 12c fai query del tipo SELECTtabella.campojson.chiave FROM tabella e da qui lo tratti come se fosseun dato normale, ma non so dirti di piu` (e.g. non capisco come faccia agestire gli array). Ovviamente ci sono anche delle funzioni e deiconstraint per gestire il tipo di dato, ma il mio assunto rimane lostesso :)


Enrico
_______________________________________________
Python mailing list
[email protected]
http://lists.python.it/mailman/listinfo/python

Re: [Python] Progetto SW

Rispondere a