Re: alguna base de datos abierta

Enrique Herrera Noya Wed, 09 Aug 2023 10:12:08 -0700

El 09-08-23 a las 12:44, Fernando Romo escribió:

Estimado Enrique,
Creo que el acercamiento debe ser pro-procesar información para llevara cabo la consolidación de datos estratégicos
El termino de esto se le llama “PermaComputation”, que en términossencillos es almacenar los resultados de datos previamente calculadospara evitar uso de recursos repetidamente.
En mi caso hice un algoritmo que le llamo “Cache diferencial”, queconsiste en procesar por ventanas una muestra de la información, si noexiste un registro previo, insertarlo y si existe, leerlo y actualizarlo.
He usado esto para el manejo de 650 sucursales de una conocidapizzería y con esto damos los datos de manera rápida a todas las áreasgerenciales, resaltando los llamados “kpi” (key performance indicator)
La técnica de Cache diferencial se puede usar en cualquier BD ylenguaje, consiste en generar tablas de cache (por hora, día, més,etc) que te permite acceder a los resultados previamente calculados
Por ejemplo:
Tomando en cuenta que tengo una tabla con inmformacieon de actividadtelefónica con unos 228,272,901 registros, el tiempo que tarda enconsultar la info base en un querrá puede ser de muy alto vs el cache
queue_log , que es la tabla base, si hago un query y le pongo“explain analyze” para ver los tiempos de ejecucieontenemos estosresultados:
Tabla           registros          tiempo
cache_year      2,711 Execution Time:         3.580 ms (      1x) */
ache_month      24,804 Execution Time:        28.971 ms (      8x)
cache_day     731,909 Execution Time:       342.648 ms (   96x)
cache_hour  8,715,863 Execution Time:     2,014.931 ms (    563x) */
Queue_log   228,272,901 Execution Time: 2,099,358.675 ms (586,413x)
Si te fijas, si hiciera un query de todos los indicadores de llamadasanuales, desde la tabla base, tardo 586,413 veces mas que usando elcache.
Las tablas de cache dan los mismo resultados que haciendo en la tablabase, pero los tiempos de ejecución son muy bajos en los caches.
Esto tiene mucho sentido cuando tienes a mucha gente viendo losindicadores constantemente, si tienes a 50 personas ejecutando unquerrá que tarda mas de 34 minutos por persona, pues colapsaras la BDde manera terrible.
Con gusto te muestro como lo hago, siéntete libre de preguntar y siestá en mis manos, ayudarte.
Saludos…. Fernando “El Pop” Romo

eso es conociendo la base, recién estoy definiendo a cual base lehincare el diente (son dos o tres que se demoran sus dias enprocesarse), para de acuerdo eso ver si la estrategia que propones meservirá


mi idea es la siguiente:

definida la base , extraer un 10% de la base ( con la sugerencia dealvaro podre volcar a una base "victima", osea que podre romperla sinpreocupación )


luego sobre la base victima, aplicar todas las opciones de mejoras:

mejora de consultas

revisión de indices,

estrategia de almacenamiento,

etc.

hacer tuning , etc.

On 9 Aug 2023, at 8:54, Enrique Herrera Noya<enrique.herreran...@gmail.com> wrote:
Colegas:

Estoy desarrollando mi proyecto de titulo

el cual versa sobre :
En la empresa se procesa un gran volumen de datos (TeraBytes), conlos cuales se crean determinados productos y/o servicios que seofrecen a los clientes. Dado esto es importante la seguridad de losdatos, en los aspectos de*disponibilidad*,*accesibilidad*, y sobretodo*integridad*de la información.Actualmente el procesamiento de algunos conjuntos de datos, medianteprogramas propios desarrollados en*Java*y utilizando*Postgresql*comobase de datos, se demora alrededor de unos dos a tres días, cada vezque se/_precisa realizar el análisis mensual_//de ellos,/para lo cualse utiliza en forma intensiva los recursos informáticos asignados,dicho proceso se realizar en paralelo con otros procesos diarios.Este uso intensivo surge porque el estado de ciertos registros vanvariando cada mes, y es necesario llevar un registro histórico*.*
Se necesita realizar mejoras para optimizar el uso de los recursosinformáticos y también mejorar el código desarrollado, para disminuirel tiempo necesario para el procesamientos de los datos.
me tope con un tema practico , como son varios teras desde el cualdebo seleccionar la muestra, me demorare mas tiempo que el plazo deentrega de la maqueta,
entonces, para armar la maqueta se me ocurrió que podría utilizar unabbdd abierta de algunos gigas, para utilizarla como insumo paramostrar los pasos que
 realizare con la bbdd  a analizar.

atentos de sus comentarios.




Enrique Herrera Noya
--
+56 992303151
Red Hat Certified Engineer RHCE Nº100223072 (RH6.0)
Red Hat Certified System Administrato RHCSA Nº100223072 (RH6.0)
Red Hat Certified Technician (RHCT) Nº605010753835478 (RH5.0)
Novell Certified Linux Professional CLP 10
Red Hat Delivery Specialist -Container Platform Application Deployment I
Red Hat Delivery Specialist - Container Platform Administration I
RED HAT SPECIALIST
How to Sell Red Hat OpenShift for Infrastructure
How to Sell Red Hat OpenShift for Developers
Red Hat Sales Engineer Specialist - Container Platform
Red Hat Sales Engineer Specialist – Automation


Enrique Herrera Noya
--
+56 992303151
Red Hat Certified Engineer RHCE Nº100223072 (RH6.0)
Red Hat Certified System Administrato RHCSA Nº100223072 (RH6.0)
Red Hat Certified Technician (RHCT) Nº605010753835478 (RH5.0)
Novell Certified Linux Professional CLP 10
Red Hat Delivery Specialist -Container Platform Application Deployment I
Red Hat Delivery Specialist - Container Platform Administration I
RED HAT SPECIALIST
How to Sell Red Hat OpenShift for Infrastructure
How to Sell Red Hat OpenShift for Developers
Red Hat Sales Engineer Specialist - Container Platform
Red Hat Sales Engineer Specialist – Automation

Re: alguna base de datos abierta

Reply via email to