Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Apuntate al Workshop gratuito para aprender Business Intelligence. Plazas limitadas!!

Diseño multidimensional, OLAP, ETL, visualización, open source, Pentaho...

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 7 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

La mejor oferta de Cusos Open Source

Después de la gran acogida de nuestros Cursos Open Source, eminentemente prácticos, lanzamos las convocatorias de 2017

30 mar. 2012

Si eres curioso te gustara el Business Intelligence

Gran infografia la que os mostramos a continuación. Nos encanta. Si, somos BI-Curious!!




Visto en Allanalytics

26 mar. 2012

Data.gov datos mas abiertos en mas sitios



Esta iniciativa del Gobierno de Estados Unidos, que también están llevando a cabo otros paises está empezando a extenderse como buen síntoma de transparencia. Una ola que parece haber llegado a España también y pronto veremos cosas muy similares como las mostradas aquí.
Imaginaros toda la información, consultas y decisiones acertadas que se podrían tomar si aplicaramos Business Intelligence!!

Que temas se ofrecen y podemos 'debemos' aspirar a que todas las Administraciones Públicas ofrezcan? Os mostramos unos ejemplos:

- Metricas (set de datos) disponibles
- Raw Data
- Geodata
- Catálogo de aplicaciones disponibles
- Directorio de sitios Open Data
- Galería de Ejemplos
- Novedades

23 mar. 2012

La evolucion de SpagoBI

Una presentación reciente y muy interesante de la evolución y Roadmap de la plataforma BI Open Source, SpagoBI, con muchos temas que nos gustan especialmente


16 mar. 2012

Los datos como un bien publico



Desde hace mucho venimos hablando de Open Data, como está cambiando la relación de los ciudadanos con la información, como se apoya y complementa con el uso del Open Source para esta labor y la gran difusión que está teniendo debido a:

- La propia demanda de los ciudadanos de transparencia e información.
- La necesidad de Organismos, tanto Públicos como privados de 'abrirse' a ciudadanos y clientes.

Revisando el interesantísimos artículo de O'Reilly Radar, extraemos una serie de conclusiones desde TodoBI muy relevantes:

- Una sociedad más informada es una sociedad más libre.
- La transparencia es cada vez más, una exigencia para las administraciones.
- Se trata de una herramienta poderosa para el 'nuevo periodismo' abierto a la sociedad.
- El uso de las redes sociales está impulsando este despegue.
- La apertura de Datos Públicos puede ser un motor que dinamice la creación de empleo.
- No solo debe centrarse en las administraciones públicas: investigadores, académicos, ciudadanos, empresas y usuarios pueden beneficiarse. Por ejemplo Brigthscope
- Los datos públicos tienen un público objetivo que incrementa el uso de la información conforme se va usando. La rueda se incrementa al girar.
- Los datos deben ser verdaderos y confiables. Sin estas premisas, el edificio se derumba.
- Se pueden beneficiar sectores muy diversos como el sanitario, financiero, periodístico, etc...
Enlace
También te puedes descargar una copia gratuita del ebook, 'Data for the Public Good'


  • From Healthcare to Finance to Emergency Response, Data Holds
  • Immense Potential to Help Citizens and Government
  • Financial Good
  • Transit Data as Economic Fuel
  • Transparency and Civic Goods
  • Principles for Data in the Public Good
  • The Case for Open Data
  • The Promise of Data Journalism
  • Open Aid and Development
  • Crisis Data and Emergency Response
  • Healthcare
  • What Lies Ahead
  • Civic Network Effects
  • Smart Disclosure
  • Personal Data Assets
  • Hybridized Public-Private Data
  • Public Data Is a Public Good

15 mar. 2012

What if Analysis sample



One of the things we like of working with Open Source BI Solutions like Pentaho is that we can improve some features as clients demands.

We´ve implemented in some organizations a simple way to make 'what if' analysis. We´ve created a simple sample of this using Champions League Dashboards. We can create our Ideal 11 players depending on several measures you can modify and play with them.

Imagine this feature instead of players, applied to profit and loss, sales, product costs.... in a company



14 mar. 2012

Lecciones sobre Visualizacion



Nos ha parecido muy interesante el articulo de Jeffrey Heer y Ben Shneiderman sobre visualización, pues se repasa de forma muy acertada y con ejemplos, como debe ser una buena visualización para el análisis de la información.

Un articulo fundamental para todos (y hablamos desde técnicos, usuarios, analistas, investigadores, universitarios, etc...) que tengan que crear aplicaciones visuales para el manejo de datos.

A nosotros nos gusta dedicar un tiempo importante en nuestros cursos y proyectos a cómo diseñar y crear Cuadros de Mando y análisis que tengan sentido, sean usables y efectivos, como forma de garantizar un uso exitoso, que viene de la mano del uso efectivo y provechoso de las herramientas. Muchas veces la tecnología puede hacer más compleja la comprensión. En este Videotutorial dábamos bastantes consejos sobre como realizarlo con éxito.

El Software Libre ya acapara la atención de la informacion en papel



En el mundo digital, escribir y leer sobre software libre es común, pero es interesante la cada vez más importante acogida que está teniendo en otros medios.

Hace unos días, se podía desayunar, periodico en mano, con que El Mundo le dedicaba un articulo muy amplio a la penetración del Software Libre, principalmente en la Administración Pública, pero como bien sabemos se está extendiendo como la polvora a la empresa privada.


Ver noticia publicada en El Mundo

Algunos de los mensajes que se lanzaban eran los siguientes:

8 mar. 2012

Sentiment analysis con Pentaho Data Mining, Weka

Uno de los temas más calientes actualmente es el análisis de todo lo relacionado con el social networking.



Gracias a la herramienta de Mineria de Datos de Pentaho, Weka, podemos ir realizando análisis muy interesantes al respecto.

Analizar la información contenida en los tweets de de Twitter para sacar conclusiones sobre lo que se está diciendo y expresando en la red es posible hacerlo gracias a esta potente herramienta. Nosotros ya hemos empezado a utilizarlo y las posibilidades son enormes.

Visto en Mark Hall blog

Ebook Top 10 Root Causes of Data Quality Problems

Documento interesante elaborado por Talend, sobre las 10 principales problemas de Calidad de los Datos (enemigo oscuro de los proyectos BI) y la forma de afrontarlos.

Podéis descargarlo desde aquí.

Las razones mencionadas, y en las que no podemos estar más de acuerdo son las siguientes:

#1 - Typographical Errors and Non-Conforming Data
#2 - Information Obfuscation
#3 - Renegade IT and Spreadmarts
#4 - After the Merger
#5 - Change is Good… Except for Data Quality
#6 - Hidden Code
#7 - Transaction Transition
#8 - Metadata Metamorphosis
#9 - Defining Data Quality
#10 - Loss of Expertise

6 mar. 2012

BBVA tambien tiene su gran CPD y Cuadro de Mandos

Si hace unas semanas os hablábamos del nuevo CPD y sistema de control o Cuadro de Mando de Botin para su Banco Santander, hoy presenta el BBVA el suyo. Curiosa coincidencia en el tiempo. En cualquier caso, nos gusta la apuesta de estos grandes bancos por los Cuadros de Mando para seguimiento.

Podeis comparar:



5 mar. 2012

Como crear tablas agregadas en Mondrian y no morir en el intento

En la web de Mondrian (usado en Pentaho y otros sistemas BI) hay documentación detallada sobre cómo crear tablas agregadas, pero ya sabemos que la teoría es muy bonita y distinta de la práctica… Aunque es recomendable leerla antes de empezar a hacer algo con tablas agregadas (http://mondrian.pentaho.com/documentation/aggregate_tables.php), en este post, nuestros compañeros de Stratebi nos dan los detalles y los pasos a seguir para crear una tabla agregada en Pentaho y que funcione.

Con el Aggregation Designer podemos diseñar nuestra tabla agregada a medida y nos genera el código (el CREATE TABLE, el “INSERT AS SELECT” y las modificaciones al esquema de mondrian) automáticamente.

Al abrir el Aggregation Designer seleccionamos la conexión a base de datos, el esquema de mondrian, le damos a Apply y seleccionamos el cubo deseado.

En la parte derecha le damos al botón + Add y automáticamente nos crea una nueva tabla agregada.

En la parte izquierda nos aparecen las dimensiones donde podemos seleccionar el nivel de detalle que queremos en cada dimensión. Decidir para qué dimensiones agregar depende de las consultas que más se vayan a hacer sobre el cubo.

Si una dimensión no la queremos usar en la tabla agregada, dejamos la selección como (All).

Si una dimensión sí la queremos usar en la tabla agregada, seleccionamos el nivel más bajo para llevarnos toda la dimensión; o un nivel superior si queremos que la tabla agregue solo por ese nivel.

Una vez hecho esto le damos al botón de Apply (abajo) y luego al botón de Export (arriba). Esto nos genera los códigos que mencionaba antes y que ya podemos ejecutar en el SGBD.

Reemplazamos el esquema de mondrian y nos guardamos las consultas, ya que habrá que incluirlas luego en la ETL de creación del DM.

Para que mondrian use las tablas agregadas hay que editar el fichero pentaho-solutions/system/mondrian/mondrian.properties y poner a true las propiedades: mondrian.rolap.aggregates.Use y mondrian.rolap.aggregates.Read.

Con esto hecho, reiniciando el servidor, vaciando cachés y actualizando el repositorio de la solución todavía no nos funcionaría el truco y es que Mondrian aplica unas reglas concretas en los nombres de las tablas agregadas. La sorpresa es que el código generado por el Aggregation Designer no cumple estas reglas (!!). Y si estas reglas no se cumplen, Mondrian no utilizará la tabla agregada para la consulta.

Lo aconsejable es hacer los cambios en el esquema (que será el definitivo) y en la tabla agregada en BBDD y luego sacar el código del “INSERT AS SELECT” comparando el código original con el nuevo, lo que cambia es solo el nombre de las columnas. El nuevo código DDL se saca facilmente con un dump.

Estas reglas se detallan en la documentación de Mondrian pero como hay varias opciones y no todas me han funcionado, os cuento la que a mí sí me han servido:

Nombre de la tabla agregada: agg_CUALQUIERCOSA_NOMBRETABLA. Si la tabla se llama fact_SteelWheels vale por ejemplo agg_ventas_por_producto_SteelWheels. Me ha dado problemas que la tabla de hechos empiece por “fact_”. Por no crear un nombre de tabla agregada demasiado grande, Mondrian permite quitar este prefijo en la tabla agregada.

La columna que se detalla en la etiqueta debe llamarse fact_count, en BBDD y en el esquema.

El atributo column (en el esquema) de las medidas debe llamarse igual que el campo de BBDD de la tabla agregada y éste debe llamarse igual que el campo de BBDD del nivel de la dimensión (especificado en el atributo column también). Un ejemplo:

Si tenemos esta dimensión de tiempo:

column="Year" type="String" uniqueMembers="false" levelType="TimeYears" hideMemberIf="Never">
column="Quarter" type="String" uniqueMembers="false" levelType="TimeQuarters" hideMemberIf="Never">
column="YearMonthNumber" ordinalColumn="id_Date" type="String" uniqueMembers="false"
levelType="TimeMonths" hideMemberIf="Never">

Y queremos incluirla entera en la tabla agregada, deberemos poner las siguientes etiquetas:

column="Year" name="[Time].[Year]"> column="Quarter" name="[Time].[Quarter]">
column="YearMonthNumber" name="[Time].[Month]">

En BBDD, deberemos cambiar los nombres de las columnas por Year, Quarter y YearMonthNumber.

Para las medidas se aplica la misma regla. Por ejemplo, una medida definida así en el cubo:

column="SalesValue" formatString="#,##0 €" aggregator="sum" visible="true">

Hay que definirla así en la tabla agregada:

column="SalesValue" name="[Measures].[Sales]">

Y en BBDD, deberemos modificar el nombre de la columna por SalesValue.

Por último, para comprobar que funciona, podemos activar el log en SQL de Pentaho y hacer una vista de análisis candidata a usar la tabla agregada. Deberíamos ver que las consultas SQL se están generando sobre la tabla agregada.

Para activar el log en SQL hay que descomentar en el fichero: tomcat/webapps/pentaho/WEB-INF/classes/log4j.xml la parte que pone “Special Log File specifically for Mondrian SQL Statements” al final del documento. El fichero de log en SQL se guarda en tomcat/bin/mondrian_sql.log

2 mar. 2012

3D Data Visualization Globe on iPad/iPhone

This application demonstrates how Adobe AIR 3.2 3D capabilities and the Minko (http://aerys.in/minko) framework make it possible to easily create rich and engaging 3D data visualization for mobile devices.

Creando mapas con R



Interesantes entradas de Oscar Perpiñán, para demostrar el uso de R en la visualización. Lo explica en las siguientes entradas. Muy buen trabajo que vino por el desafío de hacer algo similar a lo que realizó el New York Times sobre las elecciones en US (ver imagen superior)

- Maps with R (1)
- Maps with R (2)
- Maps with R (3)



Visto a través de Anibal Goicoechea

1 mar. 2012

Data Science e-book, listo para descargar la primera version

Data Science e-book proporciona recetas, discusiones interesantes para los científicos e información sobre recursos y fuentes de datos para la toma de decisiones. No es necesario un grado avanzado para entender los conceptos. La mayoría del material está escrito en lenguaje sencillo y ofrece soluciones simples y consejos para muchos problemas de las empresas actuales, especialmente acerca de cómo aprovechar el Big Data. Un buen libro, que irá mejorando con las sugerencias.

Download the draft version by clicking on ABbook5.pdf


Among the more technical contributions, you will find notes on

  • How to determine the number of clusters
  • How to implement a system to detect plagiarism
  • How to build an ad relevancy algorithm
  • What is a data dictionary, and how to use it
  • Tutorial on how to design successful stock trading strategies
  • New fast and efficient random number generator
  • How to detect patterns vs. randomness

Es bueno medir todo?