Material Big Data

Lanzados ppts informativos de tecnologías BigData: Hadoop, Hbase, Hive, Zookeeper...

Pentaho Analytics. Un gran salto

Ya se ha lanzado Pentaho 7 y con grandes sorpresas. Descubre con nosotros las mejoras de la mejor suite Open BI

La mejor oferta de Cusos Open Source

Después de la gran acogida de nuestros Cursos Open Source, eminentemente prácticos, lanzamos las convocatorias de 2017

9 may. 2017

BI meet Big Data, a Happy Story


Cada vez esta más cerca poder hacer análisis BI OLAP tradicionales sobre entornos Big Data, gracias a Kylin. Hace unas semanas, lo comentábamos en esta entrada, en donde también mostrábamos ejemplos reales de vistas OLAP y Dashboards en funcionamiento.



Ahora, os actualizamos con información reciente de los programadores de Kylin (inglés)

What is Apache Kylin?

Kylin is an OLAP engine on Hadoop. As shown in Figure 1, Kylin sits on top of Hadoop and exposes relational data to upper applications via the standard SQL interface.
Get O'Reilly's weekly data newsletter

Kylin can handle big data sets and is fast in terms of query latency, which differentiates it from other SQL on Hadoop. For example, the biggest instance of Kylin in production that we’re aware of is at toutiao.com, a news feed app in China. This app has a table of three trillion rows and the average query response time is less than one second. We’ll discuss what makes Kylin so fast in the next section.

Another feature of the Kylin engine is that it can support complex data models. For example, there is a 60-dimension model running at CPIC, an insurance group in China. Kylin provides standard JDBC / ODBC / RestAPI interfaces, enabling a connection with any SQL application.


Kyligence has also developed an online demo, showcasing the BI experience on 100 million airline records. Check it out to learn, for example, the most delayed airline to San Francisco International Airport in the past 20 years. (Login with username “analyst”, password “analyst”, select the “airline_cube”, drag and drop dimensions and measures to play with the data set.)

6 may. 2017

Trabajar en Business Intelligence


El trabajo en el area de Business Intelligence es uno de los más demandados y apasionantes. Si tienes experiencia en BI o quieres aprender y desarrollar tu carrera en este área, esto puede interesante.

Puedes apuntarte un Curso gratuito de Business Intelligence, los días 9 y 10 de Junio en Barcelona. No pierdas esta oportunidad!!

En Stratebi (creadores del Portal TodoBI), disfrutarás con la gran cantidad de oportunidades en las áreas tecnológicas de mayor desarrollo en la actualidad: Business Intelligence, Big Data y Machine Learning, basadas en soluciones Open Source.

Nuestras soluciones, como LinceBI,y las principales herramientas del mercado, posibilitan a nuestros clientes ser más inteligentes, rápidos y flexibles que sus competidores más directos. Este es el verdadero poder de una organizacion.



Estas soluciones son la piedra angular del negocio de las organizaciones: campañas de marketing, reporting y análisis, financial scorecard, CRM, cuadros de mando, etc... Para poder desarrollar estas soluciones se necesita a las personas más valiosas y brillantes del área Business Intelligence. Eso es lo que buscamos y en lo que se deben convertir nuestros consultores.

Queremos formar un equipo con una alta motivación emprendedora, en donde todos sus miembros se sientan satisfechos por la calidad del trabajo y las relaciones con el resto de empleados.

Envia tu CV a rrhh@stratebi.com

Posiciones abiertas:

- Ingenieros con interés en aprender y trabajar en Business Intelligence
- Consultores con experiencia en Business Intelligence
Debido a la ampliación de operaciones en Madrid y Barcelona, estamos buscando verdaderos apasionados por el Business Intelligence y que tengán interés en soluciones Open Source y en el desarrollo de tecnologías abiertas. Y, sobre todo, con ganas de aprender en nuevas tecnologías como Big Data, Social Intelligence, etc...

Si estas leyendo estas lineas, seguro que te gusta el Business Intelligence. En Stratebi y TodoBI, estamos buscando a personas con gran interés en este área, que tengan una buena formación técnica y/o experiencia en la implementación de proyectos Business Intelligence en importantes empresas con (Oracle, MySQL, Powercenter, Business Objects, Cognos, Pentaho, Microstrategy...) o desarrollos web adhoc. Mucho mejor, si además fuera con BI Open Source, como Pentaho, Talend... y conocimientos de tecnología Big Data y Social Media, orientado a la visualización y front-end

Todo ello, será muy útil para la implementación de soluciones BI/DW con la plataforma BI Open Source que está revolucionando el BI: Pentaho, con la que más trabajamos, junto con el desarrollo de soluciones Big Data, Social Intelligence y Smart Cities.

Si ya conoces, o has trabajado con Pentaho u otras soluciones BI Open Source será un punto a favor. De todos modos, nuestro Plan de Formación te permitirá conocer y mantenerte actualizado en estas soluciones.
¿Quieres saber un poco mas sobre nosotros y las características de las personas y perfiles que estamos buscando para 'subirse al barco'?

¿Qué ofrecemos?


  • Trabajar en algunas de las áreas de mayor futuro y crecimiento dentro del mundo de la informática: Business Intelligence, Big Data y el Open Source.
  • Colaborar en la mejora de las soluciones Bi Open Source, entre las que se encuentran desarrollando algunas de las empresas tecnológicas más importantes.
  • Entorno de trabajo dinámico, aprendizaje continuo, variedad de retos.
  • Trabajo por objetivos.
  • Considerar el I+D y la innovación como parte principal de nuestros desarrollos.
  • Retribución competitiva.
  • Ser parte de un equipo que valora a las personas y al talento como lo más importante.

Nuevas funcionalidades en PostgreSQL 10


Muy intersantes, las nuevas funcionalidades que se anuncian para las versión PostgreSQL 10:

Headline Features

Declarative Partitioning.  In previous versions of PostgreSQL, PostgreSQL supported only table inheritance, which could be used to simulate table partitioning, but it was complicated to set up and the performance characteristics were not that great.  In PostgreSQL 10, it's possible to do list or range partitioning using dedicated syntax, and INSERT performance has been greatly improved.  There is still a lot more work to do in future releases to improve performance and add missing features, but even what we have in v10 is already a major step forward (IMHO, anyway).

Logical Replication.  PostgreSQL has had physical replication -- often called streaming replication -- since version 9.0, but this requires replicating the entire database, cannot tolerate writes in any form on the standby server, and is useless for replicating across versions or database systems.  PostgreSQL has had logical decoding -- basically change capture -- since version 9.4, which has been embraced with enthusiasm, but it could not be used for replication without an add-on of some sort.  PostgreSQL 10 adds logical replication which is very easy to configure and which works at table granularity, clearly a huge step forward.  It will copy the initial data for you and then keep it up to date after that.

Improved Parallel Query.  While PostgreSQL 9.6 offers parallel query, this feature has been significantly improved in PostgreSQL 10, with new features like Parallel Bitmap Heap Scan, Parallel Index Scan, and others.  Speedups of 2-4x are common with parallel query, and these enhancements should allow those speedups to happen for a wider variety of queries.

SCRAM Authentication.  PostgreSQL offers a remarkable variety of different authentication methods, including methods such as Kerberos, SSPI, and SSL certificate authentication, which are intended to be highly secure.  However, sometimes users just want to use passwords managed by the PostgreSQL server itself.  In existing releases, this can be done either using the password authentication type, which just sends the user-supplied password over the wire, or via the md5 authentication type, which sends a hashed and salted version of the password over the wire.  In the latter approach, stealing the hashed password from the database or sniffing it on the wire is equivalent to stealing the password itself, even if you can't compute a preimage.  PostgreSQL 10 introduces scram authentication, specifically SCRAM-SHA-256, which is much more secure.  Neither the information which the server stores on disk nor the contents of an authentication exchange suffice for the server to impersonate the client.  Of course, the substitution of SHA-256 for MD5 is also a substantial improvement.  See also Michael Paquier's blog on this topic. One point to note is that, unless you are using libpq, you will not be able to use this feature unless your particular client driver has been updated with SCRAM support, so it may be a while before this feature is universally available.

Executor Speedups.  Substantial parts of PostgreSQL's executor have been rewritten to make expression and targetlist projection faster; just-in-time compilation will be added in a future release.  Hash aggregation has been rewritten to use a more efficient hash table and store narrower tuples in it, and work has also been done to speed up queries that compute multiple aggregates and joins where one side can be proven unique.  Grouping sets now support hash aggregation.  While all PostgreSQL releases typically contain at least some performance improvements, the rewrite of expression and targetlist projection is a particularly large and significant improvement which will benefit many users.

Durable Hash Indexes.  Hash indexes in PostgreSQL have suffered from years of long neglect; the situation will be noticeably improved in v10.  The most notable change is that changes to a hash index now write WAL, which means that they are crash-safe and that they are properly replicated to standbys.  However, a good deal of other work has been done, including the necessary prerequisite step of revamping the bucket split algorithm to improve performance and concurrency, caching the metapage for better performance, adding page-at-a-time vacuuming, and expanding them more gradually.  Amit Kapila even writes about a case where they outperformed btree indexes.  While there's certainly more work to be done here, I'm excited about these improvements.

ICU Collation Support.  In current releases, PostgreSQL relies exclusively on the collations supplied by the operating system, but this sometimes causes problems: collation behavior often differs between operating systems, especially between Linux and Windows, and it isn't always easy to find a collation for one operating system whose behavior matches that of some collation available on another system.  Furthermore, at least on Red Hat, glibc regularly whacks around the behavior of OS-native collations in minor releases, which effectively corrupts PostgreSQL's indexes, since the index order might no longer match the (revised) collation order.  To me, changing the behavior of a widely-used system call in a maintenance release seems about as friendly as locking a family of angry racoons in someone's car, but the glibc maintainers evidently don't agree.  (In fact, there's one discussion where it's suggested that you not use some of those interfaces at all.)  libicu, on the other hand, says they care about this.

But Wait, There's More!

In my estimation, the features listed above are the most exciting things that users can expect in PostgreSQL 10, which is expected to be released in September.  However, there are quite a few other significant features as well which could easily have qualified as headline features in a release less jam-packed than this one.  Here are some of them:

Extended Statistics (ndistinct, functional dependencies).  If the query planner makes a bad row count estimate resulting in a terrible plan, how do you fix it?  With extended statistics, you can tell the system to gather additional statistics according to parameters that you specify, which may help it get the plan right.

FDW Aggregate Pushdown.  In previous releases, SELECT COUNT(*) FROM foreign_table operated by fetching every row form the foreign table and counting them locally.  That was terrible, so now it doesn't.

Transition Tables.  It is now possible to write a PL/pgsql AFTER STATEMENT trigger which can access all rows modified by the statement.  This can be both faster and more convenient than writing an AFTER ROW trigger that is called once per row.

Improved Wait Events.  PostgreSQL 9.6 introduced wait event monitoring in pg_stat_activity, but only for a limited range of events.  In PostgreSQL 10, you'll be able to see latch waits and I/O waits, even for auxiliary processes and unconnected background workers.

New Integrity Checking Tools.  You can now validate the integrity of your btree indexes using the new amcheck module.  If you're a developer adding write-ahead logging to a new storage form, or a user who thinks the developers may have introduced a bug, you'll be pleased to be able to test with wal_consistency_checking. pg_dump now has better test coverage.

Smarter Connection Handling.  Connections through libpq can now specify multiple hosts, and you can even tell it to find you the server that is currently accepting write connections.

Quorum-Based Synchronous Replication.  You can now specify that a commit must be acknowledged by any K of N standby synchronous servers, improving flexibility and performance.

Other Cool Stuff

Many other things have also been significantly improved in this release.  XMLTABLE makes querying XML data faster and easier.  You can now interrogate the commit status of a transaction directly, and we've got better tracking of replication lag.  psql now supports \if ... \elseif ... \else ... \endif to make scripting easier, and there are new functions and new roles to allow monitoring tools to run without superuser privileges.  Encoding conversions are now faster, and so is sorting. You can compress the transaction log while streaming it.  And there's more, but this blog post is too long already.  If you're interested in reading even more about new features that will be coming with PostgreSQL 10, depesz blogs frequently on this topic, and so does Michael Paquier.  Both have additional details on some of the features mentioned here, as well as others that may be of interest.

This final note: we have had chronic problems with users erroneously believing that the pg_xlog or pg_clog directory is non-critical data, possibly because the directory names include the word "log".  Those directories have been renamed to pg_wal and pg_xact, which we hope will be clearer.  All SQL functions and utility names that formerly included the string "xlog", meaning the transaction log or write-ahead log, have been renamed to use "wal" instead.  Conversely, the default log directory is now called log rather than pg_log so that it is looks less like an internal name.  These changes will probably cause a bit of upgrade pain for some users, but we hope that they will also help users to avoid catastrophic mistakes.


Visto en Robert Haas Blog

28 abr. 2017

Curso de Visualizacion y Cuadros de Mando Open Source


Nos los estabais pidiendo. Hemos convocado una nueva edición del Curso Online para crear Dashboards con tecnologías open source. Serán lo días 24 y 25 de Mayo de 15:00h a 20:00h

Será un curso muy práctico en el que es imprescindible las ganas de aprender y de dejar volar la imaginación con la visualización. Se entregará Certificado de realización a los asistentes.

Todos los detalles del curso aquí, (temario, inscripción...) no te quedes sin plaza!! Solo 95€



Temario

Introducción a Cuadros de Mando

Buenas prácticas en Cuadros de Mando

ScoreCards y Cuadros de Mando

Cuadros de Mando custom 

  • Diferentes tecnologías y ejemplos

Tecnologías CDF y CDE

Instalación CDE

Trabajando con CDE

Explicación de Layouts

Componentes

Extracción de datos (Tecnología CDA)

  • Estructuras de ficheros
  • Origen Kettle
  • Definición Origen (JNDI)
  • Consultas MDX y SQL

Elementos Gráficos

Parametrización y dependencias

Interacción entre elementos gráficos

Elementos avanzados

  • Integración de librerías gráficas externas

Aplicación de Estilos CSS

Javascripting

Inclusión de mapas

Otros tipos de Cuadros de Mandos

Exportación del cdm

CDM para dispositivos móviles


Ejercicios avanzados


Público objetivo

Profesionales de las tecnologías de información, gestores de TI, Analistas de Negocio, Analistas de sistemas, arquitectos Java, desarrolladores de sistemas, administradores de bases de datos, desarrolladores y profesionales con relación a el área de tecnología, marketing, negocio y financiera.


Algún ejemplo de lo que veremos:




Ejemplos de lo que podréis hacer:

- Ver ejemplos en funcionamiento de Cuadros de Mando Open Source
- Ver Galería de Cuadros de Mando

- Ver Cuadros de Mando con tecnologías Big Data 'Real Time

26 abr. 2017

Como añadir forecasting y planificación a Qlikview



If you are using Qlik for data discovery and visual analytics and are looking for a natural extension for best-in-class enterprise planning? 

With the Jedox Qlik Sense and QlikView Connectors you leverage your analytics investment for a unified planning solution with a single, centrally governed data model that’s easy to use for everyone in the company. Ver en acción 
  • Seamless Visualization and Planning with Qlik and Jedox
  • Data Entry, Collaboration and Write-Back Capabilities
  • Enterprise-Class Features for Planning such as Workflows, Auditing, and more…





22 abr. 2017

Main trends in Business Intelligence in 2017

Here you can see, main trends in Business Intelligence during this year. Most of them, we spoke here in this blog in previous posts



Thanks to Panorama Software

19 abr. 2017

Comparativa de herramientas Business Intelligence


Os presentamos un Estudio muy completo de unas 300 páginas que han realizado nuestros compañeros especialistas en Business Intelligence, Stratebi, con una comparativa y análisis detallados de algunas de las herramientas Business Intelligence que más aceptación están teniendo ultimamente:

- PowerBI
- Tableau
- Qlikview
- Pentaho
- SAS
- Information Builders
- Amazon Quicksight

Un estudio muy completo para todos los interesados en implementar una solución business intelligence




LinceBI, the best Analytics/BigData open source based solution!!

As powerful as an enterprise version, with the advantages of being Open Source based. Discover LinceBI, the most complete Bussines Intelligence platform including all the functionalities you need


Dashboards
  • User friendly, templates and wizard
  • Technical skills is not mandatory
  • Link to external content
  • Browse and navigate on cascade dependency graphs
Analytic Reporting
  • PC, Tablet, Smartphone compatibility
  • Syncs your analysis with other users
  • Download information on your device
  • Make better decisions anywhere and anytime
Bursting
  • Different output formats (CSV, Excel, PDF, HTML)
  • Task scheduling to automatic execution
  • Mailing
Balance Scorecard
  • Assign customized weights to your kpis
  • Edit your data on fly or upload an excel template
  • Follow your key performance indicators
  • Visual kpis, traffic lights colours
  • Assign color coding to your threshold
  • Define your own key performance indicators
Accessibility
  • Make calculated fields on the fly
  • Explore your data on chart
  • Drill down and roll up capabilities
  • What if analysis and mailing

Adhoc Reporting
  • Build your reports easily, drag and drop
  • Models and languaje created to Business Users
  • Corporative templates to your company
  • Advanced filters
Alerts
  • Configure your threshold
  • Mapping alerts and business rules
  • Planning actions when an event happen
Check FAQs section for any question


Quieres trabajar en Big Data/Analytics y tienes ganas de aprender?



Tenemos un plan de formación y carrera para profesionales con una base inicial y muchas ganas de aprender. Escríbenos a rrhh@stratebi.com

Podrás participar en proyectos y en desarrollos con las tecnologías más modernas, como Dashboards en tiempo real



·        Requisitos:
o   Descripción: Una persona con interés en Big Data, no es necesaria mucha experiencia, pero con ganas de aprender y formar equipo. Por ejemplo, i), una persona que acabe de terminar una Ingeniería Informática y/o su trabajo de fin de carrera sea sobre Big Data, ii), una persona que esté haciendo I+D en Big Data  o iii), que haya hecho un máster en Big Data 
o   Salario: Según valía
o   Habilidades:
§  Imprescindibles:
·         Conocimientos teóricos básicos de Big Data.
o   Qué es el Big Data.
o   Debe tener claro el paradigma Map Reduce.
·  Conocimientos teóricos básicos de las siguientes tecnologías de arquitectura Hadoop.
o   HDFS
o   Spark
·         Conocimientos teóricos sobre Machine Learning.
·     Programación en i) Python y ii) Scala o Java para Machine Learning, con mínima experiencia demostrable 
·         Conocimiento de Bases de Datos
o   Soltura con lenguaje SQL.
o   Modelado relacional.
o   Experiencia mínima demostrable en al menos uno de los siguientes SGBD:
§  MySQL
§  PostgreSQL
§  Microsoft SQLServer
§  Oracle
§  Opcionales (alguno de estos conocimientos serían muy interesantes):
·         (+) Conocimientos teóricos básicos de arquitectura Hadoop.
o   Hive
o   HBase
o   Kafka
o   Flume
o   Distribuciones Cloudera o Hortonworks:
§  Características
§  Instalación.
·         Conocimientos teóricos Business Intelligence
o   Teoría de Data Warehouses.
§  Modelado en estrella.
·         Experiencia con alguna herramienta de ETL.
o   Ideal con Pentaho Data Integration o Talend
o   Cualquier otra.
·         Experiencia en diseño y carga de un Data Warehouse.


7 abr. 2017

¿Que es OLAP?

olap2

En muchos de los artículos que aquí comentamos aparece el término OLAP. Aunque otras veces hablemos de multidimensional, de cubos... nos referimos a lo mismo.
Dado que es uno de los temas que más me interesan voy a intentar explicar que significa, que características tiene y, sobre todo, para que nos puede ser útil.

OLAP significa ‘On-Line Analytical Processing’, que se contrapone con el término OLTP ‘On-Line Transactional Processing’. Término más habitual, que define los sistemas de bases de datos relacionales usadas ampliamente en el mundo empresarial.
En estos últimos sistemas lo importante es el registro de los datos, y en OLAP, lo importante es el análisis. Esta es la diferencia más general que os puedo dar. Pero existe mucho más.

Ver cubos en funcionamiento, desde informes y Cuadros de Mando (Demo Online)

Es importante saber ésto, por que muchos vendedores dicen que tienen productos con capaciadad OLAP, cuando ésto no es cierto del todo.

Desde el punto de vista teórico un sistema OLAP debe cumplir las reglas del Dr. Codd, recientemente fallecido, y 'padre' del concepto:
  1. Se tiene que tener una visión multidimensional de los datos. Pensar en dimensiones y métricas de Negocio. No en tablas y en campos.
  2. La manipulación de los datos tiene que ser intuitiva y sencilla. Son los análistas y altos ejecutivos los que manejan estas herramientas, y hay que pensar en ello.
  3. El motor OLAP debe ser un organizador intermedio para que las aplicaciones finales: Cuadros de mando, Scorecard, aplicaciones de análiticas financieras, etc... provean de datos al usuario.
  4. Posibilidad de acceder a datos almacenados directamente o en procesos batch, desde el relacional. Es decir, posibilidad de tener un sitema híbrido. Algo más parecido a un sistema HOLAP.
  5. Creación de modelos basados en OLAP. Este requerimiento es muy subjetivo y depende de la complejidad de los modelos. Cuantos más tipos de modelo, mejor OLAP será.
  6. Arquitectura Cliente/Servidor, pensado como la posibilidad de que los usuarios interactuen y colaboren en la aplicación.
  7. Transparente para los usuarios. Se debe ocultar la capa de complejidad, de procesos batch, de cargas ETL... dejando sólo una capa de abstracción de negocio.
  8. Acceso multiusuario a las aplicaciones, de forma concurrente, con posibilidad de modificaciones, estableciendo colas de trabajo, etc...
  9. Integracion de datos no normalizados en el cubo OLAP, que garanticen que las modificaciones en datos no origen no afectan a los datos finales.
  10. Mantener los cálculos y resultados de queries OLAP separados y almacenados en una ubicación diferente del sistema fuente.
  11. DIferenciación de los valores vacíos de los valores 0. Muy importante a la hora de realizar cálculos matemáticos.
  12. Posibilidad de ignorar todos los valores vacíos, las celdas del cubo sin datos.
  13. Flexibilidad en la creación de informes.
  14. Rendimiento uniforme de todos los informes, es otra forma de hacer 'transparente' la aplicación.
  15. El sistema OLAP debe adaptar automáticamente su estructura según sean las dimensiones, métricas, etc... ésto no es fácil y, generalmente, requiere intervención manual.
  16. Posibilidad de crear dimensiones de cualquier tipo.
  17. Sin límite de dimensiones, niveles de agregación, jerarquías, etc... Debe ser la complejidad del negocio la que marque el límite.
  18. No establecer restricciones a las operaciones que crucen cualquier dimensión o elementos de la dimensión.
Desde un punto de vista práctico me gustaría añadir algunas otras características:

- Debe ser rápido. No debe transcurrir mucho tiempo entre la necesidad de información y el resultado.
- Debe tener un lenguaje funcional y de negocio.
- Debe ser de manejo sencillo, con wizards y templates.
- Debe poder integrar API.
- Debe tener potentes posibilidades gráficas.
- Debe utilizar mapas de forma habitual.
- Posibilidad de almacenar y compartir los informes y cálculos creados por los usuarios.
- La administración la deben llevar los usuarios, no IT.
- El tiempo de implementación (proyecto) debe ser muy corto.
- Deber generar respuestas medibles para la toma de decisiones.
- Tenemos que ser capaces de obtner ROI con las aplicaciones OLAP.
Mas info: MOLAP, ROLAP, HOLAP no es solo jerga 

Tags: Destacado, teoria