Herramientas ETL: Talend - Parte III

Herramientas ETL: Talend - Parte III
Anterior

Siguiendo con nuestra serie sobre herramientas ETL, es el turno de Talend para ser diseccionado.

A diferencia de Airbyte, Talend es uno de los programas con más trayectoria en el sector y en el que mayor número de empresas grandes suelen depositar su confianza, tal es el caso de LenovoDomino's AstraZeneca.

qué ETL utilizan las grandes empresas

Antes de entrar de lleno en su funcionamiento, es importante recalcar que Talend es en realidad la empresa que distribuye el programa que trataremos en este post: Talend Open Studio For Data Integration, al cual nos referiremos como Talend a partir de ahora para acortar 😉.

¿Qué es Talend?

qué etl gratuito utilizar

Se trata, básicamente, de una plataforma de código abierto basada en Java que pretende ser un all-in-one del manejo de datos.

Por ello, contiene prácticamente cualquier funcionalidad relacionada con el ámbito ETL: extracción y carga desde y hacia distintas fuentes, transformaciones modulares mediante el uso de componentes, soporte para una gran variedad de formatos (JSON, XML, TXT, PDF, etc)...

Requisitos técnicos

Software

En cuanto a la herramienta de diseño (Studio), está soportada en los principales sistemas operativos, incluido Windows, siendo Windows 10 el recomendado.

Sistemas operativos compatibles con Talend Studio
Familia de SO (64 bit) Sistema Operativo Versión Tipo de soporte
Linux Ubuntu 20.04 Recomendado
Red Hat Enterprise Linux Server 8 Soportado
7 Soportado
CentOS 8 Soportado
7 Soportado
Debian 10 Supported
Amazon Linux Amazon Linux 2 Supported
Microsoft Windows 11 Soportado
10 Recomendado
Windows Server 2019 Soportado
2016 Soportado
2012 Soportado
Mac Apple MacOS Big Sur 11 Soportado
Catalina 10.15 Soportado
Mojave 10.14 Soportado
Amazon Workspace Amazon Linux Amazon Linux 2 Soportado
Windows 10 Soportado

Respecto al entorno Java necesario para ejecutar los jobs, y por tanto sus ejecutables finales:

Entornos Java compatibles con Talend Studio
Plataforma Java Versión de Java Tipo de soporte
OpenJDK (distribución recomendada: Zulu) 11 Recomendada
Oracle JDK 11 Recomendada

 

Es importante recalcar los requerimientos que vienen a continuación se refieren a la herramienta de diseño (Studio) y no a los ejecutables que este produce como resultado, cuyos requisitos dependen de los componentes utilizados y la cantidad de datos a tratar.

Memoria

Producto Cliente / Servidor Requerimientos de memoria (mínimo recomendado)
Talend Studio Cliente 3GB - 4GB

Espacio en Disco

 

Producto Cliente / Servidor Espacio en disco requerido para la instalación Espacio en disco requerido para su uso
Talend Studio Cliente 3GB 3GB+ recomendado

Talend recomienda que el espacio disponible sea el doble del espacio ocupado por la información a transaccionar, de forma que no haya problemas durante transacciones con grandes volúmenes de datos.

Conectores

En contraposición a Airbyte, los conectores de Talend con aplicaciones populares, como Shopify, se pagan por separado y se ejecutan mediante la plataforma Stitch Data Loader (también de la compañía Talend), lo que implica realizar una integración adicional.

No obstante, Talend Open Studio cuenta con componentes. Cada componente se ocupa de una función muy concreta, como por ejemplo: conectarse a una API para recuperar datos, insertarlos, crear y editar ficheros, conectarse a bases de datos, mapear campos, transformar tipos de datos, etc…

En Talend, la tarea del usuario es diseñar el proceso ETL (llamado job) mediante el uso de estos componentes. Como resultado, el usuario tiene una visión mucho más clara del proceso ETL y también la libertad de modificarlo a su voluntad mediante la interfaz gráfica.

Transformaciones

Talend ofrece una colección de componentes genéricos destinados a los procesos de transformación de datos entre los que se incluyen las funcionalidades de normalizar, denormalizar, extraer o insertar campos en varios formatos, separar filas, agregar y ordenar filas, convertir tipos, etc…

Asimismo, ofrece conjuntos de componentes de procesamiento de datos que son específicos para diferentes tecnologías. Estos componentes tienen la finalidad de ejecutar dichas transformaciones de la forma más eficiente posible.

Un ejemplo claro es la transformación de datos contenidos en bases de datos Oracle.

A pesar de poder realizarse utilizando los componentes genéricos, es preferible utilizar los componentes específicos de Oracle, ya que aumenta la rapidez al ejecutar las transformaciones dentro de la propia base de datos.

Sin embargo, es un trade-off que conlleva, por un lado, la incompatibilidad con otros componentes genéricos, y por otro, el limitado número de transformaciones disponibles para cada tecnología específica.

Planes y precios

Talend ofrece un plan en la nube que incluye licencias para todos sus productos y que tiene un costo inicial de 12.000 $ por usuario y por año. Sin embargo, su sitio web no deja claro si estos productos en la nube cubren todas las capacidades que cubre la edición local libre de Talend Open Studio o si, por el contrario, es necesario integrar ambos.

Talend Open Studio: Pros y contras generales 👍👎

mejores ETLs del mercado

Pros de Talend

  • Es un all-in-one, lo que permite prescindir reducir el número de herramientas y, por lo tanto, de configuraciones adicionales
  • Documentación y comunidad relativamente longevas y bien estructuradas
  • El uso de componentes genéricos permite a Talend conectarse con prácticamente cualquier plataforma, aunque no de forma out of the box como AirByte.
  • Existe un componente para CASI cualquier acción.
  • Talend provee su propio framework para desarrollar componentes personalizados.

Contras de Talend

  • Su instalación puede resultar compleja
  • Curva de aprendizaje pronunciada debido a su amplio abanico de funcionalidades
  • El consumo de recursos de la máquina puede llegar a ser bastante alto
  • No tiene soporte para formato .ods

Comparativa Talend Vs. Airbyte

 

Talend Airbyte Característica
Open source
De pago De pago Versión cloud
Fija ($12.000 p/y p/u) Créditos (solo USA) / Personalizada Facturación
De pago a través de Stitch Data Loader Extracción con conectores predeterminados
En la versión gratuita a través de exportar scripts Sí. De forma nativa. Sincro. Programada
No Ejecución de trabajos fuera de la aplicación
Sí. Flexibilidad casi absoluta. Sí, pero solo a tavés de DBT Transformaciones
De pago a través de Stitch Data Loader Carga de datos con conectores predeterminados
No Notificaciones por email
No Se puede diseñar el flujo de datos
No Conexión personalizada a API
Framework para componentes personalizados
Extensa No muy extensa y básica Documentación
Consolidada En crecimiento Comunidad
Personalizables Predefinidos Logs
Solo con algunos conectores Eficiencia: ejecuión por lotes

 

Conclusiones

talend etl todo lo que necesitas saber

Teniendo en cuenta que la herramienta debe ser potente, genérica y escalable, parece lógico afirmar que la mejor opción para la parte de transformación es Talend Open Studio, debido a la gran cantidad de componentes que ofrece y también a la amplia documentación y comunidad en torno a ella.

Una vez superada la fase inicial de adaptación a la interfaz y a su filosofía de funcionamiento, su uso se presenta fluido y práctico. Su interfaz gráfica basada en diagramación permite tener una visión clara del proceso en todo momento, lo que posibilita que el proceso de depuración sea sencillo y rápido en comparación a otras herramientas.

Asimismo, Talend también ofrece herramientas de pago enfocadas exclusivamente a la integración de datos como Talend Data Integration, cuya interfaz y funcionamiento son muy parecidas a la opción open source; ello implica poder adherirse a un plan de pago en el futuro sin tener que pasar por un cambio de contexto brusco que signifique un periodo excesivamente largo de adaptación.

Por otro lado, AirByte es una herramienta prometedora que, pese a que no ofrece muchas posibilidades “no técnicas” de transformación de datos (solo DBT), tiene todas las características necesarias para convertirse en una herramienta completa que pueda competir de tú a tú con gigantes como Talend: rondas de inversión, comunidad extensa, equipo de mantenimiento activo, arquitectura escalable y extensible.

De hecho, AirByte, es la herramienta open source que más facilita la extracción y carga de datos entre distintas fuentes, lo que la sitúa como la candidata perfecta para esa parte del flujo de integración.

Combinar AirByte, para la extracción y carga, con Talend Open Studio, principalmente para la transformación, parece una solución asequible técnica y económicamente que puede adaptarse a la mayoría de sistemas ERPs del mercado.

Si quieres saber más sobre ETLs

Lee los otros posts de nuestra serie:

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments