Hadoop in der Cloud befreit Sie von der Schema-Flaute

Von Duane Craig

Fiverr ist ein Marktplatz für Online-Dienste mit Millionen von Nutzern in 200 Ländern weltweit. Jeden Tag sammelt das Unternehmen Millionen von Zeilen mit halbstrukturierten und unstrukturierten Daten, die sich in verschiedenen Quellen wie der relationalen MySQL-Datenbank, mongoDB, Redis und anderen befinden. Fiverr verwendet auch webbasierte Dienste wie Google Analytics. Insgesamt besteht der Big-Data-Overhead aus ca. 80% halbstrukturierten Verkehrsdaten und 20% strukturierten Daten.

Maximalwert

Um den größtmöglichen Nutzen aus Big Data zu ziehen, sind viele Unternehmen versucht, eine Lösung wie ein Standard-relationales Datenbankverwaltungssystem (RDBMS) auszuprobieren, das sehr praktisch ist, da es die reguläre SQL-Sprache verwendet und für Analysten attraktiv ist. Es lässt sich auch gut integrieren und bietet Berichterstellung und unterstützte Maut-, Übersetzungs- und Ladegebühren. Dann ist da noch der Preis. MySQL zum Beispiel ist kostenlos und Open Source. Da Fiverr Agile Development verwendet, erklärte Slava Borodovsky, Director of Business Intelligence, dass es sehr schwierig ist, eine Standardlösung für relationale Datenbankverwaltungssysteme zu verwenden.

"In der agilen Entwicklung gibt es täglich so viele Änderungen an einem bestimmten Produkt, dass die Verwendung schemabasierter Tools nicht effizient ist. Jedes Mal, wenn neue Parameter in der Produktion vorhanden sind, müssen Sie das Schema Ihrer Datenbank ändern. Das ist schmerzhaft Verfahren, insbesondere mit einer großen Datenmenge ", sagte Borodovsky.
Diese Herausforderung inspirierte Fiverr, eine Lösung für seine Big Data in Betracht zu ziehen, die ein offenes Schema unterstützt und es ihm ermöglicht, Änderungen im laufenden Betrieb vorzunehmen. Hadoop wurde zum Mittelpunkt, jedoch nicht ohne eine gründliche Bewertung der potenziellen Probleme, die damit entstehen können. Während Hadoop beispielsweise für die Art der Datenumgebung und -skalierung von Fievrr als optimal angesehen wurde, erfordert es laut Borodovsky besondere Fähigkeiten und Aufmerksamkeit.
"Es ist ein leistungsfähiges System, aber" normale "Business-Intelligence-Leute wie Analysten und sogar Entwickler können damit nicht umgehen", sagte er. "Es erfordert spezielle Programmierkenntnisse wie Java und eine sehr technische Ausrichtung. Es unterscheidet sich stark von der regulären SQL-Welt. In den meisten Fällen muss ein Unternehmen, das Hadoop verwenden möchte, Mitarbeiter mit speziellen Kenntnissen und Fähigkeiten einstellen, die dies auch sind Sehr kostspielig. Zusätzlich zur Anzahl der Mitarbeiter müssen sie eine verteilte Umgebung schaffen, die auch zusätzliche Kosten verursacht. "

Fiverr versuchte zunächst, die Herausforderungen der Hadoop-Implementierung zu lösen, indem eine Säulendatenbank zum Speichern von Verkehrsdaten verwendet wurde. Es gab jedoch Probleme damit, und das Unternehmen brauchte eine bessere Lösung. Was wäre, wenn alle Vorteile von Hadoop in der Cloud liegen und die meisten Herausforderungen hinter sich lassen würden? Geben Sie Xplenty oder Hadoop als Dienst ein.

Weitere Informationen: Der Erfolg von Hadoop erfordert die Vermeidung früherer Datenfehler

Xplenty

Die Benutzeroberfläche von Xplenty ermöglicht es dem Benutzer, komplexe Datenflüsse in nur wenigen Minuten zu erstellen

Nach der Anmeldung implementierte Fiverr innerhalb weniger Tage die Lösung von Xplenty und das Unternehmen erzielte sehr schnell positive Ergebnisse. Die Cloud-Architektur von Xplenty machte es sehr einfach, Hadoop für BI-Anforderungen zu implementieren.

"Die größte Überraschung war die Geschwindigkeit der Implementierung", sagte Borodovsky. "Es war nach einigen Tagen betriebsbereit. Die Cloud-Infrastruktur von Xplenty macht den Implementierungsprozess sehr einfach und erfordert nur minimalen IT-Aufwand. Die größte Herausforderung hatte mit dem Format zu tun, in dem wir unsere Daten speichern, seit Xplenty zu diesem Zeitpunkt Das JSON-Format wurde nicht unterstützt. Wir haben dieses Problem jedoch in ein oder zwei Tagen gelöst. Wir haben auch kleine Änderungen an unserer Datendateistruktur vorgenommen, indem wir sie in kleinere Dateien aufgeteilt haben, um die Leistung zu steigern. Der Implementierungsprozess war sehr transparent und einfach. "

Das Unternehmen speichert jetzt alle Verkehrsdaten als Textdateien im JSON-Format und verarbeitet sie mit Xplenty. Jetzt können Fiverr-Analysten mit wenigen Klicks Hadoop-Cluster erstellen und komplexe Analyseaufgaben ausführen. Es ist keine technische Person erforderlich, die sich um die Wartung und Optimierung von Hadoop kümmert. Diese Lösung hält Fiverr über neue Änderungen auf der Website auf dem Laufenden und reagiert gleichzeitig sehr schnell auf neue Messdaten.

Fiverr war bestrebt, seine Verkehrsdaten für Trichter-, Conversion- und Trendanalysen abzubauen. Diese komplexen analytischen Aufgaben sind zusammen mit der Klickanalyse in der Regel groß und halbstrukturiert, wie wenn sie im JSON-Format gespeichert werden. Die Dauer dieser BI-Prozesse von der Geschäftsanforderung bis zum analytischen Einblick hat sich dramatisch verkürzt.

Weniger Schema-Manipulation

Mit Hadoop muss Fiverr das Schema seiner Datenbank / seines Data Warehouse nicht ändern. Dies ist in der Regel sehr zeitaufwändig und erfordert IT-Ressourcen, die allzu oft zu zusätzlichen Engpässen im BI-Prozessfluss führen können. Das Unternehmen kann jetzt neue Parameter verwenden, die direkt nach dem Start in die Produktion aufgenommen wurden. Als Beispiel nennt Borodovsky den Prozess, der die Leistung eines neuen Features misst, das der Produktion hinzugefügt wurde.

"In der typischen Datenbankwelt müssten wir die Struktur unseres Data Warehouse ändern und Tabellen zusätzliche Spalten hinzufügen, um die neuen Parameter zu speichern", erklärte er. "Dann müssten wir die ETL-Prozesse ändern, die die neuen Parameter analysieren und in eine Tabelle einfügen. Als nächstes müssten wir Abfragen schreiben, Berichte erstellen und die Funktion analysieren."

"Dieser Prozess reicht normalerweise von einem Tag in kleinen Unternehmen und Start-ups bis zu mehreren Tagen und sogar Wochen in großen Unternehmen. Mit der Hadoop-Lösung von Xplenty können wir die ersten beiden Schritte überspringen. Mit können wir einen neuen Prozess in Xplenty erstellen." eine Reihe von Klicks und erhalten sehr schnell Einblicke. Die durchschnittliche Dauer eines BI-Prozesses hat sich geändert und ist in Bezug auf Prozesse, die mit der Verkehrsanalyse zusammenhängen, mindestens zweimal schneller als zuvor. "

"Mit Xplenty sparen wir Zeit beim Umgang mit Daten, da das Schema nicht ständig geändert werden muss. Wir sind auch in Bezug auf die IT unabhängig, wo wir Personalressourcen gespart haben und mehr auf Analysen und geschäftliche Erkenntnisse achten können als Wie bei vielen Dingen in der IT dauert es manchmal eine Weile, die richtige Lösung zu finden. Wir haben Xplenty genau zum richtigen Zeitpunkt getroffen. "
Stellen Sie sofort mehr Clusterknoten bereit, um die Skalierbarkeit zu erhöhen und mehr Rechenleistung bereitzustellen

© Copyright 2021 | pepebotifarra.com