Advanced Analytics

Zaawansowana analityka

W raz z rozwojem potrzeb analitycznych organizacji rosną nasze oczekiwania wobec posiadanych danych. Nie zadowala nas już fakt posiadania danych, ich prezentowania, wizualizacji, tylko chcielibyśmy z nich wydobyć jak najwięcej wiedzy. Wiedzy, która umożliwi nam właściwie podejmować decyzję, budować przewagę naszej organizacji, szybciej reagować na zmiany, czy też dostrzec rzeczy, których normalnie nie możemy zobaczyć, chociażby ze względu na ich skomplikowanie.

W jednym raportów firmy Gartner można zobaczyć powyższy wykres. Obrazuje on rozwój analityki. Właśnie coraz wyższy poziom tej analityki wymaga zastosowania szeroko rozumianej zaawansowanej analityki.

Czym jest zaawansowana analityka?

Zaawansowaną analitykę można podzielić ze względu na obszary, czy też zagadnienia jakimi się zajmuje. W dość ogólny sposób wyszczególnić takie obszary

  • Optymalizacja
  • Symulacje
  • Predykcja
  • Data Mining i Text Mining

Przyglądając się metodą, które możemy zastosować do budowania rozwiązań zaawansowanej analityki można wyszczególnić

  • Programowanie liniowe (ang. Linear Programming)
  • Algorytmy genetyczne (ang.: Genetic Algorithms)
  • Uczenie maszynowe i statystyczne (ang.: Statistical and Machine Learning)
  • Uczenie ze wzmocnieniem (ang.: Reinforcement Learning)
  • Symulacje statystyczne (ang.: Statistical Simulation)
  • Monte Carlo (ang.: Monte Carlo Methods)
  • Sieci neuronowe (ang.: Neural Networks)
  • Modele programowania stochastycznego (ang.: Stochastic Programming)

Oczywiście każda z tych metod to olbrzymi obszar badań naukowych, a rozwiązania dobrane do firmy, muszą być wdrożone w taki sposób, by nie wymagać znajomości tych metod przez użytkowników takich systemów.

Jakich rozwiązań technologicznych wymaga zaawansowana analityka?

Potrzebne śą oczywiście źródła danych, mogą to być hurtownie danych, bazy danych, a także dane pochodzące z różnych źródeł nie strukturalnych, czy też półstrukturalnych jak chociażby pliki danych, bazy grafowe, bazy dokumentowe, w tym też szeroko rozumiana Big Data. Kolejnym elementem muszą być narzędzia do odpowiedniej obróbki danych i tutaj wybór jest duży. Najpopularniejsze narzędzia to różne oprogramowanie do języka R (w tym produkt Microsoft – darmowy Microsoft Open R, czy też komercyjny Microsoft Server R działające na różnych platformach – Windows, Linux, Hadoop,…), poza językiem R równie ostatnio popularny język Python, a le też mogą to być rozwiązania OpenSource jak chociażby PySci, SparkR, Mahout, komercyjny Azure Machine Learning, czy też język R zaimplementowany w produktach jak chociażby SQL Server 2016, czy też PowerBI. Wszystko zależy od tego jakie dane, skąd je uzyskujemy i co z nimi chcemy zrobić. Dla każdej organizacji może to być zupełnie odmienny scenariusz, zarówno samego przetwarzania danych, ich składowania, czy też prezentacji.

Co możemy uzyskać?

Nasuwa się pytanie co możemy uzyskać. Oczywiście zastosowań może być wiele chociażby wszelakiego rodzaju predykcje, czyli plany, przewidywania, szukanie anomalii, klasyfikacje i grupowanie. Mogą to być zagadnienia dotyczące wszelakiego rodzaju ryzyka, defraudacji, czy innych nadużyć. Tworzy się również modele optymalizujące procesy produkcyjne, planowanie produkcji, czy też zagadnienia z zakresu szeregowania. Często zaawansowaną analitykę używamy obecnie do przetwarzania danych pochodzących z sieci społecznościowych, logów systemów, czy też sieci Internet, czy też rozwiązań z klasy Internetu Rzeczy (ang. Internet of Things – IoT), gdzie urządzenia generują nam wiele danych i należy je tak przetworzyć, byśmy mogli nich wydobyć informację, czy też wręcz wiedzę. Takie przetwarzania coraz bardziej dzieją się w czasie rzeczywistym, albo wręcz są wstępną analizą strumieni danych w czasie rzeczywistym.