Description |
1 online resource (192 pages) : illustrations |
Summary |
Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych. Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy. |
Subject |
SPARK (Electronic resource)
|
|
SPARK (Electronic resource) |
|
Data mining.
|
|
Big data.
|
|
Python (Computer program language)
|
|
Exploration de données (Informatique) |
|
Données volumineuses. |
|
Python (Langage de programmation) |
|
Big data |
|
Data mining |
|
Python (Computer program language) |
Added Author |
Ryza, Sandy, author.
|
|
Laserson, Uri, 1983- author.
|
|
Owen, Sean, author.
|
|
Wills, Josh, author.
|
|
Watrak, Andrzej, translator.
|
ISBN |
9788383220703 (electronic bk.) |
|
8383220707 (electronic bk.) |
|