Apache Spark
Framework xử lý dữ liệu phân tán, nhanh và hiệu quả.
Thành phần chính
- Spark Core, Spark SQL, MLlib.
Ví dụ PySpark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Test").getOrCreate()
Kết luận: Spark phù hợp xử lý dữ liệu quy mô lớn.