Website Chia Sẻ Kiến Thức CNTT

Lan toả tri thức - Kết nối cộng đồng yêu công nghệ

Xử lý dữ liệu lớn với Spark

31/07/2025  |  Nguyễn Văn Ad  |  Khoa học dữ liệu

Apache Spark

Framework xử lý dữ liệu phân tán, nhanh và hiệu quả.

Thành phần chính

  • Spark Core, Spark SQL, MLlib.

Ví dụ PySpark


from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Test").getOrCreate()

Kết luận: Spark phù hợp xử lý dữ liệu quy mô lớn.

Tải file đính kèm
Web hosting by Somee.com