Starburst giới thiệu hỗ trợ Python DataFrame cho các tải công việc chuyển đổi dữ liệu phức tạp và ứng dụng dữ liệu

Các nhà phát triển và kỹ sư dữ liệu có thể sử dụng các thư viện PyStarburst và Ibis mới để tạo các đường ống chuyển đổi phức tạp và xây dựng các ứng dụng dữ liệu với Starburst Galaxy
BOSTON, 7 tháng 9 năm 2023 — Starburst, nền tảng phân tích hồ dữ liệu, hôm nay đã mở rộng hỗ trợ của họ cho ngôn ngữ lập trình đa năng cấp cao phổ biến nhất – Python – với PyStarburst, và công bố tích hợp mới với thư viện Python mã nguồn mở Ibis, được xây dựng hợp tác với nhà xây dựng hệ thống dữ liệu có thể cấu hình và bảo trì Ibis Voltron Data.

Đối với các nhà phát triển và kỹ sư dữ liệu của Starburst và Trino, thông báo này có nghĩa là họ không còn cần phải tải dữ liệu sang các framework như PySpark và Snowpark để xử lý các khối lượng công việc chuyển đổi phức tạp. Thay vào đó, các nhóm có thể tận dụng một động cơ MPP mạnh mẽ duy nhất cho cả khối lượng công việc phân tích và chuyển đổi của họ – giảm chi phí và độ phức tạp của ngăn xếp của họ.

PyStarburst cung cấp cú pháp quen thuộc với PySpark và Snowpark để viết và chạy các đường ống ETL và chuyển đổi dữ liệu cấp sản xuất, giúp dễ dàng không chỉ xây dựng các đường ống mới với PyStarburst mà còn di chuyển các đường ống PySpark và Snowpark hiện có sang Starburst mà không cần viết lại mã.

“Nhiều kỹ sư dữ liệu thích viết mã hơn SQL để chuyển đổi, và nhiều kỹ sư phần mềm quen với việc xây dựng các ứng dụng dữ liệu bằng Python. Với PyStarburst, chúng tôi đang cho họ tự do làm như vậy với năng suất và hiệu suất tăng lên của Trino cấp doanh nghiệp,” Martin Traverso, Giám đốc công nghệ của Starburst cho biết.

Đối với các nhà phát triển và kỹ sư dữ liệu đang tìm cách xây dựng các ứng dụng dữ liệu có thể mở rộng, tích hợp Ibis mới cung cấp một API Python thống nhất có thể thực thi truy vấn trên hơn 18 công cụ khác nhau – bao gồm DuckDB, pandas, PostgreSQL và giờ là Starburst Galaxy. Điều này có nghĩa là bạn có thể mở rộng từ phát triển trên laptop đến sản xuất trong Galaxy mà không cần viết lại một dòng mã.

“Tại Starburst mọi thứ đều được xây dựng với tư duy mở, và chúng tôi tương tác được với hầu hết mọi môi trường dữ liệu, vì vậy chúng tôi mở rộng cam kết đó cho các ngôn ngữ lập trình của chúng tôi. Sự hợp tác với Voltron Data và Ibis là một lựa chọn tự nhiên,” Harrison Johnson, Trưởng phòng Đối tác Công nghệ tại Starburst cho biết.

Cùng nhau, Ibis và Starburst Galaxy trao quyền cho người dùng viết mã Python có thể mang đi được thực thi trên động cơ phân tích dữ liệu hồ dữ liệu hiệu suất cao của Starburst, hoạt động trên dữ liệu từ hơn 50 nguồn được hỗ trợ. Người dùng giờ đây sẽ có thể xây dựng các biểu thức phân tích trên nhiều nguồn dữ liệu với các kịch bản có thể tái sử dụng thực thi ở bất kỳ quy mô nào.

“Người dùng Python gặp khó khăn trong việc lấp khoảng trống giữa các nguyên mẫu trên laptop của họ và các ứng dụng sản xuất chạy trên các nền tảng như Starburst Galaxy. Ibis giúp dễ dàng hơn nhiều để lấp khoảng trống này,” Josh Patterson, Giám đốc điều hành của Voltron Data cho biết. “Với Ibis, bạn có thể viết mã Python một lần và chạy nó ở bất cứ đâu, với bất kỳ công cụ thực thi backend được hỗ trợ nào. Bạn có thể di chuyển một cách trôi chảy từ việc nghiền nát dữ liệu thử nghiệm quy mô gigabyte trên laptop của bạn đến việc nghiền nát dữ liệu quy mô petabyte trong sản xuất bằng cách sử dụng Starburst Galaxy.”

Để tìm hiểu thêm về Starburst, bao gồm các sản phẩm và tích hợp của nó, vui lòng truy cập trang web của chúng tôi: www.starburst.io/.

Về StarburstĐối với các công ty dựa trên dữ liệu, Starburst cung cấp một nền tảng phân tích hồ dữ liệu đầy đủ tính năng, được xây dựng dựa trên Trino mã nguồn mở. Nền tảng của chúng tôi bao gồm các khả năng cần thiết để khám phá, tổ chức và tiêu thụ dữ liệu mà không cần phải di chuyển dữ liệu tốn thời gian và tốn kém. Chúng tôi tin rằng hồ nên là trung tâm trọng lực, và là điểm khởi đầu để truy vấn dữ liệu khác nhau. Với Starburst, các nhóm có thể truy cập dữ liệu đầy đủ hơn, giảm chi phí cơ sở hạ tầng, sử dụng các công cụ phù hợp nhất với nhu cầu cụ thể của họ và tránh bị khóa vào nhà cung cấp. Được tin tưởng bởi các công ty như Comcast, Grubhub và Priceline, Starburst giúp các công ty đưa ra quyết định tốt hơn nhanh hơn trên tất cả dữ liệu của họ.

Về Voltron DataVoltron Data cung cấp một cách mới để thiết kế và xây dựng các hệ thống dữ liệu có thể cấu hình. Được thành lập vào năm 2021, nhóm toàn cầu được dẫn dắt bởi các kỹ sư dữ liệu và người duy trì mã nguồn mở chủ chốt thúc đẩy sự đổi mới trong hệ sinh thái phân tích dữ liệu trong 15 năm qua. Ngày nay, Voltron Data cung cấp một bộ các thành phần có thể lắp ráp được xây dựng dựa trên các tiêu chuẩn mở giúp các tổ chức tăng cường các hệ thống dữ liệu hiện có, mở khóa khả năng tương tác ngôn ngữ và tận dụng tăng tốc phần cứng.