Search Results

Found 126,562 repositories(showing 30)

awesome-scalability

binhnguyennus

💚95

The Patterns of Scalable, Reliable, and Performant Large-Scale Systems

70.3k

6.9k

MIT

Updated 1 hour ago

architectureawesomeawesome-list+17

big-list-of-naughty-strings

minimaxir

💚100

The Big List of Naughty Strings is a list of strings which have a high probability of causing issues when used as user-input data.

47.6k

2.2k

MIT

Python

Updated 57 minutes ago

ClickHouse

💚90

ClickHouse® is a real-time analytics database management system

46.8k

8.3k

Apache-2.0

C++

Updated 2 minutes ago

aianalyticsbig-data+14

spark

apache

💚95

Apache Spark - A unified analytics engine for large-scale data processing

43.1k

29.2k

Apache-2.0

Scala

Updated 6 minutes ago

big-datajavajdbc+5

data-science-ipython-notebooks

donnemartin

💚100

Data science Python notebooks: Deep learning (TensorFlow, Theano, Caffe, Keras), scikit-learn, Kaggle, big data (Spark, Hadoop MapReduce, HDFS), matplotlib, pandas, NumPy, SciPy, Python essentials, AWS, and various command lines.

29.0k

8.0k

NOASSERTION

Python

Updated 42 minutes ago

awsbig-datacaffe+16

flink

apache

💚95

Apache Flink

25.9k

13.9k

Apache-2.0

Java

Updated 2 hours ago

big-dataflinkjava+3

thingsboard

💚100

Open-source IoT Platform - Device management, data collection, processing and visualization.

21.5k

6.2k

Apache-2.0

Java

Updated 10 minutes ago

big-datacloudcoap-server+15

gun

amark

💚97

An open source cybersecurity protocol for syncing decentralized graph data.

19.0k

1.2k

NOASSERTION

JavaScript

Updated 5 hours ago

artificial-intelligencebig-datablockchain+17

BigData-Notes

heibaiying

💚95

大数据入门指南 :star:

16.9k

4.3k

Java

Updated 3 hours ago

azkabanbig-databigdata+14

presto

prestodb

💚90

The official home of the Presto distributed SQL query engine for big data

16.7k

5.5k

Apache-2.0

Java

Updated 6 hours ago

big-datadatahadoop+6

Cookbook

andkret

💚100

The Data Engineering Cookbook

15.0k

2.7k

Apache-2.0

Python

Updated 2 hours ago

best-practicesbig-datacookbook+2

awesome-bigdata

oxnr

💚99

A curated list of awesome big data frameworks, ressources and other awesomeness.

14.3k

2.6k

MIT

Updated 5 hours ago

awesomeawesome-listbigdata+12

trino

trinodb

💛83

Official repository of Trino, the distributed SQL query engine for big data, formerly known as PrestoSQL (https://trino.io)

12.7k

3.6k

Apache-2.0

Java

Updated 26 minutes ago

analyticsbig-datadata-science+16

predictionio

apache

💚93

PredictionIO, a machine learning server for developers and ML engineers.

12.5k

1.9k

Apache-2.0

Scala

Updated 1 day ago

big-datapredictionioscala

nebula

vesoft-inc

💚90

A distributed, fast open-source graph database featuring horizontal scalability and high availability

12.1k

1.3k

Apache-2.0

C++

Updated 6 hours ago

big-datacppdatabase+11

kafka-ui

provectus

💚91

Open-Source Web UI for Apache Kafka Management

12.0k

1.4k

Apache-2.0

Java

Updated 22 minutes ago

apache-kafkabig-datacluster-management+15

CMAK

yahoo

💚97

CMAK is a tool for managing Apache Kafka clusters

11.9k

2.5k

Apache-2.0

Scala

Updated 14 hours ago

big-datacluster-managementkafka+1

starrocks

StarRocks

💛87

The world's fastest open query engine for sub-second analytics both on and off the data lakehouse. With the flexibility to support nearly any scenario, StarRocks provides best-in-class performance for multi-dimensional analytics, real-time analytics, and ad-hoc queries. A Linux Foundation project.

11.6k

2.4k

Apache-2.0

Java

Updated 3 hours ago

analyticsbig-datacloudnative+17

quickwit

quickwit-oss

💛81

Cloud-native search engine for observability. An open-source alternative to Datadog, Elasticsearch, Loki, and Tempo.

11.1k

537

Apache-2.0

Rust

Updated 2 hours ago

big-datacloud-nativecloud-storage+7

cython

💛86

The most widely used Python to C compiler

10.7k

1.6k

Apache-2.0

Cython

Updated 4 hours ago

big-dataccpp+5

God-Of-BigData

wangzhiwubigdata

💚90

专注大数据学习面试，大数据成神之路开启。Flink/Spark/Hadoop/Hbase/Hive...

10.4k

3.2k

Updated 8 hours ago

azkabanbigdataflink+8

catboost

💛82

A fast, scalable, high performance Gradient Boosting on Decision Trees library, used for ranking, classification, regression and other machine learning tasks for Python, R, Java, C++. Supports computation on CPU and GPU.

8.9k

1.3k

Apache-2.0

C++

Updated 2 hours ago

big-datacatboostcategorical-features+15

delta

delta-io

💛79

An open-source storage framework that enables building a Lakehouse architecture with compute engines including Spark, PrestoDB, Flink, Trino, and Hive and APIs

8.7k

2.1k

Apache-2.0

Scala

Updated 13 hours ago

acidanalyticsbig-data+2

datafusion

apache

💛74

Apache DataFusion SQL Query Engine

8.6k

2.0k

Apache-2.0

Rust

Updated 5 hours ago

arrowbig-datadataframe+6

beam

apache

💛74

Apache Beam is a unified programming model for Batch and Streaming data processing.

8.5k

4.5k

Apache-2.0

Java

Updated 4 hours ago

batchbeambig-data+5

vaex

vaexio

💛80

Out-of-Core hybrid Apache Arrow/NumPy DataFrame for Python, ML, visualization and exploration of big tabular data at a billion rows per second 🚀

8.5k

603

MIT

Python

Updated 9 hours ago

bigdatadata-sciencedataframe+8

h2o-3

h2oai

💛73

H2O is an Open Source, Distributed, Fast & Scalable Machine Learning Platform: Deep Learning, Gradient Boosting (GBM) & XGBoost, Random Forest, Generalized Linear Modeling (GLM with Elastic Net), K-Means, PCA, Generalized Additive Models (GAM), RuleFit, Support Vector Machine (SVM), Stacked Ensembles, Automatic Machine Learning (AutoML), etc.

7.5k

2.0k

Apache-2.0

Jupyter Notebook

Updated 1 day ago

automlbig-datadata-science+17

arkime

💛89

Arkime is an open source, large scale, full packet capturing, indexing, and database system.

7.3k

1.1k

Apache-2.0

Updated 19 minutes ago

big-datacjavascript+5

feast

feast-dev

💛85

The Open Source Feature Store for AI/ML

6.9k

1.3k

Apache-2.0

Python

Updated 39 minutes ago

big-datadata-engineeringdata-quality+7

vespa

vespa-engine

💛79

AI + Data, online. https://vespa.ai

6.9k

705

Apache-2.0

Java

Updated 19 minutes ago

aibig-datajava+11

GitHub Explorer

Search Results

awesome-scalability

big-list-of-naughty-strings

ClickHouse

spark

data-science-ipython-notebooks

flink

thingsboard

gun

BigData-Notes

presto

Cookbook

awesome-bigdata

trino

predictionio

nebula

kafka-ui

CMAK

starrocks

quickwit

cython

God-Of-BigData

catboost

delta

datafusion

beam

vaex

h2o-3

arkime

feast

vespa

awesome-scalability

big-list-of-naughty-strings

ClickHouse

spark

data-science-ipython-notebooks

flink

thingsboard

gun

BigData-Notes

presto

Cookbook

awesome-bigdata

trino

predictionio

nebula

kafka-ui

CMAK

starrocks

quickwit

cython

God-Of-BigData

catboost

delta

datafusion

beam

vaex

h2o-3

arkime

feast

vespa