小蜜蜂問答

小蜜蜂問答

Flink 1.14 新特性預覽

2021-09-09Checkpoint 執行 14 barrier Flink

Flink 1.14 新特性預覽

在這種情況下帶來一些新的問題，如下圖：在流的執行模式下的 Checkpoint 機制對於無限流，它的 Checkpoint 是由所有的 source 節點進行觸發的，由 source 節點發送 Checkpoint Barrier ，當 C...

Flink SQL 1.11 on Zeppelin 平臺化實踐

2020-10-29Flink Zeppelin SQL Interpreter

Flink SQL on Zeppelin...

如何基於Flink打造實時計算平臺為企業賦能

2020-06-27Flink 任務日誌叢集 SQL

2 使用者自定義Jar對於某些計算任務可能透過SQL定義的話執行效率不高，透過Java或者Scala呼叫Flink更底層的API會更好，這時候我們希望平臺支援執行使用者自定義Jar...

還在寫DataStream嗎？感受一下Flink 1.12流批一體Connector

2020-12-24Connector Flink SQL DDL name

還在寫DataStream嗎？感受一下Flink 1.12流批一體Connector

Flink SQL Connector的使用以前在構建離線數倉的時候，都會先用Hive DDL將DATABASE、TABLE進行分層和建立表...

Flink 從0到1學習—— 分享四本 Flink 國外的書和二十多篇 Paper 論文

2019-06-21Flink 原始碼 stream 解析此篇

Apache Flink： Stream and Batch Processing in a Single Engine Apache Flink 是一個處理 streaming data 和 batch data 的開源系統...

Flink CEP實現原始碼解析

2018-05-25computationState 匹配 currentPattern Flink cep

= null） {// 在computeNextState的時候判斷成功的take條件會將元素put到eventSharedBuffer中newComputationStates = computeNextStates（computatio...

由Dataflow模型聊Flink和Spark

2019-04-03Flink Spark Dataflow time Windows

從官方定義上看，Spark的對於處理時間的定義更像是Flink對進入時間的定義，Spark沒有明確的區分應用在處理過程中處理時間的變化，而Flink更接近於Dataflow模型，透過進入時間和處理時間區分了事件流在整個流處理過程中轉換的變化...

從 Spark Streaming 到 Apache Flink : 實時資料流在愛奇藝的演進

2019-05-22Flink 愛奇藝實時 streaming Spark

從 Spark Streaming 到 Apache Flink : 實時資料流在愛奇藝的演進

但Spark Streaming受限於微批次處理模型，業務方需要完成一個真正意義上的實時計算會非常困難，比如基於資料事件時間、資料晚到後的處理，都得使用者進行大量程式設計實現...

Flink 生態：一個案例快速上手 PyFlink

2020-03-20Python PyFlink Flink API UDF

Flink 生態：一個案例快速上手 PyFlink

API 層面，我們會使命驅動，將 Flink 上所以的 API 進行 Python 化，當然這也依託於引入 Py4J 的 VM 通訊框架之上，PyFlink 會逐漸增加各種 API 的支援，Python Table API，UDX 的介面 ...

Apache Flink 零基礎入門（一）：基礎概念解析

2019-06-21Flink Checkpoint 狀態運算 barrier

在考慮精確的容錯保證前，我們先考慮最簡單的使用場景，如無限流的資料進入，後面單一的 Process 進行運算，每處理完一筆計算即會累積一次狀態，這種情況下如果要確保 Process 產生精確一次的狀態容錯，每處理完一筆資料，更改完狀態後進行...

Apache Flink，流計算？不僅僅是流計算！

2019-01-03Flink 實時阿里巴巴 apache 計算

滴滴現階段基於Apache Flink引擎建設的實時計算平臺以開源的Hadoop技術體系作為平臺底座，並透過DataStream， SQL和CEP三種API向滴滴內部業務提供實時計算服務，同時在平臺層也已經具備相對完善的WebIDE、資料血...

Flink的記憶體管理

2018-05-04記憶體 Flink 序列化堆外 MemorySegment

Flink 中的演算法（如 sort/shuffle/join）會向這個記憶體池申請 MemorySegment，將序列化後的資料存於其中，使用完後釋放回記憶體池...

即將發版！Apache Flink 1.9 版本有哪些新特性？

2019-08-05Flink API SQL state streaming

這兩套 API 在未來都會同時提供流計算和批處理的支援，在此基礎之上，Flink 會共享統一的 DAG 層和 Stream Operator，Runtime 層則保留了分散式的 Streaming DataFlow...

Flink在實時在實時計算平臺和實時數倉中的企業級應用小結

2021-11-09實時 Flink 資料 KAFKA 離線

Flink在實時在實時計算平臺和實時數倉中的企業級應用小結

sinks = k1a1...

百信銀行基於 Apache Hudi 實時資料湖演進方案

2021-05-14實時 Hudi 資料 Flink 計算

五、總結本文介紹了百信銀行實時計算平臺的建設情況，實時資料湖構建在 Hudi 上的方案和實踐方法，以及實時計算平臺整合 Hudi 和使用 Hudi 的方式...

TensorFlow On Flink 原理解析

2020-05-12Flink TensorFlow 模型 Operator 學習

TensorFlow On Flink 原理解析

上述流程雖然可以跑通，但也存在一定的問題，比如：同一個機器學習專案在做特徵工程、模型訓練、模型預測時需要用到 Flink 和 TensorFlow 兩個計算引擎，部署相對而言更復雜...

360深度實踐：Flink 與 Storm 協議級對比

2019-06-13Flink storm 資料傳輸資料程序

360深度實踐：Flink 與 Storm 協議級對比

本文從資料傳輸和資料可靠性的角度出發，對比測試了 Storm 與 Flink 在流處理上的效能，並對測試結果進行分析，給出在使用 Flink 時提高效能的建議...

Flink入門實戰(上)

2020-05-05Flink TaskManager ROOT JobManager

yaml（4）訪問 Flink UI 頁面叢集啟動後，就可以透過 JobManagerServicers 中配置的 WebUI 埠，用瀏覽器輸入以下 url 來訪問 Flink UI 頁面了：http：//{JobManagerHost：...

Flink CDC 原理、實踐和最佳化

2021-11-06Flink Debezium CDC 資料庫

而我們這裡更建議使用 Flink CDC 模組，因為 Flink 相對 Kafka Streams 而言，有如下優勢：Flink 的運算元和 SQL 模組更為成熟和易用Flink 作業可以透過調整運算元並行度的方式，輕鬆擴充套件處理能力Fl...