婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > JVM上高性能數據格式庫包Apache Arrow入門和架構詳解(Gkatziouras)

JVM上高性能數據格式庫包Apache Arrow入門和架構詳解(Gkatziouras)

熱門標簽:怎么找到沒有地圖標注的店 400電話辦理介紹信 麗江真人語音電話外呼系統 河南防封號電銷機器人是什么 宿城區(qū)電話機器人找哪家 10086外包用的什么外呼系統 上海申請高400開頭的電話 福州企業(yè)電銷機器人排名 打400電話怎么辦理收費

Apache Arrow是是各種大數據工具(包括BigQuery)使用的一種流行格式,它是平面和分層數據的存儲格式。它是一種加快應用程序內存密集型。

數據處理和數據科學領域中的常用庫: Apache Arrow 。諸如Apache Parquet,Apache Spark,pandas之類的開放源代碼項目以及許多商業(yè)或封閉源代碼服務都使用Arrow。它提供以下功能:

  • 內存計算
  • 標準化的柱狀存儲格式
  • 一個IPC和RPC框架,分別用于進程和節(jié)點之間的數據交換

讓我們看一看在Arrow出現之前事物是如何工作的:

我們可以看到,為了使Spark從Parquet文件中讀取數據,我們需要以Parquet格式讀取和反序列化數據。這要求我們通過將數據加載到內存中來制作數據的完整副本。首先,我們將數據讀入內存緩沖區(qū),然后使用Parquet的轉換方法將數據(例如字符串或數字)轉換為我們的編程語言的表示形式。這是必需的,因為Parquet表示的數字與Python編程語言表示的數字不同。

由于許多原因,這對于性能來說是一個很大的問題:

  • 我們正在復制數據并在其上運行轉換步驟。數據的格式不同,我們需要對所有數據進行讀取和轉換,然后再對數據進行任何計算。
  • 我們正在加載的數據必須放入內存中。您只有8GB的RAM,數據是10GB嗎?你真倒霉!

現在,讓我們看一下Apache Arrow如何改進這一點:

Arrow無需復制和轉換數據,而是了解如何直接讀取和操作數據。為此,Arrow社區(qū)定義了一種新的文件格式以及直接對序列化數據起作用的操作。可以直接從磁盤讀取此數據格式,而無需將其加載到內存中并轉換/反序列化數據。當然,部分數據仍將被加載到RAM中,但您的數據不必放入內存中。Arrow使用其文件的內存映射功能,僅在必要和可能的情況下將盡可能多的數據加載到內存中。

Apache Arrow支持以下語言:

  • C++
  • C#
  • Go
  • Java
  • JavaScript
  • Rust
  • Python (through the C++ library)
  • Ruby (through the C++ library)
  • R (through the C++ library)
  • MATLAB (through the C++ library).

Arrow特點

Arrow首先是提供用于內存計算的列式數據結構的庫,可以將任何數據解壓縮并解碼為Arrow柱狀數據結構,以便隨后可以對解碼后的數據進行內存內分析。Arrow列格式具有一些不錯的屬性:隨機訪問為O(1),每個值單元格在內存中的前一個和后一個相鄰,因此進行迭代非常有效。

Apache Arrow定義了一種二進制“序列化”協議,用于安排Arrow列數組的集合(稱為“記錄批處理”),該數組可用于消息傳遞和進程間通信。您可以將協議放在任何地方,包括磁盤上,以后可以對其進行內存映射或讀入內存并發(fā)送到其他地方。

Arrow協議的設計目的是使您可以“映射”一個Arrow數據塊而不進行任何反序列化,因此對磁盤上的Arrow協議數據執(zhí)行分析可以使用內存映射并有效地支付零成本。該協議用于很多事情,例如Spark SQL和Python之間的流數據,用于針對Spark SQL數據塊運行pandas函數,這些被稱為“ pandas udfs”。

Arrow是為內存而設計的(但是您可以將其放在磁盤上,然后再進行內存映射)。它們旨在相互兼容,并在應用程序中一起使用,而其競爭對手Apache Parquet文件是為磁盤存儲而設計的。

優(yōu)點:Apache Arrow為平面和分層數據定義了一種獨立于語言的列式存儲格式,該格式組織為在CPU和GPU等現代硬件上進行高效的分析操作而組織。Arrow存儲器格式還支持零拷貝讀取,以實現閃電般的數據訪問,而無需序列化開銷。

Java的Apache Arrow

導入庫:

<dependency>
    <groupId>org.apache.arrow</groupId>
    <artifactId>arrow-memory-netty</artifactId>
    <version>${arrow.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.arrow</groupId>
    <artifactId>arrow-vector</artifactId>
    <version>${arrow.version}</version>
</dependency>

在開始之前,必須了解對于Arrow的讀/寫操作,使用了字節(jié)緩沖區(qū)。諸如讀取和寫入之類的操作是字節(jié)的連續(xù)交換。為了提高效率,Arrow附帶了一個緩沖區(qū)分配器,該緩沖區(qū)分配器可以具有一定的大小,也可以具有自動擴展功能。支持分配管理的庫是arrow-memory-netty和arrow-memory-unsafe。我們這里使用netty。

用Arrow存儲數據需要一個模式,模式可以通過編程定義:

package com.gkatzioura.arrow;

import java.io.IOException;

import java.util.List;

import org.apache.arrow.vector.types.pojo.ArrowType;

import org.apache.arrow.vector.types.pojo.Field;

import org.apache.arrow.vector.types.pojo.FieldType;

import org.apache.arrow.vector.types.pojo.Schema;

public class SchemaFactory {

public static Schema DEFAULT_SCHEMA = createDefault();

public static Schema createDefault() {

var strField = new Field("col1", FieldType.nullable(new ArrowType.Utf8()), null);

var intField = new Field("col2", FieldType.nullable(new ArrowType.Int(32, true)), null);

return new Schema(List.of(strField, intField));

}

public static Schema schemaWithChildren() {

var amount = new Field("amount", FieldType.nullable(new ArrowType.Decimal(19,4,128)), null);

var currency = new Field("currency",FieldType.nullable(new ArrowType.Utf8()), null);

var itemField = new Field("item", FieldType.nullable(new ArrowType.Utf8()), List.of(amount,currency));

return new Schema(List.of(itemField));

}

public static Schema fromJson(String jsonString) {

try {

return Schema.fromJSON(jsonString);

} catch (IOException e) {

throw new ArrowExampleException(e);

}

}

}

他們也有一個可解析的json表示形式:

{
  "fields" : [ {
    "name" : "col1",
    "nullable" : true,
    "type" : {
      "name" : "utf8"
    },
    "children" : [ ]
  }, {
    "name" : "col2",
    "nullable" : true,
    "type" : {
      "name" : "int",
      "bitWidth" : 32,
      "isSigned" : true
    },
    "children" : [ ]
  } ]
}

另外,就像Avro一樣,您可以在字段上設計復雜的架構和嵌入式值:

public static Schema schemaWithChildren() {
    var amount = new Field("amount", FieldType.nullable(new ArrowType.Decimal(19,4,128)), null);
    var currency = new Field("currency",FieldType.nullable(new ArrowType.Utf8()), null);
    var itemField = new Field("item", FieldType.nullable(new ArrowType.Utf8()), List.of(amount,currency));
 
    return new Schema(List.of(itemField));
}

基于上面的的Schema,我們將為我們的類創(chuàng)建一個DTO:

package com.gkatzioura.arrow;
 
import lombok.Builder;
import lombok.Data;
 
@Data
@Builder
public class DefaultArrowEntry {
 
    private String col1;
    private Integer col2;
 
}

我們的目標是將這些Java對象轉換為Arrow字節(jié)流。

1. 使用分配器創(chuàng)建 DirectByteBuffer

這些緩沖區(qū)是 堆外的 。您確實需要釋放所使用的內存,但是對于庫用戶而言,這是通過在分配器上執(zhí)行 close() 操作來完成的。在我們的例子中,我們的類將實現 Closeable 接口,該接口將執(zhí)行分配器關閉操作。

通過使用流api,數據將被流傳輸到使用Arrow格式提交的OutPutStream:

package com.gkatzioura.arrow;
 
import java.io.Closeable;
import java.io.IOException;
import java.nio.channels.WritableByteChannel;
import java.util.List;
 
import org.apache.arrow.memory.RootAllocator;
import org.apache.arrow.vector.IntVector;
import org.apache.arrow.vector.VarCharVector;
import org.apache.arrow.vector.VectorSchemaRoot;
import org.apache.arrow.vector.dictionary.DictionaryProvider;
import org.apache.arrow.vector.ipc.ArrowStreamWriter;
import org.apache.arrow.vector.util.Text;
 
import static com.gkatzioura.arrow.SchemaFactory.DEFAULT_SCHEMA;
 
public class DefaultEntriesWriter implements Closeable {
 
    private final RootAllocator rootAllocator;
    private final VectorSchemaRoot vectorSchemaRoot;//向量分配器創(chuàng)建:
 
    public DefaultEntriesWriter() {
        rootAllocator = new RootAllocator();
        vectorSchemaRoot = VectorSchemaRoot.create(DEFAULT_SCHEMA, rootAllocator);
    }
 
    public void write(List<DefaultArrowEntry> defaultArrowEntries, int batchSize, WritableByteChannel out) {
        if (batchSize <= 0) {
            batchSize = defaultArrowEntries.size();
        }
 
        DictionaryProvider.MapDictionaryProvider dictProvider = new DictionaryProvider.MapDictionaryProvider();
        try(ArrowStreamWriter writer = new ArrowStreamWriter(vectorSchemaRoot, dictProvider, out)) {
            writer.start();
 
            VarCharVector childVector1 = (VarCharVector) vectorSchemaRoot.getVector(0);
            IntVector childVector2 = (IntVector) vectorSchemaRoot.getVector(1);
            childVector1.reset();
            childVector2.reset();
 
            boolean exactBatches = defaultArrowEntries.size()%batchSize == 0;
            int batchCounter = 0;
 
            for(int i=0; i < defaultArrowEntries.size(); i++) {
                childVector1.setSafe(batchCounter, new Text(defaultArrowEntries.get(i).getCol1()));
                childVector2.setSafe(batchCounter, defaultArrowEntries.get(i).getCol2());
 
                batchCounter++;
 
                if(batchCounter == batchSize) {
                    vectorSchemaRoot.setRowCount(batchSize);
                    writer.writeBatch();
                    batchCounter = 0;
                }
            }
 
            if(!exactBatches) {
                vectorSchemaRoot.setRowCount(batchCounter);
                writer.writeBatch();
            }
 
            writer.end();
        } catch (IOException e) {
            throw new ArrowExampleException(e);
        }
    }
 
    @Override
    public void close() throws IOException {
        vectorSchemaRoot.close();
        rootAllocator.close();
    }
 
}

為了在Arrow上顯示批處理的支持,已在函數中實現了簡單的批處理算法。對于我們的示例,只需考慮將數據分批寫入。

讓我們深入了解上面代碼功能:

向量分配器創(chuàng)建:

public DefaultEntriesToBytesConverter() {
    rootAllocator = new RootAllocator();
    vectorSchemaRoot = VectorSchemaRoot.create(DEFAULT_SCHEMA, rootAllocator);
}

然后在寫入流時,實現并啟動了Arrow流編寫器

ArrowStreamWriter writer = new ArrowStreamWriter(vectorSchemaRoot, dictProvider, Channels.newChannel(out));
writer.start();

我們將數據填充向量,然后還重置它們,但讓預分配的緩沖區(qū) 存在 :

VarCharVector childVector1 = (VarCharVector) vectorSchemaRoot.getVector(0);
IntVector childVector2 = (IntVector) vectorSchemaRoot.getVector(1);
childVector1.reset();
childVector2.reset();

寫入數據時,我們使用 setSafe 操作。如果需要分配更多的緩沖區(qū),應采用這種方式。對于此示例,此操作在每次寫入時都完成,但是在考慮了所需的操作和緩沖區(qū)大小后可以避免:

childVector1.setSafe(i, new Text(defaultArrowEntries.get(i).getCol1()));
childVector2.setSafe(i, defaultArrowEntries.get(i).getCol2());

然后,將批處理寫入流中:

vectorSchemaRoot.setRowCount(batchSize);
writer.writeBatch();

最后但并非最不重要的一點是,我們關閉了writer:

@Override
public void close() throws IOException {
    vectorSchemaRoot.close();
    rootAllocator.close();
}

以上就是JVM上高性能數據格式庫包Apache Arrow入門和架構詳解(Gkatziouras)的詳細內容,更多關于Apache Arrow入門的資料請關注腳本之家其它相關文章!

標簽:遵義 雞西 連云港 運城 荊門 隴南 面試通知 朝陽

巨人網絡通訊聲明:本文標題《JVM上高性能數據格式庫包Apache Arrow入門和架構詳解(Gkatziouras)》,本文關鍵詞  JVM,上,高性能,數據,格式,;如發(fā)現本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《JVM上高性能數據格式庫包Apache Arrow入門和架構詳解(Gkatziouras)》相關的同類信息!
  • 本頁收集關于JVM上高性能數據格式庫包Apache Arrow入門和架構詳解(Gkatziouras)的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    日韩成人午夜精品| 激情小说欧美图片| 亚洲男人的天堂一区二区| 亚洲免费观看高清完整版在线 | 国产一区二区三区免费看| 精品在线你懂的| 不卡av在线网| 欧美日本一区二区三区四区| 久久久一区二区三区捆绑**| 亚洲精品自拍动漫在线| 免费一级片91| 91农村精品一区二区在线| 6080亚洲精品一区二区| 国产精品午夜春色av| 亚洲国产欧美在线| 国产福利91精品一区| 欧美亚洲日本国产| 久久久久久久综合狠狠综合| 亚洲妇女屁股眼交7| 韩国在线一区二区| 欧美亚洲动漫另类| 国产精品国模大尺度视频| 日本在线不卡视频一二三区| 色综合一个色综合| 国产性天天综合网| 视频一区国产视频| 日本大香伊一区二区三区| 国产日韩精品一区| 日韩成人精品在线观看| 日本精品免费观看高清观看| 精品国产三级a在线观看| 欧美精品一区二区精品网| 国产成人鲁色资源国产91色综| 美腿丝袜亚洲一区| 不卡的看片网站| 在线亚洲欧美专区二区| 久久激情五月婷婷| 激情综合色播五月| 精品一区二区免费在线观看| 国产精品乡下勾搭老头1| 国产成人久久精品77777最新版本 国产成人鲁色资源国产91色综 | 91精品国产aⅴ一区二区| jiyouzz国产精品久久| 国产在线国偷精品产拍免费yy| 欧美激情在线观看视频免费| 91性感美女视频| 国产精品主播直播| 激情五月激情综合网| 国产一区二区三区综合| 国产一区二区视频在线播放| a在线欧美一区| 99精品一区二区三区| 成a人片亚洲日本久久| 色哟哟精品一区| 国产精品情趣视频| 91亚洲精华国产精华精华液| 欧美一区二区三区在线观看 | 欧美成人国产一区二区| 国产精品18久久久久久vr| 亚洲午夜精品在线| youjizz久久| 中文字幕精品在线不卡| 国产一区二区三区黄视频| 欧美一区二区三区在| 免费看日韩精品| 亚洲精品在线观| 国产乱国产乱300精品| 国产亚洲精品精华液| 成人av在线播放网址| 亚洲欧美乱综合| 91蝌蚪porny九色| 亚洲国产精品一区二区www| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 亚洲一区二区三区小说| 日日噜噜夜夜狠狠视频欧美人| 91麻豆国产福利精品| 一级做a爱片久久| 一本一道综合狠狠老| 亚洲精选免费视频| 欧美区视频在线观看| 久久 天天综合| 国产精品久久久久久久蜜臀| 欧美网站一区二区| 国产乱子伦一区二区三区国色天香| 久久精品在线观看| 色综合激情五月| 久久成人av少妇免费| 国产精品久久久久影院老司| 欧美日韩精品免费观看视频 | 国产精品视频九色porn| 91在线观看视频| 亚洲国产aⅴ天堂久久| www激情久久| 性感美女极品91精品| 色综合久久久久综合体| 日韩av中文字幕一区二区三区| 日韩一区二区麻豆国产| 国产成人免费9x9x人网站视频| 一区二区三区自拍| 欧美美女一区二区三区| 欧美色涩在线第一页| 奇米亚洲午夜久久精品| 色婷婷综合在线| 亚洲综合精品久久| 久久香蕉国产线看观看99| 成人看片黄a免费看在线| 成人高清在线视频| 欧美激情一区在线| 91.com视频| av在线播放不卡| 国产乱码精品一区二区三| 日本中文字幕不卡| 一区二区免费在线播放| 国产午夜精品久久| 日韩视频一区二区三区| 色香蕉久久蜜桃| 成人免费黄色在线| 国产一区二区三区在线看麻豆| 日韩精品欧美成人高清一区二区| 亚洲欧美国产三级| 中文字幕va一区二区三区| 精品少妇一区二区三区在线播放| 久久电影网站中文字幕| 一区二区三区在线免费| 欧美日本精品一区二区三区| 日韩成人一级大片| 久久综合av免费| 国产91丝袜在线观看| 日韩精品中文字幕在线一区| 免费在线观看日韩欧美| 欧美mv和日韩mv的网站| 国产乱人伦偷精品视频免下载 | 亚洲欧美日韩国产成人精品影院| 久久久久久一二三区| 香蕉久久一区二区不卡无毒影院| 一区二区三区在线观看动漫| 久久亚洲精品小早川怜子| 国产精品久久三区| 在线欧美日韩国产| 国产精品丝袜一区| 久久精品一二三| 精品不卡在线视频| 欧美一区二区三区精品| 678五月天丁香亚洲综合网| 欧美日韩精品一区二区三区| 欧美三级中文字幕| 69成人精品免费视频| 日韩欧美一区二区久久婷婷| 日韩美女天天操| 久久午夜老司机| 成人av在线网站| av一区二区三区四区| 精品久久五月天| 亚洲国产视频一区二区| 欧美日韩精品专区| 亚洲综合丁香婷婷六月香| ●精品国产综合乱码久久久久| 国产精品成人网| 亚洲欧美日韩系列| 亚洲精品国产视频| 一区二区激情小说| 婷婷国产v国产偷v亚洲高清| 日韩精品91亚洲二区在线观看| 日韩中文字幕不卡| 蜜桃久久久久久久| 国产成a人亚洲精| 成人h动漫精品| 91麻豆精品秘密| 欧美在线视频你懂得| 欧美久久一区二区| 日韩午夜在线观看视频| 99v久久综合狠狠综合久久| 中文字幕高清一区| 综合激情成人伊人| 国产精品国产精品国产专区不片| 亚洲一区二区在线免费看| 午夜影院在线观看欧美| 麻豆精品视频在线观看| 国产91在线观看丝袜| 欧美自拍偷拍午夜视频| 欧美一区二区三区免费视频| 国产精品毛片高清在线完整版| 亚洲成av人片在www色猫咪| 狠狠v欧美v日韩v亚洲ⅴ| 色域天天综合网| 精品国产亚洲在线| 亚洲黄色小说网站| 国产精品一区二区果冻传媒| 欧美美女喷水视频| 一区在线观看视频| 久久精品99国产精品| 91福利在线看| 国产精品系列在线| 日韩精品电影在线| 91网站最新地址| 国产视频一区二区在线| 麻豆精品精品国产自在97香蕉| 一本色道a无线码一区v| 欧美激情艳妇裸体舞| 蜜桃视频在线一区|