ParquetColumnarRowInputFormat (Flink : 1.14-SNAPSHOT API)

java.lang.Object
- org.apache.flink.formats.parquet.ParquetVectorizedInputFormat<RowData,SplitT>
- - org.apache.flink.formats.parquet.ParquetColumnarRowInputFormat<SplitT>

All Implemented Interfaces:

Serializable, ResultTypeQueryable<RowData>, BulkFormat<RowData,SplitT>
```
public class ParquetColumnarRowInputFormat<SplitT extends FileSourceSplit>
extends ParquetVectorizedInputFormat<RowData,SplitT>
```
A ParquetVectorizedInputFormat to provide RowData iterator. Using ColumnarRowData to provide a row view of column batch.

See Also:

Serialized Form

Nested Class Summary
- Nested classes/interfaces inherited from class org.apache.flink.formats.parquet.ParquetVectorizedInputFormat
  ParquetVectorizedInputFormat.ParquetReaderBatch<T>
- Nested classes/interfaces inherited from interface org.apache.flink.connector.file.src.reader.BulkFormat
  BulkFormat.Reader<T>, BulkFormat.RecordIterator<T>

Constructor Summary

Constructors
Constructor and Description
`ParquetColumnarRowInputFormat(Configuration hadoopConfig, RowType projectedType, int batchSize, boolean isUtcTimestamp, boolean isCaseSensitive)` Constructor to create parquet format without extra fields.
`ParquetColumnarRowInputFormat(Configuration hadoopConfig, RowType projectedType, RowType producedType, ColumnBatchFactory<SplitT> batchFactory, int batchSize, boolean isUtcTimestamp, boolean isCaseSensitive)` Constructor to create parquet format with extra fields created by `ColumnBatchFactory`.

Method Summary

All Methods Static Methods Instance Methods Concrete Methods
Modifier and Type	Method and Description
`static <SplitT extends FileSourceSplit> ParquetColumnarRowInputFormat<SplitT>`	`createPartitionedFormat(Configuration hadoopConfig, RowType producedRowType, List<String> partitionKeys, PartitionFieldExtractor<SplitT> extractor, int batchSize, boolean isUtcTimestamp, boolean isCaseSensitive)` Create a partitioned `ParquetColumnarRowInputFormat`, the partition columns can be generated by `Path`.
`protected ParquetVectorizedInputFormat.ParquetReaderBatch<RowData>`	`createReaderBatch(WritableColumnVector[] writableVectors, VectorizedColumnBatch columnarBatch, Pool.Recycler<ParquetVectorizedInputFormat.ParquetReaderBatch<RowData>> recycler)`
`TypeInformation<RowData>`	`getProducedType()` Gets the type produced by this format.
`protected int`	`numBatchesToCirculate(Configuration config)`

Methods inherited from class org.apache.flink.formats.parquet.ParquetVectorizedInputFormat
createReader, isSplittable, restoreReader

Methods inherited from class java.lang.Object
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait

Constructor Detail

ParquetColumnarRowInputFormat

public ParquetColumnarRowInputFormat(Configuration hadoopConfig,
                                     RowType projectedType,
                                     int batchSize,
                                     boolean isUtcTimestamp,
                                     boolean isCaseSensitive)

Constructor to create parquet format without extra fields.

ParquetColumnarRowInputFormat

public ParquetColumnarRowInputFormat(Configuration hadoopConfig,
                                     RowType projectedType,
                                     RowType producedType,
                                     ColumnBatchFactory<SplitT> batchFactory,
                                     int batchSize,
                                     boolean isUtcTimestamp,
                                     boolean isCaseSensitive)

Constructor to create parquet format with extra fields created by ColumnBatchFactory.

Parameters:: projectedType - the projected row type for parquet format, excludes extra fields.; producedType - the produced row type for this input format, includes extra fields.; batchFactory - factory for creating column batch, can cram in extra fields.

Method Detail

numBatchesToCirculate
```
protected int numBatchesToCirculate(Configuration config)
```
Overrides:

numBatchesToCirculate in class ParquetVectorizedInputFormat<RowData,SplitT extends FileSourceSplit>

createReaderBatch

protected ParquetVectorizedInputFormat.ParquetReaderBatch<RowData> createReaderBatch(WritableColumnVector[] writableVectors,
                                                                                     VectorizedColumnBatch columnarBatch,
                                                                                     Pool.Recycler<ParquetVectorizedInputFormat.ParquetReaderBatch<RowData>> recycler)

Specified by:: createReaderBatch in class ParquetVectorizedInputFormat<RowData,SplitT extends FileSourceSplit>
Parameters:: writableVectors - vectors to be write; columnarBatch - vectors to be read; recycler - batch recycler

getProducedType
```
public TypeInformation<RowData> getProducedType()
```
Description copied from interface: BulkFormat

Gets the type produced by this format. This type will be the type produced by the file source as a whole.

Returns:

The data type produced by this function or input format.

createPartitionedFormat

public static <SplitT extends FileSourceSplit> ParquetColumnarRowInputFormat<SplitT> createPartitionedFormat(Configuration hadoopConfig,
                                                                                                             RowType producedRowType,
                                                                                                             List<String> partitionKeys,
                                                                                                             PartitionFieldExtractor<SplitT> extractor,
                                                                                                             int batchSize,
                                                                                                             boolean isUtcTimestamp,
                                                                                                             boolean isCaseSensitive)

Create a partitioned ParquetColumnarRowInputFormat, the partition columns can be generated by Path.

Back to Flink Website

Class ParquetColumnarRowInputFormat<SplitT extends FileSourceSplit>

Nested Class Summary

Nested classes/interfaces inherited from class org.apache.flink.formats.parquet.ParquetVectorizedInputFormat

Nested classes/interfaces inherited from interface org.apache.flink.connector.file.src.reader.BulkFormat

Constructor Summary

Method Summary

Methods inherited from class org.apache.flink.formats.parquet.ParquetVectorizedInputFormat

Methods inherited from class java.lang.Object

Constructor Detail

ParquetColumnarRowInputFormat

ParquetColumnarRowInputFormat

Method Detail

numBatchesToCirculate

createReaderBatch

getProducedType

createPartitionedFormat

Back to Flink Website