클라우드 스토리지로의 Google 클라우드 데이터 흐름

Somasundaram Sekar 03/03/2017. 2 answers, 221 views
google-cloud-storage google-cloud-storage google-cloud-dataflow google-cloud-dataflow google-cloud-dataproc google-cloud-dataproc apache-beam

여기에 이미지 설명을 입력하십시오. 위의 참조 아키텍처는 Cloud Dataflow에서 Cloud Storage 싱크가 있음을 나타내지 만 현재 기본 Dataflow API로 보이는 Beam API에는 Cloud Storage I / O 커넥터가 나열되어 있지 않습니다.

여기에 이미지 설명을 입력하십시오.

데이터 흐름에서 클라우드 저장소로 데이터를 가져 오는 대안이 아닌 경우 누구나 존재하는 것이 있는지 명확히 알 수 있습니다.

2 Answers


Graham Polley 03/03/2017.

빔은 GCS에서 쓰기 / 읽기를 지원합니다. TextIO 클래스를 사용하기 TextIO 됩니다.

https://beam.apache.org/documentation/sdks/javadoc/0.2.0-incubating/org/apache/beam/sdk/io/TextIO.html

하나 이상의 텍스트 파일에서 PCollection을 읽으려면 TextIO.Read를 사용하십시오. TextIO.Read.from (String)을 사용하여 읽을 파일 경로를 지정할 수 있습니다 (예 : 로컬로 실행중인 경우 로컬 파일 이름 또는 파일 이름 패턴 또는 Google Cloud Storage 파일 이름 또는 파일 이름 패턴). "gs : ///"형식 ).


chamikara 03/03/2017.

TextIO, AvroIO 또는 GCS와 상호 작용하기 위해 파일에서 읽고 쓰는 다른 커넥터를 사용할 수 있습니다. 빔은 "gs : //"로 시작하는 모든 파일 경로를 GCS로 식별합니다. 빔은 플러그 가능한 FileSystem [1] 인터페이스를 사용하여이 작업을 수행합니다.

[1] https://github.com/apache/beam/blob/master/sdks/java/io/google-cloud-platform/src/main/java/org/apache/beam/sdk/io/gcp/storage /GcsFileSystem.java

Related questions

Hot questions

Language

Popular Tags