본문 바로가기

Data Engineering

[Databirkcs] Cli로 Workspace to local file system으로 file 옮기기

워크스페이스 정리를 위해 작업공간을 dbc로 내려받으려 했으나(ui환경에서) 10메가 초과로 내려받을 수 없게 됐다. 

확인해보니, 노트북 환경에서는 spark.display() 나 그래프 or 데이터들이 같이 보여지기 때문에 https의 용량을 많이 잡아먹는 것 같다.

따라서 cli 환경으로 데이터브릭스 디렉터리를 로컬로 받는 것을 택했다.

databricks workspace export_dir --help

 

 

Databricks documentation

 

docs.databricks.com

브릭스 공식문서를 보니, cli 환경에서 아래의 디렉토리를 주면 로컬로 다운받을 수 있는 것을 확인했다.

databricks workspace export_dir --overwrite /Users/someone@example.com/my-folder /Users/me/Downloads/my-folder

dbc로 받을 수 있으면 좋겠으나, 10메가가 넘게되는 것은 로컬로 다운받고 zip 형태로 말아두었다.

10메가가 넘거나 하는것들은 zip 형태로 말아둔 다음, 브릭스 환경에서 가져오기 할때 zip을 올려두면 다시 import가 된다. 그러나 파일이 너무 클 시에는, stream timeout 이라는 에러가 발생하므로, 이를 또 줄여야 하는 번거로움이 있을 수 있다.

 

반응형