초록 열기/닫기 버튼

최근 빅데이터 문제를 해결하기 위해 하둡에 대한 연구가 활발히 진행 중이다. 하둡은 다양한 사용자의 접근 제어를 관리하기 위해, Hadoop-2.4.0 버전부터 ACL(access control list)을 제공하기 시작하였다. 본 논문에서는 하둡의 인메모리 기반 ACL을 RDBMS 기반으로 관리하도록 기존 하둡을 재설계하고, 이를 구현하였다. 기존 하둡은 ACL을 인메모리에서 관리하기 때문에 대용량 ACL 정보를 관리함에 있어 메모리 오버헤드, ACL 정보 관리의 비효율성 등 여러 가지 문제가 발생할 수 있다. 본 논문에서는 ACL 관리에 RDBMS인 MariaDB를 사용함으로써 메모리 크기에 종속되지 않으며 네임노드의 부하를 줄일 수 있다. 또한, 제안한 RDBMS 기반 HDFS ACL 기법은 외부 응용 프로그램에서도 쉽고 일관성 있게 ACL 정보를 관리할 수 있는 장점이 있다. 구현 및 테스트에서는 HDFS ACL의 유스케이스를 테스트에 사용하여 RDBMS 기반 ACL의 적정성을 검증한다. 이 같은 결과에 따라, 본 논문은 빅데이터를 하둡에서 안정하게 관리할 수 있는 우수한 연구 결과라 생각된다.


In recent years, there have been many research efforts on Hadoop for resolving big data issues. To support access control for various users, Hadoop has started to provide ACL(access control list) from Hadoop-2.4.0 version. In this paper, we redesign and modify the ACL function of Hadoop so as to manage ACL in RDBMS rather than main memory. The existing Hadoop of in-memory ACL may cause critical problems including memory overhead and inefficiency of ACL management for a large volume of ACL information. The proposed ACL management scheme exploits RDBMS(more specifically, MariaDB), and thus, it is independent on the memory size and reduces the workload of NameNode. It has an additional advantage that external applications can also manage the ACL information simply and consistently. We implement the RDBMS-based ACL management scheme, and through extensive tests on use cases, we verify its correctness and practical use. These results show that our RDBMS-based scheme is an excellent approach for efficient management of big data on Hadoop.