HDFS-Proxy 技术梳理

问题背景

来自某个需求，希望数据平台可以支持多个不同版本不同认证方式的Hadoop集群。

由于Kerberos的认证是进程级别有效的，因此无法在多线程环境下支持对多Hadoop集群的访问支持。

为了解决多个模块对HDFS的访问需求，因此设计HDFS Proxy模块，透明无侵入地解决这个问题。

FileSystem接口支持通过配置文件的方式指定底层的实现类，保护了底层具体实现与上层代码的分离解耦。

因此，只需要在配置文件中指定用SDK中的类作为FileSystem的实现，就可以启用Proxy，入侵比较小。

选择gPRC协议

利用K8S提供的负载均衡机制，可以保证对请求负载的良好扩展性。

利用K8S提供的服务发现机制，可以保证对接多个Hadoop集群的扩展性。

gRPC协议支持OpenTracing，而Log与Metrics可以在SDK中添加

为了能在客户端还原出服务端捕获的异常信息，我们需要将堆栈信息序列化传输到客户端，并在客户端反序列化

Proxy服务端可以在后台运行一个GC线程定期进行资源回收，避免泄露

Buffer可以提高读性能，流式接口可以适应大数据块，gRPC连接可以保持复用

与此相似，后来还补充实现了HiveProxy，在原有的框架基础上添加几个方法就可以了

这里只记录大致思路，具体协议与代码细节就不细说了