Hive 数据到 Pandas 数据框

新手上路,请多包涵

Python 新手。

如何将数据从配置单元保存到 Pandas 数据框。

 with pyhs2.connect(host, port=20000,authMechanism="PLAIN",user,password,
               database) as conn:
    with conn.cursor() as cur:
        #Show databases
        print cur.getDatabases()

        #Execute query
        cur.execute(query)

        #Return column info from query
        print cur.getSchema()

        #Fetch table results
        for i in cur.fetch():
            print i
        **columnNames = [a['columnName'] for a in  cur.getSchema()]
        print columnNames
        df1=pd.DataFrame(cur.fetch(),columnNames)**

尝试使用列名。没用。

请。建议的东西。

原文由 ankita gupta 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 592
1 个回答

pd.read_sql() (pandas 0.24.0) 采用数据库连接。直接使用 PyHive 连接 pandas.read_sql() 如下:

 from pyhive import hive
import pandas as pd

# open connection
conn = hive.Connection(host=host,port= 20000, ...)

# query the table to a new dataframe
dataframe = pd.read_sql("SELECT id, name FROM test.example_table", conn)

Dataframe 的列将以配置单元表的名称命名。如果需要,可以在数据框创建期间/之后更改它们:

  • 通过 HiveQL: SELECT id AS new_column_name ...
  • 通过 pd.read_sql()

原文由 Saftography 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题