持续更新。
--------------------C++篇------------------------

  1. 分布计算提高效率的库及库函数,比如FB的folly库就有folly::gen一大堆函数,e.g.
auto results = from(ids) | get<0>() | as<vector>();

本质上和e.g.Pyspark的分布式计算的底层思想是一致的。

--------------------Python篇-----------------------

  1. Python特别适用于搭data pipeline,比如FB的Dataswarm repo(用于run hive&presto tasks)和在Zillow用的Pyspark,其实根本上都是用了Python的脚本特性,串联起tasks来。
  2. dict的4种常见操作
    增:d['key1'] = 4
    删:d.pop('key1')
    找key:if 'key1' in d
    get值:d.get('key1')
  3. subprocess:
    Popen, e.g.

    process = Popen(['cat', 'test.py'], stdout=PIPE, stderr=PIPE)

    相当于执行了cat test.py这个命令
    然后可以用communicate函数来read,e.g. stdout, stderr = process.communicate(); print stdout

  4. yield & generators
    e.g.

    def foo():
        for i in range(0,100):
            yield i*i
    generator = foo()
    for i in generator:
        print(i)
        
  5. eee

sharonlyu
18 声望3 粉丝

北美西海岸程序媛一枚,做过一点数据库服务,做过一点机器学习,trying to master in Python and Spark,目前正投身big data怀抱中。