About Me

My photo
Software Engineer at Starburst. Maintainer at Trino. Previously at LINE, Teradata, HPE.

2017-08-21

Introduction to Big Data and Teradata Aster


This a note for Teradata Aster Basics 6.10 Exam a.k.a TACP(Teradata Aster Certified Professional).
Recommended courses are followings and this note is for the 2nd course.
  • Teradata Certification, What’s New and How to Prepare
  • Introduction to Big Data and Teradata Aster
  • Introduction to Teradata Aster Analytics*
  • Introduction to Teradata Aster Database Administrator*
SQL vs SQL-MR: SQL is better for standard transformation. SQL-MR is better for custom transformation(e.g. log extraction)
R creates multiple copies of data during processing, and doesn’t automatically run in parallel. Aster R run in parallel across the Aster MPP architecture.
FSE(Foreign Server Encapsulation): Supports remote data platforms other than Aster and Teradata. (e.g. Oracle, Hadoop, DB2, etc)
QueryGrid Aster-Teradata: Join tables in Taeradata and Aster Database
QueryGrid Aster-Hadoop: Copy data from Hadoop to Aster, from Aster to Hadoop. HCatalog: Table metastore service for Hive, Pig, and so on.
Deployment Options: Aster Apliance, Cloud, Software Only(RHEL) and Aster on Hadoop.
Data Prepartion: IPGeo, Pivot, JsonParser, Apach Log Parser and PSTParserAFS
Aster Analytics Portfolio
  • Data Acquistion
  • Data Prepartion
  • Advanced Analytics
  • Visualization
Aster Database
  • Analytic Engine
    • Aster SQL-MR
    • Aster SQL-GR (Based on Bulk Synchronous Processing)
    • Aster R
  • SNAP Framework
    • Integrated Optimizer
    • Integrated Executor
    • Unified SQL Interface
    • Common Storage System and Services
  • Multi-Type Storage
  • AFS(Aster File Store)
Queen: Cluster Coordination, Distributed Query Planning, System Tables
Worker Node: Send back results to Queen
Loader: Loading data to Aster
Access Control
  • Aster username/password
  • TD Wallet
  • LDAP
Multi-Version Concurrency Control(MVCC): Eliminate the needs of read locks while ensuring that the database maintains the key ACID(Atomicity, Consistency, Isolation, Durability)
Two Level Query Optimization
  • Queen Global Optimizer: Rule Based
  • v-Worker Optimizer: Cost Based. The cost is determined by the demographics of the v-Worker fragment of the distributed data.
Dynamic Workload Management
  • User-based policies
  • Time-based policies
  • Object-based policies
  • IP-based policies
  • Periodic Re-evaluation
nCluster’s columnar capability is a custom development of Aster. Not part of PostgreSQL. Columnar limitation is append only(no updates or deletes)
Columnar advantage and limitation
  • Use NOT NULL whenever possible
  • Avoid variable length data
  • Don’t SELECT/ANALYZE any columns unless it is necessary
Three compression levels
  • Hot data: No or low compression
  • Cold data: Medium or High compression
Informatica has Aster connector. Others uses nCluster loader.
Aqua Data Studio: http://www.aquafold.com/
Viewpoint portlet for Aster
  • Aster Node Monitor
  • Aster Completed Processes

2017-08-13

Shinkai Makoto Movies


新海 誠監督の「君の名は。」がiTunesでレンタル開始されていたので観てみました。ちなみにこの3連休で「言の葉の庭」と「秒速5センチメートル」も観ています。 君の名は。の感想としては良かったんですが、イマイチ内容に入り込めなかった部分もある…というのが正直な感想です。内容が学生同士だからか、それとも田舎が舞台の話だからか登場人物目線で考えることがなんか難しく。 新海監督の評価として”写真(現実)よりも綺麗な絵”といったことを聞きますが、あそこまで綺麗だと絵の方にばかり目が行ってしまい、こんな綺麗な景色、現実ではないよなぁとかそんなことを考えてしまいました。 アニメなので家でいいかなと思って上映期間中に行かなかったんですが、もっと集中するためにも映画館で観た方が良かったかも?とちょっと思いました。映画だと消化不良な部分もあり小説も買ってみたので、のんびり読み進めてみます。

言の葉の庭は2回目なんですが、相変わらず良かったです。近いうちに引っ越す可能性が出てきたので、とりあえず新宿周辺で家を探しているぐらいには影響を受けています。言の葉の庭は小説版も凄い良いので、映画しか観ていない人にはオススメです。この人のこの行動にはこういった背景があったんだという、映画では描かれていなかったことが分かります。

秒速5センチメートルは初めて観たんですが、1回観ただけでは理解できない部分が多くWeb上のレビューを見て段々分かってきました。確かに君の名は。と繋がっている部分も多い感じがしますが、秒速の方が現実的で心に刺さる(ある意味刺される)内容でしょうか。キラキラというよりはドロドロで、君の名は。とも言の葉の庭とも違う世界でした。

僕は新海監督の熱心なファンではないので、適当なことを書いちゃってますが、「秒速5センチメートル」「言の葉の庭」とニッチな流れから「君の名は。」で王道な青春映画で大ヒットした中で次はどんな映画を作るかが気になります。