About Me

My photo
Software Engineer at Starburst. Maintainer at Trino. Previously at LINE, Teradata, HPE.

2016-05-07

Try Haven OnDemand

Haven OnDemandというhpのデータ分析系の技術を集めたサイトがあるのですが、いかんせん日本語情報がなさすぎるので眺めていきたいと思います。
ログインURLはこちら Login | Haven OnDemand

とりあえず色々試してみたい方はヘッダーの「Developers」→「APIs」に飛びます。 カテゴリーは12個に分けられています。粒度がメチャメチャな気もしますが、知らないのもあるので、ひとつずつ概要だけ見ていきます。

Audio-Video Analytics
音声や動画ファイルをテキスト化します。英語での認識率は分かりかねますが、以前日本語で試した結果では、滑舌よくはっきりと喋らないと上手く認識してくれないのでご注意。

Connectors
Web, ファイルシステム、SharePoint、Dropbox等向けにコネクターというものが存在します。実際にオンプレミスで構築する場合、Connectorの上にConnector Framework Serverというものをかぶせて、その中でデータの前処理を行うことが多いです。前処理にはLuaを使用することができます。

Format Conversion
zipやemlなどの階層のあるファイルを展開して内部の情報を取得、画像からテキスト情報の取得(OCR)、ブラウザ上でpdf等のファイルを見やすいように整形できますよとのことです。

Graph Analysis
グラフ上様々な操作、例えば特定のノード間の最短距離や、子グラフ、サジェストを提供する機能のようです。

HP Labs Sandbox
異常検知やトレンド分析を行えるよとのことです。入力はcsvで、異常検知は傾向から外れたレコードの検知、トレンド分析は2つの期間を指定して両者間に見られる違いを検知する機能のようです。

Image Analysis
バーコード、顔に加えて、会社のロゴも認識できるみたいです(なぜかここにもOCRが出ていますが、見なかったことにします)。

Policy
データに対する操作、「こんなデータが来たら」→「こんなことをする」、例えば「emlのタイトルに”入会者募集”と書いてあったら」→「データは取り込まない」といったルールを作成することができます。

Prediction
機械学習っぽいエリアで、予測、リコメンド、予測モデルの教育が行えます。

Query Profile and Manipulation
クエリに対して、Promotions、Synonyms、Blacklistsという3種類のオプションを付加することで検索結果を変更することができます。Promotionsは特定のデータの優先度を上げる、Synonymsは類義語を自分で定義し、Blacklistsはイメージ通り不要な単語を設定することができます。

Search
ある単語から推測される代表的な単語群、例えば「Hewlett Packard」→「United States」や「Personal Computer」を取得したり、複数ドキュメントのうち内容が似ているものを検索することができます。

Text Analysis
単語の補完、「hello」→「helloween」や「hello kitty」を取得したり、入力された文字列の言語を取得することができます。

Unstructured Text Indexing
文字列に対して、インデックスの作成・追加・削除などができます。
使えるのか微妙そうなものもありますが、基本無料なのでちょっと触ってみる分にはいいんじゃないでしょうか。グラフやトレンド分析あたりは触ったことがないので、今度触ってみる予定です。