やったことメモ
- 6日(月)
- (体調悪かった)
- 2日(金)に、Tiling Array Analysis Results からいくつかの部位の実験結果を取り込み、OLAP 可能な状態にしたが、Treatment と Sample の軸しかないため全然使い物にならない状態
- 各データベース間の関係等がいまいち理解出来なくて2,3日苦しむ
- 7日(火)
- 月曜日の続き
- 継ぎ接ぎ的にプログラムを改変しているので、いろいろ足りていなかったりする。はやくライブラリ化したいと思っているが...
- ldetl(Linked Data ETL) という感じでまとめることを考えて、使用例などを適当に書いてみた: https://github.com/inohiro/sandbox/blob/master/ldetl/image_usage.rb
- WHERE 句の条件として IN で配列を展開させるととんでもなく長いSQLが発行されて、MySQL が拒否するということがあった。データセットにおける rdf:type ごとのトリプルの分布に依存する問題なので、いろいろなかなか難しい(代わりのアルゴリズムを実装したが、速度が遅い)
- 8日(水)
- 大学でゼミ合宿のチームミーティング。担当部分のスライドが完全でない
- 他人の作ったスライドで説明するのは難しい
- 9日(木)
- やっとデータセット間の関係がつかめてくる。分析対象のリソースからリンクする、次元として使えそうなリソースが殆ど無い
- もうひとつ上の、Tiling Array Analysis Results から取り込めば、次元を増やせるのではないかと考えて取り組む
- やっとデータセット間の関係がつかめてくる。分析対象のリソースからリンクする、次元として使えそうなリソースが殆ど無い
- 10日(金)
- 突発的なミーティング。表現型の比較?にOLAPが使えないかという話
- Measure の位置に文字列を持ってきたい(今のところ Mondrian では無理だと思うので、ソースに手を入れるしかないかな
- pentaho - Can We show the string value as a measure on mondrian olap
- Thread: Can We show the string value as a measure on mondrian olap
- 引き続きデータのロードなど。リソース間が多値になっているところはとりあえず無視してすすめる(とりあえず Leaf にまとめてやってみる)
- 突発的なミーティング。表現型の比較?にOLAPが使えないかという話
- メモ
- 数週間、バイオインフォマティクス(ライフサイエンス)のデータに取り組んでみた感じだと、(お世話になっている研究室では)OLAP による多次元分析と言うよりかは、ファセット(条件での絞り込み)検索と、その結果得られた遺伝子間の相関の計算が求められている感じである
- 遺伝子の分布などはすでに解明されていて(本当かな?)、何か条件を決めた時の、遺伝子間の変化などが知りたいようである
- (軸をいろいろ変えて分析したいという要望があるが、その対象が必ずしも数値ではない)
- とりあえず8月末までの目標というか、落とし所を決めて、その評価ができる状態を目指す
- 指導教員は、なかなか短期間で何かしらの成果を出すのは難しい(こちらの考えと共同研究者の理解、またその逆が満たされるまで時間がかかるため)ので、あまり気負わないようにと言っていたが、「取り組んでみて何も出ませんでした」というのはさすがに避けたい