たかふじ さん プロフィール

  •  
たかふじさん: 藤倉崇晃のなぜつくったし。
ハンドル名たかふじ さん
ブログタイトル藤倉崇晃のなぜつくったし。
ブログURLhttp://takaakiwhy.blogspot.jp/
サイト紹介文かけだしプログラマーの創作活動ブログ!
自由文主にレコメンドエンジンをフリー(オープンソース)で配布します。
アルゴリズムの研究報告なども行う予定!
参加カテゴリー
更新頻度(1年)情報提供0回 / 365日(平均0.0回/週) - 参加 2015/09/15 15:20

たかふじ さんのブログ記事

  • 過去の記事 …
  • 形態素解析器のいらないキーワード抽出ツール(4)
  • 今日もこれです。過去記事のスクリプトは削除しました。だいぶ速くなり、10000字の文書を1〜2分で処理できるようになりました。(ある文字列のスコア) = (出現回数)×(文字列の長さ)と定め、キーワードの集合から(文字列1)と(文字列2)を取り出し、条件1 : (文字列1)&(文字列2)のスコア > (文字列1)のスコア条件2 : (文字列1)&(文字列2)のスコア > (文字列2)のスコアの二つを満たし [続きを読む]
  • 形態素解析器のいらないキーワード抽出ツール(3)
  • 今日も昨日に引き続き、キーワード抽出ツールを作りました。前回、「機種依存文字」によって解析が止まると書きましたが、それは間違いで、正しくは、「特殊文字」でした。今回のソースコードでは特殊文字は削除します。あとはアルゴリズムをいじって精度が少し上がりました。頑張ってベクター様での公開を目指します。▼Perlスクリプト▼#!/usr/bin/perluse strict;use warnings;use Encode;use JSON;print "フレーズを抽出する文 [続きを読む]
  • 教師なし形態素解析
  • 辞書なしで形態素解析できないか悩んでいたら、下記を発見しました。『ベイズ階層言語モデルによる 教師なし形態素解析』NTTコミュニケーション科学基礎研究所 持橋大地http://chasen.org/~daiti-m/paper/nl190segment-slides.pdf教師なしってことは、学習用データを与えれば、勝手に学習して、学習後にサクサクっと形態素解析してくれるってことでしょうか。テラオモシロス。同じ原理でデマのパターン抽出とかもできそうだな。連 [続きを読む]
  • 有名女優さん同士の類似度
  •  今日はレコメンド関連にテーマを戻して活動しました。  上表は有名な日本の女優さん7人の類似度を表しています。 どのように計算したかといいますと、 「女優A」でGoogle検索 → ヒット件数を x とする 「女優B」でGoogle検索 → ヒット件数を y とする 「女優A 女優B」でGoogle検索 → ヒット件数を z とする 女優Aと女優Bの類似度 = z / (x * y) ^ (1/2) こんな感じです。簡単ですね。 これ、 [続きを読む]
  • デマの形態素解析
  • 今日は、とあるクラウドソーシングサイトで20字程度のデマを考えて欲しいという依頼をした。そして計530件のデマが集まった!集まったデマはこんな感じ↓ iphone6sを最後に、Appleはスマートフォン事業から撤退することになった。 小さなつむじ風の中に入って傘をさすと少し飛べる。 植村直己さんの遺体発見 行方不明から31年 マッキンリー山中で。 インドで新種の家畜ゾンビ化ウイルスを発見、隔離後アメリカ研究機関へ。 マ [続きを読む]
  • お彼岸
  • 今日は母の実家に行って、お墓参りをしてきました。お墓は山の斜面にあり、高齢の祖母はもうお墓参りできないので、私が代わりにお墓参りしました。先日の台風のせいか、お墓の周りが荒れていて、祖母からは「掃除はしなくていいよ」と言われていましたが、簡単に片付けました。そろそろ秋学期が始まる関係で、本業の方が忙しくなりそうです。このブログの更新も徐々にまばらになりそうですが、頑張って毎日更新したいです。Twitte [続きを読む]
  • Twitterのデマ検知器を作ろう!
  • Twitterから情報を抜くにはどうすればいいか試行錯誤する一日でした。Perlの場合、下記URL先の説明が一番丁寧に感じました。http://qiita.com/nmkwnryk/items/e20ffb299ac55d7bd3d2そんな感じでTwitterについて色々調べていたら、大学の研究室の後輩(もう卒業した)がやってた研究に、突発的に興味が湧いた。ナイーブベイズ分類器でデマツイートを検知する方法を彼は研究していた。彼のスゴイところは、彼自身はTwitterにあまり興 [続きを読む]
  • 「今夜はカレーよ!」 ⇒ 夜遊び自重
  • 今後の課題まとめ1. スパイダリングの勉強をする。2. スパイダリングのPerlスクリプトを作って、recommendWithCosSimilar と合体させる。3. 欲しい情報だけ出力してくれるスパイダリングツール爆誕!夢で終わらないよう頑張らねば!ふぬふぬ・・・!なお今日は大学でミーティングがあり、本業で忙しく、エンジニアとしての進捗は全くなかった模様(´・ω・`) [続きを読む]
  • 岡崎図書館事件なるものを知る
  • マスコミ報道だけでは分からない岡崎図書館事件スクレイピングで面白いことできないかなぁ〜と思って色々調べていたら、逮捕された事例があると知りビックリです。ツイッターをスクレイピングして、不特定多数のユーザーのお気に入りツイートリストを取得したかったのですが、素直にAPIを使おうかなと思いました。なおリストはcsvにして recommendWithCosSimilar につっこむつもりでした。面白いツイートを推薦する機構とかでき [続きを読む]
  • JSONファイルをCSVに変換するウェブサイト
  • 見つけました!https://json-csv.com/容量1Mまでが無料で、課金すれば容量50Mまで、できるようです。うーん(。-_-。)いや、recommendWithCosSimilar がJSONファイルを出力する仕様なんですが、csvファイルを出力したほうが需要あるかなぁと思いまして。それで、JSONのCSV変換って簡単にできるものなのか?ツールがないか?を調べた次第。そもそも、なんで recommendWithCosSimilar が JSONファイルを出力するのかというと、java [続きを読む]
  • 過去の記事 …