不特定サイトから特定情報を取得するクローラの開発

カテゴリ:アプリケーション開発

不特定サイトから特定情報を取得するクローラの開発です。
サイトが不特定なので、必要な情報を取得する上でよくあるパターンを調べてサイトのHTML DOMからそのパターンを取得して、そこを起点としてさらに探索するという方法をとっています。
(具体的に書くことができません。ご容赦ください)

開発言語はPHPでDOMのパーサには simple_html_dom.phpを使用しています。

クローラつながりで、ここに書きますが、
特定サイトから特定の情報を取得するクローラも作成しています。(これもPHPでsimple_html_domを使っています)
これはcrontabで定期的に起動され、結果をファイルに保存します。
WEB画面からはPHPにより、そのファイルの一覧を取得し内容を時間系列で表示、あるいはその期間で集計して表示等をします。
情報の取得先は同じ様な情報を提供する2サイトで、クローラも2種類作成していて、一方のサイトが停止時等に、起動するクローラを切り替えるということをしています。

その他の実績

%work_title%

カテゴリ:アプリケーション開発

%msg%

大規模データ高速集計データベースの設計開発

カテゴリ:アプリケーション開発
何千万件、何億件のログデータから、数秒程度で条件にマッチしたデータを集計(項目別単純集計、ユニーク集計、クロス集計、遷移パターン集計等)して上位数万件をソートして返すデータベースを設計・開発しました。 処理の概要としては、データを複数の処理単位に分割し、複数サーバに配置し(Core数が多いマシンにはCore数に応じて多数配置可能)、それを多段階のプロセス(検索・一次集計・マージ)で集計してい ..

計測データグラフィカル表示・解析

カテゴリ:アプリケーション開発
複数チャネルのセンサから得られるデータを、波形表示、等高線(Contour)表示等を行い、データの特徴を解析することで、診断を行います。 センサの信号は複数のチャネルがあり、その中で必要なチャネルの波形を必要な縮尺で画面に表示します。 また、各チャネルの間をスプライン等で補完し等高線(Contour)表示等を行い、直感的にわかりやすくしています。 データは平滑化、FFT、特徴点抽出等の処 ..

チャットシステム開発

カテゴリ:WEB開発
これは実験的な開発です。 ブラウザで使用できるチャットサイトは、リロードしないと発言が反映しないものが多いので、手軽に使えてリアルタイムで発言が反映するチャットシステムを開発しました。 仕組みは、 ・サーバにチャットサーバプロセスを常駐させておき、チャットしたいクライアントはブラウザから、チャットサーバプロセスにSocket接続する。 ・チャットサーバプロセスは各ブラウザから送信された発言 ..

Javaによる開発実績

カテゴリ:WEB開発
Javaによる開発実績の主なものをここにまとめて記載します。 ■アンケート作成システム 概要:アンケートの項目、選択肢、分岐等を登録してアンケートを作成する 言語:Servlet,JSP,Javascript DB:PostgreSQL ■公共施設予約システム 言語:Servlet,JSP,Javascript DB:Oracle ■カスタマーセンター業務支援 言語: ..

アクセス解析

カテゴリ:アプリケーション開発
アクセスログを集計して、Web画面上に表やグラフで表示するシステムです。 ログは最初に前処理を行い集計しやすい形式に加工してRDBに格納します。 ページビュー数、ユーザ数、検索エンジン、キーワード、リモートホストといった基本的な項目はもちろん集計するのですが、それに加えて ・ユーザはどのようなページ移動パターンを行っているかをツリー表示する機能 ・基本項目をクロス集計して、どの項目間に ..

不特定サイトから特定情報を取得するクローラの開発

カテゴリ:アプリケーション開発
不特定サイトから特定情報を取得するクローラの開発です。 サイトが不特定なので、必要な情報を取得する上でよくあるパターンを調べてサイトのHTML DOMからそのパターンを取得して、そこを起点としてさらに探索するという方法をとっています。 (具体的に書くことができません。ご容赦ください) 開発言語はPHPでDOMのパーサには simple_html_dom.phpを使用しています。 ク ..

CADデータ変換

カテゴリ:アプリケーション開発
某社CADのデータをDXF,DWGフォーマットに相互変換するコンバーターです。 対応する要素のないものはBSPlineCurve等で近似するようにしました。 また、テキストの変換で、各種文字飾りやテキストAlignmentが組み合わさって複雑なレイアウトになるものはできるだけ近づけるように苦労しました。 OS:Windows 言語:VisualC++,MFC ..

Copyright© 2004-2023 @SOHO All rights reserved.