8月 26

最近仮想OSばかり触っているので、たまにいじったサーバーのOSアップグレードメモです。
アップグレードするサーバーにはDVDドライブが付いていたので、DVDブートで挑戦してみました。

CentOS5.5のISOを落としてDVD化

ISOはこちらから落としました。
http://ftp.riken.jp/Linux/centos/5.5/isos/i386/CentOS-5.5-i386-bin-DVD.iso

DVDでブートして上書きインストール

ブートして通常通りインストールを進めていくと、インストーラーが既存のOSをチェックして「CentOS4.8に上書き」 or「再インストール」とたずねてくるので、上書きを指示します。

その後、DVDからハードディスクへファイルのコピーが始まります。コピーするファイル数、合計のバイト数、その途中経過を表示しながら進んでいきます。

トラブル1「インストール途中で止まる」

残り40ファイル、50MBくらいあるファイルをコピーした直後、インストーラーがフリーズしてしまいました。この時点で上書きされたファイルとそうでないファイルが同居しているという気持ち悪い状況でしたが、迷わずCtrl+Alt+Delで強制再起動。
再度DVDブートして進めていくと、ちゃんと途中から始まりました。賢いインストーラーです。
(途中で上書き or 再インストール?の質問時にラベルが「CentOS5.5」になってしまっていましたが、ここも上書きを選びます。)

トラブル2「Grubで止まる」

無事インストールが終わって、DVDを取り出して再起動すると、「GRUB loading stage 2 」とGRUBのところでストップ。
どうもブートローダーが正しく上書きされなかったようです。再度DVDを入れDVDブートします。
起動コマンド入力プロンプトで「linux rescue <enter>」と入れてレスキューモードに入り、シェルのプロンプトが表示されたら、

chroot /mnt/sysimage
grub-install /dev/sda

とGRUBを再インストールします。インストール先のデバイス(/dev/sdaの部分)は環境によって変わるのでdfコマンドなどで確認します。

無事起動

DVDを取り出して再起動すると、無事起動しました。
ところが、

トラブル3「yumがエラーで起動しない」

yumを実行すると、

There was a problem importing one of the Python modules
required to run yum. The error leading to this problem was:

   No module named sqlite

Please install a package which provides this module, or
verify that the module is installed correctly.

It's possible that the above module doesn't match the
current version of Python, which is:
2.4.3 (#1, Sep  3 2009, 15:37:12) 
[GCC 4.1.2 20080704 (Red Hat 4.1.2-46)]

If you cannot solve this problem yourself, please go to 
the yum faq at:
  http://wiki.linux.duke.edu/YumFaq

とエラーが表示されて起動できません。

python-sqliteはすでにインストールされているのですが、このエラーが表示されます。

yumが使えないのでrpmファイルを落としてきて、強制的に上書きします。

wget http://mirror.centos.org/centos-5/5.5/os/i386/CentOS/python-sqlite-1.1.7-1.2.1.i386.rpm
rpm -Uvh python-sqlite-1.1.7-1.2.1.i386.rpm --force

(–forceを付けないとすでにインストールされている!と取り合ってくれません。)

yumでアップデート

4系から5系にアップデートしたので不具合が起こらないようにyumのキャッシュを消してからアップデートします。

sudo yum clean all
sudo yum update

以上で、現在も正常に動いています。

Tagged with:
8月 19

Twitter Client Ranking by Streaming APIの構成は、
PHP5.3.3(with APC) + MongoDB1.6.1 + Apache2.2.3で、フレームワークにsyfmony1.4.6を利用しています。この構成が動く最低限の環境を構築した際のメモです。
さくらのVPSはサービスはほとんど入っていませんでしたが、gccやautoconfは既に入っていました。

#Apache
sudo yum install httpd.x86_64

#PHPのコンパイルに必要(パラメータによる)
sudo yum install httpd-devel.x86_64
sudo yum install libxml2-devel.x86_64
sudo yum install openssl-devel.x86_64
sudo yum install curl-devel.x86_64

#最新版PHP取得→コンパイル→インストール
wget http://ve2.php.net/get/php-5.3.3.tar.gz/from/jp2.php.net/mirror
tar vfxz php-5.3.3.tar.gz
cd php-5.3.3
./configure \
--enable-mbstring \
--with-apxs2=/usr/sbin/apxs \
--with-curl \
--with-openssl \
--with-config-file-path=/etc  \
--enable-dom \
--with-libdir=lib64
meke
sudo make install

#symfonyのインストール
sudo pear channel-discover pear.symfony-project.com
sudo pear install symfony/symfony

#PHP拡張のインストール
sudo pecl install apc
sudo pecl install mongo

#PHP拡張の反映
sudo vi /etc/php.ini

extension = mongo.so
extension = apc.so
apc.enabled=1

PHPもRemiのリポジトリを利用すると簡単に最新版がインストールできますが、cli版がバックグラウンドで実行できない不具合があるのでソース版を利用しました。

参考

MongoDBをインストール

下記URLを参考にMongoDBのリポジトリを設定してインストールします。
参考:CentOS and Fedora Packages

sudo vi /etc/yum.repos.d/10gen.repo 

[10gen]
name=10gen Repository
baseurl=http://downloads.mongodb.org/distros/centos/5.4/os/x86_64/
gpgcheck=0

name=10gen Repository
baseurl=http://downloads-distro.mongodb.org/repo/redhat/os/x86_64
gpgcheck=0

sudo yum install mongo-stable* --enablerepo=10gen
sudo yum install  mongo-10gen* --enablerepo=10gen

最新のstableバージョン1.6.1がインストールされます(2010年8月19日現在)最新のstableバージョン1.8.2がインストールされます(2011年7月21日現在)。デフォルトの設定は以下の通りです。
設定ファイル:/etc/mongod.conf
ログファイル:/var/log/mongo/mongod.log
データディレクトリ:/var/lib/mongo/

起動は起動スクリプトでOK

sudo /etc/init.d/mongod start

2011-7-21修正 yumリポジトリの修正。最新バージョンの修正。

Tagged with:
8月 17

はじめに

さくらのVPSをベータ*1として使わせてもらっているのに何もしないのはもったいない&申し訳ないので、Twitter Client Ranking by Streaming APIというのを、さくらのVPSのパフォーマンスとMongoDBのパフォーマンス・使用感をテーマに実験的に作ってみました。

TwitterのStreaming APIからツイートを取得、保存、解析してどんなクライアントが使われているかをランキング形式に表示するという単純なものです。

解析結果をブログで公開している例があるものの、なかなか直近で連続的なデータを公開しているところがなかったので、勢いで作りました。

さくらのVPS

さくらのVPSの仕様は以下の通りです。

メモリ 512MB
HDD 20GB
回線 100Mbps
OS CentOS 5 x86_64
グローバル IP アドレス IPv4 アドレス×1 個
データ転送量 無制限
管理者権限 root 権限付与

データを継続的に保存するのにHDDが20GBと心許ないので古くなったデータはどんどん削除していく必要がありそうです。一方でデータ転送量が無制限となっているので、APIからの取得に(料金的な意味で)気を使う必要はなさそうです。
OSは最新のCentOS5.5で、サービスはsendmailとssh以外は何も入っていないので、httpdなどを自由に追加して利用します。また、ポートはすべて公開状態なのでiptablesを設定、有効にすることも必要です。

Twitter Streaming API

Twitter Streaming APIのstatuses/sampleメソッドを利用します。sampleメソッドは公開タイムラインの1%未満がサンプリングされたデータとなります。実際にアクセスをしてみると1分間に350〜650ツイート取得でき、量にかなりムラがあることがわかりました。
HDDの容量を考えて、データはcronで6分毎に1分間取得することにしたので、サンプルは1/6%、全ツイートの約0.167%未満になりそうです。数日間取得してみたところ、1日で約10万〜12万ツイートをサンプリングできています。

MongoDB

MongoDBはドキュメント指向DBと呼ばれる仲間で、Key-Value StoreにRDBMSの色を少し足したようなイメージです。スキーマはダイナミックに変更できる一方で、SQLこそ使えないものの、where, sort, limit, group(by), max, min,などが用意されていて、RDBMSに慣れている人にもとっつきやすいと思います。
さらに、スケールアウトを容易にするSharding機能を標準装備していて、分散したデータベースから複雑な集計ができるMap/Reduceが利用できます。

RDBMSでDBやテーブルにデータを入れようと思った時はあらかじめCREATEしておく必要がありますが、MongoDBは必要ないので存在しないDBやコレクション(RDBMSでいうテーブル)にいきなりデータを投入してもエラーは出ず、コレクションやDBすらダイナミックに作られます。この辺りの挙動はファイル操作に近いので、日付ごとにダイナミックにコレクションを作ることもでき、今回のログの保管などの用途にも適しています。

日付ごとにコレクションを作り、値にはtimestamp, date, source, source_url, time_zone, utc_offset, langを保存することにしました。Sharding環境ではないのでMap/Reduceの力を発揮することもできないのですが、実験的な意味で、データの集計にはMap/Reduce*2を利用しています。

使い方

デフォルトは1日前のサンプリングしたすべてのデータが表示されます。そこから、日付、Lang、Time zone、UTC offsetで絞り込みすることで様々な形で抽出することができます。
例えば、「8月12日のツイートの中から東京(time_zone=Tokyo)で日本語(lang=ja)のツイートをするのに利用されているクライアント」などを抽出・集計することができます。

ランキングだけでは味気ないので、TOP10を円グラフで表すのと、各クライアントが時間ごとにどのくらい利用されているのか3つまで比較出来る機能を用意してみました。住んでいるところやクライアントの種類で利用されている時間外が全然違うのがわかります。

現状、なかなかもっさりとした感じなので、イライラするかもしれません。
実験なので、負荷の問題でサービスを終了するかもしれませんし、逆に、作っただけではなくMongoDBのTipsやチューニングなどで改善し、それをさらにネタにして行きたいとも思っています。

*1 7月15日〜8月31日までクローズドベータとして会員限定でプレリリースされたホスティングサービス。2010年9月1日から初期費用無料、月額980円の「さくらのVPS 980」として正式リリースされる。

*2 今回の実験ではmapReduce()よりgroup()を使った集計の方が速度が速いことが多かったので、当日分のリアルタイム集計ではgroup()を利用しています。mapReduce()の結果は新しくコレクションとして保存することができるので、過去分に関してはmapReduce()で抽出→コレクションとして保存→そこから再集計という実装にしています。

Tagged with:
preload preload preload