質問を頂きましたので、
動画を見つけた後、どのような処理でタグが付くかざっくりと説明します。
まず、以前書いたかもしれないのでデータベース的なことは少しだけ。
タグは3つのテーブルが関連してます。
A「動画一覧テーブル」
B「タグ名一覧テーブル」
C「タグと動画を紐付けるテーブル」
です。
タグと動画を紐付けるテーブルには、AとBのIDだけが記録されていて、ちょっと複雑ですが1行のSQL分で取得出来ます。具体的には
SELECT B.name FROM C tm, A l, B t WHERE t.id = tm.id AND l.id = tm.id AND l.id=タグを取得したいAのID
という感じです。Wordpressも昔はこんな感じだったと思います。
そして、動画からどうやってタグを判断してつけているかということですが、
未だに試行錯誤を繰り返してる状態です。お恥ずかしい。。
Twitterでも時々触れますがアイデア募集中です!
ちなみにタイトルは見つけた動画付近のhtmlを見て、h1,h2,h3やtitleから付けてます。そのため、html内に複数の動画があった場合はタイトルと動画が食い違ってしまうこともあります。この辺りは見つけたら修正したりします。。手動で。。。
現在のタグ付けですが、周辺のテキストも取得しておき、全部つなげた文章から正規表現で当てはめてます。
例えば、以下のような正規表現
(デリ|ヘル).*嬢
にヒットしたら「お姉さん・痴女」のタグをつけたり、
覗(き|く|い|か)
にヒットしたら「盗撮」をつけたりです。
他、間違えやすい「イマラチオ」「イラマチオ」も両方「フェラ」になるようにしたり。
「援交」「円光」も両方「女子校生」にしたり。色々としています。
タグが付かなかったものは、手動で確認して正規表現の種類を増やしていってます。
あと、xvideos等の本家側に英語タグが付いていることもあるので使えます。
「blowjob」なら「フェラ」ですね。
質問者様、見当違いだったらごめんなさい!
- 関連記事
-