回答終了
【至急!】プログラマー、エンジニアの方に質問です! 私は恥ずかしながらこの辺の知識は皆無ですので、 しょうもない質問だったり情報が少なかったら申し訳ないです。 内容としては、外部のboketeというサイトの中から、星1000件以上の写真をPC上に、 その写真のボケ(そのページのURL込みの形)とコメントを三つ、 エクセルに保存する作業を行っています。 現在は全て手作業で行っていて、結構時間がかかってしまい困っています。 これをすべてプログラムとして構築することは可能なのでしょうか? もし可能であれば、すぐにでもクラウドワークスなどで依頼しようと思っております。 私の知人のエンジニア自身はできるかできないかわからないということでしたが、 これをすべてプログラム化できたらかなり楽なので、できるとうれしいのですが・・ どうかお力添えください。 よろしくお願いします。
386閲覧
boketeのサイトのhtmlを見てみました 写真のボケとコメントは簡単そうでした、星についてはぱっと見わからなかったですが、たぶんできると思います スクレイピングや、抜き取ったデータをExcelに埋め込む方法は、こちらの本に書いてあります ーーー 書名:退屈なことはPythonにやらせよう ISBN-10 : 4873119278 ISBN-13 : 978-4873119274 ーーー 本に書いてある様な手法なので、まともなプログラマーなら作ることができると思います、プログラム言語はPythonを指定するとメンテナンスが楽です それほど難しいプログラムには成らないが、ow6********さんのご指摘にある通り、構成が変わっても対応できる様に作るのがプログラマーの腕前です bokete側の迷惑に成らない様に、指定した時刻に、指定した範囲をboketeから取り込む作りにして、深夜に作業をさせるとか、数秒ごとに取り込むとかの工夫が必要です 範囲を指定しないと、全データを取り込もうとするのでトンデモナイ事になります プログラムを2本に分けると製造やメンテナンスが楽です 1本目:指定した時刻に、指定した範囲をboketeから自分のPCに取り込む、これは深夜に使います ボケ、コメント、星はCSV形式で保存します(XMLの方が良いが、プログラムがめんどくさいです) 2本目:自分のPCに取り込んだデータを、Excelに張り付ける、これは日中に行います 開発の予算が無ければ、1本目だけ作って、2本目の作業は手作業でやる選択も有ります 構成が変わった場合は1本目だけの修正で済みます
可能です。スクレイピングというジャンルなので、そのワードを依頼文に入れておくと良いでしょう。 プログラムによる機械的なアクセス頻度が非常に速いと、相手方のサービスの妨害となり、違法になる恐れがありますので、アクセス頻度に関しては良い塩梅でやってください。 https://topcourt-law.com/corporate-legal/scraping-three-important-points ※個人的には1秒1回は十分に配慮された水準であり、そんなんで止まった図書館サービスのほうが悪いと考えています。 https://ja.wikipedia.org/wiki/%E5%B2%A1%E5%B4%8E%E5%B8%82%E7%AB%8B%E4%B8%AD%E5%A4%AE%E5%9B%B3%E6%9B%B8%E9%A4%A8%E4%BA%8B%E4%BB%B6 またあなた方が良い塩梅でやっていると思っていても相手方はブロックして来ることがあるので、それはそれで対策してください。
なるほど:1
そういうのを「Webスクレイピング」と言います。 できるかどうかで言えばできる可能性が高いですが、他の人も書いている通り、サイト側の構造がちょっと変わるだけで動かなくなるとか言うリスクもあります。 https://hnavi.co.jp/knowledge/blog/scraping-development/ とくに、サイト側がスクレイピングを嫌う場合には、色々と妨害のための対策をいれてくる可能性もありますからね。 #CAPTCHAなどはロボット避けの最たるものですね もし、そのサイトがAPI公開とかしているようならそれを利用するほうが確実ですね。 また、AIを利用することで、比較的柔軟に対応できるようなものを作ることができるといった可能性もあります。(ただし、AIは人間と同じで間違ったりする可能性もありますが) まずは、対象サイトの調査という形で発注をして、それでスクレイピング開発の可能性やリスク等々を把握してから、開発の発注をするみたいに段階を踏むのがリスク軽減になるかなとは思います。 発注先の技術力とかについても、調査の段階で分かるでしょうから、本当にそこに開発を任せても良いのかという予備審査にもなりますしね。
なるほど:1
boketeのサイトの作りまで見てないから確実ではないけどSelenium使えば出来るんじゃないかな。 スクラッチで軽くHTML解析するの作っても行けるとは思うけど。 ただ固定的に読む馬鹿な作りにすると一つタグが増えただけで読めなくなるから人に依頼するときは注意したほうが良いですよ。
なるほど:1
< 質問に関する求人 >
プログラマー(東京都)この条件の求人をもっと見る
求人の検索結果を見る
< いつもと違うしごとも見てみませんか? >
覆面調査に関する求人(東京都)この条件の求人をもっと見る