英辞郎のtxtデータを使ってSVLが載ったシンプルなCSVを作ってAnkiに入れる
おはようございます。Pocalaです。今回はタイトル通り、「英辞郎のtxtデータを使ってSVLが載ったシンプルなCSVを作ってAnkiに入れる」のを目標として頑張っていきます。
この記事は他の人の記事と比べて非常に雑、雑だな…というやり方なので、参考にする際には気をつけて下さい。
SVLとは?
先にSVLの説明です。自分も昨日知ったんですが…ざっくり言うと「重要順に12000語集めたよ」ってやつです。
www.alc.co.jp
1000語ずつで12段階に分かれる。後半に近づくにつれてだんだん難しくなる。level10だとjeopardizeとか出てくる。
某黒色の単語帳でも3600語以下なので、いっぱいある。
ということで12000語のうち、割と後半の方を入れていきたい!というのが今回のモチベです。
理想
簡単なのは避けたい
Ankiに既に3000枚ほど突っ込んでいるのと、あと正直SVLの序盤は「a」とかなので避けたい。(Gawr Gura並感)
シンプルにしたい
例えば、cartridgeを普通に英辞郎から引っ張ってくると
cartridge
{名-1} 〔銃の〕弾薬筒、薬包、カートリッジ
{名-2} 爆薬筒[カートリッジ]
{名-3} パトローネ◆カメラ用フィルムの入っている筒状のカートリッジ◆【参考】patrone
{名-4} 〔インクなどの〕カートリッジ◆装置にはめ込む小さな容器で、プラスチックで作られることが多い。
{名-5} 〔レコード・プレーヤーの〕カートリッジ◆【同】magnetic cartridge
{名-6} 〔磁気テープの〕カセット
{名-7} 〔シェーバーの〕替え刃
【レベル】7、【発音】kα':(r)tridз、【@】カートリッジ、【変化】《複》cartridges、【分節】car・tridge
みたいになる。多い…ので
cartridge
弾薬筒、薬包
みたいにしたい。
方針
英辞郎の説明をシンプルにするのは難しそうに感じたので、Weblioをスクレイピングすることにした(大丈夫なのか…?不安).
12000語(単語とレベル、発音)を英辞郎から引っ張ってきて、レベル順にソート、それを元にシンプルな意味…をWeblioを使って追加して、Ankiに追加する。
12000語を英辞郎から持ってくる
funct.hatenablog.com
この記事を参考に頑張りました。グッ…と睨んで、そこからいじると単語とレベル、発音が抜き出せます。自分は正規表現を知らなかったので、ここで3時間位試行錯誤しました。
ということでなんとかCSVファイルを作ることに成功。これを難易度順で再ソートして、今から入れるlevel5~9のみに手動で調整しておきます。
スクレイピング
Weblioから意味だけ取ってくることにします…手動で追加するよりかは楽だと思っています。退屈なことはPythonにやらせよう(?)コードはめんどくさいので載せません。頑張って書きましょう。間隔を開けること!
最後に
はい。ということで新規に4008単語が追加されて、6957枚になりました。お疲れさまでした。
いや、これからが本番なんだよな…