Pocalaメモ

アウトプット用のなにか

英辞郎のtxtデータを使ってSVLが載ったシンプルなCSVを作ってAnkiに入れる

おはようございます。Pocalaです。今回はタイトル通り、「英辞郎のtxtデータを使ってSVLが載ったシンプルなCSVを作ってAnkiに入れる」のを目標として頑張っていきます。
この記事は他の人の記事と比べて非常に雑、雑だな…というやり方なので、参考にする際には気をつけて下さい。

SVLとは?

先にSVLの説明です。自分も昨日知ったんですが…ざっくり言うと「重要順に12000語集めたよ」ってやつです。
www.alc.co.jp

1000語ずつで12段階に分かれる。後半に近づくにつれてだんだん難しくなる。level10だとjeopardizeとか出てくる。
某黒色の単語帳でも3600語以下なので、いっぱいある。
ということで12000語のうち、割と後半の方を入れていきたい!というのが今回のモチベです。

英辞郎txtデータ

booth.pm
ワンコインで英辞郎が買えます。Mouse DictionaryというChrome拡張があって、それの中身用に既に購入していました。これを使いたい…

理想

簡単なのは避けたい

Ankiに既に3000枚ほど突っ込んでいるのと、あと正直SVLの序盤は「a」とかなので避けたい。(Gawr Gura並感)

シンプルにしたい

例えば、cartridgeを普通に英辞郎から引っ張ってくると

cartridge
{名-1} 〔銃の〕弾薬筒、薬包、カートリッジ
{名-2} 爆薬筒[カートリッジ]
{名-3} パトローネ◆カメラ用フィルムの入っている筒状のカートリッジ◆【参考】patrone
{名-4} 〔インクなどの〕カートリッジ◆装置にはめ込む小さな容器で、プラスチックで作られることが多い。
{名-5} 〔レコード・プレーヤーの〕カートリッジ◆【同】magnetic cartridge
{名-6} 〔磁気テープの〕カセット
{名-7} 〔シェーバーの〕替え刃
【レベル】7、【発音】kα':(r)tridз、【@】カートリッジ、【変化】《複》cartridges、【分節】car・tridge

みたいになる。多い…ので

cartridge
弾薬筒、薬包

みたいにしたい。

方針

英辞郎の説明をシンプルにするのは難しそうに感じたので、Weblioスクレイピングすることにした(大丈夫なのか…?不安).
12000語(単語とレベル、発音)を英辞郎から引っ張ってきて、レベル順にソート、それを元にシンプルな意味…をWeblioを使って追加して、Ankiに追加する。

12000語を英辞郎から持ってくる

funct.hatenablog.com
この記事を参考に頑張りました。グッ…と睨んで、そこからいじると単語とレベル、発音が抜き出せます。自分は正規表現を知らなかったので、ここで3時間位試行錯誤しました。

ということでなんとかCSVファイルを作ることに成功。これを難易度順で再ソートして、今から入れるlevel5~9のみに手動で調整しておきます。

f:id:kemingsurface:20210202161932p:plain

スクレイピング

Weblioから意味だけ取ってくることにします…手動で追加するよりかは楽だと思っています。退屈なことはPythonにやらせよう(?)コードはめんどくさいので載せません。頑張って書きましょう。間隔を開けること!

Ankiに突っ込む

ということでCSVファイルが完成しました。突っ込みましょう。

f:id:kemingsurface:20210202190335p:plain

f:id:kemingsurface:20210202192357p:plain

最後に

はい。ということで新規に4008単語が追加されて、6957枚になりました。お疲れさまでした。
いや、これからが本番なんだよな…