Perl 将大的 .csv 导入 MySQL，不要重复数据答案

【问题标题】：Perl Import large .csv to MySQL, don't repeat dataPerl 将大的 .csv 导入 MySQL，不要重复数据
【发布时间】：2013-04-21 00:46:22
【问题描述】：

我正在尝试将几个 .csv 文件导入 mysql 数据库，下面的脚本可以正常工作，只是它只将我的 csv 数据的第一行导入数据库。我的两个表都只填充了一个数据条目。

任何帮助将不胜感激。

谢谢

#!/usr/bin/perl

use DBI;
use DBD::mysql;
use strict;
use warnings;

# MySQL CONFIG VARIABLES
my $host = "localhost";
my $user = "someuser";
my $pw = "somepassword";

my $database = "test";
my $dsn = "DBI:mysql:database=" . $database . ";host=" . $host;

 my $dbh = DBI->connect($dsn, $user, $pw)
   or die "Can't connect to the DB: $DBI::errstr\n";

 print "Connected to DB!\n";


# enter the file name that you want import

my $filename = "/home/jonathan/dep/csv/linux_datetime_test_4.26.13_.csv";

open FILE, "<", $filename or die $!;

$_ = <FILE>;
$_ = <FILE>;

while (<FILE>) {
   my @f = split(/,/,$_);

if (length($f[4]) < 10) {
            print "No Weight\n"; 
    }
    else {
           #insert the data into the db
           print "insert into datetime_stamp\n"; 
}
        my $sql = "INSERT INTO datetime_stamp (subject, date, time, weight)                       
VALUES('$f[1]', '$f[2]', '$f[3]', '$f[4]')";
    print "$sql\n";
        my $query = $dbh->do($sql);

        my $sql = "INSERT INTO subj_weight (subject, weight) VALUES('$f[1]', '$f[2]')";
        my $query = $dbh->do($sql);

close(FILE);
}

【问题讨论】：

将close(FILE) 放在while 循环之外
如果没有proper SQL escaping，这将无法正常工作。
@tadman：如果数据很简单，很可能不需要转义。当然，表名不需要它，这是您的链接所描述的。
没有“简单”这样的东西。 subject 或 O'Reilly 会使查询失败。您必须正确地转义您放入 SQL 语句的任何内容。假设只会让你陷入严重的麻烦。该链接讨论了如何使用 ? 作为占位符安全地转义表名和值。

标签： mysql perl csv

【解决方案1】：

如前所述，您在读取第一个数据条目后关闭输入文件，因此只用一条记录填充您的数据库。

但是，您可能需要考虑您的代码存在一些问题：

如果在程序运行时打印诊断信息，则应在 STDOUT 文件句柄上设置 autoflush。否则 perl 不会打印输出，直到它有一个充满文本的缓冲区要打印或者程序退出时文件句柄关闭。这意味着您可能要等到事件发生很久之后才能看到您编码的消息
你应该使用Text::CSV来解析CSV数据，而不是依赖split
您可以将变量插入到双引号字符串中。这避免了使用多个连接运算符并使意图更清晰
你的open 近乎完美——这是一件不寻常的事情——因为你正确地使用了open 的三参数形式，并测试它是否成功并将$! 放入die 字符串中.但是，您也应该始终使用词法文件句柄，而不是老式的全局句柄
您没有chomp 从输入中读取的行，因此最后一个字段将有一个尾随换行符。使用Text::CSV 可以避免这种情况
您使用从输入记录拆分的数据的索引 1 到 4。 Perl 索引从零开始，这意味着您正在删除第一个字段。对吗？
类似地，您将字段 1 和 2（似乎是 subject 和 date）插入到名为 subject 和 weight 的字段中。这似乎不太可能是正确的
您应该 prepare 您的 SQL 语句，使用占位符，并在 execute 调用中提供实际数据
您似乎诊断了从文件中读取的数据（“无权重”），但无论如何将数据插入数据库。这可能是正确的，但似乎不太可能

这是包含这些修正的程序版本。希望对你有用。

#!/usr/bin/perl

use strict;
use warnings;

use DBI;
use Text::CSV;
use IO::Handle;

STDOUT->autoflush;

# MySQL config variables
my $host = "localhost";
my $user = "someuser";
my $pw   = "somepassword";

my $database = "test";
my $dsn      = "DBI:mysql:database=$database;host=$host";

my $dbh = DBI->connect($dsn, $user, $pw)
    or die "Can't connect to the DB: $DBI::errstr\n";

print "Connected to DB!\n";

my $filename = "/home/jonathan/dep/csv/linux_datetime_test_4.26.13_.csv";

open my $fh, '<', $filename
    or die qq{Unable to open "$filename" for input: $!};

my $csv = Text::CSV->new;

$csv->getline($fh) for 1, 2;  # Drop header lines

my $insert_datetime_stamp = $dbh->prepare( 'INSERT INTO datetime_stamp (subject, date, time, weight) VALUES(?, ?, ?, ?)' );
my $insert_subj_weight = $dbh->prepare( 'INSERT INTO subj_weight (subject, weight) VALUES(?, ?)' );

while (my $row = $csv->getline($fh)) {

    if (length($row->[4]) < 10) {
        print qq{Invalid weight: "$row->[4]"\n};
    }
    else {
        #insert the data into the db
        print "insert into datetime_stamp\n";
        $insert_datetime_stamp->execute(@$row[1..4]);
        $insert_subj_weight->execute(@$row[1,4]);
    }
}

【讨论】：